JP2020053882A

JP2020053882A - コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法

Info

Publication number: JP2020053882A
Application number: JP2018182423A
Authority: JP
Inventors: 尚也川畑; Naoya Kawabata
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-02
Anticipated expiration: 2038-09-27
Also published as: JP7361460B2

Abstract

【課題】複数の使用者が呼びかけ音声で通話相手と接続する場合に、違和感無く通話を開始させ終了させる。【解決手段】本発明のコミュニケーション装置は、入力された映像信号から１又は複数の人物を検知する人物検知部と、人物が検知されたときに入力された音声信号に基づいて音声認識をする音声認識部と、少なくとも接続コマンド及び切断コマンドを含む複数のコマンドを記憶するコマンド記憶部と、音声認識結果がコマンド記憶部に記憶される接続コマンド又は上記切断コマンドと一致するか否かを判定するコマンド判定部と、コマンド判定部によるコマンド判定結果に応じて、出力音声信号を決定する出力切替部と、音声認識結果及びコマンド判定結果に基づいて、接続先との接続処理を行う接続判定部とを備える。【選択図】図１

Description

本発明は、コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法に関し、例えば、テレビ会議システムや電話会議システム等において用いられるコミュニケーション装置に適用し得るものである。

近年、テレビ会議システムや電話会議システム等のコミュニケーションシステムを用いて、遠隔地と、テレビ会議やテレワークなどの通話やコミュニケーションを行う機会が増えている。

遠隔通話システムでは、遠隔地の相手と通話を行うために、遠隔通話システムに接続されている入力装置（例えば、マウス、キーボード、リモコンなど）で通話相手先の電話番号などの連絡先を入力、選択して接続する。また近年ではモバイル端末（例えば、スマートフォンやタブレットパソコンなどの端末）の普及により、遠隔通話システムがモバイル端末で動作するものもある。この場合、モバイル端末の画面上に表示されるキーボードで連絡先を入力して接続したり、モバイル端末のタッチパネルディスプレイに表示されている連絡先をタッチして接続したり、モバイル端末の画面上に表示されている通話相手の映像をタッチして接続するなどして、遠隔通話システムが相手側と接続することが多い。

さらに、特許文献１には、遠隔通話システムをロボッ卜に組込み、近親者と単身の高齢者とのコミュニケーション支援するコミュニケーション支援ロボットシステムが提案されている。

特許文献１に記載のコミュニケーション支援ロボッ卜システムは、タッチパネルディスプレイに表示されている、近親者や高齢者の映像をタッチすることで通話相手に接続され、通話が開始する。

特開２０１５−１８４５９７号公報

しかしながら、特許文献１に記載のコミュニケーション支援ロボットシステムは、従来の遠隔通話システムの接続方法と同様に、入力装置で通話相手の連絡先を入力したり、タッチパネルディスプレイに表示されている連絡先をタッチしたりするなどして、通話の開始や終了を行っている。従来の接続方法で遠隔地と接続することは、実際の対面での通話と異なっているため臨場感（例えば、対面で会話しているような感覚）が非常に低い。

上記の問題を解決するために、例えば、特許文献１に記載のコミュニケーション支援ロボットに搭載されている音声認識システムを使用して、接続先の通話相手の名前や会話を開始するコマンド（例えば、「人名＋こんにちは」、「人名＋こんばんは」など）などの呼びかける音声（以下、呼びかけ音声）を使用者が発話し、その言葉を音声認識システムに入力し、コミュニケーション支援ロボットが音声認識結果から接続先を判定して接続を開始できるようにすることも考えられる。

しかし、呼びかけ音声が音声認識システムに入力され、音声認識結果が得られた後に、音声認識結果から通話相手が決定して相手側に接続されるため、呼びかけ音声が通話相手に伝わらない。このため、通話相手からすると突然接続されることになるので、通話相手は違和感や不安感を得て、臨場感が向上しない。

また、例えば、周りで人が話をしていたり、空調などの騒音が大きかったりする場合、使用環境の雑音が大きく、使用者が呼びかけ音声を発話しても、特許文献１に記載のコミュニケーション支援ロボットでは、呼びかけ音声を品質良く収音することができず、相手側との接続や切断が正しく機能しない。

さらに、特許文献１に記載のコミュニケーション支援ロボットシステムでは、ロボットの使用者側が単身の高齢者向けであるので、１人でしか遠隔通話システムを使用できず、遠隔通話システムを複数の使用者が使用することが出来ない。

そのため、使用環境の雑音が大きい場合でも、複数の使用者のいずれかが発話した呼びかけ音声を収音し、収音した呼びかけ音声を正しく認識して、その呼びかけ音声で相手側との接続を開始した後に、その呼びかけ音声を相手側に伝達することで臨場感のある通話を開始することができ、また、通話を終了するときには、複数の使用者のいずれかが発話した通話を切断する音声（以下、切断音声）を正しく認識して、通話が終了してから、相手側との通話が切断できるコミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法が望まれている。

本発明は、以上の点を考慮してなされたものであり、マイクアレイを使用して複数の話者が発話した音声を強調する信号処理を行い、信号処理した信号を一度バッファに保持すると同時に信号処理した信号に対して音声認識を行う。そして、その音声認識結果が呼びかけ音声かを判定し、呼びかけ音声の場合は、通話相手に接続してから、バッファに保持している呼びかけ音声を出力して呼びかけ音声が相手に伝達して通話を開始することができる。また、通話を終了するときには、マイクアレイを使用して複数の使用者が発話した音声を強調する信号処理を行い、信号処理した信号に対して音声認識を行う。そして、その音声認識結果が切断音声かを判定し、切断音声の場合は、相手側との通話を切断して、より対面での会話に近い状態を再現できる呼びかけ処理装置を提供しようとするものである。

例えば、雑音が大きい環境での複数の話者の呼びかけ音声の収音は、マイクアレイを使用して音声を強調する信号処理で解決する。相手側の呼びかけ音声の再生、及び臨場感の向上は、バッファに保持している呼びかけ音声を出力する処理で解決する。

第１の本発明に係るコミュニケーション装置は、（１）入力された映像信号から１又は複数の人物を検知する人物検知部と、（２）人物検知部により１又は複数の人物が検知されたときに、入力された音声信号に基づいて音声認識をする音声認識部と、（３）少なくとも、接続先との接続を開始する接続コマンド及び接続を切断する切断コマンドを含む複数のコマンドを記憶するコマンド記憶部と、（４）音声認識部による音声認識結果がコマンド記憶部に記憶される接続コマンド又は上記切断コマンドと一致するか否かを判定するコマンド判定部と、（５）コマンド判定部によるコマンド判定結果に応じて、出力音声信号を決定する出力切替部と、（６）音声認識結果及びコマンド判定結果に基づいて、接続先との接続処理を行う接続判定部とを備えることを特徴とする。

第２の本発明に係るコミュニケーションプログラムは、コンピュータを、（１）入力された映像信号から１又は複数の人物を検知する人物検知部と、（２）人物検知部により１又は複数の人物が検知されたときに、入力された音声信号に基づいて音声認識をする音声認識部と、（３）少なくとも、接続先との接続を開始する接続コマンド及び接続を切断する切断コマンドを含む複数のコマンドを記憶するコマンド記憶部と、（４）音声認識部による音声認識結果がコマンド記憶部に記憶される接続コマンド又は切断コマンドと一致するか否かを判定するコマンド判定部と、（５）コマンド判定部によるコマンド判定結果に応じて、出力音声信号を決定する出力切替部と、（６）音声認識結果及びコマンド判定結果に基づいて、接続先との接続処理を行う接続判定部として機能させることを特徴とする。

第３の本発明に係るコミュニケーション方法は、（１）人物検知部が、入力された映像信号から１又は複数の人物を検知し、（２）音声認識部が、人物検知部により１又は複数の人物が検知されたときに、入力された音声信号に基づいて音声認識をし、（３）コマンド記憶部が、少なくとも、接続先との接続を開始する接続コマンド及び接続を切断する切断コマンドを含む複数のコマンドを記憶し、（４）コマンド判定部が、音声認識部による音声認識結果がコマンド記憶部に記憶される接続コマンド又は切断コマンドと一致するか否かを判定し、（５）出力切替部が、コマンド判定部によるコマンド判定結果に応じて、出力音声信号を決定し、（６）接続判定部が、音声認識結果及びコマンド判定結果に基づいて、接続先との接続処理を行うことを特徴とする。

本発明によれば、使用環境の雑音が大きい場合でも、複数の使用者が発話した音声を強調し、呼びかけ音声かどうか判定し、呼びかけ音声の場合は、呼びかけ音声で相手側との接続を開始した後に、その呼びかけ音声を相手側に伝達することで臨場感のある通話を開始することができ、又通話を終了するときには、複数の使用者が発話した音声を強調し、切断音声かどうか判定し、切断音声の場合は、相手側との通話が切断できる。

また、本発明によれば、使用者がマイクから離れていても通話相手と接続するときに、実際の対面での通話するときと同じ、接続先の通話相手の名前等と会話が開始する言葉で接続を開始し、通話が終了する言葉で接続を終了することで、会話が開始する状態と終了する状態を再現し、双方が高い臨場感を感じることができる。

第１の実施形態に係るコミュニケーション装置の構成を示すブロック図である。第１の実施形態において、一方の拠点の部屋内に設置されるコミュニケーション装置に係る機器の配置や使用者との位置関係の一例を説明する説明図である。第１の実施形態に係るコマンドリスト部の構成例を説明する説明図である。第２の実施形態に係るコミュニケーション装置の構成を示すブロック図である。第２の実施形態において、一方の拠点の部屋内に設置されるコミュニケーション装置に係る機器の配置や使用者との位置関係の一例を説明する説明図である（その１）。第２の実施形態において、一方の拠点の部屋内に設置されるコミュニケーション装置に係る機器の配置や使用者との位置関係の一例を説明する説明図である（その２）。

（Ａ）第１の実施形態
以下では、本発明のコミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法の実施形態を、図面を参照しながら詳細に説明する。

第１の実施形態は、例えば、テレビ会議システムや電話会議システム等のマイク入力部に、上述した本発明のコミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法を適用した場合を例示したものである。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係るコミュニケーション装置１００の構成を示すブロック図である。

第１の実施形態のコミュニケーション装置１００は、例えば、専用ボードとして構築されるようにしても良いし、ＤＳＰ（デジタルシグナルプロセッサ）への遠隔コミュニケーションプログラムの書き込みによって実現されたものであっても良く、ＣＰＵと、ＣＰＵが実行するソフトウェア（例えば、遠隔コミュニケーションプログラム）によって実現されたものであっても良いが、機能的には、図１で表すことができる。

コミュニケーション装置１００は、ネットワーク１０７を介して、遠隔地にある相手側の拠点に設置されているコミュニケーション装置との間で、映像信号及び音信号を通信して、相手側とコミュニケーションを図るものである。ここでは、相手側の拠点にも、図１に例示するコミュニケーション装置１００が配置されているものとする。

図１において、第１の実施形態に係るコミュニケーション装置１００は、マイクアレイ１０１、マイクアンプ１０２、アナログ−デジタル（ＡＤ）変換部１０３、ビデオカメラ１０４、呼びかけ処理部１０５、ＮＷ通信部１０６、デジタル−アナログ（ＤＡ）変換部１０８、スピーカアンプ１０９、スピーカ１１０ａ及び１１０ｂ、モニター１１１を有する。

マイクアレイ１０１は、人の音声や音を受音する複数本のマイクロホン（以下、「マイク」とも呼ぶ。）を有するものである。

マイクアンプ１０２は、マイクアレイ１０１の各マイクにより受音された複数の入力信号（アナログの音信号）のそれぞれを増幅して、ＡＤ変換部１０３に出力する。

ＡＤ変換部１０３は、マイクアンプ１０２により増幅された複数の入力信号をアナログ信号からデジタル信号に変換して、コミュニケーション装置１００に出力する。以下、ＡＤ変換部１０３で変換された信号を「マイク入力信号」とも呼ぶ。

ビデオカメラ１０４は、自拠点（コミュニケーション装置１００が設置される拠点）に設置される撮影デバイス（撮像装置）である。ビデオカメラ１０４によって撮像された映像信号は、呼びかけ処理部１０５を介してＮＷ通信部１０６に出力され、映像信号はＮＷ通信部１０６によってネットワーク１０７に送信される。

呼びかけ処理部１０５には、ビデオカメラ１０４からの映像信号と、マイクアレイ１０１が受音したマイク入力信号とが入力する。ビデオカメラ１０４から入力された映像信号は、呼びかけ処理部１０５を介してＮＷ通信部１０６に出力されてネットワーク１０７に送信される。

呼びかけ処理部１０５は、ビデオカメラ１０４から入力された映像信号に人が撮像されているか否かを判定する。そして、映像信号に人が映っていると判定した場合、呼びかけ処理部１０５は、入力された複数のマイク入力信号を信号処理して、ＮＷ通信部１０６に出力する共に、同時に信号処理した信号をオーディオバッファ部１１７に保存する。

また、呼びかけ処理部１０５は、信号処理した信号を用いて音声認識を行ない、音声認識結果がコマンドリスト部１１９のコマンドの１つと一致するか否かを判定する。音声認識結果がコマンドの１つと一致する場合、呼びかけ処理部１０５は、接続判定結果と、オーディオバッファ部１１７に保存されている音信号をＮＷ通信部１０６に一定時間出力する。そして、一定時間出力が完了すると、呼びかけ処理部１０５は、再び信号処理した信号を、ＮＷ通信部１０６に出力する。音声認識結果がコマンドの１つと一致しない場合、呼びかけ処理部１０５は、接続判定結果と信号処理した信号とを、ＮＷ通信部１０６に出力する。

一方、映像信号に人が映っていないと判定した場合、呼びかけ処理部１０５は、信号処理を停止する。このとき、ＮＷ通信部１０６には音声を出力しない。

ＮＷ通信部１０６は、ネットワーク１０７を介して、相手側の拠点に設置されているコミュニケーション装置１００との間で映像信号及び音信号を送受信するものである。ＮＷ通信部１０６は、呼びかけ処理部１０５からの接続判定結果に基づいて、ネットワーク１０７との接続処理を行う。つまり、ネットワーク１０７と接続指示を受けると、ＮＷ通信部１０６は、指示された相手側のコミュニケーション装置１００と接続を開始する。ネットワーク１０７との接続後、コミュニケーション装置１００は、ＮＷ通信部１０６を介して、相手側のコミュニケーション装置１００との間で音声のやり取りを行なう。

また、ネットワーク１０７との接続切断指示を受けると、ＮＷ通信部１０６は、相手側のコミュニケーション装置１００との接続を切断する。

ＤＡ変換部１０８は、ネットワーク１０７からの音信号（ＮＷ通信部１０６を介して送信されてきた音信号）をデジタル信号からアナログ信号に変換して、スピーカアンプ１０９に出力する。

スピーカアンプ１０９は、ＤＡ変換部１０８により変換されたアナログ信号を増幅して、スピーカ１１０ａ及び１１０ｂに出力する。

スピーカ１１０ａ、１１０ｂは、電気信号を空気の振動に変換して音として出力するスピーカである。第１の実施形態では、スピーカ１１０ａ及び１１０ｂはステレオスピーカである場合を例示するが、スピーカ１１０ａ及び１１０ｂは、ステレオスピーカに限定されるものではない。

モニター１１１は、映像出力デバイス（映像出力装置）である。モニター１１１が出力する映像は、例えば、相手側の拠点に設置されたビデオカメラ１０４によって撮影された映像であって、この映像（エンコードされたデータ）はネットワーク１０７を介してＮＷ通信部１０６で受信されデコード（復号）した後、モニター１１１に入力される。

次に、第１の実施形態に係る呼びかけ処理部１０５の詳細な構成を説明する。

呼びかけ処理部１０５は、音入力端子１１５、映像入力端子１１２、映像出力端子１１３、人物位置検知部１１４、信号処理部１１６、オーディオバッファ部１１７、音声認識部１１８、コマンドリスト部１１９、コマンド判定部１２０、出力切替部１２１、音出力端子１２２、接続判定部１２３、接続判定結果出力端子１２４を有する。

映像入力端子１１２は、ビデオカメラ１０４から映像信号を入力するインタフェース部である。

映像出力端子１１３は、ビデオカメラ１０４から入力された映像信号をＮＷ通信部１０６に出力するインタフェース部である。

人物位置検知部１１４は、ビデオカメラ１０４から入力された映像信号に人が映っているか否かを判定し、その判定結果を信号処理部１１６及び音声認識部１１８に出力する。例えば、人物位置検知部１１４は、入力される映像信号を用いた画像処理により、映像フレームに人が映っているか否かを判定し、人物を検知した場合には、人を検知したことを示す判定結果（例えば、「１」など）を出力し、それ以外の場合には、人非検知を示す判定結果（例えば、「０」など）を出力する。

また、映像信号に人が映っていると判定した場合、人物位置検知部１１４は、人がいる方向情報を信号処理部１１６に出力する。さらに、複数の人物を検知した場合には、検知した各人の方向情報を出力する。

音入力端子１１５は、ＡＤ変換部１０３からマイク入力信号を入力するインタフェース部である。

信号処理部１１６は、入力されたマイク入力信号を信号処理し、信号処理した信号（以下、「マイクアレイ処理信号」とも呼ぶ。）を出力切替部１２１、オーディオバッファ部１１７及び音声認識部１１８に出力する。

オーディオバッファ部１１７は、信号処理部１１６により信号処理信号を、一定時間保持するバッファである。オーディオバッファ部１１７は、一定時間経過後、保持している信号を出力切替部１２１に出力する。

音声認識部１１８は、信号処理部１１６により信号処理されたマイクアレイ処理信号を音声認識して、その音声認識結果をコマンド判定部１２０に出力する。

コマンドリスト部１１９は、コマンドの一覧が保持されているテキストファイルである。ここで、コマンドには、様々なコマンドを含むことができるが、この実施形態では、コマンドの一例として接続コマンドと切断コマンドとが含まれる。コマンドの一例である接続コマンドと切断コマンドの詳細な説明は後述する。

コマンド判定部１２０は、音声認識部１１８からの音声認識結果がコマンドリスト部１１９に保持されているコマンドに存在するか否か判定するものであり、その判定結果を、出力切替部１２１及び接続判定部１２３に出力する。コマンド判定部１２０による判定方法の詳細な説明は後述する。

出力切替部１２１は、信号処理部１１６とオーディオバッファ部１１７とに接続しており、コマンド判定部１２０による判定結果に応じて、信号処理部１１６からの出力信号と、オーディオバッファ部１１７からの出力信号とのいずれかを切り替えて、音出力端子１２２に出力する。

音出力端子１２２は、出力切替部１２１により切り替えられた音信号を出力するインタフェース部である。音出力端子１２２から出力される音信号が、呼びかけ処理部１０５から出力される音信号となる。

接続判定部１２３は、コマンド判定部１２０により判定された判定結果に基づいて、ネットワーク１０７との接続判定を行なうものである。

例えば、音声認識結果が、人名と接続コマンドと続けて一致するとの判定結果である場合、接続判定部１２３は、接続コマンドに基づいて、相手側の接続先であるコミュニケーション装置１００を決定し、決定した接続先に関する情報と、当該接続先への接続指示とを含む接続判定結果をＮＷ通信部１０６に出力する。音声認識結果が切断コマンドと一致するとの判定結果である場合、接続判定部１２３は、接続している相手側のコミュニケーション装置１００との接続切断指示を含む接続判定結果をＮＷ通信部１０６に出力する。

接続判定結果出力端子１２４は、接続判定部１２３からの接続判定結果を、ＮＷ通信部１０６に出力する。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態に係るコミュニケーション装置１００における処理動作を、図面を参照しながら詳細に説明する。

図２は、第１の実施形態において、一方の拠点の部屋内に設置されるコミュニケーション装置に係る機器の配置や使用者との位置関係の一例を説明する説明図である。なお、他方の拠点においても図２と同様に、遠隔コミュニケーション１００が設置されているものとする。

図２において、部屋１５１は例えば会議室であり、部屋１５１の高さは、モニター１１１を簡単に設置でき、かつ十分に余裕のある高さ（例えば、モニター１１１の高さ＋数ｍ、または２ｍ以上）があれば良く、部屋１５１の大きさ（面積）は、モニター１１１やマイクアレイ１０１、スピーカ１１０ａ及び１１０ｂなどが簡単に設置でき、かつ、十分に余裕がある広さ、または使用者１５２ａ及び１５２ｂが会話するのに十分広さ（例えば、横縦数ｍ）があれば良い。

まず、コミュニケーション装置１００の動作が開始すると、モニター１１１は、相手側の拠点のコミュニケーション装置１００のビデオカメラ１０４で撮影している映像を表示する。

つまり、コミュニケーション装置１００が動作開始し、自拠点のビデオカメラ１０４が起動すると、ビデオカメラ１０４で撮影された映像信号は、呼びかけ処理部１０５を介してＮＷ通信部１０６に与えられ、ＮＷ通信部１０６が、ネットワーク１０７を通じて、相手側の拠点のＮＷ通信部１０６に映像信号を送信する。これにより、自拠点の映像は相手側の拠点のモニター１１１に表示される。同様に、相手拠点の映像が自拠点のモニター１１１に表示される。

このとき、両拠点のコミュニケーション装置１００は音声信号を送受信しておらず、両拠点とも相手側のビデオカメラ１０４で撮影した映像だけがモニター１１１に表示されて、お互いの拠点の様子を確認できる。

また、ビデオカメラ１０４により撮影された映像信号は、呼びかけ処理部１０５の映像入力端子１１２に入力され、映像信号が人物位置検知部１１４に入力される。

コミュニケーション装置１００が動作開始後から人がコミュニケーション装置１００に近づくまでは，各拠点のコミュニケーション装置１００は音声信号を送受信しておらず、両拠点とも相手側のビデオカメラ１０４で撮影した映像だけがモニター１１１に表示されて、お互いの拠点の様子を確認できる状態になっている。

コミュニケーション装置１００が動作開始してしばらくすると、相手拠点にいる人と通話を試みようとする使用者１５２ａ及び１５２ｂは、相手側の拠点の映像を見て、通話相手を探したり、確認したりするためにモニター１１１に近づく。このとき、図２に例示するように、ビデオカメラ１０４はモニター１１１付近に設置されている（図２の例では、モニター１１１の上部にビデオカメラ１０４が設置されている）ため、ビデオカメラ１０４は、モニター１１１に近づく使用者１５２ａ及び１５２ｂを撮影し、使用者１５２ａ及び１５２ｂが映っている映像信号が呼びかけ処理部１０５の映像入力端子１１２に入力される。

呼びかけ処理部１０５の映像入力端子１１２に、使用者１５２ａ及び１５２ｂが映っている映像信号が入力され始めると、ビデオカメラ１０４の映像信号が人物位置検知部１１４に入力される。

人物位置検知部１１４は、映像信号に映っている使用者１５２ａ及び１５２ｂの２人を検知し、人物位置検知部１１４は、人が映っていることを示す判定結果（例えば「１」など）を信号処理部１１６及び音声認識部１１８に出力すると共に、映像フレームにおける使用者１５２ａ及び１５２ｂの位置に関する情報（例えば、方向情報）を信号処理部１１６に出力する。

さらに、相手側の拠点にいる人と通話を試みようとする使用者１５２ａと１５２ｂのいずれかは、通話したい相手を呼びかけるために、呼びかけ音声を発声する。ここで、呼びかけ音声とは、相手側の拠点で通話したい相手を呼びかける音声であると共に、相手側の拠点との通話を開始するものとして機能する。呼びかけ音声は、実際に対面して会話をする際に用いられる言葉を含むことが望ましい（例えば、「人名＋こんにちは」、「人名＋こんばんは」など）。これにより、コミュニケーション装置１００を通じて相手側の拠点の人と通話をする際に違和感なく通話を開始させることができる。

使用者１５２ａ又は１５２ｂのいずれかが発話した呼びかけ音声は、マイクアレイ１０１の各マイクに受音される。このとき、部屋１５１における環境音も各マイクに受音されるため、各マイクに受音される音信号は、使用者１５２ａ及び１５２ｂが発話した音声信号に環境音が重畳した信号となる。

マイクアレイ１０１の各マイクに入力したアナログの音信号は、マイクアンプ１０２で増幅され、ＡＤ変換部１０３でアナログ信号からデジタル信号に変換され、呼びかけ処理部１０５の音入力端子１１５にマイク入力信号ｘ（ｍ，ｎ）として入力される。なお、マイク入力信号ｘ（ｍ，ｎ）において、ｍはマイクアレイ１０１内の各マイクを識別するパラメータであり、ｎは入力信号の時系列を示すパラメータである。

呼びかけ処理部１０５の音入力端子１１５に信号が入力され始めると、まず、マイク入力信号ｘ（ｍ，ｎ）が信号処理部１１６に入力される。

人物位置検知部１１４でビデオカメラ１０４の映像信号に人が映っていると判定されたとき、信号処理部１１６は、人物位置検知部１１４から各人物の位置に関する情報（例えば、方向情報）を用いて、マイク入力信号ｘ（ｍ，ｎ）に対してマイクアレイ処理を行い、指向性処理や音源を分離する音源分離処理をする。

このように、映像信号に人が映っていると判定されたときに、信号処理部１１６が信号処理を行うことで、使用環境となる部屋１５１に使用者以外の人がいるような場合でも、使用者以外の人の音声をマイクが受音して、誤って相手側の拠点と接続することなく、モニター１１１の前にいる使用者の音声を正しく捉えることができる。

また、映像信号に人が映っていると判定されたとき、信号処理部１１６は、人物位置検知部１１４からの人の方向情報に基づいて、映像信号に映っている各人の音声として扱い、マイクアレイ１０１に形成される指向性や音源分離処理を行なう。人物位置検知部１１４による人の検知方法は特に限定されるものではなく、種々の方法を広く適用することができ、例えば、ビデオカメラ１０４が撮影する映像信号（映像フレーム）のＸ−Ｙ座標系と、マイクアレイ１０１の各マイクの位置を決めるＸ−Ｙ座標系との対応させるために、映像信号（映像フレーム）のＸ−Ｙ座標系と、マイクアレイ１０１の各マイク位置のＸ−Ｙ座標系の原点との間で座標変換処理を行ない、人のいる方向情報を算出するようにしても良い。

指向性処理の手法は、例えば、従来のマイクアレイ処理である遅延和アレイ処理でマイクアレイ１０１が直線型のマイクアレイの場合に、以下の（１）式に従い、処理する手法がある。

上記（１）式のｘ’＿ｋ（ｎ）はマイクアレイ処理信号、Ｄｍは各マイク信号に付加する遅延量、Ｋは指向性を形成する数、Ｍはマイクの本数、（２）式のＤ０は固定遅延量、（３）式のτ＿ｋはマイク間の遅延量、ｄはマイク間隔、θｋは指向性を形成する角度（人物位置検知部１１４からの人の方向情報）、ｃは音速である。

例えば、１つの指向性をマイクアレイ１０１の正面方向に指向性を形成する場合は、Ｋ＝１、指向性を形成する角度θ１＝０になるので、上記（３）式より、τ＿１＝０となる。また例えば、２つの指向性をマイクアレイ１０１の９０度方向に指向性を形成する場合は、Ｋ＝２、指向性を形成する角度θ２＝π／２（πは円周率）になり、上記（３）式より、τ＿２＝ｄ／ｃとなる。

なお、信号処理の算出手段は、種々の方法を広く適用することができ、例えば、遅延和アレイ処理以外の従来の別マイクアレイ処理や、マイクアレイを２組使用して、ある特定のエリアの収音できるマイクアレイ処理でも良い。

そして、信号処理部１１６は、人物位置検知部１１４でビデオカメラ１０４の映像信号に人が映っていると判定されたときは、算出したマイクアレイ処理信号ｘ’＿ｋ（ｎ）を、オーディオバッファ部１１７と、音声認識部１１８と、出力切替部１２１に出力し、人物位置検知部１１４でビデオカメラ１０４の映像信号に人が映っていないと判定されたときは、（４）式に示すように、無線信号をオーディオバッファ部１１７と、音声認識部１１８と、出力切替部１２１に出力する。
ｘ’＿ｋ（ｎ）＝０ …（４）

また、呼びかけ処理部１０５は、同時にマイクアレイ処理信号ｘ’＿ｋ（ｎ）を、以下の（５）式に従い、オーディオバッファ部１１７のオーディオバッファｂｕｆｆｅｒ＿ｋ（ｎ）の書込み位置ｗｒｉｔｅ＿ｉｎｄｅｘの位置に保持する。保持した後、呼びかけ処理部１０５は、以下の（６）式に示すように、書込み位置ｗｒｉｔｅ＿ｉｎｄｅｘの値に「１」をインクリメントして処理を進める。

上記（６）式のＢＵＦＦＥＲ＿ＳＩＺＥは、オーディオバッファ部１１７のバッファの長さである。

さらに、呼びかけ処理部１０５は、同時にマイクアレイ処理信号ｘ’＿ｋ（ｎ）を音声認識部１１８で音声認識を行う。そして、マイクアレイ処理信号ｘ’＿ｋ（ｎ）の音声認識結果をマイクアレイ処理信号毎にコマンド判定部１２０に出力する。

コマンド判定部１２０は、音声認識結果とコマンドリスト部１１９に保持されているコマンド一覧（例えば、図３のコマンドリスト）とを比較し、コマンドリストにある「人名」とコマンドリストにある「接続コマンド」が続けて音声認識されたか否かの判定を行う。例えば、使用者が「○○さんこんにちは」などのように発話し、音声認識結果が、コマンドリストに設定されている「人名」と「接続コマンド」とが連続して音声認識された場合、判定結果として「１」を、後述する「切断コマンド」が音声認識された場合は、判定結果として「２」を、それ以外は「０」を出力する。そして、コマンド判定部１２０は、判定結果を出力切替部１２１に出力し、判定結果と音声認識結果を接続判定部１２３に出力する。

コマンドリスト部１１９は、例えば、図３のようにコマンドの一覧がテキス卜ファイルで保持されている。例えば、図３に例示するコマンドリストは、大別して、少なくとも相手側の拠点の通話相手となり得る人の名前等を示す「人名」、実際に対面する相手と会話を始める際に用いる言葉であって、且つ、相手側の拠点との接続開始を実行するコマンドとして機能する「接続コマンド」、実際に対面する相手と会話を終了する際に用いる言葉であって、且つ、相手側の拠点との接続終了を実行するコマンドとして機能する「切断コマンド」を有している。なお、図３のコマンド一覧は一例であって、コマンドリスト部１１９が保持するデータの内容及び形式は、種々様々な値（形式）を適用することができる。

接続判定部１２３は、音声認識部１１８による音声認識結果及びコマンド判定部１２０に基づくコマンド判定結果に基づいて接続判定を行い、接続判定結果をＮＷ通信部１０６に出力する。

例えば、コマンド判定部１２０の判定結果が「１」で音声認識結果１１８の認識結果が「○○さんこんにちは」という音声認識結果が出力された場合、接続判定部１２３は、相手側の拠点のコミュニケーション装置１００が設置されている近くに「○○さん」がいるとき、相手側の拠点のコミュニケーション装置１００に接続する信号を接続判定結果出力端子１２４に出力する。拠点のコミュニケーション装置１００が設置されている近くに「○○さん」が入るかどうかの判定は、事前に端末の近くにいる人を登録した情報を使用する。

ＮＷ通信部１０６は、接続判定結果出力端子１２４を介して出力された接続判定結果に基づき、ネットワーク１０７との接続処理を行う。

コマンド判定部１２０により「人名」と「接続コマンド」が続けて音声認識された場合には、オーディオバッファ部１１７に保持されている該当のマイクアレイ処理信号のオーディオバッファ音を出力する。

オーディオバッファ部１１７に保持されている音を出力するために、読出し位置ｒｅａｄ＿ｉｎｄｅｘを、下記の（７）式に従い計算する。

上記（７）式のＬＥＮは、オーディオバッファ部１１７に保持されている処理信号を再生する長さである。なお、ＬＥＮの決定方法は、種々の方法を広く適用することができ、例えば、オーディオバッファ部１１７のバッファサイズと同じ長さ（ＬＥＮ＝ＢＵＦＦＥＲ＿ＳＩＺＥ）とするなどの定数とする方法が存在する。また、オーディオバッファ部１１７に保持されているマイク入力信号に音声区間処理を行い、バッファに保持されている音の長さを求めて、その長さをＬＥＮとする方法でも良い。

そして、出力切替部１２１は、以下の（８）式に示すようにオーディオバッファ部１１７に保持されている音信号を出力信号ｙ（ｎ）として音出力端子１２２に一定時間（例えば、ＬＥＮの時間長分）出力し、以下の（９）式に示すように読出し位置ｒｅａｄ＿ｉｎｄｅｘを進める（インクリメン卜する）。

ＮＷ通信部１０６は、音出力端子１２２から介して出力された出力信号ｙ（ｎ）をネットワーク１０７で接続している相手側のコミュニケーション装置１００のＮＷ通信部１０６に送信する。

出力切替部１２１は、オーディオバッファ部１１７に保持されている音信号を一定時間出力すると、以下の（１０）式に示すように、マイクアレイ処理信号ｘ’＿ｋ（ｎ）を出力信号ｙ（ｎ）として音出力端子１２２に出力する。
ｙ（ｎ）＝ｘ’＿ｋ（ｎ） …（１０）

一方、出力切替部１２１は、コマンド判定部１２０で音声認識部１１８の音声認識結果が「人名」と「接続コマンド」が続けて音声認識されない場合は、（４）式に示すように、ｘ’＿ｋ（ｎ）が無音信号になるので、（１０）式に示すようにｙ（ｎ）も無音信号になり、無音信号を音出力端子１２２に出力し続ける。
ｙ（ｎ）＝０ …（１１）

ＮＷ通信部１０６は、音出力端子１２２を介して出力された出力信号ｙ（ｎ）を引き続きネットワーク１０７に接続している相手側のコミュニケーション装置１００のＮＷ通信部１０６に送信する。

一方、ネットワーク１０７から送信されてきた相手側の音声信号は、ＮＷ通信部１０６を介してＤＡ変換部１０８に入力する。そして、ＤＡ変換部１０８によりデジタル信号からアナログ信号に変換後、音声信号がスピーカアンプ１０９で増幅され、音声がスピーカ１１０から出力される。

呼びかけ音声再生後は、自拠点のコミュニケーション装置１００と相手側の拠点のコミュニケーション装置１００とが接続し、両拠点の間で、ビデオカメラ映像と音声のやりとりが行われる。

しばらくして、通話を終了する場合は、使用者１５２ａと１５２ｂのいずれかが、切断音声を発話して会話を終了する。

使用者１５２ａ、１５２ｂのいずれかが発した音声は、環境音が重畳しマイクアレイ１０１の各マイクに入力される。

マイクアレイ１０１に入力されたアナログの音信号は、マイクアンプ１０２で増幅され、ＡＤ変換部１０３でアナログ信号からデジタル信号に変換され、呼びかけ処理部１０５の音入力端子１１５にマイク入力信号ｘ＿ｋ（ｍ，ｎ）として入力され、マイク入力信号ｘ＿ｋ（ｍ，ｎ）が信号処理部１１６に入力される。

信号処理部１１６は、マイク入力信号ｘ＿ｋ（ｍ，ｎ）に対して（１）、（２）、（３）式に示すように、マイクアレイ処理を行い、指向性処理や音源を分離する音源分離処理を行い、算出したマイクアレイ処理信号ｘ’＿ｋ（ｎ）をオーディオバッファ部１１７と音声認識部１１８と出力切替部１２１に出力する。

出力切替部１２１は、（１０）式に示すように、マイクアレイ処理信号ｘ’＿ｋ（ｎ）を出力信号ｙ（ｎ）として音出力端子１２２に出力する。

また、呼びかけ処理部１０５は、同時にマイクアレイ処理信号ｘ’＿ｋ（ｎ）を、（５）式に従い、オーディオバッファ部１１７のオーディオバッファｂｕｆｆｅｒ＿ｋ（ｎ）の書込み位置ｗｒｉｔｅ＿ｉｎｄｅｘの位置に保持する。保持した後、呼びかけ処理部１０５は、（６）式に示すように、書込み位置ｗｒｉｔｅ＿ｉｎｄｅｘを進める（すなわち、書き込み位置をインクリメン卜する）。

さらに、呼びかけ処理部１０５は、同時にマイクアレイ処理信号ｘ’＿ｋ（ｎ）を音声認識部１１８で音声認識を行い、音声認識結果をコマンド判定部１２０に出力する。

コマンド判定部１２０は、音声認識結果と、コマンドリスト部１１９に保持されているコマンド一覧（図３のコマンドリスト）とを比較し、音声認識の結果が「切断コマンド」の一覧に存在するか否かの判定を行う。そして、コマンド判定部１２０は、コマンドリストにある「切断コマンド」が音声認識された場合（例えば、「さようなら」など）、判定結果を出力切替部１２１、及び接続判定部１２３に出力する。例えば、使用者が「○○さんこんにちは」などのように発話し、音声認識結果が、コマンドリストに設定されている「人名」と「接続コマンド」とが連続して音声認識された場合、判定結果として「１」を、「切断コマンド」が音声認識された場合は、判定結果として「２」を、それ以外は「０」を出力する。

接続判定部１２３は、音声認識部１１８による音声認識結果及びコマンド判定部１２０に基づくコマンド判定結果に基づいて、切断判定を行い、ＮＷ通信部１０６に相手側のＮＷ通信部と切断する信号を接続判定結果出力端子１２４に出力する。

ＮＷ通信部１０６は、接続判定結果出力端子１２４を介して出力された接続判定結果に基づき、相手側のコミュニケーション装置１００のＮＷ通信部１０６との切断処理を行う。

出力切替部１２１は、コマンド判定部１２０で音声認識部１１８の音声認識結果がコマンドリスト部１１９の切断コマンド一覧に存在しないと判定された場合には、マイクアレイ処理信号を音出力端子１２２に出力し続ける。

一方、コマンド判定部１２０で音声認識部１１８の音声認識結果がコマンドリスト部１１９の切断コマンド一覧に存在すると判定された場合には、出力切替部１２１は、（１１）式に示すように、無音信号を出力信号ｙ（ｎ）として音出力端子１２２に出力される。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、コミュニケーション装置１００は、マイクアレイに受音される音声信号と人の方向情報から、各使用者の音声を強調する信号処理を行い、信号処理した信号を一度オーディオバッファ部に保持し、同時に音声認識部が信号処理した信号に対して音声認識を行なう。そして、音声認識結果が呼びかけ音声か否かを判定し、呼びかけ音声の場合には、相手側のコミュニケーション装置と接続してから、バッファに保持している呼びかけ音声を出力することで、呼びかけ音声が相手に伝わってから会話を開始することができる。また、相手側との会話が開始してから、音声認識部が信号処理した信号に対して音声認識を行い、その音声認識結果が切断音声か否かを判定し、切断音声の場合には切断する。このことにより、対面での会話に近い状態を再現でき、複数の話者で高い臨場感で会話を開始することができる。

また、第１の実施形態のコミュニケーション装置１００は、使用環境の雑音が大きい環境においても、呼びかけ音声の収音はマイクアレイを使用して、音声を強調する信号処理を行っているため、呼びかけ音声を正しく認識でき、雑音が大きい環境でも通話を行うことができる。

（Ｂ）第２の実施形態
次に、本発明のコミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法の第２の実施形態を、図面を参照しながら詳細に説明する。

第２の実施形態は、本発明のコミュニケーション装置の音出力方法が、第１の実施形態と異なっている場合を例示する。

（Ｂ−１）第２の実施形態の構成
図４は、第２の実施形態に係るコミュニケーション装置２００の構成を示すブロック図である。

図４において、第２の実施形態に係るコミュニケーション装置２００は、マイクアレイ１０１、マイクアンプ１０２、アナログ−デジタル（ＡＤ）変換部１０３、２台のビデオカメラ１０４ａ及び１０４ｂ、呼びかけ処理部２０１、ＮＷ通信部１０６、デジタル−アナログ（ＤＡ）変換部１０８、スピーカアンプ１０９、２台のスピーカ１１０ａ及び１１０ｂ、モニター１１１を有する。

また、呼びかけ処理部２０１は、音入力端子１１５、映像入力端子１１２ａ及び１１２ｂ、映像出力端子１１３ａ及び１１３ｂ、人物位置検知部２０２、信号処理部１１６、オーディオバッファ部１１７、音声認識部１１８、コマンドリスト部１１９、コマンド判定部１２０、出力切替部２０３、音出力端子１２２ａ及び１２２ｂ、接続判定部１２３、接続判定結果出力端子１２４を有する。

第２の実施形態に係るコミュニケーション装置２００は、２台のビデオカメラ１０４ａ及び１０４ｂと、２台のスピーカ１１０ａ及び１１０ｂとを備え、さらに、呼びかけ処理部２０１の映像入力端子１１２ａ及び１１２ｂ、映像出力端子１１３ａ及び１１３ｂ、音出力端子１２２ａ及び１２２ｂが２個に増えたことにより、人物位置検知部２０２と出力切替部２０３の動作が第１の実施形態と異なる。

それ以外の構成要素は、第１の実施形態に係る図１のコミュニケーション装置１００の構成要素と同一、又は対応するものである。なお、図４において、第１の実施形態に係るコミュニケーション装置１００の構成要素と同一、又は対応するものについては同一の符号を付している。また、第１の実施形態と同一、又は対応する構成要素の詳細な説明は重複するため、ここでは省略する。

呼びかけ処理部２０１は、２台のビデオカメラ１０４ａ及び１０４ｂと接続しており、入力された各々のビデオカメラ１０４ａ及び１０４ｂからの営巣信号に人が映っているか否かを判定する。いずれか又は両方の映像信号に人が映っていると判定された場合のみ、呼びかけ処理部２０１は、入力された複数のマイク入力信号を信号処理し、信号処理した信号を音出力端子に出力する。同時に、呼びかけ処理部２０１は信号処理した信号をオーディオバッファ部１１７に保存する。さらに、呼びかけ処理部２０１は、信号処理した信号を音声認識し、音声認識結果がコマンドリスト部１１９のコマンドの１つと一致した場合に、接続判定結果とオーディオバッファに保存されている音信号を一定時間出力し、一定時間出力が完了すると再び信号処理した信号を出力する。

次に、呼びかけ処理部２０１の詳細な構成を説明する。

映像入力端子１１２ａ、１１２ｂは、ビデオカメラ１０４ａ、１０４ｂからの映像信号を呼びかけ処理部２０１に入力するインタフェース部である。

映像出力端子１１３ａ、１１３ｂは、ビデオカメラ１０４ａ、１０４ｂからの映像信号を呼びかけ処理部２０１から出力するインタフェース部である。

人物位置検知部２０２は、映像入力端子１１２ａ、１１２ｂから入力したビデオカメラ１０４ａ、１０４ｂのそれぞれの映像信号に人が映っているか否かを判定するものである。

出力切替部２０３は、コマンド判定部１２０によるコマンド判定結果に基づいて出力する音信号を決定し、音信号を出力する。

（Ｂ−２）第２の実施形態の動作
第２の実施形態に係るコミュニケーション装置２００における音声処理の基本的な動作は、第１の実施形態で説明した音声処理と同様である。

以下では、第１の実施形態と異なる点である人物位置検知部２０２、及び出力切替部２０３における処理動作を中心に詳細に説明する。

また、以下では、図５に示すように、１人の使用者１５２ａが相手側の拠点にいる人とコミュニケーションをとっており、その後、２人目の使用者１５２ｂがコミュニケーションに参加してきた場合を想定して説明する。この場合、使用者１５２ａはビデオカメラ１０４ａにより撮影され、使用者１５２ｂはビデオカメラ１０４ｂに撮影されるものとして説明する。

まず、コミュニケーション装置２００の動作が開始すると、モニター１１１は、相手側の拠点のコミュニケーション装置１００のビデオカメラ１０４ａ、１０４ｂで撮影している映像を表示する。

自拠点のビデオカメラ１０４ａ、１０４ｂで撮影している映像は、呼びかけ処理部２０１を介してＮＷ通信部１０６に与えられ、ＮＷ通信部１０６がＮＷを通して相手側の拠点に映像信号を送信する。映像信号は相手側の拠点のＮＷ通信部１０６で受信され、相手の拠点のモニター１１１には、自拠点のビデオカメラ１０４ａ、１０４ｂで撮影された映像が表示される。

このとき、両拠点のコミュニケーション装置２００は音声信号を送受信しておらず、両拠点とも相手側のビデオカメラ１０４ａ、１０４ｂで撮影した映像だけがモニター１１１に表示されて、お互いの拠点の様子を確認できる。また、各拠点の音声信号がお互いに送受信されるようにしても良く、その場合には、お互いの映像がモニター１１１に表示されると共に、お互いの音が聞こえる。

また、ビデオカメラ１０４ａ、１０４ｂで撮影している映像信号は、呼びかけ処理部２０１の映像入力端子１１２ａ、１１２ｂに入力され、人物位置検知部２０２に入力される。

人物位置検知部２０２は、ビデオカメラ１０４ａ、１０４ｂで撮影された映像信号に人が映っているか否かを判定し、その判定結果を、信号処理部１１６及び音声認識部１１８に出力する。例えば、人物位置検知部２０２は、ビデオカメラ１０４ａに人が映っていると判定したときには判定結果を「１」、ビデオカメラ１０４ｂに人が映っていると判定したときには判定結果を「２」、それ以外は判定結果を「０」などとして出力する。

例えば、使用者１５２ａが相手側の拠点の全体映像に映っている人と通話を行う場合は、モニター１１１に表示されている相手側の拠点の映像を見るために、図５に示すように、使用者１５２ａは、モニター１１１に近づき、モニター１１１に映っている相手の拠点の映像を確認する。

このとき、図５に例示するように、モニター１１１付近に設置されているビデオカメラ１０４ａが使用者１５２ａを撮影するので、ビデオカメラ１０４ａの映像信号を監視する人物位置検知部２０２は、ビデオカメラ１０４ａの映像信号に人が映っているという判定結果（例えば、判定結果「１」等）を、信号処理部１１６及び音声認識部１１８に出力する。また、人物位置検知部２０２は、ビデオカメラ１０４ａの映像フレームにおける使用者１５２ａの方向情報を信号処理部１１６に出力する。

使用者１５２ａは、通話したい相手を呼びかけるために、呼びかけ音声を発声する。使用者１５２ａが発した音声は、環境音が重畳しマイクアレイ１０１ａの各マイクに入力される。

マイクアレイ１０１ａに入力されたアナログの音信号は、マイクアンプ１０２で増幅され、ＡＤ変換部１０３でアナログ信号からデジタル信号に変換され、呼びかけ処理部２０１の音入力端子１１５にマイク入力信号ｘ（ｍ，ｎ）として入力される。

呼びかけ処理部２０１の音入力端子１１５に信号が入力され始めると、まず、マイク入力信号ｘ（ｍ，ｎ）が信号処理部１１６に入力される。

人物位置検知部２０２でビデオカメラ１０４ａの映像信号に人が映っていると判定されたとき、信号処理部１１６は入力信号に対してマイクアレイ処理を行う。このとき、信号処理部１１６は、人物位置検知部２０２から取得した、ビデオカメラ１０４ａの映像における使用者１５２ａの方向情報に基づいて、使用者１５２ａの位置方向から到来する使用者１５２ａの音声をマイクアレイ１０１が収音する指向性処理や、使用者１５２ａの音声を抽出する音源分離処理を行う。

そして、信号処理部１１６は、人物位置検知部２０２でビデオカメラ１０４の映像信号に人が映っていると判定されたときは、算出したマイクアレイ処理信号ｘ’＿１（ｎ）を、オーディオバッファ部１１７と、音声認識部１１８と、出力切替部２０３に出力し、人物位置検知部２０２でビデオカメラ１０４の映像信号に人が映っていないと判定されたときは、（１２）式に示すように、無線信号をオーディオバッファ部１１７と、音声認識部１１８と、無線信号を出力切替部２０３に出力する。
ｘ’＿１（ｎ）＝０ …（１２）

呼びかけ処理部２０１は、同時にマイクアレイ処理信号ｘ’＿１（ｎ）は、（５）式に従い、オーディオバッファ部１１７のオーディオバッファｂｕｆｆｅｒ＿１（ｎ）の書込み位置ｗｒｉｔｅ＿ｉｎｄｅｘの位置に保持する。保持した後、呼びかけ処理部２０１は、（６）式のように、書込み位置ｗｒｉｔｅ＿ｉｎｄｅｘの値をインクリメントして進める。

さらに、呼びかけ処理部２０１では、同時にマイクアレイ処理信号ｘ’＿１（ｎ）を音声認識部１１８に入力し、音声認識部１１８が音声認識を行い、マイクアレイ処理信号ｘ’＿１（ｎ）の音声認識結果をコマンド判定部１２０に出力する。

コマンド判定部１２０は、マイクアレイ処理信号ｘ’＿１（ｎ）の音声認識結果と、コマンドリスト部１１９に保持されているコマンド一覧（例えば、図３のコマンドリスト）を比較し、コマンドリストにある「人名」とコマンドリストにある「接続コマンド」が続けて音声認識されたか否かの判定を行う（例えば、「○○さんこんにちは」など）。

そして、コマンド判定部１２０は、判定結果を出力切替部２０３に、判定結果と音声認識結果を接続判定部１２３に出力する。例えば、マイクアレイ処理信号ｘ’＿１（ｎ）の音声認識結果が「人名」と「接続コマンド」が続けて音声認識された場合、コマンド判定部１２０は、判定結果を「１」、後述するマイクアレイ処理信号ｘ’＿２（ｎ）の音声認識結果が「人名」と「接続コマンド」が続けて音声認識された場合は判定結果を「２」、それ以外は「０」などのように出力する。

接続判定部１２３は、音声認識部１１８による音声認識結果及びコマンド判定部１２０に基づくコマンド判定結果に基づいて、接続判定を行い、接続判定結果をＮＷ通信部１０６に出力する。例えば、判定結果が「１」で、コマンド判定部１２０から「○○さんこんにちは」という音声認識結果が出力された場合、接続判定部１２３は、相手側の拠点のコミュニケーション装置１００が設置されている近くに「○○さん」がいるときは、ビデオカメラ１０４ａとマイクアレイ１０１ａと相手側の拠点のコミュニケーション装置２００の「○○さん」の近くのビデオカメラとマイクアレイに接続する信号を接続判定結果出力端子１２４に出力する。拠点のコミュニケーション装置２００が設置されている近くに○○さんが入るかどうかの判定は、事前に端末の近くにいる人を登録した情報を使用する。

コマンド判定部１２０で音声認識部１１８の音声認識の結果が「人名」と「接続コマンド」が続けて音声認識されない場合は、出力切替部２０３は、（１３）式に示すように、無音信号を出力信号ｙ＿１（ｎ）として音出力端子１２２ａに出力する。
ｙ＿１（ｎ）＝０ …（１３）

一方、コマンド判定部１２０で「人名」と「接続コマンド」が続けて音声認識された場合には、出力切替部２０３は、オーディオバッファ部１１７の読出し位置ｒｅａｄ＿ｉｎｄｅｘ＿１を、下記の（１４）式に従い計算する。

また、「人名」と「接続コマンド」が続けて音声認識されない場合は、出力切替部２０３は、信号処理部１１６からのマイク入力信号ｘ（ｍ，ｎ）を出力するようにしても良い。

そして、出力切替部２０３は、以下の（１５）式に示すようにオーディオバッファ部１１７に保持されている音信号を出力信号ｙ＿１（ｎ）として音出力端子１２２に一定時間（例えば、ＬＥＮの時間長分）出力し、以下の（１６）式に示すように読出し位置ｒｅａｄ＿ｉｎｄｅｘ＿１をインクリメントして進める。

ＮＷ通信部１０６は、音出力端子１２２ａから出力された出力信号ｙ＿１（ｎ）をネットワーク１０７で接続している相手側のコミュニケーション装置２００のＮＷ通信部１０６に送信する。

出力切替部２０３は、オーディオバッファ部１１７に保持されている音信号を一定時間出力すると、以下の（１７）式に示すように、マイクアレイ処理信号ｘ’＿１（ｎ）を、出力信号ｙ＿１（ｎ）として音出力端子１２２ａに出力する。
ｙ＿１（ｎ）＝ｘ’＿１（ｎ） …（１７）

ＮＷ通信部１０６は、音出力端子１２２から出力された出力信号ｙ＿１（ｎ）を引き続きネットワーク１０７で接続している相手側のコミュニケーション装置２００のＮＷ通信部１０６に送信する。

一方、ネットワーク１０７から送信されてきた相手側の音声信号は、ＮＷ通信部１０６を介してＤＡ変換部１０８に入力し、ＤＡ変換部１０８によりデジタル信号からアナログ信号に変換後、音声信号がスピーカアンプ１０９で増幅され、音声がスピーカ１１０ａにより出力される。つまり、スピーカ１１０ａから、使用者１５２ａの音声が出力される。

呼びかけ音声再生後は、自拠点のコミュニケーション装置２００と相手側の拠点のコミュニケーション装置２００とが接続し、両拠点の間で、ビデオカメラ映像と音声のやりとりが行われる。

次に、図６に示すように、２人目の使用者１５２ｂがコミュニケーションに参加して、相手側の拠点にいる人と通話する場合を説明する。

この場合も、使用者１５２ｂがモニター１１１に表示されている相手側の拠点の映像を見るために、図６に示すように、使用者１５２ｂがモニター１１１に近づき、モニター１１１に映っている相手の拠点の映像を確認する。そうすると、人物位置検知部１１４は、ビデオカメラ１０４ｂに人が映っていることを判定し、その旨の判定結果を信号処理部１１６及び音声認識部１１８に出力する。

使用者１５２ｂは、映像に通話したい相手が映っていると、使用者１５２ｂが呼びかけ音声を発話する。使用者１５２ｂが発した音声は、環境音が重畳しマイクアレイ１０１ｂの各マイクに入力される。

マイクアレイ１０１ｂに入力されたアナログの音信号は、マイクアンプ１０２で増幅され、ＡＤ変換部１０３でアナログ信号からデジタル信号に変換され、音声信号が、呼びかけ処理部２０１の音入力端子１１５にマイク入力信号ｘ（ｍ，ｎ）として入力される。

人物位置検知部２０２でビデオカメラ１０４ｂの映像に人が映っていると判定されたとき、信号処理部１１６は入力信号に対してマイクアレイ処理を行い、指向性処理や音源を分離する音源分離処理をする。

そして、信号処理部１１６は、算出したマイクアレイ処理信号ｘ’＿２（ｎ）、をオーディオバッファ部１１７と、音声認識部１１８と、出力切替部２０３に出力する。

そして、信号処理部１１６は、人物位置検知部２０２でビデオカメラ１０４ｂの映像信号に人が映っていると判定されたときは、算出したマイクアレイ処理信号ｘ’＿２（ｎ）を、オーディオバッファ部１１７と、音声認識部１１８と、出力切替部２０３に出力し、人物位置検知部２０２でビデオカメラ１０４の映像信号に人が映っていないと判定されたときは、（１８）式に示すように、無線信号をオーディオバッファ部１１７と、音声認識部１１８と、無線信号を出力切替部２０３に出力する。
ｘ’＿２（ｎ）＝０ …（１８）

呼びかけ処理部２０１は、同時にマイクアレイ処理信号ｘ’＿２（ｎ）は、（５）式に従い、オーディオバッファ部１１７のオーディオバッファｂｕｆｆｅｒ＿２（ｎ）の書込み位置ｗｒｉｔｅ＿ｉｎｄｅｘの位置に保持する。保持した後、呼びかけ処理部２０１は、（６）式のように、書込み位置ｗｒｉｔｅ＿ｉｎｄｅｘの値に「１」をインクリメントして進める。

さらに、呼びかけ処理部２０１では、同時にマイクアレイ処理信号ｘ’＿２（ｎ）を音声認識部１１８に入力し、音声認識部１１８が音声認識を行い、マイクアレイ処理信号ｘ’＿２（ｎ）の音声認識結果をコマンド判定部１２０に出力する。

コマンド判定部１２０は、マイクアレイ処理信号ｘ’＿２（ｎ）の音声認識結果とコマンドリスト部１１９に保持されているコマンド一覧（例えば、図３のコマンドリスト）を比較し、コマンドリストにある「人名」とコマンドリストにある「接続コマンド」が続けて音声認識されたか否かの判定を行う（例えば、「○○さんこんにちは」など）。そして、コマンド判定部１２０は、判定結果を出力切替部１２１に、判定結果と音声認識結果を接続判定部１２３に出力する。

接続判定部１２３は、音声認識部１１８による音声認識結果及びコマンド判定部１２０に基づくコマンド判定結果に基づいて、接続判定を行い、接続判定結果をＮＷ通信部１０６に出力する。

例えば、音声認識部１１８による音声認識結果が「２」で、コマンド判定部１２０から「××さんこんにちは」という音声認識結果が出力された場合、接続判定部１２３は、相手側の拠点のコミュニケーション装置２００が設置されている近くに「××さん」がいる場合は、ビデオカメラ１０４ｂとマイクアレイ１０１ｂと相手側の拠点のコミュニケーション装置１００の○○さんの接続されていないビデオカメラとマイクアレイに接続する信号を接続判定結果出力端子１２４に出力する。拠点のコミュニケーション装置２００が設置されている近くに「××さん」が入るかどうかの判定は、事前に端末の近くにいる人を登録した情報を使用する。

ＮＷ通信部１０６は、接続判定結果出力端子１２４から出力された接続判定結果に基づき、ネットワーク１０７との接続処理を行う。

コマンド判定部１２０で音声認識部１１８のマイクアレイ処理信号ｘ’＿２（ｎ）の音声認識の結果が「人名」と「接続コマンド」が続けて音声認識されない場合は、出力切替部２０３は、（１９）式に示すように、無音信号を出力信号ｙ＿２（ｎ）として音出力端子１２２ｂに出力し続ける。
ｙ＿２（ｎ）＝０ …（１９）

一方、コマンド判定部１２０で「人名」と「接続コマンド」が続けて音声認識された場合には、出力切替部２０３は、オーディオバッファ部１１７の読出し位置ｒｅａｄ＿ｉｎｄｅｘ＿２を、下記の（２０）式に従い計算する。

そして、出力切替部２０３は、以下の（２１）式に示すようにオーディオバッファ部１１７に保持されている音信号を出力信号ｙ＿２（ｎ）として音出力端子１２２ｂに、一定時間（例えば、ＬＥＮの時間長分）出力し、以下の（２２）式に示すように読出し位置ｒｅａｄ＿ｉｎｄｅｘ＿２の値に「１」をインクリメントして進める。

ＮＷ通信部１０６は、音出力端子１２２から出力された出力信号ｙ＿２（ｎ）をネットワーク１０７で接続している相手のＮＷ通信部１０６に送信する。

出力切替部２０３は、オーディオバッファ部１１７に保持されている音信号を一定時間出力すると、以下の（２３）式に示すように、マイクアレイ処理信号ｘ’＿２（ｎ）を出力信号ｙ＿２（ｎ）として音出力端子１２２ｂに出力する。
ｙ＿２（ｎ）＝ｘ’＿２（ｎ） …（２３）

ＮＷ通信部１０６は、音出力端子１２２を介して出力された出力信号ｙ＿２（ｎ）を引き続きネットワーク１０７で接続している相手のＮＷ通信部１０６に送信する。

一方、ネットワーク１０７から送信されてきた相手側の音声は、ＮＷ通信部１０６を介してＤＡ変換部１０８に入力し、ＤＡ変換部１０８によりデジタル信号からアナログ信号に変換後、音声信号がスピーカアンプ１０９で増幅され、音声がスピーカ１１０ｂにより出力される。つまり、スピーカ１１０ｂから使用者１５２ｂの音声が出力される。

呼びかけ音声再生後は、接続後に遠隔通話装置はＮＷ通信部１０６を介して、ビデオカメラ映像と音声のやりとりが行われる。

（Ｂ−３）第２の実施形態の効果
以上のように、第２の実施形態によれば、コミュニケーション装置は、複数のマイクアレイを使用して、複数の話者の音声を別々に強調する信号処理を行う。そして、信号処理した信号を一度オーディオバッファ部に保持し、同時に信号処理した信号に対して音声認識を行い、その音声認識結果が呼びかけ音声か否かを各マイクアレイ信号毎に判定する。呼びかけ音声の場合には、通話相手に接続してからオーディオバッファ部に保持している呼びかけ音声を出力することで、呼びかけ音声が相手に伝わってから会話を開始することができる。また通話を終了する際には、信号処理した信号に対して音声認識を行い、その音声認識結果が切断音声か否かを判定し、切断音声の場合には、相手側の拠点との接続を切断する。このことにより、対面での会話に近い状態を再現でき、複数の話者で高い臨場感で会話を開始することができる。

（Ｃ）他の実施形態
上述した各実施形態においても、種々の変形実施形態を説明したが、本発明は以下の変形実施形態についても適用することができる。

（Ｃ−１）上述した各実施形態で説明したコミュニケーション装置は、例えば、電話会議で通話を開始するときに、音声の入力によるコマンドで通話を開始する装置に搭載されるようにしても良い。

（Ｃ−２）上述した各実施形態で説明したコミュニケーション装置における、呼びかけ処理部やＮＷ通信部は、ネットワーク上に設けられた処理装置（例えば、サーバなど）で処理されるようにしても良い。

（Ｃ−３）上述した各実施形態で説明したコミュニケーション装置では、マイクアレイ１０１が、図２、図５、図６で例示したように、モニター１１１の前方に配置される場合を例示した。しかし、マイクアレイ１０１の配置例は、図２、図５、図６に限定されない。例えば、マイクアレイ１０１は、モニター１１１の上部又は側面に配置されても良い。また、コミュニケーション装置がプロジェクターとスクリーンを備えている場合、プロジェクターからの投影映像を結像させるためのスクリーンをモニター１１１に代えて設けるようにしても良い。このスクリーンの種類は、様々なものを用いることができ、例えば投影映像を結像させる通常のスクリーンでも良いし、また例えば、音を透過するスクリーンでも良い。音を透過するスクリーンの場合、マイクアレイ１０１は、スクリーンの後方に配置しても良い。

（Ｃ−４）上述した各実施形態で説明したコミュニケーション装置で、１つのマイクアレイ１０１を用意する場合を例示しているが、２つのマイクアレイを用意するようにしても良い。ここでは、例えば、マイクアレイ１０１ａ、１０１ｂとする。その場合、例えば、マイクアレイ１０１ａは使用者１５２ａの音声を収音するものとし、マイクアレイ１０１ｂは使用者１５２ｂの音声を収音するものとする。

１００及び２００…コミュニケーション装置、１０１…マイクアレイ、１０２…マイクアンプ、１０３…ＡＤ変換部、１０４、１０４ａ及び１０４ｂ…ビデオカメラ、１０５及び２０１…呼びかけ処理部、１０６…ＮＷ通信部、１０７…ネットワーク、１０８…ＤＡ変換器、１０９…スピーカアンプ、１１０ａ及び１１０ｂ…スピーカ、１１１…モニター、１１２、１１２ａ及び１１２ｂ…映像入力端子、１１３、１１３ａ及び１１３ｂ…映像出力端子、１１４…人物位置検知部、１１５…音入力端子、１１６…信号処理部、１１７…オーディオバッファ部、１１８…音声認識部、１１９…コマンドリスト部、１２０…コマンド判定部、１２１及び２０３…出力切替部、１２２、１２２ａ及び１２２ｂ…音出力端子、１２３…接続判定部、１２４…接続判定結果出力端子。

Claims

入力された映像信号から１又は複数の人物を検知する人物検知部と、
上記人物検知部により上記１又は複数の人物が検知されたときに、入力された音声信号に基づいて音声認識をする音声認識部と、
少なくとも、接続先との接続を開始する接続コマンド及び接続を切断する切断コマンドを含む複数のコマンドを記憶するコマンド記憶部と、
上記音声認識部による音声認識結果が上記コマンド記憶部に記憶される上記接続コマンド又は上記切断コマンドと一致するか否かを判定するコマンド判定部と、
上記コマンド判定部によるコマンド判定結果に応じて、出力音声信号を決定する出力切替部と、
上記音声認識結果及び上記コマンド判定結果に基づいて、接続先との接続処理を行う接続判定部と
を備えることを特徴とするコミュニケーション装置。
上記人物検知部が、上記映像信号から検知した各人物の位置に関する情報を獲得するものであり、
上記人物検知部の上記各人物の位置に関する情報に基づいて、１又は複数のマイクロホンで収音された上記音声信号の指向性を形成して、上記各人物の音声信号を抽出する信号処理部と、
上記信号処理部による上記各人物の音声信号を保持する保持部と
を備え、
上記音声認識結果が上記接続コマンドに一致するとき、
上記接続判定部が、上記接続先との接続処理を行い、
上記出力切替部は、上記接続先との接続後、上記保持部に保持されている上記各人物の音声信号を出力した後に、上記信号処理部により処理された信号を出力する
ことを特徴とする請求項１に記載のコミュニケーション装置。
上記音声認識結果が上記切断コマンドに一致するとき、
上記出力切替部が、上記保持部に保持されている上記各人物の音声信号を出力した後に、上記接続判定部が上記接続先との接続を切断する
ことを特徴とする請求項１に記載のコミュニケーション装置。
複数のビデオカメラのそれぞれから映像信号が入力し、
上記人物検知部が、複数の映像信号のそれぞれから人物を検知し、
上記信号処理部が、上記人物検知部により検知された上記映像信号毎の上記各人物の位置に関する情報に基づいて、１又は複数のマイクロホンで収音された上記音声信号の指向性を形成して、上記各人物の音声信号を抽出し、
上記出力切替部が、上記信号処理部により抽出された上記各人物の音声信号を別々に出力する
ことを特徴とする請求項２又は３に記載のコミュニケーション装置。
コンピュータを、
入力された映像信号から１又は複数の人物を検知する人物検知部と、
上記人物検知部により上記１又は複数の人物が検知されたときに、入力された音声信号に基づいて音声認識をする音声認識部と、
少なくとも、接続先との接続を開始する接続コマンド及び接続を切断する切断コマンドを含む複数のコマンドを記憶するコマンド記憶部と、
上記音声認識部による音声認識結果が上記コマンド記憶部に記憶される上記接続コマンド又は上記切断コマンドと一致するか否かを判定するコマンド判定部と、
上記コマンド判定部によるコマンド判定結果に応じて、出力音声信号を決定する出力切替部と、
上記音声認識結果及び上記コマンド判定結果に基づいて、接続先との接続処理を行う接続判定部と
して機能させることを特徴とするコミュニケーションプログラム。
人物検知部が、入力された映像信号から１又は複数の人物を検知し、
音声認識部が、上記人物検知部により上記１又は複数の人物が検知されたときに、入力された音声信号に基づいて音声認識をし、
コマンド記憶部が、少なくとも、接続先との接続を開始する接続コマンド及び接続を切断する切断コマンドを含む複数のコマンドを記憶し、
コマンド判定部が、上記音声認識部による音声認識結果が上記コマンド記憶部に記憶される上記接続コマンド又は上記切断コマンドと一致するか否かを判定し、
出力切替部が、上記コマンド判定部によるコマンド判定結果に応じて、出力音声信号を決定し、
接続判定部が、上記音声認識結果及び上記コマンド判定結果に基づいて、接続先との接続処理を行う
ことを特徴とするコミュニケーション方法。