JP4892927B2 - 撮影装置、および通信会議システム - Google Patents

撮影装置、および通信会議システム Download PDF

Info

Publication number
JP4892927B2
JP4892927B2 JP2005311656A JP2005311656A JP4892927B2 JP 4892927 B2 JP4892927 B2 JP 4892927B2 JP 2005311656 A JP2005311656 A JP 2005311656A JP 2005311656 A JP2005311656 A JP 2005311656A JP 4892927 B2 JP4892927 B2 JP 4892927B2
Authority
JP
Japan
Prior art keywords
sound
sound source
image
output
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005311656A
Other languages
English (en)
Other versions
JP2007124140A (ja
Inventor
卓也 田丸
勝一 刑部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005311656A priority Critical patent/JP4892927B2/ja
Publication of JP2007124140A publication Critical patent/JP2007124140A/ja
Application granted granted Critical
Publication of JP4892927B2 publication Critical patent/JP4892927B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、話者等の映像を明瞭に撮影することができる撮影装置、および通信会議システムに関する。
近年、通信環境の整備が進み、映像と音声を送受信するテレビ会議システムが普及している。テレビ会議システムは、一般的に、カメラ、マイク、スピーカ、およびディスプレイを有し、送信側ではマイクで収音した音声とカメラで撮影した映像を送信する。受信側では受信音声をスピーカから発音し、受信映像をディスプレイに表示する。
このようなテレビ会議システムにおいては、1対1の会話を行うだけでなく、複数人の会議参加者で会話を行うことが多い。この場合、話者のほうに都度撮影範囲を設定する(カメラを向ける)必要がある。カメラは、主に左右方向(パン)を変更して撮影範囲を変更する。
このパンの変更をスムーズにするために、会議参加者のそれぞれに専用マイクを配置し、最も入力レベルが大きいマイクの方向に複数の話者をまとめて撮影するようにしたテレビ会議システムが提案されている(例えば特許文献1参照)。
また、会議机上に設置した複数のカメラでパノラマ画像を生成し、所定領域の画像を切り出すことで、電子的にパンを変更する方法が提案されている(例えば特許文献2参照)。
特開平7−135646号公報 特開2001−94857号公報
特許文献1のテレビ会議システムは、カメラを機械的に回動させることでパンを変更するため、カメラを回動させる機構が必要となり、ハードウェアが煩雑となりコストがかかる。また、機械的に回動させるため、故障発生の可能性が高くなり、メンテナンスの必要も生じる。また、カメラを機械的に回動させることでパンを変更するため、話者を検出してから撮影範囲を設定するまでタイムラグが大きくなるという問題が有った。さらに、特許文献1のテレビ会議システムは、話者を検出するために、専用のマイクをそれぞれの会議参加者毎に配置する必要があり、煩雑な構成となる。
特許文献2のバーチャル・カメラの制御方法においては、機械的にカメラを回動させることなく高速にパンを変更することができる。しかし、特許文献2においても話者を検出するために、専用のマイクをそれぞれの会議参加者毎に設置、または、会議机中心に複数のマイク(円形に配置したマイクアレイ)を設置する必要があり、煩雑な構成となる。また、会議机中心に複数のカメラ(カメラアレイ)を設置する例が示されているが、このような構成では机上にマイクやカメラ等、多数の機器が設置されるために会議参加者にとって邪魔になる。また、機器設置の手間もかかる。一方でディスプレイ付近にマイク、カメラを設置することが考えられるが、会議参加者とマイクの位置が離れると、音源位置を検出できる程度に発話音声を収音することができなかった。また、一般に通信会議においては、ディスプレイ前方中心位置に会議机が存在し、これを囲むように会議参加者が着座するため、ディスプレイ付近にカメラを設置しては、会議参加者の顔正面を撮影できない(横顔の画像になってしまう)という問題があった。
この発明は、簡略な構成でありながら高速にパンを変更でき、発話者の映像(特に顔正面)を明瞭に撮影する撮影装置、および通信会議システムを提供することを目的とする。
この発明の撮影装置は、音源位置を検出する音源位置検出手段と、撮影視野が少なくとも連続し、互いに撮影視野が交差するようにそれぞれ異なる向きに設置した複数のカメラと、前記複数のカメラで撮影した連続画像から前記音源位置検出手段で検出した音源位置を含む範囲の画像を切り出す画像切り出し手段と、を備えたことを特徴とする。
この発明において、音源位置検出手段(例えば赤外線センサ)で音源(例えば発話者)の位置を検出する。複数のカメラは継続的に画像を取得し、画像合成手段においてこれらの画像を合成する。各カメラの撮影視野範囲はその端部において連続となり、これを合成することでパノラマ画像を生成する。このパノラマ画像のうち、話者の位置に対応する部分を切り出して出力する。話者を検出した領域の画像を切り出して(電子的にパンを変更して)出力することで、機械的機構のない簡略な構成でありながら高速にパンを変更することができる。また、複数のカメラは、互いに撮影視野が交差する。例えば撮影装置の両端部に配置されたカメラが互いに内側方向を撮影する。一般に通信会議においては、通信会議システム(ディスプレイ)前方中心位置に会議机が存在し、これを囲むように会議参加者が存在するため、撮影装置の両端部に配置されたカメラが互いに内側方向を撮影することで会議参加者の顔正面を撮影し易くなる。
また、この発明は、さらに、前記音源位置検出手段は、複数のマイクを配列して構成されるマイクアレイと、前記複数のマイクが収音した音声信号をそれぞれ所定時間遅延して合成することにより、特定領域の音声を高レベルで収音する収音ビームを複数形成する収音信号処理手段と、前記収音信号処理手段が形成した複数の収音ビームのうち最もレベルが高い収音ビームの方向に音源が存在すると判断する音声信号選択手段と、からなることを特徴とする。
この発明において、マイクアレイにより複数方向に収音ビームを形成する。複数の収音ビームのうち最もレベルが高い方向に音源が存在するとして、音源位置を検出する。
この発明の通信会議システムは、請求項2に記載の撮影装置と、前記収音信号選択手段が選択した収音ビームの音声信号、および前記画像切り出し手段が切り出した画像信号を出力し、外部からの音声信号および画像信号を入力する送受信手段と、前記送受信手段が入力した音声信号に基づく音声を発する音声出力手段と、前記送受信手段が入力した画像信号に基づく画像を表示する表示手段と、を備えたことを特徴とする。
この発明において、他の通信会議システムから音声信号を入力し、スピーカから音声を発するとともに、複数のマイクで音声を収音し、他の通信会議システムに出力する。また、複数のカメラで撮影した映像データを他の通信会議システムに出力する。
また、この発明は、さらに、前記音声出力手段は、複数のスピーカを配列して構成されるスピーカアレイと、前記送受信手段が入力した音声信号を、前記複数のスピーカにそれぞれ所定時間遅延して出力することにより、特定領域に音声を高レベルで放音する音声ビームを形成する放音信号処理手段と、からなり、前記放音信号処理手段は、収音側における音源位置に仮想的な音源が形成されるように音声ビームを形成し、前記表示手段に表示される画像中の音源の位置と、前記仮想的な音源の位置が同じ、または、同方向となるように前記音声ビームを制御することを特徴とする。
この発明において、スピーカアレイにより音声ビームを形成する。このとき、収音側における通信会議システムと音源の位置関係で仮想音源が形成されるように、音声ビームを形成する。これにより、映像に一致した音像定位ができ、よりリアルな会議環境を得ることができる。
この発明によれば、複数のカメラでパノラマ画像を取得し、音源を検出した領域の画像を切り出して(電子的にパンを変更して)出力することで、機械的機構のない簡略な構成でありながら高速にパンを変更することができるとともに、撮影装置の両端部に配置されたカメラが互いに内側方向を撮影することで、音源(発話者)の映像を正面から明瞭に撮影することができる。
図面を参照して、本発明の実施形態に係る通信会議システムについて説明する。図1は、通信会議システムの構成を示すブロック図である。同図に示すように、この通信会議システムは、複数のスピーカ1A〜1M、複数のマイク2A〜2M、複数の(同図においては3つの)カメラ3A〜3C、音声信号処理部4、画像処理部5、コントローラ6、入出力インターフェース7、およびディスプレイ8を備えている。
複数のスピーカ1A〜1M、および複数のマイク2A〜2Mは、音声信号処理部4に接続されている。3つのカメラ3A、3B、および3Cは、画像処理部5に接続されている。音声信号処理部4、および画像処理部5は入出力インターフェース7に接続されるとともに、コントローラ6に接続されている。コントローラ6は、入出力インターフェース7に接続されている。入出力インターフェース7は、他の通信会議システムにネットワーク等を介して接続される。ディスプレイ8は、入出力インターフェース7および画像処理部5に接続されている。
この通信会議システムは、ネットワーク等を介して接続される他の通信会議システムから音声信号を入力し、複数のスピーカ1から音声を発するとともに、複数のマイク2で音声を収音し、他の通信会議システムに音声信号を出力する。また、他の通信会議システムから映像データを入力し、ディスプレイ8に表示するとともに、複数のカメラ3で撮影した映像データを他の通信会議システムに出力する。これにより所謂テレビ電話(テレビ会議)を実現するものである。また、この通信会議システムは、発話者の位置(領域)を上記複数のマイクにより検出するものであり、検出した発話者の領域の画像を他の通信会議システムに出力する。
複数のスピーカ1A〜1Mは、直線状に配列され、スピーカアレイ(図6参照)を構成する。また、複数のマイク2A〜2Mも直線上に配列され、マイクアレイ(図6参照)を構成する。3つのカメラ3A、3B、および3Cは、それぞれ所定間隔離れた位置(図6参照)に設置され、撮影視野が少なくとも連続となるように設置される。詳細は後述する。
スピーカ1は、一般的にはコーン型スピーカを用いるが、ホーン型スピーカ等、その他の形式を用いてもよい。また、スピーカアレイのスピーカ配列個数、配列間隔は、この通信会議システムを設置する環境や必要とする周波数帯域等により適宜設定する。
各スピーカ1に入力される音声信号は、音声信号処理部4により決定される。入出力インターフェース7を介して他の会議システムから入力された音声信号は音声信号処理部4に入力される。この音声信号は、他の会議システムから入出力インターフェース7を介してコントローラ6に入力された、音源位置を示す情報に基づいて、音声信号処理部4によって所定の遅延量を付与されて各スピーカ1に入力される。各スピーカ1では、入力された音声信号を音声として放音する。なお、図1においては、ディジタル音声信号をアナログ音声信号に変換するD/A変換器や信号を増幅するアンプ等は省略している。
例えば全てのスピーカ1に同じ遅延量の音声信号が同時に入力されると、各スピーカ1からは同時に音声(音波)が出力される。スピーカ1から出力された音波は放射状に伝搬していくが、これらの合成波面は、平行で前方のみに伝搬するもの、すなわち音声ビームとなる。これ以外の方向へ伝搬する成分は、各スピーカ1から出力された成分が合成されることによって(干渉しあうことによって)打ち消され、前方に向かう成分のみが合成によって強められて音声ビームとして残る。
また、一端のスピーカ1から最初に音声を出力し、続いて、所定時間が経過する毎に順次隣のスピーカ1から音声を出力すると、合成波面はその遅延時間に応じて傾斜し、音声ビームを斜め方向に向けることができる。このように、各スピーカ1を水平方向にライン状に配列することで、水平方向の任意の方向への指向性制御が可能となる。
なお、以上の説明は、平面波を出力する場合のディレイ処理であるが、各スピーカ1に出力する信号のディレイを適当に制御することで、スピーカアレイの前方(または後方)にビームの焦点を持たせることもできる(図8参照)。
各マイク2の前方領域のある位置で音声が発せられると、各マイク2がこれを収音する。マイク2は、収音した音声から音声信号を音声信号処理部4に出力する。マイク2は、一般的にはダイナミックマイクを用いるが、コンデンサマイク等、その他の形式を用いてもよい。また、マイクアレイのマイク配列個数、配列間隔は、この通信会議システムを設置する環境や必要とする周波数帯域等により適宜設定する。なお、図1においてはフロントエンドのアンプやアナログ音声信号をディジタル音声信号に変換するA/D変換器等は省略している。各マイク2から出力される音声信号は、音声信号処理部4にて合成され、入出力インターフェース7に出力される。入出力インターフェース7は他の会議システム等にこの音声信号を出力する。各マイク2で音声を収音した際、音声は各マイク2と音源との距離に応じた伝搬時間で伝搬されるので、各マイク2では収音タイミングに差が生じる。
ここで、例えば全てのマイク2に前方から同タイミングで音波が到来したとすると、各マイク2から出力された音声信号は、合成によって強められる。一方で、これ以外の方向から音波が到来すると、各マイク2から出力される音声信号はそれぞれ位相が異なるために合成されることによって弱められる。したがって、アレイマイクの感度はビーム状に絞り込まれて前方にのみ主感度(収音ビーム)を形成する。
音声信号処理部4は、各マイク2が出力した音声信号にそれぞれ所定の遅延時間を付与することで収音ビームを斜めに向けることができる。収音ビームを斜めにする場合、一方の端部マイク2から所定時間が経過する毎に順次隣のマイク2から音声信号を出力するように設定する。例えば音源がマイクアレイの一方の端部前方に存在する場合、音源に最も近い一方の端部から音波が到来し、反対の端部に最後に音波が到来するが、音声信号処理部4は、この伝搬時間差を補正するように各マイク2の音声信号に遅延時間を付与した後合成する。これによりこの方向の音声信号を合成によって強められる。したがって、一列に並んでいるマイク2から出力する音声信号を一端から他端に向けて順次遅延することにより、収音ビームは、その遅延時間に応じて傾斜する。
なお、以上の説明は、平面波を収音する場合のディレイ処理であるが、各マイク2が出力する信号のディレイを適当に制御することで、マイクアレイの前方(または後方)に収音ビームの焦点を持たせることもできる(図8参照)。
また、この収音ビームは複数を同時に形成することも可能である。図2は、音声信号処理部4のうち、マイク2に接続される主要部の構成を示すブロック図である。マイク2A〜2Mは、それぞれ音声信号処理部4のディジタルフィルタ41A〜41Mに接続される。マイク2A〜2Mで収音した音声は、ディジタル音声信号としてディジタルフィルタ41A〜41Mに入力される。なお、図2においては、ディジタルフィルタ41A〜41Mの内、ディジタルフィルタ41Aについてのみ詳細なブロック図を図示するが、他のディジタルフィルタ41B〜41Mについても同様の構造であり、同様の動作を行うものである。
ディジタルフィルタ41Aは、複数段の出力を有するディレイバッファ42Aを備えている。ディレイバッファ42Aの各段の遅延量は、マイクアレイのマイク2の配置、およびマイクアレイ前方の領域(発話者を検出する領域)に応じて設定される。この例においてディレイバッファ42Aは4段の出力を有しており、これらの出力信号がFIRフィルタ431A〜434Aに入力される。
ディレイバッファ42Aは、マイク2Aが出力した音声信号に対してそれぞれ異なる遅延時間を付与した音声信号を各段にバッファし、FIRフィルタ431A〜434Aに各遅延音声信号を出力する。ここでFIRフィルタ431A〜434Aに出力する遅延音声信号は、マイクアレイ前方の各領域に対応するものである。図3は音源方向検出方法の概念図である。同図(A)は音源とマイクとの位置関係と、音源から発生した音が各マイクで収音される際のディレイとの関係を示した図であり、同図(B)、(C)は収音された音声信号のディレイに基づくディレイ補正量の形成概念を示す図である。
同図に示すように、この通信会議システムにおいてはマイクアレイ前方に4つの部分領域101〜104を設定している。部分領域101で発生した音は最も近いマイク2Aで最初に収音される。そして、部分領域101とマイク2との距離に応じて順に、各マイクで収音され、最も遠いマイク(同図においてマイク2L)で最後に収音される。一方、部分領域104で発生した音は最も近いマイク2Lで最初に収音され、部分領域104とマイク2との距離に応じて順に、各マイクで収音され、最も遠いマイク2Aで最後に収音される。このように、各領域で発生する音はマイクとの距離に応じた遅延時間(ディレイ)で収音される。
ここで、部分領域101に対しては、図3(B)に示すように、各マイク2A〜2Lで収音される音声信号を遅延処理する。すなわち、図3(A)に示すディレイを補正するように対応するディレイ補正量を設定する。一方で部分領域104に対しては、図3(C)に示すように各マイク2A〜2Lで収音される音声信号を遅延処理する。
部分領域101に対応する収音ビームを構成するための遅延音声信号がディレイバッファ42Aにおいて生成され、FIRフィルタ431Aに出力される。また、部分領域102に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ432Aに出力される。同様に、部分領域103に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ433Aに出力され、部分領域104に対応する収音ビームを構成するための遅延音声信号がFIRフィルタ434Aに出力される。これらの遅延音声信号の遅延量は、図3に示すようにマイク2と各領域との距離に応じて設定される。例えば部分領域101に対応する遅延音声信号は、マイク2Aと部分領域101との距離が近いため遅延量が大きく、部分領域104に対応する遅延音声信号は、マイク2Aと部分領域104との距離が最も遠いために遅延量が小さい。
図2において、FIRフィルタ431A〜434Aは全て同じ構成からなり、それぞれに入力された遅延音声信号をフィルタリングして出力する。FIRフィルタ431A〜434Aは、ディレイバッファ42Aでは実現できない詳細な遅延時間を設定することができる。すなわち、FIRフィルタのサンプリング周期とタップ数とを所望の値に設定することにより、例えばディレイバッファ42Aでのサンプリング周期を遅延時間の整数部分とする場合にこの遅延時間の小数点部分を実現することができる。
FIRフィルタ431A〜434Aから出力された遅延音声信号は、それぞれのアンプ441A〜444Aで増幅されて、加算器45A〜45Dに入力される。他のディジタルフィルタ41B〜41Mにおいてもディジタルフィルタ41Aと同じ構成からなり、それぞれに予め設定された遅延条件にしたがって遅延音声信号を加算器45A〜45Dに出力する。
加算器45Aは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域101に対応する収音ビームを生成する。同様に、加算器45Bは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における収音領域102に対応する収音ビームを生成し、加算器45Cは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域103に対応する収音ビームを生成する。また、加算器45Dは、各ディジタルフィルタ41A〜41Mから入力される遅延音声信号を合成して、図3における部分領域104に対応する収音ビームを生成する。
各加算器45A〜45Dから出力される収音ビームは、バンドパスフィルタ(BPF)46に出力される。BPF46は、各収音ビームをフィルタリングして所定の周波数帯域の収音ビームをレベル判定部47に出力する。ここで、BPF46は、マイクアレイの幅やマイク2の設置間隔に応じてビーム化される周波数帯域が異なることを利用し、各収音ビームで収音したい音声に対応する周波数帯域を通過帯域に設定する。例えば収音したい音声が話者の発話音声であれば、人の音声帯域に相当する周波数帯域を通過帯域に設定すればよい。
レベル判定部47は、各収音ビームのレベルを比較し、最もレベルが高い収音ビームを選択する。収音ビームのレベルが高いということは、この収音ビームに対応する領域に音源(発話者)が存在することとなり、図3において示した4つの領域に区分した場合における音源の存在領域を検出することができる。レベル判定部47は、音源の存在領域を示す情報をコントローラ6に出力する。なお、レベル判定部47は、単に最もレベルが高い収音ビームの情報をコントローラ6に出力するようにし、コントローラ6がこれに対応する領域を判断するようにしてもよい。
コントローラ6は、セレクタ48に、音源の存在領域に対応する収音ビームを選択して出力するように設定する。セレクタ48には、各加算器45A〜45Dから出力された収音ビームが入力され、コントローラ6によって設定された収音ビームのみを出力する。このセレクタ48の出力が入出力インターフェース7に入力され、他の通信会議システム等に出力される。したがって、この通信会議システムは発話者の音声のみを明瞭に他の会議システム等に送信することが可能となる。さらに、コントローラ6は、他の通信会議システムにおいて音源の存在領域が再現されるように(送信先において仮想的な音源が形成されるように)、音源の位置情報を入出力インタフェース7に出力する。音源の位置情報は、レベル判定部47で判定した音源の存在領域を示す情報を基にする。位置情報は、音源の存在領域を示す情報(音源の位置座標等)であってもよいし、各スピーカ1に設定する遅延時間を示す情報であってもよい。
カメラ3は、CCDやCMOS等のイメージセンサにより構成され、この通信会議システムの前方を継続的に撮影し、通信会議システム前方の画像を取得する。なお、このカメラ3は高精細のイメージセンサである必要はなく、テレビ会議に必要とされる精細度(0.3Mピクセル/フレーム)程度の性能を有していればよい。各カメラ3は、互いに所定距離離れた位置に直線状に配置される。
図4は、カメラ撮影範囲を示す概念図である。3つのカメラ3A、3B、および3Cは直線状に配置される。また、カメラ3Bが中心位置に配置され、カメラ3Aとカメラ3Cが端部に配置される。端部に配置されるカメラ3A、およびカメラ3Cは、内側方向(正面中心方向)に向くように、つまり撮影視野範囲が交差するように配置されている。ここで、それぞれのカメラ撮影範囲はその範囲端部においてオーバーラップする(重複となる)ように配置される。同図においては、カメラ3Aの撮影範囲右端部とカメラ3Bの撮影範囲左端部が重複し、カメラ3Cの撮影範囲左端部とカメラ3Bの撮影範囲右端部が重複している。したがってカメラ3A〜3Cにおいては、その撮影範囲中心軸が交錯する位置30でカメラを回動させて(パンを変更して)撮影する場合と略同じ画像が得られる。つまり仮想的に位置30にカメラを設置し、パンを変更した場合と同様の効果が得られる。
各カメラ3で取得された画像は、画像処理部5に出力される。画像処理部5は、各カメラ3で取得されたそれぞれの画像を合成し、パノラマ画像を生成する。すなわち、各カメラ3の視野は、それぞれの端部において重複となるため、この端部を合成する(つなぎ合わせる)ことでパノラマ画像を生成することができる。一般に通信会議においては、通信会議システム前方中心位置に会議机が存在し、これを囲むように会議参加者が存在するため、端部に配置されたカメラ3A、およびカメラ3Cが互いに内側方向を撮影することで会議参加者の顔正面を撮影し易くなる。
図4においては、通信会議システム前方中心付近の紙面左側(通信会議システムから見て右側)に会議参加者200A、および200Bが存在する。また、通信会議システム前方中心に会議参加者200Cが存在し、通信会議システム前方中心付近の紙面右側(通信会議システムから見て左側)に会議参加者200D、および200Eが存在する。各会議参加者200A〜200Eは、それぞれ通信会議システム前方中心付近の会議机210を囲むように存在する。したがって、紙面左側の会議参加者200A、および200Bは、ほぼカメラ3Cの方向を向き、紙面右側の会議参加者200D、および200Eは、ほぼカメラ3Aの方向を向くこととなる。
これにより、通信会議システム付近に設置した単一のカメラでパンを変更して各会議参加者を撮影する場合に比べ、会議参加者の顔正面を撮影し易くなる。
図5は、画像処理部5の詳細な構成を示すブロック図である。画像処理部5の合成処理部51にカメラ3A、3B、および3Cの画像が入力される。合成処理部51は、上記のように各画像を合成し、パノラマ画像を生成する。このパノラマ画像は画像バッファ52に出力される。画像バッファ52は、このパノラマ画像をバッファする。抽出部53は、画像バッファ52でバッファされるパノラマ画像を読み出し、一部の領域を切り出して入出力インターフェース7に出力する。この切り出す領域はコントローラ6により決定される。
コントローラ6は、上述したように音源の存在領域を示す情報を取得している。したがって、コントローラ6は、この音源が存在する領域の画像を切り出すように抽出部53に設定する。抽出部53は、音源が存在する領域の画像を切り出して入出力インターフェース7に出力する。これにより、音源が存在する領域の画像のみ他の通信会議システムに送信されることとなる。したがって、音源となる発話者以外の音声(ノイズ)や画像が出力されることなく、発話者の映像と音声が鮮明に出力されることとなる。
なお、ディスプレイ8には、他の通信会議システムから入力された通信先の画像を表示するが、画像処理部5(抽出部53)から発話者自身の画像を表示することも可能である。ディスプレイ8において通信先に表示される画像を確認することができる。
図6は通信会議システムの外観の一例を示す図であり、図7はカメラ撮影範囲と音源検出領域範囲を示す図である。図6に示すように、本通信会議システムは、ディスプレイ8の上部に設置された複数(例えば15個)のマイク2からなるマイクアレイと、複数(例えば12個)のスピーカ1からなるスピーカアレイと、複数(例えば3個)のカメラ3とを備えている。ディスプレイ8には他の通信会議システムから受信した画像を表示する。3つのカメラ3は、複数のスピーカ1と同一直線上に配置され、外観上スピーカアレイのスピーカ1と同様に等間隔に配置される。つまり、本来であれば15個配置されるべきスピーカ1のうち、中心位置および左右端部から一つ内側の位置におけるスピーカ1の代わりにカメラ3を配置した構成となる。カメラをスピーカに置き換えた配置とすることで、外観上カメラが目立たず、すっきりとした構成となる。なお、カメラ3の位置はこの例に限るものではないが、スピーカアレイの音声ビーム幅を確保するためにスピーカアレイの直線上、左右端部にはスピーカ1を設置する。
上述のように、本通信会議システムは、マイクアレイによって4つの音源検出部分領域101〜104に収音ビームを設定している。図7(A)においては、部分領域103内に音源250が存在する。したがって、部分領域103に対応する収音ビームのレベルが最も高くなり、コントローラ6は、部分領域103に音源が存在すると判断する。
コントローラ6は、音源が存在すると判断すると、画像バッファ52に対し、抽出部53にパノラマ画像を出力するよう指示する。また、抽出部53に対し、部分領域103に対応する部分の画像を切り出して出力するよう指示する。したがって、同図(B)に示す破線のパノラマ画像のうち、実線で示す部分領域103に対応する画像領域が抽出部53から入出力インターフェース7に出力されることとなり、通信先においては発話者(音源250)の画像を鮮明に取得することができる。
ここで、例えば異なる領域(例えば部分領域101)で発話がなされると、部分領域101に対応する収音ビームのレベルが最も高くなり、コントローラ6は、この部分領域101に音源が存在すると判断する。したがって、コントローラ6は抽出部53に対し、部分領域101に対応する部分の画像を切り出して出力するよう指示する。この際、機械的にカメラを移動してパンを変更するのではなく、バッファしているパノラマ画像の所望の領域の画像を切り出す(電子的にパンを変更する)ため、従来よりも簡略な構造でありながら高速に出力画像を変更することが可能となる。
また、本実施形態の通信会議システムを送信側、受信側の両方に用いることで以下のような効果を得ることができる。図8は、指向特性を説明する図である。同図(A)は、送信側のマイクアレイの指向特性(収音ビーム)を示した図である。同図において、音源250が発した音声は、最も近いマイク2から順に到達するが、それぞれのマイク2に遅延を与え、音源から発せられた音声が各マイク2で同位相で出力されるようにし、収音ビームに焦点を持たせる。
一方で、同図(B)は、受信側のスピーカアレイの指向特性を示した図である。同図において、受信した音声信号をそれぞれのスピーカ1から出力する。このとき、入出力インタフェース7を介してコントローラ6に入力された送信側の音源位置情報に基づいて、同図(A)に示したような通信会議システムと音源250の位置関係で、仮想音源を形成する。この仮想音源に最も近い位置のスピーカ1から最初に音声を出力し、隣のスピーカ1から順に遅延して出力する。このように、順次遅延させることにより、音声ビームに焦点を持たせることができ、音声が発話者の位置から発せられたかのような音像定位をさせることができる。したがって、従来の通信会議システムに比べ、映像に一致した音像定位ができ、よりリアルな会議環境を得ることができる。
次に、この通信会議システムの動作についてフローチャートを用いて説明する。図9は、通信会議システムの動作を示すフローチャートである。まず、各マイク2で収音した音声信号が音声信号処理部4に入力される(s11)。その後、各ディジタルフィルタ41A〜41Mのディレイバッファで複数段の遅延音声信号が形成される(s12)。ディレイバッファから出力された複数の遅延音声信号は、それぞれ音源検出領域に対応する複数の加算器において合成され、複数の収音ビームが形成される(s13)。各音源検出領域に対応する複数の収音ビームはレベル判定部47でレベル比較される(s14)。
コントローラ6は、最もレベルが高い収音ビームに対応する音源検出領域に発話者が存在すると判断する(s15)。その後、コントローラ6は、発話者が存在すると判断した音源検出領域の画像を切り出すように画像処理部5に設定し、音声信号処理部4のセレクタ48にこの領域に対応する収音ビームを出力するよう設定する(s16)。その後、音声信号処理部4から発話者の音声信号が、また画像処理部5から発話者の画像が入出力インターフェース7に出力される(s17)。
なお、本実施形態では、前面4つの領域において音源を検出する例について説明したが、さらに多数の領域に分けて音源を検出してもよい。図2におけるディレイバッファ42Aの段数を変更することで音源検出領域を多数設定することが可能である。なお、本実施形態では、マイクアレイにより発話者の位置を検出する例を示したが、赤外線センサ等、他のセンサで検出するようにしてもよい。また、カメラで撮影した画像を解析し、画像認識により発話者の位置を検出するようにしてもよい。
さらに、マイクアレイの配置は上記のものに限るものではなく、複数のマイクが所定のパターンで配置されたマイクアレイ(例えばマトリクス状に配列されたマイクアレイ)であればどのような配置であってもよい。また、図9に示すように、複数次元の円状にマイクをパターン配置することで、どの方向からも音源を検出することができ、これを本発明の構成に適用することで、電子的にパンを変更する例に限らず、発話者の位置にあわせてチルトを変更することも可能となる。
通信会議システムの構成を示すブロック図 音声信号処理部の主要部の構成を示すブロック図 音源検出領域を示す図 カメラ撮影範囲を示す図 画像処理部の構成を示すブロック図 通信会議システムの外観の一例を示す図 カメラ撮影範囲と音源検出領域範囲を示す図 指向特性を説明する図 通信会議システムの動作を示すフローチャート 円状にマイクを配列したマイクアレイの構成図
符号の説明
1−スピーカ
2−マイク
3−カメラ
4−音声信号処理部
5−画像処理部
6−コントローラ
7−入出力インターフェース
8−ディスプレイ

Claims (4)

  1. 音源位置を検出する音源位置検出手段と、
    撮影視野が連続し、互いに撮影視野が交差するようにそれぞれ異なる向きに、直線状に配置された複数のカメラと、
    前記複数のカメラで撮影した連続画像から前記音源位置検出手段で検出した音源位置を含む範囲の画像を切り出す画像切り出し手段と、
    を備えた撮影装置。
  2. 前記音源位置検出手段は、複数のマイクを配列して構成されるマイクアレイと、
    前記複数のマイクが収音した音声信号をそれぞれ所定時間遅延して合成することにより、特定領域の音声を高レベルで収音する収音ビームを複数形成する収音信号処理手段と、
    前記収音信号処理手段が形成した複数の収音ビームのうち最もレベルが高い収音ビームの方向に音源が存在すると判断する音声信号選択手段と、
    からなることを特徴とする請求項1に記載の撮影装置。
  3. 請求項2に記載の撮影装置と、
    前記収音信号選択手段が選択した収音ビームの音声信号、および前記画像切り出し手段が切り出した画像信号を出力し、外部からの音声信号および画像信号を入力する送受信手段と、
    前記送受信手段が入力した音声信号に基づく音声を発する音声出力手段と、
    前記送受信手段が入力した画像信号に基づく画像を表示する表示手段と、
    を備えた通信会議システム。
  4. 前記送受信手段は、前記音源位置検出手段が検出した音源位置情報を出力するとともに、外部からの音源位置情報を入力し、
    前記音声出力手段は、複数のスピーカを配列して構成されるスピーカアレイと、
    前記送受信手段が入力した音声信号を、前記複数のスピーカにそれぞれ所定時間遅延して出力することにより、特定領域に音声を高レベルで放音する音声ビームを形成する放音信号処理手段と、
    からなり、
    前記放音信号処理手段は、前記送受信手段が入力した外部からの音源位置情報に基づいて、当該音源位置に相当する位置に仮想的な音源が形成されるように音声ビームを形成し、前記表示手段に表示される画像中の音源の位置と、前記仮想的な音源の位置が同じ、または、同方向となるように前記音声ビームを制御することを特徴とする請求項3に記載の通信会議システム。
JP2005311656A 2005-10-26 2005-10-26 撮影装置、および通信会議システム Expired - Fee Related JP4892927B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005311656A JP4892927B2 (ja) 2005-10-26 2005-10-26 撮影装置、および通信会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005311656A JP4892927B2 (ja) 2005-10-26 2005-10-26 撮影装置、および通信会議システム

Publications (2)

Publication Number Publication Date
JP2007124140A JP2007124140A (ja) 2007-05-17
JP4892927B2 true JP4892927B2 (ja) 2012-03-07

Family

ID=38147514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005311656A Expired - Fee Related JP4892927B2 (ja) 2005-10-26 2005-10-26 撮影装置、および通信会議システム

Country Status (1)

Country Link
JP (1) JP4892927B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008294690A (ja) * 2007-05-24 2008-12-04 Yamaha Corp 音声会議装置および音声会議システム
JP2008312002A (ja) * 2007-06-15 2008-12-25 Yamaha Corp テレビ会議装置
US9113064B2 (en) 2009-11-05 2015-08-18 Olympus Corporation Image pickup apparatus and image acquisition method
JP5495760B2 (ja) * 2009-12-17 2014-05-21 オリンパスイメージング株式会社 撮像装置
KR100996312B1 (ko) 2010-09-02 2010-11-23 한창수 회의 시스템
WO2014125705A1 (ja) * 2013-02-15 2014-08-21 シャープ株式会社 Av機器
KR101630614B1 (ko) * 2015-03-25 2016-06-24 (주)에어사운드 동영상 강의 콘텐츠 제작 시스템 및 방법
JP6547496B2 (ja) * 2015-08-03 2019-07-24 株式会社リコー 通信装置、通信方法、プログラムおよび通信システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) * 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP4127156B2 (ja) * 2003-08-08 2008-07-30 ヤマハ株式会社 オーディオ再生装置、ラインアレイスピーカユニットおよびオーディオ再生方法
JP4595364B2 (ja) * 2004-03-23 2010-12-08 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体

Also Published As

Publication number Publication date
JP2007124140A (ja) 2007-05-17

Similar Documents

Publication Publication Date Title
JP4892927B2 (ja) 撮影装置、および通信会議システム
JP5028944B2 (ja) 音声会議装置及び音声会議システム
US5940118A (en) System and method for steering directional microphones
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
EP1946606B1 (en) Directional audio capturing
US20100254543A1 (en) Conference microphone system
US8390665B2 (en) Apparatus, system and method for video call
JP2008288785A (ja) テレビ会議装置
US20040257432A1 (en) Video conferencing system having focus control
US20090147967A1 (en) Conference apparatus
JP2012105199A (ja) 音響信号処理装置、テレビジョン装置及びプログラム
JP2016146547A (ja) 収音システム及び収音方法
NO323434B1 (no) System og metode for a produsere et selektivt lydutgangssignal
JP2007274463A (ja) 遠隔会議装置
JP2007274462A (ja) テレビ会議装置、テレビ会議システム
WO2017149124A1 (en) A method, system and device for generating associated audio and visual signals in a wide angle image system
JP2017028608A (ja) ビデオ会議端末機
JPH09275533A (ja) 信号処理装置
JP4644555B2 (ja) 映像音声合成装置及び遠隔体験共有型映像視聴システム
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
JP2009049734A (ja) カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム
EP2394444B1 (en) Conference microphone system
JP2014072835A (ja) 会議装置
JP6835205B2 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP5050935B2 (ja) ソーナー受信装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080820

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110704

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

R150 Certificate of patent or registration of utility model

Ref document number: 4892927

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees