JP3672320B2

JP3672320B2 - 音源位置づけ方法と装置

Info

Publication number: JP3672320B2
Application number: JP50158998A
Authority: JP
Inventors: ピーターエルチュー; ホンウォン
Original assignee: ポリコム・インコーポレイテッド
Priority date: 1996-06-14
Filing date: 1997-05-08
Publication date: 2005-07-20
Anticipated expiration: 2017-05-08
Also published as: EP0903055A4; JP2000512108A; WO1997048252A1; CA2257444C; DE69738195D1; US5778082A; CA2257444A1; DE69738195T2; EP0903055A1; EP0903055B1

Description

発明の背景
本発明は、一般に、音響信号処理に関し、詳細には、音源の方向およびまたは位置を識別する方法と装置に関する。
幾つかの知られている音響通信装置は、音響信号を捕らえる一つ以上のマイクロホーン取り入れている。しかし、ある状況においては、音源の方向は変化するか、または、予測することが出来ない。例えば、室内の多数の話者が一組の話者マイクロホーンを使用する会議用装置では、異なる人が会議室内の異なる位置から話すので、音の方向は変化する。さらに、話者は話している間動き回る。それにもかかわらず、ビデオ方式会議などの環境では、話者の方向と位置を識別することが望まれる。
発明の要約
本発明は、数組の間隔をおいて離れたマイクロホーンを使用して、共通の音源からのスピーチの方向と他の音響信号を得る音響信号処理方法と装置を意図している。本発明は、個々の時間フレームの間に捕らえた信号が、音源からの音響信号の流れの始まりまたは初期を表しているか、いないかを決定し、データがその流れの初期を表すとき、信号の流れを表す受信された音響信号を識別し、受信された音響信号に基づいた音源の方向を決定することにより、音響信号を処理する方法と装置から構成している。
好適な実施態様において、音源からの音響信号の流れの始まりまたは初期は、周波数毎をベースにして好適に検出される。好適に、次の二つの条件を満足する捕らえた信号のこれらの周波数成分に関連したデータは、音源からの音響信号の始まりにおいて発生する信号を表すと思われる。第一に、周波数成分の大きさは、その周波数の暗騒音のエネルギーより、少なくとも所定量だけ好適に大きくなければならない。第二に、周波数成分の大きさは、先行の時間フレームの所定数の間に捕らえた対応する周波数成分の大きさより、少なくとも所定量だけ好適に大きくなればならない。
二つの条件が個々の時間フレームの間において個々の周波数について満足されるならば、始まりの条件がその周波数に関して満足されると考えられる。時間フレーム中に一組のマイクロホーンにより捕らえられた音響信号の相互関係は、この様な各周波数成分について生成され、各この周波数における騒音の相互関係は差し引かれて、音源からの信号の流れを表す受信音響信号を識別する。好適に、受信された音響信号は、所定の時間の間蓄積される。所定時間の終わりに、少なくとも特定数の周波数の非ゼロ値が蓄積されたならば、蓄積された値は、一組のマイクロホーンにおいて共通の音源から到達する信号の間の時間遅れを決定するために使用される。次に、この情報は、マイクロホーンに対する音源の方向または関係角度を決定するために使用することが出来る。マイクロホーンの配列が、装置の能力を高めるために、ただ一組のマイクロホーンの代わりに有利に使用することが出来る。
本発明は、ビデオ方式会議、ビデオ録画および放送などの用途に特に適しており、その場合、動作カメラを水平回転し、傾斜し、スピーチを始めた個人または数人のグループの方向に切り換えることなどにより、一組のカメラの中の一台のビデオカメラを自動的に向けることは望まれる。
本発明の他の特徴と利点は、以降の詳細な説明と付属図面を読むと、さらにはっきりと理解されるであろう。
【図面の簡単な説明】
図１は、本発明による、音源の方向を位置付ける典型的装置を示す機能構成図である。
図２Ａ〜２Ｂは、本発明の方法のステップを示す流れ図を示す。
図３は、暗騒音を算定する一つの方法の流れ図である。
図４は、音源からの音響信号を受信する一組のマイクロホーンに関する関係角度の幾何学的構成を示す。
図５は、本発明によるビデオ方式会議の装置を示す。
図６は、本発明によるビデオ方式会議装置に使用されるマイクロホーンの配置を示す。
図７は、ビデオ方式会議装置のビデオカメラを指向する方法のステップを示す流れ図である。
好適な実施態様の説明
図１は、本発明による、音源の方向を位置付ける典型的装置１を示す機能構成図である。例えば、装置１は、反響する環境で発言する人などの音源２の方向を決定するために使用される。従って、本発明は、例えば、発言中の人の方向にビデオカメラを向けることが望まれるビデオ方式会議の環境の用途に特に適している。しかし、本発明は、録音および放送中に指向する普通のカメラなどの他の環境にも使用出来ることが理解されるされるであろう。
図１の多くの機能モジュールは、例えば、読み出し専用メモリー（ＲＯＭ）、ランダムアクセスメモリー（ＲＡＭ）およびまたは他の形のメモリーなどの適切にプログラムされたプロセッサにより、実行される。図１のモジュールの機能を行う他の適切なプロセッサには、ミニコンピュータ、マイクロコントローラ、プログラマブル論理アレイおよびアプリケーション特定集積回路がある。この種のプロセッサのプログラミングと使用は、本技術においては周知であり、従って、ここではさらに詳細に説明しない。
図１は、本発明の方法によるステップの流れ図である図２Ａ〜２Ｂに関連して最もよく理解することが出来る。ステップ１００により示されているように、音響データの流れは、距離Ｄだけ間隔をおいて離れた一組のマイクロホーン１０，１１などの二つ以上のトランスデューサにより捕らえられる。音響データの流れは、音源２から直接に受信された音響信号、および騒音と反響信号から成っている。一組のマイクロホーンから受信された信号は、アナログ／ディジタル（Ａ／Ｄ）変換器１２，１３を経て、例えば、１６ＫＨｚで動作する各サンプリングモジュール１４，１５へ送られる。サンプリングモジュール１４，１５は、マイクロホーン１０，１１から受信された各データの流れを、ステップ１０１，１０２によりそれぞれ示されているように、Ｎ個のサンプルの数値で表されたサンプリングフレームへ変換する。Ｎ個のサンプルの数は、例えば、５１２である。Ｎ個のサンプルのブロックは、一般には、Ｎ／２のサンプルだけ重なり合う。各乗算器１８，１９は、ステップ１０３，１０４により示されているように、サンプリングモジュール１４，１５からの出力された信号に、モジュール１６，１７により生成されたウィンドウ関数を掛ける。ウィンドウ関数モジュール１６，１７は、例えば、従来のハミングウィンドウを生成する。しかし、この好適な実施態様では、ウィンドウ関数モジュール１６，１７は、次式のような指数のウィンドウ関数を使用する。

他のウィンドウ関数も使用することが出来る。乗算器１８，１９の出力に現れる信号は、次式の形を有する。
ｘ_1m＝ｗ(ｉ)ｓ_1m(ｉ)，ｉ＝０，...，Ｎ−１［２］
ｘ_2m＝ｗ(ｉ)ｓ_2m(ｉ)，ｉ＝０，...，Ｎ−１
ここで、ｓ_1m（ｉ）とｓ_2m（ｉ）は、それぞれ、フレームｍの間のマイクロホーン１０，１１から受信された信号を表す。
次に、図２Ａのステップ１０５，１０６により示されているように、乗算器１８，１９の出力における信号は、ファーストフーリエ変換（ＦＦＴ）などの全体的変換を行う各モジュール２０，２１により各フレームについて処理される。フーリエ変換された信号ｆ_1m（ｋ）、ｆ_2m（ｋ）は、ｊが−１の平方根である計算を表す。ｋの値は、例えば、１２５Ｈｚ〜７．５ｋＨｚの範囲であるが、他のｋの範囲もまた可能である。次式のフーリエ変換された信号は、その後の処理のために、各ＦＦＴモジュール２０，２１に関連した各メモリー２２，２３に格納される。

現在のフレームのフーリエ変換された信号は、さらに処理するため他のモジュールへも送られる。例えば、フーリエ変換された信号は、米国出願Ｎｏ．０８／４３４，７９８に記載されたピッチ検出器などのピッチ検出器９０へ送られる。この出願は、参考に本明細書に取り入れられている。
本発明の原理により、一定の暗騒音エネルギーが、マイクロホーンの一つ、例えば、マイクロホーン１０から受信された信号の各周波数成分について別々に算定される。ステップ１１０により示されているように、暗騒音エネルギーは、暗騒音算定器３５により算定される。騒音算定器３５は、先行のＳフレームのフーリエ変換された信号を使用して、先行Ｓフレームの信号が騒音だけであり、ほぼ一定レベルの騒音があるならば、暗騒音を算定する。フレームＳの数が、適切に、例えば、１００であってもよい。
図３は、暗騒音を算定する一つの方法のステップを示す流れ図である。図３のステップ２００により示されているように、適切な周波数スペクトルが、好適に重なり合っていない周波数帯Ｌへ分割される。例えば、１ＫＨｚの帯域幅をそれぞれ有する８個の周波数帯が、適切に使用される。次に、ステップ２０２により示されているように、周波数帯毎のエネルギー算定器３０は、現在のフレームのフーリエ成分から、各周波数帯について広帯域のエネルギー信号を発生する。従って、例えば、各１ＫＨｚ帯について３２個の係数を仮定すると、各帯の平均エネルギーは次式により計算される。

ここで、ｂ_m（ｒ）は、周波数帯ｒとフレーム番号ｍの広帯域エネルギーである。
次に、ステップ２０４により示されているように、各周波数帯の平均広帯域エネルギー信号は、先行のＭフレームの広帯域エネルギーから生成される。従って、個々の周波数帯ｒの平均エネルギーは、次式により好適に計算される。

ここで、Ｍは、例えば、４に設定され、ｍ’は現在のフレームの番号である。次に、決定が、各周波数帯のエネルギーが先行のフレームに対し比較的一定のままであったか、どうかに関して行われる。具体的には、決定は、２０６により示されているように、現在のフレームのすべての周波数帯が、その周波数帯の平均エネルギーより少なくとも所定量だけ大きいか、どうかに関して行われる。決定はまた、すべての周波数帯が、その周波数帯の平均エネルギーより少なくとも所定量だけ小さいか、どうかに関しても行われる。言い換えると、帯域毎エネルギー算定器３０は、次式のいずれであるかを決定する。

ここで、Ｔ_bは５に設定されている。Ｔ_bの高低値は、個々のアプリケーションに従って使用される。式［６］のいずれかの決定が、一つ以上の周波数帯について肯定的であるならば、エネルギー算定器３０は、エネルギーがステップ２０８により示された時間において変化していることを示す出力信号を発生する。暗騒音算定器３５のカウンタ３６は、広域帯エネルギーレベルがほぼ一定になっている連続フレームの番号を追跡して、ゼロへリセットされる。そうでなければ、ステップ２１０により示されているように、出力信号が送られて、現在のフレームの広域帯エネルギーレベルが先行フレームに対しほぼ一定であることを示し、カウンタ３６は一つだけ増分される。
時間に亘ったエネルギーの一定性の他の測定が、ステップ２０４，２０６の代わりに使用することが出来る。例えば、一つの他の測定は次式のいずれかを決定することである。

ここで、Ｍは同様に、例えば、４である。
いずれにしても、暗騒音算定器３５は、広域帯エネルギーレベルが、２１２により示されているように、先行のＳ個のフレームに対し既にほぼ一定であるか、どうかを決定する。これは、カウンタ３６が少なくともＳに等しいか、どうかを点検することにより、達成される。先行Ｓ個のフレームの広域帯エネルギーレベルが、ほぼ一定でなければ、ステップ２１３により示されているように、装置１は次のフレームの処理を続ける。しかし、決定２１２が肯定的であるならば、暗騒音算定器３５は、ステップ２１４により示されているように、次式に従って暗騒音を好適に計算する。

ここで、ｆ_1(m-i) ^*は、ｆ_1(m-i)の複合結合であり、Ｓは、例えば、１００に等しい。このために、先行フレームのフーリエ変換された信号の周波数成分は、メモリー２２から暗騒音算定器３５へ送られる。暗騒音算定器３５により発生された、暗騒音を表す出力信号は、以降に詳細に説明されているように、現在フレームの周波数成分が、音源２の方向及びまたは位置の計算に有用なデータであると見なされることを決定するために使用される。
エネルギー算定器３０により発生された信号は、暗騒音相互関係算定器４０へも送られる。先行Ｓ個のフレームの広域帯エネルギーレベルが既にほぼ一定であることが決定されるならば、先行Ｓ個のフレームの信号の相互関係信号が、ステップ１１５により示されているように、騒音算定器４０により発生される。暗騒音相互関係は、次式により好適に計算される。

ここで、ｆ_2(m-i) ^*はｆ_2(m-i)の複合結合であり、Ｎ（Ｋ）は個々の周波数Ｋにおける騒音の相互関係を表す。このために、先行Ｓ個のフレームのフーリエ変換された信号の周波数成分は、各メモリー２２，２３から暗騒音相互関係算定器４０へ送られる。暗騒音相互関係算定器４０により発生された、騒音の相互関係を表す出力信号は、以降に詳細に説明されるように、装置１が音源２から発生したと決定する、受信された音響信号の相互関係の識別を支援するために使用される。
本発明のこの好適な実施態様において、マイクロホーン１０，１１において捕らえられた音響データの周波数成分は、以降に詳細に説明されるように、二つの条件が現在のフレームの個々の周波数成分について満足されるならば、音源２の方向を決定するのに有用であると考えられる。第一に、図２Ａの１２０により示されているように、比較器２５は、マイクロホーン１０から受信された信号に関し、現在のフレームのどの周波数成分が、たとえ有するにしても、対応する周波数成分の暗騒音ｂ（ｋ）の大きさより少なくとも所定量だけ大きい大きさを有するかを決定する。第二に、１２１により示されているように、比較器２４は、現在のフレームのどの周波数成分が、有するにしても、先行のＳ個のフレームの対応する周波数成分の大きさより少なくとも所定量だけ大きい大きさを有するかを決定する。ここで、例えば、ｐは４に設定することが出来る。数学的に、第一条件は次式のように表される。

ここで、例えば、ＴＮは４に設定される。第二条件は次式のように表される。

ここで、例えば、Ｔ_oは４に設定される。ＴＮとＴＯの高低値は、個々のアプリケーションに従って使用される。同様に、４以外の事前に指定されたｐの値も、使用することが出来る。第一条件は、音源２からの信号が存在していることを示すのに役に立ち、第二条件は、音源２から受信された一連の音響信号の始まりまたは初期を示すのに役に立つ。周波数成分が、式［１０］と［１１］により示された両方の条件を満足しなければ、装置は、ステップ１２２により示されているように、音響データの次のフレームの処理を続ける。
式［１０］と［１１］により示された前述の条件の両方が、特定の周波数ｋについて満足されるならば、二つの入力のＡＮＤゲート２６は、両方の条件が現在のフレームの周波数ｋについて満足されることを示す信号を発生する。次に、ＡＮＤゲート２６により発生した信号は、始まりの信号の相互関係算定器４５へ送られる。ＡＮＤゲート２６からの信号に応答して、相互関係算定器４５は、ステップ１３０により示されているように、計算して、次式により特定周波数ｋの相互関係信号を発生する。
ｃ_m(ｋ)＝ｆ_1m(ｋ)ｆ_2m ^*(ｋ) ［１２］
このために、相互関係算定器４５は、各周波数成分信号をＦＦＴモジュール２０，２１から受信する。次に、ステップ１３５により示されているように、減算器５０は、ステップ１１５において発生した暗騒音相互関係Ｎ（Ｋ）を、ステップ１３０において発生した相互関係ｃ_m（Ｋ）から差し引く。この様にして、フレームｍの周波数ｋの出力信号ａ_m（Ｋ）は、次式に従って減算器５０により発生される。
ａ_m(ｋ)＝ｃ_m(ｋ)−Ｎ(ｋ) ［１３］
ステップ１３５から得られた出力信号は、音源２から受信された音響信号の流れの初期または始まりに対応する受信された音響信号を表す。
減算器５０により発生した信号は、複数の蓄積器６０，・・・，６１の対応する蓄積器へ転送される。蓄積器のそれぞれは、４〜２４０の周波数ｋの一つに対応する。ステップ１４０により示されているように、各蓄積器６０，・・・，６１は、減算器５０から得られ、かつ、その特定の周波数に対応する結果を、特定の時間期間について蓄積器６０，・・・，６１に格納された前の結果に加える。従って、次式により表される。
ａ_m,new(ｋ)＝ａ_m,old(ｋ)＋［ｃ_m(ｋ)−Ｎ(ｋ)］［１４］
ここで、ａ_m,old（ｋ）は、周波数ｋの相互関係蓄積器に格納された前の値を表し、ａ_m,new（ｋ）は、周波数ｋの相互関係蓄積器に格納された新しい値を表す。
例えば、２秒の特定の時間期間の終わりにおいて、１４５により示されているように、決定が、相互関係蓄積器６０，・・・，６１の所定数より多い蓄積器は、非ゼロのエントリを有する。少なくとも指定された数の蓄積器６０，・・・，６１が、非ゼロのエントリを有していないならば、従って、更新されていないならば、蓄積器６０，・・・，６１の値は、ステップ１４７により示されているように、ゼロへリセットされる。他方、ステップ１５０により示されているように、決定１４５が肯定的であるならば、マイクロホーン１０，１１の音響信号の到着時間の間の時間遅れｔ（ｎ）を表す信号が発生される。この時間遅れは、蓄積された相互関係信号から時間遅れ計算モジュール７０により発生される。
この好適な実施態様において、モジュール７０もまた、帯域毎のエネルギー算定器３０から信号を受信して、現在のフレームが音源２からの信号の流れを有することを確認する。本実施態様により、帯域毎のエネルギー算定器３０から受信された信号がまた、現在のフレームが音源２からの信号の流れを示すことを単に示すならば、モジュール７０は、時間遅れ信号ｔ（ｎ）を発生する。
時間遅れｔ（ｎ）を発生するために、モジュール７０は、蓄積器６０，・・・，６１に現在格納された相互関係値の大きさを好適に基準化する。従って、エントリが非ゼロである、すなわち、言い換えると、更新されていない各周波数蓄積器６０，・・・，６１について、大きさはゼロに設定される。数学的に表すと、

次に、蓄積された相互関係値の基準化された値に基づいて、モジュール７０は、フレームｍの間に一組のマイクロホーン１０，１１に到着する音響信号の時間遅れを表す信号を発生する。
一つの実施態様において、モジュール７０は計算して、次式により逆のフーリエ変換を表す信号を発生する。

これは、フレームｍの間に一組のマイクロホーン１０，１１に到着する音響信号の時間遅れの値に相当する値を発生する。従って、例えば、ｔ（ｎ）の最大値は遅れとして選択される。あるいは、補間法が、Ｉが相互関係の時間分解が増加される整数であることにより、サンプルの端数の遅れを測定するために使用される。従って、例えば、ｔ（ｎ’）の最大値は、遅れとして選択される。

さらに他の実施態様において、ゼロ値のサンプルが、逆変換の流れの実際のサンプル値の間に挿入される。次に、発生した流れは、時間遅れの値を得るために低域フィルターにより濾過される。
他の実施態様において、一組のマイクロホーン１０，１１に到着する信号の間の時間遅れは、米国特許Ｎｏ．５，０５８，４１９に述べられているヒストグラム法などによりモジュール７０により算定される。この特許はここに参考に取り入れられている。従って、例えば、二つのマイクロホーン１０，１１に到着する信号の間の位相差は、蓄積器６０，・・・，６１に格納された相互関係値による上述のように、多数の周波数について測定される。各測定された位相差は、潜在的時間遅れを内在している。最大発生数を有する時間遅れの範囲内にある潜在的時間遅れの平均は、実際の時間遅れとして選択される。
音源２から到着する音響信号の反射経路が、直接経路より強くなりそうな状況では、上述のヒストグラム法が、優先権をゼロの時間遅れに近い値を有する大きい活性のあるピークへ優先権を与えることにより、修正される。ゼロの時間遅れにより近いピークは、直接経路に一致しそうである。従って、例えば、時間遅れの各範囲は、多数の発生を有し、かつ比較的にゼロにも近い範囲から発生する平均時間遅れを選んで、実際の時間遅れの選択を偏倚するようにウエートを割り付けられる。一般に、相対ウエートは、望まれる時間遅れの選択を偏倚するように既知の情報を考慮しているすべての方法で割り当てられるが、小さい大きさを有する時間遅れの範囲は、より大きい大きさを有する時間遅れの範囲より、より高い相対ウエートを割り当てられる。
時間遅れ信号ｔが発生すると、マイクロホーン１０，１１に対する音源２の関係角度は、次式に従って方向または位置の位置づけ器８０により決定される。

ここで、ｖは音の速度、ｔは時間遅れ、Ｄはマイクロホーン１０，１１の間の距離である。音源２の方向を算定するこの方法は、音響信号が平坦波または平面波の形でマイクロホーン１０，１１へ到達する考えられる場合の離れた領域近似法に基づいている。図４は、音源Ｃから音響信号を受信する二つのマイクロホーンＡとＢに対する関係角度Θの幾何学的構成を示しており、この場合、マイクロホーンＡとＢは、距離Ｄだけ離れている。平面波の想定が個々のアプリケーションに適切でなければ、他の方法が、マイクロホーン１０，１１に対する音源２の方向または位置を決定するために使用することが出来る。例えば、この様な方法には、別のマイクロホーンを装置１に取り入れ、上述の方法に従って追加された組のマイクロホーンにおける到着時間の差に相当する遅れを発生する方法がある。次に、既知の方法に従って、多数の時間遅れが、音源２の方向または位置を決定するために使用することが出来る。
本発明の一つの好適な実施態様は、図５に示された装置３００などのビデオ方式会議の環境に置かれている。ビデオ方式会議装置３００は、相互に離れて配置されている、ＡとＢで表示された二つのステーションを有する。ステーションＡの参加者３２０と３２１は、ステーションＢの参加者３５０と３５１と、音声とビデオで通信している。各処理器または制御器３０１，３０２が、各ステーションＡとＢに配置されて、音声とビデオのデータの処理と送信を送信装置３１０により制御する。送信装置３１０は、例えば、音声とビデオの信号を送信するＩＳＤＮまたはＴｌ回線から構成している。
この通信を行うため、音響装置が、各ステーションにおいて音を検出するために配置され、これらの音を表す音響信号を送信装置３１０によりステーションの間に送信し、各ステーションで検出された音をその他のステーションにおいて再生する。音響装置は、ステーションＡおいてマイクロホーン３２２とステレオロードスピーカ３３１，３３２、ステーションＢにおいてマイクロホーン３５２とロードスピーカ３４１，３４２から成っている。
ビデオ方式会議装置３００には、ステーションＡとＢの参加者の間の双方向ビデオ通信もある。しかし、表示を容易にするため、図５は、ステーションＡからステーションＢへのビデオ通信だけを示している。ステーションＡからステーションＢへのビデオ通信を行うため、ステーションＡはさらに、以降に詳細に説明するように、制御器３０１により制御されたビデオカメラ３６０を備えている。ビデオカメラ３６０は、カメラレンズ３６３を収容しているヘッド部分３６２を有し、ステーションＢへ送るステーションＡにおける画像を表す信号を発生する。少なくとも二つのマイクロホーンを有するマイクロホーンの配列は、ビデオカメラと関連づけられ、捕らえた音響データを制御器３０１へ送信する。制御器３０１は、図１の点線内に示された装置１の、マイクロホーンの配列から受信された音響データを処理する構成要素を好適に有する。ステーションＢは、ステーションＡから受信されたビデオ信号を表示するビデオディスプレイ３６１を有する。
マイクロホーンの配列３６５の一つの配置が図６に示されており、これは四つのマイクロホーン６０１，６０２，６０３，６０４から成っている。特に、マイクロホーン配列３６５は、例えば、マイクロホーン６０１，６０２の間の距離ｄ₁、マイクロホーン６０２，６０３の間の距離ｄ₂で、ｘ方向へ一列に配置されたマイクロホーン６０１，６０２，６０３から好適に構成している。第四のマイクロホーンは、ｙ方向にマイクロホーン６０２からｄ₃の距離に好適に配置されている。従って、マイクロホーン６０２が（ｘ’，ｙ’，ｚ’）に位置付けられているとすると、マイクロホーン６０１は（ｘ’−ｄ₁，ｙ’，ｚ’）に位置付けられ、マイクロホーン６０３は（ｘ’＋ｄ₂，ｙ’，ｚ’）に位置付けられ、マイクロホーン６０４は（ｘ’，ｙ’＋ｄ₃，ｚ’）に位置付けられている。制御器３０１は、既知の値ｄ₁，ｄ₂，ｄ₃、および、例えば、マイクロホーン６０２などのマイクロホーンの一つの位置に対するビデオカメラ３６０の位置（ｘ”，ｙ”，ｚ”）とにより事前にプログラムされている。
図５，６のビデオ方式会議装置の動作は、次の通りである。ステーションＡの参加者の一人が話し始めると、その参加者のスピーチにより発生した音響信号が、マイクロホーン３２２により捕らえられ、制御器３０１へ送られ、そこで、既知の形で処理され、送信装置３１０によりステーションＢへ送られる。ステーションＢにおいて、受信された音響信号は、スピーカーで３４１，３４２再生される。
発言している参加者により発生した音響信号は、マイクロホーン配列３６５のマイクロホーン６０１〜６０４によっても捕らえられる。捕捉された信号は、制御器３０１へ送られ、そこで、数組のマイクロホーン６０１〜６０４からの信号は、図１〜４に関する上述の方法により、好適に処理される。数組のマイクロホーン６０１〜６０４の音響信号の到着時間の遅れに対応する関係角度を決定することにより、発言中の参加者の方向が決定される。次に、この情報は、カメラ３６０の方向を自動的に指向し、調節するために使用される。
例えば、マイクロホーン６０１，６０３において捕らえられた音響データは、ｘ軸に対する関係角度を決定するために使用される。ｘ軸に沿った関係角度が決定されると、制御器３０１は、その関係角度とマイクロホーン６０１〜６０４に対するカメラの既知の位置により、カメラヘッド３６２を発言中の参加者の方向へ自動的に水平回転する。同様に、マイクロホーン６０２，６０４において捕らえられた音響データは、ｙ軸に対する関係角度を決定するために使用される。ｙ軸に沿った関係角度が決定されると、制御器３０１は、その関係角度とマイクロホーン６０１〜６０４に対するカメラの既知の関係位置により、カメラヘッド３６２を発言中の参加者の方向へ自動的に傾ける。カメラ３６０を計算された関係角度に応じて正確に水平回転し、傾斜することにより、発言中の参加者は、カメラにより自動的に映像として捕らえられる。
図６のマイクロホーンの配列構成は、以降に説明するように、ｚ軸に沿った発言中の参加者の位置を決定するためにも使用される。次に、制御器３０１は、例えば、発言中の参加者の頭または上体を画面にきっちりと捕らえるため、ｚ軸に沿った発言中の参加者の位置を使用して、カメラレンズを自動的にズームアップする。
ｚ軸に沿った発言中の参加者の位置の決定は、他の軸の一つ、例えば、ｘ軸に対する関係角度を決定することにより、行われる。重ねて言うと、この関係角度は、図１〜４について説明した方法により、好適に決定される。例えば、一組のマイクロホーン６０１，６０２において捕らえられたデータに対応する第一関係角度、一組のマイクロホーン６０２，６０３において捕らえられたデータに対応する関係角度が決定される。これらの関係角度が決定されると、制御器３０１はマイクロホーン６０１，６０２，６０３の既知の位置と共にこの情報を使用して、第一関係角度によるマイクロホーン６０１，６０２の中点と、第二関係角度によるマイクロホーン６０２，６０３の中点とから始まる線の交点を決定する。この交点は、ｚ軸に沿った発言中の参加者の位置を表す。次に、制御器３０１は、発言中の参加者を画面にきっちりと捕らえるため、この情報を使用して、カメラレンズ３６３をズームアップする。
他の構成では、マイクロホーンの配列３６５は、マイクロホーン６０１，６０２，６０４などの三つのマイクロホーンだけで成っている。この実施例では、マイクロホーン６０１，６０２において捕らえられた音響データは、ｘ軸に対する関係角度を決定するために使用される。同様に、マイクロホーン６０２，６０４において捕らえられた音響データは、ｙ軸に対する関係角度を決定するために使用される。次に、関係角度は、発言者を適切に画面にきっちりと捕らえるため、カメラを水平回転し、傾け、ズームアップするように使用される。この実施例は三つのマイクロホーンだけを使用しており、四つのマイクロホーンを使用している上述の実施例は対称的構成のマイクロホーンを形成している。
動作の好適なモードにおいて、ディスプレイ３６１に表示された画像は、ビデオカメラ３６３が水平回転されているか、または、傾斜されている間、固定される。このように表示された画像を固定する一つの利点は、そのことが、カメラが水平回転され、または傾斜されるとき、一般にステーションＢのディスプレイ３６１に現れるぼやけた画像を無くすことに役立つことである。
図７は、カメラが水平回転されるか、傾斜されるとき、表示された画像が固定される動作モードのステップを示す。ビデオカメラ３６３が、ステップＢへ送られるビデオデータを捕らえると、ステップ７０１により示されているように、捕らえられたビデオデータに相当する画像が、ディスプレイ３６１にほぼリアルタイムで表示される。また、カメラ３６３が引き続いてビデオデータを捕らえると、ステップ７０３により示されているように、多くの時間フレームの間に音響データの流れを捕らえる。好適に、ステップ７０５により示されているように、上述の方法により、制御器３０１は、個々の時間フレームの間に捕らえられた音響データが、参加者３２０，３２１の一人からの音響信号の流れの開始を表しているか、どうかを決定する。次に、制御器３０１は、ステップ７０７により示されているように、データがその流れの開始を表しているならば、信号の流れを表す受信された音響信号を識別する。次に、ステップ７０９により示されているように、制御器３０１は、受信された音響信号に基づいて、ビデオカメラ３６３に対する参加者の方向を決定する。
参加者の方向を決定するステップ７０９に応答して、ステップ７１１により示されているように、ビデオカメラ３６３は、カメラ３６３を適切に水平回転し、及びまたは傾斜することにより、参加者の方向へ自動的に向けられる。しかし、この実施態様により、ビデオカメラ３６３が水平回転しているか、または、傾斜しているとき、例えば、ディスプレイ３６１に現れる画像を、カメラを水平回転するか、または、傾斜する直前に発生するフレームに固定するために、信号が制御器３０１へ送られる。ステップ７１３により示されているように、画像は、ビデオカメラが動きを停止するまで、示されたフレームを好適に固定する。あるいは、余分なハードウェアのコストを低減するため、アプリケーションの特定のハードウェアが使用され、または、ビデオ圧縮デコーダがフレームを固定する。カメラ３６３がもはや水平回転していないか、または傾斜していないならば、ステップ７１５により示されているように、新しいビデオデータに対応する画像が、再びディスプレイ３６１に表示される。
他の動作モードにおいて、第二カメラ３６４が、図５の装置３００に配置されている。制御器３０１は、マイクロホーン６０１〜６０４に対するカメラ３６４の関係位置も格納している。例えば、カメラ３６０は、適切な水平回転と傾斜により個々の発言者を追跡するように使用されるが、カメラ３６４は、ステーションＡの参加者のグループを画面にきっちりと収めるように使用される。装置３００が、動作中のカメラ３６０をスイッチに回転するか、または、傾斜しているとき、装置３００はカメラ３６４へ切り換える。従って、ステーションＢの参加者３５０，３５１は、カメラ３６０が動いている間、カメラ３６４からの画像を見る。カメラ３００が動きを止めると、言い換えると、水平回転と傾斜の機能が完了すると、装置３００は動作中のカメラ３６０へ切り換えて戻る。さらに他の動作モードにおいて、カメラ３６４は、水平回転と傾斜を適切に行うことにより、個々の発言者を追跡するためにも使用される。カメラ３６０，３６４の一つだけが与えられた時は何時でも動いているように、カメラ３６０，３６４が制御される。次に、静止しているカメラのビデオ出力がステーションＢのディスプレイ３６１へ送られるように、装置３００は、カメラ３６０，３６１の間を連続的に切り換わる。一つ以上のカメラを使用しているこの様なモードは、フレームを固定することなく、はっきりと、ぼけない変移を行うことが出来る。
本発明は特定の実施例に関して説明されているが、本発明の精神と範囲の範囲内の変形と修正が熟慮されていることは理解されるであろう。

Claims

音源から到達する一連の音響信号を処理する方法において、
複数の時間フレームの間に複数の場所において音響データを捕らえ、
一の時間フレームの間に前記いずれかの場所において捕らえられた音響データが、前記一連の音響信号の始まりを表しているかどうかを決定し、
前記いずれかの場所における前記音響データが前記一連の音響信号の始まりを表しているとき、前記一連の信号を表す少なくとも二つの場所において受信された音響信号を識別し、
前記受信され識別された音響信号に基づいて前記音源の方向を決定するステップを含むことを特徴とする方法。
請求の範囲第１項に記載の方法において、
一の時間フレームにおいて捕らえられた信号が前記一連の音響信号の始まりを表しているかどうかを決定するステップは、前記一の時間フレームの間に捕らえられた信号の複数の周波数成分の大きさを調べるステップを含むことを特徴とする方法。
請求の範囲第２項に記載の方法において、前記調べるステップは、
複数の周波数において、前記一の時間フレームの間に捕らえられた信号のその各周波数成分の大きさが、その周波数のバックグラウンドノイズのエネルギーより少なくとも第一所定量だけ大きいかどうかを決定し、
前記複数の周波数において、その各周波数成分の大きさが、事前に指定された数の先行する時間フレームの間に捕らえられた信号の対応する周波数成分の大きさより少なくとも第二所定量だけ大きいかどうかを決定するステップを含むことを特徴とする方法。
請求の範囲第３項に記載の方法において、前記識別するステップは、
前記一の時間フレームの間に前記複数の場所において捕らえられた信号の間で相互相関を示す信号を識別し、
前記相互相関を示す信号の各々から対応するバックグラウンドノイズを差し引くステップを含むことを特徴とする方法。
請求の範囲第３項に記載の方法において、前記識別するステップは、
前記複数の周波数において、前記一の時間フレームの間に捕らえられた信号の各周波数成分の大きさが、その周波数におけるバックグラウンドノイズのエネルギーより少なくとも第一所定数倍大きいかどうかを決定することを含むことを特徴とする前記方法。
請求の範囲第３項に記載の方法において、前記識別するステップは、
前記複数の周波数において、前記一の時間フレームの間に捕らえられた信号の各周波数成分の大きさが、事前に指定された数の先行する時間フレームの間に捕らえられた信号の対応する周波数成分の強さより、少なくとも第二所定数倍大きいかどうかを決定することを含むことを特徴とする前記方法。
請求の範囲第４項に記載の方法において、前記音源の方向を決定するステップは、
前記捕らえられた音響信号から、複数のマイクロホーンの位置における前記一連の音響信号の到着時間の差を示す時間遅れを抽出するステップを含むことを特徴とする方法。
請求の範囲第７項に記載の方法において、さらに、
前記受信された音響信号から、複数の値の範囲の一つの内にある、複数の潜在的な時間遅れを抽出し、各範囲内にある潜在的時間遅れの数と各範囲に割り当てられた相対的重みづけとに基づいて実際の時間遅れを選択するステップを含むことを特徴とする方法。
請求の範囲第８項に記載の方法において、比較的小さい値を有する潜在的時間遅れの範囲は、大きい値を有する潜在的時間遅れより高い相対的重みづけを割り当てられることを特徴とする方法。
音源から到達する一連の音響信号を処理する、ビデオ会議に使用する方法において、
複数の時間フレームの間に音響データを捕らえ、
一の時間フレームの間に捕らえられた音響データが前記一連の音響信号の始まりを表すかどうかを決定し、
前記データが前記一連の音響信号の始まりを表すとき、前記一連の信号を表す受信された音響信号を識別し、
受信された音響信号に基づいて、前記音源の方向を決定し、
前記音源の方向を決定するステップに応じて自動的にビデオカメラを向けるステップを含むことを特徴とする方法。
請求の範囲第１０項に記載の方法において、一の時間フレームの間に捕らえられた音響データが前記一連の音響信号の始まりを表すかどうかを決定するステップは、
複数の周波数において、前記一の時間フレームの間に捕らえられた信号の各周波数成分の大きさが、その周波数のバックグラウンドノイズのエネルギーより少なくとも第一所定量だけ大きいかどうかを決定し、
前記複数の周波数において、各周波数成分の大きさが、事前に指定された数の先行する時間フレームの間に捕らえられた信号の対応する周波数成分の大きさより、少なくとも第二所定量だけ大きいかどうかを決定するステップを含むことを特徴とする方法。
請求の範囲第１１項に記載の方法において、
前記受信された音響信号に基づいて音源の位置を決定するステップをさらに含むことを特徴とする方法。
請求の範囲第１２項に記載の方法において、前記音源の位置を決定するステップに応答して、音源を画面に収めるようにカメラのレンズを自動的にズームするステップをさらに含むことを特徴とする方法。
音源から到達する一連の音響信号を処理する装置であって、
複数の時間フレームの間に音響データの流れを捕らえる複数のトランスデューサと、
一の時間フレームの間にいずれかのトランスデューサにおいて捕らえられた音響データが、前記一連の音響信号の始まりを表すかどうかを決定する手段と、
いずれかのトランスデューサにおける前記音響データが前記一連の音響信号の始まりを表すとき、前記一連の信号を表す少なくとも二つの場所において受信された音響信号を識別する手段と、
前記受信され識別された音響信号に基づいて前記音源の方向を決定する手段とを含むことを特徴とする装置。
請求の範囲第１４項に記載の装置であって、捕らえられた音響データが前記一連の音響信号の始まりを表すかどうかを決定する手段は、
バックグラウンドノイズのエネルギーを評価する手段と、
複数の周波数において、前記一の時間フレームの間に捕らえられた信号の各周波数成分の大きさが、その周波数のバックグラウンドノイズのエネルギーより少なくとも第一所定量だけ大きいかどうかを決定する第一の手段と、
前記複数の周波数において、各周波数成分の大きさが、事前に指定された数の先行する時間フレームの間に受信された信号の対応する周波数成分の強さより少なくとも第二所定量だけ大きいかどうかを決定する第二の手段とを含むことを特徴とする装置。
請求項の範囲第１５項に記載の装置であって、前記識別する手段は、
前記複数の周波数において、前記一の時間フレームの間に捕らえられた信号の各周波数成分の大きさが、その周波数のバックグラウンドノイズのエネルギーより少なくとも第一所定数倍大きいことを特徴とする装置。
請求の範囲第１５項に記載の装置であって、前記識別する手段は、
前記複数の周波数において、前記一の時間フレームの間に捕らえられた信号の各周波数成分の大きさが、事前に指定された数の先行する時間フレームの間に捕らえられた信号の対応する周波数成分の大きさより、少なくとも第二所定数倍大きいことを特徴とする前記装置。
請求の範囲第１５項に記載の装置であって、前記識別する手段は、
前記一の時間フレームの間に複数のトランスデューサに捕らえられた信号の間の相互相関を表す信号を識別する手段と、
前記相互相関を表す信号のそれぞれから対応するバックグラウンドノイズを差し引く減算器とを含むことを特徴とする装置。
請求の範囲第１８項に記載の装置であって、前記音源の方向を決定する手段は、
捕らえられた音響信号から、複数のマイクロホーンの位置における前記一連の音響信号の到着時間の差を表す時間遅れを抽出する手段を含むことを特徴とする装置。
請求の範囲第１９項に記載の方法であって、
受信された音響信号から、それぞれが値の複数の範囲の一つにある複数の潜在的時間遅れを抽出する手段と、
各範囲内にある潜在的時間遅れの数と各範囲に割り当てられた相対的重みづけとに基づいて、実際の時間遅れを選択する手段とをさらに含むことを特徴とする装置。
請求の範囲第２０項に記載の装置であって、
比較的小さい値を有する潜在的時間遅れの範囲は、大きい値を有する潜在的時間遅れの範囲より高い相対的重みづけを割り当てられていることを特徴とする装置。
音源から到達する一連の音響信号を処理する、ビデオ会議に使用する装置であって、
ビデオカメラと、
複数の時間フレームの間に音響データの流れを捕らえる複数のトランスデューサと、
一の時間フレームの間に捕らえられた音響データが、前記一連の音響信号の始まりを表すかどうかを決定する手段と、
前記データが前記一連の信号の始まりを表すとき、前記一連の信号を表す受信された音響信号を識別する手段と、
前記受信された音響信号に基づいて前記音源の方向を決定する手段とを含み、
前記ビデオカメラは、前記音源の方向を決定する手段から受信された信号に応答して音源の方向に自動的に向くことを特徴とする装置。
請求の範囲第２２項に記載の装置であって、捕らえられた音響データが前記一連の音響信号の始まりを表すかどうかを決定する手段は、
バックグラウンドノイズのエネルギーを評価する手段と、
複数の周波数において、前記一の時間フレームの間に捕らえられた信号の各周波数成分の大きさが、その周波数のバックグラウンドノイズのエネルギーより少なくとも第一所定量だけ大きいかどうかを決定する第一手段と、
複数の周波数において、各その周波数成分の大きさが、事前に指定された数の先行する時間フレームの間に捕らえられた信号の対応する周波数成分より、少なくとも第二所定量だけ大きいかどうかを決定する第二手段とを含むことを特徴とする装置。
請求の範囲第２２項に記載の装置であって、
第一のトランスデューサは第二のトランスデューサから第一軸に沿った位置に置かれ、第三のトランスデューサは第二のトランスデューサから第一軸に直角な第二軸に沿った位置に置かれ、
第一と第二のトランスデューサにより捕らえられた音響データは、第一軸に対する音源の方向を決定するために使用され、第二と第三のトランスデューサにより捕らえられた音響データは、第二軸に対する音源の方向を決定するために使用され、
ビデオカメラは、前記音源の方向を決定する手段から受信された信号に応答して音源の方向へ自動的にパンおよびチルトすることを特徴とする装置。
請求の範囲第２２項に記載の装置であって、
第一、第二、第三のトランスデューサは第一軸に沿って置かれ、前記第二のトランスデューサは前記第一と第二のトランスデューサの間に位置し、第四のトランスデューサは前記第二のトランスデューサから前記第一軸に直角な第二軸に沿った位置に置かれ、
前記第一と第三のトランスデューサにより捕らえられた音響データは、第一軸に対する音源の方向を決定するために使用され、前記第二と第四のトランスデューサにより捕らえられた音響データは、第二軸に対する音源の方向を決定するために使用され、
ビデオカメラは、前記音源の方向を決定する手段から受信した信号に応答して音源の方向へ自動的にパンおよびチルトすることを特徴とする装置。
請求の範囲第２５項に記載の装置であって、
四つのトランスデューサのうち三つにより捕らえられた音響データが音源の位置を決定するために使用される、音源の位置を決定する手段をさらに含み、
前記カメラは、音源の位置を決定する手段から受信した信号に応答して音源を画面に収めるように、自動的にズームすることを特徴とする装置。
ビデオ会議に使用されるビデオカメラを操作する方法であって、
前記ビデオカメラにより捕らえられたビデオデータに対応する画像を表示し、
複数の時間フレームの間に、音源からの一連の音響信号を含む音響データの流れを捕らえ、
捕らえられた音響データの流れに基づいて前記音源の方向を決定し、
前記決定するステップに応答して、ビデオカメラをチルトまたはパンすることによりカメラを自動的に向け、
ビデオカメラがチルトまたはパンしている間に、ディスプレイに表示された画像を固定するステップを含むことを特徴とする方法。
請求の範囲第２７項に記載の方法であって、前記固定するステップは、ディスプレイに現れる画像を、ビデオカメラをパンまたはチルトする直前に発生するビデオフレームに固定するステップを含むことを特徴とする方法。
ビデオ会議に使用される、少なくとも第一および第二のビデオカメラを含むシステムを操作する方法であって、
第一のビデオカメラにより捕らえられたビデオデータに対応する画像をディスプレイに表示し、
複数の時間フレームの間に、音源からの一連の音響信号を含む音響データの流れを捕らえ、
一の時間フレームの間に捕らえられた音響データが、前記一連の音響信号の始まりを表すかどうかを決定し、
前記データが前記一連の信号の始まりを表すとき、前記一連の信号を表す受信された音響信号を識別し、
前記受信された音響信号に基づき前記音源の方向を決定し、
前記方向の決定に応答して前記ビデオカメラをチルトまたはパンすることにより、第一のビデオカメラを自動的に向け、
第一のビデオカメラがチルトまたはパンしている間、前記第二のビデオカメラにより捕らえられたビデオデータに対応する画像をディスプレイに表示することを含むことを特徴とする方法。