JP2004128707A

JP2004128707A - 指向性を備えた音声受信装置およびその方法

Info

Publication number: JP2004128707A
Application number: JP2002287465A
Authority: JP
Inventors: Gabami Mohamad; モハマド　ガバミ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-08-02
Filing date: 2002-09-30
Publication date: 2004-04-22

Abstract

【課題】ビデオカメラおよび指向性音声受信の自動音追跡を提供する。
【解決手段】本発明のアルゴリズムには３つの主な段階がある。第１段階では、３個のマイクロホンＭ１〜Ｍ３のアレイにより、２つの主方向からの音声信号を受信する。信号処理部１０が到来音声信号の方位角と仰角とに関する情報を抽出する。第２段階は主として機械的である。これら角度に関するデータが、ビデオカメラを音声信号源に向けて駆動するサーボ機構２０、３０に適用される。第３段階は、ビデオカメラの前空間に音声の指向性ビームを形成し、目的としない方向からの干渉を抑制することである。この部分の信号処理は、５個のマイクロホンで受けた信号を使用して行われる。周波数領域での処理が本アルゴリズムにおける主な手段である。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は指向性音声受信方法および装置に関する。特に、本発明は指向性を備えた音声受信を実現する自動指向性音声受信方法および装置に関する。
【０００２】
【従来の技術】
スピーカ（話者）位置の自動測定に関する技術としては、例えば、（１）チャン及びウイルソンによる「小規模なマイクロホンアレイを用いた３Ｄ話者位置検出の性能（Ｐ．Ｓ．Ｃｈａｎｇ　ａｎｄ　Ａ．Ｎ．Ｗｉｌｓｏｎ，　Ｊｒ．，　Ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　３Ｄ　ｓｐｅａｋｅｒ　ｌｏｃａｌｉｚａｔｉｏｎ　ｕｓｉｎｇ　ａ　ｓｍａｌｌ　ａｒｒａｙ　ｏｆ　ｍｉｃｒｏｐｈｏｎｅｓ，　Ｃｏｎｆｅｒｅｎｃｅ　Ｒｅｃｏｒｄ　ｏｆ　ｔｈｅ　Ｔｈｉｒｔｙ−Ｆｉｒｓｔ　Ａｓｉｌｏｍａｒ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｉｇｎａｌｓ，　Ｓｙｓｔｅｍｓ　Ｃｏｍｐｕｔｅｒｓ、Ｖｏｌ．１，　１９９７，　ｐｐ３２８３３２」、（２）ヤマダ他による「マイクロホンアレイにより話者位置検出を伴うスピーチのロバスト認識（Ｔ．　Ｙａｍａｄａ，　Ｓ．　Ｎａｋａｍｕｒａ　ａｎｄ　Ｋ．　Ｓｈｉｋａｎｏ，　Ｒｏｂｕｓｔ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ｗｉｔｈ　ｓｐｅａｋｅｒ　ｌｏｃａｌｉｚａｔｉｏｎ　ｂｙ　ａ　ｍｉｃｒｏｐｈｏｎｅ　ａｒｒａｙ、　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＩＣＳＬＰ９６、　Ｆｏｕｒｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｏｋｅｎ　Ｌａｎｇｕａｇｅ、　Ｖｏｌ．　３，　１９９６，　ｐｐ１３１７１３２０」がある。このように音声信号の到来角度を検出するには異なった方法がある。これらの方法のほとんどは、２個またはそれ以上のマイクロホンにおける到来時間差の計算に基づいている。音声信号は、２０Ｈｚから２０ＫＨｚに及ぶ周波数成分の広帯域信号である。このため、従来の技術を用いた信号到来方向（ＤＯＡ）の推定が難しくなっている。
【０００３】
最近、話者の位置検出に関するいくつかの方法が提案されているが、前記（２）の従来の技術では、遅延器および合成ビーム形成器がマイクロホンアレイの信号処理に利用されている。このマイクロホンアレイは１４台のマイクロホンで構成されている。話者の位置検出において時間遅延を用いた推定法に分類されるもう１つの方法としては、例えば、（３）ストローベル及びレイベンスタインによる「時間遅延推定に分類されるロバスト話者位置検出（Ｎ．　Ｓｔｒｏｂｅｌ　Ｒ．　Ｒａｂｅｎｓｔｅｉｎ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　ｔｉｍｅ　ｄｅｌａｙ　ｅｓｔｉｍａｔｅｓ　ｆｏｒ　ｒｏｂｕｓｔ　ｓｐｅａｋｅｒ　ｌｏｃａｌｉｚａｔｉｏｎ、ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ，　Ｓｐｅｅｃｈ，　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ、　Ｖｏｌ．　６、　１９９９、　ｐｐ３０８１３０８４」がある。
【０００４】
さらに、ジョイント・オーディオ−ビデオ・オブジェクト位置検出及び追跡に関してはいくつかの方法が提案されている。例えば、ストローベル他による「ジョイント・オーディオ−ビデオ・オブジェクト位置検出および追跡（Ｎ．　Ｓｔｒｏｂｅｌ，　Ｓ．　Ｓｐｏｒｓ　ａｎｄ　Ｒ．　Ｒａｂｅｎｓｔｅｉｎ、　Ｊｏｉｎｔ　ａｕｄｉｏ−ｖｉｄｅｏ　ｏｂｊｅｃｔ　ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　ｔｒａｃｋｉｎｇ、　ＩＥＥＥ、　Ｖｏｌ．　１８，　Ｉｓｓｕｅ　１，　Ｊａｎ　２００１，　ｐｐ２２３１」である。
【０００５】
さらに、特開２００２−６２３４８号公報では、所定の帯域幅内で到来信号を種々の成分に分解し、これらの成分の相関関係を決定して、音源の位置と方向を推定する装置および方法が公開されている。
【０００６】
【発明が解決しようとする課題】
しかしながら、上述した従来方法では、非常に多数のマイクロホンが必要とされるだけでなく、これら従来方法に係る本質的な複雑さが存在する。このため、経済的に実現が難しく、信頼性も高くなく、故障などに対する耐久性が制限されている。
【０００７】
ビデオ会議または長距離学習といった利用法を、経済的に実現可能なものにして、操作の失敗が出来るだけないようにするためには、少数のマイクロホンを用いた３次元（３Ｄ）空間における話者の位置を自動検出が望ましい。
【０００８】
本発明は上述した従来の技術に関する課題を鑑みて成されたものであり、指向性音声受信方法や装置、あるいはビデオカメラ等の撮像装置に適用できる自動指向性音声受信方法や装置を提供することが望ましい。
【０００９】
【課題を解決するための手段】
本発明の好適な実施形態によれば、主たる音源の方向とは異なる方向からの干渉を抑制し、該主たる音源からの音声信号を検出する音声受信部を備えた装置が提供される。前記音声受信部は、複数のオーディオセンサと、前記主たる音源への方向を検出する方向検出部と、前記検出された主たる音源への方向を用いて前記干渉の抑制を行い、より干渉が少ない音声信号を検出して出力する信号処理部とを備える。前記複数のオーディオセンサは、前記主たる音源からの目標成分と該目標成分に重畳された前記主たる音源とは異なる方向から到来する干渉成分とを含む音声信号を検出し、前記方向検出部は、前記複数のオーディオセンサよりも数が少ないオーディオセンサからの出力を用いて、前記目標成分の音声信号が到来する方向を検出し、前記信号処理部は、前記複数のオーディオセンサからの出力と前記検出された方向とを用いて、前記目標成分だけを含む音声信号を出力する。
【００１０】
本発明の他の好適な実施形態において提案された方法には、主に３つの段階がある。第１段階では、少なくとも３個のマイクロホンのアレイが空間の２方向からの音声信号を受信する。信号処理部が方位角および仰角に関する到来音声信号の情報を抽出する。第２段階は主に機械的なもので、抽出された角度データを適用して例えばビデオカメラ等の撮像装置を駆動するサーボ機構を駆動して、音または音声信号が到来する方向に向ける。第３段階では、音声ビームをビデオカメラ前面の空間に形成し、希望しない方向からの干渉を減少させる。この部分の信号処理は、５個のマイクロホンで受信した信号を使用して行われることが望ましい。
【００１１】
本発明によれば、上記に加えて、周波数領域処理を行うアルゴリズムが提案される。本発明による他の好適な実施形態では、スピーカ（話者）の位置検出および干渉抑制の組み合わせが提案されている。以下の３段階で周波数領域処理が実現される。
（１）三角形アレイの構成で配置された３個のマイクロホンが音声信号を受信する。受信された音声信号は周波数領域に変換され、該音声信号の到来してきた仰角および方位角を得るための、非常に雑音が多い音声信号の処理が実行される。
（２）サーボ機構システムは、撮像装置または関連するセンサや装置をサーボ信号が示す方向に向けることで、任意に移動するスピーカの位置変化を追跡する。
（３）上記に説明した３個のマイクロホンと２個の追加マイクロホンが５要素のレシーバアレイシステムを構成し、他方向から受信する干渉を減衰させる。
【００１２】
本発明による他の好適な実施形態によれば、音源の位置を検出する検出部を有する装置が提供される。ここで前記検出部は、一直線上にはない互いに異なる位置に配置された音声信号を検出する３個のオーディオセンサと、前記３個のオーディオセンサのうち、第１の組み合わせとなる２個からの出力を受け付け、当該検出部で検出された音声信号の到来方向に関する第１の角度を算出する第１の信号処理部と、前記３個のオーディオセンサのうち、第２の組み合せとなる２個からの出力を受け付け、当該検出部で検出された音声信号の到来方向に関する第２の角度を算出する第２の信号処理部とを具備する。
【００１３】
前記第１の組み合せは前記第２の組み合せと異なるものである。また、前記第１の角度および第２の角度は、互いに独立し、前記３個のオーディオセンサが音声信号の検出を行う検出点を含む平面に対して、前記検出された音声信号の到来方向（ＤＯＡ）を定義する。
【００１４】
さらに、上記実施形態による装置は、指向特性を有するユニット、該ユニットを移動可能に支える機構、および、該機構の動作を制御する制御部を含む。前記制御部は、検出した音声信号の第１および第２の角度を示す出力を受け付け、該出力を用いて前記機構の動作を制御する。
【００１５】
ここで、前記指向特性を有するユニットは、指向性を備えたセンサを含んでいても良い。また前記制御部は、前記機構を制御して前記指向性を備えるユニットを、検出された音声信号が発せられた音源へ向ける。
【００１６】
上記実施形態による装置は、指向性を備えるユニットとして、カメラ等の撮像装置を備えてもよい。
【００１７】
上記実施形態による装置においては、前記第１および第２の信号処理部はそれぞれ、前記オーディオセンサで検出された時系列信号を周波数領域に変換してもよい。また、前記第１および第２信号処理部はそれぞれ、対応する前記２個のオーディオセンサからの出力を周波数領域に変換し、該周波数変換後の値を用いて両出力間の位相差を検出するよう構成しても良い。
【００１８】
さらに上記実施形態においては、前記３個のオーディオセンサのうち、１個が直交する２方向の交差点に配置され、他の１個が前記２方向のうちの一方向に沿って配置され、最後の１個が前記一方向とは異なる方向に沿って配置されるよう構成しても良い。
【００１９】
本発明のさらに他の好適な実施形態によれば、主たる音源の方向とは異なる方向から来る干渉の抑制が可能な音声受信部を有する装置が提供される。前記音声受信部は、相互に異なった位置に配置され、前記主たる音源からの目標成分と該目標成分に重畳された干渉成分とを含む音声信号を検出する５個のオーディオセンサと、前記５個のオーディオセンサからの出力を受け入れ、前記目標成分から前記干渉成分を分離させる信号処理部とを具備する。前記５個のオーディオセンサは第１の組み合わせのグループと第２の組み合わせのグループとに分けられ、前記第１と第２の組み合わせはそれぞれ、前記５個のオーディオセンサのうち３個を含み、そのうちの１個を共有しており、前記第１と第２の組み合わせのオーディオセンサは、直交する第１と第２の方向に沿ってそれぞれ配置される。
【００２０】
上記実施形態の装置において前記信号処理部は、前記検出した音声信号を周波数領域に変換する第１の変換部と、前記変換された周波数領域において目標成分を取得する演算部と、前記取得された周波数領域の目標成分を時間領域に変換することで、前記干渉成分が分離された前記目標成分の音声信号を出力する第２の変換部とを備えてもよい。
【００２１】
本発明の他の好適な実施形態によれば、指向性を備える音声検出装置が提供される。この指向性を備える音声検出装置は、音源からの音声信号を検出する少なくとも２個のオーディオセンサと、前記少なくとも２個のオーディオセンサのうち２個からの出力をそれぞれ受信し、各受信出力を周波数領域に変換し、該変換出力を用いて前記検出された音声信号の到来方向を推定する信号処理部とを具備する。前記到来方向は、前記検出された音声信号の入射方向と前記２個のオーディオセンサの両検出点を通過する方向とが成す角度により定義される。
【００２２】
本発明のさらに他の好適な実施形態によれば、干渉を減衰させる装置が提供される。この干渉を減衰させる装置は、音源からの目標成分と該音源への方向とは異なる方向から来る音声信号に対応する干渉成分とを含む音声信号を検出する少なくとも３個のオーディオセンサと、前記少なくとも３個のオーディオセンサのうち３個からの出力を受け入れ、該受け入れた各出力を周波数領域に変換し、該変換した周波数領域において目標成分を取得し、該取得した目標成分を時間領域に変換して、前記干渉成分を分離した前記目標成分の音声信号を出力する信号処理部とを具備する。ここで、前記３個のオーディオセンサが、一直線方向に沿って配列される。
【００２３】
なお上記実施形態による指向性を備える音声検出装置は、指向性を有するユニットと、前記指向性を有するユニットを移動可能に支持する機構と、前記機構の動作を制御する制御部とをさらに具備してもよい。ここで前記制御部は、検出された音声信号の到来方向を示す前記指向性を備える音声検出装置からの出力を受け付け、該受け付けた出力を前記機構の動作制御に用いる。
【００２４】
【発明の実施の形態】
図１は、音声の到来方向（ＤＯＡ）を検出するシステム（装置１）の概略を示す図である。本装置１は、３個のマイクロホンＭ１、Ｍ２およびＭ３から信号を入力として受信し、到来音声信号の入射角を決定する方位角および仰角のθとφの計算結果を出力として送信する信号処理部１０を含む。この過程を以下に詳細に説明する。
【００２５】
なお図１では、計算または推定角度θとφで決定される到来方向は、より詳細に以下で説明されるが、到来方向によって決定される音源へ向けて撮像装置等の装置を動かしたり、位置を定めるサーボモータのようなアクチュエータの動作を決定するための入力を与える。
【００２６】
信号処理ステップまたはプロセスによって示すことが可能な信号処理部２０の動作を以下に説明する。
【００２７】
図２は、３個のマイクロホンＭ１、Ｍ２およびＭ３の幾何学的な場所を示す。そのうちの２個は、任意の座標（０、０、０）および（ｄｘ、０、０）におけるｘ軸を決定する。３個目のマイクロホンは、負のｚ軸上（０、０、−ｄｚ）に配置されている。マイクロホンはそれぞれ、図３（Ａ）および図３（Ｂ）でＭ１、Ｍ２およびＭ３と示されている。音声信号到来方向はそれぞれ、方位角および仰角のθとφでの特徴づけができる。第１の段階における目標はθとφの推定である。これは、図２の多少複雑な構成を実際よく類似している図３（Ａ）と図３（Ｂ）という２つのより簡単な構成に変換して行う。
【００２８】
さて、φｘ、θｚ、θおよびφの関係について計算を行う。図２、図３（Ａ）および図３（Ｂ）の比較をすれば、簡単に次のとおりである。
【００２９】
【数１】

【００３０】
さらに、
【００３１】
【数２】

【００３２】
となり、これから
【００３３】
【数３】

【００３４】
φｘおよびθｚの推定アルゴリズムはよく類似している。したがって、ここでは最初のものだけを説明する。
【００３５】
マイクロホン要素であるＭ１とＭ２に到着する信号はそれぞれｘ_１（ｔ）およびｘ_２（ｔ）で示され、τ_φは音声信号到来方向に沿った２個のマイクロホン要素での信号間の移動遅延を示し、次のように現すことができる。
【００３６】
【数４】

【００３７】
周波数領域では、Ｘ（ｆ）とＸ（ｆ）ｅｘｐ（−ｊ２πｆτ_φ）となり、その時の位相差はψ（ｆ）＝２πｆτ_φを伴う。これは位相と周波数とが線形的関係であることを示し、１または複数の周波数で位相情報が得られれば、遅延τ_φとその結果の角度φｘが得られる。同様の手順がθｚに適用できる。φｘとθｚが分かれば、角度φとθは数式（１）と（３）から計算される。
【００３８】
図４は、図１の信号処理部１０に相当する到来信号を発見するシステムの概略図を示す。φおよびθの正確な値を推定するために、２つの周波数ｆ_ｌとｆ_ｈ間で検出された位相の出力に対して平均化処理を行なう。
【００３９】
図１で使用された定数は、ｋｘ＝ｃ／（π（ｆ_ｌ＋ｆ_ｈ）ｄｘ）およびｋｙ＝ｃ／（π（ｆ_ｌ＋ｆ）ｄｚ）
であり、関数は
ｆ（φ、θｚ）＝ｔａｎ^−１（１／ｔａｎθｚ・ｓｉｎφ）
である。
【００４０】
音声信号の数値例として選択されたのがｆ_ｌ＝１．５ＫＨｚ、ｆ_ｈ＝３．５ＫＨｚ、即ち、中心周波数の（ｆ_ｌ＋ｆ_ｈ）／２＝２．５ＫＨｚである。平均位相差はこの中心周波数に属する。図１に示された係数を乗じ、逆正弦関数を適用すれば、φｘとθｚが計算される。
【００４１】
最後の段階では、方位角および仰角のφとθをそれぞれ得るために、数式（１）および（３）を使用する。
【００４２】
数値例としては、時間領域にある入力信号を考慮することで算出がされる。
【００４３】
【数５】

【００４４】
ここで、
【００４５】
【数６】

【００４６】
上記は共通のマイクロホン要素Ｍ１におけるもので、ｎ_１（ｔ）は分散σ_ｎ ^２のランダム雑音である。純粋な信号ｘ（ｔ）の平均電力は７．３２７ｄＢであり、σ_ｎ ^２は、例えば−２．６７３ｄＢ、すなわち信号対雑音比（ＳＮＲ）が１０ｄＢと仮定される。マイクロホン要素Ｍ２およびＭ３における信号は次のように書くことができる。
【００４７】
【数７】

【００４８】
【数８】

【００４９】
ここで、τ_φは数式（４）で定義されている。τ_θ＝ｄｙ／ｃｓｉｎθｚであり、ｎ_２（ｔ）およびｎ_３（ｔ）は同じ分散σ_ｎ ^２を有する独立したランダム雑音信号である。
【００５０】
図５は、各マイクロホン要素で受信された信号の周波数応答の振幅を示す。ここで、ｃ＝３４０ｍ／ｓ、φｘ＝−６０°およびθｚ＝−３６°に対応するφ＝３０°およびθ＝１１０°、サンプル周波数ｆｓ＝１００００Ｈｚ、ｄｘ＝ｄｚ＝ｃ／ｆｓが仮定されている。雑音電力が低下するに従い、図５の曲線は単一形状に集約する。信号ｘ_２−ｘ_１およびｘ_３−ｘ_１の位相差を図６に示す。雑音が全くない場合には、これらの曲線は２本の線が原点を通過したものになる。このシミュレーションの結果、φおよびθの推定としてそれぞれ２９．４°および１０９．８°が得られた。
【００５１】
本発明を適用した他の実施形態における、５個の信号受信要素を用いた干渉抑制方法および装置について、以下に説明する。
【００５２】
本実施形態によれば、到来音声信号のＤＯＡを知ることで、カメラを音声発生源へ向けるようサーボ機構を動作させることができる。ここでは、２次元に配置された５個のマイクロホンを、干渉抑制および指向性ビーム形成（以下ではビーム形成と略称する）のために使用する。図６は、２次元ビーム形成処理のために提案した構造を示す。ここでは最低１つの干渉信号が（φｉ、θｉ）の方向から来ることを仮定している。上述したように問題をより単純な２本の曲線に分割し、周波数領域における干渉抑制の基本理論を説明するためにＭ１、Ｍ２およびＭ４の３つのマイクロホン要素だけを考慮した。さらに本実施形態では、干渉が明確な考慮対象になっている。したがって、上述した先の実施形態において考慮された雑音成分（ランダム雑音）の代わりに、本実施形態では１つの干渉信号として考慮されている。
【００５３】
したがって、第１のマイクロホン要素Ｍ１が受信した信号は、再びｘ_１（ｔ）で表示され、次のように書くことができる。
【００５４】
【数９】

【００５５】
ここで、ｓ_ｏ１（ｔ）およびｓ_ｉ１（ｔ）はそれぞれ、目的の信号およびそれに干渉する信号である。マイクロホン要素Ｍ１に対してのＭ２およびＭ４にて受信した目的信号の時間遅延τ_ｏ２およびτ_ｏ４はそれぞれ、次のように表される。
【００５６】
【数１０】

【００５７】
そして
【００５８】
【数１１】

【００５９】
したがって、Ｍ２およびＭ４における目的信号の時間関数は次のように書くことができる。
【００６０】
【数１２】

【００６１】
【数１３】

【００６２】
同様な数式がＭ２およびＭ４における干渉にも適用される。
【００６３】
【数１４】

【００６４】
【数１５】

【００６５】
ここで、φｘは干渉信号のＡＯＡ（到来角度）であり、τ_ｉ２およびτ_ｉ４はマイクロホン要素Ｍ１に対するＭ２およびＭ４における干渉遅延である。したがって、Ｍ２およびＭ４における信号は次のように表すことができる。
【００６６】
【数１６】

【００６７】
【数１７】

【００６８】
数式（９）、（１６）および（１７）のフーリエ変換を考え、そして、また、数式（１２）〜（１５）を代入すれば、結果として次の数式が得られる。
【００６９】
【数１８】

【００７０】
【数１９】

【００７１】
【数２０】

【００７２】
ここで、Ｓ_ｏ１（ｆ）、Ｓ_ｏ２（ｆ）、Ｓ_ｏ４（ｆ）、Ｓ_ｉ１（ｆ）、Ｓ_ｉ２（ｆ）、Ｓ_ｉ４（ｆ）はそれぞれ、ｓ_ｏ１（ｔ）、ｓ_ｏ２（ｔ）、ｓ_ｏ４（ｔ）、ｓ_ｉ１（ｔ）、ｓ_ｉ２（ｔ）、ｓ_ｉ４（ｔ）のフーリエ変換である。複雑な位相関数であるφｘ（ｆ）およびφｘｉ（ｆ）はそれぞれ、次の数式で示される。
【００７３】
【数２１】

【００７４】
【数２２】

【００７５】
上記三つの数式（８）、（１９）および（２０）が含まれている場合には、数式を解くことによって求めなければならない複素数の未知数が３つある。これらの未知数はＳ_ｏ１（ｆ）、Ｓ_ｉ１（ｆ）およびφｘ（ｆ）である。目的とする方向φｘすなわちφｘ（ｆ）は、ビーム形成の主要パラメータであり、既知の値および関数である。結果として以下が得られる。
【００７６】
【数２３】

【００７７】
数式（２３）からＳ_ｏ１（ｆ）を計算すれば、逆フーリエ変換のＳ_ｏ１（ｆ）はＳ_ｏ１（ｔ）を与え、即ち、目的とする信号は干渉Ｓ_ｉ１（ｔ）から分離される。到来信号の周波数領域における特徴に関する何らかの知識があれば、数式（２３）のＳ_ｏ１（ｆ）を得るのに必要な計算量を減少させることができる。一般に、帯域幅には制限がないため、本実施形態による方法によればブロードバンドでの干渉抑制が実現できる。
【００７８】
本実施形態による干渉キャンセラを実現する一構成例を図９に示す。各センサ（マイクロフォン）Ｍ１〜Ｍ５の出力において、アナログ−ディジタル変換部（ＡＤＣ）９２０−１〜９２０−５は対応する受信信号をそれぞれサンプルし、入力バッファ９４０−１〜９４０−５へ送る。各センサ（マイクロフォン）Ｍ１〜Ｍ５においてＴ秒間の期間中でＫサンプルが取得されると仮定して、Ｋ点のＦＦＴ（ファースト・フーリエ変換）がこれらの時間サンプルに適用される。ＦＦＴブロック９６０−１〜９６０−５の入力および出力は、それぞれｘ_ｉｋおよびＸｉｋで示され、ここでｉ＝１、２、３、４、５そしてｋ＝１、２、．．．、Ｋである。主な計算として、数式（２３）が各Ｋ個の周波数成分について計算されるＢｋｘ、Ｂｋｚ、ｋ＝１、２、．．．、Ｋで示されるブロックで行われる。例えば、上述の図４で説明されるプロセスで計算された目的信号の角度φｘとθｚは、次の数式によりそれぞれ、目的信号の位相φｘｋおよびφｚｋ（図示なし）へ変換される。
【００７９】
【数２４】

【００８０】
【数２５】

【００８１】
サンプルの周波数は、以下に等しい。
【００８２】
【数２６】

【００８３】
ここで入力信号が実数値の場合、計算量を１／２に減らすために、ＦＦＴ出力の対称性を使用できることはいうまでもない。ｋ＝１、２、．．．Ｋを表わすＢｋｘとＢｋｚで図９に示されるブロックの出力は、次のとおりとなる。
【００８４】
【数２７】

【００８５】
【数２８】

【００８６】
本発明の好適な実施形態の具体例を以下に説明する。
（第１の例）
図１０は、自動追跡および指向性音声受信に関して提案した方法が適用可能なアプリケーションを示している。本例では、パーソナルコンピュータに搭載された撮像装置（例えば、ディジタルカメラ）のための指向性音声受信機能が備わっている。本図で示すように、本例の撮像装置には、方位角および仰角で撮像装置を駆動するサーボ機構に搭載されている。５個のマイクロホンが、ディスプレイの枠上に等間隔で取り付けられている。ここで指摘することは、等距離での取り付けは単純化の目的からである。本実施形態のアルゴリズムの第１段階での処理は、１秒毎に繰り返す周波数で行えるが、この場合、この時間期間中に大きな動きが発生しないとの仮定がある。実際、本実施形態の第２段階中に起動される機械的システムや、撮像装置が突然移動することで生じる利便性の悪い感じが生じるという制約がある。音声のエンハンスメントは、５個のマイクロホンがすべて含まれる第３段階での機能である。
（第２の例）
図７は、本発明の実施形態における第２の例としてのビデオ会議装置のブロック図である。
【００８７】
本ビデオ会議装置は、マイクロホンＭ１−Ｍ５、ＤＯＡ計算部１０、干渉キャンセラ９０、カメラ７１０、アクチュエータ３０およびアクチュエータ制御部２０を備えている。ＤＯＡ計算部１０は、マイクロホンからの出力を受信し、上述した最初の実施形態（３個のマイクロホン）を利用して音声信号の到来方向であるφおよびθを計算し、出力する。干渉キャンセラ９０は、上述した他の実施形態（５個のマイクロホン）を利用して干渉抑制を行うため、マイクロホンＭ１−Ｍ５からの出力およびＤＯＡ計算部１０からのφおよびθを受信する。アクチュエータ３０が、マイクロホンＭ１−Ｍ５で捕らえた音声信号の発生源へ向けてカメラ７１０を向けるように、アクチュエータ制御部２０は、ＤＯＡ計算部１０からのφおよびθを受信し、アクチュエータ３０へ制御信号を出力する。
【００８８】
本ビデオ会議装置は、さらに、ディスプレイ７２０、スピーカ７３０、ＭＰＥＧ処理部７００、バス７９０、およびインターネット７９４にインタフェースするネットワーク・インタフェース７９２をさらに備えている。ＭＰＥＧ処理部７００は、干渉の抑制をする干渉キャンセラ９０から出力された音声信号を受信し、符号化するＭＰＥＧ音声符号部７０１、カメラ７１０からのビデオ信号を受け付け符号化するＭＰＥＧビデオ符号部７０２、符号化された音声およびビデオ信号を多重化するＭＰＥＧ多重変換部７０３、ＭＰＥＧ多重変換部７０３から出力された多重データよりなるパケットを組立てるパケット・アセンブラ７０４、そしてバス７９０とのインタフェースを行うバス・インタフェース７０９を含む。
【００８９】
ＭＰＥＧ処理部７００は、バス・インタフェース７０９を経て、外部から送られたパケットを分解するパケット逆アセンブラ７０８、受取ったパケットが運ぶデータを多重分離するＭＰＥＧデマルチプレクサ７０７、ディスプレイ７２０へ復号したアナログ・データを出力するＭＰＥＧビデオ複合部７０５、および復号した音声データをスピーカ７３０に出力するＭＰＥＧ音声複合部７０６をさらに含む。
【００９０】
本ビデオ会議装置は、マウス７４０、キーボード７５０、入出力インタフェース７６０、メモリー７７０およびビデオ会議機能を実現するためのプログラムを実行するＣＰＵ７８０をさらに含む。
【００９１】
上記図７のビデオ会議装置によれば、スピーカ（話者）の適切な撮像および明瞭な干渉の少ない音声信号で、ビデオ会議の実施が可能である。
【００９２】
以上、本発明をある程度の独自性を加味して好適な実施形態により説明したが、本発明においては他の修正、変形、組合せ、準組合せなどが可能である。したがって、本発明の範囲から逸脱せずに、上述した特定の説明とは異なった方法で変更が実施できることは云うまでもないことである。
【００９３】
したがって、例えば、上記図１に示す好適な実施形態では、角度φおよびθの入力をアクチュエータ２０に与える本発明の指向性音声受信システムまたは方法を説明した。しかし、これに類似した機能を実行する代替システムや方法あるいは装置や手段において、アクチュエータ制御部２０およびアクチュエータ３０を省略して簡素化してもよい。
【００９４】
また、上述した本実施形態の第２例では、ＤＯＡ推定ブロック（信号処理部１０）と干渉抑制ブロック９０とを、上記図７の構成内で分離された装置として示したが、両機能ブロックを同一ブロックまたはカプセル化もしくはパッケージのような物理的な構造で一体化してもよい。
【００９５】
実際の利用例として、例えばノート型パソコン等のパーソナルコンピュータに、本発明による自動音声モニタリング技術を採用することが可能である。さらに、音声の到来方向の推定を、アクチェータ制御部へ、そして最終的にはアクチュエータへ入力し、例えば本発明におけるカメラ等の撮像装置のようにアクチュエータに接続された装置の位置変更も可能である。
【００９６】
【発明の効果】
上述した本発明の好適な実施形態によれば、音源の自動追跡を行う音声処理に基づく簡単な方法が提案される。ＤＯＡの推定には３個の受信要素を使用し、５個の要素が音声発生源への方向からの音を強調する。この方法では、３次元周波数領域での信号処理に必要とされるマイクロホンの個数を最小限とした。
【図面の簡単な説明】
【図１】本発明の好適な実施形態による音声信号の到来方向（ＤＯＡ）を検出するシステムまたは装置１を示す概略図である。
【図２】本発明の好適な実施形態による、音声信号の到来方向（ＤＯＡ）に関係して３個のマイクロホンＭ１、Ｍ２およびＭ３の幾何学的構成を有する３次元構成を示す図である。
【図３】図３（Ａ）：本発明の好適な実施形態による３個のマイクロホンＭ１、Ｍ２およびＭ３の幾何学的構成に関係して、音声信号の到来方向（ＤＯＡ）を分解した２個のより簡単な２次元構成を示す。
図３（Ｂ）：本発明の好適な実施形態による３個のマイクロホンＭ１、Ｍ２およびＭ３の幾何学的構成に関係して、音声信号の到来方向（ＤＯＡ）を分解した２個のより簡単な２次元構成を示す。
【図４】本発明の好適な実施形態による図１の信号処理部１０に相当する到来信号の位置を見つけるシステムの概略図である。
【図５】本発明の好適な実施形態によるｃ＝３４０ｍ／ｓの入力信号の周波数応答の振幅、ｆｓ＝１００００Ｈｚ、ｄｘ＝ｄｚ＝ｃ／ｆｓおよびθ＝１１０°でのサンプリング周波数を示す。
【図６】本発明の好適な実施形態による３個のマイクロホンＭ１、Ｍ２およびＭ３により受信した信号間の位相差を示す。
【図７】本発明の好適な実施形態の第２の例としてビデオ会議装置のブロック図を示す。
【図８】本発明の好適な実施形態による２次元ビーム形成用に提案された構造を示す図である。
【図９】本発明の好適な実施形態による干渉キャンセラを実現した場合の構成を示す図である。
【図１０】本発明の好適な実施形態による自動追跡および指向性音声受信の提案方法が適用可能なアプリケーションを示す図である。
【符号の説明】
１…システムまたは装置、１０…信号処理部、２０…アクチュエータ制御部、３０…アクチュエータ、９０…干渉キャンセラ、２０２−１、２０２−２、２０２−３…アナログ・デジタル変換部、２０４−１、２０４−２…入力緩衝部、２０６−１、２０６−２、２０６−３…ＦＦＴ変換部、７０１、７０２…ＭＰＥＧ音声符号部、７０３…ＭＰＥＧマルチプレクサ、７０４…パケット・アセンブラ、７０５…ＭＰＥＧビデオ複合部、７０６…ＭＰＥＧ音声複合部、７０７…ＭＰＥＧデマルチプレクサ、７０８…パケット・逆アセンブラ、７０９…バス・インタフェース、７１０…カメラ、７２０…表示装置、７３０…スピーカ、７４０……マウス、７５０…キーボード、７６０…入出力インタフェース、Ｍ１、Ｍ２、Ｍ３、Ｍ４、Ｍ５……マイクロホン。

Claims

主たる音源の方向とは異なる方向からの干渉を抑制し、該主たる音源からの音声信号を検出する音声受信部を備えた装置において、
前記音声受信部は、複数のオーディオセンサと、前記主たる音源への方向を検出する方向検出部と、前記検出された主たる音源への方向を用いて前記干渉の抑制を行い、より干渉が少ない音声信号を検出して出力する信号処理部とを備え、
前記複数のオーディオセンサは、前記主たる音源からの目標成分と、該目標成分に重畳された前記主たる音源とは異なる方向から到来する干渉成分とを含む音声信号を検出し、
前記方向検出部は、前記複数のオーディオセンサよりも数が少ないオーディオセンサからの出力を用いて、前記目標成分の音声信号が到来する方向を検出し、
前記信号処理部は、前記複数のオーディオセンサからの出力と前記検出された方向とを用いて、前記目標成分だけを含む音声信号を出力することを特徴とする装置。
予め定めた方向への指向性を有するユニットと、
前記ユニットを移動可能に支持する機構と、
前記機構の動作を制御する制御部とをさらに具備し、
前記制御部は、前記方向検出部で検出された前記主たる音源への方向を用いて前記機構の動作を制御することを特徴とする請求項１記載の装置。
表示部をさらに備え、
前記複数のオーディオセンサの少なくとも１つは前記表示部に配置され、
前記指向性を有するユニットは撮像手段を含むことを特徴とした請求項２記載の装置。
前記信号処理部は、前記オーディオセンサで検出された時系列の音声信号を周波数領域に変換することを特徴とする請求項１記載の装置。
前記方向検出部では２個以上のオーディオセンサが用い、
前記信号処理部では３以上のオーディオセンサを用いることを特徴とする請求項１記載の装置。