JP2004128707A - 指向性を備えた音声受信装置およびその方法 - Google Patents
指向性を備えた音声受信装置およびその方法 Download PDFInfo
- Publication number
- JP2004128707A JP2004128707A JP2002287465A JP2002287465A JP2004128707A JP 2004128707 A JP2004128707 A JP 2004128707A JP 2002287465 A JP2002287465 A JP 2002287465A JP 2002287465 A JP2002287465 A JP 2002287465A JP 2004128707 A JP2004128707 A JP 2004128707A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- unit
- signal
- sound source
- interference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】ビデオカメラおよび指向性音声受信の自動音追跡を提供する。
【解決手段】本発明のアルゴリズムには3つの主な段階がある。第1段階では、3個のマイクロホンM1〜M3のアレイにより、2つの主方向からの音声信号を受信する。信号処理部10が到来音声信号の方位角と仰角とに関する情報を抽出する。第2段階は主として機械的である。これら角度に関するデータが、ビデオカメラを音声信号源に向けて駆動するサーボ機構20、30に適用される。第3段階は、ビデオカメラの前空間に音声の指向性ビームを形成し、目的としない方向からの干渉を抑制することである。この部分の信号処理は、5個のマイクロホンで受けた信号を使用して行われる。周波数領域での処理が本アルゴリズムにおける主な手段である。
【選択図】 図1
【解決手段】本発明のアルゴリズムには3つの主な段階がある。第1段階では、3個のマイクロホンM1〜M3のアレイにより、2つの主方向からの音声信号を受信する。信号処理部10が到来音声信号の方位角と仰角とに関する情報を抽出する。第2段階は主として機械的である。これら角度に関するデータが、ビデオカメラを音声信号源に向けて駆動するサーボ機構20、30に適用される。第3段階は、ビデオカメラの前空間に音声の指向性ビームを形成し、目的としない方向からの干渉を抑制することである。この部分の信号処理は、5個のマイクロホンで受けた信号を使用して行われる。周波数領域での処理が本アルゴリズムにおける主な手段である。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は指向性音声受信方法および装置に関する。特に、本発明は指向性を備えた音声受信を実現する自動指向性音声受信方法および装置に関する。
【0002】
【従来の技術】
スピーカ(話者)位置の自動測定に関する技術としては、例えば、(1)チャン及びウイルソンによる「小規模なマイクロホンアレイを用いた3D話者位置検出の性能(P.S.Chang and A.N.Wilson, Jr., Performance of 3D speaker localization using a small array of microphones, Conference Record of the Thirty−First Asilomar Conference on Signals, Systems Computers、Vol.1, 1997, pp328332」、(2)ヤマダ他による「マイクロホンアレイにより話者位置検出を伴うスピーチのロバスト認識(T. Yamada, S. Nakamura and K. Shikano, Robust speech recognition with speaker localization by a microphone array、 Proceedings of ICSLP96、 Fourth International Conference on Spoken Language、 Vol. 3, 1996, pp13171320」がある。このように音声信号の到来角度を検出するには異なった方法がある。これらの方法のほとんどは、2個またはそれ以上のマイクロホンにおける到来時間差の計算に基づいている。音声信号は、20Hzから20KHzに及ぶ周波数成分の広帯域信号である。このため、従来の技術を用いた信号到来方向(DOA)の推定が難しくなっている。
【0003】
最近、話者の位置検出に関するいくつかの方法が提案されているが、前記(2)の従来の技術では、遅延器および合成ビーム形成器がマイクロホンアレイの信号処理に利用されている。このマイクロホンアレイは14台のマイクロホンで構成されている。話者の位置検出において時間遅延を用いた推定法に分類されるもう1つの方法としては、例えば、(3)ストローベル及びレイベンスタインによる「時間遅延推定に分類されるロバスト話者位置検出(N. Strobel R. Rabenstein Classification of time delay estimates for robust speaker localization、IEEE International Conference on Acoustics, Speech, and Signal Processing、 Vol. 6、 1999、 pp30813084」がある。
【0004】
さらに、ジョイント・オーディオ−ビデオ・オブジェクト位置検出及び追跡に関してはいくつかの方法が提案されている。例えば、ストローベル他による「ジョイント・オーディオ−ビデオ・オブジェクト位置検出および追跡(N. Strobel, S. Spors and R. Rabenstein、 Joint audio−video object localization and tracking、 IEEE、 Vol. 18, Issue 1, Jan 2001, pp2231」である。
【0005】
さらに、特開2002−62348号公報では、所定の帯域幅内で到来信号を種々の成分に分解し、これらの成分の相関関係を決定して、音源の位置と方向を推定する装置および方法が公開されている。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した従来方法では、非常に多数のマイクロホンが必要とされるだけでなく、これら従来方法に係る本質的な複雑さが存在する。このため、経済的に実現が難しく、信頼性も高くなく、故障などに対する耐久性が制限されている。
【0007】
ビデオ会議または長距離学習といった利用法を、経済的に実現可能なものにして、操作の失敗が出来るだけないようにするためには、少数のマイクロホンを用いた3次元(3D)空間における話者の位置を自動検出が望ましい。
【0008】
本発明は上述した従来の技術に関する課題を鑑みて成されたものであり、指向性音声受信方法や装置、あるいはビデオカメラ等の撮像装置に適用できる自動指向性音声受信方法や装置を提供することが望ましい。
【0009】
【課題を解決するための手段】
本発明の好適な実施形態によれば、主たる音源の方向とは異なる方向からの干渉を抑制し、該主たる音源からの音声信号を検出する音声受信部を備えた装置が提供される。前記音声受信部は、複数のオーディオセンサと、前記主たる音源への方向を検出する方向検出部と、前記検出された主たる音源への方向を用いて前記干渉の抑制を行い、より干渉が少ない音声信号を検出して出力する信号処理部とを備える。前記複数のオーディオセンサは、前記主たる音源からの目標成分と該目標成分に重畳された前記主たる音源とは異なる方向から到来する干渉成分とを含む音声信号を検出し、前記方向検出部は、前記複数のオーディオセンサよりも数が少ないオーディオセンサからの出力を用いて、前記目標成分の音声信号が到来する方向を検出し、前記信号処理部は、前記複数のオーディオセンサからの出力と前記検出された方向とを用いて、前記目標成分だけを含む音声信号を出力する。
【0010】
本発明の他の好適な実施形態において提案された方法には、主に3つの段階がある。第1段階では、少なくとも3個のマイクロホンのアレイが空間の2方向からの音声信号を受信する。信号処理部が方位角および仰角に関する到来音声信号の情報を抽出する。第2段階は主に機械的なもので、抽出された角度データを適用して例えばビデオカメラ等の撮像装置を駆動するサーボ機構を駆動して、音または音声信号が到来する方向に向ける。第3段階では、音声ビームをビデオカメラ前面の空間に形成し、希望しない方向からの干渉を減少させる。この部分の信号処理は、5個のマイクロホンで受信した信号を使用して行われることが望ましい。
【0011】
本発明によれば、上記に加えて、周波数領域処理を行うアルゴリズムが提案される。本発明による他の好適な実施形態では、スピーカ(話者)の位置検出および干渉抑制の組み合わせが提案されている。以下の3段階で周波数領域処理が実現される。
(1)三角形アレイの構成で配置された3個のマイクロホンが音声信号を受信する。受信された音声信号は周波数領域に変換され、該音声信号の到来してきた仰角および方位角を得るための、非常に雑音が多い音声信号の処理が実行される。
(2)サーボ機構システムは、撮像装置または関連するセンサや装置をサーボ信号が示す方向に向けることで、任意に移動するスピーカの位置変化を追跡する。
(3)上記に説明した3個のマイクロホンと2個の追加マイクロホンが5要素のレシーバアレイシステムを構成し、他方向から受信する干渉を減衰させる。
【0012】
本発明による他の好適な実施形態によれば、音源の位置を検出する検出部を有する装置が提供される。ここで前記検出部は、一直線上にはない互いに異なる位置に配置された音声信号を検出する3個のオーディオセンサと、前記3個のオーディオセンサのうち、第1の組み合わせとなる2個からの出力を受け付け、当該検出部で検出された音声信号の到来方向に関する第1の角度を算出する第1の信号処理部と、前記3個のオーディオセンサのうち、第2の組み合せとなる2個からの出力を受け付け、当該検出部で検出された音声信号の到来方向に関する第2の角度を算出する第2の信号処理部とを具備する。
【0013】
前記第1の組み合せは前記第2の組み合せと異なるものである。また、前記第1の角度および第2の角度は、互いに独立し、前記3個のオーディオセンサが音声信号の検出を行う検出点を含む平面に対して、前記検出された音声信号の到来方向(DOA)を定義する。
【0014】
さらに、上記実施形態による装置は、指向特性を有するユニット、該ユニットを移動可能に支える機構、および、該機構の動作を制御する制御部を含む。前記制御部は、検出した音声信号の第1および第2の角度を示す出力を受け付け、該出力を用いて前記機構の動作を制御する。
【0015】
ここで、前記指向特性を有するユニットは、指向性を備えたセンサを含んでいても良い。また前記制御部は、前記機構を制御して前記指向性を備えるユニットを、検出された音声信号が発せられた音源へ向ける。
【0016】
上記実施形態による装置は、指向性を備えるユニットとして、カメラ等の撮像装置を備えてもよい。
【0017】
上記実施形態による装置においては、前記第1および第2の信号処理部はそれぞれ、前記オーディオセンサで検出された時系列信号を周波数領域に変換してもよい。また、前記第1および第2信号処理部はそれぞれ、対応する前記2個のオーディオセンサからの出力を周波数領域に変換し、該周波数変換後の値を用いて両出力間の位相差を検出するよう構成しても良い。
【0018】
さらに上記実施形態においては、前記3個のオーディオセンサのうち、1個が直交する2方向の交差点に配置され、他の1個が前記2方向のうちの一方向に沿って配置され、最後の1個が前記一方向とは異なる方向に沿って配置されるよう構成しても良い。
【0019】
本発明のさらに他の好適な実施形態によれば、主たる音源の方向とは異なる方向から来る干渉の抑制が可能な音声受信部を有する装置が提供される。前記音声受信部は、相互に異なった位置に配置され、前記主たる音源からの目標成分と該目標成分に重畳された干渉成分とを含む音声信号を検出する5個のオーディオセンサと、前記5個のオーディオセンサからの出力を受け入れ、前記目標成分から前記干渉成分を分離させる信号処理部とを具備する。前記5個のオーディオセンサは第1の組み合わせのグループと第2の組み合わせのグループとに分けられ、前記第1と第2の組み合わせはそれぞれ、前記5個のオーディオセンサのうち3個を含み、そのうちの1個を共有しており、前記第1と第2の組み合わせのオーディオセンサは、直交する第1と第2の方向に沿ってそれぞれ配置される。
【0020】
上記実施形態の装置において前記信号処理部は、前記検出した音声信号を周波数領域に変換する第1の変換部と、前記変換された周波数領域において目標成分を取得する演算部と、前記取得された周波数領域の目標成分を時間領域に変換することで、前記干渉成分が分離された前記目標成分の音声信号を出力する第2の変換部とを備えてもよい。
【0021】
本発明の他の好適な実施形態によれば、指向性を備える音声検出装置が提供される。この指向性を備える音声検出装置は、音源からの音声信号を検出する少なくとも2個のオーディオセンサと、前記少なくとも2個のオーディオセンサのうち2個からの出力をそれぞれ受信し、各受信出力を周波数領域に変換し、該変換出力を用いて前記検出された音声信号の到来方向を推定する信号処理部とを具備する。前記到来方向は、前記検出された音声信号の入射方向と前記2個のオーディオセンサの両検出点を通過する方向とが成す角度により定義される。
【0022】
本発明のさらに他の好適な実施形態によれば、干渉を減衰させる装置が提供される。この干渉を減衰させる装置は、音源からの目標成分と該音源への方向とは異なる方向から来る音声信号に対応する干渉成分とを含む音声信号を検出する少なくとも3個のオーディオセンサと、前記少なくとも3個のオーディオセンサのうち3個からの出力を受け入れ、該受け入れた各出力を周波数領域に変換し、該変換した周波数領域において目標成分を取得し、該取得した目標成分を時間領域に変換して、前記干渉成分を分離した前記目標成分の音声信号を出力する信号処理部とを具備する。ここで、前記3個のオーディオセンサが、一直線方向に沿って配列される。
【0023】
なお上記実施形態による指向性を備える音声検出装置は、指向性を有するユニットと、前記指向性を有するユニットを移動可能に支持する機構と、前記機構の動作を制御する制御部とをさらに具備してもよい。ここで前記制御部は、検出された音声信号の到来方向を示す前記指向性を備える音声検出装置からの出力を受け付け、該受け付けた出力を前記機構の動作制御に用いる。
【0024】
【発明の実施の形態】
図1は、音声の到来方向(DOA)を検出するシステム(装置1)の概略を示す図である。本装置1は、3個のマイクロホンM1、M2およびM3から信号を入力として受信し、到来音声信号の入射角を決定する方位角および仰角のθとφの計算結果を出力として送信する信号処理部10を含む。この過程を以下に詳細に説明する。
【0025】
なお図1では、計算または推定角度θとφで決定される到来方向は、より詳細に以下で説明されるが、到来方向によって決定される音源へ向けて撮像装置等の装置を動かしたり、位置を定めるサーボモータのようなアクチュエータの動作を決定するための入力を与える。
【0026】
信号処理ステップまたはプロセスによって示すことが可能な信号処理部20の動作を以下に説明する。
【0027】
図2は、3個のマイクロホンM1、M2およびM3の幾何学的な場所を示す。そのうちの2個は、任意の座標(0、0、0)および(dx、0、0)におけるx軸を決定する。3個目のマイクロホンは、負のz軸上(0、0、−dz)に配置されている。マイクロホンはそれぞれ、図3(A)および図3(B)でM1、M2およびM3と示されている。音声信号到来方向はそれぞれ、方位角および仰角のθとφでの特徴づけができる。第1の段階における目標はθとφの推定である。これは、図2の多少複雑な構成を実際よく類似している図3(A)と図3(B)という2つのより簡単な構成に変換して行う。
【0028】
さて、φx、θz、θおよびφの関係について計算を行う。図2、図3(A)および図3(B)の比較をすれば、簡単に次のとおりである。
【0029】
【数1】
【0030】
さらに、
【0031】
【数2】
【0032】
となり、これから
【0033】
【数3】
【0034】
φxおよびθzの推定アルゴリズムはよく類似している。したがって、ここでは最初のものだけを説明する。
【0035】
マイクロホン要素であるM1とM2に到着する信号はそれぞれx1(t)およびx2(t)で示され、τφは音声信号到来方向に沿った2個のマイクロホン要素での信号間の移動遅延を示し、次のように現すことができる。
【0036】
【数4】
【0037】
周波数領域では、X(f)とX(f)exp(−j2πfτφ)となり、その時の位相差はψ(f)=2πfτφを伴う。これは位相と周波数とが線形的関係であることを示し、1または複数の周波数で位相情報が得られれば、遅延τφとその結果の角度φxが得られる。同様の手順がθzに適用できる。φxとθzが分かれば、角度φとθは数式(1)と(3)から計算される。
【0038】
図4は、図1の信号処理部10に相当する到来信号を発見するシステムの概略図を示す。φおよびθの正確な値を推定するために、2つの周波数flとfh間で検出された位相の出力に対して平均化処理を行なう。
【0039】
図1で使用された定数は、kx=c/(π(fl+fh)dx)およびky=c/(π(fl+f)dz)
であり、関数は
f(φ、θz)=tan−1(1/tanθz・sinφ)
である。
【0040】
音声信号の数値例として選択されたのがfl=1.5KHz、fh=3.5KHz、即ち、中心周波数の(fl+fh)/2=2.5KHzである。平均位相差はこの中心周波数に属する。図1に示された係数を乗じ、逆正弦関数を適用すれば、φxとθzが計算される。
【0041】
最後の段階では、方位角および仰角のφとθをそれぞれ得るために、数式(1)および(3)を使用する。
【0042】
数値例としては、時間領域にある入力信号を考慮することで算出がされる。
【0043】
【数5】
【0044】
ここで、
【0045】
【数6】
【0046】
上記は共通のマイクロホン要素M1におけるもので、n1(t)は分散σn 2のランダム雑音である。純粋な信号x(t)の平均電力は7.327dBであり、σn 2は、例えば−2.673dB、すなわち信号対雑音比(SNR)が10dBと仮定される。マイクロホン要素M2およびM3における信号は次のように書くことができる。
【0047】
【数7】
【0048】
【数8】
【0049】
ここで、τφは数式(4)で定義されている。τθ=dy/csinθzであり、n2(t)およびn3(t)は同じ分散σn 2を有する独立したランダム雑音信号である。
【0050】
図5は、各マイクロホン要素で受信された信号の周波数応答の振幅を示す。ここで、c=340m/s、φx=−60°およびθz=−36°に対応するφ=30°およびθ=110°、サンプル周波数fs=10000Hz、dx=dz=c/fsが仮定されている。雑音電力が低下するに従い、図5の曲線は単一形状に集約する。信号x2−x1およびx3−x1の位相差を図6に示す。雑音が全くない場合には、これらの曲線は2本の線が原点を通過したものになる。このシミュレーションの結果、φおよびθの推定としてそれぞれ29.4°および109.8°が得られた。
【0051】
本発明を適用した他の実施形態における、5個の信号受信要素を用いた干渉抑制方法および装置について、以下に説明する。
【0052】
本実施形態によれば、到来音声信号のDOAを知ることで、カメラを音声発生源へ向けるようサーボ機構を動作させることができる。ここでは、2次元に配置された5個のマイクロホンを、干渉抑制および指向性ビーム形成(以下ではビーム形成と略称する)のために使用する。図6は、2次元ビーム形成処理のために提案した構造を示す。ここでは最低1つの干渉信号が(φi、θi)の方向から来ることを仮定している。上述したように問題をより単純な2本の曲線に分割し、周波数領域における干渉抑制の基本理論を説明するためにM1、M2およびM4の3つのマイクロホン要素だけを考慮した。さらに本実施形態では、干渉が明確な考慮対象になっている。したがって、上述した先の実施形態において考慮された雑音成分(ランダム雑音)の代わりに、本実施形態では1つの干渉信号として考慮されている。
【0053】
したがって、第1のマイクロホン要素M1が受信した信号は、再びx1(t)で表示され、次のように書くことができる。
【0054】
【数9】
【0055】
ここで、so1(t)およびsi1(t)はそれぞれ、目的の信号およびそれに干渉する信号である。マイクロホン要素M1に対してのM2およびM4にて受信した目的信号の時間遅延τo2およびτo4はそれぞれ、次のように表される。
【0056】
【数10】
【0057】
そして
【0058】
【数11】
【0059】
したがって、M2およびM4における目的信号の時間関数は次のように書くことができる。
【0060】
【数12】
【0061】
【数13】
【0062】
同様な数式がM2およびM4における干渉にも適用される。
【0063】
【数14】
【0064】
【数15】
【0065】
ここで、φxは干渉信号のAOA(到来角度)であり、τi2およびτi4はマイクロホン要素M1に対するM2およびM4における干渉遅延である。したがって、M2およびM4における信号は次のように表すことができる。
【0066】
【数16】
【0067】
【数17】
【0068】
数式(9)、(16)および(17)のフーリエ変換を考え、そして、また、数式(12)〜(15)を代入すれば、結果として次の数式が得られる。
【0069】
【数18】
【0070】
【数19】
【0071】
【数20】
【0072】
ここで、So1(f)、So2(f)、So4(f)、Si1(f)、Si2(f)、Si4(f)はそれぞれ、so1(t)、so2(t)、so4(t)、si1(t)、si2(t)、si4(t)のフーリエ変換である。複雑な位相関数であるφx(f)およびφxi(f)はそれぞれ、次の数式で示される。
【0073】
【数21】
【0074】
【数22】
【0075】
上記三つの数式(8)、(19)および(20)が含まれている場合には、数式を解くことによって求めなければならない複素数の未知数が3つある。これらの未知数はSo1(f)、Si1(f)およびφx(f)である。目的とする方向φxすなわちφx(f)は、ビーム形成の主要パラメータであり、既知の値および関数である。結果として以下が得られる。
【0076】
【数23】
【0077】
数式(23)からSo1(f)を計算すれば、逆フーリエ変換のSo1(f)はSo1(t)を与え、即ち、目的とする信号は干渉Si1(t)から分離される。到来信号の周波数領域における特徴に関する何らかの知識があれば、数式(23)のSo1(f)を得るのに必要な計算量を減少させることができる。一般に、帯域幅には制限がないため、本実施形態による方法によればブロードバンドでの干渉抑制が実現できる。
【0078】
本実施形態による干渉キャンセラを実現する一構成例を図9に示す。各センサ(マイクロフォン)M1〜M5の出力において、アナログ−ディジタル変換部(ADC)920−1〜920−5は対応する受信信号をそれぞれサンプルし、入力バッファ940−1〜940−5へ送る。各センサ(マイクロフォン)M1〜M5においてT秒間の期間中でKサンプルが取得されると仮定して、K点のFFT(ファースト・フーリエ変換)がこれらの時間サンプルに適用される。FFTブロック960−1〜960−5の入力および出力は、それぞれxikおよびXikで示され、ここでi=1、2、3、4、5そしてk=1、2、...、Kである。主な計算として、数式(23)が各K個の周波数成分について計算されるBkx、Bkz、k=1、2、...、Kで示されるブロックで行われる。例えば、上述の図4で説明されるプロセスで計算された目的信号の角度φxとθzは、次の数式によりそれぞれ、目的信号の位相φxkおよびφzk(図示なし)へ変換される。
【0079】
【数24】
【0080】
【数25】
【0081】
サンプルの周波数は、以下に等しい。
【0082】
【数26】
【0083】
ここで入力信号が実数値の場合、計算量を1/2に減らすために、FFT出力の対称性を使用できることはいうまでもない。k=1、2、...Kを表わすBkxとBkzで図9に示されるブロックの出力は、次のとおりとなる。
【0084】
【数27】
【0085】
【数28】
【0086】
本発明の好適な実施形態の具体例を以下に説明する。
(第1の例)
図10は、自動追跡および指向性音声受信に関して提案した方法が適用可能なアプリケーションを示している。本例では、パーソナルコンピュータに搭載された撮像装置(例えば、ディジタルカメラ)のための指向性音声受信機能が備わっている。本図で示すように、本例の撮像装置には、方位角および仰角で撮像装置を駆動するサーボ機構に搭載されている。5個のマイクロホンが、ディスプレイの枠上に等間隔で取り付けられている。ここで指摘することは、等距離での取り付けは単純化の目的からである。本実施形態のアルゴリズムの第1段階での処理は、1秒毎に繰り返す周波数で行えるが、この場合、この時間期間中に大きな動きが発生しないとの仮定がある。実際、本実施形態の第2段階中に起動される機械的システムや、撮像装置が突然移動することで生じる利便性の悪い感じが生じるという制約がある。音声のエンハンスメントは、5個のマイクロホンがすべて含まれる第3段階での機能である。
(第2の例)
図7は、本発明の実施形態における第2の例としてのビデオ会議装置のブロック図である。
【0087】
本ビデオ会議装置は、マイクロホンM1−M5、DOA計算部10、干渉キャンセラ90、カメラ710、アクチュエータ30およびアクチュエータ制御部20を備えている。DOA計算部10は、マイクロホンからの出力を受信し、上述した最初の実施形態(3個のマイクロホン)を利用して音声信号の到来方向であるφおよびθを計算し、出力する。干渉キャンセラ90は、上述した他の実施形態(5個のマイクロホン)を利用して干渉抑制を行うため、マイクロホンM1−M5からの出力およびDOA計算部10からのφおよびθを受信する。アクチュエータ30が、マイクロホンM1−M5で捕らえた音声信号の発生源へ向けてカメラ710を向けるように、アクチュエータ制御部20は、DOA計算部10からのφおよびθを受信し、アクチュエータ30へ制御信号を出力する。
【0088】
本ビデオ会議装置は、さらに、ディスプレイ720、スピーカ730、MPEG処理部700、バス790、およびインターネット794にインタフェースするネットワーク・インタフェース792をさらに備えている。MPEG処理部700は、干渉の抑制をする干渉キャンセラ90から出力された音声信号を受信し、符号化するMPEG音声符号部701、カメラ710からのビデオ信号を受け付け符号化するMPEGビデオ符号部702、符号化された音声およびビデオ信号を多重化するMPEG多重変換部703、MPEG多重変換部703から出力された多重データよりなるパケットを組立てるパケット・アセンブラ704、そしてバス790とのインタフェースを行うバス・インタフェース709を含む。
【0089】
MPEG処理部700は、バス・インタフェース709を経て、外部から送られたパケットを分解するパケット逆アセンブラ708、受取ったパケットが運ぶデータを多重分離するMPEGデマルチプレクサ707、ディスプレイ720へ復号したアナログ・データを出力するMPEGビデオ複合部705、および復号した音声データをスピーカ730に出力するMPEG音声複合部706をさらに含む。
【0090】
本ビデオ会議装置は、マウス740、キーボード750、入出力インタフェース760、メモリー770およびビデオ会議機能を実現するためのプログラムを実行するCPU780をさらに含む。
【0091】
上記図7のビデオ会議装置によれば、スピーカ(話者)の適切な撮像および明瞭な干渉の少ない音声信号で、ビデオ会議の実施が可能である。
【0092】
以上、本発明をある程度の独自性を加味して好適な実施形態により説明したが、本発明においては他の修正、変形、組合せ、準組合せなどが可能である。したがって、本発明の範囲から逸脱せずに、上述した特定の説明とは異なった方法で変更が実施できることは云うまでもないことである。
【0093】
したがって、例えば、上記図1に示す好適な実施形態では、角度φおよびθの入力をアクチュエータ20に与える本発明の指向性音声受信システムまたは方法を説明した。しかし、これに類似した機能を実行する代替システムや方法あるいは装置や手段において、アクチュエータ制御部20およびアクチュエータ30を省略して簡素化してもよい。
【0094】
また、上述した本実施形態の第2例では、DOA推定ブロック(信号処理部10)と干渉抑制ブロック90とを、上記図7の構成内で分離された装置として示したが、両機能ブロックを同一ブロックまたはカプセル化もしくはパッケージのような物理的な構造で一体化してもよい。
【0095】
実際の利用例として、例えばノート型パソコン等のパーソナルコンピュータに、本発明による自動音声モニタリング技術を採用することが可能である。さらに、音声の到来方向の推定を、アクチェータ制御部へ、そして最終的にはアクチュエータへ入力し、例えば本発明におけるカメラ等の撮像装置のようにアクチュエータに接続された装置の位置変更も可能である。
【0096】
【発明の効果】
上述した本発明の好適な実施形態によれば、音源の自動追跡を行う音声処理に基づく簡単な方法が提案される。DOAの推定には3個の受信要素を使用し、5個の要素が音声発生源への方向からの音を強調する。この方法では、3次元周波数領域での信号処理に必要とされるマイクロホンの個数を最小限とした。
【図面の簡単な説明】
【図1】本発明の好適な実施形態による音声信号の到来方向(DOA)を検出するシステムまたは装置1を示す概略図である。
【図2】本発明の好適な実施形態による、音声信号の到来方向(DOA)に関係して3個のマイクロホンM1、M2およびM3の幾何学的構成を有する3次元構成を示す図である。
【図3】図3(A):本発明の好適な実施形態による3個のマイクロホンM1、M2およびM3の幾何学的構成に関係して、音声信号の到来方向(DOA)を分解した2個のより簡単な2次元構成を示す。
図3(B):本発明の好適な実施形態による3個のマイクロホンM1、M2およびM3の幾何学的構成に関係して、音声信号の到来方向(DOA)を分解した2個のより簡単な2次元構成を示す。
【図4】本発明の好適な実施形態による図1の信号処理部10に相当する到来信号の位置を見つけるシステムの概略図である。
【図5】本発明の好適な実施形態によるc=340m/sの入力信号の周波数応答の振幅、fs=10000Hz、dx=dz=c/fsおよびθ=110°でのサンプリング周波数を示す。
【図6】本発明の好適な実施形態による3個のマイクロホンM1、M2およびM3により受信した信号間の位相差を示す。
【図7】本発明の好適な実施形態の第2の例としてビデオ会議装置のブロック図を示す。
【図8】本発明の好適な実施形態による2次元ビーム形成用に提案された構造を示す図である。
【図9】本発明の好適な実施形態による干渉キャンセラを実現した場合の構成を示す図である。
【図10】本発明の好適な実施形態による自動追跡および指向性音声受信の提案方法が適用可能なアプリケーションを示す図である。
【符号の説明】
1…システムまたは装置、10…信号処理部、20…アクチュエータ制御部、30…アクチュエータ、90…干渉キャンセラ、202−1、202−2、202−3…アナログ・デジタル変換部、204−1、204−2…入力緩衝部、206−1、206−2、206−3…FFT変換部、701、702…MPEG音声符号部、703…MPEGマルチプレクサ、704…パケット・アセンブラ、705…MPEGビデオ複合部、706…MPEG音声複合部、707…MPEGデマルチプレクサ、708…パケット・逆アセンブラ、709…バス・インタフェース、710…カメラ、720…表示装置、730…スピーカ、740……マウス、750…キーボード、760…入出力インタフェース、M1、M2、M3、M4、M5……マイクロホン。
【発明の属する技術分野】
本発明は指向性音声受信方法および装置に関する。特に、本発明は指向性を備えた音声受信を実現する自動指向性音声受信方法および装置に関する。
【0002】
【従来の技術】
スピーカ(話者)位置の自動測定に関する技術としては、例えば、(1)チャン及びウイルソンによる「小規模なマイクロホンアレイを用いた3D話者位置検出の性能(P.S.Chang and A.N.Wilson, Jr., Performance of 3D speaker localization using a small array of microphones, Conference Record of the Thirty−First Asilomar Conference on Signals, Systems Computers、Vol.1, 1997, pp328332」、(2)ヤマダ他による「マイクロホンアレイにより話者位置検出を伴うスピーチのロバスト認識(T. Yamada, S. Nakamura and K. Shikano, Robust speech recognition with speaker localization by a microphone array、 Proceedings of ICSLP96、 Fourth International Conference on Spoken Language、 Vol. 3, 1996, pp13171320」がある。このように音声信号の到来角度を検出するには異なった方法がある。これらの方法のほとんどは、2個またはそれ以上のマイクロホンにおける到来時間差の計算に基づいている。音声信号は、20Hzから20KHzに及ぶ周波数成分の広帯域信号である。このため、従来の技術を用いた信号到来方向(DOA)の推定が難しくなっている。
【0003】
最近、話者の位置検出に関するいくつかの方法が提案されているが、前記(2)の従来の技術では、遅延器および合成ビーム形成器がマイクロホンアレイの信号処理に利用されている。このマイクロホンアレイは14台のマイクロホンで構成されている。話者の位置検出において時間遅延を用いた推定法に分類されるもう1つの方法としては、例えば、(3)ストローベル及びレイベンスタインによる「時間遅延推定に分類されるロバスト話者位置検出(N. Strobel R. Rabenstein Classification of time delay estimates for robust speaker localization、IEEE International Conference on Acoustics, Speech, and Signal Processing、 Vol. 6、 1999、 pp30813084」がある。
【0004】
さらに、ジョイント・オーディオ−ビデオ・オブジェクト位置検出及び追跡に関してはいくつかの方法が提案されている。例えば、ストローベル他による「ジョイント・オーディオ−ビデオ・オブジェクト位置検出および追跡(N. Strobel, S. Spors and R. Rabenstein、 Joint audio−video object localization and tracking、 IEEE、 Vol. 18, Issue 1, Jan 2001, pp2231」である。
【0005】
さらに、特開2002−62348号公報では、所定の帯域幅内で到来信号を種々の成分に分解し、これらの成分の相関関係を決定して、音源の位置と方向を推定する装置および方法が公開されている。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した従来方法では、非常に多数のマイクロホンが必要とされるだけでなく、これら従来方法に係る本質的な複雑さが存在する。このため、経済的に実現が難しく、信頼性も高くなく、故障などに対する耐久性が制限されている。
【0007】
ビデオ会議または長距離学習といった利用法を、経済的に実現可能なものにして、操作の失敗が出来るだけないようにするためには、少数のマイクロホンを用いた3次元(3D)空間における話者の位置を自動検出が望ましい。
【0008】
本発明は上述した従来の技術に関する課題を鑑みて成されたものであり、指向性音声受信方法や装置、あるいはビデオカメラ等の撮像装置に適用できる自動指向性音声受信方法や装置を提供することが望ましい。
【0009】
【課題を解決するための手段】
本発明の好適な実施形態によれば、主たる音源の方向とは異なる方向からの干渉を抑制し、該主たる音源からの音声信号を検出する音声受信部を備えた装置が提供される。前記音声受信部は、複数のオーディオセンサと、前記主たる音源への方向を検出する方向検出部と、前記検出された主たる音源への方向を用いて前記干渉の抑制を行い、より干渉が少ない音声信号を検出して出力する信号処理部とを備える。前記複数のオーディオセンサは、前記主たる音源からの目標成分と該目標成分に重畳された前記主たる音源とは異なる方向から到来する干渉成分とを含む音声信号を検出し、前記方向検出部は、前記複数のオーディオセンサよりも数が少ないオーディオセンサからの出力を用いて、前記目標成分の音声信号が到来する方向を検出し、前記信号処理部は、前記複数のオーディオセンサからの出力と前記検出された方向とを用いて、前記目標成分だけを含む音声信号を出力する。
【0010】
本発明の他の好適な実施形態において提案された方法には、主に3つの段階がある。第1段階では、少なくとも3個のマイクロホンのアレイが空間の2方向からの音声信号を受信する。信号処理部が方位角および仰角に関する到来音声信号の情報を抽出する。第2段階は主に機械的なもので、抽出された角度データを適用して例えばビデオカメラ等の撮像装置を駆動するサーボ機構を駆動して、音または音声信号が到来する方向に向ける。第3段階では、音声ビームをビデオカメラ前面の空間に形成し、希望しない方向からの干渉を減少させる。この部分の信号処理は、5個のマイクロホンで受信した信号を使用して行われることが望ましい。
【0011】
本発明によれば、上記に加えて、周波数領域処理を行うアルゴリズムが提案される。本発明による他の好適な実施形態では、スピーカ(話者)の位置検出および干渉抑制の組み合わせが提案されている。以下の3段階で周波数領域処理が実現される。
(1)三角形アレイの構成で配置された3個のマイクロホンが音声信号を受信する。受信された音声信号は周波数領域に変換され、該音声信号の到来してきた仰角および方位角を得るための、非常に雑音が多い音声信号の処理が実行される。
(2)サーボ機構システムは、撮像装置または関連するセンサや装置をサーボ信号が示す方向に向けることで、任意に移動するスピーカの位置変化を追跡する。
(3)上記に説明した3個のマイクロホンと2個の追加マイクロホンが5要素のレシーバアレイシステムを構成し、他方向から受信する干渉を減衰させる。
【0012】
本発明による他の好適な実施形態によれば、音源の位置を検出する検出部を有する装置が提供される。ここで前記検出部は、一直線上にはない互いに異なる位置に配置された音声信号を検出する3個のオーディオセンサと、前記3個のオーディオセンサのうち、第1の組み合わせとなる2個からの出力を受け付け、当該検出部で検出された音声信号の到来方向に関する第1の角度を算出する第1の信号処理部と、前記3個のオーディオセンサのうち、第2の組み合せとなる2個からの出力を受け付け、当該検出部で検出された音声信号の到来方向に関する第2の角度を算出する第2の信号処理部とを具備する。
【0013】
前記第1の組み合せは前記第2の組み合せと異なるものである。また、前記第1の角度および第2の角度は、互いに独立し、前記3個のオーディオセンサが音声信号の検出を行う検出点を含む平面に対して、前記検出された音声信号の到来方向(DOA)を定義する。
【0014】
さらに、上記実施形態による装置は、指向特性を有するユニット、該ユニットを移動可能に支える機構、および、該機構の動作を制御する制御部を含む。前記制御部は、検出した音声信号の第1および第2の角度を示す出力を受け付け、該出力を用いて前記機構の動作を制御する。
【0015】
ここで、前記指向特性を有するユニットは、指向性を備えたセンサを含んでいても良い。また前記制御部は、前記機構を制御して前記指向性を備えるユニットを、検出された音声信号が発せられた音源へ向ける。
【0016】
上記実施形態による装置は、指向性を備えるユニットとして、カメラ等の撮像装置を備えてもよい。
【0017】
上記実施形態による装置においては、前記第1および第2の信号処理部はそれぞれ、前記オーディオセンサで検出された時系列信号を周波数領域に変換してもよい。また、前記第1および第2信号処理部はそれぞれ、対応する前記2個のオーディオセンサからの出力を周波数領域に変換し、該周波数変換後の値を用いて両出力間の位相差を検出するよう構成しても良い。
【0018】
さらに上記実施形態においては、前記3個のオーディオセンサのうち、1個が直交する2方向の交差点に配置され、他の1個が前記2方向のうちの一方向に沿って配置され、最後の1個が前記一方向とは異なる方向に沿って配置されるよう構成しても良い。
【0019】
本発明のさらに他の好適な実施形態によれば、主たる音源の方向とは異なる方向から来る干渉の抑制が可能な音声受信部を有する装置が提供される。前記音声受信部は、相互に異なった位置に配置され、前記主たる音源からの目標成分と該目標成分に重畳された干渉成分とを含む音声信号を検出する5個のオーディオセンサと、前記5個のオーディオセンサからの出力を受け入れ、前記目標成分から前記干渉成分を分離させる信号処理部とを具備する。前記5個のオーディオセンサは第1の組み合わせのグループと第2の組み合わせのグループとに分けられ、前記第1と第2の組み合わせはそれぞれ、前記5個のオーディオセンサのうち3個を含み、そのうちの1個を共有しており、前記第1と第2の組み合わせのオーディオセンサは、直交する第1と第2の方向に沿ってそれぞれ配置される。
【0020】
上記実施形態の装置において前記信号処理部は、前記検出した音声信号を周波数領域に変換する第1の変換部と、前記変換された周波数領域において目標成分を取得する演算部と、前記取得された周波数領域の目標成分を時間領域に変換することで、前記干渉成分が分離された前記目標成分の音声信号を出力する第2の変換部とを備えてもよい。
【0021】
本発明の他の好適な実施形態によれば、指向性を備える音声検出装置が提供される。この指向性を備える音声検出装置は、音源からの音声信号を検出する少なくとも2個のオーディオセンサと、前記少なくとも2個のオーディオセンサのうち2個からの出力をそれぞれ受信し、各受信出力を周波数領域に変換し、該変換出力を用いて前記検出された音声信号の到来方向を推定する信号処理部とを具備する。前記到来方向は、前記検出された音声信号の入射方向と前記2個のオーディオセンサの両検出点を通過する方向とが成す角度により定義される。
【0022】
本発明のさらに他の好適な実施形態によれば、干渉を減衰させる装置が提供される。この干渉を減衰させる装置は、音源からの目標成分と該音源への方向とは異なる方向から来る音声信号に対応する干渉成分とを含む音声信号を検出する少なくとも3個のオーディオセンサと、前記少なくとも3個のオーディオセンサのうち3個からの出力を受け入れ、該受け入れた各出力を周波数領域に変換し、該変換した周波数領域において目標成分を取得し、該取得した目標成分を時間領域に変換して、前記干渉成分を分離した前記目標成分の音声信号を出力する信号処理部とを具備する。ここで、前記3個のオーディオセンサが、一直線方向に沿って配列される。
【0023】
なお上記実施形態による指向性を備える音声検出装置は、指向性を有するユニットと、前記指向性を有するユニットを移動可能に支持する機構と、前記機構の動作を制御する制御部とをさらに具備してもよい。ここで前記制御部は、検出された音声信号の到来方向を示す前記指向性を備える音声検出装置からの出力を受け付け、該受け付けた出力を前記機構の動作制御に用いる。
【0024】
【発明の実施の形態】
図1は、音声の到来方向(DOA)を検出するシステム(装置1)の概略を示す図である。本装置1は、3個のマイクロホンM1、M2およびM3から信号を入力として受信し、到来音声信号の入射角を決定する方位角および仰角のθとφの計算結果を出力として送信する信号処理部10を含む。この過程を以下に詳細に説明する。
【0025】
なお図1では、計算または推定角度θとφで決定される到来方向は、より詳細に以下で説明されるが、到来方向によって決定される音源へ向けて撮像装置等の装置を動かしたり、位置を定めるサーボモータのようなアクチュエータの動作を決定するための入力を与える。
【0026】
信号処理ステップまたはプロセスによって示すことが可能な信号処理部20の動作を以下に説明する。
【0027】
図2は、3個のマイクロホンM1、M2およびM3の幾何学的な場所を示す。そのうちの2個は、任意の座標(0、0、0)および(dx、0、0)におけるx軸を決定する。3個目のマイクロホンは、負のz軸上(0、0、−dz)に配置されている。マイクロホンはそれぞれ、図3(A)および図3(B)でM1、M2およびM3と示されている。音声信号到来方向はそれぞれ、方位角および仰角のθとφでの特徴づけができる。第1の段階における目標はθとφの推定である。これは、図2の多少複雑な構成を実際よく類似している図3(A)と図3(B)という2つのより簡単な構成に変換して行う。
【0028】
さて、φx、θz、θおよびφの関係について計算を行う。図2、図3(A)および図3(B)の比較をすれば、簡単に次のとおりである。
【0029】
【数1】
【0030】
さらに、
【0031】
【数2】
【0032】
となり、これから
【0033】
【数3】
【0034】
φxおよびθzの推定アルゴリズムはよく類似している。したがって、ここでは最初のものだけを説明する。
【0035】
マイクロホン要素であるM1とM2に到着する信号はそれぞれx1(t)およびx2(t)で示され、τφは音声信号到来方向に沿った2個のマイクロホン要素での信号間の移動遅延を示し、次のように現すことができる。
【0036】
【数4】
【0037】
周波数領域では、X(f)とX(f)exp(−j2πfτφ)となり、その時の位相差はψ(f)=2πfτφを伴う。これは位相と周波数とが線形的関係であることを示し、1または複数の周波数で位相情報が得られれば、遅延τφとその結果の角度φxが得られる。同様の手順がθzに適用できる。φxとθzが分かれば、角度φとθは数式(1)と(3)から計算される。
【0038】
図4は、図1の信号処理部10に相当する到来信号を発見するシステムの概略図を示す。φおよびθの正確な値を推定するために、2つの周波数flとfh間で検出された位相の出力に対して平均化処理を行なう。
【0039】
図1で使用された定数は、kx=c/(π(fl+fh)dx)およびky=c/(π(fl+f)dz)
であり、関数は
f(φ、θz)=tan−1(1/tanθz・sinφ)
である。
【0040】
音声信号の数値例として選択されたのがfl=1.5KHz、fh=3.5KHz、即ち、中心周波数の(fl+fh)/2=2.5KHzである。平均位相差はこの中心周波数に属する。図1に示された係数を乗じ、逆正弦関数を適用すれば、φxとθzが計算される。
【0041】
最後の段階では、方位角および仰角のφとθをそれぞれ得るために、数式(1)および(3)を使用する。
【0042】
数値例としては、時間領域にある入力信号を考慮することで算出がされる。
【0043】
【数5】
【0044】
ここで、
【0045】
【数6】
【0046】
上記は共通のマイクロホン要素M1におけるもので、n1(t)は分散σn 2のランダム雑音である。純粋な信号x(t)の平均電力は7.327dBであり、σn 2は、例えば−2.673dB、すなわち信号対雑音比(SNR)が10dBと仮定される。マイクロホン要素M2およびM3における信号は次のように書くことができる。
【0047】
【数7】
【0048】
【数8】
【0049】
ここで、τφは数式(4)で定義されている。τθ=dy/csinθzであり、n2(t)およびn3(t)は同じ分散σn 2を有する独立したランダム雑音信号である。
【0050】
図5は、各マイクロホン要素で受信された信号の周波数応答の振幅を示す。ここで、c=340m/s、φx=−60°およびθz=−36°に対応するφ=30°およびθ=110°、サンプル周波数fs=10000Hz、dx=dz=c/fsが仮定されている。雑音電力が低下するに従い、図5の曲線は単一形状に集約する。信号x2−x1およびx3−x1の位相差を図6に示す。雑音が全くない場合には、これらの曲線は2本の線が原点を通過したものになる。このシミュレーションの結果、φおよびθの推定としてそれぞれ29.4°および109.8°が得られた。
【0051】
本発明を適用した他の実施形態における、5個の信号受信要素を用いた干渉抑制方法および装置について、以下に説明する。
【0052】
本実施形態によれば、到来音声信号のDOAを知ることで、カメラを音声発生源へ向けるようサーボ機構を動作させることができる。ここでは、2次元に配置された5個のマイクロホンを、干渉抑制および指向性ビーム形成(以下ではビーム形成と略称する)のために使用する。図6は、2次元ビーム形成処理のために提案した構造を示す。ここでは最低1つの干渉信号が(φi、θi)の方向から来ることを仮定している。上述したように問題をより単純な2本の曲線に分割し、周波数領域における干渉抑制の基本理論を説明するためにM1、M2およびM4の3つのマイクロホン要素だけを考慮した。さらに本実施形態では、干渉が明確な考慮対象になっている。したがって、上述した先の実施形態において考慮された雑音成分(ランダム雑音)の代わりに、本実施形態では1つの干渉信号として考慮されている。
【0053】
したがって、第1のマイクロホン要素M1が受信した信号は、再びx1(t)で表示され、次のように書くことができる。
【0054】
【数9】
【0055】
ここで、so1(t)およびsi1(t)はそれぞれ、目的の信号およびそれに干渉する信号である。マイクロホン要素M1に対してのM2およびM4にて受信した目的信号の時間遅延τo2およびτo4はそれぞれ、次のように表される。
【0056】
【数10】
【0057】
そして
【0058】
【数11】
【0059】
したがって、M2およびM4における目的信号の時間関数は次のように書くことができる。
【0060】
【数12】
【0061】
【数13】
【0062】
同様な数式がM2およびM4における干渉にも適用される。
【0063】
【数14】
【0064】
【数15】
【0065】
ここで、φxは干渉信号のAOA(到来角度)であり、τi2およびτi4はマイクロホン要素M1に対するM2およびM4における干渉遅延である。したがって、M2およびM4における信号は次のように表すことができる。
【0066】
【数16】
【0067】
【数17】
【0068】
数式(9)、(16)および(17)のフーリエ変換を考え、そして、また、数式(12)〜(15)を代入すれば、結果として次の数式が得られる。
【0069】
【数18】
【0070】
【数19】
【0071】
【数20】
【0072】
ここで、So1(f)、So2(f)、So4(f)、Si1(f)、Si2(f)、Si4(f)はそれぞれ、so1(t)、so2(t)、so4(t)、si1(t)、si2(t)、si4(t)のフーリエ変換である。複雑な位相関数であるφx(f)およびφxi(f)はそれぞれ、次の数式で示される。
【0073】
【数21】
【0074】
【数22】
【0075】
上記三つの数式(8)、(19)および(20)が含まれている場合には、数式を解くことによって求めなければならない複素数の未知数が3つある。これらの未知数はSo1(f)、Si1(f)およびφx(f)である。目的とする方向φxすなわちφx(f)は、ビーム形成の主要パラメータであり、既知の値および関数である。結果として以下が得られる。
【0076】
【数23】
【0077】
数式(23)からSo1(f)を計算すれば、逆フーリエ変換のSo1(f)はSo1(t)を与え、即ち、目的とする信号は干渉Si1(t)から分離される。到来信号の周波数領域における特徴に関する何らかの知識があれば、数式(23)のSo1(f)を得るのに必要な計算量を減少させることができる。一般に、帯域幅には制限がないため、本実施形態による方法によればブロードバンドでの干渉抑制が実現できる。
【0078】
本実施形態による干渉キャンセラを実現する一構成例を図9に示す。各センサ(マイクロフォン)M1〜M5の出力において、アナログ−ディジタル変換部(ADC)920−1〜920−5は対応する受信信号をそれぞれサンプルし、入力バッファ940−1〜940−5へ送る。各センサ(マイクロフォン)M1〜M5においてT秒間の期間中でKサンプルが取得されると仮定して、K点のFFT(ファースト・フーリエ変換)がこれらの時間サンプルに適用される。FFTブロック960−1〜960−5の入力および出力は、それぞれxikおよびXikで示され、ここでi=1、2、3、4、5そしてk=1、2、...、Kである。主な計算として、数式(23)が各K個の周波数成分について計算されるBkx、Bkz、k=1、2、...、Kで示されるブロックで行われる。例えば、上述の図4で説明されるプロセスで計算された目的信号の角度φxとθzは、次の数式によりそれぞれ、目的信号の位相φxkおよびφzk(図示なし)へ変換される。
【0079】
【数24】
【0080】
【数25】
【0081】
サンプルの周波数は、以下に等しい。
【0082】
【数26】
【0083】
ここで入力信号が実数値の場合、計算量を1/2に減らすために、FFT出力の対称性を使用できることはいうまでもない。k=1、2、...Kを表わすBkxとBkzで図9に示されるブロックの出力は、次のとおりとなる。
【0084】
【数27】
【0085】
【数28】
【0086】
本発明の好適な実施形態の具体例を以下に説明する。
(第1の例)
図10は、自動追跡および指向性音声受信に関して提案した方法が適用可能なアプリケーションを示している。本例では、パーソナルコンピュータに搭載された撮像装置(例えば、ディジタルカメラ)のための指向性音声受信機能が備わっている。本図で示すように、本例の撮像装置には、方位角および仰角で撮像装置を駆動するサーボ機構に搭載されている。5個のマイクロホンが、ディスプレイの枠上に等間隔で取り付けられている。ここで指摘することは、等距離での取り付けは単純化の目的からである。本実施形態のアルゴリズムの第1段階での処理は、1秒毎に繰り返す周波数で行えるが、この場合、この時間期間中に大きな動きが発生しないとの仮定がある。実際、本実施形態の第2段階中に起動される機械的システムや、撮像装置が突然移動することで生じる利便性の悪い感じが生じるという制約がある。音声のエンハンスメントは、5個のマイクロホンがすべて含まれる第3段階での機能である。
(第2の例)
図7は、本発明の実施形態における第2の例としてのビデオ会議装置のブロック図である。
【0087】
本ビデオ会議装置は、マイクロホンM1−M5、DOA計算部10、干渉キャンセラ90、カメラ710、アクチュエータ30およびアクチュエータ制御部20を備えている。DOA計算部10は、マイクロホンからの出力を受信し、上述した最初の実施形態(3個のマイクロホン)を利用して音声信号の到来方向であるφおよびθを計算し、出力する。干渉キャンセラ90は、上述した他の実施形態(5個のマイクロホン)を利用して干渉抑制を行うため、マイクロホンM1−M5からの出力およびDOA計算部10からのφおよびθを受信する。アクチュエータ30が、マイクロホンM1−M5で捕らえた音声信号の発生源へ向けてカメラ710を向けるように、アクチュエータ制御部20は、DOA計算部10からのφおよびθを受信し、アクチュエータ30へ制御信号を出力する。
【0088】
本ビデオ会議装置は、さらに、ディスプレイ720、スピーカ730、MPEG処理部700、バス790、およびインターネット794にインタフェースするネットワーク・インタフェース792をさらに備えている。MPEG処理部700は、干渉の抑制をする干渉キャンセラ90から出力された音声信号を受信し、符号化するMPEG音声符号部701、カメラ710からのビデオ信号を受け付け符号化するMPEGビデオ符号部702、符号化された音声およびビデオ信号を多重化するMPEG多重変換部703、MPEG多重変換部703から出力された多重データよりなるパケットを組立てるパケット・アセンブラ704、そしてバス790とのインタフェースを行うバス・インタフェース709を含む。
【0089】
MPEG処理部700は、バス・インタフェース709を経て、外部から送られたパケットを分解するパケット逆アセンブラ708、受取ったパケットが運ぶデータを多重分離するMPEGデマルチプレクサ707、ディスプレイ720へ復号したアナログ・データを出力するMPEGビデオ複合部705、および復号した音声データをスピーカ730に出力するMPEG音声複合部706をさらに含む。
【0090】
本ビデオ会議装置は、マウス740、キーボード750、入出力インタフェース760、メモリー770およびビデオ会議機能を実現するためのプログラムを実行するCPU780をさらに含む。
【0091】
上記図7のビデオ会議装置によれば、スピーカ(話者)の適切な撮像および明瞭な干渉の少ない音声信号で、ビデオ会議の実施が可能である。
【0092】
以上、本発明をある程度の独自性を加味して好適な実施形態により説明したが、本発明においては他の修正、変形、組合せ、準組合せなどが可能である。したがって、本発明の範囲から逸脱せずに、上述した特定の説明とは異なった方法で変更が実施できることは云うまでもないことである。
【0093】
したがって、例えば、上記図1に示す好適な実施形態では、角度φおよびθの入力をアクチュエータ20に与える本発明の指向性音声受信システムまたは方法を説明した。しかし、これに類似した機能を実行する代替システムや方法あるいは装置や手段において、アクチュエータ制御部20およびアクチュエータ30を省略して簡素化してもよい。
【0094】
また、上述した本実施形態の第2例では、DOA推定ブロック(信号処理部10)と干渉抑制ブロック90とを、上記図7の構成内で分離された装置として示したが、両機能ブロックを同一ブロックまたはカプセル化もしくはパッケージのような物理的な構造で一体化してもよい。
【0095】
実際の利用例として、例えばノート型パソコン等のパーソナルコンピュータに、本発明による自動音声モニタリング技術を採用することが可能である。さらに、音声の到来方向の推定を、アクチェータ制御部へ、そして最終的にはアクチュエータへ入力し、例えば本発明におけるカメラ等の撮像装置のようにアクチュエータに接続された装置の位置変更も可能である。
【0096】
【発明の効果】
上述した本発明の好適な実施形態によれば、音源の自動追跡を行う音声処理に基づく簡単な方法が提案される。DOAの推定には3個の受信要素を使用し、5個の要素が音声発生源への方向からの音を強調する。この方法では、3次元周波数領域での信号処理に必要とされるマイクロホンの個数を最小限とした。
【図面の簡単な説明】
【図1】本発明の好適な実施形態による音声信号の到来方向(DOA)を検出するシステムまたは装置1を示す概略図である。
【図2】本発明の好適な実施形態による、音声信号の到来方向(DOA)に関係して3個のマイクロホンM1、M2およびM3の幾何学的構成を有する3次元構成を示す図である。
【図3】図3(A):本発明の好適な実施形態による3個のマイクロホンM1、M2およびM3の幾何学的構成に関係して、音声信号の到来方向(DOA)を分解した2個のより簡単な2次元構成を示す。
図3(B):本発明の好適な実施形態による3個のマイクロホンM1、M2およびM3の幾何学的構成に関係して、音声信号の到来方向(DOA)を分解した2個のより簡単な2次元構成を示す。
【図4】本発明の好適な実施形態による図1の信号処理部10に相当する到来信号の位置を見つけるシステムの概略図である。
【図5】本発明の好適な実施形態によるc=340m/sの入力信号の周波数応答の振幅、fs=10000Hz、dx=dz=c/fsおよびθ=110°でのサンプリング周波数を示す。
【図6】本発明の好適な実施形態による3個のマイクロホンM1、M2およびM3により受信した信号間の位相差を示す。
【図7】本発明の好適な実施形態の第2の例としてビデオ会議装置のブロック図を示す。
【図8】本発明の好適な実施形態による2次元ビーム形成用に提案された構造を示す図である。
【図9】本発明の好適な実施形態による干渉キャンセラを実現した場合の構成を示す図である。
【図10】本発明の好適な実施形態による自動追跡および指向性音声受信の提案方法が適用可能なアプリケーションを示す図である。
【符号の説明】
1…システムまたは装置、10…信号処理部、20…アクチュエータ制御部、30…アクチュエータ、90…干渉キャンセラ、202−1、202−2、202−3…アナログ・デジタル変換部、204−1、204−2…入力緩衝部、206−1、206−2、206−3…FFT変換部、701、702…MPEG音声符号部、703…MPEGマルチプレクサ、704…パケット・アセンブラ、705…MPEGビデオ複合部、706…MPEG音声複合部、707…MPEGデマルチプレクサ、708…パケット・逆アセンブラ、709…バス・インタフェース、710…カメラ、720…表示装置、730…スピーカ、740……マウス、750…キーボード、760…入出力インタフェース、M1、M2、M3、M4、M5……マイクロホン。
Claims (5)
- 主たる音源の方向とは異なる方向からの干渉を抑制し、該主たる音源からの音声信号を検出する音声受信部を備えた装置において、
前記音声受信部は、複数のオーディオセンサと、前記主たる音源への方向を検出する方向検出部と、前記検出された主たる音源への方向を用いて前記干渉の抑制を行い、より干渉が少ない音声信号を検出して出力する信号処理部とを備え、
前記複数のオーディオセンサは、前記主たる音源からの目標成分と、該目標成分に重畳された前記主たる音源とは異なる方向から到来する干渉成分とを含む音声信号を検出し、
前記方向検出部は、前記複数のオーディオセンサよりも数が少ないオーディオセンサからの出力を用いて、前記目標成分の音声信号が到来する方向を検出し、
前記信号処理部は、前記複数のオーディオセンサからの出力と前記検出された方向とを用いて、前記目標成分だけを含む音声信号を出力することを特徴とする装置。 - 予め定めた方向への指向性を有するユニットと、
前記ユニットを移動可能に支持する機構と、
前記機構の動作を制御する制御部とをさらに具備し、
前記制御部は、前記方向検出部で検出された前記主たる音源への方向を用いて前記機構の動作を制御することを特徴とする請求項1記載の装置。 - 表示部をさらに備え、
前記複数のオーディオセンサの少なくとも1つは前記表示部に配置され、
前記指向性を有するユニットは撮像手段を含むことを特徴とした請求項2記載の装置。 - 前記信号処理部は、前記オーディオセンサで検出された時系列の音声信号を周波数領域に変換することを特徴とする請求項1記載の装置。
- 前記方向検出部では2個以上のオーディオセンサが用い、
前記信号処理部では3以上のオーディオセンサを用いることを特徴とする請求項1記載の装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002287465A JP2004128707A (ja) | 2002-08-02 | 2002-09-30 | 指向性を備えた音声受信装置およびその方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002226342 | 2002-08-02 | ||
JP2002287465A JP2004128707A (ja) | 2002-08-02 | 2002-09-30 | 指向性を備えた音声受信装置およびその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004128707A true JP2004128707A (ja) | 2004-04-22 |
Family
ID=32300793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002287465A Pending JP2004128707A (ja) | 2002-08-02 | 2002-09-30 | 指向性を備えた音声受信装置およびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004128707A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013240082A (ja) * | 2008-10-24 | 2013-11-28 | Qualcomm Inc | コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体 |
JP2015161659A (ja) * | 2014-02-28 | 2015-09-07 | 株式会社熊谷組 | 音源方向推定装置、及び、音源推定用画像の表示装置 |
JP2017005356A (ja) * | 2015-06-05 | 2017-01-05 | リウ チン フォンChing−Feng LIU | オーディオ信号を処理する方法及び補聴器システム |
CN107172538A (zh) * | 2012-11-12 | 2017-09-15 | 雅马哈株式会社 | 信号处理系统和信号处理方法 |
-
2002
- 2002-09-30 JP JP2002287465A patent/JP2004128707A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013240082A (ja) * | 2008-10-24 | 2013-11-28 | Qualcomm Inc | コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体 |
CN107172538A (zh) * | 2012-11-12 | 2017-09-15 | 雅马哈株式会社 | 信号处理系统和信号处理方法 |
JP2015161659A (ja) * | 2014-02-28 | 2015-09-07 | 株式会社熊谷組 | 音源方向推定装置、及び、音源推定用画像の表示装置 |
JP2017005356A (ja) * | 2015-06-05 | 2017-01-05 | リウ チン フォンChing−Feng LIU | オーディオ信号を処理する方法及び補聴器システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10123113B2 (en) | Selective audio source enhancement | |
US9706298B2 (en) | Method and apparatus for localization of an acoustic source and acoustic beamforming | |
JP4799443B2 (ja) | 受音装置及びその方法 | |
JP4163294B2 (ja) | 雑音抑圧処理装置および雑音抑圧処理方法 | |
US8711219B2 (en) | Signal processor and signal processing method | |
KR100499124B1 (ko) | 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법 | |
US6668062B1 (en) | FFT-based technique for adaptive directionality of dual microphones | |
JP5878549B2 (ja) | 幾何ベースの空間オーディオ符号化のための装置および方法 | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
JP2021110938A (ja) | 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出 | |
JP4986248B2 (ja) | 音源分離装置、方法及びプログラム | |
WO2015039439A1 (zh) | 音频信号处理方法及装置、差分波束形成方法及装置 | |
JP6591477B2 (ja) | 信号処理システム、信号処理方法及び信号処理プログラム | |
JP2005250397A (ja) | ロボット | |
TW202147862A (zh) | 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 | |
JP2010124370A (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
JP2007006253A (ja) | 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム | |
Yu et al. | An improved TDOA-based location estimation algorithm for large aperture microphone arrays | |
JP2004128707A (ja) | 指向性を備えた音声受信装置およびその方法 | |
JP2016163135A (ja) | 収音装置、プログラム及び方法 | |
JP5635024B2 (ja) | 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム | |
JP3862685B2 (ja) | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム | |
JP2008089312A (ja) | 信号到来方向推定装置及び方法、並びに信号分離装置及び方法、コンピュータプログラム | |
JP2004279845A (ja) | 信号分離方法およびその装置 | |
EP3757598A1 (en) | In device interference mitigation using sensor fusion |