JP4247195B2

JP4247195B2 - 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体

Info

Publication number: JP4247195B2
Application number: JP2005084443A
Authority: JP
Inventors: 薫鈴木; 敏之古賀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-03-23
Filing date: 2005-03-23
Publication date: 2009-04-02
Anticipated expiration: 2025-03-23
Also published as: US20060215854A1; JP2006267444A; CN1837846A; US7711127B2

Description

本発明は音響信号処理に関し、特に、媒質中を伝播してきた音波の発信源の数、各発信源の方向、各発信源から到来した音波の周波数成分などの推定に関する。

近年、ロボット用の聴覚研究の分野で、雑音環境下で複数の目的音源音の数とその方向を推定し（音源定位）、各音源音を分離抽出する（音源分離）方式が提案されている。例えば、下記非特許文献１には、背景雑音のある環境でＮ個の音源音をＭ個のマイクロホンで観測し、各マイクロホン出力を短時間フーリエ変換（ＦＦＴ）処理したデータから空間相関行列を生成し、これを固有値分解して値の大きい主要な固有値を求めることで、この主要な固有値の数として音源の数Ｎを推定する方法が記載されている。これは、音源音のように方向性のある信号は主要な固有値にマッピングされ、方向性のない背景雑音は全ての固有値にマッピングされる性質を利用したものである。

すなわち、主要な固有値に対応する固有ベクトルは音源からの信号が張る信号部分空間の基底ベクトルとなり、残りの固有値に対応する固有ベクトルは背景雑音信号が張る雑音部分空間の基底ベクトルとなる。この雑音部分空間の基底ベクトルを利用してＭＵＳＩＣ法を適用することで、各音源の位置ベクトルを探索することができ、探索の結果得られた方向に指向性を与えられたビームフォーマで当該音源からの音声を抽出することができる。

しかしながら、音源数Ｎがマイクロホン数Ｍと同数であるときは、雑音部分空間を定義できず、また、音源数ＮがＭを越えるときは検出できない音源が存在することになる。したがって、推定可能な音源の数はマイクロホン数Ｍ以上となることはない。この方法は、音源について特に大きな制約はなく、数学的にもきれいな方法であるが、多数の音源を扱うためには、それを超える数のマイクロホンが必要になるという制限がある。

また、下記非特許文献２には、一対のマイクロホンを用いて音源定位と音源分離を行う方法について記載されている。この方法は、人間の声のように管（調音器官）を通して発生される音声に特有の調波構造（基本波とその高調波とからなる周波数構造）に着目し、マイクロホンで捉えた音声信号をフーリエ変換したデータから基本波の周波数の異なる調波構造を検出することで、検出された調波構造の数を発話者の数とし、調波構造毎の両耳間位相差（ＩＰＤ）と両耳間強度差（ＩＩＤ）とを用いてその方向を確信度付きで推定し、調波構造それ自体によって各音源音を推定する。この方法は、フーリエ変換データから複数の調波構造を検出することで、マイクロホン数以上の音源を処理することができる。しかしながら、音源数と方向と音源音の推定の基礎を調波構造に立脚して行うため、扱うことのできる音源は人間の声のような調波構造を持つものに限定され、さまざまな音に対応できるものではない。
浅野太、"音を分ける"、計測と制御、第４３巻、第４号、ｐｐ．３２５−３３０、２００４年４月号中臺一博ほか、"視聴覚情報の階層的統合による実時間アクティブ人物追跡"、人工知能学会ＡＩチャレンジ研究会、ＳＩＧ−Ｃｈａｌｌｅｎｇｅ−０１１３−５、ｐｐ．３５−４２、Ｊｕｎｅ２００１

以上で述べたように、（１）音源に制約を設けない場合は、音源数はマイクロホン数以上にはできない、（２）音源数をマイクロホン数以上にする場合、音源に例えば調波構造を仮定するなどの制約がある、という二律背反の問題あり、音源を制約せずにマイクロホン数以上の音源を扱うことのできる方式は確立されていない。

本発明は上記の問題点に鑑みてなされたものであり、音源への制約をより緩和し、かつ、マイクロホン数以上の音源を扱うことのできる音源定位と音源分離のための音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。

本発明の一観点に係る音響信号処理装置は、異なるｎ（ｎは３以上の数）地点で捉えられた、音源からの音声を含むｎ個の音響信号を入力する音響信号入力手段と、前記音響信号の各々を複数の周波数成分に分解し、周波数成分毎の位相情報を含むｎ個の周波数分解情報を得る周波数分解手段と、前記ｎ個の周波数分解情報の互いに異なるｍ（ｍは２以上の数）個の対について各対間の前記周波数成分毎の位相差を算出し、周波数の関数を第１の軸、前記位相差の関数を第２の軸とするｍ個の２次元データを生成する２次元データ化手段と、前記２次元データのそれぞれから予め定めた図形を検出する図形検出手段と、検出された各図形に基づいて複数の音源候補の数、各音源候補の空間的な存在範囲、及び各音源候補からの音響信号の周波数成分の少なくとも一つを含む音源候補情報を生成すると共に、該音源候補情報間の対応関係を示す対応情報を生成する音源候補情報生成手段と、前記音源候補情報生成手段により生成された音源候補情報及び対応情報に基づいて、前記音源の数、前記音源の空間的な存在範囲、前記音声の存在期間、前記音声の周波数成分構成、前記音声の振幅情報及び前記音声の記号的内容の少なくとも一つを含む音源情報を生成する音源情報生成手段とを具備する。

本発明によれば、音源への制約をより緩和し、かつ、マイクロホン数以上の音源を扱うことのできる音源定位と音源分離のための音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体を提供できる。

以下、図面を参照しながら本発明の実施形態を説明する。

図１に示されるように、本発明の一実施形態に係る音響信号処理装置は、ｎ個（ｎは３以上の数）のマイクロホン（以下、マイクという）１ａ〜１ｃと、音響信号入力部２と、周波数分解部３と、２次元データ化部４と、図形検出部５と、図形照合部６と、音源情報生成部７と、出力部８と、ユーザインタフェース部９とから成る。

［周波数成分毎の位相差に基づく音源推定の基本概念］
マイク１ａ〜１ｃは、空気などの媒質中に所定の距離をあけて配置され、異なるｎ地点での媒質振動（音波）をそれぞれ電気信号（音響信号）に変換する。マイク１ａ〜１ｃは異なる２つの組み合わせによるｍ（ｍは２以上の数）個の対（マイクロホン対）を成す。

音響信号入力部２は、マイク１ａ〜１ｃによるｎチャンネルの音響信号を所定のサンプリング周期Ｆｒで定期的にＡ／Ｄ変換することで、ｎチャンネルのデジタル化された振幅データを時系列的に生成する。

音源がマイクロホン間距離に比べて十分遠いと仮定するなら、図２（ａ）に示すように、音源１００を発してマイクロホン対に到達する音波の波面１０１はほぼ平面となっている。例えばマイク１ａとマイク１ｂを用いて異なる２地点でこの平面波を観測すると、両マイクロホンを結ぶ線分１０２（これをベースラインと呼ぶ）に対する音源１００の方向Ｒに応じて、両マイクロホンで変換される音響信号に所定の到達時間差ΔＴが観測されるはずである。なお、音源が十分遠いとき、この到達時間差ΔＴが０になるのは、音源１００がベースライン１０２に垂直な平面上に存在するときであり、この方向をマイクロホン対の正面方向と定義する。

参考文献１「鈴木薫ほか、“視聴覚連携によるホームロボットの「呼べば来る」機能の実現”、第４回計測自動制御学会システムインテグレーション部門講演会（ＳＩ２００３）講演論文集、２Ｆ４−５、２００３」に、一方の振幅データのどの部分が他方の振幅データのどの部分と類似しているかをパタン照合によって探索することで、２つの音響信号（図２（ｂ）の１０３と１０４）の間の到達時間差ΔＴを導き出す方法が開示されている。しかしながら、この方法は強い音源が一つしか存在しない場合には有効であるが、強い背景雑音や複数の音源が存在する場合、複数方向からの強い音の混在した波形上に類似部分が明瞭に現れず、パタン照合に失敗することがある。

そこで、本実施形態では入力された振幅データを周波数成分毎の位相差に分解して解析する。このようにすることで、複数の音源が存在しても、各音源に特有の周波数成分については、２つのデータ間でその音源方向に応じた位相差が観測されるため、もし音源についての強い制約を仮定することなく周波数成分毎の位相差を同じ音源方向のグループに分けることができれば、より幅広い種類の音源について、幾つの音源が存在し、その各々がどちらの方向にあり、それぞれが主にどのような特徴的な周波数成分の音波を発しているかを把握できるはずである。この理屈自体は非常に単純明快であるが、実際のデータを分析する際には幾つかの克服すべき課題が存在している。その課題とともに、このグループ分けを行なうための機能ブロック（周波数分解部３、２次元データ化部４、図形検出部５）について引き続き説明する。

［周波数分解部３］
さて、振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換（ＦＦＴ）がある。代表的なアルゴリズムとしては、Ｃｏｏｌｅｙ−ＴｕｒｋｅｙＤＦＴアルゴリズムなどが知られている。

周波数分解部３は、図３に示すように、音響信号入力部２による振幅データ１１０について、連続するＮ個の振幅データをフレーム（Ｔ番目のフレーム１１１）として抜き出して高速フーリエ変換を行うとともに、この抜き出し位置をフレームシフト量１１３ずつずらしながら繰り返す（Ｔ＋１番目のフレーム１１２）。

フレームを構成する振幅データは、図４（ａ）に示すように窓掛け（図中１２０）を施された後、高速フーリエ変換（図中１２１）される。この結果、入力されたフレームの短時間フーリエ変換データが実部バッファＲ［Ｎ］と虚部バッファＩ［Ｎ］（図中１２２）に生成される。なお、窓掛け関数（Ｈａｍｍｉｎｇ窓掛けあるいはＨａｎｎｉｎｇ窓掛け）１２４を図４（ｂ）に示す。

ここで生成される短時間フーリエ変換データは、当該フレームの振幅データをＮ／２個の周波数成分に分解したデータとなり、ｋ番目の周波数成分ｆｋについてバッファ１２２内の実部Ｒ［ｋ］と虚部Ｉ［ｋ］の数値が、図４（ｃ）に示すように複素座標系１２３上の点Ｐｋを表すようになっている。このＰｋの原点Ｏからの距離の２乗が当該周波数成分のパワーＰｏ（ｆｋ）であり、Ｐｋの実部軸からの符号付き回転角度θ｛θ：−π＞θ≧π［ラジアン］｝が当該周波数成分の位相Ｐｈ（ｆｋ）となる。

サンプリング周波数がＦｒ［Ｈｚ］、フレーム長がＮ［サンプル］のとき、ｋは０から（Ｎ／２）−１までの整数値をとり、ｋ＝０が０［Ｈｚ］（直流）、ｋ＝（Ｎ／２）−１がＦｒ／２［Ｈｚ］（最も高い周波数成分）を表し、その間を周波数分解能Δｆ＝（Ｆｒ／２）÷（（Ｎ／２）−１）［Ｈｚ］で等分したものが各ｋにおける周波数となり、ｆｋ＝ｋ・Δｆで表される。

なお、前述したように、周波数分解部３はこの処理を所定の間隔（フレームシフト量Ｆｓ）を空けて連続的に行うことで、入力振幅データの周波数毎のパワー値と位相値とから成る周波数分解データを時系列的に生成する。

［２次元データ化部４と図形検出部５］
図５に示すように、２次元データ化部４は位相差算出部３０１と座標値決定部３０２とを具備し、図形検出部５は投票部３０３と直線検出部３０４とを具備する。

［位相差算出部３０１］
位相差算出部３０１は、周波数分解部３により得られた同時期の２つの周波数分解データａとｂとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たａｂ間位相差データを生成する。図６に示すように、ある周波数成分ｆｋの位相差ΔＰｈ（ｆｋ）は、マイク１ａにおける位相値Ｐｈ１（ｆｋ）とマイク１ｂにおける位相値Ｐｈ２（ｆｋ）の差を計算し、その値が｛ΔＰｈ（ｆｋ）：−π＜ΔＰｈ（ｆｋ）≦π｝に収まるように２πの剰余系として算定する。

［座標値決定部３０２］
座標値決定部３０２は、位相差算出部３０１により得られた位相差データを元に、各周波数成分に両者の位相値の差を計算して得た位相差データを所定の２次元のＸＹ座標系上の点として扱うための座標値を決定する。ある周波数成分ｆｋの位相差ΔＰｈ（ｆｋ）に対応するＸ座標値ｘ（ｆｋ）とＹ座標値ｙ（ｆｋ）は、図７に示す式によって決定される。Ｘ座標値は位相差ΔＰｈ（ｆｋ）、Ｙ座標値は周波数成分番号ｋである。

［同一時間差に対する位相差の周波数比例性］
位相差算出部３０１によって、図６に示したように算出される周波数成分毎の位相差は、同一音源（同一方向）に由来するものどうしが同じ到達時間差を表しているはずである。このとき、ＦＦＴによって得られたある周波数の位相値及び両マイクロホン間の位相差はその周波数の周期を２πとして算出された値なので、同じ時間差であっても周波数が２倍になれば位相差も２倍となる比例関係にある。これを示すと図８のようになる。図８（ａ）に例示するように、同一時間Ｔに対して、周波数ｆｋ［Ｈｚ］の波１３０は１／２周期、すなわちπだけの位相区間を含むが、２倍の周波数２ｆｋ［Ｈｚ］の波１３１では１周期、すなわち２πの位相区間を含む。位相差についても同様であり、同一時間差ΔＴに対する位相差は周波数に比例して大きくなる。このような位相差と周波数との間の比例関係を図８（ｂ）に示す。同一音源から発せられてΔＴを共通にする各周波数成分の位相差を図７に示した座標値計算により２次元座標系上にプロットすると、各周波数成分の位相差を表す座標点１３２が直線１３３の上に並ぶことを示している。ΔＴが大きいほど、すなわち音源までの距離が両マイク間で異なるほど、この直線の傾きは大きくなる。

［位相差の循環性］
但し、両マイクロホン間の位相差が図８（ｂ）に示したように全域で周波数に比例するのは、解析対象となる最低周波数から最高周波数まで通して真の位相差が±πを逸脱しない場合に限られる。この条件はΔＴが、最高周波数（サンプリング周波数の半分）Ｆｒ／２［Ｈｚ］の１／２周期分の時間、すなわち１／Ｆｒ［秒］以上とならないことである。もし、ΔＴが１／Ｆｒ以上となる場合には、次に述べるように位相差が循環性を持つ値としてしか得られないことを考慮しなければならない。

手に入れることのできる周波数成分毎の位相値は図４に示した回転角度θの値として２πの幅（本実施例では‐πからπの間の２πの幅）でしか得ることができない。これはその周波数成分における実際の位相差が両マイクロホン間で１周期以上開いていても、周波数分解結果として得られる位相値からそれを知ることができないことを意味する。そのため、本実施例では位相差を図６に示したように‐πからπの間で得るようにしている。しかし、ΔＴに起因する真の位相差は、ここで求められた位相差の値に２πを加えたり差し引いたり、あるいはさらに４πや６πを加えたり差し引いたりした値である可能性がある。これを模式的に示すと図９のようになる。この図９において、周波数ｆｋの位相差ΔＰｈ（ｆｋ）が黒丸１４０で表すように＋πであるとき、一つ高い周波数ｆｋ＋１の位相差は白丸１４１で表すように＋πを超えている。しかしながら、計算された位相差ΔＰｈ（ｆｋ＋１）は、本来の位相差から２πを差し引いた、黒丸１４２で表すように−πよりやや大きい値となる。さらに、図示はしていないが、その３倍の周波数でも同様の値を示すことになるが、これは実際の位相差から４πを差し引いた値である。このように位相差は周波数が高くなるにつれて２πの剰余系として−πからπの間で循環する。この例ように、ΔＴが大きくなると、ある周波数ｆｋ＋１から上では、白丸で表した真の位相差が黒丸で示したように反対側に循環してしまう。

［複数音源存在時の位相差］
一方、複数の音源から音波が発せられている場合、周波数と位相差のプロット図は図１０に模式的に示すような様相となる。この図は２つの音源がマイクロホン対に対して異なる方向に存在している場合を示したものであり、図１０（ａ）は２つの音源音が互いに同じ周波数成分を含んでいない場合、図１０（ｂ）は一部の周波数成分が双方に含まれている場合である。図１０（ａ）では、各周波数成分の位相差はΔＴを共通にする直線のいずれかに乗っており、傾きの小さい直線１５０では５点、傾きの大きい直線１５１（循環した直線１５２を含む）では６点が直線上に配置されている。図１０（ｂ）では、双方に含まれる２つの周波数成分１５３と１５４では波が混ざって位相差が正しく出ないため、いずれの直線にも乗らず、特に傾きの小さい直線１５５では３点しか直線上に乗っていない。

音源の数と方向を推定する問題は、このようなプロット図上で、図示したような直線を発見することに帰着できる。また、音源毎の周波数成分を推定する問題は、検出された直線に近い位置に配置された周波数成分を選別することに帰着できる。そこで、本実施例装置における２次元データ化部４の出力する２次元データは、周波数分解部３による周波数分解データの２つを使って周波数と位相差の関数として決定される点群、もしくはそれら点群を２次元座標系上に配置（プロット）した画像とする。なお、この２次元データは時間軸を含まない２軸によって定義され、故に、２次元データの時系列としての３次元データが定義できる。図形検出部５はこの２次元データ（もしくはその時系列たる３次元データ）として与えられる点群配置から直線状の配置を図形として検出するものとする。

［投票部３０３］
投票部３０３は、座標値決定部３０２によって（ｘ，ｙ）座標を与えられた各周波数成分に対して、後述するように直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する。ハフ変換については、参考文献２「岡崎彰夫、“はじめての画像処理”、工業調査会、２０００年１０月２０日発行」の１００〜１０２ページに解説されているが、ここでもう一度説明する。

［直線ハフ変換］
図１１に模式的に示すように、２次元座標上の点ｐ（ｘ，ｙ）を通り得る直線は図中の１６０、１６１、１６２に例示するごとく無数に存在するが、原点Ｏから各直線に下ろした垂線１６３のＸ軸からの傾きをθ、この垂線１６３の長さをρとして表現すると、一つの直線についてθとρは一意に決まり、ある点（ｘ，ｙ）を通る直線の取り得るθとρの組は、θρ座標系上で（ｘ，ｙ）の値に固有の軌跡１６４（ρ＝ｘｃｏｓθ＋ｙｓｉｎθ）を描くことが知られている。このような、（ｘ，ｙ）座標値からそこを通り得る直線の（θ，ρ）の軌跡への変換を直線ハフ変換と云う。なお、直線が左に傾いているときθは正値、垂直のとき０、右に傾いているとき負値であるとし、また、θの定義域は｛θ：‐π＜θ≦π｝を逸脱することはない。

ハフ曲線はＸＹ座標系上の各点について独立に求めることができるが、図１２に示すように、例えば３点ｐ１、ｐ２、ｐ３を共通に通る直線１７０は、ｐ１、ｐ２、ｐ３に対応した軌跡１７１、１７２、１７３が交差する点１７４の座標（θ０，ρ０）で定められる直線として求めることができる。多くの点を通る直線であればあるほど、その直線を表すθとρの位置を多くの軌跡が通過する。このように、ハフ変換は点群から直線を検出する用途に向いている。

［ハフ投票］
点群から直線を検出するため、ハフ投票という工学的な手法が使われる。これはθとρを座標軸とする２次元のハフ投票空間に各軌跡の通過するθとρの組を投票することで、ハフ投票空間の得票の大きい位置に多数の軌跡の通過するθとρの組、すなわち直線の存在を示唆させるようにする手法である。一般的には、まずθとρについての必要な探索範囲分の大きさを持つ２次元の配列（ハフ投票空間）を用意して０で初期化しておく。次いで、点毎の軌跡をハフ変換によって求め、この軌跡が通過する配列上の値を１だけ加算する。これをハフ投票と云う。全ての点についてその軌跡を投票し終えると、得票０の位置（軌跡が一つも通過しなかった）には直線が存在せず、得票１の位置（軌跡が一つだけ通過した）には一つの点を通る直線が、得票２の位置（軌跡が２つだけ通過した）には２つの点を通る直線が、得票ｎの位置（軌跡がｎ個だけ通過した）にはｎ個の点を通る直線がそれぞれ存在することがわかる。ハフ投票空間の分解能を無限大にできれば、上述した通り、軌跡の通過する点のみが、そこを通過する軌跡の数だけの得票を得ることになるが、実際のハフ投票空間はθとρについて適当な分解能で量子化されているため、複数の軌跡が交差する位置の周辺にも高い得票分布が生じる。そのため、ハフ投票空間の得票分布から極大値を持つ位置を探すことで、軌跡の交差する位置をより正確に求める必要がある。

投票部３０３は、次の条件を全て満たす周波数成分についてハフ投票を行う。この条件により、所定の周波数帯で所定閾値以上のパワーを持つ周波数成分のみが投票されることになる。

（投票条件１）：周波数が所定範囲にあるもの（低域カットと高域カット）
（投票条件２）：当該周波数成分ｆｋのパワーＰ（ｆｋ）が所定閾値以上のもの
投票条件１は、一般に暗騒音が乗っている低域をカットしたり、ＦＦＴの精度の落ちる高域をカットしたりする目的で使われる。この低域カットと高域カットの範囲は運用に合わせて調整可能である。最も広く周波数帯域を使う場合、低域カットは直流成分のみ、高域カットは最大周波数のみとする設定が適している。

暗騒音程度の非常に弱い周波数成分ではＦＦＴ結果の信頼性が高くないと考えられる。投票条件２は、このような信頼性の低い周波数成分をパワーで閾値処理することで投票に参加させないようにする目的で使われる。マイク１ａにおけるパワー値Ｐｏ１（ｆｋ）、マイク１ｂにおけるパワー値Ｐｏ２（ｆｋ）とすると、このとき評価されるパワーＰ（ｆｋ）の決め方には次の３つが考えられる。なお、いずれの条件を使用するかは運用に合わせて設定可能である。

（平均値）：Ｐｏ１（ｆｋ）とＰｏ２（ｆｋ）の平均値とする。両方のパワーがともに適度に強いことを必要とする条件である。

（最小値）：Ｐｏ１（ｆｋ）とＰｏ２（ｆｋ）の小さい方とする。両方のパワーが最低でも閾値以上あることを必要とする条件である。

（最大値）：Ｐｏ１（ｆｋ）とＰｏ２（ｆｋ）の大きい方とする。一方が閾値未満でも他方が十分強ければ投票するという条件である。

また、投票部３０３は、投票に際して次の２つの加算方式を行うことが可能である。

（加算方式１）：軌跡の通過位置に所定の固定値（例えば１）を加算する。

（加算方式２）：軌跡の通過位置に当該周波数成分ｆｋのパワーＰ（ｆｋ）の関数値を加算する。

加算方式１は、ハフ変換による直線検出問題で一般的によく用いられている方式であり、通過する点の多さに比例して得票に順位がつくため、多くの周波数成分を含む直線（すなわち音源）を優先的に検出するのに適している。このとき、直線に含まれる周波数成分について調波構造（含まれる周波数が等間隔であること）の制限がないので、人間の音声に限らずより幅広い種類の音源を検出することができる。

また、加算方式２は、通過する点が少なくても、パワーの大きい周波数成分を含んでいれば上位の極大値を得ることのできる方式であり、周波数成分が少なくてもパワーの大きい有力な成分を持つ直線（すなわち音源）を検出するのに適している。加算方式２におけるパワーＰ（ｆｋ）の関数値はＧ（Ｐ（ｆｋ））として計算される。図１３は、Ｐ（ｆｋ）をＰｏ１（ｆｋ）とＰｏ２（ｆｋ）の平均値とした場合のＧ（Ｐ（ｆｋ））の計算式を示したものである。この他にも上述した投票条件２と同様、Ｐｏ１（ｆｋ）とＰｏ２（ｆｋ）の最小値や最大値としてＰ（ｆｋ）を計算することも可能であり、投票条件２とは別に運用に合わせて設定可能である。中間パラメータＶの値はＰ（ｆｋ）の対数値ｌｏｇ_１０（Ｐ（ｆｋ））に所定のオフセットαを足した値として計算される。そしてＶが正であるときはＶ＋１の値を、Ｖがゼロ以下であるときには１を、関数Ｇ（Ｐ（ｆｋ））の値とする。このように最低でも１を投票することで、パワーの大きい周波数成分を含む直線（音源）が上位に浮上するだけでなく、多数の周波数成分を含む直線（音源）も上位に浮上するという加算方式１の多数決的な性質を併せ持たせることができる。投票部３０３は、設定によって加算方式１と加算方式２のいずれを行うことも可能であるが、特に後者を用いることで、周波数成分の少ない音源も同時に検出することが可能になり、さらに幅広い種類の音源を検出できるようになる。

［複数ＦＦＴ結果をまとめて投票］
さらに、投票部３０３は、１回のＦＦＴ毎に投票を行うことも可能だが、一般的に連続するｍ回（ｍ≧１）の時系列的なＦＦＴ結果についてまとめて投票を行なうこととする。長期的には音源の周波数成分は変動するものであるが、このようにすることで、周波数成分の安定している適度に短期間の複数時刻のＦＦＴ結果から得られるより多くのデータを用いて、より信頼性の高いハフ投票結果を得ることができるようになる。なお、このｍは運用に合わせてパラメータとして設定可能とする。

［直線検出部３０４］
直線検出部３０４は、投票部３０３によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する。但し、このとき、図９で述べた位相差の循環性など、本問題に特有の事情を考慮することで、より高精度な直線検出を実現する。

図１４に、室内雑音環境下で１人の人物がマイクロホン対の正面約２０度左より発話した実際の音声を用いて処理したときの周波数成分のパワースペクトル、連続する５回分（前述のｍ＝５）のＦＦＴ結果から得た周波数成分毎の位相差プロット図、同じ５回分のＦＦＴ結果から得たハフ投票結果（得票分布）を示す。ここまでの処理は音響信号入力部２から投票部３０３までの一連の機能ブロックで実行される。

マイクロホン対で取得された振幅データは、周波数分解部３によって周波数成分毎のパワー値と位相値のデータに変換される。図１４における１８０と１８１は、横軸を時間として、周波数成分毎のパワー値の対数を輝度表示（黒いほど大きい）したものである。縦の１ラインが１回のＦＦＴ結果に対応し、これを時間経過（右向き）に沿ってグラフ化した図である。上段１８０がマイク１ａ、下段１８１がマイク１ｂからの信号を処理した結果であり、多数の周波数成分が検出されている。この周波数分解結果を受けて、位相差算出部３０１により周波数成分毎の位相差が求められ、座標値決定部３０２によりその（ｘ，ｙ）座標値が算出される。図１４における１８２はある時刻１８３から連続５回分のＦＦＴによって得た位相差をプロットした図である。この図で原点から左に傾いた直線１８４に沿う点群分布が認められるが、その分布は直線１８４上にきれいに乗っているわけではなく、またこの直線１８４から離れた多数の点が存在している。投票部３０３により、このような分布を示している各点がハフ投票空間に投票されて得票分布１８５を形成する。なお、図の１８５は加算方式２を用いて生成された得票分布である。

［ρ＝０の制約］
ところで、マイク１ａとマイク１ｂの信号が音響信号入力部２によって同相でＡ／Ｄ変換される場合、検出されるべき直線は必ずρ＝０、すなわちＸＹ座標系の原点を通る。したがって、音源の推定問題は、ハフ投票空間上でρ＝０となるθ軸上の得票分布Ｓ（θ，０）から極大値を探索する問題に帰着する。図１４で例示したデータに対してθ軸上で極大値を探索した結果を図１５に示す。

図１５において１９０は図１３における得票分布１８５と同一のものである。θ軸１９１上の得票分布Ｓ（θ，０）をＨ（θ）として抜き出して棒グラフにしたものが図１５の１９２である。この得票分布Ｈ（θ）には幾つか極大箇所（突出部）が存在している。直線検出部３０４は、得票分布Ｈ（θ）に対して、（１）ある位置について左右に自身と同点のものが続く限り探索したときに、最後に自身より低得票のものだけが現れた箇所を残す。この結果、得票分布Ｈ（θ）上の極大部が抽出されるが、この極大部には平坦な頂を持つものが含まれるので、そこでは極大値が連続する。そこで直線検出部３０４は、（２）細線化処理によって図１５において１９３に示すように極大部の中央位置だけを極大位置として残す。そして最後に、（３）得票が所定閾値以上となる極大位置のみを直線として検出する。このようにすることで十分な得票を得た直線のθを正確に割り出すことができる。図の例では、上記（２）において検出された極大位置１９４、１９５、１９６のうち、１９４が平坦な極大部から細線化処理によって残された中央位置（偶数連続時は右が優先）である。また、唯一１９６だけが閾値以上の得票を得て検出された直線となる。この極大位置１９６によって与えられるθとρ（＝０）で定義される直線が図１５の１９７である。なお、細線化処理のアルゴリズムは、ハフ変換の説明で紹介した参考文献２の８９〜９２ページに記載される「田村の方法」を１次元化して使うことが可能である。直線検出部３０４は、このようにして１乃至複数の極大位置（所定閾値以上の得票を得た中央位置）を検出すると、その得票の多い順に順位を付けて各極大位置のθとρの値を出力する。

［位相差循環を考慮した直線群の定義］
ところで、図１５で例示した直線１９７は、（θ０，０）なる極大位置１９６によって定義されたＸＹ座標原点を通る直線である。しかし、実際には位相差の循環性によって、図１５の直線１９７がΔρ（図中の１９９）だけ平行移動してＸ軸上の反対側から循環してくる直線１９８もまた１９７と同じ到達時間差を示す直線である。この直線１９８のように直線１９７を延長してＸの値域からはみ出した部分が反対側から循環的に現れる直線を、直線１９７の「循環延長線」、基準となった直線１９７を「基準直線」とそれぞれ呼ぶことにする。もし、基準直線１９７がさらに傾いておれば、循環延長線はさらに数を増すことになる。ここで係数ａを０以上の整数とすると、到達時間差を同じくする直線は全て（θ０，０）で定義される基準直線１９７をΔρずつ平行移動させた直線群（θ０，ａΔρ）となる。さらに、起点となるρについてρ＝０の制約をはずしてρ＝ρ０として一般化すると、直線群は（θ０，ａΔρ＋ρ０）として記述できることになる。このとき、Δρは直線の傾きθの関数Δρ（θ）として図１６に示す式で定義される符号付きの値である。

図中の２００は（θ，０）で定義される基準直線である。このとき、基準直線が右に傾いているので定義に従いθは負値であるが、図ではその絶対値として扱う。図中の２０１は基準直線２００の循環延長線であり、点ＲにおいてＸ軸と交差している。また、基準直線２００と循環延長線２０１の間隔は補助線２０２で示す通りΔρであり、補助線２０２は点Ｏにおいて基準直線２００と垂直に交差し、点Ｕにおいて循環延長線２０１と垂直に交差している。このとき、基準直線が右に傾いているので定義に従いΔρも負値であるが、図ではその絶対値として扱う。図中の△ＯＱＰは辺ＯＱの長さがπとなる直角三角形であり、これと合同な三角形が△ＲＴＳである。故に辺ＲＴの長さもπであり、△ＯＵＲの斜辺ＯＲの長さが２πであることがわかる。このとき、Δρは辺ＯＵの長さであるから、Δρ＝２πｃｏｓθとなる。そして、θとΔρの符号を考慮すると図の計算式が導き出される。

［位相差循環を考慮した極大位置検出］
位相差の循環性から、音源を表す直線は一つではなく基準直線と循環延長線から成る直線群として扱われるべきであることを述べた。このことは得票分布から極大位置を検出する際にも考慮されなければならない。通常、位相差の循環が起きないか、起きても小規模で収まるマイクロホン対の正面付近のみで音源を検出する場合に限れば、ρ＝０（あるいはρ＝ρ０）上の得票値（すなわち基準直線の得票値）のみで極大位置を探索する上述の方法は性能的に十分であるばかりか、探索時間の短縮と精度の向上に効果がある。しかし、より広い範囲に存在する音源を検出しようとする場合には、あるθについてΔρずつ離れた数箇所の得票値を合計して極大位置を探索する必要がある。この違いを以下で説明する。

図１７に、室内雑音環境下で２人の人物がマイクロホン対の正面約２０度左と約４５度右から同時に発話した実際の音声を用いて処理したときの周波数成分のパワースペクトル、５回分（ｍ＝５）のＦＦＴ結果から得た周波数成分毎の位相差プロット図、同じ５回分のＦＦＴ結果から得たハフ投票結果（得票分布）を示す。

マイクロホン対で取得された振幅データは、周波数分解部３によって周波数成分毎のパワー値と位相値のデータに変換される。図中の２１０と２１１は、縦軸を周波数、横軸を時間として、周波数成分毎のパワー値の対数を輝度表示（黒いほど大きい）したものである。縦の１ラインが１回のＦＦＴ結果に対応し、これを時間経過（右向き）に沿ってグラフ化した図である。上段２１０がマイク１ａ、下段２１１がマイク１ｂからの信号を処理した結果であり、多数の周波数成分が検出されている。この周波数分解結果を受けて、位相差算出部３０１により周波数成分毎の位相差が求められ、座標値決定部３０２によりその（ｘ，ｙ）座標値が算出される。図中の２１２はある時刻２１３から連続５回分のＦＦＴによって得た位相差をプロットした図である。この図で原点から左に傾いた基準直線２１４に沿う点群分布と右に傾いた基準直線２１５に沿う点群分布が認められる。投票部３０３により、このような分布を示している各点がハフ投票空間に投票されて得票分布２１６を形成する。なお、図の２１６は加算方式２を用いて生成された得票分布である。

図１８はθ軸上の得票値のみで極大位置を探索した結果を示した図である。図中の２２０は図１７における得票分布２１６と同一のものである。θ軸２２１上の得票分布Ｓ（θ，０）をＨ（θ）として抜き出して棒グラフにしたものが図中の２２２である。この得票分布Ｈ（θ）には幾つか極大箇所（突出部）が存在しているが、総じてθの絶対値が大きくなるほど得票が少なくなることがわかる。この得票分布Ｈ（θ）からは図中２２３に示す４つの極大位置２２４、２２５、２２６、２２７が検出される。このうち、唯一２２７だけが閾値以上の得票を得て一つの直線群（基準直線２２８と循環延長線２２９）が検出される。この直線群はマイクロホン対の正面約２０度左からの音声を検出したものであるが、マイクロホン対の正面約４５度右からの音声は検出できていない。原点を通る基準直線ではその角度が大きいほどＸの値域を超えるまでに少ない周波数帯しか通過できないため、基準直線が通過する周波数帯の広さはθによって異なる（不公平がある）。そして、ρ＝０の制約は、この不公平な条件で基準直線だけの得票を競わせることになるため、角度の大きい直線ほど得票で不利になるのである。これが約４５度右からの音声を検出できなかった理由である。

一方、図１９はΔρずつ離れた数箇所の得票値を合計して極大位置を探索した結果を示した図である。図中の２４０は、図１７における得票分布２１６上に、原点を通る直線をΔρずつ平行移動させたときのρの位置を破線２４２〜２４９で表示したものである。このとき、θ軸２４１と破線２４２〜２４５、及びθ軸２４１と破線２４６〜２４９はそれぞれΔρ（θ）の自然数倍で等間隔に離れている。なお、直線がＸの値域を越えずにプロット図の天井まで抜けることが確実なθ＝０には破線が存在しない。

あるθ０の得票Ｈ（θ０）は、θ＝θ０の位置で縦に見たときのθ軸２４１上の得票と破線２４２〜２４９上の得票の合計値、すなわちＨ（θ０）＝Σ｛Ｓ（θ０，ａΔρ（θ０））｝として計算される。この操作はθ＝θ０となる基準直線とその循環延長線の得票を合計することに相当する。この得票分布Ｈ（θ）を棒グラフにしたものが図中の２５０である。図１８の２２２と異なり、この分布ではθの絶対値が大きくなっても得票が少なくなっていない。これは、得票計算に循環延長線を加えたことで全てのθについて同じ周波数帯を使うことができるようになったからである。この得票分布２５０からは図中２５１に示す１０個の極大位置が検出される。このうち、極大位置２５２と２５３が閾値以上の得票を得て、マイクロホン対の正面約２０度左からの音声を検出した直線群（極大位置２５３に対応する基準直線２５４と循環延長線２５５）と、マイクロホン対の正面約４５度右からの音声を検出した直線群（極大位置２５２に対応する基準直線２５６と循環延長線２５７と２５８）の２つが検出される。このようにΔρずつ離れた箇所の得票値を合計して極大位置を探索することで、角度の小さい直線から角度の大きい直線まで安定に検出できるようになる。

［非同相の場合を考慮した極大位置検出：一般化］
さて、マイク１ａとマイク１ｂの信号が音響信号入力部２によって同相でＡ／Ｄ変換されない場合、検出されるべき直線はρ＝０、すなわちＸＹ座標原点を通らない。この場合はρ＝０の制約をはずして極大位置を探索する必要がある。

ρ＝０の制約をはずした基準直線を一般化して（θ０，ρ０）と記述すると、その直線群（基準直線と循環延長線）は（θ０，ａΔρ（θ０）＋ρ０）と記述できる。ここでΔρ（θ０）はθ０によって決まる循環延長線の平行移動量である。音源がある方向から来るときに、それに対応したθ０における直線群は最も有力なものが一つ存在するだけである。その直線群は、様々にρ０を変えたときの直線群の得票Σ｛Ｓ（θ０，ａΔρ（θ０）＋ρ０）｝が最大となるρ０の値ρ０ｍａｘを使って（θ０，ａΔρ（θ０）＋ρ０ｍａｘ）で与えられる。そこで、各θにおける得票Ｈ（θ）をそれぞれのθにおける最大得票値Σ｛Ｓ（θ，ａΔρ（θ）＋ρ０ｍａｘ）｝とすることで、ρ＝０の制約時と同じ極大位置検出アルゴリズムを適用した直線検出を行なうことができるようになる。

［図形照合部６］
なお、検出された直線群はマイクロホン対毎に独立に推定された各時刻における音源の候補である。このとき、同一の音源から発した音声は複数のマイクロホン対で同時刻にそれぞれ直線群として検出される。したがって、複数のマイクロホン対で同一の音源に由来する直線群を対応付けることができれば、より信頼性の高い音源の情報を得ることができるはずである。図形照合部６はそのための対応付けを行なう。このとき、図形照合部６で直線群毎に編集された情報を音源候補情報と呼ぶことにする。

図２０に示すように図形照合部６は、方向推定部３１１と、音源成分推定部３１２と、時系列追跡部３１３と、継続時間評価部３１４と、音源成分照合部３１５とを具備する。

［方向推定部３１１］
方向推定部３１１は、以上で述べた直線検出部３０４による直線検出結果、すなわち直線群毎のθ値を受けて、各直線群に対応した音源の存在範囲を計算する。このとき、検出された直線群の数が音源の候補数となる。マイクロホン対のベースラインに対して音源までの距離が十分遠い場合、音源の存在範囲はマイクロホン対のベースラインに対してある角度を持った円錐面となる。これを図２１を参照して説明する。

マイク１ａとマイク１ｂの到達時間差ΔＴは±ΔＴｍａｘの範囲で変化し得る。図２１（ａ）のように、正面から入射する場合、ΔＴは０となり、音源の方位角φは正面を基準にした場合０°となる。また、図２１（ｂ）のように音声が右真横、すなわちマイク１ｂ方向から入射する場合、ΔＴは＋ΔＴｍａｘに等しく、音源の方位角φは正面を基準にして右回りを正として＋９０°となる。同様に、図２１（ｃ）のように音声が左真横、すなわちマイク１ａ方向から入射する場合、ΔＴは−ΔＴｍａｘに等しく、方位角φは−９０°となる。このように、ΔＴを音が右から入射するとき正、左から入射するとき負となるように定義する。

以上を踏まえて図２１（ｄ）のような一般的な条件を考える。マイク１ａの位置をＡ、マイク１ｂの位置をＢとし、音声が線分ＰＡ方向から入射すると仮定すると、△ＰＡＢは頂点Ｐが直角となる直角三角形となる。このとき、マイク間中心Ｏ、線分ＯＣをマイクロホン対の正面方向として、ＯＣ方向を方位角０°とした左回りを正にとる角度を方位角φと定義する。△ＱＯＢは△ＰＡＢの相似形となるので、方位角φの絶対値は∠ＯＢＱ、すなわち∠ＡＢＰに等しく、符号はΔＴの符号に一致する。また、∠ＡＢＰはＰＡとＡＢの比のｓｉｎ^−１として計算可能である。このとき、線分ＰＡの長さをこれに相当するΔＴで表すと、線分ＡＢの長さはΔＴｍａｘに相当する。したがって、符号も含めて、方位角はφ＝ｓｉｎ^−１（ΔＴ／ΔＴｍａｘ）として計算することができる。そして、音源の存在範囲は点Ｏを頂点、ベースラインＡＢを軸として、（９０−φ）°開いた円錐面２６０として推定される。音源はこの円錐面２６０上のどこかにある。

図２２に示すように、ΔＴｍａｘはマイク間距離Ｌ［ｍ］を音速Ｖｓ［ｍ／ｓｅｃ］で割った値である。このとき、音速Ｖｓは気温ｔ［℃］の関数として近似できることが知られている。今、直線検出部３０４によって直線２７０がハフの傾きθで検出されているとする。この直線２７０は右に傾いているのでθは負値である。ｙ＝ｋ（周波数ｆｋ）のとき、直線２７０で示される位相差ΔＰｈはｋとθの関数としてｋ・ｔａｎ（−θ）で求めることができる。このときΔＴ［ｓｅｃ］は、位相差ΔＰｈ（θ，ｋ）の２πに対する割合を、周波数ｆｋの１周期（１／ｆｋ）［ｓｅｃ］に乗じた時間となる。θが符号付きの量なので、ΔＴも符号付きの量となる。すなわち、図２１（ｄ）で音が右から入射する（位相差ΔＰｈが正値となる）とき、θは負値となる。また、図２１（ｄ）で音が左から入射する（位相差ΔＰｈが負値となる）とき、θは正値となる。そのために、θの符号を反転させている。なお、実際の計算においては、ｋ＝１（直流成分ｋ＝０のすぐ上の周波数）で計算を行えば良い。

［音源成分推定部３１２］
音源成分推定部３１２は、座標値決定部３０２により与えられた周波数成分毎の（ｘ，ｙ）座標値と、直線検出部３０４により検出された直線との距離を評価することで、直線近傍に位置する点（すなわち周波数成分）を当該直線群（すなわち音源）の周波数成分として検出し、この検出結果に基づいて音源毎の周波数成分を推定する。

［距離閾値方式による検出］
図２３に複数の音源が存在するときの音源成分推定の原理を模式的に示す。図中（ａ）は図９に示したものと同じ周波数と位相差のプロット図であり、２つの音源がマイクロホン対に対して異なる方向に存在している場合を示している。図中（ａ）の２８０は一つの直線群を、図中（ａ）の２８１と２８２は別の直線群を成している。図中（ａ）の黒丸は周波数成分毎の位相差位置を表している。

直線群（２８０）に対応する音源音を構成する周波数成分は、図中（ｂ）に示すように、直線２８０から左右にそれぞれ水平距離２８３だけ離れた直線２８４と直線２８５に挟まれる領域２８６内に位置する周波数成分（図の黒丸）として検出される。ある周波数成分がある直線の成分として検出されることを、周波数成分が直線に帰属する（あるいは属する）と云うことにする。

同様に、直線群（２８１、２８２）に対応する音源音を構成する周波数成分は、図中（ｃ）に示すように、直線２８１と直線２８２から左右にそれぞれ水平距離２８３だけ離れた直線に挟まれる領域２８７と２８８内に位置する周波数成分（図の黒丸）として検出される。

なお、このとき周波数成分２８９と原点（直流成分）の２点は、領域２８６と領域２８８の両方に含まれるので、両音源の成分として二重に検出される（多重帰属）。このように、周波数成分と直線との水平距離を閾値処理して、直線群（音源）毎に閾値内に存在する周波数成分を選択し、そのパワーと位相をそのまま当該音源音の成分とする方式を「距離閾値方式」と呼ぶことにする。

［最近傍方式による検出］
図２４は、図２３において多重帰属する周波数成分２８９について、どちらか最も近い方の直線群にのみ属させるようにした結果を示した図である。直線２８０と直線２８２に対する周波数成分２８９の水平距離を比較した結果、周波数成分２８９は直線２８２に最も近いことが判明する。このとき、周波数成分２８９は直線２８２近傍の領域２８８に入っている。よって、周波数成分２８９は、図中（ｂ）に示すように直線群（２８１、２８２）に属する成分として検出される。このように、周波数成分毎に水平距離で最も近い直線（音源）を選択し、その水平距離が所定閾値内にある場合に当該周波数成分のパワーと位相をそのまま当該音源音の成分とする方式を「最近傍方式」と呼ぶことにする。なお、直流成分（原点）は特別扱いとして両方の直線群（音源）に帰属させるものとする。

［距離係数方式による検出］
上記２つの方式は、直線群を構成する直線に対して所定の水平距離閾値内に存在する周波数成分だけを選択し、そのパワーと位相をそのままにして直線群に対応する音源音の周波数成分と成していた。一方、次に述べる「距離係数方式」は、周波数成分と直線との水平距離ｄの増大に応じて単調減少する非負係数αを計算し、これを当該周波数成分のパワーに乗じることで、直線から水平距離で遠い成分ほど弱いパワーで音源音に寄与するようにした方式である。

このとき、水平距離による閾値処理を行う必要はなく、ある直線群に対する各周波数成分の水平距離（直線群の中の最も近い直線との水平距離）ｄを求め、その水平距離ｄに基づいて定められる係数αを当該周波数成分のパワーに乗じた値を、当該直線群における当該周波数成分のパワーとする。水平距離ｄの増大に応じて単調減少する非負係数αの計算式は任意であるが、一例として図２５に示すシグモイド（Ｓ字曲線）関数α＝ｅｘｐ（−（Ｂ・ｄ）^Ｃ）が挙げられる。このとき図に例示したように、Ｂを正の数値（図では１．５）、Ｃを１より大きい数値（図では２．０）とすると、ｄ＝０のときα＝１、ｄ→∞のときα→０となる。非負係数αの減少の度合いが急峻、すなわちＢが大きいと直線群からはずれた成分が排除され易くなるので、音源方向に対する指向性が鋭くなり、逆に非負係数αの減少の度合いが緩慢、すなわちＢが小さいと指向性が鈍くなる。

［複数ＦＦＴ結果の扱い］
既に述べたように、投票部３０３は１回のＦＦＴ毎に投票を行うことも、連続するｍ回（ｍ≧１）のＦＦＴ結果をまとめて投票することも可能である。したがって、ハフ投票結果を処理する直線検出部３０４以降の機能ブロックは１回のハフ変換が実行される期間を単位として動作する。このとき、ｍ≧２でハフ投票が行われるときは、複数時刻のＦＦＴ結果がそれぞれの音源音を構成する成分として分類されることになり、時刻の異なる同一周波数成分が別々の音源音に帰属させられることも起こり得る。これを扱うために、ｍの値に関わらず、座標値決定部３０２によって、各周波数成分（すなわち、図２４に例示した黒丸）にはそれが取得されたフレームの開始時刻が取得時刻の情報として付与されており、どの時刻のどの周波数成分がどの音源に帰属するかを参照可能にする。すなわち、音源音がその周波数成分の時系列データとして分離抽出される。

［パワー保存オプション］
なお、上述した各方式において、複数（Ｎ個）の直線群（音源）に属する周波数成分（最近傍方式では直流成分のみ、距離係数方式では全周波数成分が該当）では、各音源に配分される同一時刻の当該周波数成分のパワーを、その合計が配分前の当該時刻のパワー値Ｐｏ（ｆｋ）に等しくなるように正規化してＮ分割することも可能である。このようにすることで、同一時刻の周波数成分毎に音源全体での合計パワーを入力と同じに保つことができる。これを「パワー保存オプション」と呼ぶことにする。配分の仕方には次の２つの考え方がある。すなわち、（１）Ｎ等分（距離閾値方式と最近傍方式に適用可能）と、（２）各直線群との距離に応じた配分（距離閾値方式と距離係数方式に適用可能）である。

（１）はＮ等分することで自動的に正規化が達成される配分方法であり、距離に関係なく配分を決める距離閾値方式と最近傍方式に適用可能である。

（２）は距離係数方式と同様にして係数を決めた後、さらにそれらの合計が１になるように正規化することでパワーの合計を保存する配分方法であり、原点以外で多重帰属の発生する距離閾値方式と距離係数方式に適用可能である。

なお、音源成分推定部３１２は、設定によって距離閾値方式と最近傍方式と距離係数方式のいずれを行うことも可能である。また、距離閾値方式と最近傍方式において上述したパワー保存オプションを選択することが可能である。

［時系列追跡部３１３］
上述した通り、投票部３０３によるハフ投票毎に直線検出部３０４により直線群が求められる。ハフ投票は連続するｍ回（ｍ≧１）のＦＦＴ結果についてまとめて行われる。この結果、直線群はｍフレーム分の時間を周期（これを「図形検出周期」と呼ぶことにする）として時系列的に求められることになる。また、直線群のθは方向推定部３１１により計算される音源方向φと１対１に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ（あるいはφ）の時間軸上の軌跡は連続しているはずである。一方、直線検出部３０４により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群（これを「雑音直線群」と呼ぶことにする）が含まれていることがある。しかしながら、このような雑音直線群のθ（あるいはφ）の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。

時系列追跡部３１３は、このように図形検出周期毎に求められるφを時間軸上で連続なグループに分けることで、φの時間軸上の軌跡を求める。図２６を用いてグループ分けの方法を説明する。

（１）軌跡データバッファを用意する。軌跡データバッファは軌跡データの配列である。一つの軌跡データＫｄは、その開始時刻Ｔｓと、終了時刻Ｔｅと、当該軌跡を構成する直線群データＬｄの配列（直線群リスト）と、ラベル番号Ｌｎとを保持することができる。一つの直線群データＬｄは、当該軌跡を構成する一つの直線群のθ値とρ値（直線検出部３０４による）と、この直線群に対応した音源方向を表すφ値（方向推定部３１１による）と、この直線群に対応した周波数成分（音源成分推定部３１２による）と、それらが取得された時刻とから成る一群のデータである。なお、軌跡データバッファは最初空である。また、ラベル番号を発行するためのパラメータとして新規ラベル番号を用意し、初期値を０に設定する。

（２）ある時刻Ｔにおいて、新しく得られたφのそれぞれ（以後φｎとし、図中では黒丸３０３と黒丸３０４で示される２つが得られたものとする）について、軌跡データバッファに保持されている軌跡データＫｄ（図中の矩形３０１と３０２）の直線群データＬｄ（図中の矩形内に配置された黒丸）を参照し、そのφ値とφｎの差（図中の３０５と３０６）が所定角度閾値Δφ内にあり、かつその取得時刻の差（図中の３０７と３０８）が所定時間閾値Δｔ内にあるＬｄを持つ軌跡データを検出する。この結果、黒丸３０３については軌跡データ３０１が検出されたが、黒丸３０４については最も近い軌跡データ３０２も上記条件を満たさなかったとする。

（３）黒丸３０３のように、もし、（２）の条件を満たす軌跡データが見つかった場合は、φｎはこの軌跡と同一の軌跡を成すものとして、このφｎとそれに対応したθ値とρ値と周波数成分と現時刻Ｔとを当該軌跡Ｋｄの新たな直線群データとして直線群リストに追加し、現時刻Ｔを当該軌跡の新たな終了時刻Ｔｅとする。このとき、複数の軌跡が見つかった場合には、それら全てが同一の軌跡を成すものとして、最も若いラベル番号を持つ軌跡データに統合して、残りを軌跡データバッファから削除する。統合された軌跡データの開始時刻Ｔｓは統合前の各軌跡データの中で最も早い開始時刻であり、終了時刻Ｔｅは統合前の各軌跡データの中で最も遅い終了時刻であり、直線群リストは統合前の各軌跡データの直線群リストの和集合である。この結果、黒丸３０３は軌跡データ３０１に追加される。

（４）黒丸３０４のように、もし、（２）の条件を満たす軌跡データが見つからなかった場合は、新規の軌跡の始まりとし、軌跡データバッファの空き部分に新しい軌跡データを作成し、開始時刻Ｔｓと終了時刻Ｔｅを共に現時刻Ｔとし、φｎとそれに対応したθ値とρ値と周波数成分と現時刻Ｔとを直線群リストの最初の直線群データとし、新規ラベル番号の値をこの軌跡のラベル番号Ｌｎとして与え、新規ラベル番号を１だけ増加させる。なお、新規ラベル番号が所定の最大値に達したときは、新規ラベル番号を０に戻す。この結果、黒丸３０４は新たな軌跡データとして軌跡データバッファに登録される。

（５）もし、軌跡データバッファに保持されている軌跡データで、最後に更新されてから（すなわちその終了時刻Ｔｅから）現時刻Ｔまでに前記所定時間Δｔを経過したものがあれば、追加すべき新たなφｎの見つからなかった、すなわち追跡の満了した軌跡として、この軌跡データを次段の継続時間評価部３１４に出力した後、当該軌跡データを軌跡データバッファから削除する。図の例では軌跡データ３０２がこれに該当する。

［継続時間評価部３１４］
継続時間評価部３１４は、時系列追跡部３１３により出力された追跡の満了した軌跡データの開始時刻と終了時刻から当該軌跡の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく軌跡データと認定し、それ以外を雑音に基づく軌跡データと認定する。音源音に基づく軌跡データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源音の開始時刻Ｔｓ、終了時刻Ｔｅ、当該音源方向を表すθとρとφの時系列的な軌跡データが含まれる。なお、図形検出部５による直線群の数が音源の数を与えるが、そこには雑音源も含まれている。継続時間評価部３１４による音源ストリーム情報の数は、雑音に基づくものを除いた信頼できる音源の数を与えてくれる。

［音源成分照合部３１５］
音源成分照合部３１５は、時系列追跡部３１３と継続時間評価部３１４を経て異なるマイクロホン対に対してそれぞれ得られた音源ストリーム情報を、同一の音源に由来するもの同士で対応付けて音源候補対応情報を生成する。同一時刻において同一音源を発した音声は、その周波数成分において類似しているはずである。そこで、音源成分推定部３１２によって推定された直線群毎の各時刻の音源成分に基づいて、音源ストリーム間で同時刻の周波数成分のパタンを照合して類似度を計算し、所定閾値以上で最大の類似度を獲得した周波数成分のパタンを持つ音源ストリーム同士を対応付ける。このとき、音源ストリームの全域でパタン照合することも可能であるが、照合される音源ストリームが同時に存在する期間の数時刻の周波数成分パタンを照合して、その合計類似度、あるいは平均類似度が所定閾値以上で最大となるものを探索するようにすれば効率的である。この照合されるべき数時刻は、照合される両ストリームのパワーが共に所定閾値以上となる時刻とすることで、照合の信頼性はより向上することが期待できる。

なお、図形照合部６の各機能ブロックは、図２０に図示しない結線によって必要に応じて相互に情報のやりとりが可能であるものとする。

［音源情報生成部７］
図３０に示すように音源情報生成部７は、音源存在範囲推定部４０１と、対選択部４０２と、同相化部４０３と、適応アレイ処理部４０４と、音声認識部４０５とを具備する。音源情報生成部７は、図形照合部６によって対応付けられた音源候補情報から、音源に関するより精密で信頼できる情報を生成する。

［音源存在範囲推定部４０１］
音源存在範囲推定部４０１は、図形照合部６により生成された音源候補対応情報に基づいて、音源の空間的存在範囲を算出する。その算出方式には次の２つがあり、パラメータによって切り替え可能である。

（算出方式１）同一音源に由来するとして対応付けられた音源ストリーム情報のそれぞれが示す音源方向を、それぞれの音源ストリームを検出したマイクロホン対の中点を頂点とする円錐面（図２１の（ｄ）参照）とみなす。対応付けられた全ての音源ストリームからそれぞれ得られる円錐面の交差する曲線もしくは点の所定近傍を音源の空間的な存在範囲として計算する。

（算出方式２）同一音源に由来するとして対応付けられた音源ストリーム情報のそれぞれが示す音源方向を使って音源の空間的な存在範囲を次のように求める。（１）装置の原点を中心とする同心球面を仮定し、該同心球面上の離散的な点（空間座標）について、各マイクロホン対への角度を計算したテーブルを予め用意する。（２）前記各マイクロホン対への角度が前記音源方向のセットを最小二乗誤差の条件で満たす前記同心球面上の離散的な点を探索し、この点の位置を音源の空間的な存在範囲とする。

［対選択部４０２］
対選択部４０２は、図形照合部６により生成された音源候補対応情報に基づいて、音源音声の分離抽出に最も適した対を選択する。その選択方式には次の２つがあり、パラメータによって切り替え可能である。

（選択方式１）同一音源に由来するとして対応付けられた音源ストリーム情報のそれぞれが示す音源方向を比較して、最も正面寄りの音源ストリームを検出したマイクロホン対を選択する。この結果、最も正面から音源音声を捉えたマイクロホン対が音源音声の抽出に利用される。

（選択方式２）同一音源に由来するとして対応付けられた音源ストリーム情報のそれぞれが示す音源方向をそれぞれの音源ストリームを検出したマイクロホン対の中点を頂点とする円錐面（図２１のｄ）とみなし、該円錐面から他の音源が最も遠い音源ストリームを検出したマイクロホン対を選択する。この結果、他の音源の影響の最も少ないマイクロホン対が音源音声の抽出に利用される。

［同相化部４０３］
同相化部４０３は、対選択部４０２によって選択された音源ストリーム情報から、当該ストリームの音源方向φの時間推移を得て、φの最大値φｍａｘと最小値φｍｉｎから中間値φｍｉｄ＝（φｍａｘ＋φｍｉｎ）／２を計算して幅φｗ＝φｍａｘ−φｍｉｄを求める。そして、当該音源ストリーム情報の元となった２つの周波数分解データａとｂの時系列データを、当該ストリームの開始時刻Ｔｓより所定時間遡った時刻から終了時刻Ｔｅより所定時間経過した時刻まで抽出して、中間値φｍｉｄで逆算される到達時間差をキャンセルするように補正することで同相化する。

あるいは、方向推定部３１１による各時刻の音源方向φをφｍｉｄとして、２つの周波数分解データａとｂの時系列データを常時同相化することもできる。音源ストリーム情報を参照するか、各時刻のφを参照するかは動作モードで決定され、この動作モードはパラメータとして設定・変更可能である。

［適応アレイ処理部４０４］
適応アレイ処理部４０４は、抽出・同相化された２つの周波数分解データａとｂの時系列データを、正面０°に中心指向性を向け、±φｗに所定のマージンを加えた値を追従範囲とする適応アレイ処理に掛けることで、当該ストリームの音源音（周波数成分の時系列データ）を高精度に分離抽出する。なお、適応アレイ処理には、参考文献３「天田皇ほか“音声認識のためのマイクロホンアレー技術”，東芝レビュー２００４，ＶＯＬ．５９，ＮＯ．９，２００４」に開示されるように、それ自体がビームフォーマの構成方法として知られている「Ｇｒｉｆｆｉｔｈ−Ｊｉｍ型一般化サイドローブキャンセラ」を主副２つ用いることで、設定された指向性範囲内の音声を明瞭に分離抽出する方法を用いることができる。

通常、適応アレイ処理を用いる場合、事前に追従範囲を設定し、その方向からの音声のみを待ち受ける使い方をするため、全方位からの音声を待ち受けるためには追従範囲を異ならせた多数の適応アレイを用意する必要があった。一方、本実施例装置では、実際に音源の数とその方向を求めたうえで、音源数に応じた数の適応アレイだけを稼動させることができ、その追従範囲も音源の方向に応じた所定の狭い範囲に設定することができるので、音声を効率良くかつ品質良く分離抽出できる。

また、このとき、事前に２つの周波数分解データａとｂの時系列データを同相化することで、適応アレイ処理における追従範囲を正面付近にのみ設定するだけで、あらゆる方向の音を処理できるようになる。

［音声認識部４０５］
音声認識部４０５は、適応アレイ処理部４０４により抽出された音源音の周波数成分の時系列データを解析照合することで、当該ストリームの記号的な内容、すなわち、言語的な意味や音源の種別や話者の別を表す記号（列）を抽出する。

［出力部８］
出力部８は、図形照合部６による音源候補情報として、図形検出部５による直線群の数として得られる音源候補の数、方向推定部３１１により推定された前記音響信号の発生源たる音源候補の空間的な存在範囲（円錐面を決定させる角度φ）、音源成分推定部３１２により推定された前記音源候補を発した音声の成分構成（周波数成分毎のパワーと位相の時系列データ）、時系列追跡部３１３と継続時間評価部３１４による雑音源を除く音源候補（音源ストリーム）の数、時系列追跡部３１３と継続時間評価部３１４による前記音源候補（音源ストリーム）を発した音声の時間的な存在期間、の少なくとも一つを含む情報、もしくは、音源情報生成部７による音源情報として、図形照合部６による対応の付いた直線群（音源ストリーム）の数として得られる音源の数、音源存在範囲推定部４０１により推定された前記音響信号の発生源たる音源のより精密な空間的な存在範囲（円錐面の交差範囲やテーブル引きされた座標値）、対選択部４０２と同相化部４０３と適応アレイ部４０４による前記音源毎の音源音（周波数成分の時系列データ）、音声認識部４０５による前記音源音声の記号的内容、の少なくとも一つを含む情報を出力する。

［ユーザインタフェース部９］
ユーザインタフェース部９は、上述した音響信号処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、図１７や図１９に示した（１）マイク毎の周波数成分の表示、（２）位相差（あるいは時間差）プロット図の表示（すなわち２次元データの表示）、（３）各種得票分布の表示、（４）極大位置の表示、（５）プロット図上の直線群の表示、図２３や図２４に示した（６）直線群に帰属する周波数成分の表示、図２６に示した（７）軌跡データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化する。このようにすることで、利用者が本実施例装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後調整済みの状態で本実施例装置を利用したりすることが可能になる。

［処理の流れ図］
また、図２７に本実施例装置における処理の流れを示す。本実施例装置における処理は、初期設定処理ステップＳ１と、音響信号入力処理ステップＳ２と、周波数分解処理ステップＳ３と、２次元データ化処理ステップＳ４と、図形検出処理ステップＳ５と、図形照合処理ステップＳ６と、音源情報生成処理ステップＳ７と、出力処理ステップＳ８と、終了判断処理ステップＳ９と、確認判断処理ステップＳ１０と、情報呈示・設定受理処理ステップＳ１１と、終了処理ステップＳ１２とから成る。

初期設定処理ステップＳ１は、上述したユーザインタフェース部８における処理の一部を実行する処理ステップであり、音響信号処理に必要な各種設定内容を外部記憶装置から読み出して、装置を所定の設定状態に初期化する。

音響信号入力処理ステップＳ２は、上述した音響信号入力部２における処理を実行する処理ステップであり、空間的に同一でない２つの位置で捉えられた２つの音響信号を入力する。

周波数分解処理ステップＳ３は、上述した周波数分解部３における処理を実行する処理ステップであり、前記音響信号入力処理ステップＳ２による入力音響信号のそれぞれを周波数分解して、周波数毎の少なくとも位相値（と必要ならパワー値）を算出する。

２次元データ化処理ステップＳ４は、上述した２次元データ化部４における処理を実行する処理ステップであり、前記周波数分解処理ステップＳ３により算出された各入力音響信号の周波数毎の位相値を比較して、両者の周波数毎の位相差を算出し、該周波数毎の位相差を、周波数の関数をＹ軸、位相差の関数をＸ軸とするＸＹ座標系上の点として、各周波数とその位相差により一意に決定される（ｘ，ｙ）座標値に変換する。

図形検出処理ステップＳ５は、上述した図形検出部５における処理を実行する処理ステップであり、前記２次元データ化処理ステップＳ４による２次元データから所定の図形を検出する。

図形照合処理ステップＳ６は、上述した図形照合部６における処理を実行する処理ステップであり、前記図形検出処理ステップＳ５により検出された図形を音源候補とし、音源候補を異なるマイク対の間で対応付けることで、同一音源に対する複数のマイク対による図形の情報（音源候補対応情報）を統合する。

音源情報生成処理ステップＳ７は、上述した音源情報生成部７における処理を実行する処理ステップであり、前記図形照合処理ステップＳ６により統合された同一音源に対する複数のマイク対による図形の情報（音源候補対応情報）に基づいて、前記音響信号の発生源たる音源の数、各音源のより精密な空間的な存在範囲、前記各音源を発した音声の成分構成、前記音源毎の分離音声、前記各音源を発した音声の時間的な存在期間、前記各音源を発した音声の記号的内容、の少なくとも一つを含む音源情報を生成する。

出力処理ステップＳ８は、上述した出力部８における処理を実行する処理ステップであり、前記図形照合処理ステップＳ６により生成された音源候補情報や、前記音源情報生成処理ステップＳ７により生成された音源情報を出力する。

終了判断処理ステップＳ９は、上述したユーザインタフェース部９における処理の一部を実行する処理ステップであり、利用者からの終了命令の有無を検査して、終了命令が有る場合には終了処理ステップＳ１２へ（左分岐）、無い場合には確認判断処理ステップＳ１０へ（上分岐）と処理の流れを制御する。

確認判断処理ステップＳ１０は、上述したユーザインタフェース部９における処理の一部を実行する処理ステップであり、利用者からの確認命令の有無を検査して、確認命令が有る場合には情報呈示・設定受理処理ステップＳ１１へ（左分岐）、無い場合には音響信号処理ステップＳ２（上分岐）と処理の流れを制御する。

情報呈示・設定受理処理ステップＳ１１は、利用者からの確認命令を受けて実行される、上述したユーザインタフェース部９における処理の一部を実行する処理ステップであり、音響信号処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、保存命令による設定内容の外部記憶装置への保存、読み出し命令による設定内容の外部記憶装置からの読み出しを実行したり、各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化することで、利用者が音響信号処理の動作を確認したり、所望の動作を行い得るように調整したり、以後調整済みの状態で処理を継続したりすることを可能にする。

終了処理ステップＳ１２は、利用者からの終了命令を受けて実行される、上述したユーザインタフェース部９における処理の一部を実行する処理ステップであり、音響信号処理に必要な各種設定内容の外部記憶装置への保存を自動実行する。

［変形例］ここで、上述した実施形態の変形例を説明する。

［垂直線の検出］
２次元データ化部４は、その座標値決定部３０２によって、図７に示すようにＸ座標値を位相差ΔＰｈ（ｆｋ）、Ｙ座標値を周波数成分番号ｋとして点群を生成した。このとき、Ｘ座標値を位相差ΔＰｈ（ｆｋ）からさらに計算される到達時間差の周波数毎の推定値ΔＴ（ｆｋ）＝（ΔＰｈ（ｆｋ）／２π）×（１／ｆｋ）とすることも可能である。位相差の代わりに到達時間差を使うと、同一の到達時間差を持つ、すなわち同一音源に由来する点は垂直な直線上に並ぶことになる。

このとき、周波数が高くなるほどΔＰｈ（ｆｋ）で表現可能な時間差ΔＴ（ｆｋ）は小さくなる。図２８（ａ）に模式的に示すように、周波数ｆｋの波２９０の１周期が表す時間をＴとすると、２倍の周波数２ｆｋの波２９１の１周期が表すことのできる時間はＴ／２と半分になってしまう。このとき、図２８（ａ）のようにＸ軸を時間差とすると、その範囲は±Ｔｍａｘであり、これを超えて時間差が観測されることはない。ところが、Ｔｍａｘが１／２周期（すなわちπ）以下となる限界周波数２９２以下の低い周波数では、位相差ΔＰｈ（ｆｋ）から到達時間差ΔＴ（ｆｋ）が一意に求められるが、限界周波数２９２を超えた高い周波数では、算出されたΔＴ（ｆｋ）は理論上可能なＴｍａｘよりも小さく、図２８（ｃ）に示すように直線２９３と２９４に挟まれる範囲しか表現できない。これは上述した位相差循環の問題と同じ問題である。

そこで、この位相差循環の問題を解決するために、限界周波数２９２を超える周波数域については、図２９に模式的に示すように、座標値決定部３０２が一つのΔＰｈ（ｆｋ）について２π、４π、６πなどを足したり引いたりした位相差に対応するΔＴの位置にも冗長な点を、±Ｔｍａｘの範囲内で生成して２次元データと成すこととする。生成された点群が図中の黒丸であり、限界周波数２９２を超えた周波数域では一つの周波数について複数の黒丸がプロットされている。

このようにすることで、一つの位相差に対して１乃至複数の点として生成される２次元データから、投票部３０３と直線検出部３０４から有力な垂直線（図中の２９５）をハフ投票によって検出することが可能になる。このとき、垂直線はハフ投票空間上でθ＝０となる直線なので、垂直線の検出問題はハフ投票後の得票分布でθ＝０となるρ軸上の極大位置で所定閾値以上の得票を得るものを検出することで解くことができる。ここで検出された極大位置のρ値が垂直線とＸ軸の交点、すなわち到達時間差ΔＴの推定値を与えてくれる。なお、投票に際しては投票部３０３の説明に記載した投票条件と加算方式をそのまま用いることが可能である。また、音源に対応した直線は直線群ではなく単一の垂直線である。

この極大位置を求める問題を、上述の冗長な点群のＸ座標値を投票した１次元の得票分布（Ｙ軸方向へ射影投票した周辺分布）上の極大位置で所定閾値以上の得票を得るものを検出することで解くこともできる。このように、位相差の代わりに到達時間差をＸ軸に用いることで、異なる方向に存在する音源を表す証拠が全て同じ傾きの（すなわち垂直な）直線に写されるので、ハフ変換によらずとも周辺分布によって簡便に検出可能になる。

垂直線を求めることで得られる音源方向の情報はθではなくρとして得られる到達時間差ΔＴである。よって、方向推定部３１１はθを介在させることなくΔＴから直ちに音源方向φを算出可能となる。

このように、２次元データ化部４による２次元データは１種類に限らず、図形検出部５による図形の検出法も一つとは限らない。なお、図２９に例示した到達時間差を使った点群のプロット図と検出された垂直線もユーザインタフェース部９による利用者への情報呈示対象である。

［コンピュータを使った実施：プログラム］
また、本発明は図３１に示すようにコンピュータを使って実施することも可能である。図中の３１〜３３はＮ個のマイクロホンである。図中の４０はＮ個のマイクロホンによるＮ個の音響信号を入力するＡ／Ｄ変換手段であり、図中の４１は入力されたＮ個の音響信号を処理するためのプログラム命令を実行するＣＰＵである。図中の４２〜４７はコンピュータを構成する標準的なデバイスであり、それぞれＲＡＭ４２、ＲＯＭ４３、ＨＤＤ４４、マウス／キーボード４５、ディスプレイ４６、ＬＡＮ４７である。また、図中の５０〜５２は外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類であり、それぞれＣＤＲＯＭ５０、ＦＤＤ５１、ＣＦ／ＳＤカード５２である。図中の４８は音響信号を出力するためのＤ／Ａ変換手段であり、その出力にスピーカ４９が繋がっている。このコンピュータ装置は、図２７に示した処理ステップから成る音響信号処理プログラムをＨＤＤ４４に記憶し、これをＲＡＭ４２に読み出してＣＰＵ４１で実行することで音響信号処理装置として機能する。また、外部記憶装置としてのＨＤＤ４４、操作入力を受け付けるマウス／キーボード４５、情報呈示手段としてのディスプレイ４６とスピーカ４９を使うことで、上述したユーザインタフェース部９の機能を実現する。また、音響信号処理によって得られた音源情報をＲＡＭ４２やＲＯＭ４３やＨＤＤ４４に保存出力したり、ＬＡＮ４７を介して通信出力する。

［記録媒体］
また、本発明は図３２に示すようにコンピュータ読み取り可能な記録媒体として実施することも可能である。図中の６１は本発明に係る信号処理プログラムを記録したＣＤ−ＲＯＭやＣＦやＳＤカードやフロッピー（登録商標）ディスクなどで実現される記録媒体である。この記録媒体６１をテレビやコンピュータなどの電子装置６２や電子装置６３やロボット６４に挿入することで当該プログラムを実行可能としたり、あるいはプログラムを供給された電子装置６３から通信によって別の電子装置６５やロボット６４に当該プログラムを供給することで電子装置６５やロボット６４上で当該プログラムを実行可能とする。

［温度センサによる音速の補正］
また、本発明は装置に外気温を測定するための温度センサを備え、該温度センサによって計測された気温データに基づいて図２２における音速Ｖｓを補正して、正確なＴｍａｘを求めるように実施することも可能である。

あるいは、本発明は装置に所定の間隔を空けて配置された音波の発信手段と受信手段とを備え、該発信手段を発した音波が該受信手段に到達するまでの時刻を計測手段で測ることで、直接的に音速Ｖｓを計算・補正して、正確なＴｍａｘを求めるように実施することも可能である。

［φの等間隔化のためのθの不等間隔化］
また、本発明は直線群の傾きを得るためにハフ変換を実行する際にθを例えば１°刻みというように量子化を行うが、このようにθを等間隔に刻むと推定可能な音源方向φの値が不等間隔に量子化されてしまう。そこで、本発明はφを等間隔とするようにθの量子化を行うことで、音源方向の推定精度に粗密が生じにくいように実施することも可能である。

［図形照合のバリエーション］
上述した音源成分照合部３１５は、異なる対による音源ストリーム（図形の時系列）をその同時刻の周波数成分の類似性に基づいて照合する手段であった。この照合方法は、検出すべき音源が複数同時に存在するときに、各音源音声の周波数成分の違いを手掛かりに分離抽出することを可能にする。

一方、運用目的によっては、同時に検出すべき音源は最も強い一つであったり、最も継続時間の長い一つであったりすることもある。そこで、前記音源成分照合部３１５は、各対においてパワーが最大となる音源ストリーム同士を対応付けたり、継続期間が最長となる音源ストリーム同士を対応付けたり、継続期間の重なりが最も長い音源ストリーム同士を対応付けたりできるオプションを備えているように実施することも可能である。このオプションの切り替えはパラメータとして設定変更可能とする。

［他のセンサの指向性制御］
前記音源存在範囲推定部４０１において、前記（算出方式２）によって、前記同心球面上の離散的な点から最小二乗誤差の条件を満たす点を探索することで、最も誤差の少ない点の位置を音源の空間的存在範囲として求めた。このとき、最も誤差の少ない点以外に、２番目に誤差の少ない点、３番目に誤差の少ない点というように、誤差の少なさで上位ｋ位までの点を求めることが可能である。装置がカメラなどの他のセンサを具備して、音源の方向に該カメラを向けるような用途に際して、前記求められた上位ｋ位までの点に、誤差の少ない順でカメラを向けつつ、目標となる何らかの物体を視覚的に検出することが可能である。点の方位と距離が判っているので、カメラのアングルとズームを適切に制御することができる。このようにすることで、音源位置に存在するであろう視覚対象物を効率良く探索・検出することが可能になる。具体的には、声がした方向にカメラを向けて顔を見つけるという用途などに適用可能である。

上記非特許文献２による方法は、周波数分解データから調波構造を構成する基本周波数成分とその高調波成分を検出することで、音源の数、方向、成分の推定を行っている。調波構造を仮定することから、この方法は人間の声に特化したものであると云える。しかし、実際の環境では、ドアの開閉音など、調波構造を持たない音源も多く存在するため、この方法ではそのような音源音を扱うことができない。

また、上記非特許文献１による方法は、特定のモデルに縛られないが、２つのマイクロホンを使う限り、扱うことのできる音源は一つに限られてしまう。

一方、本発明の実施形態によれば、ハフ変換を使って周波数成分毎の位相差を音源毎のグループに分けることで、２つのマイクロホンを使いながら２つ以上の音源を定位し、かつ分離する機能を実現する。このとき、調波構造のような限定的なモデルを使用しないので、より広範な性質の音源に適用することができる。

本発明の実施形態が奏する他の作用効果を纏めると以下の通りである。

・ハフ投票に際して周波数成分の多い音源やパワーの強い音源の検出に適した投票方法を使うことで、幅広い種類の音源を安定に検出することができる。

・直線検出に際してρ＝０の制約や位相差循環の考慮を行うことで、効率良くかつ精度良く音源を検出することができる。

・直線検出結果を用いて、音響信号の発生源たる音源の空間的な存在範囲、音源を発した音源音の時間的な存在期間、音源音の成分構成、音源音の分離音声、音源音の記号的内容を含む有益な音源情報を求めることができる。

・各音源音の周波数成分を推定する際に、単純に直線近傍の成分を選択したり、ある成分がどの直線に帰属するかを判定したり、各直線と成分の距離に応じた係数掛けを行うことで、簡便な方法で音源音を個々に分離することができる。

・各音源の方向を予め知ることで、適応アレイ処理の指向性範囲を適応的に設定して、より高精度に音源音を分離することができる。

・各音源音を高精度に分離して認識することで、音源音の記号的内容を判別することができる。

・利用者が本装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後調整済みの状態で本装置を利用したりすることが可能になる。

・一つのマイク対から音源方向の推定を行い、その結果を複数のマイク対について照合・統合することで音源の方向ではなくその空間位置を推定することが可能になる。

・一つの音源について複数のマイク対の中から適切なものを選ぶことで、単一のマイク対では悪条件となる音源に対して好条件のマイク対の音声から音源音声を品質良く抽出し、認識することが可能になる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係る音響信号処理装置の機能ブロック図音源方向と、音響信号において観察される到達時間差とを示す図フレームとフレームシフト量との関係を示す図ＦＦＴ処理の手順および短時間フーリエ変換データを示す図２次元データ化部および図形検出部のそれぞれの内部構成を示す機能ブロック図位相差算出の手順を示す図座標値計算の手順を示す図同一時間について周波数と位相との間の比例関係、および同一時間差について位相差と周波数との間の比例関係を示す図位相差の循環性を説明するための図複数の音源が存在する場合の周波数と位相差のプロット図直線ハフ変換について説明するための図ハフ変換により点群から直線を検出することについて説明するための図投票される平均パワーの関数（計算式）を示す図実際の音声から生成された周波数成分、位相差プロット図、ハフ投票結果を示す図実際のハフ投票結果から求められた極大位置と直線を示す図 θとΔρの関係を示す図２人の人物の同時発話時の周波数成分、位相差プロット図、ハフ投票結果を示す図 θ軸上の得票値のみで極大位置を探索した結果を示す図 Δρずつ離れた数箇所の得票値を合計して極大位置を探索した結果を示す図図形照合部の内部構成を示すブロック図方向推定を説明するための図 θとΔＴとの関係を示す図複数音源存在時の音源成分推定（距離閾値方式）について説明するための図最近傍方式について説明するための図係数αの計算式の例とそのグラフを示す図 φの時間軸上の追跡を説明した図音響信号処理装置が実行する処理の流れを示すフローチャート周波数と表現可能な時間差との関係を示す図冗長点を生成した場合における時間差のプロット図音源情報生成部の内部構成を示すブロック図本発明に係る音響信号処理機能を汎用コンピュータを用いて実現する実施形態に係る機能ブロック図本発明に係る音響信号処理機能を実現するためのプログラムを記録した記録媒体による実施形態を示した図

符号の説明

１ａ，１ｂ…マイク；
２…音響信号入力部；
３…周波数分解部；
４…２次元データ化部；
５…図形検出部；
６…図形照合部；
７…音源情報生成部；
８…出力部；
９…ユーザインタフェース部

Claims

異なるｎ（ｎは３以上の数）地点で捉えられた、音源からの音声を含むｎ個の音響信号を入力する音響信号入力手段と、
前記音響信号の各々を複数の周波数成分に分解し、周波数成分毎の位相情報を含むｎ個の周波数分解情報を得る周波数分解手段と、
前記ｎ個の周波数分解情報を互いに異なるｍ（ｍは２以上の数）個の対と成し、前記ｍ個の対毎に、該対を成す２つの前記周波数分解情報間の前記周波数成分毎の位相差を算出し、位相差のスカラ倍をＸ座標軸、周波数のスカラ倍をＹ座標軸とするＸ−Ｙ座標系上に、前記周波数成分を点（ｘ，ｙ）として配置して成る２次元データを生成する２次元データ化手段と、
前記ｍ個の２次元データのそれぞれについて、前記Ｘ−Ｙ座標系の原点から前記点（ｘ，ｙ）を通る直線に下ろした垂線のＸ軸正方向からの角度をθ（以下、「直線の傾きθ」という。）とし、該垂線の長さをρとする直線ハフ変換
ρ＝ｘ・ｃｏｓθ＋ｙ・ｓｉｎθ ｛θ：−π＜θ≦π｝
により前記点（ｘ，ｙ）をθ−ρ座標系上の軌跡に変換し、θ−ρ座標系を持つ投票空間上で該軌跡が通過する位置に所定の投票値を投票することで第一の得票分布Ｓ（θ，ρ）を生成し、同一θについて、得票値Ｓ（θ，０）と、θが０でないとき、ａを自然数として、
Δρ（θ）＝２（π・ｃｏｓθ）：θ＞０，
Δρ（θ）＝−２（π・ｃｏｓθ）：θ＜０
ずつ離れた位置の得票値Ｓ（θ，ａΔρ）とをａΔρが前記投票空間をはみ出さない限り合算して成る第二の得票分布
Ｈ（θ）＝Ｓ（θ，０）＋ΣＳ（θ，ａΔρ）：θ≠０，
Ｈ（θ）＝Ｓ（θ，０）：θ＝０
を生成し、前記第二の得票分布Ｈ（θ）上の得票値が所定閾値以上となる極大位置を上位所定数まで検出することにより、該極大位置となるθを傾きとし、前記Ｘ−Ｙ座標系の原点を通る直線を検出する図形検出手段と、
前記検出された直線をそれぞれ音源候補と成し、音源候補たる前記直線の傾きθから当該音源候補の前記音響信号入力手段に対する方位角φを算定し、また、前記Ｘ−Ｙ座標系上での前記直線と前記点との距離によって当該音源候補の周波数成分を推定し、
前記対毎に、時系列で生成される前記音源候補について、時間軸方向に所定時間閾値Δｔ以内で近接する音源候補間の前記方位角φの差が所定角度閾値Δφ以内にある音源候補をグループ化し、その継続時間を求め、該継続時間が所定閾値以上の前記グループを音源音に基づく音源ストリームとし、
さらに、異なる対に属する前記音源ストリーム間で、同時刻の音源候補の前記推定された周波数成分からそれらの類似度を計算し、該類似度の関数が所定閾値以上で最大となる音源ストリーム同士を同一音源に由来する音源ストリームとして対応付ける音源候補情報生成手段と、
前記対応付けられた音源ストリームの一組を一つの検出された音源とし、該組の数を検出された音源の数とし、前記各組について、該組を構成する前記音源ストリームに属する音源候補の同時刻における前記方位角φの組に基づいて前記音源の空間的な存在範囲を算定する音源情報生成手段と、
を具備する音響信号処理装置。
前記周波数分解情報が前記周波数成分のパワー値を含み、前記所定の投票値が、前記周波数成分のパワー値の関数であることを特徴とする請求項１記載の音響信号処理装置。
前記音源情報生成手段が、前記音源として組を成す前記音源ストリームの一つを選択し、該音源ストリームに属する音源候補の前記方位角φの最大値と最小値から中間値φｍｉｄを求め、この中間値φｍｉｄに相当する到達時間差をキャンセルするように該音源ストリームに対応する２つの前記周波数分解情報を同相化し、この同相化された周波数分解データに対して正面０°方向に指向性を持つ適応アレイ処理を施すことにより、前記音源の周波数成分の時系列データを分離抽出することを特徴とする請求項１に記載の音響信号処理装置。
前記音源情報生成手段が、前記分離抽出された周波数成分の時系列データを解析照合処理することで、前記周波数成分の時系列データの言語的な意味、音源の種別、話者の別の少なくとも一つを含む記号的内容を表す記号もしくは記号列を生成することを特徴とする請求項３に記載の音響信号処理装置。
異なるｎ（ｎは３以上の数）地点で音響信号入力手段により捉えられた、音源からの音声を含むｎ個の音響信号を入力する音響信号入力ステップと、
前記音響信号の各々を複数の周波数成分に分解し、周波数成分毎の位相情報を含むｎ個の周波数分解情報を得る周波数分解ステップと、
前記ｎ個の周波数分解情報を互いに異なるｍ（ｍは２以上の数）個の対と成し、前記ｍ個の対毎に、該対を成す２つの前記周波数分解情報間の前記周波数成分毎の位相差を算出し、位相差のスカラ倍をＸ座標軸、周波数のスカラ倍をＹ座標軸とするＸ−Ｙ座標系上に、前記周波数成分を点（ｘ，ｙ）として配置して成る２次元データを生成する２次元データ化ステップと、
前記ｍ個の２次元データのそれぞれについて、前記Ｘ−Ｙ座標系の原点から前記点（ｘ，ｙ）を通る直線に下ろした垂線のＸ軸正方向からの角度をθ（以下、「直線の傾きθ」という。）とし、該垂線の長さをρとする直線ハフ変換
ρ＝ｘ・ｃｏｓθ＋ｙ・ｓｉｎθ ｛θ：−π＜θ≦π｝
により前記点（ｘ，ｙ）をθ−ρ座標系上の軌跡に変換し、θ−ρ座標系を持つ投票空間上で該軌跡が通過する位置に所定の投票値を投票することで第一の得票分布Ｓ（θ，ρ）を生成し、同一θについて、得票値Ｓ（θ，０）と、θが０でないとき、ａを自然数として、
Δρ（θ）＝２（π・ｃｏｓθ）：θ＞０，
Δρ（θ）＝−２（π・ｃｏｓθ）：θ＜０
ずつ離れた位置の得票値Ｓ（θ，ａΔρ）とをａΔρが前記投票空間をはみ出さない限り合算して成る第二の得票分布
Ｈ（θ）＝Ｓ（θ，０）＋ΣＳ（θ，ａΔρ）：θ≠０，
Ｈ（θ）＝Ｓ（θ，０）：θ＝０
を生成し、前記第二の得票分布Ｈ（θ）上の得票値が所定閾値以上となる極大位置を上位所定数まで検出することにより、該極大位置となるθを傾きとし、前記Ｘ−Ｙ座標系の原点を通る直線を検出する図形検出ステップと、
前記検出された直線をそれぞれ音源候補と成し、音源候補たる前記直線の傾きθから当該音源候補の前記音響信号入力手段に対する方位角φを算定し、また、前記Ｘ−Ｙ座標系上での前記直線と前記点との距離によって当該音源候補の周波数成分を推定し、
前記対毎に、時系列で生成される前記音源候補について、時間軸方向に所定時間閾値Δｔ以内で近接する音源候補間の前記方位角φの差が所定角度閾値Δφ以内にある音源候補をグループ化し、その継続時間を求め、該継続時間が所定閾値以上の前記グループを音源音に基づく音源ストリームとし、
さらに、異なる対に属する前記音源ストリーム間で、同時刻の音源候補の前記推定された周波数成分からそれらの類似度を計算し、該類似度の関数が所定閾値以上で最大となる音源ストリーム同士を同一音源に由来する音源ストリームとして対応付ける音源候補情報生成ステップと、
前記対応付けられた音源ストリームの一組を一つの検出された音源とし、該組の数を検出された音源の数とし、前記各組について、該組を構成する前記音源ストリームに属する音源候補の同時刻における前記方位角φの組に基づいて前記音源の空間的な存在範囲を算定する音源情報生成ステップと、を具備する音響信号処理方法。
異なるｎ（ｎは３以上の数）地点で音響信号入力手段により捉えられた、音源からの音声を含むｎ個の音響信号を入力する音響信号入力手順と、
前記音響信号の各々を複数の周波数成分に分解し、周波数成分毎の位相情報を含むｎ個の周波数分解情報を得る周波数分解手順と、
前記ｎ個の周波数分解情報を互いに異なるｍ（ｍは２以上の数）個の対と成し、前記ｍ個の対毎に、該対を成す２つの前記周波数分解情報間の前記周波数成分毎の位相差を算出し、位相差のスカラ倍をＸ座標軸、周波数のスカラ倍をＹ座標軸とするＸ−Ｙ座標系上に、前記周波数成分を点（ｘ，ｙ）として配置して成る２次元データを生成する２次元データ化手順と、
前記ｍ個の２次元データのそれぞれについて、前記Ｘ−Ｙ座標系の原点から前記点（ｘ，ｙ）を通る直線に下ろした垂線のＸ軸正方向からの角度をθ（以下、「直線の傾きθ」という。）とし、該垂線の長さをρとする直線ハフ変換
ρ＝ｘ・ｃｏｓθ＋ｙ・ｓｉｎθ ｛θ：−π＜θ≦π｝
により前記点（ｘ，ｙ）をθ−ρ座標系上の軌跡に変換し、θ−ρ座標系を持つ投票空間上で該軌跡が通過する位置に所定の投票値を投票することで第一の得票分布Ｓ（θ，ρ）を生成し、同一θについて、得票値Ｓ（θ，０）と、θが０でないとき、ａを自然数として、
Δρ（θ）＝２（π・ｃｏｓθ）：θ＞０，
Δρ（θ）＝−２（π・ｃｏｓθ）：θ＜０
ずつ離れた位置の得票値Ｓ（θ，ａΔρ）とをａΔρが前記投票空間をはみ出さない限り合算して成る第二の得票分布
Ｈ（θ）＝Ｓ（θ，０）＋ΣＳ（θ，ａΔρ）：θ≠０，
Ｈ（θ）＝Ｓ（θ，０）：θ＝０
を生成し、前記第二の得票分布Ｈ（θ）上の得票値が所定閾値以上となる極大位置を上位所定数まで検出することにより、該極大位置となるθを傾きとし、前記Ｘ−Ｙ座標系の原点を通る直線を検出する図形検出手順と、
前記検出された直線をそれぞれ音源候補と成し、音源候補たる前記直線の傾きθから当該音源候補の前記音響信号入力手段に対する方位角φを算定し、また、前記Ｘ−Ｙ座標系上での前記直線と前記点との距離によって当該音源候補の周波数成分を推定し、
前記対毎に、時系列で生成される前記音源候補について、時間軸方向に所定時間閾値Δｔ以内で近接する音源候補間の前記方位角φの差が所定角度閾値Δφ以内にある音源候補をグループ化し、その継続時間を求め、該継続時間が所定閾値以上の前記グループを音源音に基づく音源ストリームとし、
さらに、異なる対に属する前記音源ストリーム間で、同時刻の音源候補の前記推定された周波数成分からそれらの類似度を計算し、該類似度の関数が所定閾値以上で最大となる音源ストリーム同士を同一音源に由来する音源ストリームとして対応付ける音源候補情報生成手順と、
前記対応付けられた音源ストリームの一組を一つの検出された音源とし、該組の数を検出された音源の数とし、前記各組について、該組を構成する前記音源ストリームに属する音源候補の同時刻における前記方位角φの組に基づいて前記音源の空間的な存在範囲を算定する音源情報生成手順と、をコンピュータに実行させるための音響信号処理プログラム。
請求項６に記載の音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体。