JP2024008102A

JP2024008102A - 信号処理装置、信号処理プログラム及び信号処理方法

Info

Publication number: JP2024008102A
Application number: JP2022109670A
Authority: JP
Inventors: 大藤枝; Masaru Fujieda
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2024-01-19

Abstract

【課題】複数の話者が目的エリア内に存在する場合でも、発話内容を話者ごとに区別する。【解決手段】本発明は、信号処理装置、信号処理プログラム及び信号処理方法に関する。そして、本発明の信号処理装置は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、それぞれのビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、振幅スペクトル比率取得手段が取得した振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段とを有することを特徴とする。【選択図】図１

Description

この発明は信号処理装置、信号処理プログラム及び信号処理方法に関し、例えば、特定のエリアを音源とする音を強調し、それ以外のエリアを音源とする音を抑制する処理を行うシステムに適用し得る。

雑音環境下で音声認識システムを利用する場合、必要な目的音と同時に混入する周囲の雑音は、収録された音声の音声認識率の低下をもたらす厄介な存在である。

従来、このような複数の音源が存在する環境下において、特定の方向の音のみ分離・収音することで、不要音の混入を避け必要な目的音を得る技術として、マイクアレイを用いたビームフォーミング（ＢｅａｍＦｏｒｍｉｎｇ；以下、「ＢＦ」とも呼ぶ）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である（非特許文献１参照）。ＢＦは、遅延和ＢＦと減算型ＢＦの大きく２つの種類に分けられる。特に減算型ＢＦは、遅延和ＢＦに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図６は、マイクロホン数が２個（Ｍ１、Ｍ２）の場合の減算型ＢＦ４００に係る構成を示すブロック図である。

ここでは、マイクロホン数が２個（Ｍ１、Ｍ２）のマイクアレイにおいて、マイクロホンＭ１、Ｍ２の時間領域の入力信号をそれぞれｘ_１、ｘ_２と表し、マイクロホンＭ１、Ｍ２の周波数領域の入力信号をそれぞれＸ_１、Ｘ_２と表すものとする。

減算型ＢＦ４００は、遅延器４１０と減算器４２０を有している。減算型ＢＦ４００は、目的方向に存在する目的音が各マイクロホンに到来する信号の時間差を算出し、遅延器４１０により遅延を加えることにより目的音の位相を合わせる。このときの時間差は下記（１）式により算出される。ここで、ｄはマイクロホン間の距離であり、ｃは音速であり、τ_Ｌは遅延量であり、θ_Ｌは各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。

また、ここで、遅延器４１０は、死角がマイクロホンＭ１とマイクロホンＭ２の中間点（マイクロホンＭ１、Ｍ２の位置を結んだ線の中間点）に対し、マイクロホンＭ１の方向に存在する場合、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、減算器４２０が、（２）式に従った減算処理を行う。減算器４２０では、周波数領域でも同様に減算処理を行うことができ、その場合（２）式は以下の（３）式のように変更される。

図７は、減算型ＢＦ４００により形成される指向性フィルタの例について示した図である。図７では、マイクロホンＭ１、Ｍ２の位置を結んだ線の中間点を原点とした指向性について点線で図示している。

（３）式において、θ_Ｌ＝±π／２の場合、形成される指向性は図７（ａ）に示すようなカージオイド型の単一指向性となり、θ_Ｌ＝０，πの場合は、図７（ｂ）に示すような８の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼称する。

また、スペクトル減算法を用いることで、双指向性の視覚に強い指向性を形成することもできる。スペクトル減算による指向性は、（４）式に従い、全周波数、もしくは指定した周波数帯域で形成される。なお、（４）式において、｜Ｖ｜は変数ｖの絶対値を得る演算子である。（４）式では、マイクロホン１の入力信号Ｘ_１（ω）を用いているが、マイクロホン２の入力信号Ｘ_２（ω）でも同様の効果を得ることができる。ここで、βはスペクトル減算の強度を調節するための係数である。減算時に値がマイナスになった場合は、０または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音（非目的音とも呼ぶ）を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音方向を強調することができる。

｜Ｙ（ω）｜＝｜Ｘ_１（ω）｜－β｜Ｍ（ω）｜ …（４）
また、特定のエリア（目的エリアとも呼ぶ）だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する音源も収音してしまう可能性がある。そこで、特許文献１～３の記載技術では、複数のマイクアレイを用い、それぞれ別の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的音を収音する「エリア収音処理」を提案している。

次に、特許文献３に記載の技術について説明する。

図８は、２つのマイクアレイＭＡ１、ＭＡ２を用いて、目的エリアの音源からの目的音を収音する処理について示した説明図である。図８（ａ）は、各マイクアレイの構成例について示した説明図である。図８（ｂ）、図８（ｃ）は、それぞれ図８（ａ）に示すマイクアレイＭＡ１、ＭＡ２のＢＦ出力について周波数領域で示したグラフ（イメージ図）である。従来のエリア収音処理では、図８（ａ）に示すように、マイクアレイＭＡ１、ＭＡ２の指向性を別々の方向から目的エリアで交差させて収音する。図８（ａ）の状態では、各マイクアレイＭＡ１、ＭＡ２の指向性に目的音だけでなく非目的音も含まれている。しかし、図８（ｂ）、図８（ｃ）に示すように、マイクアレイＭＡ１、ＭＡ２のＢＦ出力に、共通に含まれる成分以外を抑圧することで目的音のみ抽出することができる。

従来のエリア収音では、まず各マイクアレイのＢＦ出力に含まれる目的音（目的エリアを音源とする目的エリア音）の振幅スペクトルの比率を推定し、それを補正係数とする。例として、２つのマイクアレイを使用する場合、目的音振幅スペクトルの補正係数（以下、「振幅スペクトル補正係数」又は単に「補正係数」と呼ぶ）αは、例えば（５）式により算出される。（５）式において、Ｙ_１（ω）、Ｙ_２（ω）はそれぞれマイクアレイＭＡ１、ＭＡ２のＢＦ出力の振幅スペクトルである。また、ｍｏｄｅ_ω（ｆ（ω））は周波数ωに関して関数ｆ（ω）の最頻値を得る演算子であり、例えば最頻値はヒストグラムを作成して得る。また、例えば、最頻値に替えて、最頻値の近似値である中央値を用いても良い。

次に、（６）式に示すように、ＢＦ間振幅比αによりＢＦ出力を補正してスペクトル減算することで、ＢＦ出力に含まれる非目的音Ｎを抽出する。さらに、（７）式に示すように、抽出した非目的音をＢＦ出力からスペクトル減算することで、目的音Ｚ（目的エリアを音源とする音の成分を抽出（強調）した信号；以下、「目的エリア音強調音」とも呼ぶ）を抽出することができる。ここで、γはスペクトル減算の強度を調節するための係数である。
｜Ｎ（ω）｜＝｜Ｙ_１（ω）｜－α｜Ｙ_２（ω）｜ …（６）
｜Ｚ（ω）｜＝｜Ｙ_１（ω）｜－γ｜Ｎ（ω）｜ …（７）

背景雑音が強い場合、目的音Ｚには消しきれなかった雑音が残り、ミュージカルノイズなど耳障りな異音が発生することがある。そこで、マイクアレイの入力信号と抽出した目的音とを比較して、目的音の有無を判定して、目的音が存在しない場合には無音もしくは小さな音を出力するようにする。具体的には、（８）式によって入出力間振幅比Ｕを計算する。そして、入出力間振幅比Ｕが所定の閾値以上であれば目的音が存在すると判定し、入出力間振幅比Ｕが該閾値未満であれば目的音は存在しないと判定する。なお、目的音の有無の判定は、入出力間振幅比Ｕが閾値よりも一定以上大きい場合、その後の数秒間は、入出力間振幅比Ｕの値に関わらず目的音が存在すると判定する処理（ハングオーバー機能に対応する処理）を追加するようにしてもよい。

以上の通り、特許文献３の手法を用いれば、複数のマイクアレイの指向性を異なる方向から目的エリアに向けて交差させ、各マイクアレイのＢＦ出力から共通に含まれる成分を抽出することにより、周囲に種々の不要音源が存在する環境であっても、特定のエリアの音を強調・収音することができる。

また、特許文献４に記載の技術は、対面の相談窓口のような対話録音システムにおいて、応対者席とカウンターを挟んで対面する相談者席の２つのエリアを個別に強調・収録する効果的なマイク配置を提案している。特許文献４のマイク配置を用いれば、２つのエリアに分かれて発話している複数の話者の音声を個別に強調・収音することができる。

特開２０１３－１８３３５８号公報特開２０１４－０７２７０８号公報特開２０１６－１２７４５７号公報特開２０２０－１５５９７１号公報

浅野太著，"音響テクノロジーシリーズ１６音のアレイ信号処理－音源の定位・追跡と分離－"，日本音響学会編，コロナ社，２０１１年２月２５日発行

しかしながら、特許文献１～４に記載の技術は、目的エリア内に存在する複数の音源を１つの目的音として抽出してしまうという問題がある。また、特許文献４に記載の技術は、２つのエリアに分かれて発話している複数の話者の音声を個別に強調・収音することはできるが、１つのエリアに集合して発話している複数の話者の音声に対しては、特許文献１～３に記載の技術と同様に１つの目的音として抽出してしまう。

従って、特許文献１～４の記載技術では、複数の話者が目的エリア内で順次または同時に発話していた場合、発話内容を話者ごとに区別することはできない問題があった。

以上のような問題に鑑みて、複数の話者が目的エリア内に存在する場合でも、発話内容を話者ごとに区別することができる信号処理装置、信号処理プログラム及び信号処理方法が望まれている。

第１の本発明の信号処理装置は、（１）複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、（２）それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、（３）前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段とを有することを特徴とする。

第２の本発明の信号処理プログラムは、コンピュータを、（１）複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、（２）それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、（３）前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段として機能させることを特徴とする。

第３の本発明は、信号処理装置が行う信号処理方法において、（１）前記信号処理装置は、指向性形成手段、振幅スペクトル比率取得手段、及び音源位置特徴量取得手段を備え、（２）前記指向性形成手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得、（３）前記振幅スペクトル比率取得手段は、それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得し、（４）前記音源位置特徴量取得手段は、前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得することを特徴とする。

本発明によれば、複数の話者が目的エリア内に存在する場合でも、発話内容を話者ごとに区別することができる信号処理装置、信号処理プログラム及び信号処理方法を提供することができる。

第１の実施形態に係る信号処理装置の機能的構成について示したブロック図である。第１の実施形態に係る信号処理装置のハードウェア構成の例について示したブロック図である。第１の実施形態において、目的エリアを含む領域における位置毎の補正係数の分布（シミュレーション結果）の例について示したグラフである。第２の実施形態に係る信号処理装置の機能的構成について示したブロック図である。第３の実施形態に係る信号処理装置の機能的構成について示したブロック図である。従来の減算型ＢＦの構成を示すブロック図である。従来の減算型ＢＦにより形成される指向性フィルタの例について示した図である。従来の収音装置において、２つのマイクアレイのビームフォーマ（ＢＦ）による指向性を別々の方向から目的エリアへ向けた場合の構成例について示した説明図である。

（Ａ）第１の実施形態
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第１の実施形態を、図面を参照しながら詳述する。

（Ａ－１）第１の実施形態の構成
図１は、この実施形態の信号処理装置１００の機能的構成について示したブロック図である。

信号処理装置１００は、２つのマイクアレイＭＡ（ＭＡ１、ＭＡ２）が捕捉した音響信号に基づいて、目的エリア内で発話している話者の位置に関する発話位置特徴量Ｐを算出する処理等を行う。

ここで、マイクロホンアレイＭＡ１、ＭＡ２は、目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクロホンアレイＭＡ１、ＭＡ２の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイＭＡは、それぞれＮ個（Ｎは２以上の整数）のマイクロホンＭ（Ｍ１～ＭＮ）で構成することができ、各マイクロホンＭにより音響信号を収音する。なお、この実施形態では、好適な例として、各マイクロホンアレイＭＡに、音響信号を収音する２つのマイクロホンＭ（Ｍ１、Ｍ２；つまりＮ＝２）が配置され構成について説明する。

次に、信号処理装置１００の内部構成について説明する。

信号処理装置１００は、周波数解析手段１０３、第１の指向性形成手段１０４、第２の指向性形成手段１０５、振幅比算出手段１０６及び特徴抽出手段１０７を有している。信号処理装置１００による処理の詳細については後述する。

なお、この実施形態では、各マイクアレイＭＡに、信号変換機能（ＡＣ／ＤＣ変換機能）が備えられているものとして説明するが、信号変換機能（ＡＣ／ＤＣ変換機能）については、信号処理装置１００側で備える構成としてもよい。つまり、信号処理装置１００は、各マイクアレイＭＡからアナログ信号の供給を受けて、図示しない信号変換手段によりデジタル信号に変換するようにしてもよい。

次に、信号処理装置１００のハードウェア構成の例について説明する。

信号処理装置１００は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。信号処理装置１００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の信号処理プログラムを含む）をインストールすることにより構成するようにしてもよい。

図２は、信号処理装置１００のハードウェア構成の例について示したブロック図である。

図２では、信号処理装置１００を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

図２に示す信号処理装置１００は、ハードウェア的な構成要素として、プログラム（実施形態の信号処理プログラムを含む）がインストールされたコンピュータ４００を有している。また、コンピュータ４００は、信号処理プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

図２に示すコンピュータ４００は、プロセッサ４０１、一次記憶部４０２、及び二次記憶部４０３を有している。一次記憶部４０２は、プロセッサ４０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部４０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る信号処理プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨ（登録商標）メモリやＨＤＤやＳＳＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ４００では、プロセッサ４０１が起動する際、二次記憶部４０３に記録されたＯＳやプログラム（実施形態に係る信号処理プログラムを含む）を読み込み、一次記憶部４０２上に展開して実行する。

なお、コンピュータ４００の具体的な構成は図２の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部４０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部４０３については除外した構成としてもよい。

（Ａ－２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の信号処理装置１００の動作（実施形態に係る信号処理方法）を説明する。

第１のマイクアレイＭＡ１と第２のマイクアレイＭＡ２は、捕捉した音響信号を、アナログ信号からデジタル信号へと変換して、得られたデジタル信号（以下、このデジタル信号を「入力信号」と呼ぶ）を周波数解析手段１０３に供給する。

周波数解析手段１０３は、入力信号に対して任意の周波数解析を行った結果得られたスペクトル（以下、「入力スペクトル」と呼ぶ）を、第１の指向性形成手段１０４と第２の指向性形成手段１０５に供給する。周波数解析手段１０３は、第１のマイクアレイＭＡ１からの入力信号に基づく入力スペクトルを第１の指向性形成手段１０４に供給し、第２のマイクアレイＭＡ２からの入力信号に基づく入力スペクトルを第２の指向性形成手段１０５に供給する。なお、ここでは、各マイクアレイにおいて、マイクロホンＭ１、Ｍ２の入力スペクトル（周波数領域の入力信号）を、それぞれＸ_１、Ｘ_２とする。

周波数解析手段１０３において、適用される周波数解析方法は限定されないものであり、種々の方式を適用することができる。周波数解析手段１０３における周波数解析方法は、高速フーリエ変換が好適であるが、離散ガボール変換やウェーブレット変換、フィルタバンク等を用いても良い。

第１の指向性形成手段１０４および第２の指向性形成手段１０５は、それぞれ供給された複数の入力スペクトルに基づいて任意のＢＦ方法を用いて正面方向に指向性を形成し、得られたＢＦ出力の振幅スペクトル（以下、「ＢＦスペクトル」とも呼ぶ）を振幅比算出手段１０６に供給する。

第１の指向性形成手段１０４および第２の指向性形成手段１０５において、ＢＦ方法には、任意の方法を用いることができるが、マイクアレイを構成するマイクロホンの数を２個とする場合、（３）式および（４）式によるＢＦ方法を用いるのが好適である。例えば、第１の指向性形成手段１０４および第２の指向性形成手段１０５は、（３）式によって２つの入力スペクトルＸ_１（ω）、Ｘ_２（ω）から非目的音のスペクトルＭ（ω）を抽出し、（４）式によって入力信号の振幅スペクトル｜Ｘ_１（ω）｜から抽出した非目的音の振幅スペクトル｜Ｍ（ω）｜をスペクトル減算することで、目的音方向（目的エリア方向）を強調する。

振幅比算出手段１０６は、供給された２つのＢＦスペクトルに基づいて、目的音（目的エリアを音源とする音）が２つのマイクアレイに収音される比率を算出し、得られたＢＦ間振幅比を特徴抽出手段１０７に供給する。

振幅比算出手段１０６は、（６）式に従って、補正係数αを算出する。この補正係数αは、目的音が２つのマイクアレイに収音される比率そのものを表す性質を備えるため、以下ではαを「ＢＦ間振幅比」とも呼ぶものとする。

図３は、マイクアレイＭＡ１、ＭＡ２及び目的エリアが存在する領域における位置毎のＢＦ間振幅比（補正係数）αの分布（シミュレーション結果）について示したグラフである。

図３では、マイクロホンアレイＭＡ１、ＭＡ２の位置、及びマイクロホンアレイＭＡ１、ＭＡ２によるＢＦの指向性の交点の位置Ｐ１に星形のマーク（図形）を付している。そして、図３では、位置Ｐ１の周囲における補正係数の値を示している。図３では、上述の補正係数の大小を当該領域の色の濃淡（点描の粗密）で示しており、濃度が濃い（点描の密度が高い）ほど、補正係数の小さい領域であることを示している。言い換えると、図３では、濃度が薄い（点描の密度が低い）ほど、補正係数の大きい領域であることを示している。図３では、マイクロホンアレイＭＡ１、ＭＡ２の間の中間点で、マイクロホンアレイＭＡ１、ＭＡ２を結んだ線に直交する中心線Ｌ１（マイクロホンアレイＭＡ１、ＭＡ２間の線分の垂直二等分線）を図示している。位置Ｐ１は中心線Ｌ１上に存在するものとする。また、図３では、補正係数が同じ値となる線状の部分に白色の等高線を付している。さらに、図３では、グラフの右側に、グラフ内の補正係数に対応するカラーチャート（パターンチャート）を付記している。

図３のシミュレーションでは、マイクアレイＭＡ１、ＭＡ２の設置角度（２つのマイクアレイＭＡ１、ＭＡ２の間を結んだ直線とマイクロホンＭ１、Ｍ２の間を結んだ直線とが成す角度）をいずれも４５度とし、マイクアレイＭＡ１、ＭＡ２の間の距離を６０ｃｍとしている。そして、図３のシミュレーションでは、上記のような条件で、ＢＦ間振幅比（補正係数）αを、目的音の位置を変えて算出し、αの値の大きさの平均値をデシベル値（２０＊ｌｏｇ_１０（α））に変換してマッピングしている。なお、マイクアレイＭＡ１、ＭＡ２の設置角度や設置間隔については上記の例に限定されないものである。

ここで、例として、目的エリア内（位置Ｐ１の周辺）に２人の話者（目的音の音源）が存在する場合を想定する。このとき、図３において、第１の話者が（ｘ，ｙ）＝（－２０，＋２０）、第２の話者が（ｘ，ｙ）＝（＋２０，＋２０）の位置にいて、別々に、もしくは２人で会話をしている場合、第１の話者のＢＦ間振幅比αは大きく（正のデシベル値）、第２の話者の補正係数αは小さく（負のデシベル値）となる。また、例えば、同じく２人の話者がいて、図３において、第１の話者が（ｘ，ｙ）＝（－１０，＋２０）、第２の話者が（ｘ，ｙ）＝（－１０，＋５０）の位置にいて、別々に、もしくは２人で会話をしている場合、第１の話者のαは大きい値（正のデシベル値）となり、第２の話者のαは小さい値（負のデシベル値）となる。

以上のように、図３のシミュレーション結果等から、ＢＦ間振幅比（補正係数）αは、発話位置（目的音源位置）に応じて大きくなったり小さくなったりすることから、発話位置（目的音源位置）に関する特徴量となっていることがわかる。ただし、ＢＦ間振幅比αの算出には除算を含むことから、目的音のパワーが小さい場合（例えば、話者が無声子音を発声している場合など）には不安定となり、真の値からかけ離れて大きくなったり小さくなったりすることがある。そのため、信号処理装置１００では、特徴抽出手段１０７を設けて、上記のような外れ値を除去する処理等を行っている。

特徴抽出手段１０７は、ＢＦ間振幅比（補正係数）αを、所定の区間（所定期間）分保持し、保持したＢＦ間振幅比αに基づいて、目的音の音源の位置（目的音が発話音声の場合は話者の位置）を示す特徴量（以下、「目的音源位置特徴量」と呼ぶ）を取得する。この実施形態では、目的音は話者の発話音声であるため、特徴抽出手段１０７が取得する目的音源位置特徴量は、話者の位置を示す特徴量（以下、「発話位置特徴量」と呼ぶ）であるともいえる。この実施形態の例では、特徴抽出手段１０７は、保持した所定の区間のＢＦ間振幅比αの代表値を算出し、当該代表値を発話位置特徴量Ｐとして取得し、出力するものとする。

特徴抽出手段１０７による代表値の算出方法には、任意の方法を用いることができる。例えば、特徴抽出手段１０７は、直近の所定期間に算出された所定数のＢＦ間振幅比α（直近のαの時系列データ）から、平均値、最頻値又は中央値等の代表値（計算的な代表値）を取得し、当該代表値を発話位置特徴量Ｐとして取得するようにしてもよい。

外れ値を含む可能性のある数列における中央値は、最頻値の近似値であることに加え、時系列データの中央値を出力するフィルタは特別にメディアンフィルタと呼ばれ、外れ値を効率良く除去する平滑化フィルタとしてよく用いられる。そのため、特徴抽出手段１０７による代表値の算出には、直近におけるＢＦ間振幅比αの時系列データから、中央値を取得する方式が好適となる。そのため、この実施形態の例において、特徴抽出手段１０７は、直近におけるＢＦ間振幅比αの時系列データから、中央値を取得するものとする。

次に、特徴抽出手段１０７による具体的な処理の例について説明する。

ここでは、特徴抽出手段１０７は、ＢＦ間振幅比αを所定の区間分保持（αの時系列データを保持）するための手段（バッファ手段）としてバッファ１０７１を備えているものとする。ここでは、バッファ１０７１は、Ｍ個（Ｍは２以上の整数）のＢＦ間振幅比αを保持可能なバッファであるものとする。バッファ１０７１は、最も古いデータを捨て、振幅比算出手段１０６から供給されたαを新たに格納することで更新されるバッファ（いわゆるＦＩＦＯ（ＦｉｒｓｔＩｎＦｉｒｓｔＯｕｔ）バッファ）であるものとする。そして、特徴抽出手段１０７は、バッファ１０７１に格納されているＭ個のＢＦ間振幅比αの中央値（代表値）を算出し、発話位置特徴量Ｐとして得るものとする。

特徴抽出手段１０７が代表値を算出するための所定の区間（バッファ１０７１のバッファ長）は限定されないものであるが、発話位置特徴量Ｐの用途に応じて好適な値を適用することが望ましい。この実施形態の特徴抽出手段１０７において、代表値を算出するための所定の区間（バッファ１０７１のバッファ長）は、短すぎると外れ値を除去しきれず、長すぎると話者の切り替わりへの追従が遅れることになる。これらを考慮すると、バッファ１０７１のバッファ長は、１秒間程度（１秒間程度のサンプル数分のＢＦ間振幅比αを保持可能な長さ）とするのが好適である。

この実施形態の例において、特徴抽出手段１０７が発話位置特徴量Ｐを算出するタイミングや形式についても限定されないものである。また、特徴抽出手段１０７は、例えば、発話位置特徴量Ｐを外部装置に出力（供給）するようにしてもよいし、信号処理装置１００内（例えば、同じコンピュータ内）の他の処理手段（例えば、他のプログラム）に発話位置特徴量Ｐを出力（供給）するようにしてもよい。なお、以下では、特徴抽出手段１０７が発話位置特徴量Ｐを出力する先の外部装置やプログラム（同一コンピュータ内の他のプログラム）を総称して、単に「出力先」若しくは「供給先」と呼ぶものとする。つまり、特徴抽出手段１０７は、例えば、音響信号からの音声認識処理を含む処理を行う出力先（装置又はプログラム）に発話位置特徴量Ｐを含むデータを出力（供給）する。

特徴抽出手段１０７は、任意のタイミング（定期又は不定期のタイミング）で発話位置特徴量Ｐを算出するようにしてもよい。例えば、特徴抽出手段１０７は、バッファ１０７１のバッファ長に相当する期間ごと（上記の例だと１秒ごと）に発話位置特徴量Ｐを算出して出力先に出力するようにしてもよい。特徴抽出手段１０７は、発話位置特徴量Ｐを算出する都度リアルタイムに出力（逐次出力；オンライン出力）するようにしてもよいし、複数の発話位置特徴量Ｐを時系列データとしてまとめて出力（オフライン出力；バッチ出力）するようにしてもよい。また、特徴抽出手段１０７が発話位置特徴量Ｐを出力する際の出力データの形式についても限定されないものである。特徴抽出手段１０７は、例えば、発話位置特徴量Ｐをそのまま出力してもよいし、入力信号の時系列を示すインデックス（例えば、入力信号の時系列に対応するタイムスタンプやインデックス番号）等を付加して出力するようにしてもよい。

以上のように、信号処理装置１００（特徴抽出手段１０７）は、時系列ごとに発話位置特徴量Ｐを取得して出力する。また、上記のように、信号処理装置１００（特徴抽出手段１０７）が発話位置特徴量Ｐを出力する形式（データ形式）やタイミングは任意（出力先に合わせた形式やタイミング）とすることができる。

ここで、信号処理装置１００（特徴抽出手段１０７）が時系列ごとに取得する発話位置特徴量Ｐに対応する区間の音響信号（例えば、発話位置特徴量Ｐの算出の元となった入力信号と同じ区間の音響信号）を「対応音響信号」と呼ぶものとする。なお、以下では、「対応音響信号」と呼ぶ場合、マイクアレイＭＡ１、ＭＡ２のいずれかのマイクロホンが収音（捕捉）した音響信号そのものだけでなく、マイクアレイＭＡ１、ＭＡ２からの音響信号（入力信号）について任意の信号処理を行った結果得られた音響信号も含む概念であるものとする。対応音響信号としては、例えば、第１の指向性形成手段１０４又は第２の指向性形成手段１０５から出力される音響信号（いずれかのマイクアレイのＢＦ出力）や、マイクアレイＭＡ１、ＭＡ２からの音響信号（入力信号）について種々のエリア収音処理（例えば、特許文献１～３のいずれかの処理）を行った結果得られた音響信号（目的エリア音を抽出した音響信号）が該当する。なお、信号処理装置１００（特徴抽出手段１０７）は、時系列ごとに発話位置特徴量Ｐに任意の形式の対応音響信号を付加して出力するようにしてもよい。

次に、出力先（供給先）において、発話位置特徴量Ｐに基づいて話者ごとの発話音声を区別する具体的な例について説明する。

ここでは、図３のようにマイクアレイＭＡ１、ＭＡ２が配置されており、２人の話者が存在する場合を想定する。また、ここでは、発話位置特徴量Ｐの出力先（供給先）において、時系列ごとに、発話位置特徴量Ｐと共にエリア収音結果（マイクアレイＭＡ１、ＭＡ２からの入力信号に基づくエリア収音結果）が保持されているものとする。さらに、ここでは、第１の話者が（ｘ，ｙ）＝（－２０，＋２０）、第２の話者が（ｘ，ｙ）＝（＋２０，＋２０）の位置にいて、２人が交互に発話している場合を想定する。この場合、出力先（供給先）では、第１のマイクアレイＭＡ１または第２のマイクアレイＭＡ２を構成するいずれかのマイクロホンＭにより収音された音響信号を、発話位置特徴量Ｐの値（デシベル値）が正か負かによって２つに分けることで、音響信号（ここではエリア収音結果）を第１の話者の音響信号と第２の話者の音響信号とに分離することができる。出力先（供給先）では、このように分離した音響信号を、任意の音声処理（例えば、任意の音声認識処理）に供給することで、第１の話者と第２の話者のそれぞれの発話内容を分離して取得することができる。

（Ａ－３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の信号処理装置１００では、目的音の位置によって値が変化する発話位置特徴量Ｐが得られる。そのため、第１の実施形態では、発話位置特徴量Ｐの出力先（供給先）において、抽出された目的音が、同一話者（同じ位置で発話した音声）か、異なる話者（異なる位置で発話した音声）かを発話位置特徴量によって区別すること等が可能となる。

（Ｂ）第２の実施形態
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第２の実施形態を、図面を参照しながら詳述する。

（Ｂ－１）第２の実施形態の構成
図４は、この実施形態の信号処理装置１００Ａの機能的構成について示したブロック図であり、上述の図１と同一部分又は対応部分に、同一符号又は対応符号を付している。

図４に示すように、第２の実施形態の信号処理装置１００Ａでは、特徴抽出手段１０７が特徴抽出手段１０７Ａに置き換わり、さらにエリア音強調手段１０８及びエリア音判定手段１０９が追加されている点で第１の実施形態と異なる。

第１の実施形態では、特徴抽出手段１０７において、発話位置特徴量Ｐを、ＢＦ間振幅比（補正係数）αの所定の区間の代表値としていた。しかしながら、実際には、目的エリア内にいることができる数名の話者が途切れなく発話し続けることはあり得ないため、入力信号において、目的音（目的エリア内を音源とする音）が存在しない区間が必ず存在する。入力信号において目的音が存在しない区間（目的音の成分が含まれない区間）では、ＢＦ間振幅比（補正係数）αは意味のない値（発話位置を示さない値）であり、最悪の場合はランダムな値（不安定な値）となる。従って、例えば、所定の区間（バッファ１０７１のバッファ長）を１秒とした場合、第１の実施形態の特徴抽出手段１０７では、発話開始から最初の１秒間は、意味のない値（またはランダムな値）を含むバッファ１０７１から代表値を算出することとなるため、得られる発話位置特徴量Ｐは信頼できないことになる。

そこで、第２の実施形態の信号処理装置１００Ａでは、入力信号における目的音の成分の有無を判定する処理（以下、「目的音判定処理」と呼ぶ）を行い、入力信号に目的音の成分が含まれる場合にのみバッファ１０７１にＢＦ間振幅比（補正係数）αを格納（追加）することで、発話位置特徴量Ｐをより正しく算出するものとする。

（Ｂ－２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の信号処理装置１００Ａの動作（実施形態に係る信号処理方法）を説明する。

以下では、第２の実施形態の信号処理装置１００Ａの動作のうち、第１の実施形態との差異を中心に説明する。信号処理装置１００Ａにおいて、第１の実施形態と同じ符号の構成要素の動作は、第１の実施形態と同様のため、説明を省略する。

エリア音強調手段１０８は、入力信号についエリア収音処理を行って目的エリアを音源とする音の成分を強調した信号（以下、「目的エリア音強調信号」と呼ぶ）を取得してエリア音判定手段１０９に供給する。エリア音強調手段１０８が目的エリア音強調信号を取得する処理について限定されないものであり、種々のエリア収音処理を適用することができる。この実施形態では、エリア音強調手段１０８は、第１の指向性形成手段１０４から供給される第１のＢＦスペクトル｜Ｙ_１（ω）｜と、第２の指向性形成手段１０５から供給される第２のＢＦスペクトル｜Ｙ_２（ω）｜と、振幅比算出手段１０６から供給されるＢＦ間振幅比（補正係数）αとに基づいて、（６）式と（７）式によってエリア収音処理を行い、｜Ｚ（ω）｜を「目的エリア音強調信号」として取得する。

エリア音判定手段１０９は、目的エリア音強調信号（入力信号に基づく信号）に対する目的音判定処理を行い、その判定結果（以下、「エリア音判定結果Ｄ」と呼ぶ）を特徴抽出手段１０７Ａに供給する。エリア音判定結果Ｄは、目的エリア音強調信号（入力信号に基づく信号）に目的音の成分が含まれていたことを示す「目的音有り」、又は目的エリア音強調信号（入力信号に基づく信号）に目的音の成分が含まれていなかったことを示す「目的音無し」のいずれかの値（例えば、「０」又は「１」の２値のいずれかのフラグ値）で示されるものとして説明する。

エリア音判定手段１０９が目的音判定処理を行う具体的な方式は限定されないものであり種々の方式を適用することができる。この実施形態の例では、エリア音判定手段１０９は、特許文献３に記載の方式により目的音判定処理を行う者として説明する。具体的には、エリア音判定手段１０９は、エリア音強調手段１０８から供給された目的エリア音強調信号｜Ｚ（ω）｜と、周波数解析手段１０３から供給される入力スペクトルＸ_１（ω）とに基づいて、（８）式によって入力信号と目的音の比である入出力間振幅比Ｕを算出し、入出力間振幅比Ｕに基づいて目的音判定処理を行うものとする。ここでは、エリア音判定手段１０９は、入出力間振幅比Ｕが所定の閾値以上なら「目的音有り」と判定し、入出力間振幅比Ｕが所定の閾値未満なら「目的音無し」と判定するものとする。

特徴抽出手段１０７Ａは、エリア音判定結果Ｄに基づいて、バッファ１０７１からＢＦ間振幅比αの代表値を算出し、発話位置特徴量Ｐとして取得する。特徴抽出手段１０７Ａにおける代表値の算出方法には、第１の実施形態の特徴抽出手段１０７と同様に任意の方法を用いることができるので詳しい説明を省略する。

次に、特徴抽出手段１０７Ａがバッファ１０７１を用いて発話位置特徴量Ｐを取得する処理の例について説明する。

この実施形態の例において、特徴抽出手段１０７Ａは、エリア音判定結果Ｄが「目的音有り」である場合に限り、バッファ１０７１に新たなＢＦ間振幅比αを追加する更新処理を行うものとする。具体的には、特徴抽出手段１０７Ａは、エリア音判定結果Ｄが「目的音有り」である場合に限り、バッファ１０７１から最も古いデータを捨て、振幅比算出手段１０６から供給されたＢＦ間振幅比αを新たに格納する。そして、特徴抽出手段１０７Ａは、エリア音判定結果Ｄが「目的音有り」である場合、バッファ１０７１の更新処理後に、バッファ１０７１に格納されているＢＦ間振幅比αの中央値を算出し、発話位置特徴量Ｐとして得る。

なお、特徴抽出手段１０７Ａは、エリア音判定結果Ｄが「目的音無し」の場合は、バッファ１０７１を更新せず、前回算出した発話位置特徴量Ｐの値を保持して発話位置特徴量Ｐとする。

第２の実施形態において、特徴抽出手段１０７Ａが代表値を算出するための所定のサンプル数（バッファ１０７１のバッファ長）は、短すぎると外れ値を除去しきれず、長すぎると話者の切り替わりへの追従が遅れるが、目的音のない区間を無視する分、第１の実施形態より短く（追従を早く）設定することができる。例えば、第２の実施形態において、バッファ１０７１のバッファ長は、０．５秒間程度（０．５秒間程度のサンプル数分の補正係数αを保持可能な長さ）とするのが好適である。

（Ｂ－３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて以下のような効果を奏することができる。

第２の実施形態の信号処理装置１００Ａでは、有音区間となっている区間の情報（入力信号）のみを利用して発話位置特徴量Ｐを算出するため、より正確で遅延の少ない発話位置特徴量Ｐを得ることができる。

（Ｃ）第３の実施形態
以下、本発明による信号処理装置、信号処理プログラム及び信号処理方法の第３の実施形態を、図面を参照しながら詳述する。

（Ｃ－１）第３の実施形態の構成
図５は、この実施形態の信号処理装置１００Ｂの機能的構成について示したブロック図であり、上述の図４と同一部分又は対応部分に、同一符号又は対応符号を付している。

図５に示すように、第３の実施形態の信号処理装置１００Ｂでは、特徴抽出手段１０７Ａが特徴抽出手段１０７Ｂに置き換わっている点で第２の実施形態と異なっている。

第１及び第２の実施形態の特徴抽出手段１０７、１０７Ａでは、発話位置特徴量Ｐを、ＢＦ間振幅比（補正係数）αの所定のサンプル数の代表値としていた。例えば、目的エリア内に複数の話者が存在する場合、第１の話者の発話が終わった後、間をおいて別の位置にいる第２の話者が発話を開始した場合、特徴抽出手段１０７Ａでは、第２の話者が話し始めた最初の所定のサンプル数の間は、第１の話者が話していた間のサンプル（入力信号）の影響を受けるため、得られる発話位置特徴量Ｐが遅延する（正確に第２の話者の発話位置を取得できるようになるまでに時間がかかる）。

そこで、第３の実施形態の特徴抽出手段１０７Ｂは、エリア音判定結果Ｄが所定以上連続して「目的音有り」となる区間（以下、「連続有音区間」と呼ぶ）のＢＦ間振幅比αから代表値を算出することで、発話位置特徴量Ｐをより正しく算出する。例えば、特徴抽出手段１０７Ｂは、エリア音判定結果ＤがＫ回以上（Ｋは２以上の任意の整数）連続して「目的音有り」となる区間を連続有音区間と認識するようにしてもよい。

言い換えると、特徴抽出手段１０７Ｂは、連続有音区間ごとに発話位置特徴量Ｐを算出する。例えば、第１のタイミングでエリア音判定結果Ｄが「目的音無し」から「目的音有り」に遷移した後、エリア音判定結果Ｄが所定以上連続して「目的音有り」となり、その後第２のタイミングでエリア音判定結果Ｄが「目的音有り」から「目的音無し」に遷移した場合、第１のタイミングと第２のタイミングの間の区間が連続有音区間となる。なお、第３の実施形態の特徴抽出手段１０７Ｂは、上記の通り連続有音区間ごとに発話位置特徴量Ｐを算出するため、リアルタイムに出力する処理には対応できない。特徴抽出手段１０７Ｂは、連続有音区間を検知したタイミングで発話位置特徴量Ｐを算出すると、当該発話位置特徴量Ｐを当該連続有音区間の最初のタイミングに遡って適用（当該連続有音区間全体に適用）する。

（Ｃ－２）第３の実施形態の動作
次に、以上のような構成を有する第３の実施形態の信号処理装置１００Ｂの動作を説明する。

以下では、第３の実施形態の信号処理装置１００Ｂの動作のうち、第２の実施形態との差異を中心に説明する。信号処理装置１００Ｂにおいて、第３実施形態と同じ符号の構成要素の動作は、第２の実施形態と同様のため、説明を省略する。第３の実施形態において、第２の実施形態と異なるのは特徴抽出手段１０７Ｂのみである。

特徴抽出手段１０７Ｂは、エリア音判定結果Ｄが所定以上連続して「目的音有り」となる区間のＢＦ間振幅比αの代表値を算出し、得られた発話位置特徴量Ｐを出力する。特徴抽出手段１０７Ｂにおいて、代表値の算出方法には、第１の実施形態の特徴抽出手段１０７および第２の実施形態の特徴抽出手段１０７Ａと同様に任意の方法を用いることができるので詳しい説明は省略する。

次に、特徴抽出手段１０７Ｂがバッファ１０７１を用いて発話位置特徴量Ｐを取得する処理の例について説明する。

ここでは、バッファ１０７１について、ＢＦ間振幅比αを保持するための十分な長さ（例えば５秒）の容量（バッファ長）が確保されているものとする。また、特徴抽出手段１０７Ｂは、エリア音判定結果Ｄが「目的音有り」である場合には、振幅比算出手段１０６から供給されたＢＦ間振幅比αをバッファ１０７１に追加する更新処理を行う。さらに、特徴抽出手段１０７Ｂは、エリア音判定結果Ｄが「目的音有り」から「目的音無し」に切り替わったタイミングで、バッファ１０７１に格納されているＢＦ間振幅比αの代表値（中央値）を算出して発話位置特徴量Ｐとし、バッファ１０７１のすべてのデータを破棄する（削除する）ものとする。この場合、削除前にバッファ１０７１に格納されていた補正係数αに対応する区間が、連続有音区間に該当する。そして、特徴抽出手段１０７Ｂは、当該連続有音区間の各区間の発話位置特徴量Ｐとして、新たに算出した発話位置特徴量Ｐを取得する。言い換えると、特徴抽出手段１０７Ｂは、取得した発話位置特徴量Ｐを当該連続有音区間の全ての区間に対して割り当てる処理を行う。

また、特徴抽出手段１０７Ｂは、エリア音判定結果Ｄが連続して「目的音無し」となっている区間（連続有音区間でない区間）に対しては、前回（直近）に算出した発話位置特徴量Ｐを適用するようにしてもよいし、意味のない値（例えば、Ｎｏｔ－ａ－ＮｕｍｂｅｒやＮＵＬＬ等）を適用するようにしてもよい。

（Ｃ－３）第３の実施形態の効果
第３の実施形態によれば、第２の実施形態の効果に加えて以下のような効果を奏することができる。

第３の実施形態の信号処理装置１００Ｂでは、連続有音区間を検出し、当該区間の情報（入力信号）のみを利用して発話位置特徴量Ｐを算出し、得られた発話位置特徴量Ｐを遡って当該連続有音区間全体に適用する。これにより、第３の実施形態の信号処理装置１００Ｂでは、より正確（高い精度）で入力信号に対して遅延のない発話位置特徴量Ｐを得ることができる。

（Ｄ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｄ－１）第２及び第３の実施形態において、信号処理装置１００Ａ、１００Ｂは、発話位置特徴量Ｐに加えて、エリア音強調手段１０８から供給される目的エリア音強調信号｜Ｚ（ω）｜（目的音の振幅スペクトル；対応音響信号）を付加して出力先（供給先）に出力（供給）するようにしても良い。

また、信号処理装置１００Ａ、１００Ｂは、発話位置特徴量Ｐに加えて、周波数領域の目的エリア音強調信号｜Ｚ（ω）｜（目的音の振幅スペクトル）を時間領域の信号ｚ（ｔ）に変換して出力を付加して出力先（供給先）に出力（供給）するようにしても良い。例えば、信号処理装置１００Ａ、１００Ｂは、目的エリア音強調信号｜Ｚ（ω）｜に入力信号Ｘ_１（ω）の位相スペクトル（若しくは信号Ｘ_２（ω）の位相スペクトル）を乗じて複素スペクトルとし、周波数解析手段１０３に対応する波形復元方法を適用してｚ（ｔ）（時間領域における目的音の波形）を算出するようにしても良い。

第２及び第３の実施形態において、信号処理装置１００Ａ、１００Ｂ（特徴抽出手段１０７Ａ、１０７Ｂ）は、エリア音判定手段１０９のエリア音判定結果Ｄが「目的音無し」の区間については、目的エリア音強調信号（｜Ｚ（ω）｜若しくはｚ（ｔ））として、無音の信号（ダミー信号）を出力するか、入力信号を小さくした信号（入力信号のゲイン（レベル）を所定値下げた信号）を出力するようにしても良い。

第３の実施形態において、信号処理装置１００Ｂ（特徴抽出手段１０７Ｂ）は、目的エリア音強調信号（｜Ｚ（ω）｜またはｚ（ｔ））を出力する際に、発話位置特徴量Ｐと目的エリア音強調信号をリアルタイムで出力し続けるのではなく、連続有音区間についてのみ、発話位置特徴量Ｐと目的エリア音強調信号を１つのデータセットとして出力するようにしてもよい。例えば、信号処理装置１００Ｂ（特徴抽出手段１０７Ｂ）は、エリア音判定結果Ｄが「目的音有り」から「目的音無し」に切り替わって連続有音区間を検知したタイミングで、当該連続有音区間に対応する発話位置特徴量Ｐと当該連続有音区間の目的エリア音強調信号を１つのデータセットとして出力するようにしても良い。

（Ｄ－２）第２及び第３の実施形態において、信号処理装置１００Ａ、１００Ｂ（特徴抽出手段１０７Ａ、１０７Ｂ）は、目的エリア音強調信号（｜Ｚ（ω）｜またはｚ（ｔ））を図示しない音声認識システムに入力して発話音声をテキスト化したデータ（以下、「発話テキストデータ」と呼ぶ）を得て、当該発話テキストデータと発話位置特徴量Ｐとを対応付けて１つのデータセットとして出力するようにしても良い。

１００、１００Ａ、１００Ｂ…信号処理装置、１０３…周波数解析手段、１０４…第１の指向性形成手段、１０５…第２の指向性形成手段、１０６…振幅比算出手段、１０７、１０７Ａ、１０７Ｂ…特徴抽出手段、１０８…エリア音強調手段、１０９…エリア音判定手段、１０７１…バッファ、Ｍ、Ｍ１～ＭＮ…マイクロホン、ＭＡ、ＭＡ１、ＭＡ２…マイクアレイ。

Claims

複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、
それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、
前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段と
を有することを特徴とする信号処理装置。
それぞれの前記ビームフォーミング出力に基づいて、目的エリアを音源とする音を強調した目的エリア音強調信号を取得するエリア音強調手段と、
前記入力信号と前記目的エリア音強調信号とに基づいて前記入力信号における目的音の成分の有無を判定するエリア音判定処理を行うエリア音判定手段とをさらに備え、
前記音源位置特徴量取得手段は、前記エリア音判定処理の判定結果が、前記入力信号に目的音が有るという結果だった有音区間の前記振幅スペクトル比率のみを保持し、保持した前記振幅スペクトル比率に基づいて前記音源位置特徴量を取得する
ことを特徴とする請求項１に記載の信号処理装置。
前記音源位置特徴量取得手段は、前記エリア音判定処理の判定結果が、所定以上連続して前記入力信号の前記目的音が有るという結果だった区間の前記振幅スペクトル比率のみを保持し、保持した前記振幅スペクトル比率に基づいて前記音源位置特徴量を取得することを特徴とする請求項２に記載の信号処理装置。
コンピュータを、
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得る指向性形成手段と、
それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得する振幅スペクトル比率取得手段と、
前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する音源位置特徴量取得手段と
して機能させることを特徴とする信号処理プログラム。
信号処理装置が行う信号処理方法において、
前記信号処理装置は、指向性形成手段、振幅スペクトル比率取得手段、及び音源位置特徴量取得手段を備え、
前記指向性形成手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を得、
前記振幅スペクトル比率取得手段は、それぞれの前記ビームフォーミング出力の振幅スペクトル比率を取得し、
前記音源位置特徴量取得手段は、前記振幅スペクトル比率取得手段が取得した前記振幅スペクトル比率を時系列ごとに所定期間分保持し、保持した前記振幅スペクトル比率に基づいて、目的音の音源位置の特徴を示す音源位置特徴量を取得する
ことを特徴とする信号処理方法。