JP2007006253A

JP2007006253A - 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム

Info

Publication number: JP2007006253A
Application number: JP2005185278A
Authority: JP
Inventors: Hideki Kishi; 秀樹岸
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-06-24
Filing date: 2005-06-24
Publication date: 2007-01-11

Abstract

【課題】反射音の影響があっても直接音の到達時間差を正確に推定して話者方向検出の精度を向上させ、簡単な処理で、ピッチ周波数の変動にも対応することができる。
【解決手段】本発明の信号処理装置５は、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイ２，３を少なくとも２方向の軸上に配列したマイクロフォンユニット１の各軸方向の話者４方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部６と、音源方向検出部６により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部７とを備えたものである。
【選択図】図１

Description

本発明は、音源となる話者方向の検出を行うための信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラムに関する。

図７に従来の話者方向検出の基本原理を示す。
図７において、間隔ｄで一直線上に並べた２個以上の全指向性マイクｑ−２、ｑ−１、ｑ、ｑ＋１、ｑ＋２・・で構成されるマイクロフォンアレイ７１を設置し、時刻ｔにおける個々のマイクの受音信号をそれぞれｘ_ｑ−２（ｔ）、ｘ_ｑ−１（ｔ）、ｘ_ｑ（ｔ）、ｘ_ｑ＋１（ｔ）、ｘ_ｑ＋２（ｔ）・・とする。このマイクロフォンアレイ７１に向かって話者７２が発話したとき、話者７２からマイクロフォンアレイ７１に角度θで到達する直接音Ｓ(ｔ)と壁７３に反射してマイクロフォンアレイ７１に角度θ’で到達する一次反射音αＳ(ｔ−τ)に対して、マイクロフォンアレイ７１の中心位置のマイクｑの受信信号は、数１式に示すように、直接音Ｓ(ｔ)と一次反射音αＳ(ｔ−τ)の加算分となる。ただし、マイクｑに独立に生じるノイズおよび方向性のない雑音、または話者７２から何度か反射してマイクｑに到達する残響音については、直接音Ｓ(ｔ）に対する影響は小さいので省略する。

また、マイクロフォンアレイ７１の中心位置のマイクｑに隣接するマイクｑ＋１の受音信号は、数２式に示すように、直接音Ｓ(ｔ−τ_ｄ)と一次反射音αＳ(ｔ−τ−τ_ｄ’)の加算分となる。

ここで、τ_ｄ及びτ_ｄ’は、マイクｑ＋１に直接音Ｓ(ｔ−τ_ｄ)と一次反射音αＳ(ｔ−τ−τ_ｄ’)がそれぞれ角度θ,θ’で到達したときのマイクｑとのマイク間の到達時間差、αは反射による減衰率、τは直接音と一次反射音の遅延時間差である。
上述した直接音のみで反射音が存在しない場合、間隔ｄのマイク間の到達時間差τ_ｄは、数３式に示すように、角度θによって一意に決まる。ただし、ｃは音速を示す。

よって、複数のマイクからの音声信号の時間差から直接音による到達時間差τ_ｄを推定できれば、音声の到来方向θを求めることができる。
また、マイクロフォンアレイのマイク間の受音信号から共分散行列を求め、推定方向毎に位相回転ベクトルを乗じて、話者方向を特定する技術があった（特許文献１参照）。
また、雑音や反射音についても考慮し、信号対雑音比に基づいた話者方向を検出する技術があった（特許文献２）。
また、音声の調波構造を利用して母音発声の到来方向を推定する技術があった（非特許文献１）。
特開2005-62096号公報特開2004-12151号公報信学技報EA2002-111「反射音が存在する環境における音声の到来方向推定」

しかし、直接音が壁７３などに反射する反射音があると直接音と反射方向からの遅延も含まれるため、直接音による到達時間差を正確に推定することができないという不都合があった。
また、特許文献１に記載の技術では、マイクロフォンアレイのマイク間の受音信号から共分散行列を求め、推定方向毎に位相回転ベクトルを乗じて、話者方向を特定しているが、上述のように反射音を含む受音信号を仮定していないため直接音による到達時間差τ_ｄを正確に推定することができない。

また、特許文献２に記載の技術では、雑音や反射音についても考慮し、信号対雑音比に基づいた話者方向を検出しているが、音声／非音声を識別する特徴量を用いていないため、雑音源方向についても検出できるが、信号対雑音比の算出などの複雑な処理が必要となる。
また、非特許文献１に記載の技術では、音声の調波構造を利用して母音発声の到来方向を推定しているが、固定ピッチ周波数を仮定しているため、普段の発話音声のように短時間でピッチ周波数が変動する際に対応できず、方向検出精度が劣化する。

そこで、本発明では、反射音の影響があっても直接音の到達時間差を正確に推定して話者方向検出の精度を向上させることができるとともに、さらに、ピッチ周波数が変動する際にも簡単な処理で対応することができる信号処理装置、この信号処理装置を利用したマイクロフォンシステム、話者方向検出方法及び話者方向検出プログラムを提供することを目的とするものである。

上記課題を解決し、本発明の目的を達成するため、本発明の信号処理装置は、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイを少なくとも２方向の軸上に配列したマイクロフォンユニットの各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部と、上記音源方向検出部により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部とを備えたものである。

本発明の信号処理装置によれば、音源方向検出部は少なくとも２方向の軸上に配列した複数のマイクロフォンアレイからの各マイクロフォンアレイの推定方向毎の音声成分を計算して、音声検出部はそれらを方向毎に組み合わせることによって、全方向に対しての話者方向を検出する。このとき、例えば、音源方向検出部はあるマイクロフォンアレイの音声成分が角度方向によっては角度の分解度が荒くなるために正確に角度を推定できない場合、他軸のマイクロフォンアレイの推定角度も利用する。このとき、例えば、音声成分を検出する際に音声成分の調波構造に着目し、有効な調波成分が存在し、かつ、それが特定方向から到来する場合に音声と判断する。

また、本発明のマイクロフォンシステムは、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイを少なくとも２方向の軸上に配列したマイクロフォンユニットと、上記マイクロフォンユニットの各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部と、上記音源方向検出部により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部とを有する信号処理装置とを備えたものである。

本発明のマイクロフォンシステムによれば、例えば、複数のマイクロフォンアレイを中心点で交差するように並べたマイクロフォンユニットを用いて、信号処理装置の音源方向検出部は各マイクロフォンアレイの推定方向毎の音声成分を計算して、音声検出部はそれらを方向毎に組み合わせることによって、全方向に対しての話者方向を検出する。このとき、例えば、音源方向検出部はあるマイクロフォンアレイの音声成分が角度方向によって正確に角度を推定できない場合、他軸のマイクロフォンアレイの推定角度も利用する。

また、本発明の話者方向検出方法は、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイが少なくとも２方向の軸上に配列されるマイクロフォンユニットからの各軸方向の話者方向の音声成分を周波数成分に変換するステップと、上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化するステップと、上記各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定するステップと、上記検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出するステップとを備えたものである。

本発明の話者方向検出方法によれば、相関性を含む音声成分を隣接するマイク間のそれぞれの相関を平均化することにより反射音の影響を抑圧する。また、複数のマイクロフォンアレイが少なくとも２方向の軸上に配列されるマイクロフォンユニットからの各マイクロフォンアレイの推定方向毎の音声成分を計算して、それらを方向毎に合成することによって、全方向に対して話者方向検出が可能となる。

また、本発明の話者方向検出プログラムは、話者方向の検出処理を制御するためのコンピュータを、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイが少なくとも２方向の軸上に配列されるマイクロフォンユニットからの各軸方向の話者方向の音声成分を周波数成分に変換する手段と、上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化する手段と、上記各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定する手段と、上記検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する手段として機能させるためのものである。

本発明の話者方向検出プログラムによれば、話者方向の検出処理を制御するためのコンピュータは相関性を含む音声成分を隣接するマイク間のそれぞれの相関を平均化することにより反射音の影響を抑圧するように機能する。また、話者方向の検出処理を制御するためのコンピュータは、複数のマイクロフォンアレイが少なくとも２方向の軸上に配列されるマイクロフォンユニットからの各マイクロフォンアレイの推定方向毎の音声成分を計算して、それらを方向毎に合成することによって、全方向に対して話者方向検出するように機能する。

本発明によれば、相関性を含む音声成分を隣接するマイク間のそれぞれの相関を平均化することにより反射音の影響を抑圧することができるので、話者方向の検出の精度を向上させることができるという効果を奏する。
また、相関する音声成分の平均化という簡単な処理で済み、しかも帯域周波数成分の平均化処理によりピッチ周波数が変動する際にも対応することができるという効果を奏する。

以下に、本発明の実施の形態について適宜図面を参照しながら説明する。
図１は、本発明の実施の形態による話者方向検出システムを示す構成図である。
図１に示す話者方向検出システムは、複数のマイクロフォン２−１，２−２，２−３，２−４，２−５，３−１，３−２，３−３，３−４をアレイ状に設けたマイクロフォンアレイ２，３を少なくとも２方向の軸上に配列したマイクロフォンユニット１を有して構成される。

ここでは、垂直方向マイクロフォンアレイ２及び水平方向マイクロフォンアレイ３を中心位置で交差させたマイクロフォンユニット１を例に示したが、水平方向又は垂直方向でなくとも互いの中間方向又は互いに平行でない他の任意の方向でもよい。また、平面上であれば必ずしも２方向である必要はなく３軸以上の多軸方向に配列してもよい。マイクロフォンアレイが他の方向に配列される場合には、その軸方向について後述する水平軸方向及び垂直軸方向についての同様の信号処理をすればよい。また、１つのマイクロフォンアレイに用いられるマイクロフォンの数は３個以上の複数個であればよい。

また、図１に示す話者方向検出システムは、マイクロフォンユニット１からの音声信号から話者方向検出処理の動作を行う信号処理装置５を有して構成される。信号処理装置５は、マイクロフォンユニット１の各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部６と、音源方向検出部６により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部７とを有して構成される。

以上のように構成された話者方向検出システム（図１）によれば、マイクロフォンユニット１は垂直方向マイクロフォンアレイ２及び水平方向マイクロフォンアレイ３を中心点のマイクロフォン２−３で交差するように並べているため、垂直方向マイクロフォンアレイ２及び水平方向マイクロフォンアレイ３により形成される平面空間に話者４からの直接音ｓ（ｔ,θ）及び一次反射音ｓ’（ｔ’,θ’）がそれぞれ異なる到達時間及び到達角度で到達し、それらが足し合わされた音x（ｔ）として入力される。

信号処理装置５の音源方向検出部６は各マイクロフォンアレイ２，３の音声成分ｘ^{ＬＲ、ＦＢ} _{ｑ±ｉ，ｊ}（ｔ）から推定方向毎の音声成分のパワーＰ（φ,ｔ）を計算する。そして、音声検出部７は、この音源方向検出部６の出力である推定方向毎の音声成分のパワーＰ（φ,ｔ）から全方向に対しての話者の方向θ^‐（ｔ）を検出する。このとき、例えば、音源方向検出部６は、例えばマイクロフォンアレイ２（又はマイクロフォンアレイ３）の音声成分が角度方向によって、正確に角度を推定できない場合には、他軸のマイクロフォンアレイ３（又はマイクロフォンアレイ２）の推定角度も利用するようにする。

ここで、信号処理装置５は、音源方向検出部６及び音声検出部７を別体又は一体の信号処理用コンピュータで構成し、後述するように専用の話者方向検出プログラムにより各部を機能させるようにしてもよい。また、マイクロフォンユニット１と信号処理装置５は、別体又は一体で構成してもよい。

図２は、音源方向検出部の構成を示すブロック図である。
図１と同様に、９個の全指向性マイクロフォン２−１，２−２，２−３，２−４，２−５，３−１，３−２，３−３，３−４を間隔ｄで十字型に並べたマイクロフォンアレイ２，３を構成し、ある方向例えば水平方向を基準に音声の到来方向θとする。時刻ｔにおける個々のマイクの受音信号を垂直方向のマイクロフォンアレイ２について、それぞれｘ^FB _ｑ−２（ｔ）、ｘ^FB _ｑ−１（ｔ）、ｘ^FB _ｑ（ｔ）、ｘ^FB _ｑ＋１（ｔ）、ｘ^FB _ｑ＋２（ｔ）とする。

また、水平方向マイクロフォンアレイ３のマイク列の受音信号を、それぞれｘ^ＬＲ _ｑ−２（ｔ）、ｘ^ＬＲ _ｑ−１（ｔ）、ｘ^ＬＲ _ｑ（ｔ）、ｘ^ＬＲ _ｑ＋１（ｔ）、ｘ^ＬＲ _ｑ＋２（ｔ）とする。ｘ^ＬＲ _ｑ（ｔ）とｘ^ＦＢ _ｑ（ｔ）は同一信号となる。これらの、時間領域のマイクの音声信号系列から、図２に示す音源方向検出部６で、走査方向φ毎に音声成分のパワーＰ（φ,ｔ）を計算し、これを基に音声検出部で音声の到来方向θ^‐（ｔ）を推定する。

以下に、音源方向検出部６の詳細な構成及び動作について説明する。
上述した９個のマイク入力信号系列に対して、まず、図示しないＡ／Ｄ変換器でディジタル信号に変換し、処理単位に相当する窓関数をかけて一定区間毎にディジタル信号を分割する。そして、短時間フーリエ変換部１１により周波数スペクトル分析を行い、個々のマイクについての周波数領域の垂直方向アレイの周波数スペクトルＸ^FB _ｑ−２（ω）、Ｘ^FB _ｑ−１（ω）、Ｘ^FB _ｑ（ω）、Ｘ^FB _ｑ＋１（ω）、Ｘ^FB _ｑ＋２（ω）を得る。

同様に、周波数領域の水平方向アレイの周波数スペクトルＸ^ＬＲ _ｑ−２（ω）、Ｘ^ＬＲ _ｑ−１（ω）、Ｘ^ＬＲ _ｑ（ω）、Ｘ^ＬＲ _ｑ＋１（ω）、Ｘ^ＬＲ _ｑ＋２（ω）を得る。

以下、水平方向の周波数成分と垂直方向の周波数成分はそれぞれ独立に同様の構成により同様の処理をするため、同時に説明する。
クロスパワースペクトル部１２、２２では、例えば、マイクロフォンアレイ２，３の中心位置のマイクｑと隣接するマイク(ｑ＋１)についての周波数領域での相互相関を示すクロスパワースペクトルＧ_{ｑ、ｑ＋１}（ω）を以下の数４式により演算して求める。数４式に示す＊は複素共役を示す。

例えば十字型で９個のマイクロフォンで構成されるマイクロフォンアレイ２，３では、各軸４組のクロスパワースペクトルが求まる。具体的には、水平方向のクロスパワースペクトルＧ^ＬＲ _{ｑ−２、ｑ−１}（ω）、Ｇ^ＬＲ _{ｑ−１、ｑ}（ω）、Ｇ^ＬＲ _{ｑ、ｑ＋１}（ω）、Ｇ^ＬＲ _{ｑ＋１、ｑ＋２}（ω）、垂直方向のクロスパワースペクトルＧ^ＦＢ _{ｑ−２、ｑ−１}（ω）、Ｇ^ＦＢ _{ｑ−１、ｑ}（ω）、Ｇ^ＦＢ _{ｑ、ｑ＋１}（ω）、Ｇ^ＦＢ _{ｑ＋１、ｑ＋２}（ω）を得る。

次に、ピッチ抽出部１９では、十字型で９個のマイクロフォンで構成されるマイクロフォンアレイ２，３の中心位置のマイクｑについてパワースペクトル｜Ｘ_ｑ（ω）｜^２からピッチ周波数ω_０を推定する。ピッチ周波数の推定方法は、周知の推定方法を用いる（例えば情報処理学会99-MUS-31-16「実世界の音楽音響信号を対象としたメロディーとベースの音高推定」参照）。

周波数ベクトル部１３，２３では、ピッチ抽出部１９で推定したピッチ周波数ω_０とその整数倍の周波数付近でスペクトルパワーが最大となる周波数ｉω_０（ｉ＝１，…，N）を用いて、隣接マイク間のクロスパワースペクトルの周波数ベクトルＧ_{ｑ、ｑ＋１}（ω_０）を以下の数５式により演算して求める。数５式に示すＴは転置を示す。

ここで、Nは、Nω_０＜＝πｃ／ｄとなる整数である。なお、ｃは音速である。

具体的には、水平方向の周波数ベクトルＧ^ＬＲ _{ｑ−２、ｑ−１}（ω_０）、Ｇ^ＬＲ _{ｑ−１、ｑ}（ω_０）、Ｇ^ＬＲ _{ｑ、ｑ＋１}（ω_０）、Ｇ^ＬＲ _{ｑ＋１、ｑ＋２}（ω_０）、垂直方向の周波数ベクトルＧ^ＦＢ _{ｑ−２、ｑ−１}（ω_０）、Ｇ^ＦＢ _{ｑ−１、ｑ}（ω_０）、Ｇ^ＦＢ _{ｑ、ｑ＋１}（ω_０）、Ｇ^ＦＢ _{ｑ＋１、ｑ＋２}（ω_０）を得る。

マイク間平均処理部１４，２４では、各軸の周波数ベクトルについてQ個のマイクに対して求められた、（Q−１）個のマイク間の周波数ベクトルを以下の数６式により演算してマイク間平均周波数ベクトルＧ^{ＬＲ、ＦＢ} _ＳＰ（ω_０）を求める。

図３はこのように求められたクロスパワースペクトラムの例である。図３において、マイク間平均周波数ベクトルＧ_ＳＰはｉω_０、（ｉ＝１，…，N）を中心とした複数の帯域に分割されている。

帯域平均化処理部１５，２５では、ピッチ周波数ω_０及びその整数倍の周波数を中心周波数とする狭帯域成分群について、その帯域内で周波数成分を以下の数７式により演算して図４のように重み付け平均する。

図４は、帯域内周波数成分の重み付け平均を示す図である。図４において、ω_０を中心とした帯域内で、例えば重み付け帯域幅Ｒ＝５とした場合、ω_０−５Δω_、ω_０−４Δω_、ω_０−３Δω_、ω_０−２Δω_、ω_０−Δω_、ω_０、ω_０＋Δω_、ω_０＋２Δω_、ω_０＋３Δω_、ω_０＋４Δω_、ω_０＋５Δω内で重み付け係数δｒを用いて、中心周波数成分に対して隣り合う成分へ平均的な範囲内に収まるように重み付けする。Δωは離散フーリエ変換での周波数成分の間隔である。

これにより、上述した帯域の範囲内でピッチ周波数が変動しても後述する音声方向ベクトルのパワーが検出可能となるように、周波数ピッチが帯域内の他の周波数成分に移る場合にも中心周波数成分の山のピークが揺らぐことなく他の周波数成分から音声方向ベクトルのパワーを確保することができる。

調波選択部１６，２６では、ピッチ周波数ω_０およびその整数倍の周波数成分について選択すべき候補となるＮ個の調波成分ｍについて、数８式で帯域平均化したクロスパワースペクトルの位相差を求める。

この位相差φ（ｍω_０）を直接音による到達時間差τ_ｄに相当するマイク間の時間差Ｔ（ｍ）＝φ（ｍω_０）／ｍω_０に置き換え、その平均値Ｔ_ａｖｅに対する最小２乗誤差｜Ｔ_ａｖｅ−Ｔ（ｍ）^２｜の小さい順に調波成分ｍをM個選択する。これにより、マイク間の各周波数成分の位相差に基づいて各周波数成分を仮想的に音声の到来方向の空間に配列するための調波成分を選択することができる。

共分散行列化部１７，２７では、調波選択部１６，２６で選択されたM個の調波成分ｍの周波数について帯域平均化したクロススパワーペクトルを用いて、以下の数９式、数１０式を用いて、共分散行列Ｒ（ω_０）を構成する。共分散行列Ｒ（ω_０）は、帯域平均化したクロススパワーペクトルのM個の調波成分ｍの各周波数成分を仮想的に音声の到来方向の空間に配列したものである。

垂直方向推定部１８及び水平方向推定部２８では、垂直方向と水平方向の個々のマイクロフォンアレイ軸についての共分散行列Ｒ^ＬＲ（ω_０）及びＲ^ＦＢ（ω_０）を例えば周知の音源推定方法であるＭＵＳＩＣ法を用いて、方向φについての音声パワーを計算する。このとき、共分散行列の各要素Ｒ（ω_０）は数１１のようにその大きさで正規化し、次のように固有ベクトルＶ（ω_０）に分解する。

そして、求めた固有ベクトルＶ_ｍについて、次の数１４式で方向φの音声のパワーＰ（φ）を求める。数１２式で、Ｔ（φ）は、方向Φに対するマイク間の遅延時間である。

全方向推定部２１では、水平方向と垂直方向の各方向軸についての音声方向パワーＰ^ＬＲ _{ＭＵＳＩＣ}（φ）、Ｐ^ＦＢ _{ＭＵＳＩＣ}（φ）を方向φについて合成する。合成方法については、例えば、方向φについて、数１３式で示すように水平方向と垂直方向の各方向軸についてパワーが小さい方を合成値Ｐ_{ＭＵＳＩＣ}（φ）とする。これは、各方向軸での方向成分の演算による対称的に出てくる空間折り返し成分の影響を除くためである。

図５は、基準となる水平方向マイクロフォンアレイ２に対して音声の到来方向θ＝４５°方向から音声が入力された場合に、全方向推定部２１で合成値Ｐ_{ＭＵＳＩＣ}（φ）を全方向推定した結果である。図５から、θ＝４５°方向で合成値Ｐ_{ＭＵＳＩＣ}（φ）が最大レベルとなっていることが分かる。

図１で示した音声検出部７は、数１４式で示すように音源方向検出部６で推定された音声方向のパワー値Ｐ（φ、ｔ）のレベルが極大となる方向φから音声方向θを推定することができる。

しかし、図６で示すように音声がない場合でも全方向推定部２１で合成値Ｐ_{ＭＵＳＩＣ}（φ）を逐次なんらかの方向で推定してしまうため、数１５式で示すように音声方向θ（ｔ）でのパワーＰ（θ、ｔ）とそれ以外の方向の平均パワーＰ_ａｖｅ（φ、ｔ）の比がある閾値Ｔ_ＳＤ以上であれば、音声が検出されたと判定する。ここでは、例えば、閾値Ｔ_ＳＤとして、２〜３［ｄB］を設定するようにする。閾値Ｔ_ＳＤは、音声がある場合と音声がない場合とを相対的に区別できる値であればよい。

また、図５や図６の全方向のパワー値Ｐ（φ、ｔ）をそのまま、アレイマイクロフォンの指向パターンとして利用してもよい。この場合、推定方向のパワー値Ｐ（φ、ｔ）のレベルが大きいほどゲインを高くすることによって、音源方向へ指向性を鋭くすることができる。一方、逐次変動する音声のパワーに強く依存するため、例えば、次の数１６式のような減衰時間μで徐々に減衰するピークホールド関数ｅ^−μｔを設けて時間変動の影響を軽減するようにする。

上述した本発明の実施の形態に限らず、本発明の特許請求の範囲内であれば、適宜、変更しうることはいうまでもない。

本発明の実施の形態による話者方向検出システムを示す構成図である。音源方向検出部の構成を示すブロック図である。クロスパワースペクトラムの例を示す図である。帯域内周波数成分の重み付け平均を示す図である。全方向推定分布（入射角度４５°）を示す図である。全方向推定分布（音声なし）を示す図である。従来の話者方向検出の基本原理を示す図である。

符号の説明

１…マイクロフォンユニット、２…水平方向マイクロフォンアレイ、３…垂直方向マイクロフォンアレイ、４…話者、５…信号処理装置、６…音源方向検出部、７…音声検出部、１１…短時間フーリエ変換部、１２、２２…クロスパワースペクトル部、１３，２３…周波数ベクトル部、１４，２４…マイク間平均処理部、１５，２５…帯域平均化処理部、１６，２６…調波選択部、１７，２７…共分散行列化部、１８…垂直方向推定部、２８…水平方向推定部、１９…ピッチ抽出部、２１…全方向推定部

Claims

複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイを少なくとも２方向の軸上に配列したマイクロフォンユニットの各マイクロフォンアレイから、各軸方向の話者方向の音声成分を抽出して全方向の話者方向の音声成分を検出する音源方向検出部と、
上記音源方向検出部により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部と
を備えた信号処理装置。
請求項１に記載の信号処理装置において、
上記音源方向検出部は、
上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化する相関成分平均手段と、
上記相関成分平均手段の各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定する全方向推定手段と
を備えたことを特徴とする信号処理装置。
請求項２に記載の信号処理装置において、
上記相関成分平均手段は、
上記マイクロフォンユニットの各軸方向の隣接する各マイクロフォン間の周波数成分の相関性のある成分であるクロスパワースペクトルを生成するクロスパワースペクトル生成部と、
上記マイクロフォンユニットのマイクロフォンアレイの中心の周波数成分から得られるピッチ周波数及びその整数倍の周波数近傍で、上記クロスパワースペクトル生成部により生成された上記マイクロフォンユニットの各軸方向の隣接する各マイクロフォン間のクロスパワースペクトルが最大となる周波数ベクトルを生成する周波数ベクトル生成部と、
上記周波数ベクトル生成部により生成された上記マイクロフォンユニットの各軸方向の周波数ベクトルを複数のマイクロフォン間で平均化するマイク間平均化部と、
を備えたことを特徴とする信号処理装置。
請求項３に記載の信号処理装置において、
上記相関成分平均手段は、
上記マイク間平均化部により上記マイクロフォンユニットの各軸方向の周波数ベクトルを複数のマイクロフォン間で平均化された周波数成分を、上記ピッチ周波数及びその整数倍の周波数を中心周波数とする帯域群内で重み付け平均化する重み付け平均化部と、
上記重み付け平均化部により各帯域群内で重み付け平均化された周波数成分について、各周波数成分の位相差及び時間差の少なくともいずれか一方に基づいて各周波数成分を仮想的に音声の到来方向の空間に配列するための調波成分を選択する調波選択部と、
を備えたことを特徴とする信号処理装置。
複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイを少なくとも２方向の軸上に配列したマイクロフォンユニットと、
上記マイクロフォンユニットの各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部と、
上記音源方向検出部により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部と、
を備えたことを特徴とするマイクロフォンシステム。
複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイが少なくとも２方向の軸上に配列されるマイクロフォンユニットからの各軸方向の話者方向の音声成分を周波数成分に変換するステップと、
上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化するステップと、
上記各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定するステップと、
上記検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出するステップと
からなる話者方向検出方法。
話者方向の検出処理を制御するためのコンピュータを、
複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイが少なくとも２方向の軸上に配列されるマイクロフォンユニットからの各軸方向の話者方向の音声成分を周波数成分に変換する手段と、
上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化する手段と、
上記各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定する手段と、
上記検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する手段
として機能させるための話者方向検出プログラム。