JP2007006253A - 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム - Google Patents
信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム Download PDFInfo
- Publication number
- JP2007006253A JP2007006253A JP2005185278A JP2005185278A JP2007006253A JP 2007006253 A JP2007006253 A JP 2007006253A JP 2005185278 A JP2005185278 A JP 2005185278A JP 2005185278 A JP2005185278 A JP 2005185278A JP 2007006253 A JP2007006253 A JP 2007006253A
- Authority
- JP
- Japan
- Prior art keywords
- component
- microphone
- speaker
- unit
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 反射音の影響があっても直接音の到達時間差を正確に推定して話者方向検出の精度を向上させ、簡単な処理で、ピッチ周波数の変動にも対応することができる。
【解決手段】 本発明の信号処理装置5は、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイ2,3を少なくとも2方向の軸上に配列したマイクロフォンユニット1の各軸方向の話者4方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部6と、音源方向検出部6により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部7とを備えたものである。
【選択図】 図1
【解決手段】 本発明の信号処理装置5は、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイ2,3を少なくとも2方向の軸上に配列したマイクロフォンユニット1の各軸方向の話者4方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部6と、音源方向検出部6により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部7とを備えたものである。
【選択図】 図1
Description
本発明は、音源となる話者方向の検出を行うための信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラムに関する。
図7に従来の話者方向検出の基本原理を示す。
図7において、間隔dで一直線上に並べた2個以上の全指向性マイクq−2、q−1、q、q+1、q+2・・で構成されるマイクロフォンアレイ71を設置し、時刻tにおける個々のマイクの受音信号をそれぞれxq−2(t)、xq−1(t)、xq(t)、xq+1(t)、xq+2(t)・・とする。このマイクロフォンアレイ71に向かって話者72が発話したとき、話者72からマイクロフォンアレイ71に角度θで到達する直接音S(t)と壁73に反射してマイクロフォンアレイ71に角度θ’で到達する一次反射音αS(t−τ)に対して、マイクロフォンアレイ71の中心位置のマイクqの受信信号は、数1式に示すように、直接音S(t)と一次反射音αS(t−τ)の加算分となる。ただし、マイクqに独立に生じるノイズおよび方向性のない雑音、または話者72から何度か反射してマイクqに到達する残響音については、直接音S(t)に対する影響は小さいので省略する。
図7において、間隔dで一直線上に並べた2個以上の全指向性マイクq−2、q−1、q、q+1、q+2・・で構成されるマイクロフォンアレイ71を設置し、時刻tにおける個々のマイクの受音信号をそれぞれxq−2(t)、xq−1(t)、xq(t)、xq+1(t)、xq+2(t)・・とする。このマイクロフォンアレイ71に向かって話者72が発話したとき、話者72からマイクロフォンアレイ71に角度θで到達する直接音S(t)と壁73に反射してマイクロフォンアレイ71に角度θ’で到達する一次反射音αS(t−τ)に対して、マイクロフォンアレイ71の中心位置のマイクqの受信信号は、数1式に示すように、直接音S(t)と一次反射音αS(t−τ)の加算分となる。ただし、マイクqに独立に生じるノイズおよび方向性のない雑音、または話者72から何度か反射してマイクqに到達する残響音については、直接音S(t)に対する影響は小さいので省略する。
また、マイクロフォンアレイ71の中心位置のマイクqに隣接するマイクq+1の受音信号は、数2式に示すように、直接音S(t−τd)と一次反射音αS(t−τ−τd’)の加算分となる。
ここで、τd及びτd’は、マイクq+1に直接音S(t−τd)と一次反射音αS(t−τ−τd’)がそれぞれ角度θ,θ’で到達したときのマイクqとのマイク間の到達時間差、αは反射による減衰率、τは直接音と一次反射音の遅延時間差である。
上述した直接音のみで反射音が存在しない場合、間隔dのマイク間の到達時間差τdは、数3式に示すように、角度θによって一意に決まる。ただし、cは音速を示す。
上述した直接音のみで反射音が存在しない場合、間隔dのマイク間の到達時間差τdは、数3式に示すように、角度θによって一意に決まる。ただし、cは音速を示す。
よって、複数のマイクからの音声信号の時間差から直接音による到達時間差τdを推定できれば、音声の到来方向θを求めることができる。
また、マイクロフォンアレイのマイク間の受音信号から共分散行列を求め、推定方向毎に位相回転ベクトルを乗じて、話者方向を特定する技術があった(特許文献1参照)。
また、雑音や反射音についても考慮し、信号対雑音比に基づいた話者方向を検出する技術があった(特許文献2)。
また、音声の調波構造を利用して母音発声の到来方向を推定する技術があった(非特許文献1)。
特開2005-62096号公報
特開2004-12151号公報
信学技報EA2002-111「反射音が存在する環境における音声の到来方向推定」
また、マイクロフォンアレイのマイク間の受音信号から共分散行列を求め、推定方向毎に位相回転ベクトルを乗じて、話者方向を特定する技術があった(特許文献1参照)。
また、雑音や反射音についても考慮し、信号対雑音比に基づいた話者方向を検出する技術があった(特許文献2)。
また、音声の調波構造を利用して母音発声の到来方向を推定する技術があった(非特許文献1)。
しかし、直接音が壁73などに反射する反射音があると直接音と反射方向からの遅延も含まれるため、直接音による到達時間差を正確に推定することができないという不都合があった。
また、特許文献1に記載の技術では、マイクロフォンアレイのマイク間の受音信号から共分散行列を求め、推定方向毎に位相回転ベクトルを乗じて、話者方向を特定しているが、上述のように反射音を含む受音信号を仮定していないため直接音による到達時間差τdを正確に推定することができない。
また、特許文献1に記載の技術では、マイクロフォンアレイのマイク間の受音信号から共分散行列を求め、推定方向毎に位相回転ベクトルを乗じて、話者方向を特定しているが、上述のように反射音を含む受音信号を仮定していないため直接音による到達時間差τdを正確に推定することができない。
また、特許文献2に記載の技術では、雑音や反射音についても考慮し、信号対雑音比に基づいた話者方向を検出しているが、音声/非音声を識別する特徴量を用いていないため、雑音源方向についても検出できるが、信号対雑音比の算出などの複雑な処理が必要となる。
また、非特許文献1に記載の技術では、音声の調波構造を利用して母音発声の到来方向を推定しているが、固定ピッチ周波数を仮定しているため、普段の発話音声のように短時間でピッチ周波数が変動する際に対応できず、方向検出精度が劣化する。
また、非特許文献1に記載の技術では、音声の調波構造を利用して母音発声の到来方向を推定しているが、固定ピッチ周波数を仮定しているため、普段の発話音声のように短時間でピッチ周波数が変動する際に対応できず、方向検出精度が劣化する。
そこで、本発明では、反射音の影響があっても直接音の到達時間差を正確に推定して話者方向検出の精度を向上させることができるとともに、さらに、ピッチ周波数が変動する際にも簡単な処理で対応することができる信号処理装置、この信号処理装置を利用したマイクロフォンシステム、話者方向検出方法及び話者方向検出プログラムを提供することを目的とするものである。
上記課題を解決し、本発明の目的を達成するため、本発明の信号処理装置は、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイを少なくとも2方向の軸上に配列したマイクロフォンユニットの各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部と、上記音源方向検出部により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部とを備えたものである。
本発明の信号処理装置によれば、音源方向検出部は少なくとも2方向の軸上に配列した複数のマイクロフォンアレイからの各マイクロフォンアレイの推定方向毎の音声成分を計算して、音声検出部はそれらを方向毎に組み合わせることによって、全方向に対しての話者方向を検出する。このとき、例えば、音源方向検出部はあるマイクロフォンアレイの音声成分が角度方向によっては角度の分解度が荒くなるために正確に角度を推定できない場合、他軸のマイクロフォンアレイの推定角度も利用する。このとき、例えば、音声成分を検出する際に音声成分の調波構造に着目し、有効な調波成分が存在し、かつ、それが特定方向から到来する場合に音声と判断する。
また、本発明のマイクロフォンシステムは、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイを少なくとも2方向の軸上に配列したマイクロフォンユニットと、上記マイクロフォンユニットの各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部と、上記音源方向検出部により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部とを有する信号処理装置とを備えたものである。
本発明のマイクロフォンシステムによれば、例えば、複数のマイクロフォンアレイを中心点で交差するように並べたマイクロフォンユニットを用いて、信号処理装置の音源方向検出部は各マイクロフォンアレイの推定方向毎の音声成分を計算して、音声検出部はそれらを方向毎に組み合わせることによって、全方向に対しての話者方向を検出する。このとき、例えば、音源方向検出部はあるマイクロフォンアレイの音声成分が角度方向によって正確に角度を推定できない場合、他軸のマイクロフォンアレイの推定角度も利用する。
また、本発明の話者方向検出方法は、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイが少なくとも2方向の軸上に配列されるマイクロフォンユニットからの各軸方向の話者方向の音声成分を周波数成分に変換するステップと、上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化するステップと、上記各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定するステップと、上記検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出するステップとを備えたものである。
本発明の話者方向検出方法によれば、相関性を含む音声成分を隣接するマイク間のそれぞれの相関を平均化することにより反射音の影響を抑圧する。また、複数のマイクロフォンアレイが少なくとも2方向の軸上に配列されるマイクロフォンユニットからの各マイクロフォンアレイの推定方向毎の音声成分を計算して、それらを方向毎に合成することによって、全方向に対して話者方向検出が可能となる。
また、本発明の話者方向検出プログラムは、話者方向の検出処理を制御するためのコンピュータを、複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイが少なくとも2方向の軸上に配列されるマイクロフォンユニットからの各軸方向の話者方向の音声成分を周波数成分に変換する手段と、上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化する手段と、上記各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定する手段と、上記検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する手段として機能させるためのものである。
本発明の話者方向検出プログラムによれば、話者方向の検出処理を制御するためのコンピュータは相関性を含む音声成分を隣接するマイク間のそれぞれの相関を平均化することにより反射音の影響を抑圧するように機能する。また、話者方向の検出処理を制御するためのコンピュータは、複数のマイクロフォンアレイが少なくとも2方向の軸上に配列されるマイクロフォンユニットからの各マイクロフォンアレイの推定方向毎の音声成分を計算して、それらを方向毎に合成することによって、全方向に対して話者方向検出するように機能する。
本発明によれば、相関性を含む音声成分を隣接するマイク間のそれぞれの相関を平均化することにより反射音の影響を抑圧することができるので、話者方向の検出の精度を向上させることができるという効果を奏する。
また、相関する音声成分の平均化という簡単な処理で済み、しかも帯域周波数成分の平均化処理によりピッチ周波数が変動する際にも対応することができるという効果を奏する。
また、相関する音声成分の平均化という簡単な処理で済み、しかも帯域周波数成分の平均化処理によりピッチ周波数が変動する際にも対応することができるという効果を奏する。
以下に、本発明の実施の形態について適宜図面を参照しながら説明する。
図1は、本発明の実施の形態による話者方向検出システムを示す構成図である。
図1に示す話者方向検出システムは、複数のマイクロフォン2−1,2−2,2−3,2−4,2−5,3−1,3−2,3−3,3−4をアレイ状に設けたマイクロフォンアレイ2,3を少なくとも2方向の軸上に配列したマイクロフォンユニット1を有して構成される。
図1は、本発明の実施の形態による話者方向検出システムを示す構成図である。
図1に示す話者方向検出システムは、複数のマイクロフォン2−1,2−2,2−3,2−4,2−5,3−1,3−2,3−3,3−4をアレイ状に設けたマイクロフォンアレイ2,3を少なくとも2方向の軸上に配列したマイクロフォンユニット1を有して構成される。
ここでは、垂直方向マイクロフォンアレイ2及び水平方向マイクロフォンアレイ3を中心位置で交差させたマイクロフォンユニット1を例に示したが、水平方向又は垂直方向でなくとも互いの中間方向又は互いに平行でない他の任意の方向でもよい。また、平面上であれば必ずしも2方向である必要はなく3軸以上の多軸方向に配列してもよい。マイクロフォンアレイが他の方向に配列される場合には、その軸方向について後述する水平軸方向及び垂直軸方向についての同様の信号処理をすればよい。また、1つのマイクロフォンアレイに用いられるマイクロフォンの数は3個以上の複数個であればよい。
また、図1に示す話者方向検出システムは、マイクロフォンユニット1からの音声信号から話者方向検出処理の動作を行う信号処理装置5を有して構成される。信号処理装置5は、マイクロフォンユニット1の各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部6と、音源方向検出部6により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部7とを有して構成される。
以上のように構成された話者方向検出システム(図1)によれば、マイクロフォンユニット1は垂直方向マイクロフォンアレイ2及び水平方向マイクロフォンアレイ3を中心点のマイクロフォン2−3で交差するように並べているため、垂直方向マイクロフォンアレイ2及び水平方向マイクロフォンアレイ3により形成される平面空間に話者4からの直接音s(t,θ)及び一次反射音s’(t’,θ’)がそれぞれ異なる到達時間及び到達角度で到達し、それらが足し合わされた音x(t)として入力される。
信号処理装置5の音源方向検出部6は各マイクロフォンアレイ2,3の音声成分xLR、FB q±i,j(t)から推定方向毎の音声成分のパワーP(φ,t)を計算する。そして、音声検出部7は、この音源方向検出部6の出力である推定方向毎の音声成分のパワーP(φ,t)から全方向に対しての話者の方向θ‐(t)を検出する。このとき、例えば、音源方向検出部6は、例えばマイクロフォンアレイ2(又はマイクロフォンアレイ3)の音声成分が角度方向によって、正確に角度を推定できない場合には、他軸のマイクロフォンアレイ3(又はマイクロフォンアレイ2)の推定角度も利用するようにする。
ここで、信号処理装置5は、音源方向検出部6及び音声検出部7を別体又は一体の信号処理用コンピュータで構成し、後述するように専用の話者方向検出プログラムにより各部を機能させるようにしてもよい。また、マイクロフォンユニット1と信号処理装置5は、別体又は一体で構成してもよい。
図2は、音源方向検出部の構成を示すブロック図である。
図1と同様に、9個の全指向性マイクロフォン2−1,2−2,2−3,2−4,2−5,3−1,3−2,3−3,3−4を間隔dで十字型に並べたマイクロフォンアレイ2,3を構成し、ある方向例えば水平方向を基準に音声の到来方向θとする。時刻tにおける個々のマイクの受音信号を垂直方向のマイクロフォンアレイ2について、それぞれxFB q−2(t)、xFB q−1(t)、xFB q(t)、xFB q+1(t)、xFB q+2(t)とする。
図1と同様に、9個の全指向性マイクロフォン2−1,2−2,2−3,2−4,2−5,3−1,3−2,3−3,3−4を間隔dで十字型に並べたマイクロフォンアレイ2,3を構成し、ある方向例えば水平方向を基準に音声の到来方向θとする。時刻tにおける個々のマイクの受音信号を垂直方向のマイクロフォンアレイ2について、それぞれxFB q−2(t)、xFB q−1(t)、xFB q(t)、xFB q+1(t)、xFB q+2(t)とする。
また、水平方向マイクロフォンアレイ3のマイク列の受音信号を、それぞれxLR q−2(t)、xLR q−1(t)、xLR q(t)、xLR q+1(t)、xLR q+2(t)とする。xLR q(t)とxFB q(t)は同一信号となる。これらの、時間領域のマイクの音声信号系列から、図2に示す音源方向検出部6で、走査方向φ毎に音声成分のパワーP(φ,t)を計算し、これを基に音声検出部で音声の到来方向θ‐(t)を推定する。
以下に、音源方向検出部6の詳細な構成及び動作について説明する。
上述した9個のマイク入力信号系列に対して、まず、図示しないA/D変換器でディジタル信号に変換し、処理単位に相当する窓関数をかけて一定区間毎にディジタル信号を分割する。そして、短時間フーリエ変換部11により周波数スペクトル分析を行い、個々のマイクについての周波数領域の垂直方向アレイの周波数スペクトルXFB q−2(ω)、XFB q−1(ω)、XFB q(ω)、XFB q+1(ω)、XFB q+2(ω)を得る。
上述した9個のマイク入力信号系列に対して、まず、図示しないA/D変換器でディジタル信号に変換し、処理単位に相当する窓関数をかけて一定区間毎にディジタル信号を分割する。そして、短時間フーリエ変換部11により周波数スペクトル分析を行い、個々のマイクについての周波数領域の垂直方向アレイの周波数スペクトルXFB q−2(ω)、XFB q−1(ω)、XFB q(ω)、XFB q+1(ω)、XFB q+2(ω)を得る。
同様に、周波数領域の水平方向アレイの周波数スペクトルXLR q−2(ω)、XLR q−1(ω)、XLR q(ω)、XLR q+1(ω)、XLR q+2(ω)を得る。
以下、水平方向の周波数成分と垂直方向の周波数成分はそれぞれ独立に同様の構成により同様の処理をするため、同時に説明する。
クロスパワースペクトル部12、22では、例えば、マイクロフォンアレイ2,3の中心位置のマイクqと隣接するマイク(q+1)についての周波数領域での相互相関を示すクロスパワースペクトルGq、q+1(ω)を以下の数4式により演算して求める。数4式に示す*は複素共役を示す。
クロスパワースペクトル部12、22では、例えば、マイクロフォンアレイ2,3の中心位置のマイクqと隣接するマイク(q+1)についての周波数領域での相互相関を示すクロスパワースペクトルGq、q+1(ω)を以下の数4式により演算して求める。数4式に示す*は複素共役を示す。
例えば十字型で9個のマイクロフォンで構成されるマイクロフォンアレイ2,3では、各軸4組のクロスパワースペクトルが求まる。具体的には、水平方向のクロスパワースペクトルGLR q−2、q−1(ω)、GLR q−1、q(ω)、GLR q、q+1(ω)、GLR q+1、q+2(ω)、垂直方向のクロスパワースペクトルGFB q−2、q−1(ω)、GFB q−1、q(ω)、GFB q、q+1(ω)、GFB q+1、q+2(ω)を得る。
次に、ピッチ抽出部19では、十字型で9個のマイクロフォンで構成されるマイクロフォンアレイ2,3の中心位置のマイクqについてパワースペクトル|Xq(ω)|2からピッチ周波数ω0を推定する。ピッチ周波数の推定方法は、周知の推定方法を用いる(例えば情報処理学会99-MUS-31-16「実世界の音楽音響信号を対象としたメロディーとベースの音高推定」参照)。
周波数ベクトル部13,23では、ピッチ抽出部19で推定したピッチ周波数ω0とその整数倍の周波数付近でスペクトルパワーが最大となる周波数iω0(i=1,…,N)を用いて、隣接マイク間のクロスパワースペクトルの周波数ベクトルGq、q+1(ω0)を以下の数5式により演算して求める。数5式に示すTは転置を示す。
具体的には、水平方向の周波数ベクトルGLR q−2、q−1(ω0)、GLR q−1、q(ω0)、GLR q、q+1(ω0)、GLR q+1、q+2(ω0)、垂直方向の周波数ベクトルGFB q−2、q−1(ω0)、GFB q−1、q(ω0)、GFB q、q+1(ω0)、GFB q+1、q+2(ω0)を得る。
マイク間平均処理部14,24では、各軸の周波数ベクトルについてQ個のマイクに対して求められた、(Q−1)個のマイク間の周波数ベクトルを以下の数6式により演算してマイク間平均周波数ベクトルGLR、FB SP(ω0)を求める。
図3はこのように求められたクロスパワースペクトラムの例である。図3において、マイク間平均周波数ベクトルGSPはiω0、(i=1,…,N)を中心とした複数の帯域に分割されている。
帯域平均化処理部15,25では、ピッチ周波数ω0及びその整数倍の周波数を中心周波数とする狭帯域成分群について、その帯域内で周波数成分を以下の数7式により演算して図4のように重み付け平均する。
図4は、帯域内周波数成分の重み付け平均を示す図である。図4において、ω0を中心とした帯域内で、例えば重み付け帯域幅R=5とした場合、ω0−5Δω、ω0−4Δω、ω0−3Δω、ω0−2Δω、ω0−Δω、ω0、ω0+Δω、ω0+2Δω、ω0+3Δω、ω0+4Δω、ω0+5Δω内で重み付け係数δrを用いて、中心周波数成分に対して隣り合う成分へ平均的な範囲内に収まるように重み付けする。Δωは離散フーリエ変換での周波数成分の間隔である。
これにより、上述した帯域の範囲内でピッチ周波数が変動しても後述する音声方向ベクトルのパワーが検出可能となるように、周波数ピッチが帯域内の他の周波数成分に移る場合にも中心周波数成分の山のピークが揺らぐことなく他の周波数成分から音声方向ベクトルのパワーを確保することができる。
調波選択部16,26では、ピッチ周波数ω0およびその整数倍の周波数成分について選択すべき候補となるN個の調波成分mについて、数8式で帯域平均化したクロスパワースペクトルの位相差を求める。
この位相差φ(mω0)を直接音による到達時間差τdに相当するマイク間の時間差T(m)=φ(mω0)/mω0に置き換え、その平均値Taveに対する最小2乗誤差|Tave−T(m)2|の小さい順に調波成分mをM個選択する。これにより、マイク間の各周波数成分の位相差に基づいて各周波数成分を仮想的に音声の到来方向の空間に配列するための調波成分を選択することができる。
共分散行列化部17,27では、調波選択部16,26で選択されたM個の調波成分mの周波数について帯域平均化したクロススパワーペクトルを用いて、以下の数9式、数10式を用いて、共分散行列R(ω0)を構成する。共分散行列R(ω0)は、帯域平均化したクロススパワーペクトルのM個の調波成分mの各周波数成分を仮想的に音声の到来方向の空間に配列したものである。
垂直方向推定部18及び水平方向推定部28では、垂直方向と水平方向の個々のマイクロフォンアレイ軸についての共分散行列RLR(ω0)及びRFB(ω0)を例えば周知の音源推定方法であるMUSIC法を用いて、方向φについての音声パワーを計算する。このとき、共分散行列の各要素R(ω0)は数11のようにその大きさで正規化し、次のように固有ベクトルV(ω0)に分解する。
そして、求めた固有ベクトルVmについて、次の数14式で方向φの音声のパワーP(φ)を求める。数12式で、T(φ)は、方向Φに対するマイク間の遅延時間である。
全方向推定部21では、水平方向と垂直方向の各方向軸についての音声方向パワーPLR MUSIC(φ)、PFB MUSIC(φ)を方向φについて合成する。合成方法については、例えば、方向φについて、数13式で示すように水平方向と垂直方向の各方向軸についてパワーが小さい方を合成値PMUSIC(φ)とする。これは、各方向軸での方向成分の演算による対称的に出てくる空間折り返し成分の影響を除くためである。
図5は、基準となる水平方向マイクロフォンアレイ2に対して音声の到来方向θ=45°方向から音声が入力された場合に、全方向推定部21で合成値PMUSIC(φ)を全方向推定した結果である。図5から、θ=45°方向で合成値PMUSIC(φ)が最大レベルとなっていることが分かる。
図1で示した音声検出部7は、数14式で示すように音源方向検出部6で推定された音声方向のパワー値P(φ、t)のレベルが極大となる方向φから音声方向θを推定することができる。
しかし、図6で示すように音声がない場合でも全方向推定部21で合成値PMUSIC(φ)を逐次なんらかの方向で推定してしまうため、数15式で示すように音声方向θ(t)でのパワーP(θ、t)とそれ以外の方向の平均パワーPave(φ、t)の比がある閾値TSD以上であれば、音声が検出されたと判定する。ここでは、例えば、閾値TSDとして、2〜3[dB]を設定するようにする。閾値TSDは、音声がある場合と音声がない場合とを相対的に区別できる値であればよい。
また、図5や図6の全方向のパワー値P(φ、t)をそのまま、アレイマイクロフォンの指向パターンとして利用してもよい。この場合、推定方向のパワー値P(φ、t)のレベルが大きいほどゲインを高くすることによって、音源方向へ指向性を鋭くすることができる。一方、逐次変動する音声のパワーに強く依存するため、例えば、次の数16式のような減衰時間μで徐々に減衰するピークホールド関数e−μtを設けて時間変動の影響を軽減するようにする。
上述した本発明の実施の形態に限らず、本発明の特許請求の範囲内であれば、適宜、変更しうることはいうまでもない。
1…マイクロフォンユニット、2…水平方向マイクロフォンアレイ、3…垂直方向マイクロフォンアレイ、4…話者、5…信号処理装置、6…音源方向検出部、7…音声検出部、11…短時間フーリエ変換部、12、22…クロスパワースペクトル部、13,23…周波数ベクトル部、14,24…マイク間平均処理部、15,25…帯域平均化処理部、16,26…調波選択部、17,27…共分散行列化部、18…垂直方向推定部、28…水平方向推定部、19…ピッチ抽出部、21…全方向推定部
Claims (7)
- 複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイを少なくとも2方向の軸上に配列したマイクロフォンユニットの各マイクロフォンアレイから、各軸方向の話者方向の音声成分を抽出して全方向の話者方向の音声成分を検出する音源方向検出部と、
上記音源方向検出部により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部と
を備えた信号処理装置。 - 請求項1に記載の信号処理装置において、
上記音源方向検出部は、
上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化する相関成分平均手段と、
上記相関成分平均手段の各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定する全方向推定手段と
を備えたことを特徴とする信号処理装置。 - 請求項2に記載の信号処理装置において、
上記相関成分平均手段は、
上記マイクロフォンユニットの各軸方向の隣接する各マイクロフォン間の周波数成分の相関性のある成分であるクロスパワースペクトルを生成するクロスパワースペクトル生成部と、
上記マイクロフォンユニットのマイクロフォンアレイの中心の周波数成分から得られるピッチ周波数及びその整数倍の周波数近傍で、上記クロスパワースペクトル生成部により生成された上記マイクロフォンユニットの各軸方向の隣接する各マイクロフォン間のクロスパワースペクトルが最大となる周波数ベクトルを生成する周波数ベクトル生成部と、
上記周波数ベクトル生成部により生成された上記マイクロフォンユニットの各軸方向の周波数ベクトルを複数のマイクロフォン間で平均化するマイク間平均化部と、
を備えたことを特徴とする信号処理装置。 - 請求項3に記載の信号処理装置において、
上記相関成分平均手段は、
上記マイク間平均化部により上記マイクロフォンユニットの各軸方向の周波数ベクトルを複数のマイクロフォン間で平均化された周波数成分を、上記ピッチ周波数及びその整数倍の周波数を中心周波数とする帯域群内で重み付け平均化する重み付け平均化部と、
上記重み付け平均化部により各帯域群内で重み付け平均化された周波数成分について、各周波数成分の位相差及び時間差の少なくともいずれか一方に基づいて各周波数成分を仮想的に音声の到来方向の空間に配列するための調波成分を選択する調波選択部と、
を備えたことを特徴とする信号処理装置。 - 複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイを少なくとも2方向の軸上に配列したマイクロフォンユニットと、
上記マイクロフォンユニットの各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を検出する音源方向検出部と、
上記音源方向検出部により検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する音声検出部と、
を備えたことを特徴とするマイクロフォンシステム。 - 複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイが少なくとも2方向の軸上に配列されるマイクロフォンユニットからの各軸方向の話者方向の音声成分を周波数成分に変換するステップと、
上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化するステップと、
上記各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定するステップと、
上記検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出するステップと
からなる話者方向検出方法。 - 話者方向の検出処理を制御するためのコンピュータを、
複数のマイクロフォンをアレイ状に設けたマイクロフォンアレイが少なくとも2方向の軸上に配列されるマイクロフォンユニットからの各軸方向の話者方向の音声成分を周波数成分に変換する手段と、
上記マイクロフォンユニットの各軸方向の相関性のある周波数成分の相互相関を平均化する手段と、
上記各軸方向の相関成分平均を用いて得られる各軸方向の話者方向の音声成分から全方向の話者方向の音声成分を推定する手段と、
上記検出された全方向の話者方向の音声成分に基づいて音声の到来方向を検出する手段
として機能させるための話者方向検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005185278A JP2007006253A (ja) | 2005-06-24 | 2005-06-24 | 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005185278A JP2007006253A (ja) | 2005-06-24 | 2005-06-24 | 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007006253A true JP2007006253A (ja) | 2007-01-11 |
Family
ID=37691407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005185278A Pending JP2007006253A (ja) | 2005-06-24 | 2005-06-24 | 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007006253A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010103617A (ja) * | 2008-10-21 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010124447A (ja) * | 2008-10-21 | 2010-06-03 | Nippon Telegr & Teleph Corp <Ntt> | 発話正面・横向き推定装置、方法及びプログラム |
JP2010206392A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010206393A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010206449A (ja) * | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
EP2352309A1 (en) | 2009-12-10 | 2011-08-03 | Funai Electric Co., Ltd. | Sound Source Tracking Device |
CN107741113A (zh) * | 2017-10-13 | 2018-02-27 | 青岛海尔股份有限公司 | 一种智能语音模块及冰箱的测试方法 |
CN112567763A (zh) * | 2018-05-09 | 2021-03-26 | 诺基亚技术有限公司 | 用于音频信号处理的装置、方法和计算机程序 |
CN113470682A (zh) * | 2021-06-16 | 2021-10-01 | 中科上声(苏州)电子有限公司 | 一种用麦克风阵列估计说话人方位的方法、装置及存储介质 |
-
2005
- 2005-06-24 JP JP2005185278A patent/JP2007006253A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010103617A (ja) * | 2008-10-21 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010124447A (ja) * | 2008-10-21 | 2010-06-03 | Nippon Telegr & Teleph Corp <Ntt> | 発話正面・横向き推定装置、方法及びプログラム |
JP2010206392A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010206393A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010206449A (ja) * | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
EP2352309A1 (en) | 2009-12-10 | 2011-08-03 | Funai Electric Co., Ltd. | Sound Source Tracking Device |
CN107741113A (zh) * | 2017-10-13 | 2018-02-27 | 青岛海尔股份有限公司 | 一种智能语音模块及冰箱的测试方法 |
CN112567763A (zh) * | 2018-05-09 | 2021-03-26 | 诺基亚技术有限公司 | 用于音频信号处理的装置、方法和计算机程序 |
US11457310B2 (en) | 2018-05-09 | 2022-09-27 | Nokia Technologies Oy | Apparatus, method and computer program for audio signal processing |
CN112567763B (zh) * | 2018-05-09 | 2023-03-31 | 诺基亚技术有限公司 | 用于音频信号处理的装置和方法 |
US11950063B2 (en) | 2018-05-09 | 2024-04-02 | Nokia Technologies Oy | Apparatus, method and computer program for audio signal processing |
CN113470682A (zh) * | 2021-06-16 | 2021-10-01 | 中科上声(苏州)电子有限公司 | 一种用麦克风阵列估计说话人方位的方法、装置及存储介质 |
CN113470682B (zh) * | 2021-06-16 | 2023-11-24 | 中科上声(苏州)电子有限公司 | 一种用麦克风阵列估计说话人方位的方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2647222B1 (en) | Sound acquisition via the extraction of geometrical information from direction of arrival estimates | |
JP2007006253A (ja) | 信号処理装置、マイクロフォンシステム、話者方向検出方法及び話者方向検出プログラム | |
JP6636633B2 (ja) | 音響信号を向上させるための音響信号処理装置および方法 | |
JP4455614B2 (ja) | 音響信号処理方法及び装置 | |
US9633651B2 (en) | Apparatus and method for providing an informed multichannel speech presence probability estimation | |
EP2375410B1 (en) | A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal | |
JP5845090B2 (ja) | 複数マイクロフォンベースの方向性音フィルタ | |
JP5814476B2 (ja) | 空間パワー密度に基づくマイクロフォン位置決め装置および方法 | |
JP5229053B2 (ja) | 信号処理装置、および信号処理方法、並びにプログラム | |
EP3566461B1 (en) | Method and apparatus for audio capture using beamforming | |
JP6584930B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Silverman et al. | Performance of real-time source-location estimators for a large-aperture microphone array | |
JP4910568B2 (ja) | 紙擦れ音除去装置 | |
EP3566462B1 (en) | Audio capture using beamforming | |
JP2014502108A (ja) | 音響三角測量方式による空間的に選択的な音の取得のための装置および方法 | |
JP2008236077A (ja) | 目的音抽出装置,目的音抽出プログラム | |
Nagata et al. | Two-dimensional DOA estimation of sound sources based on weighted wiener gain exploiting two-directional microphones | |
JP5105336B2 (ja) | 音源分離装置、プログラム及び方法 | |
JP2005077205A (ja) | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム | |
Hioka et al. | Multiple-speech-source localization using advanced histogram mapping method | |
Hayashi et al. | Speech enhancement by non-linear beamforming tolerant to misalignment of target source direction | |
JP2018142822A (ja) | 音響信号処理装置、方法及びプログラム | |
Guo et al. | Speaker Direction-of-Arrival Estimation Based on Frequency-Independent Beampattern. | |
Suzuki et al. | Improving the robustness of multiple signal classification (MUSIC) method to reflected sounds by sub-band peak-hold processing |