(A)主たる実施形態
以下、本発明による音声判定装置、方法及びプログラム、並びに、音声処理装置の一実施形態を、図面を参照しながら詳述する。
(A−1)実施形態の構成
図1は、この実施形態の音声判定装置1の全体構成を示すブロック図である。
音声判定装置1は、一対のマイクm_1、m_2のそれぞれから、図示しないAD変換器を介して入力信号s1(n)、s2(n)を取得する。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
音声判定装置1は、マイクm_1、m_2で補足される入力信号に非目的音(例えば、妨害音声)が含まれるか否かを判定し、その判定結果を音声処理装置2に供給する。音声処理装置2は、音声判定装置1から供給される判定結果を利用して、入力信号の処理を行う。音声処理装置2が入力信号に対して行う処理内容については限定されないものである。音声処理装置2は、例えば、テレビ会議システムや携帯電話端末などの通信装置や音声認識機能の前処理に、音声判定装置1から供給される判定結果を利用する。音声処理装置2は、例えば、音声判定装置1から供給される判定結果を非目的音(例えば、妨害音声)の抑圧処理等に利用する。
図2は、マイクm_1、m_2の配置の例について示した説明図である。
図2に示すように、この実施形態では、マイクm_1、m_2は、2つのマイクm_1、m_2を含む面が目的音の到来する方向(目的音の音源の方向)に対して垂直となるように配置されているものとする。また、以下では、図2に示すように、2つのマイクm_1、m_2の間の位置から見て、目的音の到来方向を前方向又は正面方向と呼ぶものとする。また、以下では、図2に示すように、右方向、左方向、後方向と呼ぶ場合は、2つのマイクm_1、m_2の間の位置から目的音の到来方向を見た場合の各方向を示すものとして説明する。なお、この実施形態では、目的音がマイクm_1、m_2の正面方向から到来し、妨害音声を含む非目的音が左右方向(横方向)から到来するものとして説明する。
音声判定装置1は、FFT部10、正面抑圧信号生成部20、コヒーレンス計算部30、判定部40、及び平滑化係数制御部50を有している。
音声判定装置1は、プロセッサやメモリ等を有するコンピュータにプログラム(実施形態に係る音声判定プログラムを含むプログラム)をインストールして実現するようにしてもよいが、この場合でも、音声判定装置1は機能的には図1を用いて示すことができる。なお、音声判定装置1については一部又は全部をハードウェア的に実現するようにしてもよい。
FFT部10は、マイクm1及びマイクm2から入力信号系列s1及びs2を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2が周波数領域で表現されることになる。なお、FFT部10は、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から所定のN個(Nは任意の整数)のサンプルから成る、分析フレームFRAME1(K)及びFRAME2(K)を構成するものとする。入力信号s1からFRAME1を構成する例を以下の(1)式に示す。なお、以下の(1)式において、Kはフレームの順番を表すインデックスであり、正の整数で表現される。以下では、Kの値が小さいほど古い分析フレームであり、Kの値が大きいほど新しい分析フレームであるものとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
FRAME1(1)={s1(1)、s1(2)・・、s1(i)、・・s1(n)}
FRAME1(K)={s1(N×K+1)、s1(N×K+2)・・、s1(N×K+i)、・・s1(N×K+N)} …(1)
FFT部10は、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f,K)と、入力信号s2から構成した分析フレームFRAME2(K)をフーリエ変換して得た周波数領域信号X2(f,K)とを取得する。なおfは周波数を表すインデックスである。また(f,K)は単一の値ではなく、以下の(2)式のように、複数の周波数f1〜fmのm個(mは任意の整数)のスペクトル成分から構成されるものであるものとする。
FFT部10は、周波数領域信号X1(f,K)、X2(f,K)を、正面抑圧信号生成部20及びコヒーレンス計算部30に供給する。
なお、X1(f,K)は複素数であり、実部と虚部で構成される。これは、X2(f,K)及び、後述する正面抑圧信号生成部20で説明する「N(f,K)」についても同様である。
X1(f,K)={X1(f1,K)、X1(f2,K)、・・X1(fi,K)・・、X1(fm,K)} …(2)
次に、正面抑圧信号生成部20について説明する。
正面抑圧信号生成部20は、FFT部10から供給された信号について、周波数ごとに正面方向の信号成分を抑圧する処理を行う。言い換えると、正面抑圧信号生成部20は、正面方向の成分を抑圧する指向性フィルタとして機能する。
例えば、正面抑圧信号生成部20は、図3に示すように、正面方向に死角を有する8の字型の双指向性のフィルタを用いて、FFT部10から供給された信号から正面方向の成分を抑圧する指向性フィルタを形成する。
具体的には、正面抑圧信号生成部20は、FFT部10から供給された信号「X1(f,K)」、「X2(f,K)」に基づいて以下の(3)式のような計算を行って、周波数ごとの正面抑圧信号N(f,K)を生成する。以下の(3)式の計算は、上述の図3のような、正面方向に死角を有する8の字型の双指向性のフィルタを形成する処理に相当する。
N(f,K)=X1(f,K)−X2(f,K) …(3)
そして、正面抑圧信号生成部20は、以下の(4)式を用いて、全周波数にわたってN(f,K)を平均した、平均正面抑圧信号AVE_N(K)を算出する。
次に、コヒーレンス計算部30の処理について説明する。
コヒーレンス計算部30は、周波数領域信号X1(f,K)、X2(f,K)について、左方向(第1の方向)に強い指向性(例えば、図4(a)に示すような単一指向性)のフィルタで処理された信号(以下、「指向性信号B1(f)」と呼ぶ)と、右方向(第2の方向)に強い指向性(例えば、図4(b)に示すような単一指向性)のフィルタで処理された信号(以下、「指向性信号B2(f)」と呼ぶ)とに基づくコヒーレンスCOH(K)を算出する。なお、指向性信号B1(f)及び指向性信号B2(f)に係る指向性の方向は正面方向以外の任意の方向(ただし、B1(f)とB2(f)とで異なる方向とする必要がある)とするようにしてもよい。
コヒーレンスCOH(K)を算出する具体的な算出処理(例えば、計算式)については限定されないものであるが、例えば、特許文献1と同様の処理(例えば、特許文献1に記載された(3)式〜(7)式の計算処理)を適用することができるため、詳細については省略する。
次に、判定部40の処理について説明する。
判定部40は、正面以外に指向性を有する正面抑圧信号N(f,K)(平均正面抑圧信号AVE_N(K))と、コヒーレンスCOH(K)を用いて、妨害音声の有無を判定する。
ここでは、目的音がマイクm_1、m_2の正面方向から到来し、妨害音声が左右方向(横方向)から到来するものとして説明する。例えば、マイクm_1、m_2を電話端末(例えば、携帯電話端末等)の受話器のマイク部分に適用した場合には、目的音としての話者(ユーザ)の音声はマイクm_1、m_2の正面方向から到来し、当該電話端末の話者以外の音声は、左右方向(横方向)から到来することになる。
したがって、例えば、「妨害音声が存在せず」かつ「目的音が存在する」場合は、正面抑圧信号N(f,K)の平均正面抑圧信号AVE_N(K)は、目的音成分の大きさに比例した値となる。図2に示すように、平均正面抑圧信号AVE_N(K)(正面抑圧信号N(f,K))生成時の指向性特性には、「妨害音声が存在せず」かつ「目的音が存在する」場合でも、正面方向から到来する信号成分も含まれることになるためである。ただし、図2に示すように、平均正面抑圧信号AVE_N(K)(正面抑圧信号N(f,K))生成時の指向性特性には、正面方向から到来する信号成分も含まれるが、横方向のゲインと比較すると非常に小さい。また、「妨害音声が存在せず」かつ「目的音が存在する」場合の正面抑圧信号N(f,K)のゲインは、妨害音声が存在する場合よりも小さくなる。
また、コヒーレンスCOH(K)は、簡単に述べれば、第1の方向(右方向)から到来する信号と第2の方向(左方向)から到来する信号の相関(特徴量)と言える。従って、コヒーレンスCOH(K)が小さい場合とは、2つの指向性信号B1(f)、B2(f)の相関が小さい場合であり、反対にコヒーレンスCOH(K)が大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合は、目的音の到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。また、例えば、マイクm_1、m_2を電話端末(例えば、携帯電話端末等)の受話器のマイク部分に適用した場合には、話者の音声(目的音声)は正面から到来し、妨害音声は正面以外から到来する傾向が強い。以上のようにコヒーレンスCOH(K)は、入力信号の到来方向と深い関係を持つ特徴量となる。したがって、「妨害音声が存在せず」かつ「目的音が存在する」場合には、コヒーレンスCOH(K)の値は大きくなる傾向となり、「妨害音声が存在する」場合には、コヒーレンスCOH(K)の値は小さくなる傾向となる。
以上の各値の挙動を妨害音声の有無に着目して整理すると以下のような条件で、妨害音声の有無を判断することができる。以下では、「妨害音声が存在せず」かつ「目的音が存在する」という条件(以下、「第1の条件」と呼ぶ)と、「妨害音声が存在する」という条件(以下、「第2の条件」と呼ぶ)に場合分けして、妨害音声の有無の判定方法について説明する。
第1の条件の場合(「妨害音声が存在せず」かつ「目的音が存在する」場合)には、コヒーレンスCOH(K)が比較的大きな値となり、平均正面抑圧信号AVE_N(K)は、目的音成分の大きさに比例した値となる。
一方、第2の条件の場合(「妨害音声が存在する」場合)には、コヒーレンスCOH(K)の値は小さい値となり、平均正面抑圧信号AVE_N(K)は大きな値となる傾向にある。
したがって、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の相関係数cor(K)を導入すると、相関係数cor(K)と妨害音声の有無との関係は以下のような関係となる。
妨害音声が存在しない場合は、相関係数cor(K)は正の値(相関性が高いことを示す所定値以上の値)となる傾向となる。一方、妨害音声が存在する場合には、相関係数cor(K)は負の値(相関性が低いことを示す所定値未満の値)となる傾向となる。
すなわち、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)を導入することにより、例えば、相関係数cor(K)の正負判断というシンプルな処理で、妨害音声の有無を判定することができる。
そこで、この実施形態の判定部40は、まず、相関係数cor(K)を求め、相関係数cor(K)に基づいて妨害音声の有無を判定するものとする。
ただし、この実施形態では、判定部40は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを平滑化処理(時間軸上で平滑処理)してから、相関係数cor(K)の算出に適用するものとする。なお、判定部40は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを平滑化せずにそのまま相関係数cor(K)の算出に適用するようにしてもよい。
判定部40では、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを平滑化することにより、入力信号の瞬間的な変動による相関係数cor(K)への影響を低減することができる。以下では、平滑化後の平均正面抑圧信号AVE_N(K)を、S_AVE_N(K)と表すものとする。また、以下では、平滑化後のコヒーレンスCOH(K)を、S_COH(K)と表すものとする。平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを平滑化する具体的な計算式については限定されないものであるが、例えば、以下の(5)式及び(6)式のように長期平均値を用いた平滑処理を行うようにしても良い。
以下の(5)式では、最新のAVE_N(K)と、直前に求めたS_AVE_N(K−1)とを重みづけ加算している。以下の(5)式において、λは、0.0<λ<1.0の範囲で設定される平滑化係数(重みづけ係数)である。λは、後述する平滑化係数制御部50から供給される。以下の(5)式において、S_AVE_N(1)を求める際には、S_AVE_N(1−1)=0としてもよい。すなわち、S_AVE_N(1)=λ×AVE_N(1)としてもよい。
以下の(6)式では、最新のS_COH(K)と、直前に求めたS_COH(K−1)とを重みづけ加算している。以下の(6)式において、ξは、0.0<ξ<1.0の範囲で設定される平滑化係数(重みづけ係数)である。ξは、後述する平滑化係数制御部50から供給される。以下の(6)式において、S_COH(1)を求める際には、S_COH(1−1)=0としてもよい。すなわち、S_COH(1)=ξ×COH(1)としてもよい。
S_AVE_N(K)
=λ×AVE_N(K)+(1−λ)×S_AVE_N(K−1) …(5)
S_COH(K)
=ξ×COH(K)+(1−ξ)×S_COH(K−1) …(6)
上記の(5)式、(6)式では、平滑化係数λ、ξを1に近づけるほど瞬時値の影響が増し、0に近づけるほど瞬時値の影響が少なくなり平滑化の効果が増す。しかし、平滑化係数λ、ξを0に近づけると妨害音声の特性変動への追従が遅れるため、妨害音声の存在判定に誤判定が生じうる。特に、妨害音声の到来方位が変化した場合には誤判定は顕著となる。したがって、判定部40では、瞬時値の影響を最低限に抑えつつ追従性を維持するよう平滑化係数λ、ξを適切に設定することが望ましい。
そこで、この実施形態では、平滑化係数制御部50が、妨害音声の到来方位を判定し、その結果に応じて平滑化係数λ、ξを制御するものとする。平滑化係数制御部50による平滑化係数λ、ξの制御処理の詳細については後述する。
以上のように、判定部40は、平滑化したS_AVE_N(K)及びS_COH(K)を求め、求めたS_AVE_N(K)及びS_COH(K)に基づいて、相関係数cor(K)を求める。
なお、判定部40が、相関係数cor(K)を求める際の具体的な計算方法については限定されないものであるが、例えば、判定部40は以下の(7)式を用いて相関係数cor(K)を求めるようにしてもよい。なお、以下の(7)式において、Cov[S_AVE_N(K),S_COH(K)]は、平均正面抑圧信号S_AVE_N(K)とコヒーレンスS_COH(K)の共分散を示している。また、以下の(7)式において、σS_AVE_N(K)は、平均正面抑圧信号S_AVE_N(K)の標準偏差を示している。さらに、以下の(7)式において、σS_COH(K)は、コヒーレンスS_COH(K)の標準偏差を示している。以下の(7)式にて相関係数cor(K)を求める場合には、S_AVE_N(K)及びS_COH(K)についてそれぞれ直近に処理した所定数i個のフレームの結果を用いて、標準偏差や共分散を求めるようにしてもよい。具体的には、以下の(7)式にて相関係数cor(K)を求める過程において、例えば、直近に処理したi個のフレーム(K−i番目のフレーム、K−(i−1)番目のフレーム、…、K−1番目のフレーム、K番目のフレームの)のそれぞれに係るS_COH及びS_AVE_Nを用いて、標準偏差(σS_AVE_N(K)、及びσS_COH(K))や共分散(Cov[S_AVE_N(K),S_COH(K)])を求めるようにしてもよい。言い換えると、判定部40は、相関係数cor(K)を求める過程において、直近に求めたi個のS_AVE_N及びS_COHをサンプルとして用いて、以下の(7)式における標準偏差や共分散を求めるようにしてもよい。
判定部40は、例えば、相関係数cor(K)が閾値Th以上だった場合、妨害音声無しを示す値(例えば、「0」)を出力し、相関係数cor(K)が閾値Thより小さい場合には妨害音声有りを出力するようにしてもよい。この実施形態では、上述の検討に従って閾値Th=0と設定するものとして説明する。したがって、判定部40は、相関係数cor(K)が0より大きい場合(相関係数cor(K)が正の場合;cor(K)>0の場合)には妨害音声無しと判定し、相関係数cor(K)が0以下の場合(相関係数cor(K)が0又は負の場合;0≧cor(K)の場合)には妨害音声有りと判定するものとする。
また、判定部40は、判定結果を示す信号R(K)を出力する。信号R(K)の形式は限定されないものであるが、例えば、「妨害音声有り」を示す値(例えば、「1」)又は、「妨害音声無し」を示す値(例えば、「0」)を出力するようにしてもよい。この実施形態において、判定部40は、音声処理装置2に信号R(K)を供給する。なお、判定部40が信号R(K)を出力する方式や供給先については限定されないものである。
以上のように、判定部40は、平均正面抑圧信号AVE_N(K)及びコヒーレンスCOH(K)に平滑化処理を行い、平滑化処理済の値(S_COH(K)及びS_AVE_N(K))を求める平滑化処理部としても機能する。
次に、平滑化係数制御部50による平滑化係数λ、ξの制御処理について説明する。
平滑化係数制御部50は、追従性と瞬時値の影響を最低限に抑えつつ追従性を維持するよう平滑化係数λ、ξを適切に設定し、設定した平滑化係数λ、ξを判定部40に供給する。
ところで、妨害音声の到来方位が正面に近づくほどコヒーレンスCOH(K)の値が大きくなり、cor(K)に発生する瞬時変動の度合いも増す。したがって、コヒーレンスCOH(K)が大きいほど、cor(K)の瞬時値の寄与を下げる平滑化処理を行うことが好ましい。一方、妨害音声の到来方位が横(左右方向)にそれるほどコヒーレンスCOH(K)の値は小さくなり、cor(K)の瞬時変動の度合いも小さくなるので平滑化の必要性は下がる。
また、妨害音声の到来方位が正面に近づくほど平均正面抑圧信号AVE_N(K)は小さくなり、瞬時変動も少なくなるので、平均正面抑圧信号AVE_N(K)の平滑化の必要性は低くなる。しかし、到来方位が横(左右方向)にそれるほど平均正面抑圧信号AVE_N(K)の値は大きくなり、cor(K)の瞬時変動も大きくなるので、平均正面抑圧信号AVE_N(K)を平滑化する必要性が高まる。
コヒーレンスCOH(K)は、特許文献1に記載されているように妨害音声の到来方位と直結した特徴量なので、上記のようにコヒーレンスCOH(K)と平滑化係数λ、ξを対応付けて登録・管理しておくことで、到来方位に応じて平滑化係数λ、ξを制御することに相当した制御方式が実現できる。
具体的には、この実施形態では、平滑化係数制御部50が、コヒーレンスCOH(K)に基づき妨害音声の到来方位を判定し、その結果に応じて平滑化係数λ、ξを制御するものとする。平滑化係数制御部50による平滑化係数λ、ξの制御処理の詳細については後述する。
平滑化係数制御部50は、コヒーレンス計算部30からCOH(K)を取得し、取得したCOH(K)の値に応じた平滑化係数λ、ξを求める。
平滑化係数制御部50は、例えば、図5、図6のようなルールで、COH(K)に応じた平滑化係数λ、ξを取得するようにしてもよい。
図5では、COH(K)に応じた平滑化係数λを求めるためのルールをテーブル形式で図示している。
図5に示すように、平滑化係数制御部50は、COH(K)が小さいほど、平滑化係数λを大きな値に設定する。図5では、A<B<C<D、δ>ε>ηとしている。そして、図5では、A≦COH(K)<Bの場合「平滑化係数λ=δ」としている。また、図5では、B≦COH(K)<Cの場合「平滑化係数λ=ε」としている。さらに、図5では、C≦COH(K)<Dの場合「平滑化係数λ=η」としている。
図6では、COH(K)に応じた平滑化係数ξを求めるためのルールをテーブル形式で図示している。
図6に示すように、平滑化係数制御部50は、COH(K)が大きいほど、平滑化係数ξを大きな値に設定する。図6では、A<B<C<D、γ>β>αとしている。そして、図6では、A≦COH(K)<Bの場合「平滑化係数ξ=α」としている。また、図6では、B≦COH(K)<Cの場合「平滑化係数ξ=β」としている。さらに、図6では、C≦COH(K)<Dの場合「平滑化係数ξ=γ」としている。
平滑化係数制御部50は、コヒーレンス計算部30からコヒーレンスCOH(K)を取得する。そして、平滑化係数制御部50は、コヒーレンスCOH(K)の値に応じた平滑化係数λ、ξを求める。平滑化係数制御部50が平滑化係数λ、ξを求める方法については限定されないものであるが、この実施形態の平滑化係数制御部50は、コヒーレンスCOH(K)の値に応じた平滑化係数λ、ξを取得する際に照合する照合データ51を保持しているものとする。照合データ51としては、例えば、図5、図6に示すようなテーブル形式のデータを適用することができる。
コヒーレンスCOH(K)が小さいほど、平均正面抑圧信号AVE_N(K)に適用する平滑化係数λとして大きな値が設定される構成となっていれば、照合データ51(図5に示すテーブル)の形式については限定されないものである。図5では、コヒーレンスCOH(K)を3つの区間にグリッドして、各区間に対応する平滑化係数λの値としてσ、ε、ηを設定している。
また、コヒーレンスCOH(K)が大きいほど、コヒーレンスCOH(K)に適用する平滑化係数ξとして大きな値が設定される構成となっていれば、照合データ51(図6に示すテーブル)の形式については限定されないものである。図6では、コヒーレンスCOH(K)を3つの区間にグリッドして、各区間に対応する平滑化係数ξの値としてα、β、γを設定している。
さらに、照合データ51において、コヒーレンスCOH(K)をグリッドする区間の数や、各区間の長さ(コヒーレンスCOH(K)のレンジ)について限定されないものである。すなわち、照合データ51において、コヒーレンスCOH(K)をグリッドする各区間(レンジ幅)は等間隔でグリッドするようにしてもよいし、偏った間隔でグリッドするようにしてもよい。
以上のように、照合データ31では、コヒーレンスCOH(K)に用いる平滑化係数ξはコヒーレンスCOH(K)と大小関係が一致するように設定されており、平均正面抑圧信号AVE_N(K)の平滑化係数λはコヒーレンスCOH(K)と大小関係が逆転(反転)するよう設定されているものとする。言い換えると、照合データ31では、コヒーレンスCOH(K)が大きいほど、直近のコヒーレンスCOH(K)の重み付けが大きくなるような平滑化係数ξが設定されている。また、照合データ31では、コヒーレンスCOH(K)が小さいほど、直近の平均正面抑圧信号AVE_N(K)の重み付けが大きくなるように、平滑化係数λが設定されている。
(A−2)実施形態の動作
次に、以上のような構成を有するこの実施形態の音声判定装置1の動作(実施形態の判定方法)を説明する。
まず、音声判定装置1の全体の動作について図1を用いて説明する。
マイクm_1、m_2のそれぞれから図示しないAD変換器を介して、1フレーム分(1つの処理単位分)の入力信号s1(n)及びs2(n)がFFT部10に供給されたものとする。そして、FFT部10は、1フレーム分の入力信号s1(n)及びs2(n)に基づく分析フレームFRAME1(K)、FRAME2(K)についてフーリエ変換し、周波数領域で示される信号X1(f,K)、X2(f,K)を取得する。そして、FFT部10で生成された信号X1(f,K)、X2(f,K)が、正面抑圧信号生成部20及びコヒーレンス計算部30に供給される。
正面抑圧信号生成部20は、供給されたX1(f,K)、X2(f,K)に基づいて、正面抑圧信号N(f,K)を算出する。そして、正面抑圧信号生成部20は、正面抑圧信号N(f,K)に基づいて平均正面抑圧信号AVE_N(K)を算出し、判定部40に供給する。
一方、コヒーレンス計算部30は、供給されたX1(f,K)、X2(f,K)に基づいて、コヒーレンスCOH(K)を生成し、判定部40及び平滑化係数制御部50に供給する。
平滑化係数制御部50は、供給されたコヒーレンスCOH(K)を、照合データ31と照合(例えば、図5、図6のテーブルと照合)して、照合結果に基づいた平滑化係数λ、ξを取得し、取得した平滑化係数λ、ξを判定部40に供給する。
判定部40は、平均正面抑圧信号AVE_N(K)と平滑化係数λに基づき、S_AVE_N(K)を求める。また、判定部40は、コヒーレンスCOH(K)と平滑化係数ξに基づき、S_COH(K)を求める。そして、判定部40は、S_AVE_N(K)及びS_COH(K)に基づいて、相関係数cor(K)を算出し、算出した相関係数cor(K)に基づいて妨害音声の有無を判定し、その判定結果を信号R(K)として出力する。
次に、判定部40の動作詳細について図7、図8のフローチャートを用いて説明する。
図7は、判定部40が妨害音声の有無を判定する処理について示したフローチャートである。図8は、図7のフローチャートの一部の処理について示したフローチャートである。判定部40は、平均正面抑圧信号AVE_N(K)、コヒーレンスCOH(K)、及び平滑化係数λ、ξ(1フレーム分のデータ)が供給されるごとに、図7、図8のフローチャートの処理により妨害音声の有無を判定し、信号R(K)を出力するものとする。
まず、判定部40に、平均正面抑圧信号AVE_N(K)、コヒーレンスCOH(K)、及び平滑化係数λ、ξが供給されたものとする(S101)。
次に、判定部40は、コヒーレンスCOH(K)及び平均正面抑圧信号AVE_N(K)に対して平滑化処理を行い、S_COH(K)及びS_AVE_N(K)を求める(S102)。判定部40は、コヒーレンスCOH(K)と平滑化係数ξに基づき、S_COH(K)を求める。具体的には、判定部40は、上記の(6)式を用いて、S_COH(K)を求めることができる。また、判定部40は、平均正面抑圧信号AVE_N(K)と平滑化係数λに基づき、S_AVE_N(K)を求める。具体的には、判定部40は、上記の(5)式を用いて、S_AVE_N(K)を求めることができる。
次に、判定部40は、S_AVE_N(K)とS_COH(K)とに基づいて相関係数cor(K)を算出する(S103)。具体的には、判定部40は、上記の(7)式を用いて相関係数cor(K)を求めることができる。
次に、判定部40は、算出した相関係数cor(K)に基づいて妨害音声の有無を判定し(S104)、その判定結果を示す信号R(K)を生成して出力する(S105)。
次に、判定部40が上述のステップS104で行う判定処理の具体例について図8のフローチャートを用いて説明する。
判定部40は、判定処理を開始すると、相関係数cor(K)の値を確認し(S201)、相関係数cor(K)の値に応じて妨害音の有無を判定する。
具体的には、判定部40は、相関係数cor(K)が0より大きい場合(相関係数cor(K)が正の値場合;cor(K)>0の場合)には「妨害音声無し」と判定し(S202)、相関係数cor(K)が0未満の場合(相関係数cor(K)が0又は負の値の場合;0≧cor(K)の場合)には「妨害音声有り」と判定する(S203)。
次に、平滑化係数制御部50の動作(平滑化係数λ、ξを求める動作)について図9のフローチャートを用いて説明する。平滑化係数制御部50は、コヒーレンス計算部30からコヒーレンスCOH(K)が供給されるごとに図9のフローチャートの処理を実行する。
まず、平滑化係数制御部50に、コヒーレンスCOH(K)が供給されたものとする(S301)。
次に、平滑化係数制御部50は、取得したコヒーレンスCOH(K)を、照合データ51(例えば、上述の図5、図6のテーブル)と照合して、照合結果に応じた平滑化係数λ、ξを取得する(S302)。
次に、平滑化係数制御部50は、取得した平滑化係数λ、ξを判定部40に供給する(S303)。
(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
この実施形態の音声判定装置1では、相関係数cor(K)の値に基づいて、妨害音声の有無を判定している。これにより、この実施形態の音声判定装置1では、精度よく妨害音声の有無を判定することができるので、判定結果の供給先(例えば、音声処理装置2)で、妨害音声の有無に応じて最適な音声処理を実現することができる。すなわち、音声処理装置2の音声処理(例えば、テレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理)に、この実施形態の音声判定装置1の判定結果を適用することで、音声処理装置2の性能向上(例えば、妨害音声等の非目的音の抑圧性能の向上)が期待できる。
さらに、この実施形態の音声判定装置1では、妨害音声の到来方位(すなわち、コヒーレンスCOH(K))に応じて平滑化係数λ、ξを設定し、その平滑化係数λ、ξを用いてコヒーレンスCOH(K)と平均正面抑圧信号AVE_N(K)に平滑処理を施したうえで相関係数cor(K)を算出し、妨害音声の有無を判定している。これにより、この実施形態の音声判定装置1では、妨害音声の到来方位の変化による誤判定を改善することができる。すなわち、音声判定装置1では、妨害音声の有無に応じて最適な動作特性を行うことで、判定精度を向上させることができる。
(B)他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B−1)上記の実施形態では、音声判定装置1と音声処理装置2とは別個の構成要素として説明したが、1つの音声処理装置(音声判定装置を含む1つの装置)として構築するようにしてもよい。
(B−2)上記の実施形態の音声判定装置1は、2つのマイクから供給される入力信号に基づいた処理を行う例について説明したが、音声判定装置1では3つ以上のマイクから供給される入力信号に基づいて判定処理を行うようにしてもよい。例えば、音声判定装置1において、3つ以上のマイクから供給される入力信号に基づき、正面方向に死角を有する正面抑圧信号N(f,K)や、正面以外の所定の方向に指向性を有する指向性信号B1(f)、B2(f)を取得して上記の実施形態と同様の処理を行うようにしてもよい。すなわち、音声判定装置1において、正面抑圧信号N(f,K)や、指向性信号B1(f)、B2(f)を取得するためのマイクの構成等は限定されないものである。
(B−3)上記の実施形態の判定部40では、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を表す特徴量として、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)を適用しているが、他の種類の値を特徴量として適用するようにしてもよい。例えば、判定部40では、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を表す特徴量として、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との共分散を適用するようにしてもよい。