JP5772562B2

JP5772562B2 - 目的音抽出装置及び目的音抽出プログラム

Info

Publication number: JP5772562B2
Application number: JP2011272620A
Authority: JP
Inventors: 克之高橋
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2011-12-13
Filing date: 2011-12-13
Publication date: 2015-09-02
Anticipated expiration: 2031-12-13
Also published as: JP2013125085A

Description

本発明は、目的音抽出装置及び目的音抽出プログラムに関し、例えば、電話やテレビ会議等の音声通信に用いる音声通信装置に適用し得るものである。

入力信号から所望の音声を抽出する技術の１つとして、ボイススイッチと呼ばれる技術がある。これは、目的音声区間検出機能を用いて入力信号から話者が話している区間（目的音声区間）を検出し、目的音声区間の場合は無処理で出力し、非目的音声区間の場合は振幅を減衰する、という処理のことである。

図２は、ボイススイッチ処理を示すフローチャートである。図２において、入力信号ｉｎｐｕｔが受信されると（Ｓ９０１）、目的音声区間検出部が目的音声区間か否かを判定する（Ｓ９０２）。

このとき、ｉｎｐｕｔが目的音声区間であれば、ボイススイッチゲインであるＶＳ＿ＧＡＩＮは「１．０」と設定され（Ｓ９０３）、ｉｎｐｕｔが非目的音声区間であれば、ＶＳ＿ＧＡＩＮは「α」（α：任意の正の値、０．０≦α＜１．０）として設定する（Ｓ９０４）。そして、ＶＳ＿ＧＡＩＮがｉｎｐｕｔに乗算され、その出力信号ｏｕｔｐｕｔが得られる（Ｓ９０５）。

このボイススイッチ処理は、例えば、テレビ会議装置、携帯電話機等の音声通信機器等に適用することができ、このボイススイッチ処理を行うことで、非目的音声区間（雑音）を抑制し、通話音質を高めることができる。

ところで、非目的音声は、話者以外の人間の声である「妨害音声」と、オフィスノイズや道路ノイズなどのような「背景雑音」とに分けられる。

非目的音声区間が背景雑音のみの場合、目的音声区間検出部は、目的音声区間か否かを正確に判定することができるのに対し、非目的音声区間に妨害雑音が重畳されている場合には、目的音声区間検出部は、妨害音声も目的音声とみなしてしまうため、誤判定が生じ得る。この結果、ボイススイッチが妨害音声を抑制できず、十分な通話音質を提供することができない。

この課題に対して、目的音声区間検出部で参照する特徴量として、これまで用いてきた入力信号レベルの変動から、コヒーレンスに変更することで改善される。

ここで、コヒーレンスとは、簡単に述べれば、入力信号の到来方向を意味する特徴量である。例えば携帯電話などの利用を想定した場合、話者の声（目的音声）は正面から到来し、妨害音声は正面以外から到来する傾向が強いので、到来方向に着目することで、従来は不可能だった目的音声と妨害音声との区別が可能となる。

図３は、目的音声検出機能にコヒーレンスを用いる場合のボイススイッチ９０Ａの機能構成を示すブロック図である。

図３において、マイクｍ１及びｍ２のそれぞれから図示しないＡＤ変換器を介して、入力信号ｓ１（ｎ）及びｓ２（ｎ）がＦＦＴ部９１に与えられる。

なお、ｎはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中ではｎが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。

ＦＦＴ部９１は、マイクｍ１及びマイクｍ２から入力信号系列ｓ１及びｓ２を受け取り、その入力信号ｓ１及びｓ２に高速フーリエ変換（あるいは離散フーリエ変換）を行うものである。これにより、入力信号ｓ１及びｓ２を周波数領域で表現することができる。なお、高速フーリエ変換を実施するに当たり、入力信号ｓ１（ｎ）及びｓ２（ｎ）から所定のＮ個のサンプルから成る、分析フレームFRAME１(K)及びFRAME2(K)を構成する。入力信号s1からFRAME1を構成する例を以下に記載する。

FRAME1(1)＝｛s1(1)、s1(2)、・・、s1(i)、・・s1(N)｝
・
・
FRAME1(K)＝｛s1(N×K+1)、s1(N×K＋2)、・・、s1(N×K＋i)、・・s1(N×K＋N)｝
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中ではKが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。

ＦＦＴ部９１では、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号ｓ１から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号Ｘ１（ｆ、K）、及び入力信号ｓ２から構成した分析フレームFRAME2(K)をフーリエ変換して得た周波数領域信号Ｘ２（ｆ、K）を、第１の指向性形成部９２及び第２の指向性形成部９３に与えるものである。なおfは周波数を表すインデックスである。またX１（ｆ、K）は単一の値ではなく、
X1(f,K)=｛X1(f1,K)、X1(f2,K)、・・X1(fi,K)・・、X1(fm,K)｝
というように複数の周波数f1〜fmのスペクトル成分から構成されるものであることを補足しておく。これはX2(f,K)及び、後段の指向性形成部で現れるB1(f,K),B2(f,K)も同様である。

第１の指向性形成部９２は、ＦＦＴ部９１から周波数領域信号Ｘ１（ｆ、K）及びＸ２（ｆ、K）を受け取り、特定の方向に強い指向特性を有する信号Ｂ１（ｆ、K）を形成し、その信号Ｂ１（ｆ、K）をコヒーレンス計算部９４に与える。

第２の指向性形成部９３は、ＦＦＴ部９１から周波数領域信号Ｘ１（ｆ、K）及びＸ２（ｆ、K）を受け取り、特定の方向に強い指向特性を有する信号Ｂ２（ｆ、K）を形成し、その信号Ｂ２（ｆ、K）をコヒーレンス計算部９４に与える。

ここで、第１の指向性形成部９２及び第２の指向性形成部９３による特定方向に指向性の強い信号を形成する方法は、既存の技術の方法を適用することができ、例えば、式（１）及び式（２）に従った演算により求める方法を適用することができる。

第１の指向性形成部９２は、式（１）に従って演算を行い、後述するように音源方向の特定方向（右方向）に強い指向性を持つ信号Ｂ１（ｆ、K）を求める。また、第２の指向性形成部９３は、式（２）に従って演算を行い、後述するように音源方向の特定方向（左方向）に強い指向性を持つ信号Ｂ２（ｆ、K）をそれぞれ計算する(フレームインデックスKは演算には関与しないので、計算式には記載しない)。

式（１）及び式（２）の意味を、図４及び図５を用いて説明する。図４（Ａ）において、マイクｍ１とマイクｍ２とは距離ｌだけ隔てて設置されているものとする。マイクｍ１とマイクｍ２には音波が到来する。この音波は、マイクｍ１及びマイクｍ２を通る面の正面方向に対して角度θの方向から到来するものとする。

このとき、音波がマイクｍ１とマイクｍ２に到達するまでには、時間差が生じする。この到達時間差τは、音の経路差をｄとすると、ｄ＝ｌ×ｓｉｎθなので、式（２−１）のようにして与えられる。

τ＝ｌ×ｓｉｎθ／ｃ（ｃ：音速） …（２−１）
ところで、入力信号ｓ１（ｎ）に到達時間差τだけ遅延を与えた信号ｓ１（ｎ−τ）は、ｓ２（ｎ）と同一の信号であるといえる。

したがって、両者の差をとった信号ｙ（ｎ）＝ｓ２（ｎ）−ｓ１（ｎ−τ）は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーは図４（Ｂ）のような指向特性を持つようになる。

なお、上記の説明では時間領域での演算を記したが、周波数領域で行っても同様な効果が得られる。式（１）及び式（２）は、周波数領域とする場合の演算式の例である。

ここで、到来方向θ＝９０度とした場合には、図５（Ａ）及び図５（Ｂ）のような指向特性となる。なお、指向特性について、図５に示すように前方向、後方向、右方向、左方向を定義する。すると、第１の指向性形成部９２で形成される指向性は図５（Ａ）に示すように、左方向に強いものとなり、第２の指向性形成部９３で形成される指向性は図５（Ｂ）に示すように、右方向に強いものとなる。

なお、以降の説明では、説明便宜上、θ＝９０度であることを想定して動作説明を行うが、本発明の実施の際はこの設定に限定されるものではない。

以上のようにして得られた信号Ｂ１（ｆ、K）及びＢ２（ｆ、K）は、コヒーレンス計算部９４に与えられる。コヒーレンス計算部９４は、以下の式（３）及び式（４）に従って演算を行うことで、コヒーレンスＣＯＨを得る(ここでもフレームインデックスKは計算に関与しないので、式中には記載しない)。

次に、目的音声区間検出部９５が、コヒーレンスＣＯＨ（K）を目的音声区間判定閾値Θと比較し、コヒーレンスＣＯＨ（K）が目的音声区間判定閾値Θより大きければ目的音声区間とみなして検出結果格納変数ＶＡＤ＿ＲＥＳ（K）に１．０を代入し、コヒーレンスＣＯＨ（K）が目的音声区間判定閾値Θより小さければ、非目的音声区間（妨害音声、背景音声）とみなして検出結果格納変数ＶＡＤ＿ＲＥＳ（K）に０．０を代入する。

そして、ゲイン制御部９６は、ＶＡＤ＿ＲＥＳ（K）＝１．０ならば、ゲインＶＳ＿ＧＡＩＮを１．０に設定し、ＶＡＤ＿ＲＥＳ（K）＝０．０ならば、ゲインＶＳ＿ＧＡＩＮを１．０未満の任意の正の数値αに設定する。

ここで、コヒーレンスの大小で目的音声区間を検出する背景を簡単に述べておく。コヒーレンスの概念は、例えば、正面方向の右方向から到来する信号と左方向から到来する信号の相関と言い換えられる。

よって、コヒーレンスＣＯＨが小さい場合とは、信号Ｂ１と信号Ｂ２との相関が小さい場合であり、反対にコヒーレンスＣＯＨが大きい場合とは信号Ｂ１とＢ２との相関が大きい場合と言い換えることができる。

そして、相関が小さい場合の入力信号は、入力到来方向が右方向又は左方向のいずれかに大きく偏った場合か、偏りがなくても背景雑音のような明確な規則性の少ない信号の場合である。

そのために、コヒーレンスＣＯＨが小さい区間は妨害音声区間あるいは背景雑音区間（非目的音声区間）であるといえる。

一方、コヒーレンスＣＯＨの値が大きい場合は、到来方向の偏りが無いため、入力信号が正面から到来する場合であるといえる。今、目的音声は正面から到来すると仮定しているので、コヒーレンスＣＯＨが大きい場合は目的音声区間といえる。

以上のようにして得たＶＳ＿ＧＡＩＮはボイススイッチゲイン乗算部９７で信号ｓ１（ｎ）と乗算され、出力信号ｙ（ｎ）が得られる。

しかしながら、図３の構成では、音声の立ち上がり部のような小振幅区間では、たとえ目的音声があっても明確なピッチ性がなく相関ができくいため、コヒーレンスＣＯＨが小さくなる。

その結果、図６（Ａ）に例示するように、目的音声であっても、その立ち上がり部の小振幅区間で、妨害音声と誤判定されてボイススイッチ処理で減衰されるので欠落が生じ、ところどころ途切れたような音声が出力され、音質が不自然になるという課題が生じ得る。

この課題を解消するために、図７に例示するように、目的音声区間検出結果に長期平均化処理を施す検出結果長期平均部９８を有するボイススイッチ９０Ｂがある。

図７のボイススイッチ９０Ｂは、検出結果長期平均部９８が、検出結果格納変数ＶＡＤ＿ＲＥＳに長期平均処理を施し、その長期平均後の値がボイススイッチ作動判定閾値より大きいか否かに応じて、ボイススイッチを制御することで、目的音小振幅部での欠落を抑制することができる。

例えば、検出結果長期平均部９８が、式（５）に例示する演算式により、検出結果の長期平均値ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）を求める。そして、ゲイン制御部９９が、ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）とボイススイッチ作動判定閾値Ψと比較し、ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）＜ΨならばボイススイッチゲインＶＳ＿ＧＡＩＮ＞α（０．０≦α＜１．０）とし、そうでない場合はＶＳ＿ＧＡＩＮ＝１．０とするという制御をする。

これにより、目的音声の小振幅部でのＶＡＤ＿ＲＥＳの変動を緩和させたうえでボイススイッチを作動させることができるので、図６（Ｂ）に示すように、目的音声の小振幅部の欠落を抑制することができる。

なお、長期平均パラメータδは、０．０＜δ＜１．０である。ここで、式（５）の意味を捕捉する。式（５）は、現フレーム区間(動作開始時点から数えてK番目のフレーム)の入力音声に対する判定値ＶＡＤ＿ＲＥＳ（K）と１つ前のフレーム区間で得られた長期平均値ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K−１）との重み付け加算平均値を計算しており、δの値の大小で、瞬時値ＶＡＤ＿ＲＥＳ（K）の平均値への寄与度を調整することができる。

仮に、δを０に近い小さい値に設定した場合には、瞬時値の平均値への寄与度が小さくなるので、ＶＡＤ＿ＲＥＳの変動を抑制できる。また、δが１に近い値であれば、瞬時値の寄与度が高まるので、長期平均の効果を弱めることができる。

特開２００６−１９７５５２号公報特表２０１０−５３２８７９号公報

ところで、コヒーレンスは、入力信号の相関という意味をもつため、到来した音声区間内であっても、子音か母音かで、コヒーレンスの挙動が異なる。

例えば、「さ：ｓａ」と発話した場合、子音部「ｓ」の信号波形は規則性が低いので、コヒーレンスは小さくなり、母音部「ａ」の信号波形は規則性が高いのでコヒーレンスは大きくなる。

また、発話速度が変わった場合に、子音部の部分の長さが変わるのではなく、母音部の部分の長さが変わる。例えば、「さ：ｓａ」と発話する際に発話速度を変えた場合、発話速度が遅いときには、子音部「ｓ」が長くなるのではなく、母音部「ａ」が長くなり、発話速度が速いときには、母音部「ａ」が短くなる。

ところで、発話速度が遅い場合、子音部のような小振幅部が非目的音声と誤判定されてしまっても、母音部の大振幅部が音声区間に占める割合が高くなるため、検出結果の長期平均への誤判定の寄与が小さくなるため、小振幅部の欠落は生じにくい。

しかし、発話速度が速い場合には、音声区間における母音部の大振幅部の割合が下がるため、長期平均に対する小振幅部での誤判定の寄与が大きくなるため、ＶＡＤ＿ＲＥＳの変動を軽減しきれなくなり、小振幅部の欠落が発生してしまう。

従って、上述したように、図７に例示する従来のボイススイッチは、発話速度によっては、検出結果を長期平均しても、目的音声の小振幅部の欠落が発生するという課題がある。

そのため、長期平均処理により、目的音声の小振幅部の欠落を防ぐにあたり、発話速度の違いにより生じ得る音声区間の欠落を防止して、音声の途切れを軽減することができる目的音抽出装置及び目的音抽出プログラムが求められている。

かかる課題を解決するために、第１の本発明は、（１）入力信号を時間領域から周波数領域に変換する周波数解析手段と、（２）周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を持つ複数の信号を形成する指向性形成手段と、（３）指向性形成手段により形成された複数の指向性信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、（４）コヒーレンス計算手段により求められたコヒーレンス値に基づいて目的音を含むか否かを判定し、その判定結果に応じた検出結果値を出力する目的音判定手段と、（５）目的音判定手段から得る現在の入力フレームから算出した検出結果値と、過去の検出結果値に重み付け平均処理を施し、現在の入力フレームにおける検出結果値の長期平均値を求める長期平均処理手段と、（６）コヒーレンス計算手段により求められたコヒーレンス値に基づいて、入力信号に含まれる目的音の発話速度を検出する発話速度検出手段と、（７）発話速度検出手段により検出された発話速度に応じて、長期平均処理手段の重み付け平均処理に係る重み係数を制御する重み係数制御手段と、（８）長期平均処理手段の現在の入力フレームにおける検出結果値の長期平均値に基づいて、入力された信号に対する利得を制御する利得制御手段と、（９）利得制御手段により制御された利得を、入力された信号に乗算する乗算手段とを備えることを特徴とする目的音抽出装置である。

第２の本発明は、コンピュータを、（１）入力信号を時間領域から周波数領域に変換する周波数解析手段、（２）周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を持つ複数の信号を形成する指向性形成手段、（３）指向性形成手段により形成された複数の指向性信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段、（４）コヒーレンス計算手段により求められたコヒーレンス値に基づいて目的音を含むか否かを判定し、その判定結果に応じた検出結果値を出力する目的音判定手段、（５）目的音判定手段から得る現在の入力フレームから算出した検出結果値と、過去の検出結果値に重み付け平均処理を施し、現在の入力フレームにおける長期平均値を求める長期平均処理手段、（６）コヒーレンス計算手段により求められたコヒーレンス値に基づいて、入力信号に含まれる目的音の発話速度を検出する発話速度検出手段、（７）発話速度検出手段により検出された発話速度に応じて、長期平均処理手段の重み付け平均処理に係る重み係数を制御する重み係数制御手段、（８）長期平均処理手段の現在の入力フレームにおける検出結果値の長期平均値に基づいて、入力された信号に対する利得を制御する利得制御手段、（９）利得制御手段により制御された利得を、入力された信号に乗算する乗算手段として機能させることを特徴とする目的音抽出プログラムである。

本発明によれば、目的音声の音声区間の小振幅部の欠落を防止する際に、長期平均処理での長期平均パラメータを発話速度に応じて制御することで、発話速度の違いにより生じ得る音声区間の欠落を防止して、音声の途切れをさらに軽減することができる。

第１の実施形態のボイススイッチの構成を示す構成図である。従来のボイススイッチ処理を示すフローチャートである。従来の目的音声検出機能にコヒーレンスを用いる場合のボイススイッチの構成を示す構成図である。マイクｍ１及びマイクｍ２に入力する音波到達の様子を説明する説明図である。第１の指向性形成部及び第２の指向性形成部による指向特性を説明する説明図である。目的音声区間で非目的音声と誤判定されて目的音声区間が欠落することを説明する説明図である。従来の目的音声の長期平均により小振幅部の欠落を防止するボイススイッチの構成を示す構成図である。第１の実施形態の長期平均パラメータ制御部の詳細な内部構成を示す内部構成図である。第１の実施形態の発話速度ｖ（K）と長期平均パラメータδとを対応付けた対応テーブルを説明する説明図である。第２の実施形態のボイススイッチの構成を示す構成図である。第３の実施形態のボイススイッチの構成を示す構成図である。第３の実施形態の第３の指向性形成部による指向特性を説明する説明図である。第４の実施形態のボイススイッチの構成を示す構成図である。第５の実施形態のボイススイッチの構成を示す構成図である。

（Ａ）第１の実施形態
以下では、本発明の目的音抽出装置及び目的音抽出プログラムの第１の実施形態を、図面を参照しながら詳細に説明する。

第１の実施形態では、ボイススイッチに本発明を適用する場合の実施形態を例示する。

（Ａ−１）第１の実施形態の構成
（Ａ−１−１）全体構成
図１は、第１の実施形態のボイススイッチ１００Ａの構成を示す構成図である。なお、第１の実施形態のボイススイッチ１００Ａは、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ、入出力インタフェース等を有するものであり、ボイススイッチ１００Ａの機能は、ＣＰＵが、ＲＯＭに格納される処理プログラムを実行することにより実現されるものである。なお、目的音抽出プログラムは、ネットワークを通じてインストールされるものであっても良く、その場合でも図１に示す構成要素を構成する。

図１において、第１の実施形態のボイススイッチ１００Ａは、マイクｍ１及びマイクｍ２、ＦＦＴ部１０１、第１の指向性形成部１０２、第２の指向性形成部１０３、コヒーレンス計算部１０４、発話速度検出部１０５、長期平均パラメータ制御部１０６、目的音声区間検出部１０７、検出結果長期平均部１０８、ゲイン制御部１０９、ボイススイッチゲイン乗算部１１０を少なくとも有するものである。

マイクｍ１及びｍ２は、到来した音波を捕捉し、捕捉した音波を音声信号に変換してＦＦＴ部１０１に与えるものである。ここで、図１には図示しないが、マイクｍ１及びマイクｍ２とＦＦＴ部１０１との間にＡＤ変換部を備え、ＡＤ変換部が、マイクｍ１及びマイクｍ２の音声信号（アナログ信号）をディジタル信号に変換して、信号系列ｓ１及び信号ｓ２をＦＦＴ部１０１に与える。なお、ｎはサンプルの入力順を示す。

ＦＦＴ部１０１は、マイクｍ１及びマイクｍ２から入力信号ｓ１及びｓ２を受け取り、所定のサンプル数から構成されるフレームごとに高速フーリエ変換（あるいは離散フーリエ変換）を施すものである。これにより、入力信号系列ｓ１及びｓ２を周波数領域で表現することができる。また、ＦＦＴ部１０１は、入力信号ｓ１から得た周波数領域信号Ｘ１（ｆ、K）及び入力信号ｓ２から得た周波数領域信号Ｘ２（ｆ、K）を、第１の指向性形成部１０２及び第２の指向性形成部１０３に与えるものである。

第１の指向性形成部１０２は、ＦＦＴ部１０１から周波数領域信号Ｘ１（ｆ、K）及びＸ２（ｆ、K）を受け取り、特定の方向に強い指向特性を有する信号Ｂ１（ｆ、K）を形成し、その信号Ｂ１（ｆ、K）をコヒーレンス計算部１４に与える。

第２の指向性形成部１０３は、ＦＦＴ部１０１から周波数領域信号Ｘ１（ｆ、K）及びＸ２（ｆ、K）を受け取り、第１の指向性形成部１０２とは異なる特定の方向に強い指向特性を有する信号Ｂ２（ｆ、K）を形成し、その信号Ｂ２（ｆ、K）をコヒーレンス計算部１０４に与える。

ここで、第１の指向性形成部１０２及び第２の指向性形成部１０３は、特定方向に死角を持つ指向性を有する信号を形成する方法としては、例えば、式（１）及び式（２）に従った演算により求める方法を適用することができる。これにより、第１の指向性形成部１０２は、式（１）に従った演算を行い、右方向に強い指向性を持つ信号Ｂ１（ｆ、K）を形成し、第２の指向性形成部１０３は、式（２）に従った演算を行い、左方向に強い指向性を持つ信号Ｂ２（ｆ、K）を形成する。

コヒーレンス計算部１０４は、第１の指向性形成部１０２から取得した信号Ｂ１（ｆ、K）と、第２の指向性形成部１０３から取得した信号Ｂ２（ｆ、K）とに基づいてコヒーレンスＣＯＨ（K）を求めるものである。また、コヒーレンス計算部１０４は、求めたコヒーレンスＣＯＨ（K）を、発話音声検出部１０５及び目的音声区間検出部１０７に与えるものである。

なお、コヒーレンス計算部１０４によるコヒーレンスの計算方法は、種々の方法を広く適用することができ、例えば、コヒーレンス計算部１０４が、式（３）及び式（４）を用いて求める方法を適用することができる。

目的音声検出部１０７は、コヒーレンス計算部１０４からコヒーレンスＣＯＨ（K）を受け取り、コヒーレンスＣＯＨ（K）と目的音声区間判定閾値Θとを比較し、コヒーレンスＣＯＨ（K）が目的音声区間判定閾値Θより大きい場合、目的音声区間であると判定し、目的音声区間判定閾値Θ以下の場合、非目的音声区間であると判定するものである。

また、目的音声検出部１０７は、判定結果を示す検出結果変数ＶＡＤ＿ＲＥＳ（K）を、検出結果長期平均部１０８に与えるものである。具体的には、目的音声区間の場合にはＶＡＤ＿ＲＥＳ（K）＝１．０とし、非目的音声区間の場合にはＶＡＤ＿ＲＥＳ（K）＝０．０とする。

発話速度検出部１０５は、コヒーレンス計算部１０４から現在の入力フレームから得たコヒーレンスＣＯＨ（K）を受け取り、コヒーレンスＣＯＨ（K）に基づいて発話速度を求めるものである。また、発話速度検出部１０５は、検出した発話速度ｖ（K）を長期平均パラメータ制御部１０６に与える。

長期平均パラメータ制御部１０６は、発話速度検出部１０５から発話速度ｖ（K）を受け取り、発話速度ｖ（K）に応じて長期平均パラメータδを求め、その長期平均パラメータδを検出結果長期平均部１０８に与えるものである。なお、長期平均パラメータ制御部１０６による長期平均パラメータの制御方法の詳細については後述する。

検出結果長期平均部１０８は、目的音声区間検出部１０７から検出結果変数ＶＡＤ＿ＲＥＳ（K）を受け取ると共に、長期平均パラメータ制御部１０６から長期平均パラメータδを受け取り、目的音声区間の検出結果に長期平均化処理を行い、長期平均値ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）を求めるものである。

ここで、検出結果長期平均部１０８による長期平均化処理は、特に限定されることなく種々の方法を適用することができるが、例えば式（５）の演算式を用いて求める方法を適用することができる。

ゲイン制御部１０９は、検出結果長期平均部１０８から長期平均値ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）を受け取り、長期平均値ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）に応じたゲイン値ＶＳ＿ＧＡＩＮをボイススイッチゲイン乗算部１１０に与えるものである。

ボイススイッチゲイン乗算部１１０は、ゲイン制御部１０９からゲイン値ＶＳ＿ＧＡＩＮを受け取り、入力信号ｓ１（ｎ）にゲイン値ＶＳ＿ＧＡＩＮを乗算して信号ｙ（ｎ）を出力するものである。

（Ａ−１−２）長期平均パラメータ制御部の詳細な構成
図８は、第１の実施形態の長期平均パラメータ制御部１０６の詳細な内部構成を示す内部構成図である。

図８において、第１の実施形態の長期平均パラメータ制御部１０６は、発話速度入力部２０１、長期平均パラメータ照合部２０２、記憶部２０３、長期平均パラメータ出力部２０４を少なくとも有する。

発話速度入力部２０１は、発話速度検出部１０５から発話速度ｖ（K）を入力し、入力した発話速度ｖ（K）を長期平均パラメータ照合部２０２に与えるものである。

記憶部２０３は、発話速度ｖ（K）と長期平均パラメータδ（０．０＜δ＜１．０）とを対応付けた対応テーブルを記憶するものである。

図９は、発話速度ｖ（K）と長期平均パラメータδとを対応付けた対応テーブルを説明する説明図である。例えば、図９において、発話速度検出部１０５により検出された発話速度ｖ（K）がｘ≦ｖ（K）＜ｗである場合には、長期平均パラメータδはδ＝ａと決定される。図９において、発話速度ｖ（K）は、…＜ｚ＜ｙ＜ｘ＜ｗの関係にあり、また長期平均パラメータδは、ａ＜ｂ＜ｃ＜…の関係にある。すなわち、発話速度ｖ（K）が遅くなるほど、長期平均パラメータδは小さくなり、発話速度ｖ（K）が速くなるほど、長期平均パラメータδは大きくなる関係にある。これにより、発話速度ｖ（K）が速くなるほど、現在の目的音声区間のＶＡＤ＿ＲＥＳの寄与率を低くすることができ、長期平均に対する誤判定の寄与を軽減させることができる。

長期平均パラメータ照合部２０２は、発話速度入力部２０１から発話速度ｖ（K）を受け取り、記憶部２０３に記憶されている対応テーブルを参照して、発話速度ｖ（K）に対応する長期平均パラメータδ（０．０＜δ＜１．０）を求めるものである。

なお、長期平均パラメータの決定方法は、第１の実施形態では長期平均パラメータ照合部２０２が、図９に例示する対応テーブルを参照して、発話速度に応じた長期平均パラメータを求める場合を例示するが、この方法に限定されるものではない。

例えば、記憶部２０３に記憶される対応テーブルが、図９に例示する対応テーブルではなく、例えば、発話速度の基準値と、この発話速度における長期平均パラメータの基準値とを設定しておき、発話速度の基準値と入力された発話速度との差と、長期平均パラメータの補正値とを対応付けた対応テーブルを記憶部２０３に記憶させ、長期平均パラメータ照合部２０２が、当該対応テーブルを参照して、発話速度の基準値との差に応じて長期平均パラメータの補正値を求め、その補正値及び長期平均パラメータの基準値を用いて、長期平均パラメータδを求めるようにしてもよい。

また例えば、発話速度の基準値と入力された発話速度との差と、長期平均パラメータの値とを対応付けた対応テーブルを記憶部２０３が有し、長期平均パラメータ照合部２０２が、当該対応テーブルを参照して、発話速度の基準値との差に応じた長期平均パラメータを求めるようにしてもよい。

また別の方法として、例えば、発話速度が遅くなるほど、長期平均パラメータδの値が小さくなるという関係式を作成し、入力された発話速度を関係式に代入して、長期平均パラメータδを求めるようにしてもよい。これにより、発話速度に応じた長期平均パラメータを精度良く求めることができる。

長期平均パラメータ出力部２０４は、長期平均パラメータ照合部２０２により求められた長期平均パラメータδを検出結果長期平均部１０８に与えるものである。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態のボイススイッチ１００における目的音抽出処理の動作を説明する。

マイクｍ１及びマイクｍ２に音声信号が入力されると、図示しないＡＤ変換部によりディジタル信号に変換され、入力信号系列ｓ１及び信号ｓ２がＦＦＴ部１０１に与えられる。

ＦＦＴ部１０１において、信号ｓ１及びｓ２を所定のサンプル数ごとに分析フレームを構成し、高速フーリエ変換がなされて時間領域から周波数領域に変換され、変換された信号Ｘ１（ｆ、K）及び信号Ｘ２（ｆ、K）が、第１の指向性形成部１０２及び第２の指向性形成部１０３に与えられる。

信号Ｘ１（ｆ、K）及び信号Ｘ２（ｆ、K）が入力されると、第１の指向性形成部１０２は、例えば式（１）及び式（２）の演算式に従って、入力された信号Ｘ１（ｆ、K）及び信号Ｘ２（ｆ、K）に基づいて、特定の方位を死角に有する信号Ｂ１（ｆ、K）を形成する。

また、同様に、第２の指向性形成部１０３は、第１の指向性形成部１０２と指向性の方位が異なるが、例えば式（１）及び式（２）の演算式に従い、信号Ｘ１（ｆ、K）及び信号Ｘ２（ｆ、K）に基づいて、第１の指向性形成部１０２とは異なる特定の方位に死角を有する信号Ｂ２（ｆ、K）を形成する。

そして、それぞれ特定の方位に死角を有する信号Ｂ１（ｆ、K）及び信号Ｂ２（ｆ、K）が、コヒーレンス計算部１０４に与えられると、コヒーレンス計算部１０４は、例えば式（３）及び式（４）の演算式に従い、信号Ｂ１（ｆ、K）及び信号Ｂ２（ｆ、K）に基づいて、コヒーレンスＣＯＨ（K）を算出する。

目的音声区間検出部１０７では、コヒーレンス計算部１０４により求められたコヒーレンスＣＯＨ（K）と目的音声区間判定閾値Θとが比較され、コヒーレンスＣＯＨ（K）が目的音声区間判定閾値Θより大きい場合、当該区間は目的音声区間であるとして、ＶＡＤ＿ＲＥＳ（K）に１．０を代入して、検出結果長期平均部１０８に与える。一方、コヒーレンスＣＯＨ（K）は目的音声区間判定閾値Θ以下の場合、当該区間は非目的音声区間であるとして、ＶＡＤ＿ＲＥＳ（K）に０．０を代入して、検出結果長期平均部１０８に与える。

一方、コヒーレンス計算部１０４が求めたコヒーレンスＣＯＨ（K）は、発話速度検出部１０５にも与えられる。発話速度検出部１０５では、コヒーレンスＣＯＨ（K）に応じて発話速度ｖ（K）が求められる。

ここで、発話速度検出部１０５による発話速度の検出方法は、コヒーレンスＣＯＨに基づいて発話速度を求める方法であれば種々の方法を広く適用することができる。例えば、発話速度検出部１０５は、次のような方法で発話速度を検出することができる。

例えば、コヒーレンスは２個の信号の相互相関であるから、マイクｍ１及びマイクｍ２の正面に音源があり、正面から入力した信号に対して、コヒーレンスＣＯＨは大きくなる。これに対して、マイクｍ１及びマイクｍ２の右方向又は左方向等に音源があり、右方向又は左方向等から入力した信号に対しては、コヒーレンスＣＯＨは小さくなる。

また、正面からの信号であっても、母音部（例えば「さ：ｓａ」という発音のときの「ａ」の音声部分）の信号は、波形がある程度の周期性を持つ相関が高い波形なので、コヒーレンスＣＯＨは大きくなるのに対して、子音部の信号は周期性が弱く相関の低い波形なので、コヒーレンスＣＯＨは小さいという特性がある。

さらに、発話速度が変わると、子音部の長さは変わらず、母音部の長さが変わる。これは、人間の発声機構から、例えば発話速度が遅くなると、「さ：ｓａ」の子音部の長さは変わらないが、母音部の「ａ」の長さが長くなり、逆に、発話速度が速くなると、子音部の長さは変わらず、母音部の「ａ」の長さが短くなる。

また、発話速度が速い場合に、母音部でのコヒーレンスＣＯＨは急速に小さくなるのに対して、発話速度が遅い場合に、母音部でのコヒーレンスＣＯＨはゆっくりと小さくなるという特性もあり、この現象は二重母音のような母音が連続する区間ではさらに顕著になる。

そこで、発話速度検出部１０５は、上記で説明したコヒーレンスＣＯＨの特性を利用して、例えば、今回のフレーム区間のコヒーレンスＣＯＨと直前フレーム区間のコヒーレンスＣＯＨとの差を求め、そのコヒーレンスの差が大きいときには発話速度が速いとし、逆にコヒーレンスの差が小さいときには発話速度が遅いとして発話速度を求めるようにしてもよい。

具体的には、コヒーレンスの差と、これに応じた発話速度とを予め対応付けた対応テーブルを発話速度検出部１０５が保持し、発話速度検出部１０５が、上記対応テーブルを参照して、現在のフレームから得たコヒーレンスＣＯＨ（K）と直前のフレームで得られたコヒーレンスＣＯＨ（K−１）との差に対応する発話速度を求める方法を適用できる。なお、発話速度検出部１０５による発話速度の求める方法は、上記の検出例に限定されるものではない。

次に、長期平均パラメータ制御部１０６は、発話速度検出部１０５により求められた発話速度ｖ（K）に応じて、長期平均パラメータδを求める。

長期平均パラメータ制御部１０６では、長期平均パラメータ照合部２０２が、発話速度入力部２０１から入力された発話速度ｖ（K）を受け取り、記憶部２０３に記憶される対応テーブルを参照して、入力された発話速度ｖ（K）に対応する長期平均パラメータδを取得する。そして、長期平均パラメータδが、長期平均パラメータ出力部２０４から検出結果長期平均部１０８に与えられる。

検出結果長期平均部１０８において、目的音声区間検出部１０７からＶＡＤ＿ＲＥＳ（K）と、長期平均パラメータ制御部１０６から長期平均パラメータδとが与えられ、検出結果長期平均部１０８が、例えば式（５）の演算式に従い、長期平均値ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）を求める。

そして、ゲイン制御部１０９は、従来と同様に、ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）とボイススイッチ作動判定閾値Ψと比較し、ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K）がボイススイッチ作動判定閾値Ψより小さい場合、ボイススイッチゲインＶＳ＿ＧＡＩＮ＝α（０．０≦α＜１．０）とし、そうでない場合はＶＳ＿ＧＡＩＮ＝１．０とする。

ここで、長期平均パラメータδは、発話速度ｖ（K）が速くなるにつれて、大きな値（すなわち、１．０に近い値）となり、発話速度ｖ（K）が遅くなるにつれて小さな値（すなわち、０．０に近い値）となる。

このことは、式（５）において、発話速度が速い場合には、現在のフレームで得られたＶＡＤ＿ＲＥＳ（K）の寄与度を小さくし、直前フレーム区間のＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K−１）の寄与を大きくしていることを意味する。これにより、発話速度が速い場合に、目的音声区間内の小振幅部で生じる誤判定の長期平均値への寄与を小さくすることができる。したがって、ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ(K)が判定閾値Ψより大きくなる可能性を高めることができるため、目的音声の欠落を防止することができる。

また、発話速度ｖ（K）が遅い場合には、発話速度が速い場合と比較するとＶＡＤ＿ＲＥＳ（K）の寄与度を大きくし、長期平均値ＶＡＤ＿ＲＥＳ＿ＬＯＮＧ（K−１）の寄与度を小さくしている。これは発話速度が遅い場合には、目的音声区間に母音部が占める割合が高いために誤判定の割合は少なく、ＶＡＤ＿ＲＥＳ（K）の瞬時値を長期平均に大きく寄与させた方が音声の欠落防止に効果的であることを考慮した処理である。このように、発話速度が遅い場合も長期平均パラメータδが適切に制御されるため、目的音声の欠落を防止することができる。

そして、ボイススイッチゲイン乗算部１１０が、入力信号ｓ１（ｎ）に、ゲイン制御部１０９からのＶＳ＿ＧＡＩＮを乗算することで出力信号ｙ（ｎ）を作成し出力する。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、発話速度が変化した場合でも、目的音声の欠落を防止することができるので、音質の劣化を解消することができる。

これにより、例えばテレビ会議システムや携帯電話などの通信装置に本発明を適用することで、通話音質の向上が期待できる。

（Ｂ）第２の実施形態
次に、本発明の目的音抽出装置及び目的音抽出プログラムの第２の実施形態を、図面を参照しながら説明する。

（Ｂ−１）第２の実施形態の構成及び動作
図１０は、第２の実施形態のボイススイッチ１００Ｂの構成を示す構成図である。図１０において、第２の実施形態のボイススイッチ１００Ｂは、マイクｍ１及びマイクｍ２、ＦＦＴ部１０１、第１の指向性形成部１０２、第２の指向性形成部１０３、コヒーレンス計算部１０４、発話速度検出部１０５、長期平均パラメータ制御部１０６、目的音声区間検出部１０７、検出結果長期平均部１０８、ゲイン制御部１０９、ボイススイッチゲイン乗算部１１０、非目的音声区間監視部３０１、長期平均値初期化部３０２を少なくとも有するものである。

第２の実施形態が第１の実施形態と異なる点は、第１の実施形態の構成要素に加えて、非目的音声区間監視部３０１、長期平均値初期化部３０２を更に備える点である。

第１の実施形態は、発話速度に応じて長期平均パラメータδを制御するものであるが、現在のＶＡＤ＿ＲＥＳ（K）の寄与率を小さくした場合、目的音声区間の開始に正確に反応できなくなり、非目的音声区間から目的音声区間に切り替わった等の場合に、本来は目的音声区間であるにもかかわらず長期平均処理によって非目的音声区間と誤判定されてしまい、話頭がボイススイッチで欠落する場合が生じ得る。

そこで、第２の実施形態は、第１の実施形態の構成に、非目的音声区間監視部３０１及び長期平均値初期化部３０２を備えることにより、話頭が欠落することを防止する。

なお、図１０において、第１の実施形態と同じ構成要素については同じ番号を付しており、これら第１の実施形態と同じ構成要素の機能及び動作は、第１の実施形態と同じであるので、ここでの詳細な説明は省略する。

非目的音声区間監視部３０１は、目的音声区間検出部１０７による検出結果に基づいて、非目的音声区間を監視するものである。具体的には、非目的音声区間監視部３０１は、目的音声区間検出部１０７により求められたＶＡＤ＿ＲＥＳ（K）を受け取り、ＶＡＤ＿ＲＥＳが連続して０．０となるフレーム区間数を監視する。

長期平均値初期化部３０２は、非目的音声区間監視部３０１から非目的音声区間の連続フレーム区間数を受け取り、この連続フレーム区間数が閾値を超えた場合に、検出結果長期平均部１０８が演算に用いる長期平均値及び長期平均パラメータを初期化するものである。

非目的音声区間数が閾値を超えて長く続く状態とは、話者の音声（目的音声）が入力されない状態といえる。そこで、目的音声が入力されない期間に、長期平均値初期化部３０２が、長期平均値及び長期平均パラメータを初期化し、長期平均値に蓄積されている非目的音声区間の寄与を消去することで、話頭部分の欠落を防止することができる。

なお、目的音声が入力された後の動作は、第１の実施形態と同じであるので、ここでの詳細な説明は行わない。

（Ｂ−２）第２の実施形態の効果
以上のように、第２の実施形態によれば、第１の実施形態の効果に加えて、話頭部分の欠落を防止することができ、さらに音質を向上させることができる。

（Ｃ）第３の実施形態
次に、本発明の目的音抽出装置及び目的音抽出プログラムの第３の実施形態を、図面を参照しながら詳細に説明する。

（Ｃ−１）第３の実施形態の構成及び動作
図１１は、第３の実施形態のボイススイッチ１００Ｃの構成を示す構成図である。図１１において、第３の実施形態のボイススイッチ１００Ｃは、マイクｍ１及びマイクｍ２、ＦＦＴ部１０１、第１の指向性形成部１０２、第２の指向性形成部１０３、コヒーレンス計算部１０４、発話速度検出部１０５、長期平均パラメータ制御部１０６、目的音声区間検出部１０７、検出結果長期平均部１０８、ゲイン制御部１０９、ボイススイッチゲイン乗算部１１０、周波数減算部４０を少なくとも有するものである。

第３の実施形態は、第１の実施形態の構成要素に、更に周波数減算部４０を加えた構成である。これにより、ボイススイッチでは抑制できなかった、目的音声区間に重畳された妨害音声(話者以外の人の話し声)や背景雑音も抑制できるようになり、第１、２の実施例よりもさらに高い雑音抑圧性能を実現することができる。

周波数減算部４０は、入力信号から非目的音声信号成分を減算するものである。周波数減算部４０は、図１１に示すように、第３の指向性形成部４０１、減算部４０２、ＩＦＦＴ部４０３を少なくとも有する。

第３の指向性形成部４０１は、ＦＦＴ部１０１から信号Ｘ（ｆ、K）及び信号Ｘ２（ｆ、K）を受け取り、図１２に示すように、正面方向に死角を有する指向性の信号Ｂ３（ｆ、K）を形成するものである。

第３の指向性形成部４０１が正面方向を死角とする指向性を形成する理由は、入力信号に含まれる雑音信号成分を取得するためである。今、話者はマイクｍ１及びｍ２の正面から発声することを仮定しているので、第３の指向性形成部４０１で正面に死角を形成することで、側方から到来する非目的音声を取得することができる。

例えば、第３の指向性形成部４０１は、式（６）に従って、信号Ｂ３（ｆ、K）を取得する。

Ｂ３（ｆ、K）＝Ｘ１（ｆ、K）−Ｘ２（ｆ、K） …（６）
減算部４０２は、第３の指向性形成部４０１から信号Ｂ３（ｆ、K）を受け取り、信号Ｘ１（ｆ、K）から雑音成分である信号Ｂ３（ｆ、K）を取り除くものである。例えば、減算部４０２は式（７）の演算式に従って、雑音除去後信号Ｄ（ｆ、K）を取得する。

Ｄ（ｆ、K）＝Ｘ１（ｆ、K）−Ｂ３（ｆ、K） …（７）
ＩＦＦＴ部４０３は、減算部４０２から雑音除去信号Ｄ（ｆ、K）を受け取り、周波数領域信号であるＤ（ｆ、K）を時間領域に変換し、その変換した信号ｑ（ｎ）をゲイン乗算部１１０に与えるものである。

なお、第１の実施形態と同様の処理により、発話速度に応じて長期平均パラメータδが制御され、ゲイン制御部１０９はＶＳ＿ＧＡＩＮをゲイン乗算部１１０に出力する。

また、ゲイン乗算部１１０は、ＩＦＦＴ部４０３から得た出力信号ｑ（ｎ）に、ゲイン制御部１０９から取得したＶＳ＿ＧＡＩＮを乗算して出力信号ｙ（ｎ）を出力する。

（Ｃ−２）第３の実施形態の効果
以上のように、第３の実施形態によれば、第１の実施形態の効果に加えて、目的音声区間に重畳された雑音成分を除去することができるので、更に音質を向上させることができる。

（Ｄ）第４の実施形態
次に、本発明の目的音抽出装置及び目的音抽出プログラムの第４の実施形態を、図面を参照しながら説明する。

（Ｄ−１）第４の実施形態の構成及び動作
図１３は、第４の実施形態のボイススイッチ１００Ｄの構成を示す構成図である。図１３において、第４の実施形態のボイススイッチ１００Ｄは、マイクｍ１及びマイクｍ２、ＦＦＴ部１０１、第１の指向性形成部１０２、第２の指向性形成部１０３、コヒーレンス計算部１０４、発話速度検出部１０５、長期平均パラメータ制御部１０６、目的音声区間検出部１０７、検出結果長期平均部１０８、ゲイン制御部１０９、ボイススイッチゲイン乗算部１１０、コヒーレンスフィルター演算部５０を少なくとも有するものである。

第４の実施形態は、第１の実施形態の構成要素に、更にコヒーレンスフィルター演算部５０を加えた構成である。これにより、ボイススイッチでは抑制できなかった、目的音声区間に重畳された雑音成分も抑制できるようになり、第１、２の実施形態よりも高い雑音抑圧性能を実現することができる。

コヒーレンスフィルター演算部５０は、コヒーレンス計算部１０４により式（３）の演算式により求められたｃｏｅｆ（ｆ、K）を受け取り、ｃｏｅｆ（ｆ、K）周波数毎に入力信号Ｘ１（ｆ、K）に乗算するものである。これにより、到来方向に偏りを有する信号成分、波形の規則性が小さい背景雑音成分などを抑制することができる。

また、コヒーレンスフィルター演算部５０は、コヒーレンスフィルター係数乗算部５０１、ＩＦＦＴ部５０２を少なくとも有する。

コヒーレンスフィルター係数乗算部５０１は、コヒーレンス計算部１０４からｃｏｅｆ（ｆ、K）を受け取り、式（８）に従って、ｃｏｅｆ（ｆ、K）を信号Ｘ１（ｆ、K）に乗算して雑音抑制後信号Ｄ（ｆ）を生成するものである。

Ｄ（ｆ、K）＝Ｘ１（ｆ、K）× ｃｏｅｆ（ｆ、K） …（８）
ＩＦＦＴ部５０２は、コヒーレンスフィルター係数乗算部５０１から雑音抑制後信号Ｄ（ｆ、K）を受け取り、周波数領域信号であるＤ（ｆ、K）を時間領域に変換し、その変換した信号ｑ（ｎ）をゲイン乗算部１１０に与えるものである。

また、ゲイン乗算部１１０は、ＩＦＦＴ部５０２からの出力信号ｑ（ｎ）に、ゲイン制御部１０９からのＶＳ＿ＧＡＩＮを乗算して出力信号ｙ（ｎ）を取得し、この出力信号ｙ（ｎ）を出力する。

（Ｄ−２）第４の実施形態の効果
以上のように、第４の実施形態によれば、第１の実施形態の効果に加えて、目的音声区間に重畳されている雑音成分を抑制することができるので、更に音質を向上させることができる。

（Ｅ）第５の実施形態
次に、本発明の目的音抽出装置及び目的音抽出プログラムの第５の実施形態を、図面を参照しながら説明する。

（Ｅ−１）第５の実施形態の構成及び動作
図１４は、第５の実施形態のボイススイッチ１００Ｅの構成を示す構成図である。図１４において、第５の実施形態のボイススイッチ１００Ｅは、マイクｍ１及びマイクｍ２、ＦＦＴ部１０１、第１の指向性形成部１０２、第２の指向性形成部１０３、コヒーレンス計算部１０４、発話速度検出部１０５、長期平均パラメータ制御部１０６、目的音声区間検出部１０７、検出結果長期平均部１０８、ゲイン制御部１０９、ボイススイッチゲイン乗算部１１０、ウィーナーフィルター演算部６０を少なくとも有するものである。

第５の実施形態は、第１の実施形態の構成要素に、更にウィーナーフィルター演算部６０を加えた構成である。これにより、ボイススイッチでは抑制できなかった目的音声区間に重畳された背景雑音を抑制できるようになり、第１、２の実施例よりも高い雑音抑圧性能を実現することができる。

ウィーナーフィルター演算部６０は、雑音区間の信号から周波数毎に雑音特性を推定して得た係数を乗算することで、雑音成分を除去するものである。ウィーナーフィルター演算部６０による処理は、既存技術を適用することができ、例えば特許文献２に記載の技術を適用することができ、ここでの詳細な説明は省略する。

ウィーナーフィルター演算部６０は、ウィーナーフィルター係数計算部６０１、ウィーナーフィルター係数乗算部６０２、ＩＦＦＴ部６０３を有する。

ウィーナーフィルター係数計算部６０１は、目的音声区間検出部１０７により検出された検出結果ＶＡＤ＿ＲＥＳに基づいて非目的音声区間であるか否かを判定し、非目的音声区間の場合に、例えば特許文献２に記載の数３の演算等によりウィーナーフィルター係数ｗｆ＿ｃｏｅｆ（ｆ、K）の推定を行い、一方、目的音声区間の場合には、ウィーナーフィルター係数の推定を行わない。

ウィーナーフィルター係数乗算部６０２は、式（９）に従って、ウィーナーフィルター係数計算部６０１により求められたウィーナーフィルター係数ｗｆ＿ｃｏｅｆ（ｆ、K）を信号Ｘ１（ｆ、K）に乗算して、雑音抑圧後信号Ｄ（ｆ、K）を求めるものである。

Ｄ（ｆ、K）＝Ｘ１（ｆ、K）× ｗｆ＿ｃｏｅｆ（ｆ、K）（９）
ＩＦＦＴ部６０３は、ウィーナーフィルター係数乗算部６０２から雑音抑圧後信号Ｄ（ｆ、K）を受け取り、周波数領域信号であるＤ（ｆ、K）を時間領域に変換し、その変換した信号ｑ（ｎ）をゲイン乗算部１１０に与えるものである。

また、ゲイン乗算部１１０は、ＩＦＦＴ部６０３からの出力信号ｑ（ｎ）に、ゲイン制御部１０９からのＶＳ＿ＧＡＩＮを乗算して出力信号ｙ（ｎ）を取得し、この出力信号ｙ（ｎ）を出力する。

（Ｅ−２）第５の実施形態の効果
以上のように、第５の実施形態によれば、第１の実施形態の効果に加えて、目的音声区間に重畳される背景雑音成分を抑制することができるので、更に音質を向上させることができる。

（Ｆ）他の実施形態
（Ｆ−１）上述した第３〜第５の実施形態では、周波数減算技術、コヒーレンスフィルター、ウィーナーフィルターにより、雑音抑圧する技術を説明したが、第３〜第５の実施形態で説明した、周波数減算技術、コヒーレンスフィルター、ウィーナーフィルターのいずれか１つ、あるいは、いずれか２つ、あるいは全ての技術を組み合わせてもよい。これにより、さらに高い雑音抑圧性能を実現できる。

（Ｆ−２）上述した第１〜第５の実施形態では、ボイススイッチが、２個のマイクｍ１及びマイクｍ２を備え、右方向に死角、左方向に死角を備える指向性信号Ｂ１（ｆ）及びＢ２（ｆ）に基づいてコヒーレンスを求める場合を例示した。

しかし、これに限定されず、４個のマイクと上下左右の４種の指向性信号を形成する４個の指向性形成部とを備え、右方向に死角を有する信号Ｂ１（ｆ）、左方向に死角を有する信号Ｂ２（ｆ）、上方向に死角を有する信号Ｂ３（ｆ）、下方向に死角を有する信号Ｂ４（ｆ）に基づいて、コヒーレンスＣＯＨを求めるようにしてもよい。

この場合、コヒーレンス計算部は、式（１０）及び式（４）に従って、コヒーレンスＣＯＨを求めるようにしてもよい。

…（１０）
（Ｆ−３）本発明では発話速度に応じて長期平均パラメータδを制御する方法を説明したが、目的音声の欠落は発話速度だけではなくマイクと話者との距離の変動によっても発生する。こちらの課題も、本発明を適用することで改善することができる。この場合には、発話速度検出部に代えて、公知の手法によりマイクと話者との距離を推定する距離検出部を設け、長期平均パラメータ制御部では、距離に応じて長期平均パラメータを制御するように、距離と長期平均パラメータの対応テーブルを記憶部に格納しておけばよい。

１００Ａ〜１００Ｂ…ボイススイッチ、
１０１…ＦＦＴ部、１０２…第１の指向性形成部、
１０３…第２の指向性形成部、１０４…コヒーレンス計算部、
１０５…発話速度検出部、１０６…長期平均パラメータ制御部、
１０７…目的音声区間検出部、１０８…検出結果長期平均部、
１０９…ゲイン制御部、１１０…ゲイン乗算部、
３０１…非目的音声区間監視部、３０２…長期平均値初期化部、
４０…周波数減算部、５０…コヒーレンスフィルター演算部、
６０…ウィーナーフィルター演算部、
２０１…発話速度入力部、２０２…長期平均パラメータ照合部、２０３…記憶部、２０４…長期平均パラメータ出力部。

Claims

入力信号を時間領域から周波数領域に変換する周波数解析手段と、
上記周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を持つ複数の信号を形成する指向性形成手段と、
上記指向性形成手段により形成された複数の指向性信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、
上記コヒーレンス計算手段により求められた上記コヒーレンス値に基づいて目的音を含むか否かを判定し、その判定結果に応じた検出結果値を出力する目的音判定手段と、
上記目的音判定手段から得られた入力フレームにおける検出結果値と、上記入力フレームより一つ前のフレームで得られた上記検出結果値の長期平均値とを重み付け平均処理することにより、上記入力フレームにおける上記検出結果値の長期平均値を求める長期平均処理手段と、
上記コヒーレンス計算手段により求められた上記コヒーレンス値に基づいて、入力信号に含まれる目的音の発話速度を検出する発話速度検出手段と、
上記発話速度検出手段により検出された上記発話速度に応じて、上記長期平均処理手段の上記重み付け平均処理に係る重み係数を制御する重み係数制御手段と、
上記長期平均処理手段の上記入力フレームにおける検出結果値の長期平均値に基づいて、入力された信号に対する利得を制御する利得制御手段と、
上記利得制御手段により制御された利得を、入力された信号に乗算する利得乗算手段と
を備えることを特徴とする目的音抽出装置。
上記重み係数制御手段が、
上記発話速度と上記長期平均処理手段における重み係数とを対応付けた対応テーブルを記憶する記憶部と、
上記対応テーブルを参照して、上記発話速度検出手段から得た上記発話速度に対応する上記重み係数を決定する重み係数決定部と、
上記重み係数決定部により決定された上記重み係数を、上記長期平均処理手段に与える出力部と
を有することを特徴とする請求項１に記載の目的音抽出装置。
上記目的音判定手段の検出結果値を観測し、目的音が含まれていない非目的音期間の長さを監視する非目的音監視手段と、
上記非目的音監視手段の監視結果に基づいて、上記非目的音期間長が閾値を超えたときに、上記長期平均処理手段の重み付け平均処理に係るパラメータを初期化する初期化手段と
を備えることを特徴とする請求項１又は２に記載の目的音抽出装置。
上記周波数解析手段により得られた信号から目的音方向に死角を形成し、非目的音信号を得る、非目的音信号生成手段と、
周波数解析手段で得られた入力信号から上記非目的音信号を減算する減算手段と、
減算により得られた雑音除去後信号を時間領域に変換する逆周波数変換手段からなる周波数減算手段
を備えることを特徴とする請求項１〜３のいずれかに記載の目的音抽出装置。
上記周波数解析手段により得られた信号に、コヒーレンス計算手段により得られるコヒーレンス係数を乗算し、到来方向に偏りを有する信号成分や背景雑音を抑制した雑音抑制後信号を得る、コヒーレンスフィルター係数乗算手段と、コヒーレンスフィルター係数乗算後の信号を時間領域に変換する逆周波数変換手段

からなる、コヒーレンスフィルター演算部を備えることを特徴とする請求項１〜４のいずれかに記載の目的音抽出装置。
上記目的音判定手段からの検出結果値に基づいて、非目的音区間の場合にのみ、所定の方法によりウィーナーフィルター係数を更新するウィーナーフィルター係数計算部と、
上記ウィーナーフィルター係数計算部で得られたウィーナーフィルター係数を、上記周波数解析手段から得た入力信号に乗算するウィーナーフィルター係数乗算部と、
上記ウィーナーフィルター係数乗算部により得られた周波数領域信号を時間領域に変換して上記乗算手段に与える逆周波数変換部と
を有するウィーナーフィルター演算手段を更に備えることを特徴とする請求項１〜５のいずれかに記載の目的音抽出装置。
コンピュータを、
入力信号を時間領域から周波数領域に変換する周波数解析手段、
上記周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を持つ複数の信号を形成する指向性形成手段、
上記指向性形成手段により形成された複数の指向性信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段、
上記コヒーレンス計算手段により求められた上記コヒーレンス値に基づいて目的音を含むか否かを判定し、その判定結果に応じた検出結果値を出力する目的音判定手段、
上記目的音判定手段から得られた入力フレームにおける検出結果値と、前記入力フレームより一つ前のフレームで得られた上記検出結果値の長期平均値とを重み付け平均処理することにより、前記入力フレームにおける上記検出結果値の長期平均値を求める長期平均処理手段と、
上記コヒーレンス計算手段により求められた上記コヒーレンス値に基づいて、入力信号に含まれる目的音の発話速度を検出する発話速度検出手段と、
上記発話速度検出手段により検出された上記発話速度に応じて、上記長期平均処理手段の上記重み付け平均処理に係る重み係数を制御する重み係数制御手段と、
上記長期平均処理手段の上記入力フレームにおける検出結果値の長期平均値に基づいて、入力された信号に対する利得を制御する利得制御手段と、
上記利得制御手段により制御された利得を、入力された信号に乗算する利得乗算手段
として機能させることを特徴とする目的音抽出プログラム。