JP6028502B2

JP6028502B2 - 音声信号処理装置、方法及びプログラム

Info

Publication number: JP6028502B2
Application number: JP2012221537A
Authority: JP
Inventors: 克之高橋
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2012-10-03
Filing date: 2012-10-03
Publication date: 2016-11-16
Anticipated expiration: 2032-10-03
Also published as: US20150294674A1; US9418676B2; JP2014075674A; WO2014054314A1

Description

本発明は音声信号処理装置、方法及びプログラムに関し、例えば、電話やテレビ会議などの音声信号を扱う通信機又は通信ソフトウェアに適用し得るものである。

雑音抑制技術として、ボイススイッチと呼ばれる技術やウィーナーフィルターと呼ばれる技術などがある（特許文献１、特許文献２参照）。

ボイススイッチは、目的音声区間検出機能を用いて入力信号から話者が話している区間（目的音声区間）を検出し、目的音声区間の場合は無処理で出力し、非目的音声区間の場合は振幅を減衰する、という技術である。例えば、図１２に示すように、入力信号ｉｎｐｕｔを受信すると、目的音声区間か否かを判定し（ステップＳ５１）、目的音声区間であればゲインＶＳ＿ＧＡＩＮに１．０を設定し（ステップＳ５２）、非目的音声区間であればゲインＶＳ＿ＧＡＩＮに１．０未満の任意の正の数値αを設定し（ステップＳ５３）、その後、ゲインＶＳ＿ＧＡＩＮを入力信号ｉｎｐｕｔに乗算して出力信号ｏｕｔｐｕｔを得る（ステップＳ５４）。

このボイススイッチ技術を、テレビ会議装置や携帯電話のような音声通信機器に適用することにより、非目的音声区間（雑音）を抑制して所望の目的音声を抽出することができるので、通話音質を高めることができる。

ところで、非目的音声は、話者以外の人間の声である「妨害音声」と、オフィスノイズや道路ノイズなどのような「背景雑音」とに分けられる。非目的音声区間が背景雑音のみの場合には、通常の目的音声区間検出機能で目的音声区間か否かを正確に判定できるのに対し、妨害音声が背景雑音に重畳されている場合には、目的音声区間検出機能は妨害音声も目的音声とみなしてしまうために誤判定が生じる。この結果、ボイススイッチで妨害音声を抑制できず、十分な通話音質に達しない。

この課題は、目的音声区間検出部で参照する特徴量として、これまで用いてきた入力信号レベルの変動から、コヒーレンスに変更することで改善される。コヒーレンスとは、簡単に述べれば、入力信号の到来方向を意味する特徴量である。携帯電話などの利用を想定した場合、話者の声（目的音声）は正面から到来し、妨害音声は正面以外から到来する傾向が強いので、到来方向に着目することで、従来は不可能だった目的音声と妨害音声との区別が可能となる。

図１３は、目的音声検出機能にコヒーレンスを用いる場合のボイススイッチの構成を示すブロック図である。

一対のマイクｍ＿１、ｍ＿２のそれぞれから、図示しないＡＤ変換器を介して入力信号ｓ１（ｎ）、ｓ２（ｎ）を取得する。なお、ｎはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、ｎが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。

ＦＦＴ部１０は、マイクｍ＿１及びｍ＿２から入力信号系列ｓ１（ｎ）及びｓ２（ｎ）を受け取り、その入力信号ｓ１及びｓ２に高速フーリエ変換（あるいは離散フーリエ変換）を行うものである。これにより、入力信号ｓ１及びｓ２を周波数領域で表現することができる。なお、高速フーリエ変換を実施するにあたり、入力信号ｓ１（ｎ）及びｓ２（ｎ）から、所定のＮ個のサンプルからなる分析フレームＦＲＡＭＥ１（Ｋ）及びＦＲＡＭＥ２（Ｋ）を構成して適用する。入力信号ｓ１（ｎ）から分析フレームＦＲＡＭＥ１（Ｋ）を構成する例を以下の（１）式に示すが、分析フレームＦＲＡＭＥ２（Ｋ）も同様である。

なお、Ｋはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Ｋが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはＫであるとする。

ＦＦＴ部１０は、分析フレームごとに高速フーリエ変換処理を施すことで、周波数領域信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に変換し、得られた周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）をそれぞれ、対応する第１の指向性形成部１１、第２の指向性形成部１２に与える。なお、ｆは周波数を表すインデックスである。また、Ｘ１（ｆ，Ｋ）は単一の値ではなく、（２）式に示すように、複致の周波数ｆ１〜ｆｍのスペクトル成分から構成されるものである。Ｘ２（ｆ，Ｋ）や後述するＢ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）も同様である。

Ｘ１（ｆ，Ｋ）＝｛（ｆ１，Ｋ），（ｆ２，Ｋ），…，（ｆｍ，Ｋ）｝
…（２）
第１の指向性形成部１１では、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）から特定方向に指向性が強い信号Ｂ１（ｆ，Ｋ）を形成し、第２の指向性形成部１２では、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）から特定方向（上述の特定方向とは異なる）に指向性が強い信号Ｂ２（ｆ，Ｋ）を形成する。特定方向に指向性が強い信号Ｂ１（ｆ，Ｋ）、Ｂ２（ｆ，Ｋ）の形成方法としては既存の方法を適用でき、例えば、（３）式を適用して右方向に指向性が強いＢ１（ｆ，Ｋ）や（４）式を適用して左方向に指向性が強いＢ２（ｆ，Ｋ）が形成できる。（３）式及び（４）式では、フレームインデックスＫは演算に関与しないので省略している。

これらの式の意味を、（３）式を例に、図１４及び図１５を用いて説明する。図１４（Ａ）に示した方向θから音波が到来し、距離ｌだけ隔てて設置されている一対のマイクｍ＿１及びｍ＿２で捕捉されたとする。このとき、音波が一対のマイクｍ＿１及びｍ＿２に到達するまでには時間差が生じる。この到達時間差τは、音の経路差をｄとすると、ｄ＝ｌ×ｓｉｎθなので、音速をｃとすると（５）式で与えられる。

τ＝ｌ×ｓｉｎθ／ｃ …（５）
ところで、入力信号ｓ１（ｎ）にτだけ遅延を与えた信号ｓ１（ｔ−τ）は、入力信号ｓ２（ｔ）と同一の信号である。従って、両者の差をとった信号ｙ（ｔ）＝ｓ２（ｔ）−ｓ１（ｔ−τ）は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーｍ＿１及びｍ＿２は図１４（Ｂ）のような指向特性を持つようになる。

なお、以上では、時間領域での演算を記したが、周波数領域で行っても同様なことがいえる。この場合の式が、上述した（３）式及び（４）式である。今、一例として、到来方向θが±９０度であることを想定している。すなわち、第１の指向性形成部１１からの指向性信号Ｂ１（ｆ）は、図１５（Ａ）に示すように右方向に強い指向性を有し、第２の指向性形成部１２からの指向性信号Ｂ２（ｆ）は、図１５（Ｂ）に示すように左方向に強い指向性を有する。

以上のようにして得られた指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）に対し、コヒーレンス計算部１３で、（６）式、（７）式のような演算を施すことでコヒーレンスＣＯＨが得られる。（６）式におけるＢ２（ｆ）^＊はＢ２（ｆ）の共役複素数である。

目的音声区間検出部１４では、コヒーレンスＣＯＨを目的音声区間判定閾値Θと比較し、閾値Θより大きければ目的音声区間と判定し、そうでなければ非目的音声区間と判定し、判定結果ＶＡＤ＿ＲＥＳ（Ｋ）を形成する。

ここで、コヒーレンスの大小で目的音声区間を検出する背景を簡単に述べておく。コヒーレンスの概念は、右から到来する信号と左から到来する信号の相関と言い換えられる（上述した（６）式はある周波数成分についての相関を算出する式であり、（７）式は全ての周波数成分の相関値の平均を計算している）。従って、コヒーレンスＣＯＨが小さい場合とは、２つの指向性信号Ｂ１及びＢ２の相関が小さい場合であり、反対にコヒーレンスＣＯＨが大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合の入力信号は、入力到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。そのため、コヒーレンスＣＯＨが小さい区間は妨害音声区間あるいは背景雑音区間（非目的音声区間）であるといえる。一方、コヒーレンスＣＯＨの値が大きい場合は、到来方向の偏りがないため、入力信号が正面から到来する場合であるといえる。今、目的音声は正面から到来すると仮定しているので、コヒーレンスＣＯＨが大きい場合は目的音声区間といえる。

ゲイン制御部１５は、目的音声区間ならばゲインＶＳ＿ＧＡＩＮとして１．０を、非目的音声区間（妨害音声、背景雑音）ならばゲインＶＳ＿ＧＡＩＮとして１．０未満の任意の正の数値αを設定する。ボイススイッチゲイン乗算部１６は、得られたゲインＶＳ＿ＧＡＩＮを入力信号ｓ１（ｎ）に乗算することでボイススイッチ後の信号ｙ（ｎ）を得る。

特開２００６−３３３２１５号公報特表２０１０−５３２８７９号公報

ところで、到来方位が正面寄りならばコヒーレンスＣＯＨは全体的に大きい値となるが、側方にずれていくにつれてコヒーレンスＣＯＨは小さい値になる。図１６は、音声の到来方位が正面寄り（実線）、音声の到来方位が側方（点線）、到来方位が正面及び側方の中間（破線）の場合におけるコヒーレンスＣＯＨの変化を示しており、縦軸がコヒーレンスＣＯＨ、横軸が時間（分析フレームｋ）を表している。

図１６に示すように、コヒーレンスＣＯＨは到来方位に応じて値のレンジが大きく変わるという特性をもつ。しかし、従来は、到来方位に関わらず目的音声区間判定閾値Θが固定値であるため、誤判定が生じるという課題がある。

例えば、閾値Θが大きい場合には、音声の立ち上がり区間や子音部のような、目的音声であってもコヒーレンスＣＯＨの値がそれほど大きくならない期間で、目的音声区間が非目的音声区間と誤判定される。これにより、ボイススイッチ処理によって目的音声成分が減衰されてしまい、ところどころ途切れたような不自然な音質となってしまう。

また、閾値Θとして小さい値を設定した場合には、正面寄りの到来方位から妨害音が到来した場合には、妨害音のコヒーレンスが閾値Θを上回ってしまい、非目的音声区間が目的音声区間であると誤判定されてしまう。これにより、非目的音声成分が減衰されずに十分な消去性能が得られなくなる。加えて、装置利用者が妨害音声の到来方位が時々刻々と変化する環境にいる場合には、誤判定の頻度は増す。

以上のように、目的音声区間の判定閾値Θが固定値であるため、所望の区間でボイススイッチ処理を稼動させられず、所望外の区間でボイススイッチ処理を稼動させ、音質を低下させてしまうという課題がある。

そのため、ボイススイッチを適切に稼動させて音質を向上できる音声信号処理装置、方法及びプログラムが望まれている。

第１の本発明は、入力音声信号から雑音成分を抑制する音声信号処理装置において、（１）入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、（２）入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、（３）上記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、（４）上記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定する目的音声区間検出部と、（５）上記コヒーレンスに基づいて、妨害音声区間と背景雑音区間の双方を含む非目的音声区間中の上記妨害音声区間を検出し、当該妨害音声区間におけるコヒーレンス平均値である妨害音声コヒーレンス平均値を得て、妨害音声コヒーレンス平均値に基づいて、上記第１の判定閾値を制御する目的音声区間判定閾値制御部と、（６）上記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定するゲイン制御部と、（７）上記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算するボイススイッチゲイン乗算部とを有することを特徴とする。

第２の本発明は、入力音声信号から雑音成分を抑制する音声信号処理方法において、（１）第１の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成し、（２）第２の指向性形成部は、入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成し、（３）コヒーレンス計算部は、上記第１及び第２の指向性信号を用いてコヒーレンスを計算し、（４）目的音声区間検出部は、上記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定し、（５）目的音声区間判定閾値制御部は、上記コヒーレンスに基づいて、妨害音声区間と背景雑音区間の双方を含む非目的音声区間中の上記妨害音声区間を検出し、当該妨害音声区間におけるコヒーレンス平均値である妨害音声コヒーレンス平均値を得て、妨害音声コヒーレンス平均値に基づいて、上記第１の判定閾値を制御し、（６）ゲイン制御部は、上記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定し、（７）ボイススイッチゲイン乗算部は、上記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算することを特徴とする。

第３の本発明の音声信号処理プログラムは、コンピュータを、（１）入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、（２）入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、（３）上記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、（４）上記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定する目的音声区間検出部と、（５）上記コヒーレンスに基づいて、妨害音声区間と背景雑音区間の双方を含む非目的音声区間中の上記妨害音声区間を検出し、当該妨害音声区間におけるコヒーレンス平均値である妨害音声コヒーレンス平均値を得て、妨害音声コヒーレンス平均値に基づいて、上記第１の判定閾値を制御する目的音声区間判定閾値制御部と、（６）上記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定するゲイン制御部と、（７）上記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算するボイススイッチゲイン乗算部として機能させることを特徴とする。

本発明によれば、目的音声区間か否かを判定するために適用される判定閾値を制御するようにしたので、ボイススイッチを適切に稼動させて音質を向上させることができる。

第１の実施形態に係る音声信号処理装置の構成を示すブロック図である。第１の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の詳細構成を示すブロック図である。第１の実施形態の音声信号処理装置における目的音声区間判定閾値制御部内の記憶部の記憶内容の説明図である。第１の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の動作を示すフローチャートである。第２の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の動作を示すフローチャートである。第３の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の詳細構成を示すブロック図である。第３の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の動作を示すフローチャートである。周波数減算と第１の実施形態とを併用した変形実施形態の構成を示すブロック図である。図８の第３の指向性形成部からの指向性信号の性質を示す説明図である。コヒーレンスフィルターと第１の実施形態とを併用した変形実施形態の構成を示すブロック図である。ウィーナーフィルターと第１の実施形態とを併用した変形実施形態の構成を示すブロック図である。ボイススイッチ処理の流れを示すフローチャートである。目的音声検出機能にコヒーレンスを用いる場合のボイススイッチの構成を示すブロック図である。図１３の指向性形成部からの指向性信号の性質を示す説明図である。図１３の２つの指向性形成部による指向性の特性を示す説明図である。音声の到来方位によってコヒーレンスの変化が異なることを示す説明図である。

（Ａ）第１の実施形態
以下、本発明による音声信号処理装置、方法及びプログラムの第１の実施形態を、図面を参照しながら説明する。第１の実施形態は、コヒーレンスＣＯＨに基づき、妨害音声の到来方位に応じて適切な目的音声区間の判定閾値Θを設定できるようにしたものである。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した図１３との同一、対応部分には同一符号を付して示している。ここで、一対のマイクｍ＿１及びｍ＿２を除いた部分は、ＣＰＵが実行するソフトウェア（音声信号処理プログラム）として実現することも可能であるが、機能的には、図１で表すことができる。

図１において、第１の実施形態に係る音声信号処理装置１は、従来と同様なマイクｍ＿１、ｍ＿２、ＦＦＴ部１０、第１の指向性形成部１１、第２の指向性形成部１２、コヒーレンス計算部１３、目的音声区間検出部１４、ゲイン制御部１５及びボイススイッチゲイン乗算部１６に加え、目的音声区間判定閾値制御部２０を有する。

ここで、マイクｍ＿１、ｍ＿２、ＦＦＴ部１０、第１指向性形成部１１、第２の指向性形成部１２、コヒーレンス計算部１３、ゲイン制御部１５及びボイススイッチゲイン乗算部１６は、従来と同様な機能を担っているので、その機能説明は省略する。

目的音声区間判定閾値制御部２０は、コヒーレンス計算部１３が計算したコヒーレンスＣＯＨ（Ｋ）に基づき、そのときの到来方位に応じた目的音声区間判定閾値Θ（Ｋ）を、目的音声区間検出部１４に設定させるものである。

第１の実施形態の目的音声区間検出部１４は、コヒーレンスＣＯＨ（Ｋ）を、可変制御されて設定された目的音声区間判定閾値Θ（Ｋ）と比較し、閾値Θ（Ｋ）より大きければ目的音声区間と判定し、そうでなければ非目的音声区間と判定し、判定結果ＶＡＤ＿ＲＥＳ（Ｋ）を形成するものである。

図２は、目的音声区間判定閾値制御部２０の詳細構成を示すブロック図である。

目的音声区間判定閾値制御部２０は、コヒーレンス受信部２１、非目的音声区間検出部２２、非目的音声区間コヒーレンス平均処理部２３、差分計算部２４、妨害音声区間検出部２５、妨害音声コヒーレンス平均処理部２６、目的音声区間判定閾値照合部２７、記憶部２８及び目的音声区間判定閾値送信部２９を有する。

コヒーレンス受信部２１は、コヒーレンス計算部１３が計算したコヒーレンスＣＯＨ（Ｋ）を取り込むものである。

非目的音声区間検出部２２は、コヒーレンスＣＯＨ（Ｋ）に係る区間が非目的音声区間か否かを粗判定するものである。この粗判定は、コヒーレンスＣＯＨ（Ｋ）を固定閾値Ψと比較し、コヒーレンスＣＯＨ（Ｋ）が固定閾値Ψより小さいときに非目的音声区間と判定する。判定閾値Ψは、目的音声区間検出部１４が用いる時々刻々と制御される目的音声判定閾値Θとは異なる値であり、非目的音声区間を大雑把に検出できれば良いので、判定閾値Θのように高い精度である必要はなく、固定値を適用する。

非目的音声区間コヒーレンス平均処理部２３は、粗判定の結果が目的音声区間であれば、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における値ＡＶＥ＿ＣＯＨ（Ｋ−１）をそのまま適用し、一方、非目的音声区間であれば、（８）式に従って、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）を求める。なお、コヒーレンス平均値ＡＶＥ＿ＣＯＨ（Ｋ）の計算式は（８）式に限定されるものではなく、所定数のサンプル値を単純平均するなどの他の算出式を適用するようにしても良い。（８）式において、δは、０．０＜δ＜１．０の範囲内の値である。

ＡＶＥ＿ＣＯＨ（Ｋ）＝δ×ＣＯＨ（Ｋ）
＋（１−δ）×ＡＶＥ＿ＣＯＨ（Ｋ−１） …（８）
（８）式は、平均値として、現フレーム区間（動作開始時点から数えてＫ番目の分析フレーム）の入力音声に対するコヒーレンスＣＯＨ（Ｋ）と１つ前のフレーム区間で得られた平均値ＡＶＥ＿ＣＯＨ（Ｋ−１）との重み付け加算を計算しており、δの値の大小で、コヒーレンスＣＯＨ（Ｋ）の瞬時値の平均値への寄与度を調整することができる。仮に、δを０に近い小さい値に設定した場合には、瞬時値の平均値への寄与度が小さくなるので、瞬時値による変動を抑制できる。また、δが１に近い値であれば、瞬時値の寄与度が高まるので、平均値の効果を弱めることができる。このような観点に従い、δを適宜選定すれば良い。

差分計算部２４は、（９）式に示すように、コヒーレンスの瞬時値ＣＯＨ（Ｋ）と平均値ＡＶＥ＿ＣＯＨ（Ｋ）の差の絶対値ＤＩＦＦ（Ｋ）を計算する。

ＤＩＦＦ（Ｋ）＝｜ＣＯＨ（Ｋ）−ＡＶＥ＿ＣＯＨ（Ｋ）｜ …（９）
妨害音声区間検出部２５は、値ＤＩＦＦ（Ｋ）を妨害音声区間判定閾値Φと比較し、値ＤＩＦＦ（Ｋ）が妨害音声区間判定閾値Φ以上であれば妨害音声区間と判定し、それ以外では、妨害音声区間以外の区間（背景雑音区間）と判定する。この判定方法は、妨害音声区間では、コヒーレンスの値（瞬時値）が背景雑音区間より大きいため、平均値との差も大きくなるという性質を用いたものである。

妨害音声コヒーレンス平均処理部２６は、判定結果が妨害音声区間でない場合であれば、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における値ＤＩＳＴ＿ＣＯＨ（Ｋ−１）をそのまま適用し、一方、妨害音声区間であれば、（８）式と同様な（１０）式に従って、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）を求める。なお、コヒーレンス平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）の計算式は（１０）式に限定されるものではなく、所定数のサンプル値を単純平均するなどの他の算出式を適用するようにしても良い。（１０）式において、ζは、０．０＜ζ＜１．０の範囲内の値である。

ＤＩＳＴ＿ＣＯＨ（Ｋ）＝ζ×ＣＯＨ（Ｋ）
＋（１−ζ）×ＤＩＳＴ＿ＣＯＨ（Ｋ−１） …（１０）
記憶部２８は、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨの範囲と、目的音声判定閾値Θとの対応情報を記憶しているものである。例えば、図３に示すように、変換テーブル形式で記憶部２８を構成することができる。図３の例は、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨが範囲Ａ＜ＤＩＳＴ＿ＣＯＨ≦Ｂのときに目的音声判定閾値Θとして値Θ１が対応し、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨが範囲Ｂ＜ＡＶＥ＿ＣＯＨ≦Ｃのときに目的音声判定閾値Θとして値Θ２が対応し、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨが範囲Ｃ＜ＤＩＳＴ＿ＣＯＨ≦Ｄのときに目的音声判定閾値Θとして値Θ３が対応することを規定している。ここで、Θ１＜Θ２＜Θ３の関係がある。

目的音声区間判定閾値照合部２７は、妨害音声コヒーレンス平均処理部２２が得た平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）が属する、記憶部２８における平均値ＤＩＳＴ＿ＣＯＨの範囲を探索し、探索された平均値ＤＩＳＴ＿ＣＯＨの範囲に対応付けられた目的音声判定閾値Θの値を取り出すものである。

目的音声区間判定閾値送信部２９は、目的音声区間判定閾値照合部２８が取り出した目的音声判定閾値Θの値を、現分析フレームＫで適用する目的音声判定閾値Θ（Ｋ）として目的音声区間検出部１４に送信するものである。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の音声信号処理装置１の動作を、図面を参照しながら、全体動作、目的音声区間判定閾値制御部２０における詳細動作の順に説明する。

一対のマイクｍ＿１及びｍ＿２から入力された信号ｓ１（ｎ）、ｓ２（ｎ）はそれぞれ、ＦＦＴ部１０によって時間領域から周波数領域の信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に変換された後、第１及び第２の指向性形成部１１及び１２のそれぞれによって、所定の方位に死角を有する指向性信号Ｂ１(ｆ，Ｋ)、Ｂ２（ｆ，Ｋ）が生成される。そして、コヒーレンス計算部１３において、指向性信号Ｂ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）を適用して、（６）式及び（７）式の演算が実行され、コヒーレンスＣＯＨ（Ｋ）が算出される。

目的音声区間判定閾値制御部２０において、コヒーレンスＣＯＨ（Ｋ）に基づき、そのときの非目的音声（特に、妨害音声）の到来方位に応じた目的音声区間の判定閾値Θ（Ｋ）が求められ、目的音声区間検出部１４に与えられる。そして、目的音声区間検出部１４において、コヒーレンスＣＯＨ（Ｋ）と目的音声区間の判定閾値Θ（Ｋ）との比較により、目的音声区間か否かが判定され、その判定結果ＶＡＤ＿ＲＥＳ（Ｋ）を受けてゲイン制御部１５によってゲインＶＳ＿ＧＡＩＮが設定される。そして、ボイススイッチゲイン乗算部１６において、入力信号ｓ１（ｎ）にゲイン制御部１５が設定したゲインＶＳ＿ＧＡＩＮが乗算され、出力信号ｙ（ｎ）が得られる。

次に、目的音声区間判定閾値制御部２０の動作を説明する。図４は、目的音声区間判定閾値制御部２０の動作を示すフローチャートである。

目的音声区間判定閾値制御部２０に入力された、コヒーレンス計算部１３が計算したコヒーレンスＣＯＨ（Ｋ）は、コヒーレンス受信部２１によって取得される（ステップＳ１０１）。取得されたコヒーレンスＣＯＨ（Ｋ）は、非目的音声区間コヒーレンス平均処理部２３において、固定閾値Ψと比較され、非目的音声区間か否かが判定される（ステップＳ１０２）。判定結果が目的音声区間であれば（ＣＯＨ（Ｋ）≧Ψであれば）、非目的音声区間コヒーレンス平均処理部２３によって、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における平均値ＡＶＥ＿ＣＯＨ（Ｋ−１）がそのまま適用される（ステップＳ１０３）。一方、非目的音声区間であれば（ＣＯＨ（Ｋ）＜Ψであれば）、上述した（８）式に従って、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）が算出される（ステップＳ１０４）。

続いて、差分計算部２４によって、（９）式に従って、コヒーレンスの瞬時値ＣＯＨ（Ｋ）と平均値ＡＶＥ＿ＣＯＨ（Ｋ）の差の絶対値ＤＩＦＦ（Ｋ）が計算される（ステップＳ１０５）。そして、計算で得られた値ＤＩＦＦ（Ｋ）が妨害音声区間検出部２５において妨害音声区間判定閾値Φと比較され、値ＤＩＦＦ（Ｋ）が妨害音声区間判定閾値Φ以上であれば妨害音声区間と判定され、それ以外では、妨害音声区間以外の区間（背景雑音区間）と判定される（ステップＳ１０６）。この判定結果が妨害音声区間でないという結果であれば、妨害音声コヒーレンス平均処理部２６において、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における値ＤＩＳＴ＿ＣＯＨ（Ｋ−１）がそのまま適用され（ステップＳ１０８）、一方、妨害音声区間であれば、（１０）式に従って、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）が算出される（ステップＳ１０７）。

以上のようにして得られた妨害音声区間の平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）をキーとして、目的音声区間判定閾値照合部２７によって、記憶部２８に対する探索処理が実行され、キーである平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）が属する平均値の範囲に対応付けられた目的音声判定閾値Θの値が取り出され、目的音声区間判定閾値送信部２９によって、現分析フレームＫで適用する目的音声判定閾値Θ（Ｋ）として目的音声区間検出部１４に送信される（ステップＳ１０９）。その後、パラメータＫが１インクリメントされて（ステップＳ１１０）、コヒーレンス受信部２１による処理に戻る。

次に、以上のような処理により、最適な目的音声判定閾値Θ（Ｋ）が得られていることを説明する。

図１６に示すように、コヒーレンスＣＯＨは、到来方位に応じて値のレンジが異なるため、コヒーレンスの平均値と到来方位を対応付けることができる。このことは、コヒーレンスの平均値が得られれば、到来方位を推定できることを意味する。また、ボイススイッチ処理は、目的音声を無処理で素通りさせ、妨害音声を減衰させる処理であるので、検出したいのは妨害音声の到来方位の方である。そのため、妨害音声区間検出部２５によって妨害音声区間を検出し、妨害音声コヒーレンス平均処理部２６によって非目的音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）を算出することとした。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、非目的音声（特に妨害音声）の到来方位に応じて、目的音声区間判定閾値Θを制御するようにしたので、目的音声区間及び非目的音声区間の判定精度を向上させ、所望外の区間でボイススイッチ処理を誤って稼動して音質を低下させるようなことを防止することができる。

これにより、第１の実施形態の音声信号処理装置、方法若しくはプログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。

（Ｂ）第２の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第２の実施形態は、第１の実施形態における妨害音声区間の検出方法では、ごく稀ではあるが、妨害音声区間でないにも拘わらず妨害音声区間と検出されることがあり、このような誤検出をも防止しようとしたものである。第１の実施形態における妨害音声区間の検出方法では、例えば、目的音声区間から非目的音声区間に移行した直後の背景雑音区間では、妨害音声区間でないにも拘わらず妨害音声区間と検出されることもあった。このような誤検出によってコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨが更新されてしまうと、目的音声区間判定閾値Θ（Ｋ）の設定にも誤りが生じる。

第２の実施形態に係る音声信号処理装置１Ａも、その全体構成は、第１の実施形態の説明で用いた図１で表すことができる。また、第２の実施形態に係る目的音声区間判定閾値制御部２０Ａも、その内部構成は、第１の実施形態の説明で用いた図２で表すことができる。

第２の実施形態の場合、妨害音声区間検出部２０Ａが妨害音声区間と判定する条件が、第１の実施形態と異なっている。

第１の実施形態の判定条件が『値ＤＩＦＦ（Ｋ）が妨害音声区間判定閾値Φ以上』であったのに対し、第２の実施形態の判定条件は、『値ＤＩＦＦ（Ｋ）が妨害音声区間判定閾値Φ以上、かつ、コヒーレンスＣＯＨ（Ｋ）が非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）より大きい』という条件である。

この判定条件の変更の背景を説明する。コヒーレンスは背景雑音区間では値が小さく、変動も小さいが、妨害音声区間では目的音声区間ほどではないが値は大きく、変動も大きい。従って、妨害音声区間のコヒーレンス瞬時値ＣＯＨ（Ｋ）と平均値ＡＶＥ＿ＣＯＨ（Ｋ）とは大きく差がつくことが多い。値ＤＩＦＦ（Ｋ）が妨害音声区間判定閾値Φ以上という条件はこの特性を考慮したものである。しかし、この条件だけでは上述のような誤判定を生じさせてしまう。この原因は、目的音声区間直後での背景雑音区間では、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）が、以前の妨害音声区間のコヒーレンスの影響が残っていて大きい値なのに対し、瞬時値コヒーレンスＣＯＨ（Ｋ）は背景雑音区間での小さい値となるために、瞬時値と平均値との差は大きくなってしまい、その絶対値である値ＤＩＦＦ（Ｋ）も大きくなってしまうためである。そこで、第２の実施形態では、妨害音声区間のコヒーレンス瞬時値は平均値よりも大きいという『ＣＯＨ（Ｋ）＞ＡＶＥ＿ＣＯＨ（Ｋ）』という条件も追加することで、誤判定を防ぐこととした。

図５は、第２の実施形態の目的音声区間判定閾値制御部２０Ａの動作を示すフローチャートであり、第１の実施形態に係る図４との同一、対応ステップには同一、対応符号を付して示している。

上述したように、第２の実施形態では、妨害音声区間の判定ステップであるステップＳ１０６Ａが、第１の実施形態のステップＳ１０６の『ＤＩＦＦ（Ｋ）≧Φ』から、『値ＤＩＦＦ（Ｋ）≧Φ、かつ、ＣＯＨ（Ｋ）＞ＡＶＥ＿ＣＯＨ（Ｋ）』に変更されており、これ以外の処理は第１の実施形態と同様である。

以上のように、第２の実施形態によれば、目的音声区間終了直後の背景雑音区間のような場合においても、妨害音声区間のコヒーレンス平均値が誤って更新されることを防ぐことができ、目的音声区間判定閾値を適切な値に設定できるので、目的音声区間の判定精度を一段と向上させることができる。

これにより、第２の実施形態の音声信号処理装置、方法若しくはプログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。

（Ｃ）第３の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第３の実施形態を、図面を参照しながら説明する。

非目的音声区間において、背景雑音区間から妨害音声区間に切り替わった直後にはコヒーレンスＣＯＨが急増する。しかし、妨害音声区間のコヒーレンス平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）は平均値であるため、コヒーレンスＣＯＨが急増しても、コヒーレンス平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）の変動には直ちには現れない。すなわち、コヒーレンスＣＯＨの急増に対するコヒーレンス平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）の追従性が悪い。その結果、背景雑音区間から妨害音声区間に切り替わった直後では、妨害音声区間のコヒーレンス平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）が正確ではない。第３の実施形態は、以上の点に鑑みなされたものであり、背景雑音区間から妨害音声区間に切り替わった直後でも、目的音声区間判定閾値の決定に用いる妨害音声区間のコヒーレンス平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）を的確なものとしようとしたものである。具体的には、第３の実施形態では、背景雑音区間から妨害音声区間に切り替わった直後では、（１０）式における時定数ζを制御しようとしたものである。

（Ｃ−１）第３の実施形態の構成
第３の実施形態に係る音声信号処理装置１Ｂも、その全体構成は、第１の実施形態の説明で用いた図１で表すことができる。

図６は、第３の実施形態の目的音声区間判定閾値制御部２０Ｂの詳細構成を示すブロック図であり、第２の実施形態に係る図２との同一、対応部分には同一、対応符号を付して示している。

第３の実施形態の目的音声区間判定閾値制御部２０Ｂは、第２の実施形態のものと同様なコヒーレンス受信部２１、非目的音声区間検出部２２、非目的音声コヒーレンス平均処理部２３、差分計算部２４、妨害音声区間検出部２５、妨害音声コヒーレンス平均処理部２６、目的音声区間判定閾値照合部２７、記憶部２８及び目的音声区間判定閾値送信部２９に加え、平均パラメータ制御部３０及び妨害音声区間判定結果引継ぎ部３１を有する。平均パラメータ制御部３０は、妨害音声区間検出部２５及び妨害音声コヒーレンス平均処理部２６間に介挿され、妨害音声区間判定結果引継ぎ部３１は、目的音声区間判定閾値照合部２７及び目的音声区間判定閾値送信部２９間に介挿されている。

平均パラメータ制御部３０は、妨害音声区間検出部２５での判定結果を受け、妨害音声区間でなければ判定結果格納変数ｖａｒ＿ｎｅｗには０を格納し、妨害音声区間であれば、判定結果格納変数ｖａｒ＿ｎｅｗには１を格納した後、直前フレームにおける判定結果格納変数ｖａｒ＿ｏｌｄと比較するものである。平均パラメータ制御部３０は、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗが直前フレームの判定結果格納変数ｖａｒ＿ｏｌｄを上回ったら背景雑音区間から妨害音声区間に移行したとみなし、妨害音声区間コヒーレンス平均値の計算に用いる平均パラメータζとして、１．０に近い大きな固定値（後述する初期値より大きい）に設定し、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗが直前フレームの判定結果格納変数ｖａｒ＿ｏｌｄを上回っていなければ、妨害音声区間コヒーレンス平均値の計算に用いる平均パラメータζとして、初期値を設定するものである。

第３の実施形態の妨害音声コヒーレンス平均処理部２６は、平均パラメータ制御部３０が設定した平均パラメータζを適用して、上述した（１０）式の演算を行うものである。

妨害音声区間判定結果引継ぎ部３１は、現フレームに対する平均パラメータζの設定処理が終了したときに、直前フレームの判定結果格納変数ｖａｒ＿ｏｌｄを、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗに書き換えて、次フレームの処理に引き継ぎするものである。

（Ｃ−２）第３の実施形態の動作
次に、第３の実施形態の音声信号処理装置１Ｂの目的音声区間判定閾値制御部２０Ｂにおける詳細動作を、図面を参照しながら説明する。なお、第３の実施形態の音声信号処理装置１Ｂの全体動作は、第１の実施形態の音声信号処理装置１の全体動作と同様であり、その説明は省略する。

図７は、第３実施形態の目的音声区間判定閾値制御部２０Ｂの動作を示すフローチャートであり、第２の実施形態に係る図５との同一、対応ステップには同一、対応符号を付して示している。

目的音声区間判定閾値制御部２０Ｂに入力された、コヒーレンス計算部１３が計算したコヒーレンスＣＯＨ（Ｋ）は、コヒーレンス受信部２１によって取得され（ステップＳ１０１）、非目的音声区間コヒーレンス平均処理部２３において、固定閾値Ψと比較され、非目的音声区間か否かが判定される（ステップＳ１０２）。判定結果が目的音声区間であれば（ＣＯＨ（Ｋ）≧Ψであれば）、非目的音声区間コヒーレンス平均処理部２３によって、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における平均値ＡＶＥ＿ＣＯＨ（Ｋ−１）がそのまま適用され（ステップＳ１０３）、一方、非目的音声区間であれば（ＣＯＨ（Ｋ）＜Ψであれば）、上述した（８）式に従って、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）が算出される（ステップＳ１０４）。

続いて、差分計算部２４によって、（９）式に従って、コヒーレンスの瞬時値ＣＯＨ（Ｋ）と平均値ＡＶＥ＿ＣＯＨ（Ｋ）の差の絶対値ＤＩＦＦ（Ｋ）が計算される（ステップＳ１０５）。そして、妨害音声区間検出部２５において、『値ＤＩＦＦ（Ｋ）が妨害音声区間判定閾値Φ以上、かつ、コヒーレンスＣＯＨ（Ｋ）が非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）より大きい』という妨害音声区間の条件が成立するか否かが判定される（ステップＳ１０６Ａ）。

この条件が成立しない場合（妨害音声区間でない場合）には、平均パラメータ制御部３０において、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗには０が格納される（ステップＳ１５０）。その後、妨害音声コヒーレンス平均処理部２６において、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における値ＤＩＳＴ＿ＣＯＨ（Ｋ−１）がそのまま適用される（ステップＳ１０８）。

一方、妨害音声区間の条件が成立した場合（妨害音声区間である場合）には、平均パラメータ制御部３０において、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗに１が格納され（ステップＳ１５１）、その後、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗと直前フレームにおける判定結果格納変数ｖａｒ＿ｏｌｄとが比較される（ステップＳ１５２）。現フレームの判定結果格納変数ｖａｒ＿ｎｅｗが直前フレームの判定結果格納変数ｖａｒ＿ｏｌｄを上回った場合には、平均パラメータ制御部３０によって、妨害音声区間コヒーレンス平均値の計算に用いる平均パラメータζとして１．０に近い大きな固定値が設定され（ステップＳ１５４）、一方、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗが直前フレームの判定結果格納変数ｖａｒ＿ｏｌｄを上回っていない場合には、平均パラメータ制御部３０によって、妨害音声区間コヒーレンス平均値の計算に用いる平均パラメータζとして、初期値が設定される（ステップＳ１５３）。このような設定後、妨害音声コヒーレンス平均処理部２６によって、（１０）式に従って、妨害音声区間におけるコヒーレンスの平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）が算出される（ステップＳ１０７）。

以上のようにして得られた妨害音声区間の平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）をキーとして、目的音声区間判定閾値照合部２７によって、記憶部２８に対する探索処理が実行され、キーである平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）が属する平均値の範囲に対応付けられた目的音声判定閾値Θの値が取り出され、目的音声区間判定閾値送信部２９によって、現分析フレームＫで適用する目的音声判定閾値Θ（Ｋ）として目的音声区間検出部１４に送信される（ステップＳ１０９）。

その後、妨害音声区間判定結果引継ぎ部３１において、直前フレームの判定結果格納変数ｖａｒ＿ｏｌｄを、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗに書き換える（ステップＳ１５５）。そして、パラメータＫが１インクリメントされて（ステップＳ１１０）、コヒーレンス受信部２１による処理に戻る。

なお、現フレームの判定結果格納変数ｖａｒ＿ｎｅｗや直前フレームの判定結果格納変数ｖａｒ＿ｏｌｄに格納する値は１や０に限定されるものではない。異なる値を格納するようにした場合には、それに応じて、ステップＳ１５２の判定条件も変更するようにしても良い。

また、背景雑音区間から妨害音声区間に切り替わったら直後の１フレームだけ、平均パラメータζを１．０に近い大きい値に設定する場合を上記では説明したが、切り替わった直後のフレームからのフレーム数をカウントすることにより、所定数のフレームだけ連続して、平均パラメータζを１．０に近い大きい値に設定するようにしても良い。例えば、切り替わった直後の５フレーム連続して、平均パラメータζを１．０に近い大きい値に設定し、それ以降のフレームは初期値に戻す、という制御を行うようにしても良い。

（Ｃ−３）第３の実施形態の効果
第３の実施形態によれば、背景雑音区間から妨害音声区間に切り替わったことを検出し、切り替わったときに、妨害音声区間のコヒーレンス平均の算出式におけるパラメータを制御するようにしたので、コヒーレンス平均の追従遅れを最低限に抑えることができ、目的音声区間判定閾値をより適切に設定できるようになる。

これにより、第３の実施形態の音声信号処理装置、方法若しくはプログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。

（Ｄ）他の実施形態
上記各実施形態の説明においても種々変形実施形態について言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

（１０）式では、現フレームにおけるコヒーレンスＣＯＨ（Ｋ）に基づいて妨害音声区間におけるコヒーレンス平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）を更新しているが、雑音の特性によってはコヒーレンスＣＯＨ（Ｋ）の瞬時変動の影響をやや緩和させた方が検出がより正確になる場合もある。その場合には、妨害音声区間におけるコヒーレンス平均値ＤＩＳＴ＿ＣＯＨ（Ｋ）を非目的音声区間におけるコヒーレンス平均値ＡＶＥ＿ＣＯＨ（Ｋ）に基づいて更新するようにしても良い。次の（１１）式が、この変形実施形態の場合の計算式である。

ＤＩＳＴ＿ＣＯＨ（Ｋ）＝ζ×ＡＶＥ＿ＣＯＨ（Ｋ）
＋（１−ζ）× ＤＩＳＴ＿ＣＯＨ（Ｋ−１） …（１１）
上記各実施形態では、妨害音声区間のコヒーレンス平均値に基づいて、目的音声区間検出部が利用する閾値を定めるものを示したが、閾値の決定に用いるパラメータは、コヒーレンス平均値に限定されるものではない。パラメータは、ある程度の直前期間のコヒーレンスの傾向を反映できているものであれば良く、例えば、公知のピークホールド手法を適用して得たコヒーレンスのピークに基づいて閾値を設定するようにしても良い。また、コヒーレンスの分散、標準偏差などの統計量に基づいて閾値を設定するようにしても良い。

上記各実施形態では、非目的音声コヒーレンス平均計算部２２が、１つの閾値Ψによって、コヒーレンス平均値の２つの更新方法のいずれを適用するかを判断するものを示したが、コヒーレンス平均値の更新方法として３つ以上を用意しておき、更新方法の数に合わせて閾値が複数設けるようにしても良い。例えば、（８）式におけるδが異なる複数の更新方法を用意しておくようにしても良い。

上記各実施形態と、公知の周波数減算、コヒーレンスフィルター、ウィーナーフィルターのいずれか１つ、あるいは、いずれか２つ、あるいは、全てと併用するようにしても良い。併用によりさらに高い雑音抑圧性能を実現することができる。以下、周波数減算、コヒーレンスフィルター、ウィーナーフィルターのそれぞれと、第１の実施形態とを併用する場合の構成及び動作を簡単に記載する。

図８は、周波数減算と第１の実施形態とを併用した変形実施形態の構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図８において、この変形実施形態に係る音声信号処理装置１Ｃは、第１の実施形態の構成に加えて、周波数減算部４０を備えている。周波数減算部４０は、第３の指向性形成部４１と減算部４２とＩＦＦＴ部４３とを有する。

ここで、「周波数減算」は、入力信号から非目的音声信号成分を減算することで雑音抑制を行う手法である。

第３の指向性形成部４１には、ＦＦＴ部１０から周波数領域に変換された２つの入力信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）が与えられる。第３の指向性形成部４１は、（１２）式を実行することにより、図９に示すような正面に死角を有する指向性特性に従った第３の指向性信号Ｂ３（ｆ，Ｋ）を形成し、この指向性信号Ｂ３（ｆ，Ｋ）を雑音信号として減算部４２に減算入力として与える。減算部４２には、周波数領域に変換された一方の入力信号Ｘ１（ｆ，Ｋ）が被減算入力として与えられており、減算部４２は、（１３）式に示すように、入力信号Ｘ１（ｆ，Ｋ）から第３の指向性信号Ｂ３（ｆ、Ｋ）を減算しては周波数減算処理信号Ｄ（ｆ，Ｋ）を得る。ＩＦＦＴ部４３は、周波数減算処理信号Ｄ（ｆ，Ｋ）を時間領域信号ｑ（ｎ）に変換し、ボイススイッチ乗算部１６に与える。

Ｂ３（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）−Ｘ２（ｆ，Ｋ） …（１２）
Ｄ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）−Ｂ３（ｆ，Ｋ） …（１３）
図１０は、コヒーレンスフィルターと第１の実施形態とを併用した変形実施形態の構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図１０において、この変形実施形態に係る音声信号処理装置１Ｄは、第１の実施形態の構成に加えて、コヒーレンスフィルター演算部５０を備えている。コヒーレンスフィルター演算部５０は、コヒーレンスフィルター係数乗算部５１とＩＦＦＴ部５２とを有する。

ここで、「コヒーレンスフィルター」とは、上述した（６）式で得られたｃｏｅｆ（ｆ，Ｋ）を周波数ごとに入力信号に乗算することで到来方向に偏りを有する信号成分を抑制する雑音除去技術のことである。

コヒーレンスフィルター係数乗算部５１は、（１４）式に示すように、入力信号Ｘ１（ｆ，Ｋ）にコヒーレンス計算部１３の演算の過程で得られる係数ｃｏｅｆ（ｆ，Ｋ）を乗算し、雑音抑制後信号Ｄ（ｆ，Ｋ）を得る。ＩＦＦＴ部５２は、雑音抑制後信号Ｄ（ｆ，Ｋ）を時間領域信号ｑ（ｎ）に変換し、ボイススイッチ乗算部１６に与える。

Ｄ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）×ｃｏｅｆ（ｆ，Ｋ） …（１４）
図１１は、ウィーナーフィルターと第１の実施形態とを併用した変形実施形態の構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図１１において、この変形実施形態に係る音声信号処理装置１Ｅは、第１の実施形態の構成に加えて、ウィーナーフィルター演算部６０を備えている。ウィーナーフィルター演算部６０は、ウィーナーフィルター係数計算部６１とウィーナーフィルター係数乗算部６２とＩＦＦＴ部６３とを有する。

ここで、「ウィーナーフィルター」とは、特許文献２に記載されているように、雑音区間の信号から周波数ごとに雑音特性を推定して得た係数を乗算することで雑音を除去する技術である。

ウィーナーフィルター係数計算部６１は、目的音声区間検出部１４の検出結果を参照し、非目的音声区間であればウィーナーフィルター係数ｗｆ＿ｃｏｅｆ（ｆ，Ｋ）の推定を行う（特許文献２の「数３」の演算式参照）。一方、目的音声区間であればウィーナーフィルター係数の推定を行わない。ウィーナーフィルター係数乗算部６２は、（１５）式に示すように、入力信号Ｘ１（ｆ，Ｋ）にウィーナーフィルター係数ｗｆ＿ｃｏｅｆ（ｆ，Ｋ）を乗算して雑音抑圧後信号Ｄ（ｆ，Ｋ）を得る。ＩＦＦＴ部６３は、雑音抑圧後信号Ｄ（ｆ，Ｋ）を時間領域信号ｑ（ｎ）に変換し、ボイススイッチ乗算部１６に与える。

Ｄ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）×ｗｆ＿ｃｏｅｆ（ｆ，Ｋ） …（１５）
以上では、周波数減算処理、コヒーレンスフィルター処理若しくはウィーナーフィルター処理を施した後に、ボイススイッチ処理を施すものを示したが、この処理順序は逆であっても良い。

上記各実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良く、逆に、時間領域の信号で処理していた処理を、可能ならば周波数領域の信号で処理するようにしても良い。

上記各実施形態では、一対のマイクが捕捉した信号を直ちに処理する場合を示したが、本発明の処理対象の音声信号はこれに限定されるものではない。例えば、記録媒体から読み出した一対の音声信号を処理する場合にも、本発明を適用することができ、また、対向装置から送信されてきた一対の音声信号を処理する場合にも、本発明を適用することができる。

１、１Ａ、１Ｂ…音声信号処理装置、ｍ＿１、ｍ＿２…マイク、１０…ＦＦＴ部、１１…第１指向性形成部、１２…第２の指向性形成部、１３…コヒーレンス計算部、１４…目的音声区間検出部、１５…ゲイン制御部、１６…ボイススイッチゲイン乗算部、２０、２０Ａ、２０Ｂ…目的音声区間判定閾値制御部、２１…コヒーレンス受信部、２２…非目的音声区間検出部、２３…非目的音声区間コヒーレンス平均処理部、２４…差分計算部、２５…妨害音声区間検出部、２６…妨害音声コヒーレンス平均処理部、２７…目的音声区間判定閾値照合部、２８…記憶部、２９…目的音声区間判定閾値送信部、３０…平均パラメータ制御部、３１…妨害音声区間判定結果引継ぎ部。

Claims

入力音声信号から雑音成分を抑制する音声信号処理装置において、
入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、
上記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
上記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定する目的音声区間検出部と、
上記コヒーレンスに基づいて、妨害音声区間と背景雑音区間の双方を含む非目的音声区間中の上記妨害音声区間を検出し、当該妨害音声区間におけるコヒーレンス平均値である妨害音声コヒーレンス平均値を得て、妨害音声コヒーレンス平均値に基づいて、上記第１の判定閾値を制御する目的音声区間判定閾値制御部と、
上記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定するゲイン制御部と、
上記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算するボイススイッチゲイン乗算部と
を有することを特徴とする音声信号処理装置。
上記目的音声区間判定閾値制御部は、
上記コヒーレンスと固定値でなる第２の判定閾値とを比較して非目的音声区間を検出し、非目的音声区間における上記コヒーレンスの長期間の変化度合いを表した情報を得た後、コヒーレンスの瞬時値との比較により妨害音声区間を検出し、妨害音声区間であることを少なくとも含む更新条件の成立時に妨害音声コヒーレンス平均値を更新すると共に、上記更新条件の不成立時に妨害音声コヒーレンス平均値を維持する妨害音声コヒーレンス平均取得部と、
妨害音声コヒーレンス平均値と上記第１の判定閾値との対応関係情報を保持している対応関係保持部と、
上記対応関係保持部から、上記妨害音声コヒーレンス平均取得部が得た現在の妨害音声コヒーレンス平均値に対応した上記第１の判定閾値を得る目的音声区間判定閾値取得部とを有する
ことを特徴とする請求項１に記載の音声信号処理装置。
上記妨害音声コヒーレンス平均取得部は、非目的音声区間における上記コヒーレンスの平均値である非目的音声区間コヒーレンス平均値を算出した後、コヒーレンスの瞬時値と非目的音声区間コヒーレンス平均値との差の絶対値を第３の判定閾値と比較することで妨害音声区間を検出するものであることを特徴とする請求項２に記載の音声信号処理装置。
上記妨害音声コヒーレンス平均取得部における更新条件が、妨害音声区間であり、かつ、コヒーレンスの瞬時値が非目的音声区間コヒーレンス平均値より大きい、という条件であることを特徴とする請求項３に記載の音声信号処理装置。
上記妨害音声コヒーレンス平均取得部は、妨害音声区間か否かの過去の検出結果を保持する保持部を有し、妨害音声区間以外の区間から妨害音声区間へ変化したときは、その変化から所定期間だけ、コヒーレンスの瞬時値を上記妨害音声コヒーレンス平均値へ反映させる度合いを高めることを特徴とする請求項３又は４に記載の音声信号処理装置。
自己への入力信号から非目的音声信号成分を減算することで雑音抑制を行う周波数減算部を、上記ボイススイッチゲイン乗算部の入力段若しくは出力段側に有することを特徴とする請求項１〜５のいずれかに記載の音声信号処理装置。
複数の係数の平均処理によりコヒーレンスを求める際の要素である周波数ごとの上記各係数を、周波数ごとに、自己への入力信号に乗算することで到来方向に偏りを有する信号成分を抑制するコヒーレンスフィルター演算部を、上記ボイススイッチゲイン乗算部の入力段若しくは出力段側に有することを特徴とする請求項１〜６のいずれかに記載の音声信号処理装置。
雑音区間の信号から周波数ごとに雑音特性を推定して得た係数を、自己への入力信号に乗算することで雑音を除去するウィーナーフィルター演算部を、上記ボイススイッチゲイン乗算部の入力段若しくは出力段側に有することを特徴とする請求項１〜７のいずれかに記載の音声信号処理装置。
入力音声信号から雑音成分を抑制する音声信号処理方法において、
第１の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成し、
第２の指向性形成部は、入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成し、
コヒーレンス計算部は、上記第１及び第２の指向性信号を用いてコヒーレンスを計算し、
目的音声区間検出部は、上記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定し、
目的音声区間判定閾値制御部は、上記コヒーレンスに基づいて、妨害音声区間と背景雑音区間の双方を含む非目的音声区間中の上記妨害音声区間を検出し、当該妨害音声区間におけるコヒーレンス平均値である妨害音声コヒーレンス平均値を得て、妨害音声コヒーレンス平均値に基づいて、上記第１の判定閾値を制御し、
ゲイン制御部は、上記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定し、
ボイススイッチゲイン乗算部は、上記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算する
ことを特徴とする音声信号処理方法。
コンピュータを、
入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、
上記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
上記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定する目的音声区間検出部と、
上記コヒーレンスに基づいて、妨害音声区間と背景雑音区間の双方を含む非目的音声区間中の上記妨害音声区間を検出し、当該妨害音声区間におけるコヒーレンス平均値である妨害音声コヒーレンス平均値を得て、妨害音声コヒーレンス平均値に基づいて、上記第１の判定閾値を制御する目的音声区間判定閾値制御部と、
上記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定するゲイン制御部と、
上記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算するボイススイッチゲイン乗算部と
して機能させることを特徴とする音声信号処理プログラム。