JP5838861B2

JP5838861B2 - 音声信号処理装置、方法及びプログラム

Info

Publication number: JP5838861B2
Application number: JP2012044138A
Authority: JP
Inventors: 克之高橋
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2012-02-29
Filing date: 2012-02-29
Publication date: 2016-01-06
Anticipated expiration: 2032-02-29
Also published as: JP2013182044A

Description

本発明は音声信号処理装置、方法及びプログラムに関し、例えば、電話やテレビ会議などの音声信号を扱う通信機又は通信ソフトウェアに適用し得るものである。

雑音抑制技術として、ボイススイッチと呼ばれる技術やウィーナーフィルターと呼ばれる技術などがある（特許文献１、特許文献２参照）。

ボイススイッチは、目的音声区間検出機能を用いて入力信号から話者が話している区間（目的音声区間）を検出し、目的音声区間の場合は無処理で出力し、非目的音声区間の場合は振幅を減衰する、という技術である。例えば、図１２に示すように、入力信号ｉｎｐｕｔを受信すると、目的音声区間か否かを判定し（ステップＳ１０１）、目的音声区間であればゲインＶＳ＿ＧＡＩＮに１．０を設定し（ステップＳ１０２）、非目的音声区間であればゲインＶＳ＿ＧＡＩＮに１．０未満の任意の正の数値αを設定し（ステップＳ１０３）、その後、ゲインＶＳ＿ＧＡＩＮを入力信号ｉｎｐｕｔに乗算して出力信号ｏｕｔｐｕｔを得る（ステップＳ１０４）。

このボイススイッチ技術を、テレビ会議装置や携帯電話のような音声通信機器に適用することにより、非目的音声区間（雑音）を抑制して所望の目的音声を抽出することができるので、通話音質を高めることができる。

ところで、非目的音声は、話者以外の人間の声である「妨害音声」と、オフィスノイズや道路ノイズなどのような「背景雑音」とに分けられる。非目的音声区間が背景雑音のみの場合には、通常の目的音声区間検出機能で目的音声区間か否かを正確に判定できるのに対し、妨害音声が背景雑音に重畳されている場合には、目的音声区間検出機能は妨害音声も目的音声とみなしてしまうために誤判定が生じる。この結果、ボイススイッチで妨害音声を抑制できず、十分な通話音質に達しない。

この課題は、目的音声区間検出部で参照する特徴量として、これまで用いてきた入力信号レベルの変動から、コヒーレンスに変更することで改善される。コヒーレンスとは、簡単に述べれば、入力信号の到来方向を意味する特徴量である。携帯電話などの利用を想定した場合、話者の声（目的音声）は正面から到来し、妨害音声は正面以外から到来する傾向が強いので、到来方向に着目することで、従来は不可能だった目的音声と妨害音声との区別が可能となる。

図１３は、目的音声検出機能にコヒーレンスを用いる場合のボイススイッチの構成を示すブロック図である。

一対のマイクｍ＿１、ｍ＿２のそれぞれから、図示しないＡＤ変換器を介して入力信号ｓ１（ｎ）、ｓ２（ｎ）を取得する。なお、ｎはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、ｎが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。

ＦＦＴ部１０は、マイクｍ＿１及びｍ＿２から入力信号系列ｓ１（ｎ）及びｓ２（ｎ）を受け取り、その入力信号ｓ１及びｓ２に高速フーリエ変換（あるいは離散フーリエ変換）を行うものである。これにより、入力信号ｓ１及びｓ２を周波数領域で表現することができる。なお、高速フーリエ変換を実施するにあたり、入力信号ｓ１（ｎ）及びｓ２（ｎ）から、所定のＮ個のサンプルからなる分析フレームＦＲＡＭＥ１（Ｋ）及びＦＲＡＭＥ２（Ｋ）を構成して適用する。入力信号ｓ１（ｎ）から分析フレームＦＲＡＭＥ１（Ｋ）を構成する例を以下の（１）式に示すが、分析フレームＦＲＡＭＥ２（Ｋ）も同様である。

なお、Ｋはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Ｋが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはＫであるとする。

ＦＦＴ部１０は、分析フレームごとに高速フーリエ変換処理を施すことで、周波数領域信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に変換し、得られた周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）をそれぞれ、対応する第１の指向性形成部１１、第２の指向性形成部１２に与える。なお、ｆは周波数を表すインデックスである。また、Ｘ１（ｆ，Ｋ）は単一の値ではなく、（２）式に示すように、複致の周波数ｆ１〜ｆｍのスペクトル成分から構成されるものである。Ｘ２（ｆ，Ｋ）や後述するＢ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）も同様である。

Ｘ１（ｆ，Ｋ）＝｛（ｆ１，Ｋ），（ｆ２，Ｋ），…，（ｆｍ，Ｋ）｝ …（２）
第１の指向性形成部１１では、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）から特定方向に指向性が強い信号Ｂ１（ｆ，Ｋ）を形成し、第２の指向性形成部１２では、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）から特定方向（上述の特定方向とは異なる）に指向性が強い信号Ｂ２（ｆ，Ｋ）を形成する。特定方向に指向性が強い信号Ｂ１（ｆ，Ｋ）、Ｂ２（ｆ，Ｋ）の形成方法としては既存の方法を適用でき、例えば、（３）式を適用して右方向に指向性が強いＢ１（ｆ，Ｋ）や（４）式を適用して左方向に指向性が強いＢ２（ｆ，Ｋ）が形成できる。（３）式及び（４）式では、フレームインデックスＫは演算に関与しないので省略している。

これらの式の意味を、（３）式を例に、図１４及び図１５を用いて説明する。図１４（Ａ）に示した方向θから音波が到来し、距離ｌだけ隔てて設置されている一対のマイクｍ＿１及びｍ＿２で捕捉されたとする。このとき、音波が一対のマイクｍ＿１及びｍ＿２に到達するまでには時間差が生じる。この到達時間差τは、音の経路差をｄとすると、ｄ＝ｌ×ｓｉｎθなので、音速をｃとすると（５）式で与えられる。

τ＝ｌ×ｓｉｎθ／ｃ …（５）
ところで、入力信号ｓ１（ｎ）にτだけ遅延を与えた信号ｓ１（ｔ−τ）は、入力信号ｓ２（ｔ）と同一の信号である。従って、両者の差をとった信号ｙ（ｔ）＝ｓ２（ｔ）−ｓ１（ｔ−τ）は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーｍ＿１及びｍ＿２は図１４（Ｂ）のような指向特性を持つようになる。

なお、以上では、時間領域での演算を記したが、周波数領域で行っても同様なことがいえる。この場合の式が、上述した（３）式及び（４）式である。今、一例として、到来方向θが±９０度であることを想定している。すなわち、第１の指向性形成部１１からの指向性信号Ｂ１（ｆ）は、図１５（Ａ）に示すように右方向に強い指向性を有し、第２の指向性形成部１２からの指向性信号Ｂ２（ｆ）は、図１５（Ｂ）に示すように左方向に強い指向性を有する。

以上のようにして得られた指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）に対し、コヒーレンス計算部１３で、（６）式、（７）式のような演算を施すことでコヒーレンスＣＯＨが得られる。（６）式におけるＢ２（ｆ）^＊はＢ２（ｆ）の共役複素数である。

目的音声区間検出部１４では、コヒーレンスＣＯＨを目的音声区間判定閾値Θと比較し、閾値Θより大きければ目的音声区間と判定し、そうでなければ非目的音声区間と判定し、判定結果ＶＡＤ＿ＲＥＳ（Ｋ）を形成する。

ここで、コヒーレンスの大小で目的音声区間を検出する背景を簡単に述べておく。コヒーレンスの概念は、右から到来する信号と左から到来する信号の相関と言い換えられる（上述した（６）式はある周波数成分についての相関を算出する式であり、（７）式は全ての周波数成分の相関値の平均を計算している）。従って、コヒーレンスＣＯＨが小さい場合とは、２つの指向性信号Ｂ１及びＢ２の相関が小さい場合であり、反対にコヒーレンスＣＯＨが大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合の入力信号は、入力到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。そのため、コヒーレンスＣＯＨが小さい区間は妨害音声区間あるいは背景雑音区間（非目的音声区間）であるといえる。一方、コヒーレンスＣＯＨの値が大きい場合は、到来方向の偏りがないため、入力信号が正面から到来する場合であるといえる。今、目的音声は正面から到来すると仮定しているので、コヒーレンスＣＯＨが大きい場合は目的音声区間といえる。

ゲイン制御部１５は、目的音声区間ならばゲインＶＳ＿ＧＡＩＮとして１．０を、非目的音声区間（妨害音声、背景雑音）ならばゲインＶＳ＿ＧＡＩＮとして１．０未満の任意の正の数値αを設定する。ボイススイッチゲイン乗算部１６は、得られたゲインＶＳ＿ＧＡＩＮを入力信号ｓ１（ｎ）に乗算することでボイススイッチ後信号ｙ（ｎ）を得る。

特開２００６−３３３２１５号公報特表２０１０−５３２８７９号公報

ところで、到来方位が正面寄りならばコヒーレンスＣＯＨは全体的に大きい値となるが、側方にずれていくにつれてコヒーレンスＣＯＨは小さい値になる。図１６は、音声の到来方位が正面寄り（実線）、音声の到来方位が側方（点線）、到来方位が正面及び側方の中間（破線）の場合におけるコヒーレンスＣＯＨの変化を示しており、縦軸がコヒーレンスＣＯＨ、横軸が時間（分析フレームｋ）を表している。

図１６に示すように、コヒーレンスＣＯＨは到来方位に応じて値のレンジが大きく変わるという特性をもつ。しかし、従来は、到来方位に関わらず目的音声区間判定閾値Θが固定値であるため、誤判定が生じるという課題がある。

例えば、閾値Θが大きい場合には、音声の立ち上がり区間や子音部のような、目的音声であってもコヒーレンスＣＯＨの値がそれほど大きくならない期間で、目的音声区間が非目的音声区間と誤判定される。これにより、ボイススイッチ処理によって目的音声成分が減衰されてしまい、ところどころ途切れたような不自然な音質となってしまう。

また、閾値Θとして小さい値を設定した場合には、正面寄りの到来方位から妨害音が到来した場合には、妨害音のコヒーレンスが閾値Θを上回ってしまい、非目的音声区間が目的音声区間であると誤判定されてしまう。これにより、非目的音声成分が減衰されずに十分な消去性能が得られなくなる。加えて、装置利用者が妨害音声の到来方位が時々刻々と変化する環境にいる場合には、誤判定の頻度は増す。

以上のように、目的音声区間の判定閾値Θが固定値であるため、所望の区間でボイススイッチ処理を稼動させられず、所望外の区間でボイススイッチ処理を稼動させ、音質を低下させてしまうという課題がある。

そのため、ボイススイッチを適切に稼動させて音質を向上できる音声信号処理装置、方法及びプログラムが望まれている。

第１の本発明は、入力音声信号から雑音成分を抑制する音声信号処理装置において、（１）入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、（２）入力音声信号に遅延減算処理を施すことで、前記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、（３）前記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、（４）前記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定する目的音声区間検出部と、（５）前記コヒーレンスに基づいて前記第１の判定閾値を制御する目的音声区間判定閾値制御部と、（６）前記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定するゲイン制御部と、（７）前記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算するボイススイッチゲイン乗算部とを有することを特徴とする。

第２の本発明は、入力音声信号から雑音成分を抑制する音声信号処理方法において、（１）第１の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成し、（２）第２の指向性形成部は、入力音声信号に遅延減算処理を施すことで、前記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成し、（３）コヒーレンス計算部は、前記第１及び第２の指向性信号を用いてコヒーレンスを計算し、（４）目的音声区間検出部は、前記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定し、（５）目的音声区間判定閾値制御部は、前記コヒーレンスに基づいて前記第１の判定閾値を制御し、（６）ゲイン制御部は、前記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定し、（７）ボイススイッチゲイン乗算部は、前記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算することを特徴とする。

第３の本発明の音声信号処理プログラムは、コンピュータを、（１）入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、（２）入力音声信号に遅延減算処理を施すことで、前記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、（３）前記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、（４）前記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定する目的音声区間検出部と、（５）前記コヒーレンスに基づいて前記第１の判定閾値を制御する目的音声区間判定閾値制御部と、（６）前記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定するゲイン制御部と、（７）前記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算するボイススイッチゲイン乗算部として機能させることを特徴とする。

本発明によれば、目的音声区間か否かを判定するために適用される判定閾値を制御するようにしたので、ボイススイッチを適切に稼動させて音質を向上させることができる。

第１の実施形態に係る音声信号処理装置の構成を示すブロック図である。第１の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の詳細構成を示すブロック図である。第１の実施形態の音声信号処理装置における目的音声区間判定閾値制御部内の記憶部の記憶内容の説明図である。第１の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の動作を示すフローチャートである。第２の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の詳細構成を示すブロック図である。第２の実施形態の音声信号処理装置における目的音声区間判定閾値制御部内の目的音声区間判定閾値計算部が適用する関数を導出する考え方の説明図である。第２の実施形態の音声信号処理装置における目的音声区間判定閾値制御部の動作を示すフローチャートである。周波数減算と第１の実施形態とを併用した変形実施形態の構成を示すブロック図である。図８の第３の指向性形成部からの指向性信号の性質を示す説明図である。コヒーレンスフィルターと第１の実施形態とを併用した変形実施形態の構成を示すブロック図である。ウィーナーフィルターと第１の実施形態とを併用した変形実施形態の構成を示すブロック図である。ボイススイッチ処理の流れを示すフローチャートである。目的音声検出機能にコヒーレンスを用いる場合のボイススイッチの構成を示すブロック図である。図１３の指向性形成部からの指向性信号の性質を示す説明図である。図１３の２つの指向性形成部による指向性の特性を示す説明図である。音声の到来方位によってコヒーレンスの変化が異なることを示す説明図である。

（Ａ）第１の実施形態
以下、本発明による音声信号処理装置、方法及びプログラムの第１の実施形態を、図面を参照しながら説明する。第１の実施形態は、コヒーレンスＣＯＨに基づき、到来方位に応じて適切な目的音声区間の判定閾値Θを設定できるようにしたものである。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した図１３との同一、対応部分には同一符号を付して示している。ここで、一対のマイクｍ＿１及びｍ＿２を除いた部分は、ＣＰＵが実行するソフトウェア（音声信号処理プログラム）として実現することも可能であるが、機能的には、図１で表すことができる。

図１において、第１の実施形態に係る音声信号処理装置１は、従来と同様なマイクｍ＿１、ｍ＿２、ＦＦＴ部１０、第１指向性形成部１１、第２の指向性形成部１２、コヒーレンス計算部１３、目的音声区間検出部１４、ゲイン制御部１５及びボイススイッチゲイン乗算部１６に加え、目的音声区間判定閾値制御部２０を有する。

ここで、マイクｍ＿１、ｍ＿２、ＦＦＴ部１０、第１指向性形成部１１、第２の指向性形成部１２、コヒーレンス計算部１３、ゲイン制御部１５及びボイススイッチゲイン乗算部１６は、従来と同様な機能を担っているので、その機能説明は省略する。

目的音声区間判定閾値制御部２０は、コヒーレンス計算部１３が計算したコヒーレンスＣＯＨ（Ｋ）に基づき、そのときの到来方位に応じた目的音声区間判定閾値Θ（Ｋ）を、目的音声区間検出部１４に設定させるものである。

第１の実施形態の目的音声区間検出部１４は、コヒーレンスＣＯＨ（Ｋ）を、可変制御されて設定された目的音声区間判定閾値Θ（Ｋ）と比較し、閾値Θ（Ｋ）より大きければ目的音声区間と判定し、そうでなければ非目的音声区間と判定し、判定結果ＶＡＤ＿ＲＥＳ（Ｋ）を形成するものである。

図２は、目的音声区間判定閾値制御部２０の詳細構成を示すブロック図である。目的音声区間判定閾値制御部２０は、コヒーレンス受信部２１、非目的音声コヒーレンス平均計算部２２、目的音声区間判定閾値照合部２３、記憶部２４及び目的音声区間判定閾値送信部２５を有する。

コヒーレンス受信部２１は、コヒーレンス計算部１３が計算したコヒーレンスＣＯＨ（Ｋ）を取り込むものである。

非目的音声コヒーレンス平均計算部２２は、コヒーレンスＣＯＨ（Ｋ）に係る区間が非目的音声区間か否かを粗判定するものである。この粗判定は、コヒーレンスＣＯＨ（Ｋ）を固定閾値Ψと比較し、コヒーレンスＣＯＨ（Ｋ）が固定閾値Ψより小さいときに非目的音声区間と判定する。判定閾値Ψは、目的音声区間検出部１４が用いる時々刻々と制御される目的音声判定閾値Θとは異なる値であり、非目的音声区間を大雑把に検出できれば良いので、判定閾値Θのように高い精度である必要はなく、固定値を適用する。

非目的音声コヒーレンス平均計算部２２は、目的音声区間であれば、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における値ＡＶＥ＿ＣＯＨ（Ｋ−１）をそのまま適用し、一方、非目的音声区間であれば、（８）式に従って、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）を求める。なお、コヒーレンス平均値ＡＶＥ＿ＣＯＨ（Ｋ）の計算式は（７）式に限定されるものではなく、所定数のサンプル値を単純平均するなどの他の算出式を適用するようにしても良い。（８）式において、δは、０．０＜δ＜１．０の範囲内の値である。

ＡＶＥ＿ＣＯＨ（Ｋ）＝δ×ＣＯＨ（Ｋ）＋（１−δ）×ＡＶＥ＿ＣＯＨ（Ｋ−１）
…（８）
（８）式は、平均値として、現フレーム区間（動作開始時点から数えてＫ番目の分析フレーム）の入力音声に対するコヒーレンスＣＯＨ（Ｋ）と１つ前のフレーム区間で得られた平均値ＡＶＥ＿ＣＯＨ（Ｋ−１）との重み付け加算を計算しており、δの値の大小で、コヒーレンスＣＯＨ（Ｋ）の瞬時値の平均値への寄与度を調整することができる。仮に、δを０に近い小さい値に設定した場合には、瞬時値の平均値への寄与度が小さくなるので、瞬時値による変動を抑制できる。また、δが１に近い値であれば、瞬時値の寄与度が高まるので、平均値の効果を弱めることができる。このような観点に従い、δを適宜選定すれば良い。

記憶部２４は、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨの範囲と、目的音声判定閾値Θとの対応情報を記憶しているものである。例えば、図３に示すように、変換テーブル形式で記憶部２４を構成することができる。図３の例は、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨが範囲Ａ＜ＡＶＥ＿ＣＯＨ≦Ｂのときに目的音声判定閾値Θとして値Θ１が対応し、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨが範囲Ｂ＜ＡＶＥ＿ＣＯＨ≦Ｃのときに目的音声判定閾値Θとして値Θ２が対応し、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨが範囲Ｃ＜ＡＶＥ＿ＣＯＨ≦Ｄのときに目的音声判定閾値Θとして値Θ３が対応することを規定している。ここで、Θ１＜Θ２＜Θ３の関係がある。

目的音声区間判定閾値照合部２３は、非目的音声コヒーレンス平均計算部２２が得た平均値ＡＶＥ＿ＣＯＨ（Ｋ）が属する、記憶部２４における平均値ＡＶＥ＿ＣＯＨの範囲を探索し、探索された平均値ＡＶＥ＿ＣＯＨの範囲に対応付けられた目的音声判定閾値Θの値を取り出すものである。

目的音声区間判定閾値送信部２５は、目的音声区間判定閾値照合部２３が取り出した目的音声判定閾値Θの値を、現分析フレームＫで適用する目的音声判定閾値Θ（Ｋ）として目的音声区間検出部１４に送信するものである。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の音声信号処理装置１の動作を、図面を参照しながら、全体動作、目的音声区間判定閾値制御部２０における詳細動作の順に説明する。

一対のマイクｍ＿１及びｍ＿２から入力された信号ｓ１（ｎ）、ｓ２（ｎ）はそれぞれ、ＦＦＴ部１０によって時間領域から周波数領域の信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に変換された後、第１及び第２の指向性形成部１１及び１２のそれぞれによって、所定の方位に死角を有する指向性信号Ｂ１(ｆ，Ｋ)、Ｂ２（ｆ，Ｋ）が生成される。そして、コヒーレンス計算部１３において、指向性信号Ｂ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）を適用して、（６）式及び（７）式の演算が実行され、コヒーレンスＣＯＨ（Ｋ）が算出される。

目的音声区間判定閾値制御部２０において、コヒーレンスＣＯＨ（Ｋ）に基づき、そのときの非目的音声の到来方位に応じた目的音声区間の判定閾値Θ（Ｋ）が求められ、目的音声区間検出部１４に与えられる。そして、目的音声区間検出部１４において、コヒーレンスＣＯＨ（Ｋ）と目的音声区間の判定閾値Θ（Ｋ）との比較により、目的音声区間か否かが判定し、判定結果ＶＡＤ＿ＲＥＳ（Ｋ）を受けてゲイン制御部１５によってゲインＶＳ＿ＧＡＩＮが設定される。ボイススイッチゲイン乗算部１６において、入力信号ｓ１（ｎ）にゲイン制御部１５が設定したゲインＶＳ＿ＧＡＩＮが乗算され、出力信号ｙ（ｎ）が得られる。

次に、目的音声区間判定閾値制御部２０の動作を説明する。図４は、目的音声区間判定閾値制御部２０の動作を示すフローチャートである。

目的音声区間判定閾値制御部２０に入力された、コヒーレンス計算部１３が計算したコヒーレンスＣＯＨ（Ｋ）は、コヒーレンス受信部２１によって取得される（ステップＳ１５１）。取得されたコヒーレンスＣＯＨ（Ｋ）は、非目的音声コヒーレンス平均計算部２２において、固定閾値Ψと比較し、非目的音声区間か否かが判定される（ステップＳ１５２）。判定結果が目的音声区間であれば（ＣＯＨ（Ｋ）≧Ψであれば）、非目的音声コヒーレンス平均計算部２２によって、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における平均値ＡＶＥ＿ＣＯＨ（Ｋ−１）がそのまま適用される（ステップＳ１５３）。一方、非目的音声区間であれば（ＣＯＨ（Ｋ）＜Ψであれば）、上述した（８）式に従って、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）が算出される（ステップＳ１５４）。以上のようにして得られた平均値ＡＶＥ＿ＣＯＨ（Ｋ）をキーとして、目的音声区間判定閾値照合部２３によって、記憶部２４に対する探索処理が実行され、キーである平均値ＡＶＥ＿ＣＯＨ（Ｋ）が属する平均値の範囲に対応付けられた目的音声判定閾値Θの値が取り出され、目的音声区間判定閾値送信部２５によって、現分析フレームＫで適用する目的音声判定閾値Θ（Ｋ）として目的音声区間検出部１４に送信される（ステップＳ１５５）。その後、パラメータＫが１インクリメントされて（ステップＳ１５６）、コヒーレンス受信部２１による処理に戻る。

次に、以上のような処理により、最適な目的音声判定閾値Θ（Ｋ）が得られていることを説明する。

図１６に示すように、コヒーレンスＣＯＨは、到来方位に応じて値のレンジが異なるため、コヒーレンスの平均値と到来方位を対応付けることができる。このことは、コヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）が得られれば、到来方位を推定できることを意味する。また、ボイススイッチ処理は、目的音声を無処理で素通りさせ、妨害音声を減衰させる処理であるので、検出したいのは妨害音声の到来方位の方である。そのため、非目的音声コヒーレンス平均計算部２２によって、非目的音声区間を検出し、非目的音声区間におけるコヒーレンスの平均値を算出することとした。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、非目的音声（主として妨害音声）の到来方位に応じて、目的音声区間判定閾値Θを制御するようにしたので、目的音声区間及び非目的音声区間の判定精度を向上させ、所望外の区間でボイススイッチ処理を誤って稼動して音質を低下させるようなことを防止することができる。

これにより、第１の実施形態の音声信号処理装置、方法若しくはプログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。

（Ｂ）第２の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第１の実施形態では、非目的音声区間におけるコヒーレンスの平均値に基づいて記憶部から目的音声区間判定閾値Θ（Ｋ）の値を取り出すようにしている。これに対して、この第２の実施形態は、非目的音声区間におけるコヒーレンスの平均値を適用した、関数演算により、目的音声区間判定閾値Θ（Ｋ）の値を得るようにしている。

（Ｂ−１）第２の実施形態の構成
第２の実施形態に係る音声信号処理装置１Ａも、その全体構成は、第１の実施形態の説明で用いた図１で表すことができる。但し、第２の実施形態の場合、目的音声区間判定閾値制御部２０Ａの内部構成が、第１の実施形態の目的音声区間判定閾値制御部２０と異なっている。

図５は、第２の実施形態の目的音声区間判定閾値制御部２０Ａの詳細構成を示すブロック図であり、第１の実施形態に係る図２との同一、対応部分には同一符号を付して示している。

第２の実施形態の目的音声区間判定閾値制御部２０Ａは、コヒーレンス受信部２１、非目的音声コヒーレンス平均計算部２２、目的音声区間判定閾値計算部２６及び目的音声区間判定閾値送信部２５を有する。コヒーレンス受信部２１、非目的音声コヒーレンス平均計算部２２及び目的音声区間判定閾値送信部２５は、第１の実施形態のものと同様であるので、その機能説明は省略する。

目的音声区間判定閾値計算部２６は、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）を入力とした、関数演算によって目的音声区間判定閾値Θ（Ｋ）を得るものである。

目的音声区間判定閾値計算部２６が演算に適用する後述する関数は、非目的音声区間におけるコヒーレンスの平均値と、その平均値と瞬時値との差（以下、偏差と呼ぶ）の平均値との間に成り立つ関係に基づいている。図６は、この関係の説明図である。コヒーレンスは、妨害音声の到来方位が正面寄りになるほどコヒーレンス平均値が大きくなり、コヒーレンス平均値が大きくなるほど偏差が大きくなり、また、コヒーレンス平均値及び偏差はほぼ線形な関係をとる。一方、妨害音声の到来方位が正面寄りから側方に外れていくほど、コヒーレンス平均値が小さくなり、コヒーレンス平均値が小さくなるほど偏差は小さくなる。このときも、コヒーレンス平均値及び偏差はほぼ線形な関係をとる。さらに、妨害音声の到来方位が正面寄りからある一定以上側方に外れると、偏差は方位に依存せず、ほぼ一定になる。コヒーレンスの平均値と偏差のデータ対を複数取得し、そのような複数のデータ対をグラフ上にプロットすることにより、図６に示す関数を得ることができる。

目的音声区間判定閾値計算部２６は、このコヒーレンスの平均値と偏差との関係に基づいて定めた（９−１）式若しくは（９−２）式に従って、目的音声区間検出部１４が適用する閾値Θ（Ｋ）を算出する。（９−１）式は、コヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）が図６のＷ以下の場合に適用される式であり、（９−２）式は、コヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）が図６のＷより大きい場合に適用される式である。（９−１）式におけるＸは正の定数であり、（９−２）式におけるＹは正の定数であり、Ｚは任意の定数である。

Θ（Ｋ）＝ＡＶＥ＿ＣＯＨ（Ｋ）＋Ｘ …（９−１）
Θ（Ｋ）＝ＡＶＥ＿ＣＯＨ（Ｋ）＋｛Ｙ×ＡＶＥ＿ＣＯＨ（Ｋ）＋Ｚ｝
…（９−２）
（９−１）式若しくは（９−２）式の演算を行うことにより、到来方位ごとのコヒーレンス平均値の挙動に基づいた関数演算が実行され、適切な閾値Θ（Ｋ）を設定することができるようになる。

なお、（９−１）式若しくは（９−２）式は、コヒーレンス平均値ＡＶＥ＿ＣＯＨ（Ｋ）の値に、図６の特性で得られる値を加算している。加算している意味合いを説明する。非目的音声区間で得られるコヒーレンス平均値そのものを閾値とした場合、コヒーレンス瞬時値が平均値を上回ることがあり、その瞬間から目的音声区間判定に誤判定が生じ、付随して非目的音声区間コヒーレンス値の計算にも狂いが生じ始めるため、以降の入力信号に対して、目的音声区間検出部１４は誤判定を続けることになる。そのため、コヒーレンス平均値に何らかの補正をしてコヒーレンスの瞬時値を上回る状態にしなければ、音声区間判定閾値として適切な値とはならず、安定した検出精度は得られなくなる。そこで、コヒーレンス平均値に、コヒーレンス平均値と瞬時値との差分情報（差の平均値）を加算することで、上記誤動作を避けることができるようになる。

（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態の音声信号処理装置１Ａの動作を説明する。第２の実施形態の音声信号処理装置１Ａの全体動作は第1の実施形態と同様であるので、以下では、目的音声区間判定閾値制御部２０Ａにおける詳細動作のみ説明する。図７は、目的音声区間判定閾値制御部２０Ａの動作を示すフローチャートであり、第１の実施形態に係る図４との同一、対応ステップには同一符号を付して示している。

目的音声区間判定閾値制御部２０Ａに入力された、コヒーレンス計算部１３が計算したコヒーレンスＣＯＨ（Ｋ）は、コヒーレンス受信部２１によって取得される（ステップＳ１５１）。取得されたコヒーレンスＣＯＨ（Ｋ）は、非目的音声コヒーレンス平均計算部２２において、固定閾値Ψと比較し、非目的音声区間か否かが判定される（ステップＳ１５２）。判定結果が目的音声区間であれば（ＣＯＨ（Ｋ）≧Ψであれば）、非目的音声コヒーレンス平均計算部２２によって、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）として直前の分析フレームＫ−１における平均値ＡＶＥ＿ＣＯＨ（Ｋ−１）がそのまま適用される（ステップＳ１５３）。一方、非目的音声区間であれば（ＣＯＨ（Ｋ）＜Ψであれば）、上述した（８）式に従って、非目的音声区間におけるコヒーレンスの平均値ＡＶＥ＿ＣＯＨ（Ｋ）が算出される（ステップＳ１５４）。以上のようにして得られた平均値ＡＶＥ＿ＣＯＨ（Ｋ）が適用されて、目的音声区間判定閾値計算部２６によって、上述した（９−１）式若しくは（９−２）式の演算が実行されて目的音声判定閾値Θ（Ｋ）が得られ、目的音声区間判定閾値送信部２５によって目的音声区間検出部１４に送信される（ステップＳ１５７）。その後、パラメータＫが１インクリメントされて（ステップＳ１５６）、コヒーレンス受信部２１による処理に戻る。

なお、図６の関係は、コヒーレンス平均値と、コヒーレンス平均値と瞬時値との差の平均との間に成り立つものだが、コヒーレンス平均値と瞬時値との差の絶対値の平均についても同様な関係が成り立つ。よって、（９−１）式及び（９−２）式を、後者の関係に基づいて変更するようにしても良い。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によっても、非目的音声（主として妨害音声）の方位に応じて、目的音声区間判定閾値Θを制御するようにしたので、目的音声区間及び非目的音声区間の判定精度を向上させ、所望外の区間でボイススイッチ処理を誤って稼動して音質を低下させるようなことを防止することができる。

これにより、第２の実施形態の音声信号処理装置、方法若しくはプログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。

なお、第２の実施形態によれば、記憶部を用いていないので、第１の実施形態に比較して必要とするメモリ量を削減することができる。

（Ｃ）他の実施形態
上記各実施形態では、非目的音声区間のコヒーレンス平均値に基づいて、目的音声区間検出部が利用する閾値を定めるものを示したが、閾値の決定に用いるパラメータは、コヒーレンス平均値に限定されるものではない。パラメータは、ある程度の直前期間のコヒーレンスの傾向を反映できているものであれば良く、例えば、公知のピークホールド手法を適用して得たコヒーレンスのピークに基づいて閾値を設定するようにしても良い。また、コヒーレンスの分散、標準偏差などの統計量に基づいて閾値を設定するようにしても良い。

上記各実施形態と、公知の周波数減算、コヒーレンスフィルター、ウィーナーフィルターのいずれか１つ、あるいは、いずれか２つ、あるいは、全てと併用するようにしても良い。併用によりさらに高い雑音抑圧性能を実現することができる。以下、周波数減算、コヒーレンスフィルター、ウィーナーフィルターのそれぞれと、第１の実施形態とを併用する場合の構成及び動作を簡単に記載する。

図８は、周波数減算と第１の実施形態とを併用した変形実施形態の構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図８において、この変形実施形態に係る音声信号処理装置１Ｂは、第１の実施形態の構成に加えて、周波数減算部３０を備えている。周波数減算部３０は、第３の指向性形成部３１と減算部３２とＩＦＦＴ部３３とを有する。

ここで、「周波数減算」は、入力信号から非目的音声信号成分を減算することで雑音抑制を行う手法である。

第３の指向性形成部３１には、ＦＦＴ部１０から周波数領域に変換された２つの入力信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）が与えられる。第３の指向性形成部３１は、（１０）式を実行することにより、図９に示すような正面に死角を有する指向性特性に従った第３の指向性信号Ｂ３（ｆ，Ｋ）を形成し、この指向性信号Ｂ３（ｆ，Ｋ）を雑音信号として減算部３２に減算入力として与える。減算部３２には、周波数領域に変換された一方の入力信号Ｘ１（ｆ，Ｋ）が被減算入力として与えられており、減算部３２は、（１１）式に示すように、入力信号Ｘ１（ｆ，Ｋ）から第３の指向性信号Ｂ３（ｆ、Ｋ）を減算しては周波数減算処理信号Ｄ（ｆ，Ｋ）を得る。ＩＦＦＴ部３３は、周波数減算処理信号Ｄ（ｆ，Ｋ）を時間領域信号ｑ（ｎ）に変換し、ボイススイッチ乗算部１６に与える。

Ｂ３（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）−Ｘ２（ｆ，Ｋ） …（１０）
Ｄ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）−Ｂ３（ｆ，Ｋ） …（１１）
図１０は、コヒーレンスフィルターと第１の実施形態とを併用した変形実施形態の構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図１０において、この変形実施形態に係る音声信号処理装置１Ｃは、第１の実施形態の構成に加えて、コヒーレンスフィルター演算部４０を備えている。コヒーレンスフィルター演算部４０は、コヒーレンスフィルター係数乗算部４１とＩＦＦＴ部４２とを有する。

ここで、「コヒーレンスフィルター」とは、上述した（６）式で得られたｃｏｅｆ（ｆ，Ｋ）を周波数ごとに入力信号に乗算することで到来方向に偏りを有する信号成分を抑制する雑音除去技術のことである。

コヒーレンスフィルター係数乗算部４１は、（１２）式に示すように、入力信号Ｘ１（ｆ，Ｋ）にコヒーレンス計算部１３の演算の過程で得られる係数ｃｏｅｆ（ｆ，Ｋ）を乗算し、雑音抑制後信号Ｄ（ｆ，Ｋ）を得る。ＩＦＦＴ部４２は、雑音抑制後信号Ｄ（ｆ，Ｋ）を時間領域信号ｑ（ｎ）に変換し、ボイススイッチ乗算部１６に与える。

Ｄ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）×ｃｏｅｆ（ｆ，Ｋ） …（１２）
図１１は、ウィーナーフィルターと第１の実施形態とを併用した変形実施形態の構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

図１１において、この変形実施形態に係る音声信号処理装置１Ｄは、第１の実施形態の構成に加えて、ウィーナーフィルター演算部５０を備えている。ウィーナーフィルター演算部５０は、ウィーナーフィルター係数計算部５１とウィーナーフィルター係数乗算部５２とＩＦＦＴ部５３とを有する。

ここで、「ウィーナーフィルター」とは、特許文献２に記載されているように、雑音区間の信号から周波数ごとに雑音特性を推定して得た係数を乗算することで雑音を除去する技術である。

ウィーナーフィルター係数計算部５１は、目的音声区間検出部１４の検出結果を参照し、非目的音声区間であればウィーナーフィルター係数ｗｆ＿ｃｏｅｆ（ｆ，Ｋ）の推定を行う（特許文献２の「数３」の演算式参照）。一方、目的音声区間であればウィーナーフィルター係数の推定を行わない。ウィーナーフィルター係数乗算部５２は、（１３）式に示すように、入力信号Ｘ１（ｆ，Ｋ）にウィーナーフィルター係数ｗｆ＿ｃｏｅｆ（ｆ，Ｋ）を乗算して雑音抑圧後信号Ｄ（ｆ，Ｋ）を得る。ＩＦＦＴ部５３は、雑音抑圧後信号Ｄ（ｆ，Ｋ）を時間領域信号ｑ（ｎ）に変換し、ボイススイッチ乗算部１６に与える。

Ｄ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）×ｗｆ＿ｃｏｅｆ（ｆ，Ｋ） …（１３）
以上では、周波数減算処理、コヒーレンスフィルター処理若しくはウィーナーフィルター処理を施した後に、ボイススイッチ処理を施すものを示したが、この処理順序は逆であっても良い。

上記各実施形態では、非目的音声コヒーレンス平均計算部２２が、１つの閾値Ψによって、コヒーレンス平均値の２つの更新方法のいずれを適用するかを判断するものを示したが、コヒーレンス平均値の更新方法として３つ以上を用意しておき、更新方法の数に合わせて閾値が複数設けるようにしても良い。例えば、（８）式におけるδが異なる複数の更新方法を用意しておくようにしても良い。

上記各実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良く、逆に、時間領域の信号で処理していた処理を、可能ならば周波数領域の信号で処理するようにしても良い。

上記各実施形態では、一対のマイクが捕捉した信号を直ちに処理する場合を示したが、本発明の処理対象の音声信号はこれに限定されるものではない。例えば、記録媒体から読み出した一対の音声信号を処理する場合にも、本発明を適用することができ、また、対向装置から送信されてきた一対の音声信号を処理する場合にも、本発明を適用することができる。

ｍ＿１、ｍ＿２…マイク、１０…ＦＦＴ部、１１…第１指向性形成部、１２…第２の指向性形成部、１３…コヒーレンス計算部、１４…目的音声区間検出部、１５…ゲイン制御部、１６…ボイススイッチゲイン乗算部、２０…目的音声区間判定閾値制御部、２１…コヒーレンス受信部、２２…非目的音声コヒーレンス平均計算部、２３…目的音声区間判定閾値照合部、２４…記憶部、２５…目的音声区間判定閾値送信部、２６…目的音声区間判定閾値計算部。

Claims

入力音声信号から雑音成分を抑制する音声信号処理装置において、
入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、前記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、
前記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
前記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定する目的音声区間検出部と、
前記コヒーレンスに基づいて前記第１の判定閾値を制御する目的音声区間判定閾値制御部と、
前記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定するゲイン制御部と、
前記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算するボイススイッチゲイン乗算部と
を有することを特徴とする音声信号処理装置。
前記目的音声区間判定閾値制御部は、
前記コヒーレンスと固定値でなる第２の判定閾値とを比較して非目的音声区間を検出し、非目的音声区間でのみコヒーレンス平均値を更新し、目的音声区間でコヒーレンス平均値を維持する非目的音声コヒーレンス平均計算部と、
非目的音声コヒーレンス平均値と前記第１の判定閾値との対応表が格納されている記憶部と、
前記記憶部から、前記非目的音声コヒーレンス平均計算部が得た現在の非目的音声コヒーレンス平均値に対応した前記第１の判定閾値を取り出す目的音声区間判定閾値照合部と
を有することを特徴とする請求項１に記載の音声信号処理装置。
前記目的音声区間判定閾値制御部は、
前記コヒーレンスと固定値でなる第２の判定閾値とを比較して非目的音声区間を検出し、非目的音声区間でのみコヒーレンス平均値を更新し、目的音声区間でコヒーレンス平均値を維持する非目的音声コヒーレンス平均計算部と、
前記非目的音声コヒーレンス平均計算部が得た現在の非目的音声コヒーレンス平均値に対し、所定の演算を施すことにより前記第１の判定閾値を得る目的音声区間判定閾値計算部と
を有することを特徴とする請求項１に記載の音声信号処理装置。
現在の非目的音声コヒーレンス平均値をＡＶＥ＿ＣＯＨ（Ｋ）、第１の判定閾値をΘ（Ｋ）、正の３つの定数をＷ、Ｘ、Ｙ、任意の定数をＺとし、
前記目的音声区間判定閾値計算部は、ＡＶＥ＿ＣＯＨ（Ｋ）がＷ以下の場合に（Ａ）式に従い、ＡＶＥ＿ＣＯＨ（Ｋ）がＷより大きい場合に（Ｂ）式に従い、Θ（Ｋ）を求めることを特徴とする請求項３に記載の音声信号処理装置。
Θ（Ｋ）＝ＡＶＥ＿ＣＯＨ（Ｋ）＋Ｘ …（Ａ）
Θ（Ｋ）＝ＡＶＥ＿ＣＯＨ（Ｋ）＋｛Ｙ×ＡＶＥ＿ＣＯＨ（Ｋ）＋Ｚ｝ …（Ｂ）
自己への入力信号から非目的音声信号成分を減算することで雑音抑制を行う周波数減算部を、前記ボイススイッチゲイン乗算部の入力段若しくは出力段側に有することを特徴とする請求項１〜４のいずれかに記載の音声信号処理装置。
複数の係数の平均処理によりコヒーレンスを求める際の要素である周波数ごとの前記各係数を、周波数ごとに、自己への入力信号に乗算することで到来方向に偏りを有する信号成分を抑制するコヒーレンスフィルター演算部を、前記ボイススイッチゲイン乗算部の入力段若しくは出力段側に有することを特徴とする請求項１〜５のいずれかに記載の音声信号処理装置。
雑音区間の信号から周波数ごとに雑音特性を推定して得た係数を、自己への入力信号に乗算することで雑音を除去するウィーナーフィルター演算部を、前記ボイススイッチゲイン乗算部の入力段若しくは出力段側に有することを特徴とする請求項１〜６のいずれかに記載の音声信号処理装置。
入力音声信号から雑音成分を抑制する音声信号処理方法において、
第１の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成し、
第２の指向性形成部は、入力音声信号に遅延減算処理を施すことで、前記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成し、
コヒーレンス計算部は、前記第１及び第２の指向性信号を用いてコヒーレンスを計算し、
目的音声区間検出部は、前記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定し、
目的音声区間判定閾値制御部は、前記コヒーレンスに基づいて前記第１の判定閾値を制御し、
ゲイン制御部は、前記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定し、
ボイススイッチゲイン乗算部は、前記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算する
ことを特徴とする音声信号処理方法。
コンピュータを、
入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、前記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、
前記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
前記コヒーレンスと第１の判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定する目的音声区間検出部と、
前記コヒーレンスに基づいて前記第１の判定閾値を制御する目的音声区間判定閾値制御部と、
前記目的音声区間検出部の判定結果に応じて、ボイススイッチゲインを設定するゲイン制御部と、
前記ゲイン制御部で得られたボイススイッチゲインを入力音声信号に乗算するボイススイッチゲイン乗算部と
して機能させることを特徴とする音声信号処理プログラム。