JP2014056112A

JP2014056112A - 音声信号処理装置、方法及びプログラム

Info

Publication number: JP2014056112A
Application number: JP2012200898A
Authority: JP
Inventors: Katsuyuki Takahashi; 克之高橋
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2012-09-12
Filing date: 2012-09-12
Publication date: 2014-03-27
Anticipated expiration: 2032-09-12
Also published as: JP5971047B2

Abstract

【課題】妨害音声の到来方位に影響を受けずに、ハングオーバー付与機能を有効に作用させる音声信号処理装置を提供する。
【解決手段】入力音声信号に遅延減算処理を施して、第１、第２の所定方位に死角を有する第１、第２の指向性信号を形成し、これらの指向性信号を用いてコヒーレンスを得る。そして、コヒーレンスと第１の閾値とを比較して、入力音声信号が目的音声区間か否かを判定する。コヒーレンスと、第１の閾値より大きい第２の閾値とを比較して、上述の判定結果が目的音声区間からそれ以外へ変化してもハングオーバー長だけ、変化前の判定結果を継続させる。非目的音声区間におけるコヒーレンスの変化傾向の切替り頻度を表す特徴量を得て、この特徴量に応じて上述したハングオーバー長を制御する。
【選択図】図１

Description

本発明は音声信号処理装置、方法及びプログラムに関し、例えば、携帯電話、テレビ会議などの、音声信号に対して目的音声区間検出などの処理を行う通信装置又は通信ソフトウェアに適用し得るものである。

音声検出とは、入力信号から目的話者が発生した発話信号の区間（以下、このような発話信号を目的音声と呼び、その区間を目的音声区間と呼ぶ）か否かを判定し、目的音声区間以外の非目的音声区間と区別する技術のことである（なお、目的音声以外を非目的音声と呼んでいる）。この音声検出結果に基づいて、後段で、音声符号化処理や雑音抑圧処理などを適宜稼動させるため、音声検出には高い精度が要求される。一般的な音声検出方法は、特許文献１に記載されているように、目的音声のレベルは変動し、非目的音声区間のレベルは定常的であることを前提として、入力された音声信号レベルの瞬時値と長期平均値とを比較し、瞬時値が長期平均値に所定の閾値以上の差をつけて上回っている区間を目的音声区間とみなす、というものである。

ところで、非目的音声は、話者以外の人間の声である「妨害音声」と、オフィスノイズや道路ノイズなどのような「背景雑音」とに分けられる。妨害音声も人間の音声なので、レベル変動は目的音声と同じような挙動を持つため、従来の手法では、妨害音声の区間も目的音声区間に含まれてしまう、という課題がある。このため、この従来手法を音声符号化処理に適用した場合、妨害音声の特性も符号化後のパラメータに反映されてしまう。また、この従来手法を雑音抑圧処理に適用した場合には、妨害音声区間の信号は除去されず、十分な抑圧性能が得られなくなる。

このような課題は、目的音声区間検出部で参照する特徴量を入力された音声信号レベルの変動から、コヒーレンスに変更することで改善される。コヒーレンスとは、簡単に述べれば、入力信号の到来方位を意味する特徴量である。携帯電話などの利用を想定した場合、話者の音声（目的音声）は正面から到来し、妨害音声は正面以外から到来する傾向が強いので、到来方位に着目することで、従来は不可能だった目的音声と妨害音声との区別が可能となる。

図９は、目的音声区間検出機能にコヒーレンスを用いる場合の構成を示すブロック図である。

一対のマイクｍ＿１、ｍ＿２のそれぞれから、図示しないＡＤ変換器を介して入力信号ｓ１（ｎ）、ｓ２（ｎ）を取得する。なお、ｎはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、ｎが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。

ＦＦＴ部１０は、マイクｍ＿１及びｍ＿２から入力信号系列ｓ１（ｎ）及びｓ２（ｎ）を受け取り、その入力信号ｓ１及びｓ２に高速フーリエ変換（あるいは離散フーリエ変換）を行うものである。これにより、入力信号ｓ１及びｓ２を周波数領域で表現することができる。なお、高速フーリエ変換を実施するにあたり、入力信号ｓ１（ｎ）及びｓ２（ｎ）から、所定のＮ個のサンプルからなる分析フレームＦＲＡＭＥ１（Ｋ）及びＦＲＡＭＥ２（Ｋ）を構成して適用する。入力信号ｓ１（ｎ）から分析フレームＦＲＡＭＥ１（Ｋ）を構成する例を以下の（１）式に示すが、分析フレームＦＲＡＭＥ２（Ｋ）も同様である。

なお、Ｋはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Ｋが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはＫであるとする。

ＦＦＴ部１０は、分析フレームごとに高速フーリエ変換処理を施すことで、周波数領域信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に変換し、得られた周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）をそれぞれ、対応する第１の指向性形成部１１、第２の指向性形成部１２に与える。なお、ｆは周波数を表すインデックスである。また、Ｘ１（ｆ，Ｋ）は単一の値ではなく、（２）式に示すように、複数の周波数ｆ１〜ｆｍのスペクトル成分から構成されるものである。Ｘ２（ｆ，Ｋ）や後述するＢ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）も同様である。

Ｘ１（ｆ，Ｋ）＝｛（ｆ１，Ｋ），（ｆ２，Ｋ），…，（ｆｍ，Ｋ）｝
…（２）
第１の指向性形成部１１では、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）から特定方向に指向性が強い信号Ｂ１（ｆ，Ｋ）を形成し、第２の指向性形成部１２では、周波数領域信号Ｘ１（ｆ，Ｋ）及びＸ２（ｆ，Ｋ）から特定方向（上述の特定方向とは異なる）に指向性が強い信号Ｂ２（ｆ，Ｋ）を形成する。特定方向に指向性が強い信号Ｂ１（ｆ，Ｋ）、Ｂ２（ｆ，Ｋ）の形成方法としては既存の方法を適用でき、例えば、（３）式を適用して右方向に指向性が強いＢ１（ｆ，Ｋ）や（４）式を適用して左方向に指向性が強いＢ２（ｆ，Ｋ）が形成できる。（３）式及び（４）式では、フレームインデックスＫは演算に関与しないので省略している。

これらの式の意味を、（３）式を例に、図１０及び図１１を用いて説明する。図１０（Ａ）に示した方向θから音波が到来し、距離ｌだけ隔てて設置されている一対のマイクｍ＿１及びｍ＿２で捕捉されたとする。このとき、音波が一対のマイクｍ＿１及びｍ＿２に到達するまでには時間差が生じる。この到達時間差τは、音の経路差をｄとすると、ｄ＝ｌ×ｓｉｎθなので、音速をｃとすると（５）式で与えられる。

τ＝ｌ×ｓｉｎθ／ｃ …（５）
ところで、入力信号ｓ１（ｎ）にτだけ遅延を与えた信号ｓ１（ｔ−τ）は、入力信号ｓ２（ｔ）と同一の信号である。従って、両者の差をとった信号ｙ（ｔ）＝ｓ２（ｔ）−ｓ１（ｔ−τ）は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーｍ＿１及びｍ＿２は図１０（Ｂ）のような指向特性を持つようになる。

なお、以上では、時間領域での演算を記したが、周波数領域で行っても同様なことがいえる。この場合の式が、上述した（３）式及び（４）式である。今、一例として、到来方位θが±９０度であることを想定する。すなわち、第１の指向性形成部１１からの指向性信号Ｂ１（ｆ）は、図１１（Ａ）に示すように右方向に強い指向性を有し、第２の指向性形成部１２からの指向性信号Ｂ２（ｆ）は、図１１（Ｂ）に示すように左方向に強い指向性を有する。

以上のようにして得られた指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）に対し、コヒーレンス計算部１３で、（６）式、（７）式のような演算を施すことでコヒーレンスＣＯＨが得られる。（６）式におけるＢ２（ｆ）^＊はＢ２（ｆ）の共役複素数である。また、フレームインデックスＫは、（６）式、（７）式の演算には関与しないので、（６）式、（７）式ではフレームインデックスＫの記載を省略している。

目的音声区間検出部１４では、図１２に示すように、コヒーレンスＣＯＨ（Ｋ）を取得すると（ステップＳ１００）、コヒーレンスＣＯＨ（Ｋ）を目的音声区間判定閾値Θと比較し（ステップＳ１０１）、コヒーレンスＣＯＨ（Ｋ）が目的音声区間判定閾値Θ以上であれば目的音声区間とみなして判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）に１．０を代入し（ステップＳ１０２）、コヒーレンスＣＯＨ（Ｋ）が目的音声区間判定閾値Θより小さければ非目的音声区間（妨害音声、背景雑音の区間）とみなして判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）には０．０を代入し（ステップＳ１０３）、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）を出力する（ステップＳ１０４）。そして、次のフレームの処理に移行する（ステップＳ１０５）。後段の音声符号化処理や雑音抑圧処理は、この結果に基づいて、目的音声区間か否かに応じた所定の処理を行う。

ここで、コヒーレンスＣＯＨの大小で目的音声区間を検出する背景を簡単に述べておく。コヒーレンスＣＯＨの概念は、右から到来する信号と左から到来する信号の相関と言い換えられる（上述した（６）式はある周波数成分についての相関を算出する式であり、（７）式は全ての周波数成分の相関値の平均を計算している）。従って、コヒーレンスＣＯＨが小さい場合とは、２つの指向性信号Ｂ１及びＢ２の相関が小さい場合であり、反対にコヒーレンスＣＯＨが大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合の入力信号は、入力到来方位が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。そのため、コヒーレンスＣＯＨが小さい区間は妨害音声区間あるいは背景雑音区間（非目的音声区間）であるといえる。一方、コヒーレンスＣＯＨの値が大きい場合は、到来方位の偏りがないため、入力信号が正面から到来する場合であるといえる。今、目的音声は正面から到来すると仮定しているので、コヒーレンスＣＯＨが大きい場合は目的音声区間といえる。

ところで、コヒーレンスは目的音声区間であっても小振幅部ではコヒーレンス値が小さいため、上記手法では正面から到来する音声であっても非目的音声区間と誤って判定することがある。

このような課題に対し、本願発明者は、先願（特願２０１２−１５１５６３）で、ハングオーバー付与部を追加し、目的音声区間である、という判定結果を一定時間だけ保持させることを提案している。

図１３が、ハングオーバー付与部を追加した構成を示し、図１４が、図１３における目的音声区間検出・ハングオーバー付与部１５の動作を示している。

図１３の構成において、図９の構成とは、目的音声区間検出部１４に代えて目的音声区間検出・ハングオーバー付与部１５が設けられている点が異なっている。

目的音声区間検出・ハングオーバー付与部１５は、コヒーレンスＣＯＨ（Ｋ）を受信すると（ステップＳ１００）、コヒーレンスＣＯＨ（Ｋ）とハングオーバーカウンタ初期化閾値Ψと比較する（ステップＳ２００）。そして、コヒーレンスＣＯＨ（Ｋ）が閾値Ψ以上であると、目的音声区間であると判定し、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）に１．０を、ハングオーバーカウンタｃｏｕｎｔｅｒにはカウンタ初期値ＬＥＮＧＴＨを代入する（ステップＳ２０１）。一方、コヒーレンスＣＯＨ（Ｋ）が閾値Ψより小さいと、目的音声区間検出・ハングオーバー付与部１５は、コヒーレンスＣＯＨ（Ｋ）と目的音声区間判定閾値Φ（但しΨ＞Φ）と比較する（ステップＳ２０２）。そして、コヒーレンスＣＯＨ（Ｋ）が閾値Φ以上であると、ハングオーバーカウンタｃｏｕｎｔｅｒを操作することなく、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）に１．０を代入することだけを行う（ステップＳ２０３）。コヒーレンスＣＯＨ（Ｋ）が閾値Φより小さいと、ハングオーバーカウンタｃｏｕｎｔｅｒが正か否かを判定する（ステップＳ２０４）。そして、ハングオーバーカウンタｃｏｕｎｔｅｒが正であればコヒーレンスＣＯＨ（Ｋ）は小さくても目的音声区間と判定し、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）に１．０を代入すると共に、ハングオーバーカウンタｃｏｕｎｔｅｒを１デクリメントする。一方、コヒーレンスＣＯＨ（Ｋ）が閾値Φより小さい上に、ハングオーバーカウンタｃｏｕｎｔｅｒが０以下であれば、非目的音声区間と判定し、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）に０．０を代入する（ステップＳ２０６）。その後、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）を後段に出力し（ステップＳ１０４）、次のフレームの処理に移行する（ステップＳ１０５）。

特開平７−１８１９９１

ところで、図１５に示すように、目的音声の到来方位が正面寄りならばコヒーレンスＣＯＨ（Ｋ）は全体的に大きい値となるが、側方にずれていくにつれてコヒーレンスＣＯＨ（Ｋ）は小さい値になる。そのため、妨害音声の到来方位が側方の場合には、コヒーレンスＣＯＨ（Ｋ）が閾値Φを下回ることが多くなり、ハングオーバーカウンタｃｏｕｎｔｅｒが何度もデクリメントされて、急速に負の値となり、目的音声区間の途中でハングオーバー効果が得られなくなってしまう。逆に、妨害音声が正面寄りから到来する場合にはコヒーレンスＣＯＨ（Ｋ）は閾値Φを上回ることが多いため、ハングオーバーカウンタｃｏｕｎｔｅｒのデクリメントは進まず、目的音声区間が終了した後までハングオーバー効果が働いてしまうので、非目的音声区間を目的音声区間と誤って判定し続けてしまう。

そのため、妨害音声の到来方位に影響を受けずに、ハングオーバー付与機能を有効に働かすことができる音声信号処理装置、方法及びプログラムが望まれている。

第１の本発明は、入力音声信号から目的音声の区間と非目的音声の区間とを切り分ける音声信号処理装置において、（１）入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、（２）入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、（３）上記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、（４）上記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、上記コヒーレンスと、上記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、上記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、ハングオーバー長だけ、目的音声区間という判定結果を継続させる目的音声区間検出・ハングオーバー付与部と、（５）非目的音声区間におけるコヒーレンスの変化傾向の切替り頻度を表す特徴量を得て、得られた特徴量に応じて、上記目的音声区間検出・ハングオーバー付与部が適用する上記ハングオーバー長を制御するハングオーバー長制御部とを備えることを特徴とする。

第２の本発明は、入力音声信号から目的音声の区間と非目的音声の区間とを切り分ける音声信号処理方法において、（１）第１の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成し、（２）第２の指向性形成部は、入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成し、（３）コヒーレンス計算部は、上記第１及び第２の指向性信号を用いてコヒーレンスを得、（４）目的音声区間検出・ハングオーバー付与部は、上記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、上記コヒーレンスと、上記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、上記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、ハングオーバー長だけ、目的音声区間という判定結果を継続させ、（５）ハングオーバー長制御部は、非目的音声区間におけるコヒーレンスの変化傾向の切替り頻度を表す特徴量を得て、得られた特徴量に応じて、上記目的音声区間検出・ハングオーバー付与部が適用する上記ハングオーバー長を制御することを特徴とする。

第３の本発明の音声信号処理プログラムは、コンピュータを、（１）入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、（２）入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、（３）上記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、（４）上記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、上記コヒーレンスと、上記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、上記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、ハングオーバー長だけ、目的音声区間という判定結果を継続させる目的音声区間検出・ハングオーバー付与部と、（５）非目的音声区間におけるコヒーレンスの変化傾向の切替り頻度を表す特徴量を得て、得られた特徴量に応じて、上記目的音声区間検出・ハングオーバー付与部が適用する上記ハングオーバー長を制御するハングオーバー長制御部として機能させることを特徴とする。

本発明の音声信号処理装置、方法及びプログラムによれば、妨害音声の到来方位に影響を受けずに、ハングオーバー付与機能を有効に働かすことができるようになる。

第１の実施形態に係る音声信号処理装置の構成を示すブロック図である。図１のハングオーバー長制御部の詳細構成を示すブロック図である。図２の記憶部の構成例を示す説明図である。図１のハングオーバー長制御部の動作を示すフローチャートである。第２の実施形態に係る音声信号処理装置の構成を示すブロック図である。第２の実施形態の音声信号処理装置におけるハングオーバーカウンタ初期化閾値制御部の内部構成を示すブロック図である。図５の初期化閾値記憶部の構成例を示す説明図である。第２の実施形態の音声信号処理装置におけるハングオーバーカウンタ初期化閾値制御部の動作を示すフローチャートである。目的音声検出機能にコヒーレンスを用いる場合の構成を示すブロック図である。図９の指向性形成部からの指向性信号の性質を示す説明図である。図９の２つの指向性形成部による指向性の特性を示す説明図である。図９の目的音声区間検出部の処理を示すフローチャートである。図９の構成にハングオーバー付与部を追加した構成を示すブロック図である。図１３の目的音声区間検出・ハングオーバー付与部の動作を示すフローチャートである。妨害音声の到来方位とコヒーレンスの大小との関係を示す説明図である。

（Ａ）第１の実施形態
以下、本発明による音声信号処理装置、方法及びプログラムの第１の実施形態を、図面を参照しながら説明する。

第１の実施形態の音声信号処理装置、方法及びプログラムは、妨害音声の到来方位に応じてハングオーバー長を適切に制御して過不足のないハングオーバー効果を得ようとしたものである。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した図１３との同一、対応部分には同一符号を付して示している。ここで、一対のマイクｍ＿１及びｍ＿２を除いた部分は、ＣＰＵが実行するソフトウェア（音声信号処理プログラム）として実現することも可能であるが、機能的には、図１で表すことができる。

図１において、第１の実施形態の音声信号処理装置１は、先願構成と同様なマイクｍ＿１、ｍ＿２、ＦＦＴ部１０、第１指向性形成部１１、第２の指向性形成部１２、コヒーレンス計算部１３及び目的音声区間検出・ハングオーバー付与部１５に加え、ハングオーバー長制御部１６を有する。

ここで、マイクｍ＿１、ｍ＿２、ＦＦＴ部１０、第１指向性形成部１１、第２の指向性形成部１２、コヒーレンス計算部１３及び目的音声区間検出・ハングオーバー付与部１５は、先願構成と同様な機能を担っているので、その機能説明は省略する。

ハングオーバー長制御部１６は、上述した課題を解決するために設けられたものであり、コヒーレンスＣＯＨ（Ｋ）から得る特徴量に基づき、妨害音声の到来方位に応じて適切なハングオーバー長ＬＥＮＧＴＨを設定できるようにしたものである。ハングオーバー長制御部１６は、コヒーレンスＣＯＨ（Ｋ）と、目的音声区間判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）とに基づき、非目的音声区間での到来方位を推定し、ハングオーバー長ＬＥＮＧＴＨを設定する。

なお、第１の実施形態の目的音声区間検出・ハングオーバー付与部１５は、ハングオーバー長制御部１６によって設定されたハングオーバー長ＬＥＮＧＴＨを適用してハングオーバーの付与動作を行う。

図２は、ハングオーバー長制御部１６の詳細構成を示すブロック図である。図２において、ハングオーバー長制御部１６は、コヒーレンス・音声区間検出結果受信部２１、特徴量計算制御部２２、ハングオーバー長照合制御部２３、非目的音声区間特徴量計算部２４、ハングオーバー長照合部２５、記憶部２６及びハングオーバー長送信部２７を有する。

コヒーレンス・音声区間検出結果受信部２１は、コヒーレンス計算部からコヒーレンスＣＯＨ（Ｋ）を、目的音声区間検出・ハングオーバー付与部１５から判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）を受信するものである。

特徴量計算制御部２２は、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）を参照して非目的音声区間か否かを認識し、ハングオーバー長照合制御部２３、非目的音声区間特徴量計算部２４及びハングオーバー長照合部２５を動作させ、若しくは、動作させないものである。

非目的音声区間特徴量計算部２４は、現フレームでのコヒーレンスＣＯＨ（Ｋ）と直前フレームにおけるＣＯＨ（Ｋ−１）との差ＤＩＦＦ（Ｋ）を計算し（差ＤＩＦＦ（Ｋ）を時刻の相違１で除算したと見た場合には、微分係数と表現することもできる）、この差ＤＩＦＦ（Ｋ）と直前区間の微分係数ＤＩＦＦ（Ｋ−１）の積を計算し、積が負の値ならば（コヒーレンスの変化傾向が増加から減少、又は、減少から増加に変わったことを意味している）、微分係数の正負の反転回数を表す変数（以下、ゼロクロス値と呼ぶ）ｚｅｒｏ＿ｃｒｏｓｓを増加させ、積が正の値ならば、ゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓは更新せずにそのままの値とするものである。

ハングオーバー長照合制御部２３は、照合周期を検出するカウンター変数ｔｉｍｅｒを増加させ、所定値ＬＩＭＩＴに達すると、ハングオーバー長照合部２５による照合を実行させるものである。

記憶部２５は、図３に示すように、ゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓの範囲に対応付けてハングオーバー長ＬＥＮＧＴＨを記憶しているものである。図３の例では、ゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓがＡ以上Ｂ未満のときは、ハングオーバー長ＬＥＮＧＴＨとしてαが対応付けられ、ゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓがＢ以上Ｃ未満のときは、ハングオーバー長ＬＥＮＧＴＨとしてβ（＞α）が対応付けられ、ゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓがＣ以上Ｄ未満のときは、ハングオーバー長ＬＥＮＧＴＨとしてγ（＞β）が対応付けられている。このような関係にすることで、微分係数のゼロクロス回数が多い（側方から妨害音が到来する）場合には、ハングオーバー長ＬＥＮＧＴＨを長くし、微分係数のゼロクロス回数が少ない（正面寄りから妨害音が到来する）場合には、ハングオーバー長ＬＥＮＧＴＨを短くできる。

ハングオーバー長照合部２５は、ハングオーバー長照合制御部２３の制御下で、非目的音声区間特徴量計算部２４が得たゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓをキーとして記憶部２６を照合し、ハングオーバー長ＬＥＮＧＴＨを得るものである。

ハングオーバー長送信部２７は、ハングオーバー長照合部２５が得たハングオーバー長ＬＥＮＧＴＨを目的音声区間検出・ハングオーバー付与部１６に与えるものである。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の音声信号処理装置１の動作を、図面を参照しながら、全体動作、ハングオーバー長制御部１６における詳細動作の順に説明する。

一対のマイクｍ＿１及びｍ＿２から入力された信号ｓ１（ｎ）、ｓ２（ｎ）はそれぞれ、ＦＦＴ部１０によって時間領域から周波数領域の信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に変換された後、第１及び第２の指向性形成部１１及び１２のそれぞれによって、所定の方位に死角を有する指向性信号Ｂ１(ｆ，Ｋ)、Ｂ２（ｆ，Ｋ）が生成される。そして、コヒーレンス計算部１３において、指向性信号Ｂ１（ｆ，Ｋ）及びＢ２（ｆ，Ｋ）を適用して、（６）式及び（７）式の演算が実行され、コヒーレンスＣＯＨ（Ｋ）が算出される。

ハングオーバー長制御部１６において、後述する方法でハングオーバー長ＬＥＮＧＴＨが決定して目的音声区間検出・ハングオーバー付与部１５に与えられる。目的音声区間検出・ハングオーバー付与部１５においては、コヒーレンスＣＯＨ（Ｋ）に基づいて目的音声区間か非目的音声区間かが判定され、目的音声区間であるという判定結果は、ハングオーバー長制御部１６から与えられたハングオーバー長ＬＥＮＧＴＨだけ保持され、そのようにして形成された判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）が後段に出力される。

次に、ハングオーバー長制御部１６の動作を説明する。図４は、ハングオーバー長制御部１６の動作を示すフローチャートである。

ハングオーバー長制御部１６においては、非目的音声区間でのコヒーレンスＣＯＨ（Ｋ）の微分係数の正負の変動（以下、「ゼロクロス」と呼ぶ）に基づいて到来方位を推定し、ハングオーバー長ＬＥＮＧＴＨを設定する。

ハングオーバー長制御部１６の動作説明に先立ち、ハングオーバー長制御部１６を設けた意味合いを説明する。上述したように、コヒーレンスは到来方位に応じて相関の強さが変わり、正面寄りでは相関が安定的に強く、コヒーレンスの変動は相対的にはなだらかである。一方、到来方位が横に逸れると相関は弱くなり、コヒーレンスの変動もランダムで激しい。妨害音声の到来方位が正面寄りの場合には、微分係数の変動も穏やかで、正負の変動が少ないのでゼロクロスの回数は少なく、一方、到来方位が横にずれると微分係数の正負の変化が頻繁でゼロクロスの回数は多くなる。以上の挙動に基づけば、到来方位に応じてハングオーバー長を制御できる。

図４において、新しいフレームの処理に進むと、まず、コヒーレンス計算部１３からコヒーレンスＣＯＨ（Ｋ）を、目的音声区間検出・ハングオーバー付与部１５から判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）を受け取る（ステップＳ３００）。そして、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）が非目的音声区間を表している値か否かを判定する（ステップＳ３０１）。

判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）が目的音声区間を表している値の場合には、照合周期を規定するカウンター変数ｔｉｍｅｒ及び微分係数ＤＩＦＦを初期化し（ステップＳ３０２）、フレームを規定する変数Ｋを１インクリメントし（ステップＳ３０３）、次のフレームの処理に移行する。

これに対して、受け取った判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）が非目的音声区間を表している値の場合には、現フレームでのコヒーレンスＣＯＨ（Ｋ）と直前フレームにおけるＣＯＨ（Ｋ−１）との差ＤＩＦＦ（Ｋ）を計算し（ステップＳ３０４）、次に、この差ＤＩＦＦ（Ｋ）と直前区間の微分係数ＤＩＦＦ（Ｋ−１）の積を計算して積が正か負かを判定する（ステップＳ３０５）。積が負の値ならば、ゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓを１だけ増加させ（ステップＳ３０６）、積が正の値ならばゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓは更新せず、そのままの値とする（ステップＳ３０７）。

また、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）が目的音声区間を表している値の場合には、照合周期を検出するカウンター変数ｔｉｍｅｒを増加させ（ステップＳ３０８）、所定値ＬＩＭＩＴに達したか否かを判定する（ステップＳ３０９）。増加後のカウンター変数ｔｉｍｅｒが所定値ＬＩＭＩＴに到達していない場合には、フレームを規定する変数Ｋを１インクリメントし（ステップＳ３０３）、次のフレームの処理に移行する。

仮に、カウンター変数ｔｉｍｅｒを１フレームにつき１だけ増加させ、所定値ＬＩＭＩＴを２０と設定した場合には、２０フレーム毎に、所定値ＬＩＭＩＴに到達することになり、後述するハングオーバー長の照合動作が実行される。

増加後のカウンター変数ｔｉｍｅｒが所定値ＬＩＭＩＴに到達すると、記憶部２６の記憶内容と照合され、その時点でのゼロクロス値ｚｅｒｏ＿ｃｒｏｓｓと対応するハングオーバー長ＬＥＮＧＴＨが取得されて目的音声区間検出・ハングオーバー付与部１５に与えられ、また、カウンター変数ｔｉｍｅｒが初期化される（ステップＳ３１０）。その後、フレームを規定する変数Ｋを１インクリメントし（ステップＳ３０３）、次のフレームの処理に移行する。

（Ａ−３）実施形態の効果
以上のように、第１の実施形態によれば、妨害音声の到来方位に応じて、ハングオーバー長を適切な値に設定するので、過不足のないハングオーバー効果を奏することができる。

これにより、第１の実施形態の音声信号処理装置を、テレビ会議システムや携帯電話などの通信装置に適用することで、通話音質の向上が期待できる。

（Ｂ）第２の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第２の実施形態を、図面を参照しながら説明する。

第２の実施形態は、第１の実施形態が解消した不都合に加え、以下の不都合を解消しようとしたものである。

背景雑音が重畳されると、目的音声区間でのコヒーレンスは極大値が小さくなり、極小値が大きくなる、という挙動をする。極大値が小さくなるのは、音声信号よりも波形の規則性が低い背景雑音の影響も反映されてコヒーレンス値が算出されてしまうためである。また、極小値が大きくなるのは、背景雑音は規則性が低いとはいえ無音の場合よりは規則性が出るためである。

このため、背景雑音によっては、コヒーレンスＣＯＨ（Ｋ）がハングオーバーカウンタ初期化閾値Ψを上回る頻度が下がり、十分にハングオーバーが付与きれなくなってしまい、目的音声区間判定に誤判定が生じる。

第２の実施形態は、このような不都合を解消するために、背景雑音重畳時には、目的音声区間におけるコヒーレンスＣＯＨ（Ｋ）のばらつきが小さくなるという特徴を用いて、ハングオーバーカウンタ初期化閾値Ψを目的音声区間のコヒーレンスＣＯＨ（Ｋ）のばらつきに応じて適応的に制御することとした。第２の実施形態では、コヒーレンスＣＯＨ（Ｋ）のばらつきを表す指標として分散を用いている。

（Ｂ−１）第２の実施形態の構成
図５は、第２の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した第１の実施形態に係る図１との同一、対応部分には同一符号を付して示している。

図５において、第２の実施形態に係る音声信号処理装置１Ａは、第１の実施形態と同様な構成に加え、ハングオーバーカウンタ初期化閾値制御部１７を有する。第１の実施形態と同様な構成の機能説明は省略する。

ハングオーバーカウンタ初期化閾値制御部１７は、コヒーレンスＣＯＨ（Ｋ）と、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）とに基づき、目的音声区間におけるコヒーレンスの分散を算出し、算出した分散に基づいて、ハングオーバーカウンタ初期化閾値Ψを定めて目的音声区間検出・ハングオーバー付与部１５に設定するものである。

上述したように、背景雑音が重畳されると、目的音声区間におけるコヒーレンスの極大値は小さくなり、極小値は大きくなることから、目的音声区間ではコヒーレンスの分散が小さくなるといえる。従って、目的音声区間におけるコヒーレンスの分散が大きければ背景雑音は重畳されておらず、反対に分散が小さければ背景雑音が重畳されている、という判定が可能となる。従って、目的音声区間におけるコヒーレンスの分散の値に応じて、ハングオーバーカウンタ初期化閾値Ψを制御すれば、背景雑音重畳時の目的音声区間の誤判定を改善することができる。

図６は、ハングオーバーカウンタ初期化閾値制御部１７の内部構成を示すブロック図である。

図６において、ハングオーバーカウンタ初期化閾値制御部１７は、コヒーレンス・判定結果受信部３１、閾値更新制御部３２、分散計算部３３、ハングオーバーカウンタ初期化閾値照合部３４、初期化閾値記憶部３５及びハングオーバーカウンタ初期化閾値送信部３６を有する。

コヒーレンス・判定結果受信部３１は、コヒーレンス計算部１３からコヒーレンスＣＯＨ（Ｋ）を目的音声区間検出・ハングオーバー付与部１５から判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）を受け取るものである。

閾値更新制御部３２は、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）を参照して目的音声区間か否かを判定し、目的音声区間でのみ、分散計算部３３、ハングオーバーカウンタ初期化閾値照合部３４及び初期化閾値記憶部３５を有効に機能させるものである。閾値更新制御部３２は、非目的音声区間では、直前のハングオーバーカウンタ初期化閾値を維持させるものである。

分散計算部３３は、目的音声区間におけるコヒーレンスの分散ｖａｒｉａｎｃｅ（Ｋ）を計算するものである。ここで、最古サンプルまでの時間差は変動することがあるが所定サンプル数のコヒーレンスを用いて分散を計算するようにしても良く、また、サンプル数は変動することがあるが所定期間内のサンプルを用いて分散を計算するようにしても良い。

初期化閾値記憶部３５は、コヒーレンスの分散ｖａｒｉａｎｃｅの範囲と、ハングオーバーカウンタ初期化閾値Ψの値とを対応付けて記憶しているものである。図７は、初期化閾値記憶部３５の構成例を示す説明図である。分散ｖａｒｉａｎｃｅがＰ以上Ｑ未満の範囲は、ハングオーバーカウンタ初期化閾値Ψの値としてδが対応付けられ、分散ｖａｒｉａｎｃｅがＱ以上Ｒ未満の範囲は、ハングオーバーカウンタ初期化閾値Ψの値としてε（＞δ）が対応付けられ、分散ｖａｒｉａｎｃｅがＲ以上Ｓ未満の範囲は、ハングオーバーカウンタ初期化閾値Ψの値としてζ（＞ε）が対応付けられている。

以上のような大小関係にすることにより、分散が小さい（背景雑音が重畳されている）場合には、ハングオーバーカウンタ初期化閾値Ψを小さくすることができ、目的音声区間中でのハングオーバー効果が損なわれることを防止できる。

ハングオーバーカウンタ初期化閾値照合部３４は、分散計算部３３が計算したコヒーレンスの分散ｖａｒｉａｎｃｅ（Ｋ）をキーとして、初期化閾値記憶部３５を照合し、その分散ｖａｒｉａｎｃｅ（Ｋ）の値が属する範囲に対応付けられているハングオーバーカウンタ初期化閾値Ψの値を取り出すものである。

ハングオーバーカウンタ初期化閾値送信部３６は、ハングオーバーカウンタ初期化閾値照合部３４が得たハングオーバーカウンタ初期化閾値Ψの値、若しくは、直前（Ｋ−１）フレームのハングオーバーカウンタ初期化閾値Ψの値を、目的音声区間検出・ハングオーバー付与部１５に送信するものである。

第２の実施形態の目的音声区間検出・ハングオーバー付与部１５は、ハングオーバーカウンタ初期化閾値制御部１７からのハングオーバーカウンタ初期化閾値Ψ（Ｋ）を適用して、ハングオーバー付与機能を実行するものである。

（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態の音声信号処理装置１Ａにおけるハングオーバーカウンタ初期化閾値照合部３４の詳細動作を説明する。図８は、ハングオーバーカウンタ初期化閾値制御部１７の動作を示すフローチャートである。

コヒーレンス計算部１３からのコヒーレンスＣＯＨ（Ｋ）及び目的音声区間検出・ハングオーバー付与部１５からの判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）がコヒーレンス・判定結果受信部３１によって受信される（ステップＳ４００）。そして、閾値更新制御部３２によって、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）が参照されて、目的音声区間か否かが判定される（ステップＳ４０１）。この判定は、言い換えると、ハングオーバーカウンタ初期化閾値Ψを見直す目的音声区間か、直前のハングオーバーカウンタ初期化閾値Ψを継続（流用）する非目的音声区間かの判定になっている。

判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）が目的音声区間であることを表す値になっていると、分散計算部３３によって、入力されたコヒーレンスＣＯＨ（Ｋ）も利用されて、目的音声区間におけるコヒーレンスの分散ｖａｒｉａｎｃｅ（Ｋ）が計算される（ステップＳ４０２）。そして、ハングオーバーカウンタ初期化閾値照合部３４によって、初期化閾値記憶部３５から、算出された分散ｖａｒｉａｎｃｅ（Ｋ）に応じたハングオーバーカウンタ初期化閾値Ψ（Ｋ）が得られる（ステップＳ４０３）。

一方、判定結果変数ＶＡＤ＿ＲＥＳ（Ｋ）が目的音声区間であることを表す値になっていると、閾値更新制御部２２によって、直前に適用していたが、今回のフレームのハングオーバーカウンタ初期化閾値Ψ（Ｋ）として設定される（ステップＳ４０４）。

以上のようにして、パラメータＫで定まる現フレームについてのハングオーバーカウンタ初期化閾値Ψ（Ｋ）が得られると、ハングオーバーカウンタ初期化閾値送信部３６によって、目的音声区間検出・ハングオーバー付与部１５に送信され（ステップＳ４０５）、その後、次のフレームの処理に移行する（ステップＳ４０６）。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態と同様な効果に加え、以下のような効果を奏することができる。

第２の実施形態によれば、目的音声に対する背景雑音の重畳に応じて、ハングオーバーカウンタ初期化閾値を適切な値に設定できるので、過不足のないハングオーバー効果を得られるようになる。

すなわち、第２の実施形態によれば、妨害音声の到来方位に関係なく、かつ、目的音声に対する背景雑音の重畳度合いに関係なく、過不足のないハングオーバー効果を奏することができる。

（Ｃ）他の実施形態
上記第１の実施形態では、非目的音声区間におけるコヒーレンスの瞬時値の微分係数のゼロクロスに基づいて、ハングオーバー長を設定したものを示したが、２次微分係数など、コヒーレンスの変化の頻度を表す他の特徴量に基づいてハングオーバー長を設定するようにしても良い。

上記第１の実施形態では、テーブル構成の記憶部を利用して、ゼロクロス値に対応するハングオーバー長を取得するものを示したが、ゼロクロス値から対応するハングオーバー長を取得する方法は、変換テーブルを利用する方法に限定されず、例えば、変換関数を利用する方法であっても良い。

上記各実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良く、逆に、時間領域の信号で処理していた処理を、可能ならば周波数領域の信号で処理するようにしても良い。

上記各実施形態では、一対のマイクが捕捉した信号を直ちに処理する場合を示したが、本発明の処理対象の音声信号はこれに限定されるものではない。例えば、記録媒体から読み出した一対の音声信号を処理する場合にも、本発明を適用することができ、また、対向装置から送信されてきた一対の音声信号を処理する場合にも、本発明を適用することができる。

１…音声信号処理装置、ｍ＿１、ｍ＿２…マイク、１０…ＦＦＴ部、１１…第１指向性形成部、１２…第２の指向性形成部、１３…コヒーレンス計算部、１５…目的音声区間検出・ハングオーバー付与部、１６…ハングオーバー長制御部、１７…ハングオーバーカウンタ初期化閾値制御部、２１…コヒーレンス・音声区間検出結果受信部、２２…特徴量計算制御部、２３…ハングオーバー長照合制御部、２４…非目的音声区間特徴量計算部、２５…ハングオーバー長照合部、２６…記憶部、２７…ハングオーバー長送信部、３１…コヒーレンス・判定結果受信部、３２…閾値更新制御部、３３…分散計算部、３４…ハングオーバーカウンタ初期化閾値照合部、３５…初期化閾値記憶部、３６…ハングオーバーカウンタ初期化閾値送信部。

Claims

入力音声信号から目的音声の区間と非目的音声の区間とを切り分ける音声信号処理装置において、
入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、
上記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
上記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、上記コヒーレンスと、上記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、上記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、ハングオーバー長だけ、目的音声区間という判定結果を継続させる目的音声区間検出・ハングオーバー付与部と、
非目的音声区間におけるコヒーレンスの変化傾向の切替り頻度を表す特徴量を得て、得られた特徴量に応じて、上記目的音声区間検出・ハングオーバー付与部が適用する上記ハングオーバー長を制御するハングオーバー長制御部と
を備えることを特徴とする音声信号処理装置。
上記ハングオーバー長制御部は、入力音声信号の所定期間毎のフレーム単位に処理するものであり、非目的音声区間で、現フレームと直前フレームのコヒーレンス値の差を取ることでコヒーレンスの微分係数を算出し、この微分係数と直前フレームにおける微分係数との積の正負判定し、負の場合には、微分係数の正負の変動回数を計測するカウンター変数を増加させ、積が正の場合には、上記カウンター変数を維持させる、という方法で得たカウンター変数を、上記特徴量として適用することを特徴とする請求項１に記載の音声信号処理装置。
入力音声信号から目的音声の区間と非目的音声の区間とを切り分ける音声信号処理方法において、
第１の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成し、
第２の指向性形成部は、入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成し、
コヒーレンス計算部は、上記第１及び第２の指向性信号を用いてコヒーレンスを得、
目的音声区間検出・ハングオーバー付与部は、上記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、上記コヒーレンスと、上記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、上記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、ハングオーバー長だけ、目的音声区間という判定結果を継続させ、
ハングオーバー長制御部は、非目的音声区間におけるコヒーレンスの変化傾向の切替り頻度を表す特徴量を得て、得られた特徴量に応じて、上記目的音声区間検出・ハングオーバー付与部が適用する上記ハングオーバー長を制御する
ことを特徴とする音声信号処理方法。
コンピュータを、
入力音声信号に遅延減算処理を施すことで、第１の所定方位に死角を有する指向性特性を付与した第１の指向性信号を形成する第１の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、上記第１の所定方位とは異なる第２の所定方位に死角を有する指向性特性を付与した第２の指向性信号を形成する第２の指向性形成部と、
上記第１及び第２の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
上記コヒーレンスと目的音声区間判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定すると共に、上記コヒーレンスと、上記目的音声区間判定閾値より大きいハングオーバー付与閾値とを比較して、上記目的音声区間判定閾値を用いた比較による判定結果が目的音声区間から非目的音声区間へ変化しても、ハングオーバー長だけ、目的音声区間という判定結果を継続させる目的音声区間検出・ハングオーバー付与部と、
非目的音声区間におけるコヒーレンスの変化傾向の切替り頻度を表す特徴量を得て、得られた特徴量に応じて、上記目的音声区間検出・ハングオーバー付与部が適用する上記ハングオーバー長を制御するハングオーバー長制御部と
して機能させることを特徴とする音声信号処理プログラム。