JP6638248B2

JP6638248B2 - 音声判定装置、方法及びプログラム、並びに、音声信号処理装置

Info

Publication number: JP6638248B2
Application number: JP2015161954A
Authority: JP
Inventors: 克之高橋
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-08-19
Filing date: 2015-08-19
Publication date: 2020-01-29
Anticipated expiration: 2035-08-19
Also published as: JP2017040752A

Description

この発明は、音声判定装置、方法及びプログラム、並びに、音声信号処理装置に関し、例えば、電話やテレビ会議などにおける音声処理や、音声認識処理に際して、目的音以外の非目的音（例えば、妨害音声）の有無の判定に適用し得る。

近年、スマートフォンやカーナビゲーションなどの音声通話機能や音声認識機能などの様々な音声処理機能に対応する装置（以下、これらの装置を総称して「音声処理装置」と呼ぶものとする）が普及している。しかし、これらの音声処理装置が普及したことで、混雑した街中や走行中の車内など、以前よりも過酷な雑音環境下で音声処理装置が用いられるようになってきている。そのため、雑音環境下でも通話音質や音声認識性能を維持できるような、音声処理装置の需要が高まっている。

従来の音声処理装置において、目的音を抽出して取得する際には、目的音以外の非目的音を抑制する処理が行われる。

従来の非目的音を抑制する音声処理装置としては、例えば、特許文献１に記載された技術がある。

特許文献１に記載された装置では、入力音声信号に遅延減算処理を施して、第１、第２の所定方位に死角を有する第１、第２の指向性信号を形成し、これら２つの指向性信号のコヒーレンスを取得する。そして、特許文献１に記載された装置ではでは、取得したコヒーレンスと判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定し、この判定結果に応じてゲインを設定し、ゲインを入力音声信号に乗算して非目的音声を減衰する。

特開２０１３−１８２０４４号公報

ところで、通常非目的音に含まれる成分としては、例えば、背景雑音（例えば、街中での雑踏や、自動車の走行雑音など）と、妨害音声（例えば、当該音声処理装置の使用者以外の人の話し声）に大別できる。従来、背景雑音は周波数特性やパワーが定常であることを前提に、様々な有効な抑圧方法が提案されている。一方で、妨害音声は信号パワーや周波数特性が非定常であるうえに、目的音声（音声処理機能使用者の声）と同様に人間の声である。したがって、従来の音声処理装置において、妨害音声を検出しようとする場合、背景雑音のように目的音声との挙動の差異に基づいて存在の有無を判定することが困難である。このため、従来の音声処理装置で、妨害音を抑制しようとすると、妨害音の有無によらず、過度に抑圧処理を施して音質の歪が顕著になったり、抑圧不足で妨害音の残留成分によって通話音質や音声認識性能が所定の水準に達しない、といった問題が生じる。

以上のような問題に鑑みて、精度よく非目的音（例えば、妨害音声）の存在を判定することができる音声判定装置、方法及びプログラム、並びに、音声信号処理装置が望まれている。

第１の本発明の音声判定装置は、（１）複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した上記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、（２）前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、（３）前記コヒーレンス計算部が計算したコヒーレンスと、前記正面抑圧信号との関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部とを有することを特徴とする。

第２の本発明の音声判定プログラムは、コンピュータを、（１）複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した上記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、（２）前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、（３）前記コヒーレンス計算部が計算したコヒーレンスと、前記正面抑圧信号との関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部として機能させることを特徴とする。

第３の本発明は、複数のマイクから得られた入力信号に関する判定方法において、（１）正面抑圧信号生成部、コヒーレンス計算部、及び判定部を備え、（２）前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した上記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、（３）前記コヒーレンス計算部は、前記複数のマイクから得られた入力信号からコヒーレンスを計算し、（４）前記判定部は、前記コヒーレンス計算部が計算したコヒーレンスと、前記正面抑圧信号との関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定することを特徴とする。

第４の本発明は、複数のマイクから得られた入力信号の音声処理を行う音声処理装置において、第１の本発明の音声判定装置の判定結果を利用した音声処理を行うことを特徴とする。

本発明によれば、精度よく妨害音声を判定する音声判定装置及び音声信号処理装置を提供することができる。

実施形態に係る音声判定装置の機能的構成について示したブロック図である。実施形態に係るマイクの配置例について示した説明図である。実施形態に係る音声判定装置で適用される指向性信号の特性について示した図（その１）である。実施形態に係る音声判定装置で適用される指向性信号の特性について示した図（その２）である。実施形態に係る音声判定装置の動作の例について示したフローチャート（その１）である。実施形態に係る音声判定装置の動作の例について示したフローチャート（その２）である。

（Ａ）主たる実施形態
以下、本発明による音声判定装置、方法及びプログラム、並びに、音声信号処理装置、方法及びプログラムの一実施形態を、図面を参照しながら詳述する。

（Ａ−１）実施形態の構成
図１は、この実施形態の音声判定装置１の全体構成を示すブロック図である。

音声判定装置１は、一対のマイクｍ＿１、ｍ＿２のそれぞれから、図示しないＡＤ変換器を介して入力信号ｓ１（ｎ）、ｓ２（ｎ）を取得する。なお、ｎはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、ｎが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。

音声判定装置１は、マイクｍ＿１、ｍ＿２で補足される入力信号に非目的音が含まれるか否かを判定し、その判定結果を音声処理装置２に供給する。音声処理装置２は、音声判定装置１から供給される判定結果を利用して、入力信号の処理を行う。音声処理装置２が入力信号に対して行う処理内容については限定されないものである。音声処理装置２の機能や処理内容は限定されないものである。音声処理装置２は、例えば、テレビ会議システムや携帯電話端末などの通信装置や音声認識機能の前処理に、音声判定装置１から供給される判定結果を利用する。音声処理装置２は、例えば、音声判定装置１から供給される判定結果を非目的音（例えば、妨害音声）の抑制処理等に利用する。

図２は、マイクｍ＿１、ｍ＿２の配置の例について示した説明図である。

図２に示すように、この実施形態では、マイクｍ＿１、ｍ＿２は、２つのマイクｍ＿１、ｍ＿２を含む面が目的音の到来する方向（目的音の音源の方向）に対して垂直となるように配置されているものとする。また、以下では、図２に示すように、２つのマイクｍ＿１、ｍ＿２の間の位置から見て、目的音の到来方向を前方向又は正面方向と呼ぶものとする。また、以下では、図２に示すように、右方向、左方向、後方向と呼ぶ場合は、２つのマイクｍ＿１、ｍ＿２の間の位置から目的音の到来方向を見た場合の各方向を示すものとして説明する。なお、この実施形態では、目的音がマイクｍ＿１、ｍ＿２の正面方向から到来し、妨害音声を含む非目的音が左右方向（横方向）から到来するものとして説明する。

音声判定装置１は、ＦＦＴ部１０、正面抑圧信号生成部２０、コヒーレンス計算部３０、及び判定部４０を有している。

音声判定装置１は、プロセッサやメモリ等を有するコンピュータにプログラム（実施形態に係る音声判定プログラムを含むプログラム）をインストールして実現するようにしてもよいが、この場合でも、音声判定装置１は機能的には図１を用いて示すことができる。なお、音声判定装置１については一部又は全部をハードウェア的に実現するようにしてもよい。

ＦＦＴ部１０は、マイクｍ１及びマイクｍ２から入力信号系列ｓ１及びｓ２を受け取り、その入力信号ｓ１及びｓ２に高速フーリエ変換（あるいは離散フーリエ変換）を行うものである。これにより、入力信号ｓ１及びｓ２が周波数領域で表現されることになる。なお、ＦＦＴ部１０は、高速フーリエ変換を実施するにあたり、入力信号ｓ１（ｎ）及びｓ２（ｎ）から所定のＮ個（Ｎは任意の整数）のサンプルから成る、分析フレームＦＲＡＭＥ１（Ｋ）及びＦＲＡＭＥ２（Ｋ）を構成するものとする。入力信号ｓ１からＦＲＡＭＥ１を構成する例を以下の（１）式に示す。なお、以下の（１）式において、Ｋはフレームの順番を表すインデックスであり、正の整数で表現される。以下では、Ｋの値が小さいほど古い分析フレームであり、Ｋの値大きいほど新しい分析フレームであるものとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはＫであるとする。
ＦＲＡＭＥ１（１）＝｛ｓ１（１）、ｓ１（２）・・、ｓ１（i）、・・ｓ１（ｎ）｝
ＦＲＡＭＥ１（Ｋ）＝｛ｓ１（Ｎ×Ｋ＋１）、ｓ１（Ｎ×Ｋ＋２）・・、ｓ１（Ｎ×Ｋ＋ｉ）、・・ｓ１（Ｎ×Ｋ＋Ｎ）｝ …（１）

ＦＦＴ部１０は、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号ｓ１から構成した分析フレームＦＲＡＭＥ１（Ｋ）にフーリエ変換して得た周波数領域信号Ｘ１（ｆ，Ｋ）と、入力信号ｓ２から構成した分析フレームＦＲＡＭＥ２（Ｋ）をフーリエ変換して得た周波数領域信号Ｘ２（ｆ，Ｋ）とを取得する。なおｆは周波数を表すインデックスである。また（ｆ，Ｋ）は単一の値ではなく、以下の（２）式のように、複数の周波数ｆ１〜ｆｍのｍ個（ｍは任意の整数）のスペクトル成分から構成されるものであるものとする。

ＦＦＴ部１０は、周波数領域信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）を、正面抑圧信号生成部２０及びコヒーレンス計算部３０に供給する。

なお、Ｘ１（ｆ，Ｋ）は複素数であり、実部と虚部で構成される。これは、Ｘ２（ｆ，Ｋ）及び、後述する正面抑圧信号生成部２０で説明する「Ｎ（ｆ，Ｋ）」についても同様である。
Ｘ１（ｆ，Ｋ）＝｛Ｘ１（ｆ１，Ｋ）、Ｘ１（ｆ２，Ｋ）、・・Ｘ１（ｆｉ，Ｋ）・・、Ｘ１（ｆｍ，Ｋ）｝ …（２）

次に、正面抑圧信号生成部２０について説明する。

正面抑圧信号生成部２０は、ＦＦＴ部１０から供給された信号について、周波数ごとに正面方向の信号成分を抑圧する処理を行う。言い換えると、正面抑圧信号生成部２０は、正面方向の成分を抑圧する指向性フィルタとして機能する。

例えば、正面抑圧信号生成部２０は、図３に示すように、正面方向に死角を有する８の字型の双指向性のフィルタを用いて、ＦＦＴ部１０から供給された信号から正面方向の成分を抑圧する指向性フィルタを形成する。

具体的には、正面抑圧信号生成部２０は、ＦＦＴ部１０から供給された信号「Ｘ１（ｆ，Ｋ）」、「Ｘ２（ｆ，Ｋ）」に基づいて以下の（３）式のような計算を行って、周波数ごとの正面抑圧信号Ｎ（ｆ，Ｋ）を生成する。以下の（３）式の計算は、上述の図３のような、正面方向に死角を有する８の字型の双指向性のフィルタを形成する処理に相当する。
Ｎ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）−Ｘ２（ｆ，Ｋ） …（３）

そして、正面抑圧信号生成部２０は、以下の（４）式を用いて、全周波数にわたってＮ（ｆ，Ｋ）を平均した、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を算出する。

次に、コヒーレンス計算部３０の処理について説明する。

コヒーレンス計算部３０は、周波数領域信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）について、左方向（第１の方向）に強い指向性（例えば、図４（ａ）に示すような単一指向性）のフィルタで処理された信号（以下、「指向性信号Ｂ１（ｆ）」と呼ぶ）と、右方向（第２の方向）に強い指向性（例えば、図４（ｂ）に示すような単一指向性）のフィルタで処理された信号（以下、「指向性信号Ｂ２（ｆ）」と呼ぶ）とに基づくコヒーレンスＣＯＨ（Ｋ）を算出する。なお、指向性信号Ｂ１（ｆ）及び指向性信号Ｂ２（ｆ）に係る指向性の方向は正面方向以外の任意の方向（ただし、Ｂ１（ｆ）とＢ２（ｆ）とで異なる方向とする必要がある）とするようにしてもよい。

コヒーレンスＣＯＨ（Ｋ）を算出する具体的な算出処理（例えば、計算式）については限定されないものであるが、例えば、特許文献１と同様の処理（例えば、特許文献１に記載に記載された（３）式〜（７）式の計算処理）を適用することができるため、詳細については省略する。

次に、判定部４０の処理について説明する。

判定部４０は、正面以外に指向性を有する正面抑圧信号Ｎ（ｆ，Ｋ）（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））と、コヒーレンスＣＯＨ（Ｋ）を用いて、非目的音の有無を判定する。

ここでは、目的音がマイクｍ＿１、ｍ＿２の正面方向から到来し、妨害音声を含む非目的音が左右方向（横方向）から到来するものとして説明する。例えば、マイクｍ＿１、ｍ＿２を電話端末（例えば、携帯電話端末等）の受話器のマイク部分に適用した場合には、目的音としての話者（ユーザ）の音声はマイクｍ＿１、ｍ＿２の正面方向から到来し、当該電話端末の話者以外の音声は、左右方向（横方向）から到来することになる。

したがって、例えば、「妨害音声が存在せず」かつ「目的音が存在する」場合は、正面抑圧信号Ｎ（ｆ，Ｋ）の平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）は、目的音成分の大きさに比例した値となる。図２に示すように、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）（正面抑圧信号Ｎ（ｆ，Ｋ））生成時の指向性特性には、「妨害音声が存在せず」かつ「目的音が存在する」場合でも、正面方向から到来する信号成分も含まれることになるためである。ただし、図２に示すように、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）（正面抑圧信号Ｎ（ｆ，Ｋ））生成時の指向性特性には、正面方向から到来する信号成分も含まれるが、横方向のゲインと比較すると非常に小さい。また、「妨害音声が存在せず」かつ「目的音が存在する」場合の正面抑圧信号Ｎ（ｆ，Ｋ）のゲインは、妨害音声が存在する場合よりも小さくなる。

また、コヒーレンスＣＯＨ（Ｋ）は、簡単に述べれば、第１の方向（右方向）から到来する信号と第２の方向（左方向）から到来する信号の相関（特徴量）と言える。従って、コヒーレンスＣＯＨ（Ｋ）が小さい場合とは、２つの指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）の相関が小さい場合であり、反対にコヒーレンスＣＯＨ（Ｋ）が大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合は、目的音の到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。また、例えば、マイクｍ＿１、ｍ＿２を電話端末（例えば、携帯電話端末等）の受話器のマイク部分に適用した場合には、話者の音声（目的音声）は正面から到来し、妨害音声は正面以外から到来する傾向が強い。以上のようにコヒーレンスＣＯＨ（Ｋ）は、入力信号の到来方向と深い関係を持つ特徴量となる。したがって、「妨害音声が存在せず」かつ「目的音が存在する」場合には、コヒーレンスＣＯＨ（Ｋ）の値は大きくなる傾向となり、「妨害音声が存在する」場合には、コヒーレンスＣＯＨ（Ｋ）の値は小さくなる傾向となる。

以上の各値の挙動を妨害音声の有無に着目して整理すると以下のような条件で、妨害音声の有無を判断することができる。以下では、「妨害音声が存在せず」かつ「目的音が存在する」という条件（以下、「第１の条件」と呼ぶ）と、「妨害音声が存在する」という条件（以下、「第２の条件」と呼ぶ）に場合分けして、妨害音声の有無の判定方法について説明する。

第１の条件の場合（「妨害音声が存在せず」かつ「目的音が存在する」場合）には、コヒーレンスＣＯＨ（Ｋ）が比較的大きな値となり、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）は、目的音成分の大きさに比例した値となる。

一方、第２の条件の場合（「妨害音声が存在する」場合）には、コヒーレンスＣＯＨ（Ｋ）の値は小さい値となり、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）は大きな値となる傾向にある。

したがって、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）の相関係数ｃｏｒ（Ｋ）を導入すると、相関係数ｃｏｒ（Ｋ）と妨害音声の有無との関係は以下のような関係となる。

妨害音声が存在しない場合は、相関係数ｃｏｒ（Ｋ）は正の値（相関性が高いことを示す所定値以上の値）となる傾向となる。一方、妨害音声が存在する場合には、相関係数ｃｏｒ（Ｋ）は負の値（相関性が低いことを示す所定値未満の値）となる傾向となる。

すなわち、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との相関係数ｃｏｒ（Ｋ）を導入することにより、例えば、相関係数ｃｏｒ（Ｋ）の正負判断というシンプルな処理で、妨害音声の有無を判定することができる。

そこで、この実施形態の判定部４０は、まず、相関係数ｃｏｒ（Ｋ）を求め、相関係数ｃｏｒ（Ｋ）に基づいて妨害音声の有無を判定するものとする。

なお、判定部４０が、相関係数ｃｏｒ（Ｋ）を求める際の具体的な計算方法については限定されないものであるが、例えば、判定部４０は以下の（５）式を用いて相関係数ｃｏｒ（Ｋ）を求めるようにしてもよい。なお、以下の（５）式において、Ｃｏｖ［ＡＶＥ＿Ｎ（Ｋ），ＣＯＨ（Ｋ）］は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）の共分散を示している。また、以下の（５）式において、σＮ（ｆ，Ｋ）は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）の標準偏差を示している。さらに、以下の（５）式において、σＣＯＨ（Ｋ）は、コヒーレンスＣＯＨ（Ｋ）の標準偏差を示している。以下の（５）式にて相関係数ｃｏｒ（Ｋ）を求める場合には、ＡＶＥ＿Ｎ（Ｋ）及びＣＯＨ（Ｋ）についてそれぞれ直近に処理した所定数i個のフレームの結果を用いて、標準偏差や共分散を求めるようにしてもよい。具体的には、以下の（５）式にて相関係数ｃｏｒ（Ｋ）を求める過程において、例えば、直近に処理したｉ個のフレーム（Ｋ−ｉ番目のフレーム、Ｋ−（ｉ−１）番目のフレーム、…、Ｋ−１番目のフレーム、Ｋ番目のフレームの）のそれぞれに係るＣＯＨ及びＡＶＥ＿Ｎを用いて、標準偏差（σＮ（ｆ，Ｋ）、及びσＣＯＨ（Ｋ））や共分散（Ｃｏｖ［ＡＶＥ＿Ｎ（Ｋ），ＣＯＨ（Ｋ）］）を求めるようにしてもよい。言い換えると、判定部４０は、相関係数ｃｏｒ（Ｋ）を求める過程において、直近に求めたｉ個のＡＶＥ＿Ｎ及びＣＯＨをサンプルとして用いて、以下の（５）式における標準偏差や共分散を求めるようにしてもよい。

判定部４０は、例えば、相関係数ｃｏｒ（Ｋ）が閾値Ｔｈ以上だった場合、妨害音声無しを示す値（例えば、「０」）を出力し、相関係数ｃｏｒ（Ｋ）が閾値Ｔｈより小さい場合には妨害音声有りを出力するようにしてもよい。この実施形態では、上述の検討に従って閾値Ｔｈ＝０と設定するものとして説明する。したがって、判定部４０は、相関係数ｃｏｒ（Ｋ）が０より大きい場合（相関係数ｃｏｒ（Ｋ）が正の場合；ｃｏｒ（Ｋ）＞０の場合）には妨害音声無しと判定し、相関係数ｃｏｒ（Ｋ）が０未満の場合（相関係数ｃｏｒ（Ｋ）が０又は負の場合；０≧ｃｏｒ（Ｋ）の場合）には妨害音声有りと判定するものとする。

また、判定部４０は、判定結果を示す信号Ｒ（Ｋ）を出力する。信号Ｒ（Ｋ）の形式は限定されないものであるが、例えば、「妨害音声有り」を示す値（例えば、「１」）又は、「妨害音声無し」を示す値（例えば、「０」）を出力するようにしてもよい。この実施形態において、判定部４０は、音声処理装置２に信号Ｒ（Ｋ）を供給する。なお、判定部４０が信号Ｒ（Ｋ）を出力する方式や供給先については限定されないものである。

（Ａ−２）実施形態の動作
次に、以上のような構成を有するこの実施形態の音声判定装置１の動作（実施形態の判定方法）を説明する。

まず、音声判定装置１の全体の動作について図１を用いて説明する。

マイクｍ＿１、ｍ＿２のそれぞれから図示しないＡＤ変換器を介して、１フレーム分（１つの処理単位分）の入力信号ｓ１（ｎ）及びｓ２（ｎ）がＦＦＴ部１０に供給されたものとする。そして、ＦＦＴ部１０は、１フレーム分の入力信号ｓ１（ｎ）及びｓ２（ｎ）に基づく分析フレームＦＲＡＭＥ１（Ｋ）、ＦＲＡＭＥ２（Ｋ）についてフーリエ変換し、周波数領域で示される信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）を取得する。そして、ＦＦＴ部１０で生成された信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）が、正面抑圧信号生成部２０及びコヒーレンス計算部３０に供給される。

正面抑圧信号生成部２０は、供給されたＸ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、正面抑圧信号Ｎ（ｆ，Ｋ）を算出する。そして、正面抑圧信号生成部２０は、正面抑圧信号Ｎ（ｆ，Ｋ）に基づいて平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を算出し、判定部４０に供給する。

一方、コヒーレンス計算部３０は、供給されたＸ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、コヒーレンスＣＯＨ（Ｋ）を生成し、判定部４０に供給する。

判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）及びコヒーレンスＣＯＨ（Ｋ）に基づいて、相関係数ｃｏｒ（Ｋ）を算出し、算出した相関係数ｃｏｒ（Ｋ）に基づいて妨害音声の有無を判定し、その判定結果を信号Ｒ（Ｋ）として出力する。

次に、判定部４０の動作詳細について図５、図６のフローチャートを用いて説明する。

図５は、判定部４０が妨害音声の有無を判定する処理について示したフローチャートである。図６は、図５のフローチャートの一部の処理について示したフローチャートである。判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）及びコヒーレンスＣＯＨ（Ｋ）（１フレーム分のデータ）が供給されるごとに、図５、図６のフローチャートの処理により妨害音声の有無を判定し、信号Ｒ（Ｋ）を出力するものとする。

判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）及びコヒーレンスＣＯＨ（Ｋ）が供給されると（Ｓ１０１）、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）とに基づいて相関係数ｃｏｒ（Ｋ）を算出する（Ｓ１０２）。

次に、判定部４０は、算出した相関係数ｃｏｒ（Ｋ）に基づいて妨害音声の有無を判定し（Ｓ１０３）、その判定結果を示す信号Ｒ（Ｋ）を生成して出力する（Ｓ１０４）。

次に、判定部４０が上述のステップＳ１０３で行う判定処理の具体例について図６のフローチャートを用いて説明する。

判定部４０は、判定処理を開始すると、相関係数ｃｏｒ（Ｋ）の値を確認し（Ｓ２０１）、相関係数ｃｏｒ（Ｋ）の値に応じて妨害音の有無を判定する。

具体的には、判定部４０は、相関係数ｃｏｒ（Ｋ）が０より大きい場合（相関係数ｃｏｒ（Ｋ）が正の値場合；ｃｏｒ（Ｋ）＞０の場合）には「妨害音声無し」と判定し（Ｓ２０２）、相関係数ｃｏｒ（Ｋ）が０未満の場合（相関係数ｃｏｒ（Ｋ）が０又は負の値の場合；０≧ｃｏｒ（Ｋ）の場合）には「妨害音声有り」と判定する（Ｓ２０３）。

（Ａ−３）実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

この実施形態の音声判定装置１では、相関係数ｃｏｒ（Ｋ）の値に基づいて、妨害音声の有無を判定している。これにより、この実施形態の音声判定装置１では、精度よく妨害音声の有無を判定することができるので、判定結果の供給先（例えば、音声処理装置２）で、妨害音声の有無に応じて最適な音声処理を実現することができる。すなわち、音声処理装置２の音声処理（例えば、テレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理）に、この実施形態の音声判定装置１の判定結果を適用することで、音声処理装置２の性能向上（例えば、妨害音声等の非目的音の抑制性能の向上）が期待できる。

（Ｂ）他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｂ−１）上記の実施形態では、音声判定装置１と音声処理装置２とは別個の構成要素として説明したが、１つの音声処理装置（音声判定装置を含む１つの装置）として構築するようにしてもよい。

（Ｂ−２）上記の実施形態の音声判定装置１は、２つのマイクから供給される入力信号に基づいた処理を行う例について説明したが、音声判定装置１では３つ以上のマイクから供給される入力信号に基づいて判定処理を行うようにしてもよい。例えば、音声判定装置１において、３つ以上のマイクから供給される入力信号に基づき、正面方向に死角を有する正面抑圧信号Ｎ（ｆ，Ｋ）や、正面以外の所定の方向に指向性を有する指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）を取得して上記の実施形態と同様の処理を行うようにしてもよい。すなわち、音声判定装置１において、正面抑圧信号Ｎ（ｆ，Ｋ）や、指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）を取得するためのマイクの構成等は限定されないものである。

（Ｂ−３）上記の実施形態の判定部４０では、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との関係性を表す特徴量として、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との相関係数ｃｏｒ（Ｋ）を適用しているが、他の種類の値を特徴量として適用するようにしてもよい。例えば、判定部４０では、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との関係性を表す特徴量として、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との共分散を適用するようにしてもよい。

１…音声判定装置、２…音声処理装置、１０…ＦＦＴ部、２０…正面抑圧信号生成部、３０…コヒーレンス計算部、４０…妨害音判定部、ｍ＿１、ｍ＿２…マイク。

Claims

複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、
前記コヒーレンス計算部が計算したコヒーレンスと、前記正面抑圧信号との関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部と
を有することを特徴とする音声判定装置。
前記特徴量は、前記正面抑圧信号と前記コヒーレンスの相関係数であることを特徴とする請求項１に記載の音声判定装置。
前記判定部は、前記特徴量としての相関係数の正負に基づいて妨害音声の有無を判定することを特徴とする請求項２に記載の音声判定装置。
前記特徴量は、前記正面抑圧信号と前記コヒーレンスとの共分散であることを特徴とする請求項１に記載の音声判定装置。
前記判定部は、前記特徴量としての共分散の正負に基づいて妨害音声の有無を判定することを特徴とする請求項４に記載の音声判定装置。
コンピュータを、
複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、
前記コヒーレンス計算部が計算したコヒーレンスと、前記正面抑圧信号との関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部と
して機能させることを特徴とする音声判定プログラム。
複数のマイクから得られた入力信号に関する判定方法において、
正面抑圧信号生成部、コヒーレンス計算部、及び判定部を備え、
前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、
前記コヒーレンス計算部は、前記複数のマイクから得られた入力信号からコヒーレンスを計算し、
前記判定部は、前記コヒーレンス計算部が計算したコヒーレンスと、前記正面抑圧信号との関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する
ことを特徴とする音声判定方法。
複数のマイクから得られた入力信号の音声処理を行う音声処理装置において、請求項１〜５のいずれかに記載の音声判定装置の判定結果を利用した音声処理を行うことを特徴とする音声処理装置。