JP6631127B2

JP6631127B2 - 音声判定装置、方法及びプログラム、並びに、音声処理装置

Info

Publication number: JP6631127B2
Application number: JP2015189919A
Authority: JP
Inventors: 克之高橋
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2020-01-15
Anticipated expiration: 2035-09-28
Also published as: JP2017067844A

Description

この発明は、音声判定装置、方法及びプログラム、並びに、音声処理装置に関し、例えば、電話やテレビ会議などにおける音声処理や、音声認識処理に際して、目的音以外の非目的音（例えば、妨害音声）の有無の判定に適用し得る。

近年、スマートフォンやカーナビゲーションなどの音声通話機能や音声認識機能などの様々な音声処理機能に対応する装置（以下、これらの装置を総称して「音声処理装置」と呼ぶものとする）が普及している。しかし、これらの音声処理装置が普及したことで、混雑した街中や走行中の車内など、以前よりも過酷な雑音環境下で音声処理装置が用いられるようになってきている。そのため、雑音環境下でも通話音質や音声認識性能を維持できるような、音声処理装置の需要が高まっている。

従来の音声処理装置において、目的音を抽出して取得する際には、目的音以外の非目的音を抑圧（抑制）する処理が行われる。

従来の非目的音を抑圧する音声処理装置としては、例えば、特許文献１に記載された技術がある。

特許文献１に記載された装置では、入力音声信号に遅延減算処理を施して、第１、第２の所定方位に死角を有する第１、第２の指向性信号を形成し、これら２つの指向性信号のコヒーレンスを取得する。そして、特許文献１に記載された装置ではでは、取得したコヒーレンスと判定閾値とを比較して、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判定し、この判定結果に応じてゲインを設定し、ゲインを入力音声信号に乗算して非目的音声を減衰する。

特開２０１３−１８２０４４号公報

ところで、通常非目的音に含まれる成分としては、例えば、背景雑音（例えば、街中での雑踏や、自動車の走行雑音など）と、妨害音声（例えば、当該音声処理装置の使用者以外の人の話し声）に大別できる。従来、背景雑音は周波数特性やパワーが定常であることを前提に、様々な有効な抑圧方法が提案されている。一方で、妨害音声は信号パワーや周波数特性が非定常であるうえに、目的音声（音声処理機能使用者の声）と同様に人間の声である。したがって、従来の音声処理装置において、妨害音声を検出しようとする場合、背景雑音のように目的音声との挙動の差異に基づいて存在の有無を判定することが困難である。このため、従来の音声処理装置で、妨害音声を抑圧しようとすると、妨害音声の有無によらず、過度に抑圧処理を施して音質の歪が顕著になったり、抑圧不足で妨害音声の残留成分によって通話音質や音声認識性能が所定の水準に達しない、といった問題が生じる。

以上のような問題に鑑みて、精度よく非目的音（例えば、妨害音声）の存在を判定することができる音声判定装置、方法及びプログラム、並びに、音声処理装置が望まれている。

第１の本発明の音声判定装置は、（１）複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、（２）前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、（３）前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成する平滑化処理部と、（４）前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部とを有することを特徴とする。

第２の本発明の音声判定プログラムは、コンピュータを、（１）複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、（２）前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、（３）前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成する平滑化処理部と、（４）前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部として機能させることを特徴とする。

第３の本発明は、複数のマイクから得られた入力信号に関する判定方法において、（１）正面抑圧信号生成部、コヒーレンス計算部、平滑化処理部、及び判定部を備え、（２）前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、（３）前記コヒーレンス計算部は、前記複数のマイクから得られた入力信号からコヒーレンスを計算し、（４）前記平滑化処理部は、前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成し、（５）前記判定部は、前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定することを特徴とする。

第４の本発明は、複数のマイクから得られた入力信号の音声処理を行う音声処理装置において、第１の本発明の音声判定装置の判定結果を利用した音声処理を行うことを特徴とする。

本発明によれば、精度よく妨害音声を判定する音声判定装置及び音声処理装置を提供することができる。

実施形態に係る音声判定装置の機能的構成について示したブロック図である。実施形態に係るマイクの配置例について示した説明図である。実施形態に係る音声判定装置で適用される指向性信号の特性について示した図（その１）である。実施形態に係る音声判定装置で適用される指向性信号の特性について示した図（その２）である。実施形態に係る平滑化係数制御部が行う平均正面抑圧信号の平滑化係数制御処理の例について示した説明図である。実施形態に係る平滑化係数制御部が行うコヒーレンスの平滑化計数制御処理の例について示したフローチャートである。実施形態に係る音声判定装置の動作の例について示したフローチャート（その１）である。実施形態に係る音声判定装置の動作の例について示したフローチャート（その２）である。実施形態に係る平滑化係数制御部の動作の例について示したフローチャートである。

（Ａ）主たる実施形態
以下、本発明による音声判定装置、方法及びプログラム、並びに、音声処理装置の一実施形態を、図面を参照しながら詳述する。

（Ａ−１）実施形態の構成
図１は、この実施形態の音声判定装置１の全体構成を示すブロック図である。

音声判定装置１は、一対のマイクｍ＿１、ｍ＿２のそれぞれから、図示しないＡＤ変換器を介して入力信号ｓ１（ｎ）、ｓ２（ｎ）を取得する。なお、ｎはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、ｎが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。

音声判定装置１は、マイクｍ＿１、ｍ＿２で補足される入力信号に非目的音（例えば、妨害音声）が含まれるか否かを判定し、その判定結果を音声処理装置２に供給する。音声処理装置２は、音声判定装置１から供給される判定結果を利用して、入力信号の処理を行う。音声処理装置２が入力信号に対して行う処理内容については限定されないものである。音声処理装置２は、例えば、テレビ会議システムや携帯電話端末などの通信装置や音声認識機能の前処理に、音声判定装置１から供給される判定結果を利用する。音声処理装置２は、例えば、音声判定装置１から供給される判定結果を非目的音（例えば、妨害音声）の抑圧処理等に利用する。

図２は、マイクｍ＿１、ｍ＿２の配置の例について示した説明図である。

図２に示すように、この実施形態では、マイクｍ＿１、ｍ＿２は、２つのマイクｍ＿１、ｍ＿２を含む面が目的音の到来する方向（目的音の音源の方向）に対して垂直となるように配置されているものとする。また、以下では、図２に示すように、２つのマイクｍ＿１、ｍ＿２の間の位置から見て、目的音の到来方向を前方向又は正面方向と呼ぶものとする。また、以下では、図２に示すように、右方向、左方向、後方向と呼ぶ場合は、２つのマイクｍ＿１、ｍ＿２の間の位置から目的音の到来方向を見た場合の各方向を示すものとして説明する。なお、この実施形態では、目的音がマイクｍ＿１、ｍ＿２の正面方向から到来し、妨害音声を含む非目的音が左右方向（横方向）から到来するものとして説明する。

音声判定装置１は、ＦＦＴ部１０、正面抑圧信号生成部２０、コヒーレンス計算部３０、判定部４０、及び平滑化係数制御部５０を有している。

音声判定装置１は、プロセッサやメモリ等を有するコンピュータにプログラム（実施形態に係る音声判定プログラムを含むプログラム）をインストールして実現するようにしてもよいが、この場合でも、音声判定装置１は機能的には図１を用いて示すことができる。なお、音声判定装置１については一部又は全部をハードウェア的に実現するようにしてもよい。

ＦＦＴ部１０は、マイクｍ１及びマイクｍ２から入力信号系列ｓ１及びｓ２を受け取り、その入力信号ｓ１及びｓ２に高速フーリエ変換（あるいは離散フーリエ変換）を行うものである。これにより、入力信号ｓ１及びｓ２が周波数領域で表現されることになる。なお、ＦＦＴ部１０は、高速フーリエ変換を実施するにあたり、入力信号ｓ１（ｎ）及びｓ２（ｎ）から所定のＮ個（Ｎは任意の整数）のサンプルから成る、分析フレームＦＲＡＭＥ１（Ｋ）及びＦＲＡＭＥ２（Ｋ）を構成するものとする。入力信号ｓ１からＦＲＡＭＥ１を構成する例を以下の（１）式に示す。なお、以下の（１）式において、Ｋはフレームの順番を表すインデックスであり、正の整数で表現される。以下では、Ｋの値が小さいほど古い分析フレームであり、Ｋの値が大きいほど新しい分析フレームであるものとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはＫであるとする。
ＦＲＡＭＥ１（１）＝｛ｓ１（１）、ｓ１（２）・・、ｓ１（i）、・・ｓ１（ｎ）｝
ＦＲＡＭＥ１（Ｋ）＝｛ｓ１（Ｎ×Ｋ＋１）、ｓ１（Ｎ×Ｋ＋２）・・、ｓ１（Ｎ×Ｋ＋ｉ）、・・ｓ１（Ｎ×Ｋ＋Ｎ）｝ …（１）

ＦＦＴ部１０は、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号ｓ１から構成した分析フレームＦＲＡＭＥ１（Ｋ）にフーリエ変換して得た周波数領域信号Ｘ１（ｆ，Ｋ）と、入力信号ｓ２から構成した分析フレームＦＲＡＭＥ２（Ｋ）をフーリエ変換して得た周波数領域信号Ｘ２（ｆ，Ｋ）とを取得する。なおｆは周波数を表すインデックスである。また（ｆ，Ｋ）は単一の値ではなく、以下の（２）式のように、複数の周波数ｆ１〜ｆｍのｍ個（ｍは任意の整数）のスペクトル成分から構成されるものであるものとする。

ＦＦＴ部１０は、周波数領域信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）を、正面抑圧信号生成部２０及びコヒーレンス計算部３０に供給する。

なお、Ｘ１（ｆ，Ｋ）は複素数であり、実部と虚部で構成される。これは、Ｘ２（ｆ，Ｋ）及び、後述する正面抑圧信号生成部２０で説明する「Ｎ（ｆ，Ｋ）」についても同様である。
Ｘ１（ｆ，Ｋ）＝｛Ｘ１（ｆ１，Ｋ）、Ｘ１（ｆ２，Ｋ）、・・Ｘ１（ｆｉ，Ｋ）・・、Ｘ１（ｆｍ，Ｋ）｝ …（２）

次に、正面抑圧信号生成部２０について説明する。

正面抑圧信号生成部２０は、ＦＦＴ部１０から供給された信号について、周波数ごとに正面方向の信号成分を抑圧する処理を行う。言い換えると、正面抑圧信号生成部２０は、正面方向の成分を抑圧する指向性フィルタとして機能する。

例えば、正面抑圧信号生成部２０は、図３に示すように、正面方向に死角を有する８の字型の双指向性のフィルタを用いて、ＦＦＴ部１０から供給された信号から正面方向の成分を抑圧する指向性フィルタを形成する。

具体的には、正面抑圧信号生成部２０は、ＦＦＴ部１０から供給された信号「Ｘ１（ｆ，Ｋ）」、「Ｘ２（ｆ，Ｋ）」に基づいて以下の（３）式のような計算を行って、周波数ごとの正面抑圧信号Ｎ（ｆ，Ｋ）を生成する。以下の（３）式の計算は、上述の図３のような、正面方向に死角を有する８の字型の双指向性のフィルタを形成する処理に相当する。
Ｎ（ｆ，Ｋ）＝Ｘ１（ｆ，Ｋ）−Ｘ２（ｆ，Ｋ） …（３）

そして、正面抑圧信号生成部２０は、以下の（４）式を用いて、全周波数にわたってＮ（ｆ，Ｋ）を平均した、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を算出する。

次に、コヒーレンス計算部３０の処理について説明する。

コヒーレンス計算部３０は、周波数領域信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）について、左方向（第１の方向）に強い指向性（例えば、図４（ａ）に示すような単一指向性）のフィルタで処理された信号（以下、「指向性信号Ｂ１（ｆ）」と呼ぶ）と、右方向（第２の方向）に強い指向性（例えば、図４（ｂ）に示すような単一指向性）のフィルタで処理された信号（以下、「指向性信号Ｂ２（ｆ）」と呼ぶ）とに基づくコヒーレンスＣＯＨ（Ｋ）を算出する。なお、指向性信号Ｂ１（ｆ）及び指向性信号Ｂ２（ｆ）に係る指向性の方向は正面方向以外の任意の方向（ただし、Ｂ１（ｆ）とＢ２（ｆ）とで異なる方向とする必要がある）とするようにしてもよい。

コヒーレンスＣＯＨ（Ｋ）を算出する具体的な算出処理（例えば、計算式）については限定されないものであるが、例えば、特許文献１と同様の処理（例えば、特許文献１に記載された（３）式〜（７）式の計算処理）を適用することができるため、詳細については省略する。

次に、判定部４０の処理について説明する。

判定部４０は、正面以外に指向性を有する正面抑圧信号Ｎ（ｆ，Ｋ）（平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ））と、コヒーレンスＣＯＨ（Ｋ）を用いて、妨害音声の有無を判定する。

ここでは、目的音がマイクｍ＿１、ｍ＿２の正面方向から到来し、妨害音声が左右方向（横方向）から到来するものとして説明する。例えば、マイクｍ＿１、ｍ＿２を電話端末（例えば、携帯電話端末等）の受話器のマイク部分に適用した場合には、目的音としての話者（ユーザ）の音声はマイクｍ＿１、ｍ＿２の正面方向から到来し、当該電話端末の話者以外の音声は、左右方向（横方向）から到来することになる。

したがって、例えば、「妨害音声が存在せず」かつ「目的音が存在する」場合は、正面抑圧信号Ｎ（ｆ，Ｋ）の平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）は、目的音成分の大きさに比例した値となる。図２に示すように、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）（正面抑圧信号Ｎ（ｆ，Ｋ））生成時の指向性特性には、「妨害音声が存在せず」かつ「目的音が存在する」場合でも、正面方向から到来する信号成分も含まれることになるためである。ただし、図２に示すように、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）（正面抑圧信号Ｎ（ｆ，Ｋ））生成時の指向性特性には、正面方向から到来する信号成分も含まれるが、横方向のゲインと比較すると非常に小さい。また、「妨害音声が存在せず」かつ「目的音が存在する」場合の正面抑圧信号Ｎ（ｆ，Ｋ）のゲインは、妨害音声が存在する場合よりも小さくなる。

また、コヒーレンスＣＯＨ（Ｋ）は、簡単に述べれば、第１の方向（右方向）から到来する信号と第２の方向（左方向）から到来する信号の相関（特徴量）と言える。従って、コヒーレンスＣＯＨ（Ｋ）が小さい場合とは、２つの指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）の相関が小さい場合であり、反対にコヒーレンスＣＯＨ（Ｋ）が大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合は、目的音の到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。また、例えば、マイクｍ＿１、ｍ＿２を電話端末（例えば、携帯電話端末等）の受話器のマイク部分に適用した場合には、話者の音声（目的音声）は正面から到来し、妨害音声は正面以外から到来する傾向が強い。以上のようにコヒーレンスＣＯＨ（Ｋ）は、入力信号の到来方向と深い関係を持つ特徴量となる。したがって、「妨害音声が存在せず」かつ「目的音が存在する」場合には、コヒーレンスＣＯＨ（Ｋ）の値は大きくなる傾向となり、「妨害音声が存在する」場合には、コヒーレンスＣＯＨ（Ｋ）の値は小さくなる傾向となる。

以上の各値の挙動を妨害音声の有無に着目して整理すると以下のような条件で、妨害音声の有無を判断することができる。以下では、「妨害音声が存在せず」かつ「目的音が存在する」という条件（以下、「第１の条件」と呼ぶ）と、「妨害音声が存在する」という条件（以下、「第２の条件」と呼ぶ）に場合分けして、妨害音声の有無の判定方法について説明する。

第１の条件の場合（「妨害音声が存在せず」かつ「目的音が存在する」場合）には、コヒーレンスＣＯＨ（Ｋ）が比較的大きな値となり、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）は、目的音成分の大きさに比例した値となる。

一方、第２の条件の場合（「妨害音声が存在する」場合）には、コヒーレンスＣＯＨ（Ｋ）の値は小さい値となり、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）は大きな値となる傾向にある。

したがって、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）の相関係数ｃｏｒ（Ｋ）を導入すると、相関係数ｃｏｒ（Ｋ）と妨害音声の有無との関係は以下のような関係となる。

妨害音声が存在しない場合は、相関係数ｃｏｒ（Ｋ）は正の値（相関性が高いことを示す所定値以上の値）となる傾向となる。一方、妨害音声が存在する場合には、相関係数ｃｏｒ（Ｋ）は負の値（相関性が低いことを示す所定値未満の値）となる傾向となる。

すなわち、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との相関係数ｃｏｒ（Ｋ）を導入することにより、例えば、相関係数ｃｏｒ（Ｋ）の正負判断というシンプルな処理で、妨害音声の有無を判定することができる。

そこで、この実施形態の判定部４０は、まず、相関係数ｃｏｒ（Ｋ）を求め、相関係数ｃｏｒ（Ｋ）に基づいて妨害音声の有無を判定するものとする。

ただし、この実施形態では、判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）とを平滑化処理（時間軸上で平滑処理）してから、相関係数ｃｏｒ（Ｋ）の算出に適用するものとする。なお、判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）とを平滑化せずにそのまま相関係数ｃｏｒ（Ｋ）の算出に適用するようにしてもよい。

判定部４０では、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）とを平滑化することにより、入力信号の瞬間的な変動による相関係数ｃｏｒ（Ｋ）への影響を低減することができる。以下では、平滑化後の平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を、Ｓ＿ＡＶＥ＿Ｎ（Ｋ）と表すものとする。また、以下では、平滑化後のコヒーレンスＣＯＨ（Ｋ）を、Ｓ＿ＣＯＨ（Ｋ）と表すものとする。平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）とを平滑化する具体的な計算式については限定されないものであるが、例えば、以下の（５）式及び（６）式のように長期平均値を用いた平滑処理を行うようにしても良い。

以下の（５）式では、最新のＡＶＥ＿Ｎ（Ｋ）と、直前に求めたＳ＿ＡＶＥ＿Ｎ（Ｋ−１）とを重みづけ加算している。以下の（５）式において、λは、０．０＜λ＜１．０の範囲で設定される平滑化係数（重みづけ係数）である。λは、後述する平滑化係数制御部５０から供給される。以下の（５）式において、Ｓ＿ＡＶＥ＿Ｎ（１）を求める際には、Ｓ＿ＡＶＥ＿Ｎ（１−１）＝０としてもよい。すなわち、Ｓ＿ＡＶＥ＿Ｎ（１）＝λ×ＡＶＥ＿Ｎ（１）としてもよい。

以下の（６）式では、最新のＳ＿ＣＯＨ（Ｋ）と、直前に求めたＳ＿ＣＯＨ（Ｋ−１）とを重みづけ加算している。以下の（６）式において、ξは、０．０＜ξ＜１．０の範囲で設定される平滑化係数（重みづけ係数）である。ξは、後述する平滑化係数制御部５０から供給される。以下の（６）式において、Ｓ＿ＣＯＨ（１）を求める際には、Ｓ＿ＣＯＨ（１−１）＝０としてもよい。すなわち、Ｓ＿ＣＯＨ（１）＝ξ×ＣＯＨ（１）としてもよい。
Ｓ＿ＡＶＥ＿Ｎ（Ｋ）
＝λ×ＡＶＥ＿Ｎ（Ｋ）＋（１−λ）×Ｓ＿ＡＶＥ＿Ｎ（Ｋ−１） …（５）
Ｓ＿ＣＯＨ（Ｋ）
＝ξ×ＣＯＨ（Ｋ）＋（１−ξ）×Ｓ＿ＣＯＨ（Ｋ−１） …（６）

上記の（５）式、（６）式では、平滑化係数λ、ξを１に近づけるほど瞬時値の影響が増し、０に近づけるほど瞬時値の影響が少なくなり平滑化の効果が増す。しかし、平滑化係数λ、ξを０に近づけると妨害音声の特性変動への追従が遅れるため、妨害音声の存在判定に誤判定が生じうる。特に、妨害音声の到来方位が変化した場合には誤判定は顕著となる。したがって、判定部４０では、瞬時値の影響を最低限に抑えつつ追従性を維持するよう平滑化係数λ、ξを適切に設定することが望ましい。

そこで、この実施形態では、平滑化係数制御部５０が、妨害音声の到来方位を判定し、その結果に応じて平滑化係数λ、ξを制御するものとする。平滑化係数制御部５０による平滑化係数λ、ξの制御処理の詳細については後述する。

以上のように、判定部４０は、平滑化したＳ＿ＡＶＥ＿Ｎ（Ｋ）及びＳ＿ＣＯＨ（Ｋ）を求め、求めたＳ＿ＡＶＥ＿Ｎ（Ｋ）及びＳ＿ＣＯＨ（Ｋ）に基づいて、相関係数ｃｏｒ（Ｋ）を求める。

なお、判定部４０が、相関係数ｃｏｒ（Ｋ）を求める際の具体的な計算方法については限定されないものであるが、例えば、判定部４０は以下の（７）式を用いて相関係数ｃｏｒ（Ｋ）を求めるようにしてもよい。なお、以下の（７）式において、Ｃｏｖ［Ｓ＿ＡＶＥ＿Ｎ（Ｋ），Ｓ＿ＣＯＨ（Ｋ）］は、平均正面抑圧信号Ｓ＿ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＳ＿ＣＯＨ（Ｋ）の共分散を示している。また、以下の（７）式において、σＳ＿ＡＶＥ＿Ｎ（Ｋ）は、平均正面抑圧信号Ｓ＿ＡＶＥ＿Ｎ（Ｋ）の標準偏差を示している。さらに、以下の（７）式において、σＳ＿ＣＯＨ（Ｋ）は、コヒーレンスＳ＿ＣＯＨ（Ｋ）の標準偏差を示している。以下の（７）式にて相関係数ｃｏｒ（Ｋ）を求める場合には、Ｓ＿ＡＶＥ＿Ｎ（Ｋ）及びＳ＿ＣＯＨ（Ｋ）についてそれぞれ直近に処理した所定数i個のフレームの結果を用いて、標準偏差や共分散を求めるようにしてもよい。具体的には、以下の（７）式にて相関係数ｃｏｒ（Ｋ）を求める過程において、例えば、直近に処理したｉ個のフレーム（Ｋ−ｉ番目のフレーム、Ｋ−（ｉ−１）番目のフレーム、…、Ｋ−１番目のフレーム、Ｋ番目のフレームの）のそれぞれに係るＳ＿ＣＯＨ及びＳ＿ＡＶＥ＿Ｎを用いて、標準偏差（σＳ＿ＡＶＥ＿Ｎ（Ｋ）、及びσＳ＿ＣＯＨ（Ｋ））や共分散（Ｃｏｖ［Ｓ＿ＡＶＥ＿Ｎ（Ｋ），Ｓ＿ＣＯＨ（Ｋ）］）を求めるようにしてもよい。言い換えると、判定部４０は、相関係数ｃｏｒ（Ｋ）を求める過程において、直近に求めたｉ個のＳ＿ＡＶＥ＿Ｎ及びＳ＿ＣＯＨをサンプルとして用いて、以下の（７）式における標準偏差や共分散を求めるようにしてもよい。

判定部４０は、例えば、相関係数ｃｏｒ（Ｋ）が閾値Ｔｈ以上だった場合、妨害音声無しを示す値（例えば、「０」）を出力し、相関係数ｃｏｒ（Ｋ）が閾値Ｔｈより小さい場合には妨害音声有りを出力するようにしてもよい。この実施形態では、上述の検討に従って閾値Ｔｈ＝０と設定するものとして説明する。したがって、判定部４０は、相関係数ｃｏｒ（Ｋ）が０より大きい場合（相関係数ｃｏｒ（Ｋ）が正の場合；ｃｏｒ（Ｋ）＞０の場合）には妨害音声無しと判定し、相関係数ｃｏｒ（Ｋ）が０以下の場合（相関係数ｃｏｒ（Ｋ）が０又は負の場合；０≧ｃｏｒ（Ｋ）の場合）には妨害音声有りと判定するものとする。

また、判定部４０は、判定結果を示す信号Ｒ（Ｋ）を出力する。信号Ｒ（Ｋ）の形式は限定されないものであるが、例えば、「妨害音声有り」を示す値（例えば、「１」）又は、「妨害音声無し」を示す値（例えば、「０」）を出力するようにしてもよい。この実施形態において、判定部４０は、音声処理装置２に信号Ｒ（Ｋ）を供給する。なお、判定部４０が信号Ｒ（Ｋ）を出力する方式や供給先については限定されないものである。

以上のように、判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）及びコヒーレンスＣＯＨ（Ｋ）に平滑化処理を行い、平滑化処理済の値（Ｓ＿ＣＯＨ（Ｋ）及びＳ＿ＡＶＥ＿Ｎ（Ｋ））を求める平滑化処理部としても機能する。

次に、平滑化係数制御部５０による平滑化係数λ、ξの制御処理について説明する。

平滑化係数制御部５０は、追従性と瞬時値の影響を最低限に抑えつつ追従性を維持するよう平滑化係数λ、ξを適切に設定し、設定した平滑化係数λ、ξを判定部４０に供給する。

ところで、妨害音声の到来方位が正面に近づくほどコヒーレンスＣＯＨ（Ｋ）の値が大きくなり、ｃｏｒ（Ｋ）に発生する瞬時変動の度合いも増す。したがって、コヒーレンスＣＯＨ（Ｋ）が大きいほど、ｃｏｒ（Ｋ）の瞬時値の寄与を下げる平滑化処理を行うことが好ましい。一方、妨害音声の到来方位が横（左右方向）にそれるほどコヒーレンスＣＯＨ（Ｋ）の値は小さくなり、ｃｏｒ（Ｋ）の瞬時変動の度合いも小さくなるので平滑化の必要性は下がる。

また、妨害音声の到来方位が正面に近づくほど平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）は小さくなり、瞬時変動も少なくなるので、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）の平滑化の必要性は低くなる。しかし、到来方位が横（左右方向）にそれるほど平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）の値は大きくなり、ｃｏｒ（Ｋ）の瞬時変動も大きくなるので、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を平滑化する必要性が高まる。

コヒーレンスＣＯＨ（Ｋ）は、特許文献１に記載されているように妨害音声の到来方位と直結した特徴量なので、上記のようにコヒーレンスＣＯＨ（Ｋ）と平滑化係数λ、ξを対応付けて登録・管理しておくことで、到来方位に応じて平滑化係数λ、ξを制御することに相当した制御方式が実現できる。

具体的には、この実施形態では、平滑化係数制御部５０が、コヒーレンスＣＯＨ（Ｋ）に基づき妨害音声の到来方位を判定し、その結果に応じて平滑化係数λ、ξを制御するものとする。平滑化係数制御部５０による平滑化係数λ、ξの制御処理の詳細については後述する。

平滑化係数制御部５０は、コヒーレンス計算部３０からＣＯＨ（Ｋ）を取得し、取得したＣＯＨ（Ｋ）の値に応じた平滑化係数λ、ξを求める。

平滑化係数制御部５０は、例えば、図５、図６のようなルールで、ＣＯＨ（Ｋ）に応じた平滑化係数λ、ξを取得するようにしてもよい。

図５では、ＣＯＨ（Ｋ）に応じた平滑化係数λを求めるためのルールをテーブル形式で図示している。

図５に示すように、平滑化係数制御部５０は、ＣＯＨ（Ｋ）が小さいほど、平滑化係数λを大きな値に設定する。図５では、Ａ＜Ｂ＜Ｃ＜Ｄ、δ＞ε＞ηとしている。そして、図５では、Ａ≦ＣＯＨ（Ｋ）＜Ｂの場合「平滑化係数λ＝δ」としている。また、図５では、Ｂ≦ＣＯＨ（Ｋ）＜Ｃの場合「平滑化係数λ＝ε」としている。さらに、図５では、Ｃ≦ＣＯＨ（Ｋ）＜Ｄの場合「平滑化係数λ＝η」としている。

図６では、ＣＯＨ（Ｋ）に応じた平滑化係数ξを求めるためのルールをテーブル形式で図示している。

図６に示すように、平滑化係数制御部５０は、ＣＯＨ（Ｋ）が大きいほど、平滑化係数ξを大きな値に設定する。図６では、Ａ＜Ｂ＜Ｃ＜Ｄ、γ＞β＞αとしている。そして、図６では、Ａ≦ＣＯＨ（Ｋ）＜Ｂの場合「平滑化係数ξ＝α」としている。また、図６では、Ｂ≦ＣＯＨ（Ｋ）＜Ｃの場合「平滑化係数ξ＝β」としている。さらに、図６では、Ｃ≦ＣＯＨ（Ｋ）＜Ｄの場合「平滑化係数ξ＝γ」としている。

平滑化係数制御部５０は、コヒーレンス計算部３０からコヒーレンスＣＯＨ（Ｋ）を取得する。そして、平滑化係数制御部５０は、コヒーレンスＣＯＨ（Ｋ）の値に応じた平滑化係数λ、ξを求める。平滑化係数制御部５０が平滑化係数λ、ξを求める方法については限定されないものであるが、この実施形態の平滑化係数制御部５０は、コヒーレンスＣＯＨ（Ｋ）の値に応じた平滑化係数λ、ξを取得する際に照合する照合データ５１を保持しているものとする。照合データ５１としては、例えば、図５、図６に示すようなテーブル形式のデータを適用することができる。

コヒーレンスＣＯＨ（Ｋ）が小さいほど、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）に適用する平滑化係数λとして大きな値が設定される構成となっていれば、照合データ５１（図５に示すテーブル）の形式については限定されないものである。図５では、コヒーレンスＣＯＨ（Ｋ）を３つの区間にグリッドして、各区間に対応する平滑化係数λの値としてσ、ε、ηを設定している。

また、コヒーレンスＣＯＨ（Ｋ）が大きいほど、コヒーレンスＣＯＨ（Ｋ）に適用する平滑化係数ξとして大きな値が設定される構成となっていれば、照合データ５１（図６に示すテーブル）の形式については限定されないものである。図６では、コヒーレンスＣＯＨ（Ｋ）を３つの区間にグリッドして、各区間に対応する平滑化係数ξの値としてα、β、γを設定している。

さらに、照合データ５１において、コヒーレンスＣＯＨ（Ｋ）をグリッドする区間の数や、各区間の長さ（コヒーレンスＣＯＨ（Ｋ）のレンジ）について限定されないものである。すなわち、照合データ５１において、コヒーレンスＣＯＨ（Ｋ）をグリッドする各区間（レンジ幅）は等間隔でグリッドするようにしてもよいし、偏った間隔でグリッドするようにしてもよい。

以上のように、照合データ３１では、コヒーレンスＣＯＨ（Ｋ）に用いる平滑化係数ξはコヒーレンスＣＯＨ（Ｋ）と大小関係が一致するように設定されており、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）の平滑化係数λはコヒーレンスＣＯＨ（Ｋ）と大小関係が逆転（反転）するよう設定されているものとする。言い換えると、照合データ３１では、コヒーレンスＣＯＨ（Ｋ）が大きいほど、直近のコヒーレンスＣＯＨ（Ｋ）の重み付けが大きくなるような平滑化係数ξが設定されている。また、照合データ３１では、コヒーレンスＣＯＨ（Ｋ）が小さいほど、直近の平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）の重み付けが大きくなるように、平滑化係数λが設定されている。

（Ａ−２）実施形態の動作
次に、以上のような構成を有するこの実施形態の音声判定装置１の動作（実施形態の判定方法）を説明する。

まず、音声判定装置１の全体の動作について図１を用いて説明する。

マイクｍ＿１、ｍ＿２のそれぞれから図示しないＡＤ変換器を介して、１フレーム分（１つの処理単位分）の入力信号ｓ１（ｎ）及びｓ２（ｎ）がＦＦＴ部１０に供給されたものとする。そして、ＦＦＴ部１０は、１フレーム分の入力信号ｓ１（ｎ）及びｓ２（ｎ）に基づく分析フレームＦＲＡＭＥ１（Ｋ）、ＦＲＡＭＥ２（Ｋ）についてフーリエ変換し、周波数領域で示される信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）を取得する。そして、ＦＦＴ部１０で生成された信号Ｘ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）が、正面抑圧信号生成部２０及びコヒーレンス計算部３０に供給される。

正面抑圧信号生成部２０は、供給されたＸ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、正面抑圧信号Ｎ（ｆ，Ｋ）を算出する。そして、正面抑圧信号生成部２０は、正面抑圧信号Ｎ（ｆ，Ｋ）に基づいて平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）を算出し、判定部４０に供給する。

一方、コヒーレンス計算部３０は、供給されたＸ１（ｆ，Ｋ）、Ｘ２（ｆ，Ｋ）に基づいて、コヒーレンスＣＯＨ（Ｋ）を生成し、判定部４０及び平滑化係数制御部５０に供給する。

平滑化係数制御部５０は、供給されたコヒーレンスＣＯＨ（Ｋ）を、照合データ３１と照合（例えば、図５、図６のテーブルと照合）して、照合結果に基づいた平滑化係数λ、ξを取得し、取得した平滑化係数λ、ξを判定部４０に供給する。

判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）と平滑化係数λに基づき、Ｓ＿ＡＶＥ＿Ｎ（Ｋ）を求める。また、判定部４０は、コヒーレンスＣＯＨ（Ｋ）と平滑化係数ξに基づき、Ｓ＿ＣＯＨ（Ｋ）を求める。そして、判定部４０は、Ｓ＿ＡＶＥ＿Ｎ（Ｋ）及びＳ＿ＣＯＨ（Ｋ）に基づいて、相関係数ｃｏｒ（Ｋ）を算出し、算出した相関係数ｃｏｒ（Ｋ）に基づいて妨害音声の有無を判定し、その判定結果を信号Ｒ（Ｋ）として出力する。

次に、判定部４０の動作詳細について図７、図８のフローチャートを用いて説明する。

図７は、判定部４０が妨害音声の有無を判定する処理について示したフローチャートである。図８は、図７のフローチャートの一部の処理について示したフローチャートである。判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）、コヒーレンスＣＯＨ（Ｋ）、及び平滑化係数λ、ξ（１フレーム分のデータ）が供給されるごとに、図７、図８のフローチャートの処理により妨害音声の有無を判定し、信号Ｒ（Ｋ）を出力するものとする。

まず、判定部４０に、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）、コヒーレンスＣＯＨ（Ｋ）、及び平滑化係数λ、ξが供給されたものとする（Ｓ１０１）。

次に、判定部４０は、コヒーレンスＣＯＨ（Ｋ）及び平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）に対して平滑化処理を行い、Ｓ＿ＣＯＨ（Ｋ）及びＳ＿ＡＶＥ＿Ｎ（Ｋ）を求める（Ｓ１０２）。判定部４０は、コヒーレンスＣＯＨ（Ｋ）と平滑化係数ξに基づき、Ｓ＿ＣＯＨ（Ｋ）を求める。具体的には、判定部４０は、上記の（６）式を用いて、Ｓ＿ＣＯＨ（Ｋ）を求めることができる。また、判定部４０は、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）と平滑化係数λに基づき、Ｓ＿ＡＶＥ＿Ｎ（Ｋ）を求める。具体的には、判定部４０は、上記の（５）式を用いて、Ｓ＿ＡＶＥ＿Ｎ（Ｋ）を求めることができる。

次に、判定部４０は、Ｓ＿ＡＶＥ＿Ｎ（Ｋ）とＳ＿ＣＯＨ（Ｋ）とに基づいて相関係数ｃｏｒ（Ｋ）を算出する（Ｓ１０３）。具体的には、判定部４０は、上記の（７）式を用いて相関係数ｃｏｒ（Ｋ）を求めることができる。

次に、判定部４０は、算出した相関係数ｃｏｒ（Ｋ）に基づいて妨害音声の有無を判定し（Ｓ１０４）、その判定結果を示す信号Ｒ（Ｋ）を生成して出力する（Ｓ１０５）。

次に、判定部４０が上述のステップＳ１０４で行う判定処理の具体例について図８のフローチャートを用いて説明する。

判定部４０は、判定処理を開始すると、相関係数ｃｏｒ（Ｋ）の値を確認し（Ｓ２０１）、相関係数ｃｏｒ（Ｋ）の値に応じて妨害音の有無を判定する。

具体的には、判定部４０は、相関係数ｃｏｒ（Ｋ）が０より大きい場合（相関係数ｃｏｒ（Ｋ）が正の値場合；ｃｏｒ（Ｋ）＞０の場合）には「妨害音声無し」と判定し（Ｓ２０２）、相関係数ｃｏｒ（Ｋ）が０未満の場合（相関係数ｃｏｒ（Ｋ）が０又は負の値の場合；０≧ｃｏｒ（Ｋ）の場合）には「妨害音声有り」と判定する（Ｓ２０３）。

次に、平滑化係数制御部５０の動作（平滑化係数λ、ξを求める動作）について図９のフローチャートを用いて説明する。平滑化係数制御部５０は、コヒーレンス計算部３０からコヒーレンスＣＯＨ（Ｋ）が供給されるごとに図９のフローチャートの処理を実行する。

まず、平滑化係数制御部５０に、コヒーレンスＣＯＨ（Ｋ）が供給されたものとする（Ｓ３０１）。

次に、平滑化係数制御部５０は、取得したコヒーレンスＣＯＨ（Ｋ）を、照合データ５１（例えば、上述の図５、図６のテーブル）と照合して、照合結果に応じた平滑化係数λ、ξを取得する（Ｓ３０２）。

次に、平滑化係数制御部５０は、取得した平滑化係数λ、ξを判定部４０に供給する（Ｓ３０３）。

（Ａ−３）実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

この実施形態の音声判定装置１では、相関係数ｃｏｒ（Ｋ）の値に基づいて、妨害音声の有無を判定している。これにより、この実施形態の音声判定装置１では、精度よく妨害音声の有無を判定することができるので、判定結果の供給先（例えば、音声処理装置２）で、妨害音声の有無に応じて最適な音声処理を実現することができる。すなわち、音声処理装置２の音声処理（例えば、テレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理）に、この実施形態の音声判定装置１の判定結果を適用することで、音声処理装置２の性能向上（例えば、妨害音声等の非目的音の抑圧性能の向上）が期待できる。

さらに、この実施形態の音声判定装置１では、妨害音声の到来方位（すなわち、コヒーレンスＣＯＨ（Ｋ））に応じて平滑化係数λ、ξを設定し、その平滑化係数λ、ξを用いてコヒーレンスＣＯＨ（Ｋ）と平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）に平滑処理を施したうえで相関係数ｃｏｒ（Ｋ）を算出し、妨害音声の有無を判定している。これにより、この実施形態の音声判定装置１では、妨害音声の到来方位の変化による誤判定を改善することができる。すなわち、音声判定装置１では、妨害音声の有無に応じて最適な動作特性を行うことで、判定精度を向上させることができる。

（Ｂ）他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｂ−１）上記の実施形態では、音声判定装置１と音声処理装置２とは別個の構成要素として説明したが、１つの音声処理装置（音声判定装置を含む１つの装置）として構築するようにしてもよい。

（Ｂ−２）上記の実施形態の音声判定装置１は、２つのマイクから供給される入力信号に基づいた処理を行う例について説明したが、音声判定装置１では３つ以上のマイクから供給される入力信号に基づいて判定処理を行うようにしてもよい。例えば、音声判定装置１において、３つ以上のマイクから供給される入力信号に基づき、正面方向に死角を有する正面抑圧信号Ｎ（ｆ，Ｋ）や、正面以外の所定の方向に指向性を有する指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）を取得して上記の実施形態と同様の処理を行うようにしてもよい。すなわち、音声判定装置１において、正面抑圧信号Ｎ（ｆ，Ｋ）や、指向性信号Ｂ１（ｆ）、Ｂ２（ｆ）を取得するためのマイクの構成等は限定されないものである。

（Ｂ−３）上記の実施形態の判定部４０では、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との関係性を表す特徴量として、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との相関係数ｃｏｒ（Ｋ）を適用しているが、他の種類の値を特徴量として適用するようにしてもよい。例えば、判定部４０では、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との関係性を表す特徴量として、平均正面抑圧信号ＡＶＥ＿Ｎ（Ｋ）とコヒーレンスＣＯＨ（Ｋ）との共分散を適用するようにしてもよい。

１…音声判定装置、２…音声処理装置、１０…ＦＦＴ部、２０…正面抑圧信号生成部、３０…コヒーレンス計算部、４０…妨害音判定部、５０…平滑化係数制御部、５１…照合データ、ｍ＿１、ｍ＿２…マイク。

Claims

複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、
前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成する平滑化処理部と、
前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部と
を有することを特徴とする音声判定装置。
前記特徴量は、前記平滑化処理済の正面抑圧信号と、前記平滑化処理済のコヒーレンスとの相関係数であることを特徴とする請求項１に記載の音声判定装置。
前記判定部は、前記特徴量としての相関係数の正負に基づいて妨害音声の有無を判定することを特徴とする請求項２に記載の音声判定装置。
前記特徴量は、前記平滑化処理済の正面抑圧信号と前記平滑化処理済のコヒーレンスとの共分散であることを特徴とする請求項１に記載の音声判定装置。
前記判定部は、前記特徴量としての共分散の正負に基づいて妨害音声の有無を判定することを特徴とする請求項４に記載の音声判定装置。
前記平滑化処理部は、
第１の平滑化係数を用いて、前記正面抑圧信号生成部が生成した正面抑圧信号を平滑化処理し、
第２の平滑化係数を用いて、前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理する
ことを特徴とする請求項１〜５のいずれかに記載の音声判定装置。
妨害音声の到来方向に応じて、前記第１の平滑化係数及び前記第２の平滑化係数を設定し、前記平滑化処理部に供給する平滑化係数制御部をさらに有し、
前記平滑化処理部は、前記平滑化係数制御部から供給された前記第１の平滑化係数及び前記第２の平滑化係数を用いて平滑化処理を行う
ことを特徴とする請求項６に記載の音声判定装置。
前記平滑化係数制御部は、前記コヒーレンス計算部が計算したコヒーレンスに応じて、前記第１の平滑化係数及び前記第２の平滑化係数を設定することを特徴とする請求項７に記載の音声判定装置。
前記平滑化係数制御部は、前記コヒーレンス計算部が計算したコヒーレンスの値と大小関係が反転するような値を、前記第１の平滑化係数に設定し、前記コヒーレンス計算部が計算したコヒーレンスの値と大小関係が一致するような値を、前記第２の平滑化係数に設定することを特徴とする請求項８に記載の音声判定装置。
コンピュータを、
複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
前記複数のマイクから得られた入力信号からコヒーレンスを計算するコヒーレンス計算部と、
前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成する平滑化処理部と、
前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する判定部と
して機能させることを特徴とする音声判定プログラム。
複数のマイクから得られた入力信号に関する判定方法において、
正面抑圧信号生成部、コヒーレンス計算部、平滑化処理部、及び判定部を備え、
前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、
前記コヒーレンス計算部は、前記複数のマイクから得られた入力信号からコヒーレンスを計算し、
前記平滑化処理部は、前記正面抑圧信号生成部が生成した正面抑圧信号、及び前記コヒーレンス計算部が計算したコヒーレンスを平滑化処理し、平滑化処理済の正面抑圧信号、及び平滑化処理済のコヒーレンスを生成し、
前記判定部は、前記平滑化処理済の正面抑圧信号、及び前記平滑化処理済のコヒーレンスとの関係性を表す特徴量を算出し、前記特徴量の値に基づいて妨害音声の有無を判定する
ことを特徴とする音声判定方法。
複数のマイクから得られた入力信号の音声処理を行う音声処理装置において、請求項１〜９のいずれかに記載の音声判定装置の判定結果を利用した音声処理を行うことを特徴とする音声処理装置。