JP4510539B2

JP4510539B2 - 特定話者音声出力装置及び特定話者判定プログラム

Info

Publication number: JP4510539B2
Application number: JP2004217299A
Authority: JP
Inventors: 庄衛佐藤; 亨今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2004-07-26
Filing date: 2004-07-26
Publication date: 2010-07-28
Anticipated expiration: 2024-07-26
Also published as: JP2006039108A

Description

本発明は、複数の話者が各々のマイクに向かって音声を発した際に、各々のマイクから出力される、当該マイクに対応する話者の音声データと、他の話者の音声データとを含む音声データから、当該マイクに対応する話者の音声データのみを出力する技術に関する。

従来、放送番組への自動字幕付与を目的とした音声認識が実用化されている（例えば、非特許文献１参照）。この技術では、予めテキストデータで作成されたニュース番組の原稿（電子原稿）をもとに、当該電子原稿の一部が修正された原稿を読み上げたアナウンサの音声を音声認識して電子原稿を修正することで、字幕を生成している。そして、例えば、男女などの話者に依存した音響モデル（音素の特徴をモデル化したもの）を使用して音声認識を行うことで、音声認識の認識率を向上させることができる。

また、対談のような複数の話者が交互に音声を発する場合において、各々の話者に対応して話者の近傍に設けられたマイクでは、当該マイク近傍の話者（以下、特定話者という）の音声以外に、他の話者の音声（クロストーク成分）も集音してしまうため、マイクから出力される音声データには、複数の話者の音声が含まれている。そして、この複数の話者の音声が含まれる音声データから、特定話者の音声のみを抽出する技術がある（例えば、非特許文献２参照）。この技術では、マイクから入力される音声データの入力パワー（電力）が小さい場合にはクロストーク成分であると判定するとともに、パワーが大きい場合には特定話者の音声データであると判定し、クロストーク成分を減衰させることで、目的とする話者の音声のみを抽出することができる。

また、特定話者の音声のみを抽出する他の方法として、相互相関係数から推定した伝達特性を利用して、クロストーク成分を算出し、このクロストーク成分をキャンセルする技術が開示されている（非特許文献３参照）。
今井亨、外３名、「ニュース番組自動字幕化のための音声認識システム」、音声言語情報処理技報、１９９８年１０月１７日、２３−１１、ｐ．５９−６４ＤＰＲ−５２２：ＢＳＳＡｕｄｉｏＭａｎｕａｌ，ｐ．１８−２５馬屋原将明、外２名、「非線形逐次最小２乗法に基づく耐クロストークノイズキャンセラ」電子情報通信学会論文誌、２００２年２月、ＡＶｏｌ．Ｊ８５−Ａ，Ｎｏ．２，ｐ．１６２−１６９

しかしながら、音声認識する際に、話者に合わせた言語モデルを用いるためには、この話者のみの音声データとしなければならず、他の話者の音声データも含まれている場合には認識率が低下してしまうという問題があった。また、複数の話者の各々に対応してマイクを設置して、各々の音声データを音声認識すると、マイクに対応した特定話者の音声以外に他の話者の音声も音声認識されるため、重複した認識結果が出力されてしまうという問題があった。

更に、音声データのパワーの大きさに基づいて、特定話者の音声データのみを抽出する方法では、各々の話者の相対的な声量に差がある場合には、話者の声量差を無くすために各々のマイクに設けられた増幅器における、各々の音声データの増幅率に差が生じる。そのため、この増幅率の差によって、特定話者の音声データとクロストーク成分とのパワーの比が反転し、クロストーク成分のパワーが特定話者のパワーより大きくなることで、誤検出が生じることがあった。また、伝達特性を推定する方法では、比較的大きな演算量が必要となる。

本発明は、前記従来技術の問題を解決するために成されたもので、少ない演算量で精度良く、クロストーク成分を含む音声データから特定話者の音声データのみを抽出することができる特定話者音声出力装置及び特定話者判定プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の特定話者音声出力装置は、話者ごとに設けられたマイクから音声データをそれぞれ入力し、少なくとも１つの前記音声データから当該音声データを出力したマイクに対応する話者の音声データを出力する特定話者音声出力装置であって、音声データ入力手段と、フレーム抽出手段と、パワー算出手段と、相互相関係数算出手段と、話者音声判定手段と、音声データ出力手段とを備え、前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定する構成とした。

かかる構成によれば、特定話者音声出力装置は、音声データ入力手段によって、話者ごとに設けられたマイクから、話者の音声を変換した音声データをそれぞれ入力し、フレーム抽出手段によって、音声データ入力手段から入力された音声データの各々から、所定データ長のフレームを抽出する。そして、特定話者音声出力装置は、パワー算出手段によって、フレーム抽出手段から出力されたフレームのパワーの大きさを算出し、また、相互相関係数算出手段によって、複数の音声データのうち１つの音声データのフレームである対象フレームの時間軸に対して、他の音声データの各々について、当該他の音声データのフレームの時間軸を所定の時間幅ずつずらしたフレーム間の相関を示す相互相関係数を算出する。

ここで、マイクは話者ごとに設けられ、ある話者の発した音声は、この話者から一番近い位置にある、当該話者に対して設けられたマイクに最初に入力される。そして、他のマイクには当該話者から各々のマイクまでの距離の差に応じた時間差を生じて遅れて入力される。

そのため、対象フレームが、当該話者に対応するマイクから入力された当該話者の音声データを含むフレームである場合には、対象フレームと他のフレームとの相互相関係数は、当該対象フレームの時間軸に対して他のフレームの時間軸をその時間差の分だけ早めたときに大きな値となる。また、対象フレームが、当該話者に対応するマイクから入力された音声データのフレームでない場合には、当該話者に対応するマイクから入力された音声データのフレームとの相互相関係数は、当該対象フレームの時間軸に対して、当該話者に対応するマイクから入力された音声データのフレームの時間軸をその時間差の分だけ遅らせた値のときに大きな値となる。

そして、特定話者音声出力装置は、話者音声判定手段によって、パワー算出手段によって算出された各々の音声データのフレームのパワーの大きさと、相互相関係数算出手段によって算出された相互相関係数のうち、対象フレームの時間軸に対して、当該他の音声データのフレームの時間軸を所定の時間幅ごとに早める方向にずらした相互相関係数である進み相互相関係数と、当該他の音声データのフレームの時間軸を所定の時間幅ごとに遅らせる方向にずらした相互相関係数である遅れ相互相関係数とに基づいて、対象フレームの音声データに対応する音声が、特定話者の音声データであるかを判定する。

なお、この話者音声判定手段は、対象フレームのパワーが他の音声データのフレームのパワーより大きい場合には、対象フレームを出力したマイクに入力された話者の音声の大きさが、他のマイクに入力された当該話者の音声の大きさより大きいため、対象フレームの音声が特定話者の音声であると判定することができる。また、話者音声判定手段は、進み相互相関係数と遅れ相互相関係数とに基づいて、他のフレームより先に入力されたものか、あるいは、後に入力されたものかを判定することで、当該対象フレームが、当該対象フレームの音声データを出力したマイクに対応する話者である特定話者の音声データであるかを判定することができる。そして、音声データ出力手段によって、話者音声判定手段によって特定話者の音声データであると判定された対象フレームを出力する。

これによって、特定話者音声出力装置は、複数のマイクから入力された音声データのそれぞれからフレームを抽出し、少なくとも１つの音声データのフレームの各々について、特定話者の音声データであるかを判定して、特定話者のみの音声データを出力することができる。

そして、特定話者音声出力装置は、進み相互相関係数の合計と、遅れ相互相関係数の合計との差分が閾値を超える場合には、対象フレームの音声データに対応する話者の音声が、当該話者に対応するマイクに、他の音声データを出力したマイクより先に入力されていると判断し、対象フレームが特定話者の音声データであると判定することができる。

更に、請求項２に記載の特定話者判定プログラムは、話者ごとに設けられたマイクから音声データをそれぞれ入力し、少なくとも１つの前記音声データから当該音声データを出力したマイクに対応する話者の音声データを出力するためにコンピュータを、音声データ入力手段、フレーム抽出手段、パワー算出手段、相互相関係数算出手段、話者音声判定手段、音声データ出力手段として機能させ、前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定するように機能させることとした。

かかる構成によれば、特定話者判定プログラムは、音声データ入力手段によって、話者ごとに設けられたマイクから音声データをそれぞれ入力し、フレーム抽出手段によって、音声データ入力手段によって入力された音声データの各々から、所定データ長のフレームを抽出する。そして、パワー算出手段によって、フレーム抽出手段から出力されたフレームのパワーの大きさを算出し、また、相互相関係数算出手段によって、複数の音声データのうち１つの音声データのフレームである対象フレームの時間軸に対して、他の音声データの各々について、当該他の音声データのフレームの時間軸を所定の時間幅ずつずらしたフレーム間の相関を示す相互相関係数を算出する。

更に、話者音声判定手段によって、パワー算出手段によって算出された各々の音声データのフレームのパワーの大きさと、相互相関係数算出手段で算出された相互相関係数のうち、対象フレームの時間軸に対して、当該他の音声データのフレームの時間軸を所定の時間幅ごとに早める方向にずらした相互相関係数である進み相互相関係数と、当該他の音声データのフレームの時間軸を所定の時間幅ごとに遅らせる方向にずらした相互相関係数である遅れ相互相関係数とに基づいて、当該対象フレームが、当該対象フレームの音声データを出力したマイクに対応する話者である特定話者の音声データであるかを判定する。また、音声データ出力手段によって、話者音声判定手段で特定話者の音声データであると判定された対象フレームを出力する。そして、前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定する。

これによって、特定話者判定プログラムは、複数のマイクから入力された音声データのそれぞれからフレームを抽出し、少なくとも１つの音声データのフレームの各々について、特定話者の音声データであるかを判定して、特定話者のみの音声データを出力することができる。

本発明に係る特定話者音声出力装置及び特定話者判定プログラムでは、以下のような優れた効果を奏する。

請求項に記載の発明によれば、クロストーク成分の含まれる音声データから特定話者の音声データのみを出力することができる。そのため、例えば、トーク番組等の音声を音声認識して字幕を生成する場合には、同一の話者の音声が複数のマイクに入力されることによって同一の音声について複数音声認識されることを防ぐことができる。また、音声データを特定話者に対応した音響モデルに基づいて音声認識することで、高い認識率で音声認識することができる。

また、フレームのパワーの大きさと相互相関係数とに基づいて、対象フレームが特定話者の音声データであるかを判定するため、高い精度で判定することができる。そして、音声データに含まれるクロストーク成分を算出するのではなく、フレームごとにクロストーク成分であるか、あるいは、特定話者の音声であるかのみを判定して、クロストーク成分を除去するため、クロストーク成分を算出する複雑な演算を行う必要がなく、演算量を軽減して処理速度を向上させることができる。

また、請求項に記載の発明によれば、進み相互相関関数の合計と遅れ相互相関関数の合計との差に基づいて、ある話者の音声が、対象フレームに対応するマイクと他のマイクとのどちらに先に入力されたかを判定するため、容易に対象フレームが特定話者の音声データであるかを判定することができる。

以下、本発明の実施の形態について図面を参照して説明する。ここでは本発明を、対談のような複数の話者が交互に音声を発する番組等の音声を音声認識する場合に適用し、クロストーク音声認識装置として構成している。

［クロストーク音声認識装置（特定話者音声出力装置）の構成］
図１を参照して、本発明の実施の形態であるクロストーク音声認識装置１の構成について説明する。図１は、本発明におけるクロストーク音声認識装置の構成を示したブロック図である。クロストーク音声認識装置１は、話者Ｘと話者Ｙとの各々に設けられたマイクＭｘ、Ｍｙに入力された話者Ｘと話者Ｙとの音声を変換した音声データｘ（ｘ（ｔ））、ｙ（ｙ（ｔ））を、当該マイクＭｘ、Ｍｙから入力し、話者Ｘのみの音声の音声認識結果と話者Ｙのみの音声の音声認識結果とを出力するものである。ここで、ｔは、音声データに対応する音声が、マイクＭｘ、Ｍｙに入力された時間の時間軸（以下、時間軸という）上における所定の時刻を始点とした時間を示している。ここでは、クロストーク音声認識装置１は、音声データ入力手段２と、フレーム抽出手段３と、フレームパワー算出手段４と、相互相関係数算出手段５と、平滑処理手段６と、話者音声判定手段７と、減衰器８と、記憶手段９と、音声認識手段１０と、音声認識結果出力手段１１とを備える。

ここで、クロストーク音声認識装置１は、話者Ｘと話者Ｙとの音声を音声データｘ、ｙに変換するマイクＭｘ、Ｍｙと、このマイクＭｘ、Ｍｙから入力された音声データｘ、ｙを、話者等の操作によって所望の減衰率で減衰させて出力するフェーダユニットＦＵｘ、ＦＵｙと、このフェーダユニットＦＵｘ、ＦＵｙから入力された音声データｘ、ｙを所望の増幅率で増幅し、増幅された音声データｘ、ｙを、当該クロストーク音声認識装置１に出力する増幅器Ａｘ、Ａｙとを外部に接続し、更に、図示しないＡ／Ｄ（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌ）変換器によってＡ／Ｄ変換された、時系列の音声データｘ、ｙが入力されている。

なお、マイクＭｘ、Ｍｙは、それぞれ話者Ｘ、Ｙに対応し、マイクＭｘは、話者Ｘから見てマイクＭｙより近い位置に設置され、マイクＭｙは、話者Ｙから見てマイクＭｘより近い位置に設置されている。そして、話者Ｘと話者Ｙとが交互に音声を発した場合には、マイクＭｘには話者Ｘの音声Ｈ（ＸＸ）と、話者Ｙの音声Ｈ（ＹＸ）とが交互に入力され、また、マイクＭｙには話者Ｘの音声Ｈ（ＸＹ）と、話者Ｙの音声Ｈ（ＹＹ）とが交互に入力される。

音声データ入力手段２は、外部から複数の音声データを入力するものである。ここでは、音声データ入力手段２は、増幅器Ａｘ、Ａｙから音声データｘ、ｙを入力することとした。音声データ入力手段２は、音声データ入力部２ａと、音声データ入力部２ｂとを備える。

音声データ入力部２ａは、増幅器Ａｘから音声データｘを入力するものである。この音声データｘには、話者Ｘの音声Ｈ（ＸＸ）の音声データ（話者Ｘの音声データ）と話者Ｙの音声Ｈ（ＹＸ）の音声データ（クロストーク成分）とが含まれている。ここで入力された音声データｘは、フレーム抽出手段３の音声データフレーム抽出部３ａに出力される。

音声データ入力部２ｂは、増幅器Ａｙから音声データｙを入力するものである。この音声データｙには、話者Ｘの音声Ｈ（ＸＹ）の音声データ（クロストーク成分）と話者Ｙの音声Ｈ（ＹＹ）の音声データ（話者Ｙの音声データ）とが含まれている。ここで入力された音声データｙは、フレーム抽出手段３の音声データフレーム抽出部３ｂに出力される。

フレーム抽出手段３は、音声データ入力手段２から入力された音声データｘ、ｙの各々から、所定データ長のフレームを抽出するものである。ここでは、フレーム抽出手段３は、音声データフレーム抽出部３ａと、音声データフレーム抽出部３ｂとを備える。なお、フレームのデータ長は、時間軸上におけるフレームの時間幅と音速との積が、話者Ｘと話者Ｙとの間の距離より大きくなる任意の長さとすることができる。ここでは、１６ｋＨｚサンプリングで、４００ポイントのサンプリングデータとなるデータ長のフレームを抽出することとした。

音声データフレーム抽出部３ａは、音声データ入力部２ａから入力された音声データｘから所定データ長のフレームを抽出するものである。ここで抽出されたフレームは、フレームパワー算出手段４の音声データパワー算出部４ａと、相互相関係数算出手段５と、減衰器８ａとに出力される。

音声データフレーム抽出部３ｂは、音声データ入力部２ｂから入力された音声データｙから所定データ長のフレームを抽出するものである。ここで抽出されたフレームは、フレームパワー算出手段４の音声データパワー算出部４ｂと、相互相関係数算出手段５と、減衰器８ｂとに出力される。

フレームパワー算出手段４は、フレーム抽出手段３から入力されたフレームのパワーの大きさ（フレームパワー）を算出し、このフレームパワーに基づいて、フェーダユニットＦＵｘ、ＦＵｙがマイクＭｘ、Ｍｙから入力された音声データを増幅器Ａｘ、Ａｙに出力していたかを判定するものである。フレームパワー算出手段４は、音声データパワー算出部４ａと、音声データパワー算出部４ｂと、ＦＵ状態判定部４ｃとを備える。

音声データパワー算出部（パワー算出手段）４ａは、音声データフレーム抽出部３ａによって音声データｘから抽出されたフレームのフレームパワーを算出するものである。また、音声データパワー算出部（パワー算出手段）４ｂは、音声データフレーム抽出部３ｂによって音声データｙから抽出されたフレームのフレームパワーを算出するものである。ここで算出されたフレームパワーは、ＦＵ状態判定部４ｃと、平滑処理手段６とに出力される。

なお、ここでは、フレームパワー算出手段４の音声データパワー算出部４ａ、４ｂは、フレームの各ポイントの振幅の２乗和を、当該フレームのフレームパワーとして算出することとした。ここで、音声データパワー算出部４ａによって算出される音声データｘのフレームパワーＰ（ｌ，ｘ）と、音声データパワー算出部４ｂによって算出される音声データｙのフレームパワーＰ（ｌ，ｙ）は、以下の式（１）で表される。なお、ここでは、フレーム抽出手段３が、音声データｘ（ｔ）、ｙ（ｔ）から、時間軸上において時間幅Ｎのフレームをシフト幅Ｍおきに抽出することとした。また、ｌは、音声データｘ、ｙの各々について、時系列にフレームに付されたフレーム番号である。

ＦＵ状態判定部４ｃは、音声データパワー算出部４ａ、４ｂから入力される音声データｘ、ｙのフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）に基づいて、後記する減衰器８（８ａ、８ｂ）の減衰率を設定する、あるいは、後記する相互相関係数算出手段５に対して、当該フレームの相互相関係数を算出する指令を出力するものである。ここで、ＦＵ状態判定部４ｃは、フレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）に基づいて、フェーダユニットＦＵｘ、ＦＵｙがＯＮになっているか、あるいは、ＯＦＦになっているか、つまり、フェーダユニットＦＵｘ、ＦＵｙがマイクＭｘ、Ｍｙから入力された音声データｘ、ｙを増幅器Ａｘ、Ａｙを介してクロストーク音声認識装置１にそのまま出力しているか、あるいは、減衰させているかを判定する。

フェーダユニットＦＵｘ、ＦＵｙがＯＮになっているときの暗騒音レベルＰ_sil（話者Ｘ、Ｙが発話していないときの音のレベル）と比べて、フェーダユニットＦＵｘ、ＦＵｙがＯＦＦときのフレームパワーＰ_FU-OFFは充分に小さくなる。そのため、ＦＵ状態判定部４ｃは、Ｐ_FU-OFF＜Ｔｈ_FU＜Ｐ_silとなる閾値Ｔｈ_FUよりフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）が小さい場合には、フェーダユニットＦＵｘ、ＦＵｙがＯＦＦになっており、閾値Ｔｈ_FUよりフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）が大きい場合には、フェーダユニットＦＵｘ、ＦＵｙがＯＮになっていると判定することができる。

そして、フェーダユニットＦＵｘ、ＦＵｙのいずれか一方がＯＦＦになっているときには、ＯＮになっているフェーダユニットＦＵｘ、ＦＵｙに対応する話者（Ｘ又はＹ）のみが音声を発しているため、音声データｘ、ｙのフレームにはクロストーク成分が含まれていない。また、フェーダユニットＦＵｘ、ＦＵｙの両方がＯＦＦになっているときには、どちらの話者Ｘ、Ｙも音声を発していないため、音声データｘ、ｙのフレームにはクロストーク成分が含まれていない。そのため、当該フレームについて、後記する相互相関係数算出手段５と、平滑処理手段６と、話者音声判定手段７とによる処理を行って、当該フレームにクロストーク成分が含まれているかを判定する必要がない。

そこで、ＦＵ状態判定部４ｃは、フェーダユニットＦＵｘ、ＦＵｙのいずれか一方又は両方がＯＦＦになっていると判定したときには、減衰器８（８ａ、８ｂ）の減衰率をゼロに設定し、相互相関係数算出手段５に対して、当該フレームの相互相関係数の算出を行う指令を出力しない。これによって、クロストーク音声認識装置１は、相互相関係数算出手段５と、平滑処理手段６と、話者音声判定手段７との当該フレームに対する処理を行わないため、演算量を軽減することができ、処理速度を向上させることができる。

また、ＦＵ状態判定部４ｃは、フェーダユニットＦＵｘ、ＦＵｙの両方がＯＮになっていると判定したときには、相互相関係数算出手段５に対して、当該フレームの処理を行う指令を出力する。

相互相関係数算出手段５は、ＦＵ状態判定部４ｃから入力される指令に基づいて、フレーム抽出手段３の音声データフレーム抽出部３ａ、３ｂから入力された音声データｘ、ｙのフレームの相互相関係数を算出するものである。ここで算出された相互相関係数は、平滑処理手段６に出力される。

なお、相互相関係数とは、時系列の２つの関数の一方の時間軸を所定の時間幅ずつずらして、２つの関数を掛け合わせることで得られ、当該２つの関数の相関が高いときには相対的に大きい値となり、相関が小さいときには相対的に小さい値となる。ここでは、相互相関係数算出手段５は、以下の式（２）に示すように、音声データｘ（ｔ）の各々のフレームについて、音声データｙ（ｔ）のフレームの時間軸を所定の時間幅τずつずらした相互相関係数Ｃ（τ，ｌ）を算出することとした。なお、σｘ（ｔ）、σｙ（ｔ）は音声データｘ、ｙの当該フレームでの標準偏差であり、各フレームは、フレーム抽出手段３によって、音声データｘ（ｔ）、ｙ（ｔ）から、時間軸上において時間幅Ｎでシフト幅Ｍおきに抽出されていることとする。

平滑処理手段６は、フレームパワー算出手段４の音声データパワー算出部４ａ、４ｂから入力されたフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）と相互相関係数Ｃ（τ，ｌ）の平滑化を行うものである。ここでは、平滑処理手段６は、式（３）、（４）に示すように、音声データｘ、ｙの各々のフレームについて、各々のフレームを中心とした所定数（ｎ_p）のフレームのフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）の平均値Ｐ’（ｌ，ｘ）、Ｐ’（ｌ，ｙ）と、各々のフレームを中心とした所定数（ｎ_c）のフレームの相互相関係数Ｃ（τ，ｌ）の平均値Ｃ’（τ，ｌ）を算出することで、平滑化を行うこととした。これによって、息つぎ等の音声中の短いポーズ区間や、ペーパーノイズ等の雑音に起因する、後記する話者音声判定手段７における不要な判定結果の切り替わりを防ぐことができる。ここで算出されたフレームパワーの平均値Ｐ’（ｌ，ｘ）、Ｐ’（ｌ，ｙ）と、相互相関係数の平均値Ｃ’（τ，ｌ）は、話者音声判定手段７に出力される。

話者音声判定手段７は、フレームパワーの平均値Ｐ’（ｌ，ｘ）、Ｐ’（ｌ，ｙ）と、相互相関係数の平均値Ｃ’（τ，ｌ）とに基づいて、各々のフレームに対応する話者を判定し、後記する減衰器８の減衰率を設定するものである。

音声を発した話者（Ｘ又はＹ）の音声は、当該話者から一番近い位置にあるマイク（Ｍｘ又はＭｙ）に、相対的に大きい音量で入力され、他のマイク（Ｍｙ又はＭｘ）には小さい音量で入力される。そのため、話者音声判定手段７は、同時に変換された音声データのフレームのフレームパワーの平均値Ｐ’（ｌ，ｘ）、Ｐ’（ｌ，ｙ）が大きい方のフレームを出力したマイク（Ｍｘ又はＭｙ）に対応する話者が、当該フレームの音声を出力した話者であると判定することができる。

また、音声を発した話者（Ｘ又はＹ）の音声は、当該話者（Ｘ又はＹ）から一番近い位置にあるマイク（Ｍｘ又はＭｙ）に、相対的に早く入力され、他のマイク（Ｍｙ又はＭｘ）には遅れて入力される。そのため、話者音声判定手段７は、音声データ（ｘ又はｙ）のフレームの相互相関係数の平均値Ｃ’（τ，ｌ）が、判定するフレームに対して他の音声データ（ｙ又はｘ）のフレームの時間軸を早める方向にずらしたときに大きくなる場合に、当該フレームを出力したマイク（Ｍｘ又はＭｙ）に対応する話者（Ｘ又はＹ）が、当該フレームの音声を出力した話者であると判定することができる。

そのため、ここでは、話者音声判定手段７は、判定するフレームのフレームパワーの平均値（Ｐ’（ｌ，ｘ）又はＰ’（ｌ，ｙ））の対数から、他の音声データ（ｙ又はｘ）のフレームのフレームパワーの平均値（Ｐ’（ｌ，ｙ）又はＰ’（ｌ，ｘ））の対数を減算した値（対数パワー比）Ｒ（ｌ）が閾値Ｔｈ_R（０＜Ｔｈ_R）より大きくなる場合、又は、判定するフレームに対して他の音声データ（ｙ又はｘ）のフレームの時間軸を早める方向にずらしたときの相互相関係数である進み相互相関係数の平均値の合計から、判定するフレームに対して他の音声データ（ｙ又はｘ）のフレームの時間軸を遅らせる方向にずらしたときの相互相関係数である遅れ相互相関係数の平均値の合計を減算した値（相互相関差）Ｄ（ｌ）が閾値Ｔｈ_D（０＜Ｔｈ_D）より大きくなる場合に、当該フレームを出力したマイク（Ｍｘ又はＭｙ）に対応する話者（Ｘ又はＹ）を、当該フレームの音声を出力した話者（Ｘ又はＹ）と判定することとした。なお、音声データｘのフレームを判定するための対数パワー比Ｒ_x（ｌ）及び相互相関差Ｄ_x（ｌ）と、音声データｙのフレームを判定するための対数パワー比Ｒ_y（ｌ）及び相互相関差Ｄ_y（ｌ）は、以下の式（５）、（６）によって表される。

そして、話者音声判定手段７は、Ｒ_x（ｌ）≧Ｔｈ_R又はＤ_x（ｌ）≧Ｔｈ_Dであるときには、音声データｘの当該フレームが話者Ｘの音声データであり、音声データｙの当該フレームがクロストーク成分であると判定する。そして、話者音声判定手段７は、後記する減衰器８ａの減衰率を充分に小さく、減衰器８ｂの減衰率を充分に大きく設定する。

また、話者音声判定手段７は、Ｒ_y（ｌ）≧Ｔｈ_R又はＤ_y（ｌ）≧Ｔｈ_Dであるときには、音声データｙの当該フレームが話者Ｙの音声データであり、音声データｘの当該フレームがクロストーク成分であると判定する。そして、話者音声判定手段７は、後記する減衰器８ｂの減衰率を充分に小さく（例えば、ゼロ）、減衰器８ａの減衰率を充分に大きく設定する。

なお、ここでは、話者音声判定手段７は、対数パワー比と相互相関差とに基づく判定結果が矛盾する場合、つまり、対数パワー比Ｒ_x（ｌ）及び相互相関差Ｄ_y（ｌ）の両方が閾値Ｔｈ_R、Ｔｈ_Dを超えている場合や、対数パワー比Ｒ_y（ｌ）及び相互相関差Ｄ_x（ｌ）の両方が閾値Ｔｈ_R、Ｔｈ_Dを超えている場合には、当該フレームの直前の判定結果を採用することとした。また、対数パワー比Ｒ_x（ｌ）、対数パワー比Ｒ_y（ｌ）、相互相関差Ｄ_x（ｌ）及び相互相関差Ｄ_y（ｌ）のすべてが閾値Ｔｈ_R、Ｔｈ_Dを超えない場合にも、当該フレームの直前の判定結果を採用することとした。これによって、話者音声判定手段７は、頻繁に話者が切り替わることを防ぎ、安定した検出結果を得ることができる。

更に、ここでは、話者音声判定手段７は、継続して同一の話者の音声データであると判定するフレーム数の最小値である最低持続フレーム数を設定し、判定結果が変化した後に、少なくともこの最低持続フレーム数のフレームは同一の判定結果を維持することで、頻繁に話者が切り替わることを防ぎ、安定した検出結果を得ることができる。

ここで、図２を参照して、話者音声判定手段７によって対数パワー比Ｒ_x（ｌ）及び相互相関差Ｄ_x（ｌ）に基づいて、当該話者の音声データか、あるいは、クロストーク成分かを判定する方法を説明する。図２は、話者音声判定手段によって話者を判定する方法を説明するための説明図、（ａ）は、話者の発話区間と対数パワー比の経時変化とを示したグラフ、（ｂ）は、相互相関差の経時変化を示したグラフ、（ｃ）は、話者音声判定手段による話者の判定結果を示した図である。

ここで、男性の話者（話者Ｘ）と女性の話者（話者Ｙ）とが交互に発話し、男性の話者の声量が大きく、女性の話者の声量が小さい場合には、増幅器Ａｙによって、マイクＭｙから入力された音声がより大きく増幅されるため、図２（ａ）に示すように、男性の話者の発話区間における対数パワー比Ｒ_x（ｌ）が、女性の話者の発話区間の対数パワー比Ｒ_y（ｌ）（Ｒ_y（ｌ）＝−Ｒ_x（ｌ））に比べて、相対的に値が小さくなることがある。このとき、話者音声判定手段７が、対数パワー比Ｒ（ｌ）のみで話者の判定を行うと、男性の話者の発話区間（例えば、時刻５秒〜１２秒の間）において対数パワー比Ｒ_x（ｌ）が閾値Ｔｈ_Rを超えず、誤判定が起きてしまう。

ここで、図２（ｂ）に示すように、対数パワー比Ｒ_y（ｌ）が不十分な値となった男性の話者の発話区間において、相互相関差Ｄ_x（ｌ）は、閾値Ｔｈ_Dを超える値となり、また、女性の話者の発話区間において、相互相関差Ｄ_y（ｌ）（Ｄ_y（ｌ）＝−Ｄ_x（ｌ））は、閾値Ｔｈ_Dを超える値となった。このように、対数パワー比Ｒ（ｌ）だけでなく、相互相関差Ｄ（ｌ）に基づいて、話者の判定を行うことで、図２（ｃ）に示すように、実際の男性と女性の話者の発話区間に近い、話者の判定結果を得ることができる。

図１に戻って説明を続ける。減衰器（音声データ出力手段）８は、フレーム抽出手段３から入力された音声データｘ、ｙのフレームを、フレームパワー算出手段４のＦＵ状態判定部４ｃあるいは話者音声判定手段７によって設定された減衰率で減衰させるものである。ここで減衰された音声データは、音声認識手段１０に出力される。なお、ここでは、減衰器８ａが、音声データフレーム抽出部３ａから入力された音声データｘのフレームを減衰させて音声認識手段１０ａに出力し、減衰器８ｂが、音声データフレーム抽出部３ｂから入力された音声データｙのフレームを減衰させて音声認識手段１０ｂに出力することとした。これによって、減衰器８ａは、話者Ｘの音声データのみを音声認識手段１０ａに出力し、減衰器８ｂは、話者Ｙの音声データのみを音声認識手段１０ｂに出力することができる。

記憶手段９は、後記する音声認識手段１０による音声認識に必要となる音響モデルを記憶するもので、半導体メモリ、ハードディスク等の一般的な記憶手段である。ここでは、記憶手段９ａは、話者Ｘに対応した音響モデルであるＸ音響モデルを記憶し、記憶手段９ｂは、話者Ｙに対応した音響モデルであるＹ音響モデルを記憶することとした。

音声認識手段１０は、減衰器８から入力された音声データを、記憶手段９に記憶されたＸ音響モデルあるいはＹ音響モデルに基づいて、音声認識するものである。ここでは、音声認識手段１０ａは、記憶手段９ａに記憶されたＸ音響モデルに基づいて、減衰器８ａから入力された音声データを音声認識し、音声認識手段１０ｂは、記憶手段９ｂに記憶されたＹ音響モデルに基づいて、減衰器８ｂから入力された音声データを音声認識することとした。そして、音声認識手段１０ａによって音声認識された話者Ｘ音声認識結果は音声認識結果出力部１１ａに出力され、音声認識手段１０ｂによって音声認識された話者Ｙ音声認識結果は音声認識結果出力部１１ｂに出力される。

このように、音声認識手段１０ａは、話者音声判定手段７によって話者Ｘの音声データと判定された音声データを、話者Ｘに対応した音響モデルであるＸ音響モデルに基づいて音声認識し、音声認識手段１０ｂは、話者音声判定手段７によって話者Ｙの音声データと判定された音声データを、話者Ｙに対応した音響モデルであるＹ音響モデルに基づいて音声認識するため、話者に依存しない音響モデルに基づいて音声認識する場合や、クロストーク成分を含む音声データを特定の話者に対応した音響モデル（Ｘ音響モデル又はＹ音響モデル）に基づいて音声認識する場合に比べて高い音声認識率を得ることができる。

音声認識結果出力手段１１は、音声認識手段１０から入力された音声認識結果を出力するものである。ここでは、音声認識結果出力手段１１は、音声認識結果出力部１１ａと、音声認識結果出力部１１ｂとを備える。

音声認識結果出力部１１ａは、音声認識手段１０ａから入力された話者Ｘ音声認識結果を外部に出力するものである。また、音声認識結果出力部１１ｂは、音声認識手段１０ｂから入力された話者Ｙ音声認識結果を外部に出力するものである。

以上のようにクロストーク音声認識装置１を構成することで、クロストーク音声認識装置１は、複数の話者Ｘ、Ｙの各々に設けられたマイクＭｘ、Ｍｙから入力された音声データｘ、ｙに含まれるクロストーク成分を減衰させ、マイクＭｘから入力された音声データｘから話者Ｘの音声データのみを抽出し、また、マイクＭｙから入力された音声データｙから話者Ｙの音声データのみを抽出することができる。そして、各々の音声データを各々の話者に対応した音響モデルに基づいて音声認識することで、高い認識率で音声認識を行うことができる。

また、本発明のクロストーク音声認識装置１は、クロストーク成分を算出して、入力された音声データからクロストーク成分を除去するのではなく、フレームごとにクロストーク成分であるかを判定して、クロストーク成分と判定されたフレームを減衰させることでクロストーク成分を除去する。そのため、本発明のクロストーク音声認識装置１は、クロストーク成分を算出する複雑な演算を行う必要がなく、演算量を軽減して処理速度を向上させることができる。

なお、クロストーク音声認識装置１は、コンピュータにおいて各手段を各機能プログラムとして実現することも可能であり、各機能プログラムを結合して、特定話者判定プログラムとして動作させることも可能である。

また、ここでは２人の話者Ｘ、Ｙに対応するマイクＭｘ、Ｍｙから２つの音声データｘ、ｙを入力し、減衰器８ａからは話者Ｘの音声データを、減衰器８ｂからは話者Ｙの音声データを音声認識手段１０ａ、１０ｂに出力することとしたが、本発明のクロストーク音声認識装置１は、どちらか一方の音声データ（ｘ又はｙ）からクロストーク成分を減衰させて、一方の話者のみの音声データを出力することとしてもよい。

更に、本発明のクロストーク音声認識装置１は、３人以上の話者の各々に対応するマイクから３つ以上の音声データを入力することとしてもよい。このとき、相互相関係数算出手段５は、特定話者に対応するマイクから入力された音声データと、各々の他の音声データとの相互相関係数を算出し、話者音声判定手段７は、他の音声データとの相互相関係数から各々の相互相関差を算出して、すべての相互相関差が閾値Ｔｈ_Dを超える場合に、当該フレームを特定話者の音声データと判定することができる。

また、ここでは、話者音声判定手段７によってクロストーク成分と判定されたフレームを減衰器８によって減衰させることとしたが、例えば、クロストーク音声認識装置１が、減衰器８に替えて、フレーム抽出手段３から入力された音声データｘ、ｙのフレームのどちらか一方に出力を切り替えるスイッチ手段（図示せず）を備え、このスイッチ手段が、話者音声判定手段７によって話者（Ｘ又はＹ）の音声データと判定されたフレームを出力するように切り替えることとしてもよい。

［クロストーク音声認識装置の動作］
次に、図３及び図４（適宜図１参照）を参照して、本発明におけるクロストーク音声認識装置１が、マイクＭｘ、Ｍｙによって変換された音声データを入力し、当該音声データからクロストーク成分を除去して、話者Ｘと話者Ｙの各々の音声データを音声認識する動作について説明する。図３は、本発明におけるクロストーク音声認識装置の動作を示したフローチャートである。図４は、本発明におけるクロストーク音声認識装置が、フレームごとに話者Ｘ、Ｙの音声データであるか、クロストーク成分であるかを判定し、クロストーク成分を減衰させる減衰率を設定する動作（話者判定・減衰率設定動作）を示したフローチャートである。

クロストーク音声認識装置１は、音声データ入力手段２の音声データ入力部２ａによって、マイクＭｘによって変換された音声データｘを入力し、音声データ入力部２ｂによって、マイクＭｙによって変換された音声データｙを入力する（ステップＳ１１；音声データ入力ステップ）。そして、クロストーク音声認識装置１は、フレーム抽出手段３によって、ステップＳ１１において入力された音声データｘ、ｙの各々からフレームを抽出する（ステップＳ１２；フレーム抽出ステップ）。

更に、クロストーク音声認識装置１は、フレームパワー算出手段４、相互相関係数算出手段５、平滑処理手段６及び話者音声判定手段７によって、後記する話者判定・減衰率設定動作によって、ステップＳ１２において抽出されたフレームごとに、当該フレームを出力したマイクＭｘ、Ｍｙに対応する話者Ｘ、Ｙの音声データであるか、あるいは、クロストーク成分であるかを判定し、クロストーク成分を減衰させるように減衰器８ａ、８ｂの減衰率を設定する（ステップＳ１３）。

そして、クロストーク音声認識装置１は、減衰器８ａによって、ステップＳ１３において設定された減衰率で音声データｘの各々のフレームを減衰させ、話者Ｘの音声データを音声認識手段１０ａに出力し、減衰器８ｂによって、ステップＳ１３において設定された減衰率で音声データｙの各々のフレームを減衰させ、話者Ｙの音声データを音声認識手段１０ｂに出力する（ステップＳ１４；音声データ出力ステップ）。

更に、クロストーク音声認識装置１は、音声認識手段１０ａ、１０ｂによって、ステップＳ１４においてクロストーク成分が減衰された各々の音声データを、記憶手段９ａ、９ｂに記憶されたＸ音響モデル及びＹ音響モデルに基づいて音声認識する（ステップＳ１５）。そして、クロストーク音声認識装置１は、ステップＳ１５において音声認識手段１０ａによって音声認識された話者Ｘ音声認識結果を、音声認識結果出力手段１１の音声認識結果出力部１１ａによって出力し、また、ステップＳ１５において音声認識手段１０ａによって音声認識された話者Ｙ音声認識結果を、音声認識結果出力部１１ｂによって出力し（ステップＳ１６）、動作を終了する。

（話者判定・減衰率設定動作）
次に図４を参照（適宜図１参照）して、クロストーク音声認識装置１が、音声データｘ、ｙのフレームごとに話者Ｘ、Ｙの音声データであるか、あるいは、クロストーク成分であるかを判定し、クロストーク成分を減衰させるように減衰器８ａ、８ｂの減衰率を設定する、話者判定・減衰率設定動作（図３のステップＳ１３）について説明する。なお、ここでは、音声データｘ、ｙの時間軸上において同一の区間の、１組の音声データｘ、ｙのフレームに対する動作について説明する。

まず、クロストーク音声認識装置１は、フレームパワー算出手段４の音声データパワー算出部４ａ、４ｂによって、図３のステップＳ１２において抽出された音声データｘ、ｙのフレーム（フレーム番号ｌ）のフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）を算出する（ステップＳ３１；パワー算出ステップ）。

また、クロストーク音声認識装置１は、ＦＵ状態判定部４ｃによって、ステップＳ３１において算出されたフレームパワーＰ（ｌ，ｘ）に基づいて、フェーダユニットＦＵｘがＯＮかを判定する（ステップＳ３２）。ここで、ＦＵ状態判定部４ｃは、フレームパワーＰ（ｌ，ｘ）が閾値Ｔｈ_FUより大きい場合には、フェーダユニットＦＵｘがＯＮであると判定する。

そして、フェーダユニットＦＵｘがＯＮである場合（ステップＳ３２でＹｅｓ）には、クロストーク音声認識装置１は、ＦＵ状態判定部４ｃによって、フェーダユニットＦＵｙがＯＮかを判定する（ステップＳ３３）。ここで、ＦＵ状態判定部４ｃは、ステップＳ３１において算出されたフレームパワーＰ（ｌ，ｙ）が閾値Ｔｈ_FUより大きい場合には、フェーダユニットＦＵｙがＯＮであると判定する。

そして、フェーダユニットＦＵｙもまたＯＮである場合（ステップＳ３３でＹｅｓ）には、クロストーク音声認識装置１は、相互相関係数算出手段５によって、図３のステップＳ１２において抽出された音声データｘ、ｙのフレームの一方の時間軸を所定の時間幅τずつすらした相互相関係数Ｃ（τ，ｌ）を算出する（ステップＳ３４；相互相関係数算出ステップ）。

そして、クロストーク音声認識装置１は、平滑処理手段６によって、ステップＳ３１において算出されたフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）と、ステップＳ３４において算出された相互相関係数Ｃ（τ，ｌ）とを平滑化する（ステップＳ３５）。なお、ここでは、平滑処理手段６は、所定数ｎ_pのフレームのフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）の平均値Ｐ’（ｌ，ｘ）、Ｐ’（ｌ，ｙ）を算出することで、フレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）の平滑化を行い、所定数ｎ_cのフレームの相互相関係数Ｃ（τ，ｌ）の平均値Ｃ’（τ，ｌ）を算出して相互相関係数Ｃ（τ，ｌ）の平滑化を行うこととした。

更に、クロストーク音声認識装置１は、話者音声判定手段７によって、ステップＳ３５において算出された音声データｘ、ｙのフレームパワーの平均値Ｐ’（ｌ，ｘ）、Ｐ’（ｌ，ｙ）の各々の対数の差である対数パワー比Ｒ_x（ｌ）、Ｒ_y（ｌ）と、進み相互相関係数の平均値の合計と、遅れ相互相関係数の平均値の合計との差である相互相関差Ｄ_x（ｌ）、Ｄ_y（ｌ）とを算出する（ステップＳ３６）。

そして、クロストーク音声認識装置１は、話者音声判定手段７によって、ステップＳ３６において算出された対数パワー比Ｒ_x（ｌ）が閾値Ｔｈ_R以上であるか、又は、相互相関差Ｄ_x（ｌ）が閾値Ｔｈ_D以上であるかを判断する（ステップＳ３７）。そして、対数パワー比Ｒ_x（ｌ）が閾値Ｔｈ_R以上である、又は、相互相関差Ｄ_x（ｌ）が閾値Ｔｈ_D以上である場合（ステップＳ３７でＹｅｓ）には、クロストーク音声認識装置１は、話者音声判定手段７によって、ステップＳ３６において算出された対数パワー比Ｒ_y（ｌ）が閾値Ｔｈ_R以上であるか、又は、相互相関差Ｄ_y（ｌ）が閾値Ｔｈ_D以上であるかを判断する（ステップＳ３８）。

そして、対数パワー比Ｒ_y（ｌ）が閾値Ｔｈ_R以上である、又は、相互相関差Ｄ_y（ｌ）が閾値Ｔｈ_D以上である場合（ステップＳ３８でＹｅｓ）には、そのままステップＳ４６に進む。また、対数パワー比Ｒ_y（ｌ）が閾値Ｔｈ_R未満であり、かつ、相互相関差Ｄ_y（ｌ）が閾値Ｔｈ_D未満である場合（ステップＳ３８でＮｏ）には、クロストーク音声認識装置１は、話者音声判定手段７によって、音声データｘのフレームが話者Ｘの音声データであると判定し、この判定結果が、直前のフレームの話者の判定結果と同一であるかを判断する（ステップＳ３９）。そして、同一でない場合（ステップＳ３９でＮｏ）には、直前のフレームまでに同一の判定結果のフレームが最低持続フレーム数を超えて継続しているかを判断する（ステップＳ４０）。

そして、最低持続フレーム数を超えていない場合（ステップＳ４０でＮｏ）には、ステップＳ４６に進む。また、ステップＳ３８における話者の判定結果が直前のフレームの判定結果と同一である場合（ステップＳ３９でＹｅｓ）、又は、同一の判定結果が最低持続フレーム数を超えて継続している場合（ステップＳ４０でＹｅｓ）には、クロストーク音声認識装置１は、話者音声判定手段７によって、減衰器８ａの減衰率、つまり、音声データｘの減衰率をゼロに設定し、減衰器８ｂの減衰率、つまり、音声データｙの減衰率を充分に大きく設定して（ステップＳ４１）、動作を終了する。

また、対数パワー比Ｒ_x（ｌ）が閾値Ｔｈ_R未満であり、かつ、相互相関差Ｄ_x（ｌ）が閾値Ｔｈ_D未満である場合（ステップＳ３７でＮｏ）には、クロストーク音声認識装置１は、話者音声判定手段７によって、ステップＳ３６において算出された対数パワー比Ｒ_y（ｌ）が閾値Ｔｈ_R以上であるか、又は、相互相関差Ｄ_y（ｌ）が閾値Ｔｈ_D以上であるかを判断する（ステップＳ４２）。

そして、対数パワー比Ｒ_y（ｌ）が閾値Ｔｈ_R以上である、又は、相互相関差Ｄ_y（ｌ）が閾値Ｔｈ_D以上である場合（ステップＳ４２でＹｅｓ）には、クロストーク音声認識装置１は、話者音声判定手段７によって、音声データｙのフレームが話者Ｙの音声データであると判定し、この判定結果が、直前のフレームの話者の判定結果と同一であるかを判定する（ステップＳ４３）。そして、同一でない場合（ステップＳ４３でＮｏ）には、直前のフレームまでに同一の判定結果のフレームが最低持続フレーム数を超えて継続しているかを判断する（ステップＳ４４）。

そして、最低持続フレーム数を超えていない場合（ステップＳ４４でＮｏ）には、ステップＳ４６に進む。また、ステップＳ４２における話者の判定結果が直前のフレームの判定結果と同一である場合（ステップＳ４３でＹｅｓ）、又は、同一の判定結果が最低持続フレーム数を超えて継続している場合（ステップＳ４４でＹｅｓ）には、クロストーク音声認識装置１は、話者音声判定手段７によって、減衰器８ａの減衰率、つまり、音声データｘの減衰率を充分に大きく設定し、減衰器８ｂの減衰率、つまり、音声データｙの減衰率をゼロに設定して（ステップＳ４５）、動作を終了する。

また、対数パワー比Ｒ_y（ｌ）が閾値Ｔｈ_R未満であり、かつ、相互相関差Ｄ_y（ｌ）が閾値Ｔｈ_D未満である場合（ステップＳ４２でＮｏ）には、クロストーク音声認識装置１は、話者音声判定手段７によって、直前のフレームの話者の判定結果に基づいて、減衰器８ａ、８ｂの減衰率、つまり、音声データｘ、ｙの減衰率を、直前のフレームと同一の値に設定して（ステップＳ４６）、動作を終了する。

一方、ステップＳ３１において算出されたフレームパワーＰ（ｌ，ｘ）、Ｐ（ｌ，ｙ）に基づいて、ＦＵ状態判定部４ｃによって、フェーダユニットＦＵｘがＯＮでないと判断した場合（ステップＳ３２でＮｏ）、又は、フェーダユニットＦＵｙがＯＮでないと判断した場合（ステップＳ３３でＮｏ）には、クロストーク音声認識装置１は、ＦＵ状態判定部４ｃによって、減衰器８ａ、８ｂの減衰率、つまり、音声データｘ、ｙの両方の減衰率をゼロに設定して（ステップＳ４７）、動作を終了する。

以上の動作によって、クロストーク音声認識装置１は、音声データの各々のフレームがクロストーク成分であるかを判定し、クロストーク成分である場合には、当該フレームを出力する際の減衰器（８ａ又は８ｂ）の減衰率を充分に大きく設定し、クロストーク成分でない場合には、当該フレームを出力する際の減衰器（８ａ又は８ｂ）の減衰率をゼロに設定することができる。

本発明におけるクロストーク音声認識装置の構成を示したブロック図である。話者音声判定手段によって話者を判定する方法を説明するための説明図、（ａ）は、話者の発話区間と対数パワー比経時の変化とを示したグラフ、（ｂ）は、相互相関比の経時変化を示したグラフ、（ｃ）は、話者音声判定手段による話者の判定結果を示した図である。本発明におけるクロストーク音声認識装置の動作を示したフローチャートである。本発明におけるクロストーク音声認識装置が、フレームごとに話者Ｘ、Ｙの音声データであるか、クロストーク成分であるかを判定し、クロストーク成分を減衰させる減衰率を設定する動作（話者判定・減衰率設定動作）を示したフローチャートである。

符号の説明

１クロストーク音声認識装置（特定話者音声出力装置）
２音声データ入力手段
３フレーム抽出手段
４パワー算出手段
４ａ音声データパワー算出部（パワー算出手段）
４ｂ音声データパワー算出部（パワー算出手段）
５相互相関係数算出手段
６平滑処理手段
７話者音声判定手段
８ａ、８ｂ減衰器（音声データ出力手段）
９ａ、９ｂ記憶手段
１０ａ、１０ｂ音声認識手段
１１音声認識結果出力手段
Ｍｘ、Ｍｙマイク
ＦＵｘ、ＦＵｙフェーダユニット
Ａｘ、Ａｙ増幅器

Claims

話者ごとに設けられたマイクから音声データをそれぞれ入力し、少なくとも１つの前記音声データから当該音声データを出力したマイクに対応する話者の音声データを出力する特定話者音声出力装置であって、
前記マイクから前記音声データを入力する音声データ入力手段と、
この音声データ入力手段から入力された前記音声データの各々から、所定データ長のフレームを抽出するフレーム抽出手段と、
このフレーム抽出手段から出力されたフレームのパワーの大きさを算出するパワー算出手段と、
前記フレーム抽出手段によって抽出された、複数の前記音声データのうちの１つの音声データのフレームである対象フレームの時間軸に対して、他の音声データの各々について、当該他の音声データのフレームの時間軸を所定の時間幅ずつずらしたフレーム間の相関を示す相互相関係数を算出する相互相関係数算出手段と、
前記パワー算出手段によって算出された各々の音声データのフレームのパワーの大きさと、前記相互相関係数算出手段によって算出された相互相関係数のうち、前記対象フレームの時間軸に対して、当該他の音声データのフレームの時間軸を所定の時間幅ごとに早める方向にずらした相互相関係数である進み相互相関係数と、当該他の音声データのフレームの時間軸を所定の時間幅ごとに遅らせる方向にずらした相互相関係数である遅れ相互相関係数とに基づいて、当該対象フレームが、当該対象フレームの音声データを出力したマイクに対応する話者である特定話者の音声データであるかを判定する話者音声判定手段と、
この話者音声判定手段によって前記特定話者の音声データであると判定された対象フレームを出力する音声データ出力手段とを備え、
前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定することを特徴とする特定話者音声出力装置。
話者ごとに設けられたマイクから音声データをそれぞれ入力し、少なくとも１つの前記音声データから当該音声データを出力したマイクに対応する話者の音声データを出力するためにコンピュータを、
前記マイクから前記音声データを入力する音声データ入力手段、
この音声データ入力手段から入力された前記音声データの各々から、所定データ長のフレームを抽出するフレーム抽出手段、
このフレーム抽出手段から出力されたフレームのパワーの大きさを算出するパワー算出手段、
前記フレーム抽出手段によって抽出された、複数の前記音声データのうちの１つの音声データのフレームである対象フレームの時間軸に対して、他の音声データの各々について、当該他の音声データのフレームの時間軸を所定の時間幅ずつずらしたフレーム間の相関を示す相互相関係数を算出する相互相関係数算出手段、
前記パワー算出手段によって算出された各々の音声データのフレームのパワーの大きさと、前記相互相関係数算出手段によって算出された相互相関係数のうち、前記対象フレームの時間軸に対して、当該他の音声データのフレームの時間軸を所定の時間幅ごとに早める方向にずらした相互相関係数である進み相互相関係数と、当該他の音声データのフレームの時間軸を所定の時間幅ごとに遅らせる方向にずらした相互相関係数である遅れ相互相関係数とに基づいて、当該対象フレームが、当該対象フレームの音声データを出力したマイクに対応する話者である特定話者の音声データであるかを判定する話者音声判定手段、
この話者音声判定手段によって前記特定話者の音声データであると判定された対象フレームを出力する音声データ出力手段として機能させ、
前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定することを特徴とする特定話者判定プログラム。