JP4510539B2 - 特定話者音声出力装置及び特定話者判定プログラム - Google Patents

特定話者音声出力装置及び特定話者判定プログラム Download PDF

Info

Publication number
JP4510539B2
JP4510539B2 JP2004217299A JP2004217299A JP4510539B2 JP 4510539 B2 JP4510539 B2 JP 4510539B2 JP 2004217299 A JP2004217299 A JP 2004217299A JP 2004217299 A JP2004217299 A JP 2004217299A JP 4510539 B2 JP4510539 B2 JP 4510539B2
Authority
JP
Japan
Prior art keywords
frame
speaker
voice
cross
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004217299A
Other languages
English (en)
Other versions
JP2006039108A (ja
Inventor
庄衛 佐藤
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2004217299A priority Critical patent/JP4510539B2/ja
Publication of JP2006039108A publication Critical patent/JP2006039108A/ja
Application granted granted Critical
Publication of JP4510539B2 publication Critical patent/JP4510539B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、複数の話者が各々のマイクに向かって音声を発した際に、各々のマイクから出力される、当該マイクに対応する話者の音声データと、他の話者の音声データとを含む音声データから、当該マイクに対応する話者の音声データのみを出力する技術に関する。
従来、放送番組への自動字幕付与を目的とした音声認識が実用化されている(例えば、非特許文献1参照)。この技術では、予めテキストデータで作成されたニュース番組の原稿(電子原稿)をもとに、当該電子原稿の一部が修正された原稿を読み上げたアナウンサの音声を音声認識して電子原稿を修正することで、字幕を生成している。そして、例えば、男女などの話者に依存した音響モデル(音素の特徴をモデル化したもの)を使用して音声認識を行うことで、音声認識の認識率を向上させることができる。
また、対談のような複数の話者が交互に音声を発する場合において、各々の話者に対応して話者の近傍に設けられたマイクでは、当該マイク近傍の話者(以下、特定話者という)の音声以外に、他の話者の音声(クロストーク成分)も集音してしまうため、マイクから出力される音声データには、複数の話者の音声が含まれている。そして、この複数の話者の音声が含まれる音声データから、特定話者の音声のみを抽出する技術がある(例えば、非特許文献2参照)。この技術では、マイクから入力される音声データの入力パワー(電力)が小さい場合にはクロストーク成分であると判定するとともに、パワーが大きい場合には特定話者の音声データであると判定し、クロストーク成分を減衰させることで、目的とする話者の音声のみを抽出することができる。
また、特定話者の音声のみを抽出する他の方法として、相互相関係数から推定した伝達特性を利用して、クロストーク成分を算出し、このクロストーク成分をキャンセルする技術が開示されている(非特許文献3参照)。
今井亨、外3名、「ニュース番組自動字幕化のための音声認識システム」、音声言語情報処理技報、1998年10月17日、23−11、p.59−64 DPR−522:BSS Audio Manual,p.18−25 馬屋原将明、外2名、「非線形逐次最小2乗法に基づく耐クロストークノイズキャンセラ」電子情報通信学会論文誌、2002年2月、A Vol.J85−A,No.2,p.162−169
しかしながら、音声認識する際に、話者に合わせた言語モデルを用いるためには、この話者のみの音声データとしなければならず、他の話者の音声データも含まれている場合には認識率が低下してしまうという問題があった。また、複数の話者の各々に対応してマイクを設置して、各々の音声データを音声認識すると、マイクに対応した特定話者の音声以外に他の話者の音声も音声認識されるため、重複した認識結果が出力されてしまうという問題があった。
更に、音声データのパワーの大きさに基づいて、特定話者の音声データのみを抽出する方法では、各々の話者の相対的な声量に差がある場合には、話者の声量差を無くすために各々のマイクに設けられた増幅器における、各々の音声データの増幅率に差が生じる。そのため、この増幅率の差によって、特定話者の音声データとクロストーク成分とのパワーの比が反転し、クロストーク成分のパワーが特定話者のパワーより大きくなることで、誤検出が生じることがあった。また、伝達特性を推定する方法では、比較的大きな演算量が必要となる。
本発明は、前記従来技術の問題を解決するために成されたもので、少ない演算量で精度良く、クロストーク成分を含む音声データから特定話者の音声データのみを抽出することができる特定話者音声出力装置及び特定話者判定プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の特定話者音声出力装置は、話者ごとに設けられたマイクから音声データをそれぞれ入力し、少なくとも1つの前記音声データから当該音声データを出力したマイクに対応する話者の音声データを出力する特定話者音声出力装置であって、音声データ入力手段と、フレーム抽出手段と、パワー算出手段と、相互相関係数算出手段と、話者音声判定手段と、音声データ出力手段とを備え、前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定する構成とした。
かかる構成によれば、特定話者音声出力装置は、音声データ入力手段によって、話者ごとに設けられたマイクから、話者の音声を変換した音声データをそれぞれ入力し、フレーム抽出手段によって、音声データ入力手段から入力された音声データの各々から、所定データ長のフレームを抽出する。そして、特定話者音声出力装置は、パワー算出手段によって、フレーム抽出手段から出力されたフレームのパワーの大きさを算出し、また、相互相関係数算出手段によって、複数の音声データのうち1つの音声データのフレームである対象フレームの時間軸に対して、他の音声データの各々について、当該他の音声データのフレームの時間軸を所定の時間幅ずつずらしたフレーム間の相関を示す相互相関係数を算出する。
ここで、マイクは話者ごとに設けられ、ある話者の発した音声は、この話者から一番近い位置にある、当該話者に対して設けられたマイクに最初に入力される。そして、他のマイクには当該話者から各々のマイクまでの距離の差に応じた時間差を生じて遅れて入力される。
そのため、対象フレームが、当該話者に対応するマイクから入力された当該話者の音声データを含むフレームである場合には、対象フレームと他のフレームとの相互相関係数は、当該対象フレームの時間軸に対して他のフレームの時間軸をその時間差の分だけ早めたときに大きな値となる。また、対象フレームが、当該話者に対応するマイクから入力された音声データのフレームでない場合には、当該話者に対応するマイクから入力された音声データのフレームとの相互相関係数は、当該対象フレームの時間軸に対して、当該話者に対応するマイクから入力された音声データのフレームの時間軸をその時間差の分だけ遅らせた値のときに大きな値となる。
そして、特定話者音声出力装置は、話者音声判定手段によって、パワー算出手段によって算出された各々の音声データのフレームのパワーの大きさと、相互相関係数算出手段によって算出された相互相関係数のうち、対象フレームの時間軸に対して、当該他の音声データのフレームの時間軸を所定の時間幅ごとに早める方向にずらした相互相関係数である進み相互相関係数と、当該他の音声データのフレームの時間軸を所定の時間幅ごとに遅らせる方向にずらした相互相関係数である遅れ相互相関係数とに基づいて、対象フレームの音声データに対応する音声が、特定話者の音声データであるかを判定する。
なお、この話者音声判定手段は、対象フレームのパワーが他の音声データのフレームのパワーより大きい場合には、対象フレームを出力したマイクに入力された話者の音声の大きさが、他のマイクに入力された当該話者の音声の大きさより大きいため、対象フレームの音声が特定話者の音声であると判定することができる。また、話者音声判定手段は、進み相互相関係数と遅れ相互相関係数とに基づいて、他のフレームより先に入力されたものか、あるいは、後に入力されたものかを判定することで、当該対象フレームが、当該対象フレームの音声データを出力したマイクに対応する話者である特定話者の音声データであるかを判定することができる。そして、音声データ出力手段によって、話者音声判定手段によって特定話者の音声データであると判定された対象フレームを出力する。
これによって、特定話者音声出力装置は、複数のマイクから入力された音声データのそれぞれからフレームを抽出し、少なくとも1つの音声データのフレームの各々について、特定話者の音声データであるかを判定して、特定話者のみの音声データを出力することができる。
そして、特定話者音声出力装置は、進み相互相関係数の合計と、遅れ相互相関係数の合計との差分が閾値を超える場合には、対象フレームの音声データに対応する話者の音声が、当該話者に対応するマイクに、他の音声データを出力したマイクより先に入力されていると判断し、対象フレームが特定話者の音声データであると判定することができる。
更に、請求項に記載の特定話者判定プログラムは、話者ごとに設けられたマイクから音声データをそれぞれ入力し、少なくとも1つの前記音声データから当該音声データを出力したマイクに対応する話者の音声データを出力するためにコンピュータを、音声データ入力手段、フレーム抽出手段、パワー算出手段、相互相関係数算出手段、話者音声判定手段、音声データ出力手段として機能させ、前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定すように機能させることとした。
かかる構成によれば、特定話者判定プログラムは、音声データ入力手段によって、話者ごとに設けられたマイクから音声データをそれぞれ入力し、フレーム抽出手段によって、音声データ入力手段によって入力された音声データの各々から、所定データ長のフレームを抽出する。そして、パワー算出手段によって、フレーム抽出手段から出力されたフレームのパワーの大きさを算出し、また、相互相関係数算出手段によって、複数の音声データのうち1つの音声データのフレームである対象フレームの時間軸に対して、他の音声データの各々について、当該他の音声データのフレームの時間軸を所定の時間幅ずつずらしたフレーム間の相関を示す相互相関係数を算出する。
更に、話者音声判定手段によって、パワー算出手段によって算出された各々の音声データのフレームのパワーの大きさと、相互相関係数算出手段で算出された相互相関係数のうち、対象フレームの時間軸に対して、当該他の音声データのフレームの時間軸を所定の時間幅ごとに早める方向にずらした相互相関係数である進み相互相関係数と、当該他の音声データのフレームの時間軸を所定の時間幅ごとに遅らせる方向にずらした相互相関係数である遅れ相互相関係数とに基づいて、当該対象フレームが、当該対象フレームの音声データを出力したマイクに対応する話者である特定話者の音声データであるかを判定する。また、音声データ出力手段によって、話者音声判定手段で特定話者の音声データであると判定された対象フレームを出力する。そして、前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定する。
これによって、特定話者判定プログラムは、複数のマイクから入力された音声データのそれぞれからフレームを抽出し、少なくとも1つの音声データのフレームの各々について、特定話者の音声データであるかを判定して、特定話者のみの音声データを出力することができる。
本発明に係る特定話者音声出力装置及び特定話者判定プログラムでは、以下のような優れた効果を奏する。
請求項に記載の発明によれば、クロストーク成分の含まれる音声データから特定話者の音声データのみを出力することができる。そのため、例えば、トーク番組等の音声を音声認識して字幕を生成する場合には、同一の話者の音声が複数のマイクに入力されることによって同一の音声について複数音声認識されることを防ぐことができる。また、音声データを特定話者に対応した音響モデルに基づいて音声認識することで、高い認識率で音声認識することができる。
また、フレームのパワーの大きさと相互相関係数とに基づいて、対象フレームが特定話者の音声データであるかを判定するため、高い精度で判定することができる。そして、音声データに含まれるクロストーク成分を算出するのではなく、フレームごとにクロストーク成分であるか、あるいは、特定話者の音声であるかのみを判定して、クロストーク成分を除去するため、クロストーク成分を算出する複雑な演算を行う必要がなく、演算量を軽減して処理速度を向上させることができる。
また、請求項に記載の発明によれば、進み相互相関関数の合計と遅れ相互相関関数の合計との差に基づいて、ある話者の音声が、対象フレームに対応するマイクと他のマイクとのどちらに先に入力されたかを判定するため、容易に対象フレームが特定話者の音声データであるかを判定することができる。
以下、本発明の実施の形態について図面を参照して説明する。ここでは本発明を、対談のような複数の話者が交互に音声を発する番組等の音声を音声認識する場合に適用し、クロストーク音声認識装置として構成している。
[クロストーク音声認識装置(特定話者音声出力装置)の構成]
図1を参照して、本発明の実施の形態であるクロストーク音声認識装置1の構成について説明する。図1は、本発明におけるクロストーク音声認識装置の構成を示したブロック図である。クロストーク音声認識装置1は、話者Xと話者Yとの各々に設けられたマイクMx、Myに入力された話者Xと話者Yとの音声を変換した音声データx(x(t))、y(y(t))を、当該マイクMx、Myから入力し、話者Xのみの音声の音声認識結果と話者Yのみの音声の音声認識結果とを出力するものである。ここで、tは、音声データに対応する音声が、マイクMx、Myに入力された時間の時間軸(以下、時間軸という)上における所定の時刻を始点とした時間を示している。ここでは、クロストーク音声認識装置1は、音声データ入力手段2と、フレーム抽出手段3と、フレームパワー算出手段4と、相互相関係数算出手段5と、平滑処理手段6と、話者音声判定手段7と、減衰器8と、記憶手段9と、音声認識手段10と、音声認識結果出力手段11とを備える。
ここで、クロストーク音声認識装置1は、話者Xと話者Yとの音声を音声データx、yに変換するマイクMx、Myと、このマイクMx、Myから入力された音声データx、yを、話者等の操作によって所望の減衰率で減衰させて出力するフェーダユニットFUx、FUyと、このフェーダユニットFUx、FUyから入力された音声データx、yを所望の増幅率で増幅し、増幅された音声データx、yを、当該クロストーク音声認識装置1に出力する増幅器Ax、Ayとを外部に接続し、更に、図示しないA/D(Analog to Digital)変換器によってA/D変換された、時系列の音声データx、yが入力されている。
なお、マイクMx、Myは、それぞれ話者X、Yに対応し、マイクMxは、話者Xから見てマイクMyより近い位置に設置され、マイクMyは、話者Yから見てマイクMxより近い位置に設置されている。そして、話者Xと話者Yとが交互に音声を発した場合には、マイクMxには話者Xの音声H(XX)と、話者Yの音声H(YX)とが交互に入力され、また、マイクMyには話者Xの音声H(XY)と、話者Yの音声H(YY)とが交互に入力される。
音声データ入力手段2は、外部から複数の音声データを入力するものである。ここでは、音声データ入力手段2は、増幅器Ax、Ayから音声データx、yを入力することとした。音声データ入力手段2は、音声データ入力部2aと、音声データ入力部2bとを備える。
音声データ入力部2aは、増幅器Axから音声データxを入力するものである。この音声データxには、話者Xの音声H(XX)の音声データ(話者Xの音声データ)と話者Yの音声H(YX)の音声データ(クロストーク成分)とが含まれている。ここで入力された音声データxは、フレーム抽出手段3の音声データフレーム抽出部3aに出力される。
音声データ入力部2bは、増幅器Ayから音声データyを入力するものである。この音声データyには、話者Xの音声H(XY)の音声データ(クロストーク成分)と話者Yの音声H(YY)の音声データ(話者Yの音声データ)とが含まれている。ここで入力された音声データyは、フレーム抽出手段3の音声データフレーム抽出部3bに出力される。
フレーム抽出手段3は、音声データ入力手段2から入力された音声データx、yの各々から、所定データ長のフレームを抽出するものである。ここでは、フレーム抽出手段3は、音声データフレーム抽出部3aと、音声データフレーム抽出部3bとを備える。なお、フレームのデータ長は、時間軸上におけるフレームの時間幅と音速との積が、話者Xと話者Yとの間の距離より大きくなる任意の長さとすることができる。ここでは、16kHzサンプリングで、400ポイントのサンプリングデータとなるデータ長のフレームを抽出することとした。
音声データフレーム抽出部3aは、音声データ入力部2aから入力された音声データxから所定データ長のフレームを抽出するものである。ここで抽出されたフレームは、フレームパワー算出手段4の音声データパワー算出部4aと、相互相関係数算出手段5と、減衰器8aとに出力される。
音声データフレーム抽出部3bは、音声データ入力部2bから入力された音声データyから所定データ長のフレームを抽出するものである。ここで抽出されたフレームは、フレームパワー算出手段4の音声データパワー算出部4bと、相互相関係数算出手段5と、減衰器8bとに出力される。
フレームパワー算出手段4は、フレーム抽出手段3から入力されたフレームのパワーの大きさ(フレームパワー)を算出し、このフレームパワーに基づいて、フェーダユニットFUx、FUyがマイクMx、Myから入力された音声データを増幅器Ax、Ayに出力していたかを判定するものである。フレームパワー算出手段4は、音声データパワー算出部4aと、音声データパワー算出部4bと、FU状態判定部4cとを備える。
音声データパワー算出部(パワー算出手段)4aは、音声データフレーム抽出部3aによって音声データxから抽出されたフレームのフレームパワーを算出するものである。また、音声データパワー算出部(パワー算出手段)4bは、音声データフレーム抽出部3bによって音声データyから抽出されたフレームのフレームパワーを算出するものである。ここで算出されたフレームパワーは、FU状態判定部4cと、平滑処理手段6とに出力される。
なお、ここでは、フレームパワー算出手段4の音声データパワー算出部4a、4bは、フレームの各ポイントの振幅の2乗和を、当該フレームのフレームパワーとして算出することとした。ここで、音声データパワー算出部4aによって算出される音声データxのフレームパワーP(l,x)と、音声データパワー算出部4bによって算出される音声データyのフレームパワーP(l,y)は、以下の式(1)で表される。なお、ここでは、フレーム抽出手段3が、音声データx(t)、y(t)から、時間軸上において時間幅Nのフレームをシフト幅Mおきに抽出することとした。また、lは、音声データx、yの各々について、時系列にフレームに付されたフレーム番号である。
Figure 0004510539
FU状態判定部4cは、音声データパワー算出部4a、4bから入力される音声データx、yのフレームパワーP(l,x)、P(l,y)に基づいて、後記する減衰器8(8a、8b)の減衰率を設定する、あるいは、後記する相互相関係数算出手段5に対して、当該フレームの相互相関係数を算出する指令を出力するものである。ここで、FU状態判定部4cは、フレームパワーP(l,x)、P(l,y)に基づいて、フェーダユニットFUx、FUyがONになっているか、あるいは、OFFになっているか、つまり、フェーダユニットFUx、FUyがマイクMx、Myから入力された音声データx、yを増幅器Ax、Ayを介してクロストーク音声認識装置1にそのまま出力しているか、あるいは、減衰させているかを判定する。
フェーダユニットFUx、FUyがONになっているときの暗騒音レベルPsil(話者X、Yが発話していないときの音のレベル)と比べて、フェーダユニットFUx、FUyがOFFときのフレームパワーPFU-OFFは充分に小さくなる。そのため、FU状態判定部4cは、PFU-OFF<ThFU<Psilとなる閾値ThFUよりフレームパワーP(l,x)、P(l,y)が小さい場合には、フェーダユニットFUx、FUyがOFFになっており、閾値ThFUよりフレームパワーP(l,x)、P(l,y)が大きい場合には、フェーダユニットFUx、FUyがONになっていると判定することができる。
そして、フェーダユニットFUx、FUyのいずれか一方がOFFになっているときには、ONになっているフェーダユニットFUx、FUyに対応する話者(X又はY)のみが音声を発しているため、音声データx、yのフレームにはクロストーク成分が含まれていない。また、フェーダユニットFUx、FUyの両方がOFFになっているときには、どちらの話者X、Yも音声を発していないため、音声データx、yのフレームにはクロストーク成分が含まれていない。そのため、当該フレームについて、後記する相互相関係数算出手段5と、平滑処理手段6と、話者音声判定手段7とによる処理を行って、当該フレームにクロストーク成分が含まれているかを判定する必要がない。
そこで、FU状態判定部4cは、フェーダユニットFUx、FUyのいずれか一方又は両方がOFFになっていると判定したときには、減衰器8(8a、8b)の減衰率をゼロに設定し、相互相関係数算出手段5に対して、当該フレームの相互相関係数の算出を行う指令を出力しない。これによって、クロストーク音声認識装置1は、相互相関係数算出手段5と、平滑処理手段6と、話者音声判定手段7との当該フレームに対する処理を行わないため、演算量を軽減することができ、処理速度を向上させることができる。
また、FU状態判定部4cは、フェーダユニットFUx、FUyの両方がONになっていると判定したときには、相互相関係数算出手段5に対して、当該フレームの処理を行う指令を出力する。
相互相関係数算出手段5は、FU状態判定部4cから入力される指令に基づいて、フレーム抽出手段3の音声データフレーム抽出部3a、3bから入力された音声データx、yのフレームの相互相関係数を算出するものである。ここで算出された相互相関係数は、平滑処理手段6に出力される。
なお、相互相関係数とは、時系列の2つの関数の一方の時間軸を所定の時間幅ずつずらして、2つの関数を掛け合わせることで得られ、当該2つの関数の相関が高いときには相対的に大きい値となり、相関が小さいときには相対的に小さい値となる。ここでは、相互相関係数算出手段5は、以下の式(2)に示すように、音声データx(t)の各々のフレームについて、音声データy(t)のフレームの時間軸を所定の時間幅τずつずらした相互相関係数C(τ,l)を算出することとした。なお、σx(t)、σy(t)は音声データx、yの当該フレームでの標準偏差であり、各フレームは、フレーム抽出手段3によって、音声データx(t)、y(t)から、時間軸上において時間幅Nでシフト幅Mおきに抽出されていることとする。
Figure 0004510539
平滑処理手段6は、フレームパワー算出手段4の音声データパワー算出部4a、4bから入力されたフレームパワーP(l,x)、P(l,y)と相互相関係数C(τ,l)の平滑化を行うものである。ここでは、平滑処理手段6は、式(3)、(4)に示すように、音声データx、yの各々のフレームについて、各々のフレームを中心とした所定数(np)のフレームのフレームパワーP(l,x)、P(l,y)の平均値P’(l,x)、P’(l,y)と、各々のフレームを中心とした所定数(nc)のフレームの相互相関係数C(τ,l)の平均値C’(τ,l)を算出することで、平滑化を行うこととした。これによって、息つぎ等の音声中の短いポーズ区間や、ペーパーノイズ等の雑音に起因する、後記する話者音声判定手段7における不要な判定結果の切り替わりを防ぐことができる。ここで算出されたフレームパワーの平均値P’(l,x)、P’(l,y)と、相互相関係数の平均値C’(τ,l)は、話者音声判定手段7に出力される。
Figure 0004510539
話者音声判定手段7は、フレームパワーの平均値P’(l,x)、P’(l,y)と、相互相関係数の平均値C’(τ,l)とに基づいて、各々のフレームに対応する話者を判定し、後記する減衰器8の減衰率を設定するものである。
音声を発した話者(X又はY)の音声は、当該話者から一番近い位置にあるマイク(Mx又はMy)に、相対的に大きい音量で入力され、他のマイク(My又はMx)には小さい音量で入力される。そのため、話者音声判定手段7は、同時に変換された音声データのフレームのフレームパワーの平均値P’(l,x)、P’(l,y)が大きい方のフレームを出力したマイク(Mx又はMy)に対応する話者が、当該フレームの音声を出力した話者であると判定することができる。
また、音声を発した話者(X又はY)の音声は、当該話者(X又はY)から一番近い位置にあるマイク(Mx又はMy)に、相対的に早く入力され、他のマイク(My又はMx)には遅れて入力される。そのため、話者音声判定手段7は、音声データ(x又はy)のフレームの相互相関係数の平均値C’(τ,l)が、判定するフレームに対して他の音声データ(y又はx)のフレームの時間軸を早める方向にずらしたときに大きくなる場合に、当該フレームを出力したマイク(Mx又はMy)に対応する話者(X又はY)が、当該フレームの音声を出力した話者であると判定することができる。
そのため、ここでは、話者音声判定手段7は、判定するフレームのフレームパワーの平均値(P’(l,x)又はP’(l,y))の対数から、他の音声データ(y又はx)のフレームのフレームパワーの平均値(P’(l,y)又はP’(l,x))の対数を減算した値(対数パワー比)R(l)が閾値ThR(0<ThR)より大きくなる場合、又は、判定するフレームに対して他の音声データ(y又はx)のフレームの時間軸を早める方向にずらしたときの相互相関係数である進み相互相関係数の平均値の合計から、判定するフレームに対して他の音声データ(y又はx)のフレームの時間軸を遅らせる方向にずらしたときの相互相関係数である遅れ相互相関係数の平均値の合計を減算した値(相互相関差)D(l)が閾値ThD(0<ThD)より大きくなる場合に、当該フレームを出力したマイク(Mx又はMy)に対応する話者(X又はY)を、当該フレームの音声を出力した話者(X又はY)と判定することとした。なお、音声データxのフレームを判定するための対数パワー比Rx(l)及び相互相関差Dx(l)と、音声データyのフレームを判定するための対数パワー比Ry(l)及び相互相関差Dy(l)は、以下の式(5)、(6)によって表される。
Figure 0004510539
そして、話者音声判定手段7は、Rx(l)≧ThR又はDx(l)≧ThDであるときには、音声データxの当該フレームが話者Xの音声データであり、音声データyの当該フレームがクロストーク成分であると判定する。そして、話者音声判定手段7は、後記する減衰器8aの減衰率を充分に小さく、減衰器8bの減衰率を充分に大きく設定する。
また、話者音声判定手段7は、Ry(l)≧ThR又はDy(l)≧ThDであるときには、音声データyの当該フレームが話者Yの音声データであり、音声データxの当該フレームがクロストーク成分であると判定する。そして、話者音声判定手段7は、後記する減衰器8bの減衰率を充分に小さく(例えば、ゼロ)、減衰器8aの減衰率を充分に大きく設定する。
なお、ここでは、話者音声判定手段7は、対数パワー比と相互相関差とに基づく判定結果が矛盾する場合、つまり、対数パワー比Rx(l)及び相互相関差Dy(l)の両方が閾値ThR、ThDを超えている場合や、対数パワー比Ry(l)及び相互相関差Dx(l)の両方が閾値ThR、ThDを超えている場合には、当該フレームの直前の判定結果を採用することとした。また、対数パワー比Rx(l)、対数パワー比Ry(l)、相互相関差Dx(l)及び相互相関差Dy(l)のすべてが閾値ThR、ThDを超えない場合にも、当該フレームの直前の判定結果を採用することとした。これによって、話者音声判定手段7は、頻繁に話者が切り替わることを防ぎ、安定した検出結果を得ることができる。
更に、ここでは、話者音声判定手段7は、継続して同一の話者の音声データであると判定するフレーム数の最小値である最低持続フレーム数を設定し、判定結果が変化した後に、少なくともこの最低持続フレーム数のフレームは同一の判定結果を維持することで、頻繁に話者が切り替わることを防ぎ、安定した検出結果を得ることができる。
ここで、図2を参照して、話者音声判定手段7によって対数パワー比Rx(l)及び相互相関差Dx(l)に基づいて、当該話者の音声データか、あるいは、クロストーク成分かを判定する方法を説明する。図2は、話者音声判定手段によって話者を判定する方法を説明するための説明図、(a)は、話者の発話区間と対数パワー比の経時変化とを示したグラフ、(b)は、相互相関差の経時変化を示したグラフ、(c)は、話者音声判定手段による話者の判定結果を示した図である。
ここで、男性の話者(話者X)と女性の話者(話者Y)とが交互に発話し、男性の話者の声量が大きく、女性の話者の声量が小さい場合には、増幅器Ayによって、マイクMyから入力された音声がより大きく増幅されるため、図2(a)に示すように、男性の話者の発話区間における対数パワー比Rx(l)が、女性の話者の発話区間の対数パワー比Ry(l)(Ry(l)=−Rx(l))に比べて、相対的に値が小さくなることがある。このとき、話者音声判定手段7が、対数パワー比R(l)のみで話者の判定を行うと、男性の話者の発話区間(例えば、時刻5秒〜12秒の間)において対数パワー比Rx(l)が閾値ThRを超えず、誤判定が起きてしまう。
ここで、図2(b)に示すように、対数パワー比Ry(l)が不十分な値となった男性の話者の発話区間において、相互相関差Dx(l)は、閾値ThDを超える値となり、また、女性の話者の発話区間において、相互相関差Dy(l)(Dy(l)=−Dx(l))は、閾値ThDを超える値となった。このように、対数パワー比R(l)だけでなく、相互相関差D(l)に基づいて、話者の判定を行うことで、図2(c)に示すように、実際の男性と女性の話者の発話区間に近い、話者の判定結果を得ることができる。
図1に戻って説明を続ける。減衰器(音声データ出力手段)8は、フレーム抽出手段3から入力された音声データx、yのフレームを、フレームパワー算出手段4のFU状態判定部4cあるいは話者音声判定手段7によって設定された減衰率で減衰させるものである。ここで減衰された音声データは、音声認識手段10に出力される。なお、ここでは、減衰器8aが、音声データフレーム抽出部3aから入力された音声データxのフレームを減衰させて音声認識手段10aに出力し、減衰器8bが、音声データフレーム抽出部3bから入力された音声データyのフレームを減衰させて音声認識手段10bに出力することとした。これによって、減衰器8aは、話者Xの音声データのみを音声認識手段10aに出力し、減衰器8bは、話者Yの音声データのみを音声認識手段10bに出力することができる。
記憶手段9は、後記する音声認識手段10による音声認識に必要となる音響モデルを記憶するもので、半導体メモリ、ハードディスク等の一般的な記憶手段である。ここでは、記憶手段9aは、話者Xに対応した音響モデルであるX音響モデルを記憶し、記憶手段9bは、話者Yに対応した音響モデルであるY音響モデルを記憶することとした。
音声認識手段10は、減衰器8から入力された音声データを、記憶手段9に記憶されたX音響モデルあるいはY音響モデルに基づいて、音声認識するものである。ここでは、音声認識手段10aは、記憶手段9aに記憶されたX音響モデルに基づいて、減衰器8aから入力された音声データを音声認識し、音声認識手段10bは、記憶手段9bに記憶されたY音響モデルに基づいて、減衰器8bから入力された音声データを音声認識することとした。そして、音声認識手段10aによって音声認識された話者X音声認識結果は音声認識結果出力部11aに出力され、音声認識手段10bによって音声認識された話者Y音声認識結果は音声認識結果出力部11bに出力される。
このように、音声認識手段10aは、話者音声判定手段7によって話者Xの音声データと判定された音声データを、話者Xに対応した音響モデルであるX音響モデルに基づいて音声認識し、音声認識手段10bは、話者音声判定手段7によって話者Yの音声データと判定された音声データを、話者Yに対応した音響モデルであるY音響モデルに基づいて音声認識するため、話者に依存しない音響モデルに基づいて音声認識する場合や、クロストーク成分を含む音声データを特定の話者に対応した音響モデル(X音響モデル又はY音響モデル)に基づいて音声認識する場合に比べて高い音声認識率を得ることができる。
音声認識結果出力手段11は、音声認識手段10から入力された音声認識結果を出力するものである。ここでは、音声認識結果出力手段11は、音声認識結果出力部11aと、音声認識結果出力部11bとを備える。
音声認識結果出力部11aは、音声認識手段10aから入力された話者X音声認識結果を外部に出力するものである。また、音声認識結果出力部11bは、音声認識手段10bから入力された話者Y音声認識結果を外部に出力するものである。
以上のようにクロストーク音声認識装置1を構成することで、クロストーク音声認識装置1は、複数の話者X、Yの各々に設けられたマイクMx、Myから入力された音声データx、yに含まれるクロストーク成分を減衰させ、マイクMxから入力された音声データxから話者Xの音声データのみを抽出し、また、マイクMyから入力された音声データyから話者Yの音声データのみを抽出することができる。そして、各々の音声データを各々の話者に対応した音響モデルに基づいて音声認識することで、高い認識率で音声認識を行うことができる。
また、本発明のクロストーク音声認識装置1は、クロストーク成分を算出して、入力された音声データからクロストーク成分を除去するのではなく、フレームごとにクロストーク成分であるかを判定して、クロストーク成分と判定されたフレームを減衰させることでクロストーク成分を除去する。そのため、本発明のクロストーク音声認識装置1は、クロストーク成分を算出する複雑な演算を行う必要がなく、演算量を軽減して処理速度を向上させることができる。
なお、クロストーク音声認識装置1は、コンピュータにおいて各手段を各機能プログラムとして実現することも可能であり、各機能プログラムを結合して、特定話者判定プログラムとして動作させることも可能である。
また、ここでは2人の話者X、Yに対応するマイクMx、Myから2つの音声データx、yを入力し、減衰器8aからは話者Xの音声データを、減衰器8bからは話者Yの音声データを音声認識手段10a、10bに出力することとしたが、本発明のクロストーク音声認識装置1は、どちらか一方の音声データ(x又はy)からクロストーク成分を減衰させて、一方の話者のみの音声データを出力することとしてもよい。
更に、本発明のクロストーク音声認識装置1は、3人以上の話者の各々に対応するマイクから3つ以上の音声データを入力することとしてもよい。このとき、相互相関係数算出手段5は、特定話者に対応するマイクから入力された音声データと、各々の他の音声データとの相互相関係数を算出し、話者音声判定手段7は、他の音声データとの相互相関係数から各々の相互相関差を算出して、すべての相互相関差が閾値ThDを超える場合に、当該フレームを特定話者の音声データと判定することができる。
また、ここでは、話者音声判定手段7によってクロストーク成分と判定されたフレームを減衰器8によって減衰させることとしたが、例えば、クロストーク音声認識装置1が、減衰器8に替えて、フレーム抽出手段3から入力された音声データx、yのフレームのどちらか一方に出力を切り替えるスイッチ手段(図示せず)を備え、このスイッチ手段が、話者音声判定手段7によって話者(X又はY)の音声データと判定されたフレームを出力するように切り替えることとしてもよい。
[クロストーク音声認識装置の動作]
次に、図3及び図4(適宜図1参照)を参照して、本発明におけるクロストーク音声認識装置1が、マイクMx、Myによって変換された音声データを入力し、当該音声データからクロストーク成分を除去して、話者Xと話者Yの各々の音声データを音声認識する動作について説明する。図3は、本発明におけるクロストーク音声認識装置の動作を示したフローチャートである。図4は、本発明におけるクロストーク音声認識装置が、フレームごとに話者X、Yの音声データであるか、クロストーク成分であるかを判定し、クロストーク成分を減衰させる減衰率を設定する動作(話者判定・減衰率設定動作)を示したフローチャートである。
クロストーク音声認識装置1は、音声データ入力手段2の音声データ入力部2aによって、マイクMxによって変換された音声データxを入力し、音声データ入力部2bによって、マイクMyによって変換された音声データyを入力する(ステップS11;音声データ入力ステップ)。そして、クロストーク音声認識装置1は、フレーム抽出手段3によって、ステップS11において入力された音声データx、yの各々からフレームを抽出する(ステップS12;フレーム抽出ステップ)。
更に、クロストーク音声認識装置1は、フレームパワー算出手段4、相互相関係数算出手段5、平滑処理手段6及び話者音声判定手段7によって、後記する話者判定・減衰率設定動作によって、ステップS12において抽出されたフレームごとに、当該フレームを出力したマイクMx、Myに対応する話者X、Yの音声データであるか、あるいは、クロストーク成分であるかを判定し、クロストーク成分を減衰させるように減衰器8a、8bの減衰率を設定する(ステップS13)。
そして、クロストーク音声認識装置1は、減衰器8aによって、ステップS13において設定された減衰率で音声データxの各々のフレームを減衰させ、話者Xの音声データを音声認識手段10aに出力し、減衰器8bによって、ステップS13において設定された減衰率で音声データyの各々のフレームを減衰させ、話者Yの音声データを音声認識手段10bに出力する(ステップS14;音声データ出力ステップ)。
更に、クロストーク音声認識装置1は、音声認識手段10a、10bによって、ステップS14においてクロストーク成分が減衰された各々の音声データを、記憶手段9a、9bに記憶されたX音響モデル及びY音響モデルに基づいて音声認識する(ステップS15)。そして、クロストーク音声認識装置1は、ステップS15において音声認識手段10aによって音声認識された話者X音声認識結果を、音声認識結果出力手段11の音声認識結果出力部11aによって出力し、また、ステップS15において音声認識手段10aによって音声認識された話者Y音声認識結果を、音声認識結果出力部11bによって出力し(ステップS16)、動作を終了する。
(話者判定・減衰率設定動作)
次に図4を参照(適宜図1参照)して、クロストーク音声認識装置1が、音声データx、yのフレームごとに話者X、Yの音声データであるか、あるいは、クロストーク成分であるかを判定し、クロストーク成分を減衰させるように減衰器8a、8bの減衰率を設定する、話者判定・減衰率設定動作(図3のステップS13)について説明する。なお、ここでは、音声データx、yの時間軸上において同一の区間の、1組の音声データx、yのフレームに対する動作について説明する。
まず、クロストーク音声認識装置1は、フレームパワー算出手段4の音声データパワー算出部4a、4bによって、図3のステップS12において抽出された音声データx、yのフレーム(フレーム番号l)のフレームパワーP(l,x)、P(l,y)を算出する(ステップS31;パワー算出ステップ)。
また、クロストーク音声認識装置1は、FU状態判定部4cによって、ステップS31において算出されたフレームパワーP(l,x)に基づいて、フェーダユニットFUxがONかを判定する(ステップS32)。ここで、FU状態判定部4cは、フレームパワーP(l,x)が閾値ThFUより大きい場合には、フェーダユニットFUxがONであると判定する。
そして、フェーダユニットFUxがONである場合(ステップS32でYes)には、クロストーク音声認識装置1は、FU状態判定部4cによって、フェーダユニットFUyがONかを判定する(ステップS33)。ここで、FU状態判定部4cは、ステップS31において算出されたフレームパワーP(l,y)が閾値ThFUより大きい場合には、フェーダユニットFUyがONであると判定する。
そして、フェーダユニットFUyもまたONである場合(ステップS33でYes)には、クロストーク音声認識装置1は、相互相関係数算出手段5によって、図3のステップS12において抽出された音声データx、yのフレームの一方の時間軸を所定の時間幅τずつすらした相互相関係数C(τ,l)を算出する(ステップS34;相互相関係数算出ステップ)。
そして、クロストーク音声認識装置1は、平滑処理手段6によって、ステップS31において算出されたフレームパワーP(l,x)、P(l,y)と、ステップS34において算出された相互相関係数C(τ,l)とを平滑化する(ステップS35)。なお、ここでは、平滑処理手段6は、所定数npのフレームのフレームパワーP(l,x)、P(l,y)の平均値P’(l,x)、P’(l,y)を算出することで、フレームパワーP(l,x)、P(l,y)の平滑化を行い、所定数ncのフレームの相互相関係数C(τ,l)の平均値C’(τ,l)を算出して相互相関係数C(τ,l)の平滑化を行うこととした。
更に、クロストーク音声認識装置1は、話者音声判定手段7によって、ステップS35において算出された音声データx、yのフレームパワーの平均値P’(l,x)、P’(l,y)の各々の対数の差である対数パワー比Rx(l)、Ry(l)と、進み相互相関係数の平均値の合計と、遅れ相互相関係数の平均値の合計との差である相互相関差Dx(l)、Dy(l)とを算出する(ステップS36)。
そして、クロストーク音声認識装置1は、話者音声判定手段7によって、ステップS36において算出された対数パワー比Rx(l)が閾値ThR以上であるか、又は、相互相関差Dx(l)が閾値ThD以上であるかを判断する(ステップS37)。そして、対数パワー比Rx(l)が閾値ThR以上である、又は、相互相関差Dx(l)が閾値ThD以上である場合(ステップS37でYes)には、クロストーク音声認識装置1は、話者音声判定手段7によって、ステップS36において算出された対数パワー比Ry(l)が閾値ThR以上であるか、又は、相互相関差Dy(l)が閾値ThD以上であるかを判断する(ステップS38)。
そして、対数パワー比Ry(l)が閾値ThR以上である、又は、相互相関差Dy(l)が閾値ThD以上である場合(ステップS38でYes)には、そのままステップS46に進む。また、対数パワー比Ry(l)が閾値ThR未満であり、かつ、相互相関差Dy(l)が閾値ThD未満である場合(ステップS38でNo)には、クロストーク音声認識装置1は、話者音声判定手段7によって、音声データxのフレームが話者Xの音声データであると判定し、この判定結果が、直前のフレームの話者の判定結果と同一であるかを判断する(ステップS39)。そして、同一でない場合(ステップS39でNo)には、直前のフレームまでに同一の判定結果のフレームが最低持続フレーム数を超えて継続しているかを判断する(ステップS40)。
そして、最低持続フレーム数を超えていない場合(ステップS40でNo)には、ステップS46に進む。また、ステップS38における話者の判定結果が直前のフレームの判定結果と同一である場合(ステップS39でYes)、又は、同一の判定結果が最低持続フレーム数を超えて継続している場合(ステップS40でYes)には、クロストーク音声認識装置1は、話者音声判定手段7によって、減衰器8aの減衰率、つまり、音声データxの減衰率をゼロに設定し、減衰器8bの減衰率、つまり、音声データyの減衰率を充分に大きく設定して(ステップS41)、動作を終了する。
また、対数パワー比Rx(l)が閾値ThR未満であり、かつ、相互相関差Dx(l)が閾値ThD未満である場合(ステップS37でNo)には、クロストーク音声認識装置1は、話者音声判定手段7によって、ステップS36において算出された対数パワー比Ry(l)が閾値ThR以上であるか、又は、相互相関差Dy(l)が閾値ThD以上であるかを判断する(ステップS42)。
そして、対数パワー比Ry(l)が閾値ThR以上である、又は、相互相関差Dy(l)が閾値ThD以上である場合(ステップS42でYes)には、クロストーク音声認識装置1は、話者音声判定手段7によって、音声データyのフレームが話者Yの音声データであると判定し、この判定結果が、直前のフレームの話者の判定結果と同一であるかを判定する(ステップS43)。そして、同一でない場合(ステップS43でNo)には、直前のフレームまでに同一の判定結果のフレームが最低持続フレーム数を超えて継続しているかを判断する(ステップS44)。
そして、最低持続フレーム数を超えていない場合(ステップS44でNo)には、ステップS46に進む。また、ステップS42における話者の判定結果が直前のフレームの判定結果と同一である場合(ステップS43でYes)、又は、同一の判定結果が最低持続フレーム数を超えて継続している場合(ステップS44でYes)には、クロストーク音声認識装置1は、話者音声判定手段7によって、減衰器8aの減衰率、つまり、音声データxの減衰率を充分に大きく設定し、減衰器8bの減衰率、つまり、音声データyの減衰率をゼロに設定して(ステップS45)、動作を終了する。
また、対数パワー比Ry(l)が閾値ThR未満であり、かつ、相互相関差Dy(l)が閾値ThD未満である場合(ステップS42でNo)には、クロストーク音声認識装置1は、話者音声判定手段7によって、直前のフレームの話者の判定結果に基づいて、減衰器8a、8bの減衰率、つまり、音声データx、yの減衰率を、直前のフレームと同一の値に設定して(ステップS46)、動作を終了する。
一方、ステップS31において算出されたフレームパワーP(l,x)、P(l,y)に基づいて、FU状態判定部4cによって、フェーダユニットFUxがONでないと判断した場合(ステップS32でNo)、又は、フェーダユニットFUyがONでないと判断した場合(ステップS33でNo)には、クロストーク音声認識装置1は、FU状態判定部4cによって、減衰器8a、8bの減衰率、つまり、音声データx、yの両方の減衰率をゼロに設定して(ステップS47)、動作を終了する。
以上の動作によって、クロストーク音声認識装置1は、音声データの各々のフレームがクロストーク成分であるかを判定し、クロストーク成分である場合には、当該フレームを出力する際の減衰器(8a又は8b)の減衰率を充分に大きく設定し、クロストーク成分でない場合には、当該フレームを出力する際の減衰器(8a又は8b)の減衰率をゼロに設定することができる。
本発明におけるクロストーク音声認識装置の構成を示したブロック図である。 話者音声判定手段によって話者を判定する方法を説明するための説明図、(a)は、話者の発話区間と対数パワー比経時の変化とを示したグラフ、(b)は、相互相関比の経時変化を示したグラフ、(c)は、話者音声判定手段による話者の判定結果を示した図である。 本発明におけるクロストーク音声認識装置の動作を示したフローチャートである。 本発明におけるクロストーク音声認識装置が、フレームごとに話者X、Yの音声データであるか、クロストーク成分であるかを判定し、クロストーク成分を減衰させる減衰率を設定する動作(話者判定・減衰率設定動作)を示したフローチャートである。
符号の説明
1 クロストーク音声認識装置(特定話者音声出力装置)
2 音声データ入力手段
3 フレーム抽出手段
4 パワー算出手段
4a 音声データパワー算出部(パワー算出手段)
4b 音声データパワー算出部(パワー算出手段)
5 相互相関係数算出手段
6 平滑処理手段
7 話者音声判定手段
8a、8b 減衰器(音声データ出力手段)
9a、9b 記憶手段
10a、10b 音声認識手段
11 音声認識結果出力手段
Mx、My マイク
FUx、FUy フェーダユニット
Ax、Ay 増幅器

Claims (2)

  1. 話者ごとに設けられたマイクから音声データをそれぞれ入力し、少なくとも1つの前記音声データから当該音声データを出力したマイクに対応する話者の音声データを出力する特定話者音声出力装置であって、
    前記マイクから前記音声データを入力する音声データ入力手段と、
    この音声データ入力手段から入力された前記音声データの各々から、所定データ長のフレームを抽出するフレーム抽出手段と、
    このフレーム抽出手段から出力されたフレームのパワーの大きさを算出するパワー算出手段と、
    前記フレーム抽出手段によって抽出された、複数の前記音声データのうちの1つの音声データのフレームである対象フレームの時間軸に対して、他の音声データの各々について、当該他の音声データのフレームの時間軸を所定の時間幅ずつずらしたフレーム間の相関を示す相互相関係数を算出する相互相関係数算出手段と、
    前記パワー算出手段によって算出された各々の音声データのフレームのパワーの大きさと、前記相互相関係数算出手段によって算出された相互相関係数のうち、前記対象フレームの時間軸に対して、当該他の音声データのフレームの時間軸を所定の時間幅ごとに早める方向にずらした相互相関係数である進み相互相関係数と、当該他の音声データのフレームの時間軸を所定の時間幅ごとに遅らせる方向にずらした相互相関係数である遅れ相互相関係数とに基づいて、当該対象フレームが、当該対象フレームの音声データを出力したマイクに対応する話者である特定話者の音声データであるかを判定する話者音声判定手段と、
    この話者音声判定手段によって前記特定話者の音声データであると判定された対象フレームを出力する音声データ出力手段とを備え、
    前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定することを特徴とする特定話者音声出力装置。
  2. 話者ごとに設けられたマイクから音声データをそれぞれ入力し、少なくとも1つの前記音声データから当該音声データを出力したマイクに対応する話者の音声データを出力するためにコンピュータを、
    前記マイクから前記音声データを入力する音声データ入力手段、
    この音声データ入力手段から入力された前記音声データの各々から、所定データ長のフレームを抽出するフレーム抽出手段、
    このフレーム抽出手段から出力されたフレームのパワーの大きさを算出するパワー算出手段、
    前記フレーム抽出手段によって抽出された、複数の前記音声データのうちの1つの音声データのフレームである対象フレームの時間軸に対して、他の音声データの各々について、当該他の音声データのフレームの時間軸を所定の時間幅ずつずらしたフレーム間の相関を示す相互相関係数を算出する相互相関係数算出手段、
    前記パワー算出手段によって算出された各々の音声データのフレームのパワーの大きさと、前記相互相関係数算出手段によって算出された相互相関係数のうち、前記対象フレームの時間軸に対して、当該他の音声データのフレームの時間軸を所定の時間幅ごとに早める方向にずらした相互相関係数である進み相互相関係数と、当該他の音声データのフレームの時間軸を所定の時間幅ごとに遅らせる方向にずらした相互相関係数である遅れ相互相関係数とに基づいて、当該対象フレームが、当該対象フレームの音声データを出力したマイクに対応する話者である特定話者の音声データであるかを判定する話者音声判定手段、
    この話者音声判定手段によって前記特定話者の音声データであると判定された対象フレームを出力する音声データ出力手段として機能させ、
    前記話者音声判定手段が、前記他の音声データの各々について、前記進み相互相関係数の合計と、前記遅れ相互相関係数の合計との差分が閾値を超える場合に、当該対象フレームが前記特定話者の音声データであると判定することを特徴とする特定話者判定プログラム。
JP2004217299A 2004-07-26 2004-07-26 特定話者音声出力装置及び特定話者判定プログラム Expired - Fee Related JP4510539B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004217299A JP4510539B2 (ja) 2004-07-26 2004-07-26 特定話者音声出力装置及び特定話者判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004217299A JP4510539B2 (ja) 2004-07-26 2004-07-26 特定話者音声出力装置及び特定話者判定プログラム

Publications (2)

Publication Number Publication Date
JP2006039108A JP2006039108A (ja) 2006-02-09
JP4510539B2 true JP4510539B2 (ja) 2010-07-28

Family

ID=35904185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004217299A Expired - Fee Related JP4510539B2 (ja) 2004-07-26 2004-07-26 特定話者音声出力装置及び特定話者判定プログラム

Country Status (1)

Country Link
JP (1) JP4510539B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4527679B2 (ja) * 2006-03-24 2010-08-18 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
CN109994122B (zh) * 2017-12-29 2023-10-31 阿里巴巴集团控股有限公司 语音数据的处理方法、装置、设备、介质和系统
CN110718237B (zh) 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
JP7109349B2 (ja) * 2018-12-04 2022-07-29 富士通株式会社 発話検出プログラム、発話検出方法、および発話検出装置
JP2021043337A (ja) * 2019-09-11 2021-03-18 オンキヨーホームエンターテイメント株式会社 システム
JP7437650B2 (ja) * 2019-11-21 2024-02-26 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
JP7486145B2 (ja) * 2019-11-21 2024-05-17 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6356698A (ja) * 1986-08-27 1988-03-11 沖電気工業株式会社 多数話者音声認識装置
JPH0792988A (ja) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd 音声検出装置と映像切り替え装置

Also Published As

Publication number Publication date
JP2006039108A (ja) 2006-02-09

Similar Documents

Publication Publication Date Title
US10622009B1 (en) Methods for detecting double-talk
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4854630B2 (ja) 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
JP6169849B2 (ja) 音響処理装置
US20120123769A1 (en) Gain control apparatus and gain control method, and voice output apparatus
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
CN112242147A (zh) 一种语音增益控制方法及计算机存储介质
JP4510539B2 (ja) 特定話者音声出力装置及び特定話者判定プログラム
CN113490115A (zh) 一种基于声纹识别技术的声反馈抑制方法及系统
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
EP3748635A1 (en) Acoustic device and acoustic processing method
JP2019020678A (ja) ノイズ低減装置および音声認識装置
KR102588212B1 (ko) Zero UI 기반 자동 통역 시스템 및 방법
JPH09311696A (ja) 自動利得調整装置
JP2010026323A (ja) 話速検出装置
KR102208536B1 (ko) 음성인식 장치 및 음성인식 장치의 동작방법
JP4527654B2 (ja) 音声通信装置
JP7109349B2 (ja) 発話検出プログラム、発話検出方法、および発話検出装置
JP6313619B2 (ja) 音声信号処理装置及びプログラム
JP2005157086A (ja) 音声認識装置
JP2010164992A (ja) 音声対話装置
KR101357381B1 (ko) 강인한 음성 검출을 위한 신호 처리 장치 및 방법
JP2015155982A (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP6079179B2 (ja) ハンズフリー通話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100430

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees