JP5302505B2 - 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム - Google Patents

対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム Download PDF

Info

Publication number
JP5302505B2
JP5302505B2 JP2006326996A JP2006326996A JP5302505B2 JP 5302505 B2 JP5302505 B2 JP 5302505B2 JP 2006326996 A JP2006326996 A JP 2006326996A JP 2006326996 A JP2006326996 A JP 2006326996A JP 5302505 B2 JP5302505 B2 JP 5302505B2
Authority
JP
Japan
Prior art keywords
utterance
speaker
amount
situation
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006326996A
Other languages
English (en)
Other versions
JP2008139654A (ja
Inventor
剛範 辻川
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006326996A priority Critical patent/JP5302505B2/ja
Publication of JP2008139654A publication Critical patent/JP2008139654A/ja
Application granted granted Critical
Publication of JP5302505B2 publication Critical patent/JP5302505B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数の話者の対話音声を含む音声信号ストリームから複数の話者の対話状況を推定できる対話状況区切り推定方法、対話状況推定方法、入力信号クラスタリング方法、入力信号内容推定方法、音声認識方法、音声書き起こし方法、音声検索方法、対話状況区切り推定システム、対話状況推定システム、対話状況区切り推定プログラムおよび対話状況推定プログラムに関する。
日々の生活の様々な場面において、複数の話者による音声対話を目にしたり耳にしたりする。例えば、テレビ番組やラジオ番組などの放送番組、電話、会議、裁判において、またはレストランや街頭、店、電車の中など、あらゆる場面において、人は音声対話を通じてコミュニケーションをとる。
これらの対話音声を音声信号ストリームとして記録・蓄積し、利用したいという要望は高く、様々な利用方法が検討されている。利用する際の大きな問題の1つとして挙げられるのは、音声信号ストリームの中身を知ることの困難さである。
この問題に対して、音声認識システムを用いて音声データをテキスト化するという研究が盛んに行われている。音声認識システムによるテキスト化が実現できれば、音声信号ストリーム中で何が話されているかを直接的に知ることができる。しかし、ニュース番組でアナウンサーが原稿を読み上げる時や講演会で講演者が講演している時などと異なり、人が人と対話している時は、文法が正確ではなく、また丁寧な発話ではないため、対話音声を含む音声信号ストリームに対して高精度な音声認識を実現するのは現状の技術では困難である。
音声信号ストリームの中身を知るための手助けとなるシステムの従来例として、特許文献1に会議概要把握支援システム、特許文献2に会議構造把握支援システムが記載されている。特許文献1、特許文献2に記載されているシステムは、一般的な会議の構造に着目し、与えられた会議音声信号ストリームを分析することにより会議の概要把握または構造把握を支援するシステムである。
特許文献1には、複数の会議参加者の音声信号ストリームから各参加者の発話時間、発話回数、話者間発話遷移回数(話者切り換わり回数)を抽出し、それらを会議概要情報としてユーザーに提示するシステムが記載されている。ユーザーは、提示された会議概要情報と会議の構造に関するユーザーの事前知識を照らし合わせることで、ストリーム中のどの時刻で“議題について説明している”、“会議参加者が議論している”ということを推定できる。
特許文献2には、複数の会議参加者の音声信号ストリームから各参加者の発話量を検出し、各参加者の発話量の変動に基づいて会議における話題の区切れの候補をユーザーに提示するシステムが記載されている。一般的な会議においては、話題区切れの直前で各会議参加者の発話量が減少し、話題区切れの直後で各会議参加者の発話量が増加するという知見に基づいて、話題の区切れの候補を推定し、ユーザーに提示することで、ユーザーは区切れの直前または直後を聴取するだけで、効率よく所望の話題が話されている箇所を与えられた会議音声信号ストリームから知ることができる。
また、特許文献3には、2人以上の人物間における会話の先導者を判別する会話先導者判別装置が記載されている。特許文献3には、ある場のある時間帯における全てのユーザの発話量を検出し、発話量が最大となるユーザを会話先導者として判別することが記載されている。
特開2004−350134号公報(段落0044−0045) 特開2006−081005号公報(段落0027−0033) 特開2005−275536号公報(段落0038−0047)
対話状況の違いによる音声信号ストリームの構造化は音声信号ストリームの中身を知るための有用な手助けとなる。例として、話者A、B、Cの3名により行われた提案会議の音声信号ストリームがあり、会議が次のように進行した場合を想定し、音声信号ストリームの構造化について説明する。
1.Aさんによる提案内容説明
2.Aさんの提案内容に対して、A、B、Cさんで議論
3.Bさんによる提案内容説明
4.Bさんの提案内容に対して、A、B、Cさんで議論
5.Cさんによる提案内容説明
6.Cさんの提案内容に対して、A、B、Cさんで議論
上記1〜6の項目が含まれる音声信号ストリームが与えられた場合に、各項目の区切れを知ることができれば、会議の一部の内容を知りたい場合に有用であることは明らかである。また、区切られた区間に対話状況ラベル(ここでは“Aさんによる説明”、“A、B、Cさんで議論”など)が付与されれば、さらに有用である。また、複数の会議の音声信号ストリームが与えられ、“説明”と“議論”とが繰り返される構造を持つ会議の音声信号ストリームだけを選別したい場合にも、上記対話状況ラベルは有用である。
一方、上述のとおり、特許文献1に記載されている会議概要把握支援システムまたは特許文献2に記載されている会議構造把握支援システムは、会議音声信号ストリームを分析することにより会議の概要把握または構造把握を支援することを意図したものであるが、与えられた音声信号ストリームの対話状況を推定する上で下記の問題点を有している。
第1の問題点は、特許文献1に記載されている会議概要把握支援システムでは、複数の話者間で行われる対話状況の自動推定が困難であるという点である。その理由は、特許文献1に記載のシステムでは、会議概要情報を見て対話状況(音声信号ストリーム中のどの時刻で“議題について説明している”、“会議参加者が議論している”など)や対話状況の区切りを、人が推定しているにすぎないからである。
第2の問題点は、特許文献2に記載されている会議構造把握支援システムでは、複数の話者間で行われる対話状況の推定が困難という点である。その理由は、話題の区切れの候補を推定するために用いる情報が各話者の発話量の変化量にすぎないからである。例えば、2人の話者AとBが対話している場合に、話者Aが主導権を握って話者Bと対話しているのか、話者Aと話者Bが対等に対話しているのかは、話者Aの発話量の時間変化と話者Bの発話量の時間変化を個々に観測してもわからない。
また、特許文献3に記載された方式では、発話量にばらつきがあると判断した場合に、発話量が最大となる人物を会話先導者として判断する。ばらつきの有無を判断する指標として、2話者間の各発話産出率の差を用い、その差が閾値以上の場合にばらつきありと判断している。しかし、話者が3名以上の場合には、全話者に対して各2話者間の発話量の差を算出し、それらを個々に閾値と比較しても、全話者の発話量にばらつきがあるかどうかを判断することができない。なぜなら、上記の処理では、ある2話者間の発話量の差が少ないというだけで、ばらつきがないと判定されてしまうからである。
そこで、本発明は、話者が3名以上であっても、詳細に、音声信号ストリーム中の複数の話者による対話状況の区切りや対話状況を推定したり、音声信号ストリームの内容を推定することができる対話状況区切り推定方法、対話状況推定方法、入力信号クラスタリング方法、入力信号内容推定方法、音声認識方法、音声書き起こし方法、音声検索方法、対話状況区切り推定システム、対話状況推定システム、対話状況区切り推定プログラムおよび対話状況推定プログラムを提供することを目的とする。
本発明による対話状況区切り推定方法は、複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況の区切りを推定する対話状況区切り推定方法であって、入力信号中の音声区間を検出する音声区間検出ステップと、検出した音声区間において発話している話者を特定する発話者特定ステップと、入力信号を所定の時間窓で区切る分割ステップと、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出ステップと、算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出ステップと、算出した話者間の発話量のばらつき度合いを特徴量として用いて、時間窓で区切られた異なる区間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定ステップとを含み、対話状況区切り推定ステップで、時間窓で区切られた少なくとも1つ以上の一の区間と、一の区間とは異なる少なくとも1つ以上の他の区間の特徴量を比較し、両者の特徴量の変化量が所定の基準を満たした場合に、他の区間を対話状況の区切りと推定することを特徴とする。
発話量抽出ステップで、分割ステップで時間窓で区切られた区間毎に、発話者決定ステップで決定された各音声区間の発話者に基づいて、各話者の発話量と、話者の切り替わりに関する値を示す話者切替わり回数を含む話者切替わりパタンとを算出し、対話状況区切り推定ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いと発話量抽出ステップで算出された話者切替わりパタンとを特徴量として、時間窓で区切られた異なる区間における特徴量の変化に基づいて対話状況区切りを推定してもよい。そのような構成によれば、より詳細な対話状況区切りを推定することができる。
発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも1つを含む発話量を算出してもよい。そのような構成によれば、発話回数、平均発話時間および発話時間のうちの少なくとも1つを発話量として抽出することができる。
発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも1つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも1つとを含む発話量を算出してもよい。そのような構成によれば、発話回数、平均発話時間および発話時間のうちの少なくとも1つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも1つとを発話量として抽出することができる。
ばらつき度合抽出ステップで、ばらつき度合を示す指標としてエントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも1つを含む話者間の発話量のばらつき度合いを算出してもよい。そのような構成によれば、エントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも1つをばらつき度合として抽出することができる。
対話状況区切り推定ステップで、時間窓で区切られた異なる区間の特徴量の距離を、予め定められた閾値と比較することにより対話状況区切りを推定してもよい。そのような構成によれば、予め定められた閾値に基づいて対話状況区切りを推定することができる。
対話状況区切り推定ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いを示す特徴量を、予め定められた複数の対話状況に対応したクラスタ、予め定められた複数のクラスタを入力信号に適応させたクラスタおよび入力信号から作成された複数のクラスタのうちの少なくとも1つのクラスタの特徴量と比較し、最も距離が近いクラスタの時間遷移に応じて対話状況区切りを推定してもよい。そのような構成によれば、対話状況クラスタに基づいて対話状況区切りを推定することができる。
本発明による対話状況推定方法は、複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況を推定する対話状況推定方法であって、入力信号中の音声区間を検出する音声区間検出ステップと、検出した音声区間において発話している話者を特定する発話者特定ステップと、入力信号を所定の時間窓で区切る分割ステップと、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出ステップと、算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出ステップと、算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、対話状況に対応付けられた特徴量のモデルを示す予め記憶された対話状況モデルと比較し、その特徴量が示す対話状況の確率値を算出する対話状況モデル比較ステップと、比較した結果として算出された確率値に基づいて、時間位置毎の対話状況を推定する対話状況推定ステップとを含むことを特徴とする。
発話量抽出ステップで、分割ステップで時間窓で区切られた区間毎に、発話者決定ステップで決定された各音声区間の発話者に基づいて、各話者の発話量と、話者の切り替わりに関する値を示す話者切替わりパタンとを算出し、対話状況モデル比較ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いと発話量抽出ステップで算出された話者切替わりパタンとを特徴量として、当該特徴量を対話状況モデルと比較してもよい。そのような構成によれば、より詳細な対話状況区切りを推定することができる。
発話量抽出ステップで、話者切替わり回数を含む話者切替わりパタンを算出してもよい。そのような構成によれば、話者切替わり回数を話者切替わりパタンとして算出することができる。
発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも1つを含む発話量を算出してもよい。そのような構成によれば、発話回数、平均発話時間および発話時間のうちの少なくとも1つを発話量として抽出することができる。
発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも1つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも1つとを含む発話量を算出してもよい。そのような構成によれば、発話回数、平均発話時間および発話時間のうちの少なくとも1つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも1つとを発話量として抽出することができる。
ばらつき度合抽出ステップで、ばらつき度合を示す指標としてエントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも1つを含む話者間の発話量のばらつき度合いを算出してもよい。そのような構成によれば、エントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも1つをばらつき度合として抽出することができる。
対話状況モデル比較ステップで、特徴量を、予め対話状況を示す対話状況ラベルが付与されたデータで学習された対話状況モデル、予め作成された規則に対話状況ラベルが付与された対話状況モデル、予め対話状況ラベルが付与されたデータで学習された対話状況モデルを入力信号の対話状況に適応させた対話状況モデルおよび予め作成された規則に対話状況ラベルが付与された対話状況モデルを入力信号の対話状況に適応させた対話状況モデルのうち少なくとも1つの対話状況モデルと比較してもよい。そのような構成によれば、特徴量を対話状況モデルと比較することができる。
本発明による入力信号クラスタリング方法は、対話状況推定方法によって推定された時間位置毎の対話状況を示す遷移情報を特徴量として、複数の入力信号をクラスタリングするクラスタリングステップを含むことを特徴とする。
本発明による入力信号内容推定方法は、対話状況推定方法によって推定された時間位置毎の対話状況の遷移情報を特徴量として、当該特徴量を、予め入力信号の内容を示す入力信号内容ラベルが付与されたデータで学習された入力信号内容モデルおよび予め作成された規則に入力信号内容ラベルが付与された入力信号内容モデルのうち少なくとも1つの入力信号内容モデルと比較する入力信号内容モデル比較ステップと、入力信号内容モデル比較ステップで比較した結果に基づいて、入力信号の内容を推定する入力信号内容推定ステップとを含むことを特徴とする。
本発明による音声認識方法は、対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声認識に用いられる音響モデル、言語モデル、辞書および音声認識における探索範囲を調整するためのパラメタのうち少なくとも1つを制御するステップを含むことを特徴とする。
本発明による音声書き起こし方法は、対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声認識結果の出力方法を制御するステップを含むことを特徴とする。
本発明による音声検索方法は、対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声検索結果の出力方法を制御するステップを含むことを特徴とする。
本発明による音声検索方法は、入力信号内容推定方法によって推定された入力信号内容に応じて、音声検索結果の出力方法を制御するステップを含むことを特徴とする。
本発明による対話状況区切り推定システムは、複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況の区切りを推定する対話状況区切り推定システムであって、入力信号中の音声区間を検出する音声区間検出手段と、音声区間検出手段が検出した音声区間において発話している話者を特定する発話者特定手段と、入力信号を所定の時間窓で区切る分割手段と、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出手段と、発話量抽出手段が算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出手段と、ばらつき度合抽出手段が算出した話者間の発話量のばらつき度合いを特徴量として用いて、時間窓で区切られた異なる区間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定手段とを備え、対話状況区切り推定手段が、時間窓で区切られた少なくとも1つ以上の一の区間と、一の区間とは異なる少なくとも1つ以上の他の区間の前記特徴量を比較し、両者の特徴量の変化量が所定の基準を満たした場合に、他の区間を対話状況の区切りと推定することを特徴とする。
本発明による対話状況推定システムは、複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況を推定する対話状況推定システムであって、入力信号中の音声区間を検出する音声区間検出手段と、音声区間検出手段が検出した音声区間において発話している話者を特定する発話者特定手段と、入力信号を所定の時間窓で区切る分割手段と、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出手段と、発話量抽出手段が算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出手段と、ばらつき度合抽出手段が算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、対話状況に対応付けられた特徴量のモデルを示す予め記憶された対話状況モデルと比較し、その特徴量が示す対話状況の確率値を算出する対話状況モデル比較手段と、対話状況モデル比較手段が比較した結果として算出された確率値に基づいて、時間位置毎の対話状況を推定する対話状況推定手段とを備えたことを特徴とする。
本発明による対話状況区切り推定プログラムは、複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況の区切りを推定するための対話状況区切り推定プログラムであって、コンピュータに、入力信号中の音声区間を検出する音声区間検出処理と、検出した音声区間において発話している話者を特定する発話者特定処理と、入力信号を所定の時間窓で区切る分割処理と、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出処理と、算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出処理と、算出した話者間の発話量のばらつき度合いを特徴量として用いて、時間窓で区切られた異なる区間おける当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定処理とを実行させ、対話状況区切り推定処理で、時間窓で区切られた少なくとも1つ以上の一の区間と、一の区間とは異なる少なくとも1つ以上の他の区間の特徴量を比較し、両者の特徴量の変化量が所定の基準を満たした場合に、他の区間を対話状況の区切りと推定させることを特徴とする。
本発明による対話状況推定プログラムは、複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況を推定するための対話状況推定プログラムであって、コンピュータに、入力信号中の音声区間を検出する音声区間検出処理と、検出した音声区間において発話している話者を特定する発話者特定処理と、入力信号を所定の時間窓で区切る分割処理と、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出処理と、算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出処理と、算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、対話状況に対応付けられた特徴量のモデルを示す予め記憶された対話状況モデルと比較し、その特徴量が示す対話状況の確率値を算出する対話状況モデル比較処理と、比較した結果として算出された確率値に基づいて、時間位置毎の対話状況を推定する対話状況推定処理とを実行させることを特徴とする。
本発明による対話状況推定方法の好ましい一態様は、複数の話者の音声を含む入力信号における話者間の対話状況区切りを推定する対話状況推定方法であって、入力信号中の音声区間を検出するステップと、検出された音声区間の発話者を決定するステップと、入力信号を時間窓で区切るステップと、時間窓で区切られた区間毎に検出された音声区間から各話者の発話量を求めるステップと、各話者の発話量から話者間の発話量のばらつき度合いを求めるステップと、発話量のばらつき度合いを特徴量として、異なる時間位置間の特徴量の変化から対話状況区切りを推定するステップとを含むことを特徴とする。
本発明による対話状況推定方法の好ましい一態様は、複数の話者の音声を含む入力信号における話者間の対話状況を推定する対話状況推定方法であって、入力信号中の音声区間を検出するステップと、検出された音声区間の発話者を決定するステップと、入力信号を時間窓で区切るステップと、時間窓で区切られた区間毎に検出された音声区間から各話者の発話量を求めるステップと、各話者の発話量から話者間の発話量のばらつき度合いを求めるステップと、発話量のばらつき度合いを特徴量として、予め用意した対話状況モデルと比較するステップと、比較結果から時間位置毎の対話状況を推定するステップとを含むことを特徴とする。
本発明による対話状況推定方法の好ましい一態様は、複数の入力信号をクラスタリングする対話状況推定方法であって、本発明に係る第2の展開形態の対話状況推定方法によって推定された時間位置毎の対話状況の遷移情報を特徴量として、複数の入力信号をクラスタリングするステップを含むことを特徴とする。
本発明による対話状況推定方法の好ましい一態様は、入力信号内容を推定する対話状況推定方法であって、本発明に係る第2の展開形態の対話状況推定方法によって推定された時間位置毎の対話状況の遷移情報を特徴量として、予め用意した入力信号内容モデルと比較するステップと、比較結果から入力信号内容を推定するステップとを含むことを特徴とする。
本発明によれば、入力信号中の音声区間を検出し、検出された音声区間の発話者を決定し、入力信号を時間窓で区切り、時間窓で区切られた区間毎に検出された音声区間から各話者の発話量を求め、各話者の発話量から話者間の発話量のばらつき度合いを求め、発話量のばらつき度合いを特徴量とし、異なる時間位置間の特徴量の変化から対話状況区切りを推定する構成にしたことにより、複数の話者の音声を含む入力信号における話者間の対話状況区切りを推定できる。例えば、2人の話者が対話している場合に、1人の話者が主導権を握ってもう1人の話者と対話しているのか、2人の話者が対等に対話しているのかは、前者は2人の話者の発話量にばらつきがある、後者は2人の話者の発話量のばらつきがないということで判断できる。
また本発明の他の構成によれば、入力信号中の音声区間を検出し、検出された音声区間の発話者を決定し、入力信号を時間窓で区切り、時間窓で区切られた区間毎に検出された音声区間から各話者の発話量を求め、各話者の発話量から話者間の発話量のばらつき度合いを求め、発話量のばらつき度合いを特徴量とし、予め用意した対話状況モデルと比較して、比較結果から時間位置毎の対話状況を推定する構成にしたことにより、複数の話者の音声を含む入力信号における話者間の対話状況を推定できる。
また本発明の他の構成によれば、推定された時間位置毎の対話状況の遷移情報を特徴量として、複数の入力信号をクラスタリングする構成にしたことにより、複数の入力信号をクラスタリングできる。
また本発明の他の構成によれば、推定された時間位置毎の対話状況の遷移情報を特徴量として、予め用意した入力信号内容モデルと比較して、比較結果から入力信号内容を推定する構成にしたことにより、入力信号内容を推定できる。
実施の形態1.
以下、本発明の第1の実施の形態を図面を参照して説明する。図1は、本発明の第1の実施の形態に係る対話状態区切り推定システムの構成例を示すブロック図である。
図1に示す対話状況区切り推定システムは、音声区間検出部1と、発話者決定部2と、音声信号ストリーム分割部3と、発話量抽出部4と、ばらつき度合い抽出部5と、対話状況区切り推定部6とを含む。なお、本実施の形態において、対話状況区切り推定システムは、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
また、対話状況区切り推定システムは、例えば、マイクロフォン等の音声入力装置(図示せず。)から音声信号ストリームを入力し、入力した音声信号ストリームを処理する。また、対話状況区切り推定システムは、例えば、予め音声信号ストリームをデータベースに蓄積し、蓄積する音声信号ストリームを処理する。
音声区間検出部1は、音声信号ストリームを受けて、音声信号ストリーム中の音声区間を検出する機能を備える。発話者決定部2は、検出された音声区間を受けて、音声区間の発話者を決定(特定)する機能を備える。音声信号ストリーム分割部3は、音声信号ストリームを受けて、音声信号ストリームを時間窓で区切る機能を備える。発話量抽出部4は、分割ストリームと音声区間情報と発話者情報とを受けて、分割されたストリーム内の音声区間から各話者の発話量を求める機能を備える。ばらつき度合い抽出部5は、各話者の発話量を受けて話者間の発話量のばらつき度合いを求める機能を備える。対話状況区切り推定部6は、発話量のばらつき度合いを特徴量として受けて、異なる時間位置間の特徴量の変化から対話状況区切りを推定する機能を備える。
次に、動作について説明する。図2は、本発明の第1の実施の形態に係る対話状況区切り推定システムにおける処理手順を示す流れ図である。図1および図2を参照して、本実施の形態の対話状況推定システムの動作について以下に説明する。
まず、音声区間検出部1は、音声信号ストリームを入力する。本例では、音声信号ストリームをs(t)とする。ただし、t は、時間のインデックス(t=0,1,2,…)である。音声区間検出部1は、音声信号ストリームs(t)を受けて、音声区間D(k)=s(ks)〜s(ke) を検出する(ステップS1)。ただし、k は音声区間インデックス(k=0,1,2,…)、ksは音声区間k の始端(ks>=0) 、keは音声区間k の終端(ke>ks) である。
音声区間を検出する方法はどのようなものでもよく、例えば、信号パワー、零交差、調波性、ケプストラムなど音声らしさを表す様々な特徴を用いて音声区間を検出することができる。なお、Push To Talkのようにボタンを押している間のみ話者が話す場合は、ボタンを押している時刻を利用して音声区間を検出できる。その他、音声区間を特定できる情報がある場合は、その情報を利用して音声区間を検出してもよいことは勿論である。また、音声信号ストリームが複数チャネルで構成される場合には、複数チャネルの情報を用いて音声区間を検出してもよいことは勿論である。
音声区間検出部1が音声区間D(k)を検出した後、発話者決定部2は、音声区間D(k)の発話者sp(k) を決定する(ステップS2)。発話者を決定する方法はどのようなものでもよく、例えば、ピッチ周波数、ケプストラム、声道長など話者によって違いが出る特徴量を利用して、発話者を決定することができる。事前に各話者のサンプル音声などを入手可能であれば、そのサンプル音声などとの類似度により発話者を決定することも可能である。また、必ずしも音声区間1つに対して発話者を1名に決定する必要はなく、話者Aである確率0.8 ,話者Bである確率0.2 のように確率値としてもよい。また、入力される音声信号ストリームや用途によっては、発話者を男性と女性、成人と子供、アナウンサーとコメンテーター、クイズ番組の司会と回答者、裁判官と検事と弁護士と被告人、などに分類してもよい。また、話者毎に音声信号ストリームがある場合や、グループ毎に音声信号ストリームがある場合は、その音声信号ストリームがどの話者のものか、またはどのグループのものかという情報を利用して、発話者を決定してもよい。
発話者決定部2が発話者sp(k) を決定した後、ストリーム分割部3は、音声信号ストリームを時間窓で分割する(ステップS3)。分割されたストリームをS(T)=s(Ts)〜s(Te)とする。ただし、T は分割インデックス(T=0,1,2,…)、Tsは分割された区間T の始端(Ts>=0) 、Teは分割された区間Tの終端(Te>Ts) である。なお、時間窓Te-Ts は時変でもよいことは勿論である。また、ストリーム分割部3による分割処理は、音声区間検出部1および発話者決定部2による処理より前または並列に行ってもよいことは勿論である。
音声区間検出部1、発話者決定部2およびストリーム分割部3の処理後、発話量抽出部4は、各話者の発話量Vsp(i,T)を求める(ステップS4)。ただし、i は発話者インデックス(i=0,1,2,…)である。
なお、ここでの「各話者」の意味は、発話者決定部2が決定した発話者の意味(つまり、発話者決定部2で発話者を男性話者、女性話者とした場合は、各話者とは男性話者、女性話者)としてもよいし、ストリーム内で登場する話者の情報が既知である場合にはストリーム内で登場する話者という意味(つまり、ストリーム内で話者A、B、C、Dが登場する場合、各話者とは話者A、B、C、D)としてもよい。
発話量としては、発話時間、発話回数、平均発話時間や他の話者との発話重複時間、他の話者との発話重複回数、他の話者との平均発話重複時間などが考えられる。
発話時間は、検出された音声区間の長さ(ke-ks) を話者毎に和を取ることで計算できる。発話回数は、検出された音声区間の数を話者毎に和を取ることで計算できる。平均発話時間は、話者毎に(発話時間/発話回数)を計算すればよい。なお、/は除算を表す。
他の話者との発話重複時間は、話者間の発話重複区間の長さを話者毎に和を取ることで計算できる。例えば、3名の話者A、B、Cがいる場合、話者Aの発話重複時間は、話者Aと話者Bの発話重複区間の長さと話者Aと話者Cの発話重複区間の長さの和である。他の話者との発話重複回数は、話者間の発話重複区間の数を話者毎に和を取ることで計算できる。他の話者との平均発話重複時間は、話者毎に(他の話者との発話重複時間/他の話者との発話重複回数)を計算すればよい。
なお、上記の計算において、発話者決定部2が、発話者を確率値で算出した場合は、その確率値を重みとして乗算した後に話者毎に和を取ればよい。その他、平均発話時間と他の話者との平均発話重複時間の比など、上記を組み合わせた値や、発話者数、ストリーム分割部における時間窓幅などで正規化した値などを発話量としてもよいことは勿論である。また上記のような発話量(例えば、発話時間など)を複数使用して各話者の発話量を発話量ベクトルとしてもよい。
発話量抽出部4が各話者の発話量Vsp(i,T)を求めた後、ばらつき度合い抽出部5は、話者間の発話量のばらつき度合いE(T)を求める(ステップS5)。なお、発話量抽出部4が、複数の発話量を使用して発話量ベクトルとした場合、ばらつき度合い抽出部5は、ベクトルの次元毎にばらつき度合いE(T)を求める。ばらつき度合いE(T)としては、エントロピー、分散、標準偏差、最大値と最小値の差分値などのばらつき度合いを示す様々な指標を用いることができる。
例えば、ばらつき度合いE(T)としてエントロピーを用いた場合は次のように計算できる。
Figure 0005302505
ただし、以下に示す式(2)は、f(i)をi=0〜N(T)-1 まで加算するということを意味する。N(T)は分割インデックスT における話者数(発話量を求めた話者の数)、log{} は対数関数、p(Vsp(i,T)) は以下に示す式(3)のように発話量Vsp(i,T)の確率値を表す。
Figure 0005302505
Figure 0005302505
なお、エントロピーの最大値log{N(T)} で上記エントロピーE(t)を正規化してもよいことは勿論である。
また、ばらつき度合いE(T)として分散を用いた場合は次のように計算できる。
Figure 0005302505
なお、Vsp(i,T)の代わりに式(3)で定義したp(Vsp(i,T)) を利用してもよいことは勿論である。
ばらつき度合いE(T)として標準偏差を用いた場合は、式(4)の分散の平方根を計算することにより求めることができる。ばらつき度合いE(T)として最大値と最小値の差分を用いた場合は、Vsp(i,T)の最大値と最小値の差を計算すればよい。
なお、ここでは、発話量のばらつきを示す指標として、エントロピー、分散、標準偏差、最大値と最小値の差分値について説明したが、平均偏差、四分位偏差などばらつきを示す他の指標を用いてもよいことは勿論である。また、ばらつき度合いとして、複数の指標を使用して、ばらつき度合いベクトルとしてもよいことは勿論である。
ばらつき度合い抽出部5がばらつき度合いE(T)を求めた後、ばらつき度合いE(T)を特徴量F(T)として、対話状況区切り推定部6は、対話状況区切りを推定する(ステップS6)。推定方法としては、以下のような方法が考えられる。
例えば、閾値と比較する方法による場合、対話状況区切り推定部6は、以下のように対話状況区切りを推定する。
特徴量F(T)と他の分割インデックス(例えばT1=T-1)の特徴量F(T1) の二乗誤差{F(T1)-F(T)}×{F(T1)-F(T)}が閾値THより大きいときに対話状況が変化したとし、そのときのT を対話状況区切りとする。F(T)がベクトルの場合は、ユークリッド距離などの歪を表す尺度を用いて閾値THと比較すればよい。
また、特徴量F(T)と他の分割インデックス区間(例えばT1〜T2)における特徴量F(T1) の平均値aveF(T1〜T2)の二乗誤差{aveF(T1〜T2)-F(T)}×{aveF(T1〜T2)-F(T)}が閾値THより大きいときに対話状況が変化したとし、対話状況区切りとする。勿論、平均値は中央値などで代用することは可能である。F(T)がベクトルの場合は、ユークリッド距離などの歪を表す尺度を用いて閾値THと比較すればよい。
また、例えば、対話状況クラスタの特徴量と比較する方法による場合、対話状況区切り推定部6は、以下のように対話状況区切りを推定する。
特徴量F(T)と予め用意した複数の対話状況クラスタの特徴量Fcとを比較し、比較結果から得られる最も距離が近いクラスタc が分割インデックスT において遷移した場合に、対話状況区切りとする。例えば、対話状況区切り推定部6は、特徴量F(T1) 、F(T2) との距離が近いクラスタはc1であって、特徴量F(T3) 、F(T4) との距離が近いクラスタはc2である場合、分割インデックスT3を対話状況区切りとして推定する。
特徴量F(T)と、予め用意した複数の対話状況クラスタを与えられた音声信号ストリームに適応した対話状況クラスタの特徴量Fcとを比較し、比較結果から得られる最も距離が近いクラスタc が分割インデックスT において遷移した場合に、対話状況区切りとする。
特徴量F(T)と与えられた音声信号ストリームから作成した対話状況クラスタの特徴量Fcとを比較し、比較結果から得られる最も距離が近いクラスタc が分割インデックスT において遷移した場合に、対話状況区切りとする。
上記3種の対話状況クラスタのうち複数種の対話状況クラスタを用いて、複数種の対話状況クラスタに対して、クラスタの遷移が分割インデックスT において同時に起こった場合に、対話状況区切りとする。勿論、クラスタc が遷移してから一定の間に遷移が無かった場合に対話状況区切りとする等のルールを付け加えてもよい。
本発明の第1の実施の形態の作用効果について説明する。本実施の形態では、各話者の発話量のばらつき度合いを求め、その発話量のばらつき度合いを特徴量として対話状況区切りを推定するため、複数の話者の音声を含む音声信号ストリームにおける話者間の対話状況区切りを推定できる。
すなわち、本実施の形態によれば、全ての話者の発話量にもとづいてばらつき度合を産出することから、全話者の発話量にもとづいて対話状況の区切りを推定することができる。
実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図3は、本発明の第2の実施の形態に係る対話状況区切り推定システムの構成例を示すブロック図である。
図3に示す対話状況区切り推定システムを図1に示した対話状況区切り推定システムと比較すると、図1に示す発話量抽出部4が図3では発話量・話者切替わりパタン抽出部41となっている点と、図1に示す対話状況区切り推定部6が図3では対話状況区切り推定部61となっている点のみが相違している。発話量・話者切替わりパタン抽出部41および対話状況区切り推定部61以外の動作は、第1の実施の形態と同様であるため説明を省略し、発話量・話者切替わりパタン抽出部41および対話状況区切り推定部61の説明のみを行う。
発話量・話者切替わりパタン抽出部41は、図1に示す発話量抽出部4で求めた各話者の発話量Vsp(i,T)に加えて、話者切替わりパタンC(T)を求める。話者切替わりパタンとしては、話者切替わり回数が考えられる。また、分割されたストリームS(T)内にM 個の音声区間D(k)が含まれている場合、最大でM-1 回の話者の切替わりが発生するので、実際に話者が切替わった回数をM-1 で正規化した正規化話者切替わり回数なども使用できる。その他、話者Aから話者Bに切替わった回数、話者Aから話者Cに切替わった回数、話者Bから話者Cに切替わった回数、話者Bから話者Aに切替わった回数、などを多次元のベクトルとし、話者切替わりパタンC(T)としてもよい。発話量・話者切替わりパタン抽出部41は、それぞれ、発話量Vsp(i,T)をばらつき度合い抽出部5に出力し、話者切替わりパタンC(T)を次に説明する対話状況区切り推定部61に出力する。
対話状況区切り推定部61は、図1に示す対話状況区切り推定部6が特徴量F(T)として使用した話者間の発話量のばらつき度合いE(T)に加えて、話者切替わりパタンC(T)を特徴量として用い、対話状況区切りを推定する。すなわち、特徴量ベクトルF(T)=[E(T),C(T)]とする。特徴量以外の対話状況区切り推定方法は対話状況区切り推定部6と同じである。
本発明の第2の実施の形態の作用効果について説明する。本実施の形態では、発話量・話者切替わりパタン抽出部41が、発話量に加えて話者切替わりパタンを求め、対話状況区切り推定部61で特徴量に話者切替わりパタンを追加しているため、第1の実施の形態による効果に加えて、より詳細な対話状況区切りを推定することができる。
実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図4は、本発明の第3の実施の形態に係る対話状況推定システムの構成例を示すブロック図である。
図4に示す対話状況推定システムを図1に示した対話状況区切り推定システムと比較すると、図1に示す対話状況区切り推定部6が、図4では対話状況モデル7と対話状況モデル比較部8と対話状況推定部9に置き換わっている点が相違している。対話状況モデル7、対話状況モデル比較部8および対話状況推定部9以外の動作は、第1の実施の形態と同様であるため説明を省略し、対話状況モデル7、対話状況モデル比較部8および対話状況推定部9の説明のみを行う。
対話状況モデル7は、様々な対話状況(例えば、“2名の話者が対等に対話している状況”、“1名が主導権を握って、もう1名は相槌ちのみの対話している状況”など)がラベルとして付与された特徴量のモデルである。例えば、以下のようなものが考えられる。
例えば、特徴量F(T)が閾値以下であるというルールに“1名の話者が発話している対話状況”というラベルが付与され、特徴量F(T)が閾値以上であるというルールに“2名の話者が発話している対話状況”というラベルが付与されたモデルが考えられる。
また、例えば、第1の実施の形態における対話状況区切り推定部6で説明したような対話状況クラスタに、ラベルが付与されたモデルが考えられる。
また、例えば、予め対話状況ラベル付き音声信号ストリームから、ラベル毎にヒストグラムを計算し、頻度の高い複数の箇所にラベルが付与されたモデルが考えられる。
その他、時間的に前後の対話状況に依存したラベルが付与されたモデル、上述のようなモデルを与えられた音声信号ストリームに適応したモデルなど、その他にも様々なモデルを利用できる。
対話状況モデル比較部8は、ばらつき度合い抽出部5がばらつき度合いE(T)を求めた後、ばらつき度合いE(T)を特徴量F(T)とし、対話状況モデル7と比較する。対話状況モデル比較部8は、比較結果として、対話状況モデルでラベルとして付与されている各対話状況と各対話状況に対する確率値を出力する。
対話状況推定部9は、対話状況モデル比較部8が出力した比較結果を基に、対話状況を推定する。単純に比較結果において最も高い確率値の対話状況を出力してもよいし、異なる分割ストリームにおける対話状況を考慮して、対話状況モデル比較部8からの比較結果に重み付けして対話状況を推定し、出力してもよい。また、複数の対話状況を確率の高い順に出力してもよい。
本発明の第3の実施の形態の作用効果について説明する。本実施の形態では、第1の実施の形態の対話状況区切り推定部6に代わって、対話状況モデル7と対話状況モデル比較部8と対話状況推定部9を備え、特徴量に対して対話状況を推定するため、複数の話者の音声を含む音声信号ストリームにおける話者間の対話状況を推定できる。
実施の形態4.
次に、本発明の第4の実施の形態を図面を参照して説明する。図5は、本発明の第4の実施の形態に係る対話状況推定システムの構成例を示すブロック図である。図5に示す対話状況推定システムを図4に示した対話状況推定システムと比較すると、図4に示す発話量抽出部4が図5では発話量・話者切替わりパタン抽出部41となっている点と、図4に示す対話状況モデル比較部8が図5では対話状況モデル比較部81となっている点のみが相違している。発話量・話者切替わりパタン抽出部41と対話状況モデル比較部81以外の動作は第3の実施の形態と同様であるため説明を省略する。また、発話量抽出部4と発話量・話者切替わりパタン抽出部41の相違点は本発明の第2の実施の形態に係る対話状況区切り推定システムの説明において述べたので、ここでは対話状況モデル比較部81の説明のみを行う。
対話状況モデル比較部81は、図4に示す対話状況モデル比較部8が特徴量F(T)として使用した話者間の発話量のばらつき度合いE(T)に加えて、話者切替わりパタンC(T)を特徴量として用い、対話状況モデル7と比較する。すなわち、特徴量ベクトルF(T)=[E(T),C(T)]とする。特徴量以外の対話状況モデル比較方法は対話状況モデル比較部8と同じである。
本発明の第4の実施の形態の作用効果について説明する。本実施の形態では、発話量・話者切替わりパタン抽出部41が、発話量に加えて話者切替わりパタンを求め、対話状況モデル比較部81で特徴量に話者切替わりパタンを追加しているため、第3の実施の形態による効果に加えて、より詳細な対話状況を推定することができる。
実施の形態5.
次に、本発明の第5の実施の形態を図面を参照して説明する。図6は、本発明の第5の実施の形態に係る音声信号ストリームクラスタリングシステムの構成例を示すブロック図である。図6に示す音声信号ストリームクラスタリングシステムは、対話状況推定システム10と、音声信号ストリームクラスタリング部20とを有する。
対話状況推定システム10は、前記した本発明の第3または第4の実施の形態の対話状況推定システムを用いて実現される。すなわち、対話状況推定システム10は、対話状況を推定する。
音声信号ストリームクラスタリング部20は、対話状況推定システム10により推定された対話状況を受け、対話状況の遷移の仕方が類似したもの同士に複数の音声信号ストリームをクラスタリングし、音声信号ストリームクラスタ情報を出力する。勿論、長時間の音声信号ストリームを適当に(対話状況の遷移の仕方に応じて)分割し、分割した音声信号ストリームをクラスタリングすることも可能である。
本発明の第5の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム10により推定された対話状況の遷移の仕方を、音声信号ストリームクラスタリング部20において特徴量として使用し、複数の音声信号ストリームをクラスタリングしているため、対話状況の遷移の仕方が類似したもの同士に複数の音声信号ストリームをクラスタリングすることができる。
実施の形態6.
次に、本発明の第6の実施の形態を図面を参照して説明する。図7は、本発明の第6の実施の形態に係る音声信号ストリーム内容推定システムの構成例を示すブロック図である。図7に示す音声信号ストリーム内容推定システム(入力信号内容推定システム)は、対話状況推定システム10と、音声信号ストリーム内容モデル30と、音声信号ストリーム内容モデル比較部40と、音声信号ストリーム内容推定部50とを有する。
対話状況推定システム10は、前記した本発明の第3または第4の実施の形態の対話状況推定システムを用いて実現される。すなわち、対話状況推定システム10は、対話状況を推定する。
音声信号ストリーム内容モデル30は、様々な音声信号ストリーム内容(例えば、“ブレインストーミングの会議”、“提案会議”、“ニュース番組”、“国会中継番組”、“刑事裁判”など)がラベルとして付与されたモデルである。例えば、以下のようなものが考えられる。
例えば、音声信号ストリーム中の最初から最後まで“複数の話者が順番の規則なく対話している状況”が続いているというルールに“ブレインストーミング”というラベルが付与され、音声信号ストリーム中に“1名の話者が話している状況”と“複数の話者が対話している状況”が繰り返されているというルールに“提案会議”というラベルが付与されたモデルが考えられる。
また、例えば、第5の実施の形態で説明した音声信号ストリームクラスタリングシステムにより作成されたクラスタに、ラベルが付与されたモデルが考えられる。
また、例えば、予め音声信号ストリーム内容ラベル付き音声信号ストリームから、ラベル毎に対話状況の遷移の仕方を抽出し、頻度の高い遷移の仕方にラベルが付与されたモデルが考えられる。その他、様々なモデルが利用できる。
音声信号ストリーム内容モデル比較部40は、対話状況推定システム10から対話状況を受け、音声信号ストリーム内容モデル30と比較する。比較結果として、音声信号ストリーム内容モデル30でラベルとして付与されている各音声信号ストリーム内容と各音声信号ストリーム内容に対する確率値を出力する。なお、対話状況推定システム10から受ける対話状況としては、確率値付きの複数の対話状況であってもよい。その場合、対話状況の遷移の仕方によって、確率値の低いものから候補を枝狩りして、最終的に残った音声信号ストリーム内容とその音声信号ストリーム内容に対する確率値を出力してもよい。また、長時間の音声信号ストリームを適当に(対話状況の遷移の仕方に応じて)分割し、分割した音声信号ストリームに対して音声信号ストリーム内容に対する確率値を出力してもよいことは勿論である。
音声信号ストリーム内容推定部50では、音声信号ストリーム内容比較部40からの比較結果を基に、音声信号ストリーム内容を推定する。単純に比較結果において最も高い確率値の音声信号ストリーム内容を出力してもよいし、複数の音声信号ストリーム内容を確率の高い順に出力してもよい。
本発明の第6の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム10により推定された対話状況の遷移の仕方を、音声信号ストリーム内容モデル比較部40において音声信号ストリーム内容モデル30と比較し、その比較結果から音声信号ストリーム内容推定部50において音声信号ストリーム内容を推定しているため、対話状況の遷移の仕方に応じた音声信号ストリーム内容を推定することができる。
実施の形態7.
次に、本発明の第7の実施の形態を図面を参照して説明する。図8は、本発明の第7の実施の形態に係る音声認識システムの構成例を示すブロック図である。図8に示す音声認識システムは、対話状況推定システム10と、音響モデル・辞書制御部60と、音声認識部70と、辞書80と、音響モデル90とを有する。
対話状況推定システム10は、前記した本発明の第3または第4の実施の形態の対話状況推定システムを用いて実現される。すなわち、対話状況推定システム10は、対話状況を推定する。
音響モデル・辞書制御部60は、対話状況推定システム10からの対話状況に応じて、音声認識部70で用いる辞書80と音響モデル90とを制御する。
例えば、人が人と対話をしている場合、文法が正しくなく、発話も丁寧ではない、つまり話し言葉を使用する。一方、ニュース番組のアナウンサーなどは文法が正しく、発話が丁寧である。したがって、音響モデル・辞書制御部60は、対話状況に応じて、話し言葉用の音響モデル、辞書(言語モデルを含む)と、丁寧な読み上げ用音響モデル、辞書(言語モデルを含む)とを切り換えて使用するように制御する。また切り換えるだけでなく、対話状況に応じて、複数の音響モデル、辞書に重みを掛けて同時に使用するように制御する。また、音響モデル、辞書(言語モデルを含む)の片方だけを制御する。また、音声認識における探索範囲を調整するパラメタなどを制御してもよい(対等に複数の話者が対話している状況では探索範囲を広げるように制御するなど)。
本発明の第7の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム10により推定された対話状況に応じて、音声認識部70で用いる辞書80と音響モデル90を制御することにより、より対話状況に合った音声認識処理となるため、より高精度に音声を認識することができる。
実施の形態8.
次に、本発明の第8の実施の形態を図面を参照して説明する。図9は、本発明の第8の実施の形態に係る音声認識結果を利用する音声書き起こしシステムの構成例を示すブロック図である。図9に示す音声書き起こしシステムは、対話状況推定システム10と、音声認識結果出力制御部100と、音声認識システム110と、音声書き起こし部120とを有する。
対話状況推定システム10は、前記した本発明の第3または第4の実施の形態の対話状況推定システムを用いて実現される。すなわち、対話状況推定システム10は、対話状況を推定する。
音声認識結果制御部100は、対話状況推定システムからの対話状況に応じて、音声認識システム110の出力である音声認識結果を制御する。例えば、人が人と対話している状況の音声を認識した場合と、ニュース原稿を読み上げた場合では後者の音声認識率が高いというのが一般的である。音声認識結果を音声書き起こしの際に利用する場合、高精度の音声認識結果では書き起こし効率が向上するが、低精度の音声認識結果では修正が多く必要となるため、書き起こし効率が劣化する場合がある。したがって、音声認識結果制御部100は、対話状況に応じて、音声認識結果が低精度であるという対話状況では音声認識結果の出力度合いを下げ、音声認識結果が高精度であるという対話状況では音声認識結果の出力度合いを上げるように制御する。
本発明の第8の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム10により推定された対話状況に応じて、音声認識システム110の出力結果を音声認識結果出力制御部100で制御することにより、音声信号ストリームの音声書き起こし効率を向上させることができる。
実施の形態9.
次に、本発明の第9の実施の形態を図面を参照して説明する。図10は、本発明の第9の実施の形態に係る音声検索システムの構成例を示すブロック図である。本発明の第9の実施の形態は、対話状況推定システム10と、音声検索結果出力制御部130と、音声検索部140とを有する。
対話状況推定システム10は、前記した本発明の第3または第4の実施の形態の対話状況推定システムを用いて実現される。すなわち、対話状況推定システム10は、対話状況を推定する。
音声検索結果制御部130は、対話状況推定システムからの対話状況に応じて、音声検索部140の出力である音声検索結果を制御する。例えば、音声検索結果制御部130は、音声信号ストリーム中のある単語が発話された箇所を検索する場合に、対話状況に応じて、検索結果の絞込みをするように制御する。すなわち、音声検索部140における複数の検索結果のうち、複数の話者が対等に対話している状況の検索結果のみを出力するように制御する。勿論、その他の対話状況で絞込みをするように制御することも可能である。
本発明の第9の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム10により推定された対話状況に応じて、音声検索部140の出力結果を音声検索結果出力部130で制御することにより、音声信号ストリームからより柔軟に所望の音声を検索することができる。
実施の形態10.
次に、本発明の第10の実施の形態を図面を参照して説明する。図11は、本発明の第10の実施の形態に係る音声検索システムの構成例を示すブロック図である。本発明の第10の実施の形態は、音声信号ストリーム内容推定システム150と、音声検索結果出力制御部160と、音声検索部140とを有する。
音声信号ストリーム内容推定システム150は、前記した本発明の第6の実施の形態の音声信号ストリーム内容推定システムを用いて実現される。すなわち、音声信号ストリーム内容推定システム150は、音声信号ストリーム内容を推定する。
音声検索結果制御部160は、音声信号ストリーム内容推定システム150からの音声信号ストリーム内容に応じて、音声検索部140の出力である音声検索結果を制御する。例えば、音声信号ストリーム中のある単語が発話された箇所を検索する場合に、音声信号ストリーム内容に応じて、検索結果の絞込みをするように制御する。すなわち、音声検索部140における複数の検索結果は、音声信号ストリーム内容が会議の場合の検索結果のみを出力するように制御する。勿論、その他の音声信号ストリーム内容で絞込みをするように制御することも可能である。
本発明の第10の実施の形態の作用効果について説明する。本実施の形態では、音声信号ストリーム内容推定システム150により推定された音声信号ストリーム内容に応じて、音声検索部140の出力結果を音声検索結果出力部160で制御することにより、音声信号ストリームからより柔軟に所望の音声を検索することができる。特に、複数の音声信号ストリームから所望の音声信号ストリーム内容の所望の音声を検索することができる。
以上、本発明を上記各実施例に即して説明したが、本発明は、上記実施例の構成のみに限定されるものでなく、本発明の原理に準ずる範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
本発明によれば、複数の話者の音声信号が含まれる音声信号ストリームにおける複数の対話状況区切りを推定するといった用途に適用できる。また、複数の話者の音声信号が含まれる音声信号ストリームにおける複数の対話状況を推定するといった用途に適用できる。また、複数の話者の音声信号が含まれる複数の音声信号ストリームをクラスタリングするといった用途に適用できる。また、複数の話者の音声信号が含まれる音声信号ストリームの内容を推定するといった用途に適用できる。
本発明の第1の実施の形態に係る対話状況区切り推定システムの構成例を示すブロック図である。 本発明の第1の実施の形態に係る対話状況区切り推定システムにおける処理手順を示す流れ図である。 本発明の第2の実施の形態に係る対話状況区切り推定システムの構成例を示すブロック図である。 本発明の第3の実施の形態に係る対話状況推定システムの構成例を示すブロック図である。 本発明の第4の実施の形態に係る対話状況推定システムの構成例を示すブロック図である。 本発明の第5の実施の形態に係る音声信号ストリームクラスタリングシステムの構成例を示すブロック図である。 本発明の第6の実施の形態に係る音声信号ストリーム内容推定システムの構成例を示すブロック図である。 本発明の第7の実施の形態に係る音声認識システムの構成例を示すブロック図である。 本発明の第8の実施の形態に係る音声認識結果を利用する音声書き起こしシステムの構成例を示すブロック図である。 本発明の第9の実施の形態に係る音声検索システムの構成例を示すブロック図である。 本発明の第10の実施の形態に係る音声検索システムの構成例を示すブロック図である。
符号の説明
1 音声区間検出部
2 発話者決定部
3 ストリーム分割部
4 発話量抽出部
41 発話量、話者切替わりパタン抽出部
5 ばらつき度合い抽出部
6 対話状況区切り推定部
61 対話状況区切り推定部
7 対話状況モデル
8 対話状況モデル比較部
81 対話状況モデル比較部
9 対話状況推定部
10 対話状況推定システム
20 音声信号ストリームクラスタリング部
30 音声信号ストリーム内容モデル
40 音声信号ストリーム内容モデル比較部
50 音声信号ストリーム内容推定部
60 音響モデル、辞書制御部
70 音声認識部
80 辞書
90 音響モデル
100 音声認識結果出力制御部
110 音声認識システム
120 音声書き起こし部
130 音声検索結果出力制御部
140 音声検索部
150 音声信号ストリーム内容推定システム
160 音声検索結果出力制御部

Claims (24)

  1. 複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況の区切りを推定する対話状況区切り推定方法であって、
    入力信号中の音声区間を検出する音声区間検出ステップと、
    検出した音声区間において発話している話者を特定する発話者特定ステップと、
    入力信号を所定の時間窓で区切る分割ステップと、
    各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出ステップと、
    算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、当該話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出ステップと、
    算出した話者間の発話量のばらつき度合いを特徴量として用いて、前記時間窓で区切られた異なる区間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定ステップとを含み、
    前記対話状況区切り推定ステップで、前記時間窓で区切られた少なくとも1つ以上の一の区間と、前記一の区間とは異なる少なくとも1つ以上の他の区間の前記特徴量を比較し、両者の特徴量の変化量が所定の基準を満たした場合に、前記他の区間を対話状況の区切りと推定する
    ことを特徴とする対話状況区切り推定方法。
  2. 発話量抽出ステップで、分割ステップで所定の時間窓で区切られた区間毎に、発話者決定ステップで決定された各音声区間の発話者に基づいて、各話者の発話量と、話者の切り替わりに関する値を示す話者切替わり回数を含む話者切替わりパタンとを算出し、
    対話状況区切り推定ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いと前記発話量抽出ステップで算出された話者切替わりパタンとを特徴量として、前記時間窓で区切られた異なる区間における特徴量の変化に基づいて対話状況区切りを推定する
    請求項1記載の対話状況区切り推定方法。
  3. 発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも1つを含む発話量を算出する請求項1または請求項2記載の対話状況区切り推定方法。
  4. 発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも1つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも1つとを含む発話量を算出する請求項1または請求項2記載の対話状況区切り推定方法。
  5. ばらつき度合抽出ステップで、ばらつき度合を示す指標としてエントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも1つを含む話者間の発話量のばらつき度合いを算出する請求項1から請求項4のうちのいずれか1項に記載の対話状況区切り推定方法。
  6. 対話状況区切り推定ステップで、前記時間窓で区切られた異なる区間の前記特徴量の距離を、予め定められた閾値と比較することにより対話状況区切りを推定する請求項1から請求項5のうちのいずれか1項に記載の対話状況区切り推定方法。
  7. 対話状況区切り推定ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いを示す特徴量を、予め定められた複数の対話状況に対応したクラスタ、予め定められた複数の前記クラスタを入力信号に適応させた前記クラスタおよび入力信号から作成された複数の前記クラスタのうちの少なくとも1つの前記クラスタの特徴量と比較し、最も距離が近い前記クラスタの時間遷移に応じて対話状況区切りを推定する請求項1から請求項5のうちのいずれか1項に記載の対話状況区切り推定方法。
  8. 複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況を推定する対話状況推定方法であって、
    入力信号中の音声区間を検出する音声区間検出ステップと、
    検出した音声区間において発話している話者を特定する発話者特定ステップと、
    入力信号を所定の時間窓で区切る分割ステップと、
    各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出ステップと、
    算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、当該話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出ステップと、
    算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、対話状況に対応付けられた特徴量のモデルを示す予め記憶された対話状況モデルと比較し、当該特徴量が示す対話状況の確率値を算出する対話状況モデル比較ステップと、
    比較した結果として算出された確率値に基づいて、時間位置毎の対話状況を推定する対話状況推定ステップとを含む
    ことを特徴とする対話状況推定方法。
  9. 発話量抽出ステップで、分割ステップで所定の時間窓で区切られた区間毎に、発話者決定ステップで決定された各音声区間の発話者に基づいて、各話者の発話量と、話者の切り替わりに関する値を示す話者切替わりパタンとを算出し、
    対話状況モデル比較ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いと前記発話量抽出ステップで算出された話者切替わりパタンとを特徴量として、当該特徴量を対話状況モデルと比較する
    請求項8記載の対話状況推定方法。
  10. 発話量抽出ステップで、話者切替わり回数を含む話者切替わりパタンを算出する請求項9記載の対話状況推定方法。
  11. 発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも1つを含む発話量を算出する請求項8から請求項10のうちのいずれか1項に記載の対話状況推定方法。
  12. 発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも1つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも1つとを含む発話量を算出する請求項8から請求項10のうちのいずれか1項に記載の対話状況推定方法。
  13. ばらつき度合抽出ステップで、ばらつき度合を示す指標としてエントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも1つを含む話者間の発話量のばらつき度合いを算出する請求項8から請求項12うちのいずれか1項に記載の対話状況推定方法。
  14. 対話状況モデル比較ステップで、特徴量を、予め対話状況を示す対話状況ラベルが付与されたデータで学習された対話状況モデル、予め作成された規則に対話状況ラベルが付与された対話状況モデル、予め対話状況ラベルが付与されたデータで学習された対話状況モデルを入力信号の対話状況に適応させた対話状況モデルおよび予め作成された規則に対話状況ラベルが付与された対話状況モデルを入力信号の対話状況に適応させた対話状況モデルのうち少なくとも1つの対話状況モデルと比較する請求項8から請求項13のうちのいずれか1項に記載の対話状況推定方法。
  15. 請求項8から請求項14のうちのいずれか1項に記載の対話状況推定方法によって推定された時間位置毎の対話状況を示す遷移情報を特徴量として、複数の入力信号をクラスタリングするクラスタリングステップを含むことを特徴とする入力信号クラスタリング方法。
  16. 請求項8から請求項14のうちのいずれか1項に記載の対話状況推定方法によって推定された時間位置毎の対話状況の遷移情報を特徴量として、当該特徴量を、予め入力信号の内容を示す入力信号内容ラベルが付与されたデータで学習された入力信号内容モデルおよび予め作成された規則に入力信号内容ラベルが付与された入力信号内容モデルのうち少なくとも1つの入力信号内容モデルと比較する入力信号内容モデル比較ステップと、
    前記入力信号内容モデル比較ステップで比較した結果に基づいて、入力信号の内容を推定する入力信号内容推定ステップと
    を含むことを特徴とする入力信号内容推定方法。
  17. 請求項8から請求項14のうちのいずれか1項に記載の対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声認識に用いられる音響モデル、言語モデル、辞書および音声認識における探索範囲を調整するためのパラメタのうち少なくとも1つを制御するステップを含むことを特徴とする音声認識方法。
  18. 請求項8から請求項14のうちのいずれか1項に記載の対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声認識結果の出力方法を制御するステップを含むことを特徴とする音声認識結果を利用する音声書き起こし方法。
  19. 請求項8から請求項14のうちのいずれか1項に記載の対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声検索結果の出力方法を制御するステップを含むことを特徴とする音声検索方法。
  20. 請求項16記載の入力信号内容推定方法によって推定された入力信号内容に応じて、音声検索結果の出力方法を制御するステップを含むことを特徴とする音声検索方法。
  21. 複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況の区切りを推定する対話状況区切り推定システムであって、
    入力信号中の音声区間を検出する音声区間検出手段と、
    前記音声区間検出手段が検出した音声区間において発話している話者を特定する発話者特定手段と、
    入力信号を所定の時間窓で区切る分割手段と、
    各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出手段と、
    前記発話量抽出手段が算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、当該話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出手段と、
    前記ばらつき度合抽出手段が算出した話者間の発話量のばらつき度合いを特徴量として用いて、前記時間窓で区切られた異なる区間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定手段とを備え、
    前記対話状況区切り推定手段は、前記時間窓で区切られた少なくとも1つ以上の一の区間と、前記一の区間とは異なる少なくとも1つ以上の他の区間の前記特徴量を比較し、両者の特徴量の変化量が所定の基準を満たした場合に、前記他の区間を対話状況の区切りと推定する
    ことを特徴とする対話状況区切り推定システム。
  22. 複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況を推定する対話状況推定システムであって、
    入力信号中の音声区間を検出する音声区間検出手段と、
    前記音声区間検出手段が検出した音声区間において発話している話者を特定する発話者特定手段と、
    入力信号を所定の時間窓で区切る分割手段と、
    各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出手段と、
    前記発話量抽出手段が算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、当該話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出手段と、
    前記ばらつき度合抽出手段が算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、対話状況に対応付けられた特徴量のモデルを示す予め記憶された対話状況モデルと比較し、当該特徴量が示す対話状況の確率値を算出する対話状況モデル比較手段と、
    前記対話状況モデル比較手段が比較した結果として算出された確率値に基づいて、時間位置毎の対話状況を推定する対話状況推定手段とを備えた
    ことを特徴とする対話状況推定システム。
  23. 複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況の区切りを推定するための対話状況区切り推定プログラムであって、
    コンピュータに、
    入力信号中の音声区間を検出する音声区間検出処理と、
    検出した音声区間において発話している話者を特定する発話者特定処理と、
    入力信号を所定の間窓で区切る分割処理と、
    各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出処理と、
    算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、当該話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出処理と、
    算出した話者間の発話量のばらつき度合いを特徴量として用いて、前記時間窓で区切られた異なる区間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定処理とを実行させ、
    前記対話状況区切り推定処理で、前記時間窓で区切られた少なくとも1つ以上の一の区間と、前記一の区間とは異なる少なくとも1つ以上の他の区間の前記特徴量を比較し、両者の特徴量の変化量が所定の基準を満たした場合に、前記他の区間を対話状況の区切りと推定させる
    ための対話状況区切り推定プログラム。
  24. 複数の話者の音声を含む入力信号が示す場面に応じた少なくとも1名以上の話者の発話の当該入力信号中の一定期間におけるまとまりを示す対話状況を推定するための対話状況推定プログラムであって、
    コンピュータに、
    入力信号中の音声区間を検出する音声区間検出処理と、
    検出した音声区間において発話している話者を特定する発話者特定処理と、
    入力信号を所定の時間窓で区切る分割処理と、
    各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出処理と、
    算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いとして、当該話者間の各発話の発話量の分散度合いを算出するばらつき度合抽出処理と、
    算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、対話状況に対応付けられた特徴量のモデルを示す予め記憶された対話状況モデルと比較し、当該特徴量が示す対話状況の確率値を算出する対話状況モデル比較処理と、
    比較した結果として算出された確率値に基づいて、時間位置毎の対話状況を推定する対話状況推定処理とを実行させる
    ための対話状況推定プログラム。
JP2006326996A 2006-12-04 2006-12-04 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム Active JP5302505B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006326996A JP5302505B2 (ja) 2006-12-04 2006-12-04 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006326996A JP5302505B2 (ja) 2006-12-04 2006-12-04 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム

Publications (2)

Publication Number Publication Date
JP2008139654A JP2008139654A (ja) 2008-06-19
JP5302505B2 true JP5302505B2 (ja) 2013-10-02

Family

ID=39601177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006326996A Active JP5302505B2 (ja) 2006-12-04 2006-12-04 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム

Country Status (1)

Country Link
JP (1) JP5302505B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5052449B2 (ja) * 2008-07-29 2012-10-17 日本電信電話株式会社 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP5691174B2 (ja) * 2010-01-05 2015-04-01 富士通株式会社 オペレータ選定装置、オペレータ選定プログラム、オペレータ評価装置、オペレータ評価プログラム及びオペレータ評価方法
JP6440967B2 (ja) * 2014-05-21 2018-12-19 日本電信電話株式会社 文末記号推定装置、この方法及びプログラム
JP6303971B2 (ja) * 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
JP6589040B1 (ja) * 2018-01-16 2019-10-09 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP7279928B2 (ja) 2019-03-14 2023-05-23 ハイラブル株式会社 議論分析装置及び議論分析方法
JP7168223B2 (ja) * 2019-10-28 2022-11-09 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
KR102661537B1 (ko) * 2023-11-07 2024-04-25 전훈철 가상 공간에서 언어 학습을 제공하기 위한 장치, 시스템, 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3664499B2 (ja) * 1994-08-16 2005-06-29 富士通株式会社 音声情報の処理方法及びその装置
JP4183645B2 (ja) * 2004-03-23 2008-11-19 株式会社国際電気通信基礎技術研究所 会話先導者判別装置および会話先導者判別方法
JP4011573B2 (ja) * 2004-09-10 2007-11-21 日本電信電話株式会社 会議構造把握支援方法、装置、プログラム、及び該プログラムを格納した記録媒体
JP2006251042A (ja) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP2008139654A (ja) 2008-06-19

Similar Documents

Publication Publication Date Title
US11636860B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
JP5302505B2 (ja) 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム
US9881617B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
Meignier et al. Step-by-step and integrated approaches in broadcast news speaker diarization
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
US9672825B2 (en) Speech analytics system and methodology with accurate statistics
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
Vinciarelli Speakers role recognition in multiparty audio recordings using social network analysis and duration distribution modeling
Yella et al. Overlapping speech detection using long-term conversational features for speaker diarization in meeting room conversations
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
Ajmera et al. Robust audio segmentation
JP2012048119A (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
Makishima et al. Joint Autoregressive Modeling of End-to-End Multi-Talker Overlapped Speech Recognition and Utterance-level Timestamp Prediction
Kumar et al. Robust Multichannel Gender Classification from Speech in Movie Audio.
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
Park et al. GMM adaptation based online speaker segmentation for spoken document retrieval
CN116483960B (zh) 对话识别方法、装置、设备以及存储介质
Breslin et al. Continuous asr for flexible incremental dialogue
US12087307B2 (en) Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
US11984127B2 (en) Training and using a transcript generation model on a multi-speaker audio stream
SPEAKER TROPE
CN116052650A (zh) 一种语音识别方法、装置、存储介质及设备
Diliberto et al. Speaker diarization with overlapped speech
CN118430538A (zh) 一种纠错多模态模型构建方法、系统、设备及介质
Uebler et al. Is speech technology ready for use now?

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110912

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120605

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120613

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130621

R150 Certificate of patent or registration of utility model

Ref document number: 5302505

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150