JP2005196025A - 会話状態判別装置および会話状態判別プログラム - Google Patents

会話状態判別装置および会話状態判別プログラム Download PDF

Info

Publication number
JP2005196025A
JP2005196025A JP2004003976A JP2004003976A JP2005196025A JP 2005196025 A JP2005196025 A JP 2005196025A JP 2004003976 A JP2004003976 A JP 2004003976A JP 2004003976 A JP2004003976 A JP 2004003976A JP 2005196025 A JP2005196025 A JP 2005196025A
Authority
JP
Japan
Prior art keywords
state
conversation
conversation state
predetermined time
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004003976A
Other languages
English (en)
Inventor
Mayumi Bouno
真弓 坊農
Noriko Suzuki
紀子 鈴木
Takahiro Katagiri
恭弘 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004003976A priority Critical patent/JP2005196025A/ja
Publication of JP2005196025A publication Critical patent/JP2005196025A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【構成】 会話状態判別装置10はコンピュータ12を含み、コンピュータ12はマイク14の出力を受けて、データベース16に入力する。つまり、会話の先導者Aの発話に対応する音声信号がデータベース16に登録される。コンピュータ12は、音声信号から発話区間と無音区間を検出し、その後、無音区間の長さに基づいて会話状態を判別する。つまり、会話の先導者Aが存在する場の会話状態を判別する。
【効果】 会話の先導者の音声のみに基づいて会話状態が判別できるので、判別が簡単である。
【選択図】 図1

Description

この発明は会話状態判別装置および会話状態判別プログラムに関し、特にたとえば、会話の先導者が存在する場における会話状態を判別する、会話状態判別装置および会話状態判別プログラムに関する。
この種の会話状態判別装置についての従来技術は存在しなかった。近似する従来技術の一例が特許文献1に開示される。この特許文献1に開示される音声認識装置は、入力される信号を音響分析して、発声区間および無音区間を検出し、HMM照合方式によってパターン照合する際に、無音区間をパターン照合の対象外とするものであった。
特開2001−13988号
しかし、この従来技術では、音声信号の無音区間をパターン照合の対象外とすることにより、高精度の認識を可能とするものであり、会話の起こり得る場における会話状態を判別することはできなかった。
それゆえに、この発明の主たる目的は、会話の起こり得る場における会話状態を容易に判別できる、会話状態判別装置および会話状態判別プログラムを提供することである。
請求項1の発明は、会話の先導者の音声を収集するためのマイク、マイクの出力に基づいて、少なくとも音声の無音区間についての長さを検出する長さ検出手段、および長さ検出手段の検出結果に基づいて、先導者が存在する場の会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する判別手段を備える、会話状態判別装置である。
請求項1の発明では、会話状態判別装置は、会話の先導者が存在する場における会話状態を判別する。マイクは会話の先導者の音声を収集する。長さ検出手段は、少なくとも会話先導者の音声の無音区間についての長さを検出する。判別手段は、長さ検出手段の検出結果すなわち無音区間の長さに基づいて、会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する。
たとえば、説明状態とは、会話の先導者が一方的に発話している状態をいう。また、対話状態とは、会話の先導者と当該先導者が存在する場に存在する聴衆との間において対話(双方向で発話)している状態をいう。さらに、会話なし状態とは、会話の先導者の発話がなく、しかも、当該先導者とその場に存在する聴衆との間における対話もない状態をいう。
請求項1の発明によれば、会話の先導者の音声のみの無音区間に基づいて当該先導者が存在する場の会話状態を判別できるので、会話の起こり得る場の会話状態を容易に判別することができる。
請求項2の発明は請求項1に従属し、判別手段は、無音区間の長さが第1所定時間未満のとき、会話状態を説明状態と判別し、無音区間の長さが第1所定時間よりも長い第2所定時間よりも大きいとき、会話状態を会話なし状態と判別し、そして、無音区間の長さが第1所定時間以上第2所定時間以下のとき、会話状態を対話状態と判別する。
請求項2の発明では、判別手段は、無音区間の長さが第1所定時間未満のとき、会話状態を説明状態と判別する。また、判別手段は、無音区間の長さが第1所定時間よりも長い第2所定時間を超えているとき、会話状態を会話なし状態と判別する。さらに、判別手段は、無音区間の長さが第1所定時間以上第2所定時間以下であるとき、会話状態を対話状態と判別する。たとえば、会話の先導者が一方的に発話している場合に現われる無音区間は比較的短い時間であり、会話の先導者と聴衆との間で双方向に発話している場合に現われる無音区間は、一方が発話している時間と同じ或いはほぼ同じ時間であり、会話の先導者および聴衆が発話していない場合に現われる無音区間は比較的長い時間である。したがって、第1所定時間や第2所定時間は経験的に得られる値である。また、発話する速度は、先導者毎に異なるため、各先導者に応じて設定される値でもある。
請求項2の発明によれば、無音区間の長さに応じて、会話状態を正確に判別することができる。
請求項3の発明は請求項1または2に従属し、長さ検出手段の検出結果に基づいて、会話状態を説明状態、対話状態および会話なし状態の間で遷移させる状態遷移手段をさらに備える。
請求項3の発明では、無音区間の長さに応じて、会話状態を説明状態、対話状態および会話なし状態の間で遷移させる。これは、会話状態は時間とともに変化するからである。
請求項3の発明によれば、会話状態を無音区間の長さに応じて遷移させることができるので、或る程度の期間における会話状態の変化ないし遷移を知ることができる。
請求項4の発明は請求項3に従属し、状態遷移手段は、会話状態が対話状態または会話なし状態である場合において、第1所定時間未満の長さの無音区間が現われると、会話状態を説明状態に遷移させ、会話状態が説明状態または対話状態である場合において、第2所定時間よりも長い無音区間が現われると、会話状態を会話なし状態に遷移させ、そして、会話状態が説明状態または会話なし状態である場合において、第1所定期間以上所定期間以下の長さの無音区間が現われると、会話状態を対話状態に遷移させる。
請求項4の発明では、状態遷移手段は、会話状態が対話状態または会話なし状態である場合において、第1所定時間未満の長さの無音区間が現われると、会話状態を説明状態に遷移させる。また、状態遷移手段は、会話状態が説明状態または対話状態である場合において、第2所定時間よりも長い無音区間が現われると、会話状態を会話なし状態に遷移させる。そして、状態遷移手段は、会話状態が説明状態または会話なし状態である場合において、第1所定期間以上第2所定期間以下の長さの無音区間が現われると、会話状態を対話状態に遷移させる。つまり、1の状態において他の状態と判別される無音区間が現われると、当該他の状態に遷移するのである。
請求項4の発明によれば、無音区間の長さに応じて正確に会話状態を遷移させることができる。
請求項5の発明は請求項3に従属し、状態遷移手段は、会話状態が対話状態である場合において、第1所定時間未満の長さの無音区間が第1所定回数連続して現われると、会話状態を説明状態に遷移させ、会話状態が説明状態または対話状態である場合において、第2所定時間よりも長い無音区間が現われると、会話状態を会話なし状態に遷移させ、会話状態が説明状態または会話なし状態である場合において、第1所定時間以上第2所定時間以下の長さの無音区間が第2所定回数連続して現われると、会話状態を対話状態に遷移させ、そして、会話状態が会話なし状態である場合において、第1所定時間未満の長さの無音区間が現われると、会話状態を説明状態に遷移させ、または、第1所定時間以上第2所定時間以下の長さの無音区間が現われると、会話状態を対話状態に遷移させる。
請求項5の発明は請求項4の発明とほぼ同じであり、状態遷移手段は説明状態と対話状態との間で状態を遷移させるのは、または、その逆の場合には、他方の状態と判別される無音区間が所定回数連続して現われたときである。
請求項5の発明によれば、無音区間に応じて正確に会話状態を遷移させることができ、さらに、説明状態と対話状態との間の遷移をより正確に行うことができる。
請求項6の発明は請求項1ないし5のいずれかに従属し、無音区間は、先導者の音声のうち隣接する2つの発話区間で区切られる、かつ第3所定時間以上継続する区間で規定される。
請求項6の発明では、無音区間は、先導者の音声のうち隣接する2つの発話区間で区切られ、さらに、その区切られた期間が第3所定時間以上継続する区間で規定される。したがって、息継ぎのような休止状態を無音区間に含まないようにすることができる。
請求項6の発明によれば、息継ぎのような休止状態を無音区間に含まないので、現実に発話がない区間を無音区間として検出でき、正確な会話状態の判別或いは会話状態の遷移を行うことができるのである。
請求項7の発明は、会話の先導者が存在する場の会話状態を判別する会話状態判別プログラムである。この会話状態判別プログラムは、コンピュータに、会話の先導者の音声に対応する音声信号に基づいて、少なくとも音声の無音区間についての長さを検出する長さ検出ステップと、長さ検出ステップの検出結果に基づいて、先導者が存在する場の会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する判別ステップとを、実行させる。
請求項7の発明においても、請求項1の発明と同様に、会話の起こり得る場の会話状態を容易に判別することができる。
請求項8の発明は請求項7に従属し、判別ステップは、無音区間の長さが第1所定時間未満のとき、会話状態を説明状態と判別し、無音区間の長さが第1所定時間よりも長い第2所定時間よりも長いとき、会話状態を会話なし状態と判別し、そして、無音区間の長さが第1所定時間以上第2所定時間以下のとき、会話状態を対話状態と判別する。
請求項8の発明においても、請求項2の発明と同様に、無音区間の長さに応じて、会話状態を正確に判別することができる。
この発明によれば、会話の先導者の音声のみに含まれる無音区間の長さに基づいて会話状態を判別するので、会話の起こり得る場における会話状態を容易に判別することができる。
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1を参照して、この実施例の会話状態判別装置10はコンピュータ12を含み、コンピュータ12にはマイク14およびデータベース16が接続される。コンピュータ12は、たとえば、パーソナルコンピュータ或いはワークステーションである。マイク14は、たとえば声帯マイクであり、会話の先導者(この実施例では、先導者A)の喉に装着され、当該先導者Aの音声を収集(収音)して、コンピュータ12を介してデータベース16に入力する。ただし、会話の先導者の音声のみを収音できればよいので、単一指向性マイクを用いるようにしてもよい。また、マイク14の出力を、直接データベース16に入力するようにしてもよい。
また、コンピュータ12には、必要に応じて、ディスプレイやスピーカのような出力装置18を接続することもでき、出力装置18を接続した場合には、後述するように判別した会話状態を画面表示ないしは音声出力することができる。図1においては、会話状態判別装置10は出力装置18を含まないように示してあるが、含まれるようにしてもよい。
なお、図1では、分かり易く示すために、マイク14は、先導者Aから少し離れた位置に示してある。また、図1では、マイク14はコンピュータ12に有線接続されるように示してあるが、ワイヤレスにすることも可能である。
データベース16は、上述したように、マイク14を通して入力される先導者Aの音声(音声信号)を記録する。この実施例では、データベース16はコンピュータ12とは別個独立に設けるようにしてあるが、データベース16に代えて、コンピュータ12内に設けられるハードディスク(図示せず)を用いるようにすることもできる。また、データベース16は、先導者Aの音声信号から発話区間と無音区間とを検出した結果、および会話状態を判別した結果も記憶する。
図2はデータベース16の内容を模式的に示した図であり、データベース16は、音声記憶領域30および会話状態記憶領域32を含む。音声記憶領域30には、先導者Aの音声信号30aが記憶され、会話状態記憶領域32には、先導者Aの会話状態データ32aが記憶される。音声信号30aは、たとえば、マイク14が有効な期間(能動化された期間)におけるマイク14の出力(先導者Aの音声)を記録したものである。会話状態データ32aは、音声信号30aから発話区間と無音区間とを検出した結果および無音区間から会話状態を判別した結果についてのデータ(テーブルデータ)である。
具体的には、図3に示すように、会話状態データ32aは、複数のテーブルデータ320a,320b,320c,320d,…を含み、各テーブルには、テーブル番号に対応して、発話区間または無音区間の長さ(期間ないし時間:単位は秒である。)、発話区間(オン)または無音区間(オフ)の別を示すラベルおよび会話状態の判別結果が記述される。以下では、発話区間に付されたラベルをオンラベルと呼び、無音区間に付されたラベルをオフラベルと呼ぶことにする。また、図3に示すように、この実施例では、会話状態は1文字のアルファベットで記述され、“L”は会話状態が説明(Lecture)状態であることを示し、“I”は会話状態が対話(Interaction)状態であることを示し、“N”は会話状態が会話なし(Non-Conversation)状態であることを示す。
ここで、説明状態とは、会話の先導者が一方的に発話している状態をいう。また、対話状態とは、会話の先導者と当該先導者が存在する場に存在する聴衆との間において対話(双方向で発話)している状態をいう。さらに、会話なし状態とは、会話の先導者の発話がなく、しかも、当該先導者とその場に存在する聴衆との間における対話もない状態をいう。なお、この実施例において、会話状態という場合には、説明状態、対話状態および会話なし状態のうちいずれか1つ、または、これらすべてを含むことがある。
この実施例では、会話状態はコンピュータ12によって判別される。まず、コンピュータ12は、音声信号30aを参照して、テーブルデータ(図3参照)のうちの期間およびラベルを記述する。つまり、先導者Aの音声についての発話区間と無音区間とを検出し、たとえば、テーブル番号の若い番号から順に、時系列に従って、期間およびラベルを記述する。このとき、音声信号のうち、所定の閾値よりも大きいレベル(パワー)の部分を発話と判断し、所定の閾値以下のパワーの部分を無音と判断する。ただし、会話の先導者の息継ぎ(ブレス)等による休止(ポーズ)を無音区間と判断しないように、所定の閾値以下のパワーであり、その状態が所定時間(この実施例では、300msec)以上続いた場合に、無音区間と判断するようにしてある。
テーブルデータについての期間およびラベルが記述されると、コンピュータ12は、次に会話状態を判別し、その判別結果を当該テーブルデータに記述する。判別方法について詳しく説明すると、コンピュータ12は、着目する発話区間(オンラベル)の直前に存在する無音区間(オフラベル)の長さを検出し、無音区間の長さがt1秒(この実施例では、1秒)未満である場合には、会話状態が説明状態であると判別する。また、コンピュータ12は、無音区間の長さがt1秒以上t2秒(この実施例では、10秒)以下である場合には、会話状態が対話状態であると判別する。さらに、コンピュータ12は、無音区間の長さがt2秒よりも長い場合には、会話状態が会話なし状態であると判別する。
このように判別するのは、会話の起こる場においては、会話の先導者が一方的に話をしている場合には、無音区間は比較的短い時間となり、会話の先導者と聴衆との間で双方向に対話がなされている場合には、一方が発話する時間と同じ或いはほぼ同じ時間だけ他方は発話しない状態となり、さらに、会話がない状態では、比較的長い時間何ら発話がない状態が続くためである。つまり、t1およびt2は経験的に得られた値である。
このような処理は、音声信号30aがデータベース16に入力されている間において、言い換えると、マイク14の入力が有効な期間において、一定時間(この実施例では、30秒)毎に実行され、したがって、図3に示したように、一定時間毎の区切りで、テーブルデータ320a,320b,320c,320d,…が作成される。また、時系列が分かるように、テーブルデータに付されるテーブル番号は異なるテーブルデータであっても連続して記述するようにしてある。たとえば、テーブルデータを作成するに際して、前回作成したテーブルデータの末尾のテーブル番号を参酌するようにしておけばよい。ただし、テーブルデータのテーブル番号はすべて「1」から始まるようにしておき、テーブルデータ自体に、時系列が分かるようなラベルを付すようにしてもよい。また、たとえば、マイク14の入力が有効な期間において作成されたデータベースは、1つのフォルダにまとめて記憶され、一旦マイク14の入力が無効にされた後に再びマイク14の入力が有効にされると、別のフォルダにテーブルデータが作成される。つまり、時間的に異なる場の会話状態を個別に判別するようにしてある。
なお、図3に示す会話状態データ32aのテーブルデータ320aでは、テーブル番号「1」は、オンラベルであり、直前のオフラベル(無音区間)が存在しないため、会話状態は判別されていない。したがって、図3においては、会話状態の欄にバー(横棒)を記述して、会話状態を判別していない旨を示してある。ただし、テーブルデータ320b,320cのように、テーブルの先頭がオンラベルから始まる場合であっても、時間的に直前となるテーブルデータが存在する場合には、当該テーブルデータの末尾のオフラベル(無音区間)を参照して、会話状態を判別することができる。具体的に、テーブルデータ320bを用いてついて説明すると、テーブル番号「11」はオンラベルであり、直前のテーブルデータ320aのテーブル番号「10」のオフラベル(無音区間)に基づいて、会話状態を判別することができる。
また、上述したように、一定時間の区切りでテーブルデータが作成されることになるが、発話区間(オンラベル)または無音区間(オフラベル)が異なるテーブルデータにまたがってしまうと、正確に会話状態を判別することができないため、そのようにまたがってしまう区間が存在する場合には、当該区間は次のテーブルデータの先頭に来るように調整してある。
また、図3の会話状態データ32a(データベース320a,320b,320c,320d)からも分かるように、時間の経過に従って会話状態は変化(遷移)するが、この実施例では、次のようにして、会話状態が遷移される。たとえば、会話状態が説明状態である場合に、無音区間の長さがt1秒以上t2秒以下となり、この状態を所定回数(この実施例では、3回)連続して現われると、会話状態が対話状態に遷移される。たとえば、図3のテーブルデータ320aから分かるように、会話状態が説明状態(“L”)である場合において、テーブル番号「4」、「6」、「8」に示すように、t1秒以上t2秒以下の無音区間が3回連続すると、会話状態が対話状態(“I”)に遷移される。
一方、会話状態が対話状態である場合に、無音区間の長さがt1秒未満となり、この状態を所定回数(この実施例では、3回)連続して現われると、会話状態が説明状態に遷移される。図示は省略するが、かかる場合の状態遷移は、上述した説明状態から対話状態への遷移と同様である。
このように、この実施例では、説明状態と対話状態との間では、自身の状態において、他方の状態が3回連続して現われた場合に、状態を遷移させるようにしてある。これは状態遷移の判断を正確に行うためである。ただし、自身の状態において他方の状態が現われた場合に、直に状態が遷移されるようにしてもよい。
なお、説明状態と対話状態との間で状態が遷移される場合には、状態が遷移するまでの間は前の会話状態を維持するようにしてある。
また、会話状態が説明状態或いは対話状態である場合に、無音区間の長さがt2秒よりも長くなると、会話状態が会話なし状態に遷移される。たとえば、図3のテーブルデータ320bに示すように、会話状態が対話状態(“I”)である場合において、テーブル番号「12」に示すように、t2秒より長い無音区間が現われると、会話状態が会話なし状態(“N”)に遷移される。
さらに、会話状態が会話なし状態である場合に、t1秒未満の無音区間が現われると、会話状態が説明状態に遷移され、t1秒以上t2秒以下の無音区間が現われると、会話状態が対話状態に遷移される。たとえば、図3のテーブルデータ320dに示すように、会話状態が会話なし状態(“N”)である場合において、テーブル番号「20」に示すように、t1秒以上t2秒以下の無音区間が現われると、会話状態が対話状態(“I”)に遷移される。
図1に戻って、たとえば、会話の先導者Aは、ポスター(資料)のような対象物20を聴衆(この実施例では、聴衆a,bおよびc)に説明(解説)し、また、聴衆a,bまたはcから質問を受けるなどして対象物20について対話(議論)する。ただし、対象物20は、ポスターに限定される必要はない。したがって、たとえば、或る作品(陶芸、絵画など)の品評会のような対話(会話)の起こり得る場に、先導者Aは存在する。また、作品のような対象物20は必ずしも必要ではなく、会議や講義のような場に先導者Aは存在する。このような先導者Aの音声が記録され、その音声に基づいて当該先導者Aが存在する場の会話状態が上述のようにして判別されるのである。
具体的には、図1に示したコンピュータ12がデータベース16を参照して、図4に示すフロー図に従って会話状態判別処理を実行する。ただし、この前処理として、コンピュータ12は、音声信号30aを参照して、発話区間および無音区間を検出し、その結果(期間およびラベルが記述されたテーブルデータ)をデータベース16に登録してある。なお、上述したように、このような前処理および会話状態判別処理は、音声信号30aの入力が有効にされてから、一定時間(たとえば、30秒)毎に実行され、音声信号30aの入力が無効にされると、終了される。
なお、図4〜図9に示すフロー図に対応するプログラム(会話状態判別プログラム)は、たとえば、コンピュータ12内部に設けられるハードディスクやROM(図示せず)などに記憶されている。
コンピュータ12は、会話状態判別処理を開始すると、ステップS1で、着目するオンラベル(発話区間)の直前の無音期間がt1秒未満かどうかを判断する。ここで、ステップS1(後述するステップS7も同様。)において、着目するオンラベルとは、テーブルデータのうち、最も若い(小さい)テーブル番号に対応して記述されるオンラベルを意味する。
なお、図示は省略するが、上述したように、着目するオンラベルがテーブルデータの先頭に存在し、かつ、当該テーブルデータの時間的に直前のテーブルデータが存在しない場合には、当該オンラベルの直前の無音区間(オフラベル)も存在しないため、次に若いテーブル番号に対応して記述されるオンラベルを着目するように、補正処理がなされる。ただし、時間的に直前のテーブルデータが存在する場合には、当該直前のテーブルデータの末尾に存在する無音区間に基づいて会話状態を判別することができるため、先頭のオンラベルが着目するオンラベルとなる。
ステップS1で“YES”であれば、つまり当該無音区間がt1秒未満であれば、会話状態が説明状態であると判断し、ステップS3で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して説明状態すなわち“L”を書込み、ステップS5で、次のオンラベルが在るかどうかを判断する。具体的には、次のオフラベル・オンラベルが存在するか、すなわち、テーブルデータが継続しているか否かを判断している。以下、同様である。次のオンラベルがなければ、ステップS5で“NO”となり、そのまま会話状態判別処理を終了する。しかし、次のオンラベルが在れば、ステップS5で“YES”となり、ステップS7で、後述する説明モード処理(図5および図6参照)を実行して、会話状態判別処理を終了する。
一方、ステップS1で“NO”であれば、つまり当該無音区間がt1秒未満でなければ、ステップS9で、着目するオンラベルの直前の無音区間がt1秒以上t2秒以下であるかどうかを判断する。当該無音区間がt1秒以上t2秒以下であれば、会話状態が対話状態であると判断し、ステップS9で“YES”となり、ステップS11で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して対話状態すなわち“I”を書込み、ステップS13で、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、ステップS13で“NO”となり、そのまま会話状態判別処理を終了する。しかし、次のオンラベルが在れば、ステップS13で“YES”となり、ステップS15で、後述する対話モード処理(図7および図8参照)を実行して、会話状態判別処理を終了する。
また、当該無音区間がt1秒以上t2秒以下でなければ、つまり当該無音区間がt2秒よりも長ければ、会話状態が会話なし状態であると判断し、ステップS9で“NO”となり、ステップS17で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して会話なし状態すなわち“N”を書込み、ステップS19で、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、ステップS19で“NO”となり、そのまま会話状態判別処理を終了する。しかし、次のオンラベルが在れば、ステップS19で“YES”となり、ステップS21で、後述する会話なしモード処理(図9)を実行して、会話状態判別処理を終了する。
なお、この実施例では、ステップS17で会話なし状態を書込んだ後に、次のオンラベルが在るかどうかを判断して、次のオンラベルが在る場合には、会話なしモード処理を実行するようにしてあるが、会話なし状態になった場合には、説明状態や対話状態と比べてオンラベルが現われるまでに或る程度の時間を要し、また、音声信号30aが入力されていない場合と区別することができない。したがって、実際には、会話なし状態を書込んだ後では、音声信号30aが入力されているかどうか、すなわちマイク14入力が有効かどうかを判断して、マイク14入力が有効な場合に次のオンラベルが在るかどうかを判断するようにしてある。一方、マイク14入力が無効な場合には、音声信号30aが入力されておらず、したがって、そのまま会話状態の判別処理を終了するようにしてある。これは、後述する説明モード処理の一部(S45,S47,S49)および対話モード処理の一部(S95,S97,S99)においても同様である。
また、説明モード処理は説明状態における会話状態の維持ないしは遷移処理を意味し、対話モード処理は対話状態における会話状態の維持ないしは遷移処理を意味し、そして、会話なしモード処理は会話なし状態における会話状態の維持ないしは遷移処理を意味する。
図5および図6は、図4に示したステップS7の説明モード処理を示すフロー図である。図5に示すように、説明モード処理を開始すると、ステップS31で、着目するオンラベルの直前の無音区間がt1秒未満であるかどうかを判断する。このステップS31(後述するステップS37も同じ。)で着目すべきオンラベルは、図4の会話判別処理において、次のオンラベルが在ると判断したオンラベルであり、後述するステップS35で“YES”と判断した場合には、さらに次のオンラベルである。
ステップS31で“YES”であれば、つまり当該無音区間がt1秒未満であれば、会話状態が説明状態であると判断し、ステップS33で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して説明状態すなわち“L”を書込む。つまり、説明状態が維持される。次のステップS35では、次のオンラベルが在るかどうかを判断する。ステップS35で“NO”であれば、つまり次のオンラベルがなければ、そのまま説明モード処理をリターンする。一方、ステップS35で“YES”であれば、つまり次のオンラベルが在れば、ステップS31に戻って、当該次のオンラベルの直前の無音区間に基づいて会話状態を判別する。
一方、ステップS31で“NO”であれば、つまり当該無音区間がt1秒未満でなければ、ステップS37で、当該無音区間がt1秒以上t2以下であるかどうかを判断する。当該無音区間がt1秒以上t2秒以下であれば、ステップS37で“YES”となり、ステップS39で、第1カウンタ(図1では省略しているが、コンピュータ12の内部カウンタである。)をインクリメントし、ステップS41で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“L”を書込む。
続くステップS43では、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、ステップS43で“NO”となり、そのまま説明モード処理をリターンする。一方、次のオンラベルが在れば、ステップS43で“YES”となり、図6に示すステップS51に進む。
また、ステップS37で“NO”であれば、つまり当該無音区間がt1秒以上t2秒以下でなければ、当該無音区間がt2秒よりも長く会話なし状態に遷移したと判断して、ステップS45で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“N”を書込み、ステップS47で、次のオンラベルが在るかどうかを判断する。ここで、次のオンラベルがなければ、“NO”となり、そのまま説明モード処理をリターンする。しかし、次のオンラベルが在れば、“YES”となり、ステップS49で、会話なしモード処理(図9参照)を開始し、説明モード処理をリターンする。
図6に示すように、ステップS51では、当該次のオンラベルの直前の無音区間がt1秒以上t2秒以下かどうかを判断する。ただし、後述するステップS59で“YES”と判断した場合にはさらに次のオンラベルの直前の無音区間について判断する。ここで、当該無音区間がt1秒以上t2秒以下であれば、“YES”となり、ステップS53で、第1カウンタをインクリメントし、ステップS55で、第1カウンタのカウント値が「3」であるかどうかを判断する。ステップS55で“NO”であれば、つまり第1カウンタのカウント値が「3」でなければ、説明状態を維持すると判断し、ステップS57で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“L”を書込む。
続くステップS59では、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、“NO”となり、そのまま説明モード処理をリターンする。しかし、次のオンラベルが在れば、“YES”となり、ステップS51に戻って、当該次のオンラベルについての会話状態を判別する。
また、ステップS55で“YES”であれば、つまり第1カウンタのカウント値が「3」であれば、対話状態に遷移したと判断して、ステップS61で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“I”を書込む。そして、ステップS63で、次のオンラベルがあるかどうかを判断する。次のオンラベルがなければ、“NO”となり、そのまま説明モード処理をリターンする。しかし、次のオンラベルが在れば、対話モード処理(図7および図8参照)を開始して、説明モード処理をリターンする。
また、ステップS51で“NO”であれば、つまり当該無音区間がt1秒以上t2秒以下であれば、ステップS67で、第1カウンタをリセットし、ステップS69で、当該無音区間がt1秒未満であるかどうかを判断する。当該無音区間がt1秒未満であれば、説明状態を維持すると判断し、ステップS69で“YES”となり、図5に示したステップS33に戻る。しかし、当該無音区間がt1秒未満でなければ、つまり当該無音区間がt2秒より長ければ、会話なし状態に遷移したと判断し、ステップS69で“NO”となり、図5に示したステップS45に戻る。
図7および図8は、図4に示したステップS15の対話モード処理を示すフロー図である。図7に示すように、対話モード処理を開始すると、ステップS81で、着目するオンラベルの直前の無音区間がt1秒以上t2秒以下であるかどうかを判断する。このステップS81(後述するステップS87も同じ)で着目するオンラベルは、図4に示したステップS13で次のオンラベルが在ると判断した場合のオンラベルであり、後述するステップS85で“YES”と判断した場合には、さらに次のオンラベルである。
ステップS81で“YES”であれば、つまり当該無音区間がt1秒以上t2秒以下であれば、対話状態を維持すると判断し、ステップS83で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して対話状態すなわち“I”を書込み、ステップS85に進む。ステップS85では、次のオンラベルが在るかどうかを判断する。次のオンラベルがあれば、“YES”となり、ステップS81に戻る。しかし、次のオンラベルがなければ、“NO”となり、そのまま対話モード処理をリターンする。
また、ステップS81で“NO”であれば、つまり当該無音区間がt1秒以上t2秒以下でなければ、ステップS87で、当該無音区間がt1秒未満であるかどかを判断する。当該無音区間がt1秒未満であれば、ステップS87で“YES”となり、ステップS89で、第2カウンタ(図1では省略しているが、第1カウンタとは異なるコンピュータ12の内部カウンタである。)をインクリメントし、ステップS91で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“I”を書込む。つまり、説明状態に遷移されるまでは、対話状態を維持する。
続くステップS93では、次のオンラベルが在るかどうかを判断する。ステップS93で“NO”であれば、つまり次のオンラベルがなければ、そのまま対話モード処理をリターンする。一方、ステップS93で“YES”であれば、つまり次のオンラベルが在れば、図8に示すステップS101に進む。
また、ステップS87で“NO”であれば、つまり当該無音区間がt1秒未満でなければ、当該無音区間がt2秒より長く会話なし状態に遷移したと判断し、ステップS95で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“N”を書込み、ステップS97で、次のオンラベルが在るかどうかを判断する。ステップS97で“NO”であれば、つまり次のオンラベルがなければ、そのまま対話モード処理をリターンする。一方、ステップS97で“YES”であれば、つまり次のオンラベルが在れば、ステップS99で、会話なしモード(図9参照)を開始して、対話モード処理をリターンする。
図8に示すステップS101では、当該次のオンラベルの直前の無音区間がt1秒未満であるかどうかを判断する。ただし、後述するステップS109で“YES”と判断した場合には、さらに次のオンラベルの直前の無音区間について判断する。ステップS101で“YES”であれば、つまり当該無音区間がt1秒未満あれば、ステップS103で、第2カウンタをインクリメントし、ステップS105で、第2カウンタのカウント値が「3」であるかどうかを判断する。
ステップS105で“NO”であれば、つまり第2カウンタのカウント値が「3」でなければ、対話状態を維持すると判断して、ステップS107で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“I”を書込む。そして、次のステップS109で、次のオンラベルが在るかどうかを判断する。次のオンラベルがない場合には、“NO”となり、そのまま対話モード処理をリターンする。しかし、次のオンラベルが在る場合には、“YES”となり、ステップS101に戻って、さらに次のオンラベルについての会話状態を判別する。
また、ステップS105で“YES”であれば、つまり第2カウンタのカウント値が「3」であれば、説明状態に遷移したと判断し、ステップS111で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“L”を書込み、ステップS113で、次のオンラベルが在るかどうかを判断する。次のオンラベルがない場合には、“NO”となり、そのまま対話モード処理をリターンする。しかし、次のオンラベルが在る場合には、“YES”となり、ステップS115で、図5および図6に示した説明モード処理を開始して、対話モード処理をリターンする。
また、ステップS101で“NO”であれば、つまり当該無音区間がt1秒未満でなければ、ステップS117で、第2カウンタをリセットして、ステップS119で、当該無音区間がt1秒以上t2秒以下であるかどうかを判断する。ここで、当該無音区間がt1秒以上t2秒以下であれば、対話状態を維持すると判断し、“YES”となり、図7に示したステップS83に戻る。しかし、当該無音区間がt1秒以上t2秒以下でなければ、つまり当該無音区間がt2秒より長く会話なし状態に遷移したと判断し、“NO”となり、図7に示したステップS95に戻る。
図9に示すように、会話なしモード処理を開始すると、ステップS131で、着目するオンラベルの直前の無音区間がt1秒未満かどうかを判断する。このステップS131(後述するステップS139も同じ。)で着目するオンラベルは、図4に示したステップS19で次のオンラベルが在ると判断した場合のオンラベルであり、後述するステップS149で“YES”と判断した場合には、さらに次のオンラベルである。
ステップS131で“YES”であれば、つまり当該無音区間がt1秒未満であれば、説明状態に遷移したと判断し、ステップS133で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“L”を書込み、ステップS135で、次のオンラベルが在るかどうかを判断する。ここで、次のオンラベルがなければ、“NO”となり、そのまま会話なしモード処理をリターンする。しかし、次のオンラベルが在れば、“YES”となり、ステップS137で、図5および図6に示した説明モード処理を開始して、会話なしモード処理をリターンする。
また、ステップS131で“NO”であれば、つまり当該無音区間がt1秒未満でなければ、ステップS139で、当該無音区間がt1秒以上t2秒以下であるかどうかを判断する。当該無音区間がt1秒以上t2秒以下であれば、対話状態に遷移したと判断し、ステップS139で“YES”となり、ステップS141で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“I”を書込み、ステップS143で、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、ステップS143で“NO”と判断し、そのまま会話なしモードをリターンする。逆に、次のオンラベルが在れば、ステップS143で“YES”と判断し、ステップS145で、図7および図8に示した対話モード処理を開始して、会話なしモード処理をリターンする。
また、ステップS139で“NO”であれば、つまり当該無音区間がt1秒以上t2秒以下でなければ、当該無音区間がt2秒より長く会話なし状態を維持すると判断し、ステップS147で、会話状態データ32aの会話状態の欄に、当該オンラベルに対応して“N”を書込む。そして、ステップS149で、次のオンラベルが在るかどうかを判断する。ステップS149で“YES”であれば、つまり次のオンラベルが在れば、ステップS131に戻る。一方、ステップS149で“NO”であれば、つまり次のオンラベルがなければ、そのまま会話なしモード処理をリターンする。
この実施例によれば、会話の先導者のみの音声信号から発話区間および無音区間を検出し、無音区間の長さに応じて会話状態が説明状態、対話状態または会話なし状態であるかどうかを判別するので、当該先導者が存在する場すなわち会話の起こり得る場の会話状態を容易に判別することができる。
なお、この実施例では、t1およびt2を固定して、会話状態およびその遷移を判別するようにしてあるが、先導者の話す速度は個人差があるため、適宜変化させるようにしてもよい。たとえば、話す速度が比較的速い先導者である場合には、会話なし状態が全く検出されない場合があるため、かかる場合には、t2またはt1およびt2の両方を短くして、会話なし状態を判別できるようにしてもよい。つまり、一旦図4〜図9に示した処理を実行したときに、会話状態データ32aに“N”が現われない場合に、t2またはt1およびt2の両方を短くして、再度図4〜図9に示した処理を実行し、判別結果を書き換えるようにすればよい。
また、この実施例では、オンラインで音声信号を記録して、一定時間毎に会話状態判別処理を実行するようにしてあるが、オフラインで会話状態判別処理を実行するようにしてもよい。かかる場合には、会話の先導者の音声をMDやICのような記憶媒体を用いた記録装置を用いて記録しておき、そのような記録装置からデータベースに直接或いはコンピュータを介して入力することもできる。
さらに、この実施例では、1人の先導者に着目した場合についてのみ説明したが、先導者は異なる場所に複数存在してもよい。たとえば、図10に示すように、先導者Aおよび先導者Bが異なる場所に存在し、先導者Aはポスターのような対象物20について説明等し、先導者Bは焼き物のような対象物22の品評会等の先導をする。図10から分かるように、先導者Aにマイク14aが装着され、先導者Bにマイク14bが装着される。マイク14bは、コンピュータ12に有線または無線により接続され、先導者Bの音声信号もコンピュータ12に入力される。したがって、図2に示したデータベース16の音声記憶領域30には、ユーザAおよびユーザBの音声信号がそれぞれ記憶され、また、発話状態データ記憶領域にはユーザAおよびユーザBの会話状態データがそれぞれ記憶される。つまり、先導者毎に会話状態が判別されるのである。
かかる場合には、たとえば、先導者Aおよび先導者Bが同じフロアの異なる場所ないしは異なるフロアに存在し、それらが存在する会場ないしはフロアの入り口に出力装置18を配置し、判別した会話状態を画面表示ないしは音声出力するようにしておけば、聴衆(入場者)はどの場の会話が盛り上がっているかなどを容易に知ることができる。ただし、このような場合には、必要数の出力装置18がコンピュータ12に接続されることになる。
さらに、図示は省略するが、たとえば、コミュニケーションロボットやCGキャラクタを制御する制御装置がデータベース16にアクセス可能な構成にすることにより、会話状態に応じたアクションやリアクションをするコミュニケーションロボットやCGキャラクタを設計することもできる。たとえば、会話状態が対話状態である場合に、その場における会話(コミュニケーション)には参加しないような設計にしておけば、状況に応じて、或いは、自然に人同士の会話に参加するコミュニケーションロボットやCGキャラクタを設計ないしは製造することもできる。
さらにまた、上述の実施例では、会話の先導者が固定的に決定されている場合についてのみ説明したが、会議や井戸端会議などの会話の場のように、会話の先導者が時々刻々と変化するような場合には、そのような場に存在するすべての人物にマイクを装着しておき、会話の先導者を特定した後に、特定した会話の先導者の音声に基づいて当該場の会話状態を判別することも考えられる。
この発明の会話状態判別装置の構成の一例および会話状態判別装置の使用状態の一例を示す図解図である。 図1実施例に示すデータベースの内容を示す図解図である。 図1実施例に示すデータベースに記憶される会話状態データの一例を示す図解図である。 図1実施例に示すコンピュータの会話状態判別処理を示すフロー図である。 図1実施例に示すコンピュータの説明モード処理の一部を示すフロー図である。 図1実施例に示すコンピュータの説明モード処理の他の一部を示すフロー図である。 図1実施例に示すコンピュータの対話モード処理の一部を示すフロー図である。 図1実施例に示すコンピュータの対話モード処理の他の一部を示すフロー図である。 図1実施例に示すコンピュータの会話なしモード処理を示すフロー図である。 この発明の会話状態判別装置の使用状態の他の例を示す図解図である。
符号の説明
10 …会話状態判別装置
12 …コンピュータ
14,14a,14b …マイク
16 …データベース
18 …出力装置
20,22 …対象物

Claims (8)

  1. 会話の先導者の音声を収集するためのマイク、
    前記マイクの出力に基づいて、少なくとも前記音声の無音区間についての長さを検出する長さ検出手段、および
    前記長さ検出手段の検出結果に基づいて、前記先導者が存在する場の会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する判別手段を備える、会話状態判別装置。
  2. 前記判別手段は、前記無音区間の長さが第1所定時間未満のとき、前記会話状態を前記説明状態と判別し、前記無音区間の長さが前記第1所定時間よりも長い第2所定時間よりも長いとき、前記会話状態を前記会話なし状態と判別し、そして、前記無音区間の長さが前記第1所定時間以上前記第2所定時間以下のとき、前記会話状態を前記対話状態と判別する、請求項1記載の会話状態判別装置。
  3. 前記長さ検出手段の検出結果に基づいて、前記会話状態を前記説明状態、前記対話状態および前記会話なし状態の間で遷移させる状態遷移手段をさらに備える、請求項1または2記載の会話状態判別装置。
  4. 前記状態遷移手段は、前記会話状態が前記対話状態または前記会話なし状態である場合において、前記第1所定時間未満の長さの無音区間が現われると、前記会話状態を前記説明状態に遷移させ、前記会話状態が前記説明状態または前記対話状態である場合において、前記第2所定時間よりも長い無音区間が現われると、前記会話状態を会話なし状態に遷移させ、そして、前記会話状態が前記説明状態または前記会話なし状態である場合において、前記第1所定期間以上前記第2所定期間以下の長さの無音区間が現われると、前記会話状態を前記対話状態に遷移させる、請求項3記載の会話状態判別装置。
  5. 前記状態遷移手段は、前記会話状態が前記対話状態である場合において、前記第1所定時間未満の長さの無音区間が第1所定回数連続して現われると、前記会話状態を前記説明状態に遷移させ、前記会話状態が前記説明状態または前記対話状態である場合において、前記第2所定時間よりも長い無音区間が現われると、前記会話状態を前記会話なし状態に遷移させ、前記会話状態が前記説明状態または前記会話なし状態である場合において、前記第1所定時間以上前記第2所定時間以下の長さの無音区間が第2所定回数連続して現われると、前記会話状態を前記対話状態に遷移させ、そして、前記会話状態が前記会話なし状態である場合において、前記第1所定時間未満の長さの無音区間が現われると、前記会話状態を前記説明状態に遷移させ、または、前記第1所定時間以上前記第2所定時間以下の長さの無音区間が現われると、前記会話状態を前記対話状態に遷移させる、請求項3記載の会話状態判別装置。
  6. 前記無音区間は、前記先導者の音声のうち隣接する2つの発話区間で区切られる、かつ第3所定時間以上継続する区間で規定される、請求項1ないし5のいずれかに記載の会話状態判別装置。
  7. 会話の先導者が存在する場の会話状態を判別する会話状態判別プログラムであって、
    コンピュータに、
    前記会話の先導者の音声に対応する音声信号に基づいて、少なくとも前記音声の無音区間についての長さを検出する長さ検出ステップと、
    前記長さ検出ステップの検出結果に基づいて、前記先導者が存在する場の会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する判別ステップとを、実行させる、会話状態判別プログラム。
  8. 前記判別ステップは、前記無音区間の長さが第1所定時間未満のとき、前記会話状態を前記説明状態と判別し、前記無音区間の長さが前記第1所定時間よりも長い第2所定時間よりも長いとき、前記会話状態を前記会話なし状態と判別し、そして、前記無音区間の長さが第1所定時間以上前記第2所定時間以下のとき、前記会話状態を前記対話状態と判別する、請求項7記載の会話状態判別プログラム。
JP2004003976A 2004-01-09 2004-01-09 会話状態判別装置および会話状態判別プログラム Pending JP2005196025A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004003976A JP2005196025A (ja) 2004-01-09 2004-01-09 会話状態判別装置および会話状態判別プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004003976A JP2005196025A (ja) 2004-01-09 2004-01-09 会話状態判別装置および会話状態判別プログラム

Publications (1)

Publication Number Publication Date
JP2005196025A true JP2005196025A (ja) 2005-07-21

Family

ID=34818723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004003976A Pending JP2005196025A (ja) 2004-01-09 2004-01-09 会話状態判別装置および会話状態判別プログラム

Country Status (1)

Country Link
JP (1) JP2005196025A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003698A (ja) * 2010-06-21 2012-01-05 Ricoh Co Ltd 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体
JP2012185394A (ja) * 2011-03-07 2012-09-27 Fujitsu Ltd 分析装置、分析プログラムおよび分析方法
JPWO2016103809A1 (ja) * 2014-12-25 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202882A (ja) * 2000-12-28 2002-07-19 Fujitsu Ltd 音声対話システム及び音声対話方法
JP3090341U (ja) * 2002-05-29 2002-12-06 船井電機株式会社 会話ログ記録/表示機能付き携帯端末機器
JP2003348243A (ja) * 2002-04-03 2003-12-05 Ricoh Co Ltd 音声情報をアーカイブする技術

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002202882A (ja) * 2000-12-28 2002-07-19 Fujitsu Ltd 音声対話システム及び音声対話方法
JP2003348243A (ja) * 2002-04-03 2003-12-05 Ricoh Co Ltd 音声情報をアーカイブする技術
JP3090341U (ja) * 2002-05-29 2002-12-06 船井電機株式会社 会話ログ記録/表示機能付き携帯端末機器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003698A (ja) * 2010-06-21 2012-01-05 Ricoh Co Ltd 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体
JP2012185394A (ja) * 2011-03-07 2012-09-27 Fujitsu Ltd 分析装置、分析プログラムおよび分析方法
JPWO2016103809A1 (ja) * 2014-12-25 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Similar Documents

Publication Publication Date Title
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP6066471B2 (ja) 対話システム及び対話システム向け発話の判別方法
EP3210205B1 (en) Sound sample verification for generating sound detection model
US20140350930A1 (en) Real Time Generation of Audio Content Summaries
JP5055781B2 (ja) 会話音声分析方法、及び、会話音声分析装置
JP5201050B2 (ja) 会議支援装置、会議支援方法、会議システム、会議支援プログラム
Meena et al. Data-driven models for timing feedback responses in a Map Task dialogue system
JP5332798B2 (ja) 通信制御装置、通信制御方法、及び通信制御プログラム
JP5756555B1 (ja) 発話評価装置、発話評価方法及びプログラム
Local Getting back to prior talk
CN108320733A (zh) 语音数据处理方法及装置、存储介质、电子设备
JP2006208482A (ja) 会議の活性化を支援する装置,方法,プログラム及び記録媒体
JP6585733B2 (ja) 情報処理装置
JP2008309856A (ja) 音声認識装置及び会議システム
KR102444012B1 (ko) 말 장애 평가 장치, 방법 및 프로그램
JP2019124952A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2019197182A (ja) 音声対話システム、音声対話方法及びプログラム
Sharma et al. Talker change detection: A comparison of human and machine performance
JP2020160425A5 (ja)
JP2005196025A (ja) 会話状態判別装置および会話状態判別プログラム
Emina et al. F0 accommodation and turn competition in overlapping talk
WO2019187397A1 (ja) 情報処理装置
JP4183645B2 (ja) 会話先導者判別装置および会話先導者判別方法
JP2005258235A (ja) 感情発話検知による対話修正機能を備えた対話制御装置
JPH11202895A (ja) 音声認識システムと方法およびそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080422