JP2005196025A

JP2005196025A - 会話状態判別装置および会話状態判別プログラム

Info

Publication number: JP2005196025A
Application number: JP2004003976A
Authority: JP
Inventors: Mayumi Bouno; 真弓坊農; Noriko Suzuki; 紀子鈴木; Takahiro Katagiri; 恭弘片桐
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-01-09
Filing date: 2004-01-09
Publication date: 2005-07-21

Abstract

【構成】会話状態判別装置１０はコンピュータ１２を含み、コンピュータ１２はマイク１４の出力を受けて、データベース１６に入力する。つまり、会話の先導者Ａの発話に対応する音声信号がデータベース１６に登録される。コンピュータ１２は、音声信号から発話区間と無音区間を検出し、その後、無音区間の長さに基づいて会話状態を判別する。つまり、会話の先導者Ａが存在する場の会話状態を判別する。
【効果】会話の先導者の音声のみに基づいて会話状態が判別できるので、判別が簡単である。
【選択図】図１

Description

この発明は会話状態判別装置および会話状態判別プログラムに関し、特にたとえば、会話の先導者が存在する場における会話状態を判別する、会話状態判別装置および会話状態判別プログラムに関する。

この種の会話状態判別装置についての従来技術は存在しなかった。近似する従来技術の一例が特許文献１に開示される。この特許文献１に開示される音声認識装置は、入力される信号を音響分析して、発声区間および無音区間を検出し、ＨＭＭ照合方式によってパターン照合する際に、無音区間をパターン照合の対象外とするものであった。
特開２００１−１３９８８号

しかし、この従来技術では、音声信号の無音区間をパターン照合の対象外とすることにより、高精度の認識を可能とするものであり、会話の起こり得る場における会話状態を判別することはできなかった。

それゆえに、この発明の主たる目的は、会話の起こり得る場における会話状態を容易に判別できる、会話状態判別装置および会話状態判別プログラムを提供することである。

請求項１の発明は、会話の先導者の音声を収集するためのマイク、マイクの出力に基づいて、少なくとも音声の無音区間についての長さを検出する長さ検出手段、および長さ検出手段の検出結果に基づいて、先導者が存在する場の会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する判別手段を備える、会話状態判別装置である。

請求項１の発明では、会話状態判別装置は、会話の先導者が存在する場における会話状態を判別する。マイクは会話の先導者の音声を収集する。長さ検出手段は、少なくとも会話先導者の音声の無音区間についての長さを検出する。判別手段は、長さ検出手段の検出結果すなわち無音区間の長さに基づいて、会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する。

たとえば、説明状態とは、会話の先導者が一方的に発話している状態をいう。また、対話状態とは、会話の先導者と当該先導者が存在する場に存在する聴衆との間において対話（双方向で発話）している状態をいう。さらに、会話なし状態とは、会話の先導者の発話がなく、しかも、当該先導者とその場に存在する聴衆との間における対話もない状態をいう。

請求項１の発明によれば、会話の先導者の音声のみの無音区間に基づいて当該先導者が存在する場の会話状態を判別できるので、会話の起こり得る場の会話状態を容易に判別することができる。

請求項２の発明は請求項１に従属し、判別手段は、無音区間の長さが第１所定時間未満のとき、会話状態を説明状態と判別し、無音区間の長さが第１所定時間よりも長い第２所定時間よりも大きいとき、会話状態を会話なし状態と判別し、そして、無音区間の長さが第１所定時間以上第２所定時間以下のとき、会話状態を対話状態と判別する。

請求項２の発明では、判別手段は、無音区間の長さが第１所定時間未満のとき、会話状態を説明状態と判別する。また、判別手段は、無音区間の長さが第１所定時間よりも長い第２所定時間を超えているとき、会話状態を会話なし状態と判別する。さらに、判別手段は、無音区間の長さが第１所定時間以上第２所定時間以下であるとき、会話状態を対話状態と判別する。たとえば、会話の先導者が一方的に発話している場合に現われる無音区間は比較的短い時間であり、会話の先導者と聴衆との間で双方向に発話している場合に現われる無音区間は、一方が発話している時間と同じ或いはほぼ同じ時間であり、会話の先導者および聴衆が発話していない場合に現われる無音区間は比較的長い時間である。したがって、第１所定時間や第２所定時間は経験的に得られる値である。また、発話する速度は、先導者毎に異なるため、各先導者に応じて設定される値でもある。

請求項２の発明によれば、無音区間の長さに応じて、会話状態を正確に判別することができる。

請求項３の発明は請求項１または２に従属し、長さ検出手段の検出結果に基づいて、会話状態を説明状態、対話状態および会話なし状態の間で遷移させる状態遷移手段をさらに備える。

請求項３の発明では、無音区間の長さに応じて、会話状態を説明状態、対話状態および会話なし状態の間で遷移させる。これは、会話状態は時間とともに変化するからである。

請求項３の発明によれば、会話状態を無音区間の長さに応じて遷移させることができるので、或る程度の期間における会話状態の変化ないし遷移を知ることができる。

請求項４の発明は請求項３に従属し、状態遷移手段は、会話状態が対話状態または会話なし状態である場合において、第１所定時間未満の長さの無音区間が現われると、会話状態を説明状態に遷移させ、会話状態が説明状態または対話状態である場合において、第２所定時間よりも長い無音区間が現われると、会話状態を会話なし状態に遷移させ、そして、会話状態が説明状態または会話なし状態である場合において、第１所定期間以上所定期間以下の長さの無音区間が現われると、会話状態を対話状態に遷移させる。

請求項４の発明では、状態遷移手段は、会話状態が対話状態または会話なし状態である場合において、第１所定時間未満の長さの無音区間が現われると、会話状態を説明状態に遷移させる。また、状態遷移手段は、会話状態が説明状態または対話状態である場合において、第２所定時間よりも長い無音区間が現われると、会話状態を会話なし状態に遷移させる。そして、状態遷移手段は、会話状態が説明状態または会話なし状態である場合において、第１所定期間以上第２所定期間以下の長さの無音区間が現われると、会話状態を対話状態に遷移させる。つまり、１の状態において他の状態と判別される無音区間が現われると、当該他の状態に遷移するのである。

請求項４の発明によれば、無音区間の長さに応じて正確に会話状態を遷移させることができる。

請求項５の発明は請求項３に従属し、状態遷移手段は、会話状態が対話状態である場合において、第１所定時間未満の長さの無音区間が第１所定回数連続して現われると、会話状態を説明状態に遷移させ、会話状態が説明状態または対話状態である場合において、第２所定時間よりも長い無音区間が現われると、会話状態を会話なし状態に遷移させ、会話状態が説明状態または会話なし状態である場合において、第１所定時間以上第２所定時間以下の長さの無音区間が第２所定回数連続して現われると、会話状態を対話状態に遷移させ、そして、会話状態が会話なし状態である場合において、第１所定時間未満の長さの無音区間が現われると、会話状態を説明状態に遷移させ、または、第１所定時間以上第２所定時間以下の長さの無音区間が現われると、会話状態を対話状態に遷移させる。

請求項５の発明は請求項４の発明とほぼ同じであり、状態遷移手段は説明状態と対話状態との間で状態を遷移させるのは、または、その逆の場合には、他方の状態と判別される無音区間が所定回数連続して現われたときである。

請求項５の発明によれば、無音区間に応じて正確に会話状態を遷移させることができ、さらに、説明状態と対話状態との間の遷移をより正確に行うことができる。

請求項６の発明は請求項１ないし５のいずれかに従属し、無音区間は、先導者の音声のうち隣接する２つの発話区間で区切られる、かつ第３所定時間以上継続する区間で規定される。

請求項６の発明では、無音区間は、先導者の音声のうち隣接する２つの発話区間で区切られ、さらに、その区切られた期間が第３所定時間以上継続する区間で規定される。したがって、息継ぎのような休止状態を無音区間に含まないようにすることができる。

請求項６の発明によれば、息継ぎのような休止状態を無音区間に含まないので、現実に発話がない区間を無音区間として検出でき、正確な会話状態の判別或いは会話状態の遷移を行うことができるのである。

請求項７の発明は、会話の先導者が存在する場の会話状態を判別する会話状態判別プログラムである。この会話状態判別プログラムは、コンピュータに、会話の先導者の音声に対応する音声信号に基づいて、少なくとも音声の無音区間についての長さを検出する長さ検出ステップと、長さ検出ステップの検出結果に基づいて、先導者が存在する場の会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する判別ステップとを、実行させる。

請求項７の発明においても、請求項１の発明と同様に、会話の起こり得る場の会話状態を容易に判別することができる。

請求項８の発明は請求項７に従属し、判別ステップは、無音区間の長さが第１所定時間未満のとき、会話状態を説明状態と判別し、無音区間の長さが第１所定時間よりも長い第２所定時間よりも長いとき、会話状態を会話なし状態と判別し、そして、無音区間の長さが第１所定時間以上第２所定時間以下のとき、会話状態を対話状態と判別する。

請求項８の発明においても、請求項２の発明と同様に、無音区間の長さに応じて、会話状態を正確に判別することができる。

この発明によれば、会話の先導者の音声のみに含まれる無音区間の長さに基づいて会話状態を判別するので、会話の起こり得る場における会話状態を容易に判別することができる。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１を参照して、この実施例の会話状態判別装置１０はコンピュータ１２を含み、コンピュータ１２にはマイク１４およびデータベース１６が接続される。コンピュータ１２は、たとえば、パーソナルコンピュータ或いはワークステーションである。マイク１４は、たとえば声帯マイクであり、会話の先導者（この実施例では、先導者Ａ）の喉に装着され、当該先導者Ａの音声を収集（収音）して、コンピュータ１２を介してデータベース１６に入力する。ただし、会話の先導者の音声のみを収音できればよいので、単一指向性マイクを用いるようにしてもよい。また、マイク１４の出力を、直接データベース１６に入力するようにしてもよい。

また、コンピュータ１２には、必要に応じて、ディスプレイやスピーカのような出力装置１８を接続することもでき、出力装置１８を接続した場合には、後述するように判別した会話状態を画面表示ないしは音声出力することができる。図１においては、会話状態判別装置１０は出力装置１８を含まないように示してあるが、含まれるようにしてもよい。

なお、図１では、分かり易く示すために、マイク１４は、先導者Ａから少し離れた位置に示してある。また、図１では、マイク１４はコンピュータ１２に有線接続されるように示してあるが、ワイヤレスにすることも可能である。

データベース１６は、上述したように、マイク１４を通して入力される先導者Ａの音声（音声信号）を記録する。この実施例では、データベース１６はコンピュータ１２とは別個独立に設けるようにしてあるが、データベース１６に代えて、コンピュータ１２内に設けられるハードディスク（図示せず）を用いるようにすることもできる。また、データベース１６は、先導者Ａの音声信号から発話区間と無音区間とを検出した結果、および会話状態を判別した結果も記憶する。

図２はデータベース１６の内容を模式的に示した図であり、データベース１６は、音声記憶領域３０および会話状態記憶領域３２を含む。音声記憶領域３０には、先導者Ａの音声信号３０ａが記憶され、会話状態記憶領域３２には、先導者Ａの会話状態データ３２ａが記憶される。音声信号３０ａは、たとえば、マイク１４が有効な期間（能動化された期間）におけるマイク１４の出力（先導者Ａの音声）を記録したものである。会話状態データ３２ａは、音声信号３０ａから発話区間と無音区間とを検出した結果および無音区間から会話状態を判別した結果についてのデータ（テーブルデータ）である。

具体的には、図３に示すように、会話状態データ３２ａは、複数のテーブルデータ３２０ａ，３２０ｂ，３２０ｃ，３２０ｄ，…を含み、各テーブルには、テーブル番号に対応して、発話区間または無音区間の長さ（期間ないし時間：単位は秒である。）、発話区間（オン）または無音区間（オフ）の別を示すラベルおよび会話状態の判別結果が記述される。以下では、発話区間に付されたラベルをオンラベルと呼び、無音区間に付されたラベルをオフラベルと呼ぶことにする。また、図３に示すように、この実施例では、会話状態は１文字のアルファベットで記述され、“Ｌ”は会話状態が説明(Lecture)状態であることを示し、“Ｉ”は会話状態が対話(Interaction)状態であることを示し、“Ｎ”は会話状態が会話なし(Non-Conversation)状態であることを示す。

ここで、説明状態とは、会話の先導者が一方的に発話している状態をいう。また、対話状態とは、会話の先導者と当該先導者が存在する場に存在する聴衆との間において対話（双方向で発話）している状態をいう。さらに、会話なし状態とは、会話の先導者の発話がなく、しかも、当該先導者とその場に存在する聴衆との間における対話もない状態をいう。なお、この実施例において、会話状態という場合には、説明状態、対話状態および会話なし状態のうちいずれか１つ、または、これらすべてを含むことがある。

この実施例では、会話状態はコンピュータ１２によって判別される。まず、コンピュータ１２は、音声信号３０ａを参照して、テーブルデータ（図３参照）のうちの期間およびラベルを記述する。つまり、先導者Ａの音声についての発話区間と無音区間とを検出し、たとえば、テーブル番号の若い番号から順に、時系列に従って、期間およびラベルを記述する。このとき、音声信号のうち、所定の閾値よりも大きいレベル（パワー）の部分を発話と判断し、所定の閾値以下のパワーの部分を無音と判断する。ただし、会話の先導者の息継ぎ（ブレス）等による休止（ポーズ）を無音区間と判断しないように、所定の閾値以下のパワーであり、その状態が所定時間（この実施例では、３００ｍｓｅｃ）以上続いた場合に、無音区間と判断するようにしてある。

テーブルデータについての期間およびラベルが記述されると、コンピュータ１２は、次に会話状態を判別し、その判別結果を当該テーブルデータに記述する。判別方法について詳しく説明すると、コンピュータ１２は、着目する発話区間（オンラベル）の直前に存在する無音区間（オフラベル）の長さを検出し、無音区間の長さがｔ１秒（この実施例では、１秒）未満である場合には、会話状態が説明状態であると判別する。また、コンピュータ１２は、無音区間の長さがｔ１秒以上ｔ２秒（この実施例では、１０秒）以下である場合には、会話状態が対話状態であると判別する。さらに、コンピュータ１２は、無音区間の長さがｔ２秒よりも長い場合には、会話状態が会話なし状態であると判別する。

このように判別するのは、会話の起こる場においては、会話の先導者が一方的に話をしている場合には、無音区間は比較的短い時間となり、会話の先導者と聴衆との間で双方向に対話がなされている場合には、一方が発話する時間と同じ或いはほぼ同じ時間だけ他方は発話しない状態となり、さらに、会話がない状態では、比較的長い時間何ら発話がない状態が続くためである。つまり、ｔ１およびｔ２は経験的に得られた値である。

このような処理は、音声信号３０ａがデータベース１６に入力されている間において、言い換えると、マイク１４の入力が有効な期間において、一定時間（この実施例では、３０秒）毎に実行され、したがって、図３に示したように、一定時間毎の区切りで、テーブルデータ３２０ａ，３２０ｂ，３２０ｃ，３２０ｄ，…が作成される。また、時系列が分かるように、テーブルデータに付されるテーブル番号は異なるテーブルデータであっても連続して記述するようにしてある。たとえば、テーブルデータを作成するに際して、前回作成したテーブルデータの末尾のテーブル番号を参酌するようにしておけばよい。ただし、テーブルデータのテーブル番号はすべて「１」から始まるようにしておき、テーブルデータ自体に、時系列が分かるようなラベルを付すようにしてもよい。また、たとえば、マイク１４の入力が有効な期間において作成されたデータベースは、１つのフォルダにまとめて記憶され、一旦マイク１４の入力が無効にされた後に再びマイク１４の入力が有効にされると、別のフォルダにテーブルデータが作成される。つまり、時間的に異なる場の会話状態を個別に判別するようにしてある。

なお、図３に示す会話状態データ３２ａのテーブルデータ３２０ａでは、テーブル番号「１」は、オンラベルであり、直前のオフラベル（無音区間）が存在しないため、会話状態は判別されていない。したがって、図３においては、会話状態の欄にバー（横棒）を記述して、会話状態を判別していない旨を示してある。ただし、テーブルデータ３２０ｂ，３２０ｃのように、テーブルの先頭がオンラベルから始まる場合であっても、時間的に直前となるテーブルデータが存在する場合には、当該テーブルデータの末尾のオフラベル（無音区間）を参照して、会話状態を判別することができる。具体的に、テーブルデータ３２０ｂを用いてついて説明すると、テーブル番号「１１」はオンラベルであり、直前のテーブルデータ３２０ａのテーブル番号「１０」のオフラベル（無音区間）に基づいて、会話状態を判別することができる。

また、上述したように、一定時間の区切りでテーブルデータが作成されることになるが、発話区間（オンラベル）または無音区間（オフラベル）が異なるテーブルデータにまたがってしまうと、正確に会話状態を判別することができないため、そのようにまたがってしまう区間が存在する場合には、当該区間は次のテーブルデータの先頭に来るように調整してある。

また、図３の会話状態データ３２ａ（データベース３２０ａ，３２０ｂ，３２０ｃ，３２０ｄ）からも分かるように、時間の経過に従って会話状態は変化（遷移）するが、この実施例では、次のようにして、会話状態が遷移される。たとえば、会話状態が説明状態である場合に、無音区間の長さがｔ１秒以上ｔ２秒以下となり、この状態を所定回数（この実施例では、３回）連続して現われると、会話状態が対話状態に遷移される。たとえば、図３のテーブルデータ３２０ａから分かるように、会話状態が説明状態（“Ｌ”）である場合において、テーブル番号「４」、「６」、「８」に示すように、ｔ１秒以上ｔ２秒以下の無音区間が３回連続すると、会話状態が対話状態（“Ｉ”）に遷移される。

一方、会話状態が対話状態である場合に、無音区間の長さがｔ１秒未満となり、この状態を所定回数（この実施例では、３回）連続して現われると、会話状態が説明状態に遷移される。図示は省略するが、かかる場合の状態遷移は、上述した説明状態から対話状態への遷移と同様である。

このように、この実施例では、説明状態と対話状態との間では、自身の状態において、他方の状態が３回連続して現われた場合に、状態を遷移させるようにしてある。これは状態遷移の判断を正確に行うためである。ただし、自身の状態において他方の状態が現われた場合に、直に状態が遷移されるようにしてもよい。

なお、説明状態と対話状態との間で状態が遷移される場合には、状態が遷移するまでの間は前の会話状態を維持するようにしてある。

また、会話状態が説明状態或いは対話状態である場合に、無音区間の長さがｔ２秒よりも長くなると、会話状態が会話なし状態に遷移される。たとえば、図３のテーブルデータ３２０ｂに示すように、会話状態が対話状態（“Ｉ”）である場合において、テーブル番号「１２」に示すように、ｔ２秒より長い無音区間が現われると、会話状態が会話なし状態（“Ｎ”）に遷移される。

さらに、会話状態が会話なし状態である場合に、ｔ１秒未満の無音区間が現われると、会話状態が説明状態に遷移され、ｔ１秒以上ｔ２秒以下の無音区間が現われると、会話状態が対話状態に遷移される。たとえば、図３のテーブルデータ３２０ｄに示すように、会話状態が会話なし状態（“Ｎ”）である場合において、テーブル番号「２０」に示すように、ｔ１秒以上ｔ２秒以下の無音区間が現われると、会話状態が対話状態（“Ｉ”）に遷移される。

図１に戻って、たとえば、会話の先導者Ａは、ポスター（資料）のような対象物２０を聴衆（この実施例では、聴衆ａ，ｂおよびｃ）に説明（解説）し、また、聴衆ａ，ｂまたはｃから質問を受けるなどして対象物２０について対話（議論）する。ただし、対象物２０は、ポスターに限定される必要はない。したがって、たとえば、或る作品（陶芸、絵画など）の品評会のような対話（会話）の起こり得る場に、先導者Ａは存在する。また、作品のような対象物２０は必ずしも必要ではなく、会議や講義のような場に先導者Ａは存在する。このような先導者Ａの音声が記録され、その音声に基づいて当該先導者Ａが存在する場の会話状態が上述のようにして判別されるのである。

具体的には、図１に示したコンピュータ１２がデータベース１６を参照して、図４に示すフロー図に従って会話状態判別処理を実行する。ただし、この前処理として、コンピュータ１２は、音声信号３０ａを参照して、発話区間および無音区間を検出し、その結果（期間およびラベルが記述されたテーブルデータ）をデータベース１６に登録してある。なお、上述したように、このような前処理および会話状態判別処理は、音声信号３０ａの入力が有効にされてから、一定時間（たとえば、３０秒）毎に実行され、音声信号３０ａの入力が無効にされると、終了される。

なお、図４〜図９に示すフロー図に対応するプログラム（会話状態判別プログラム）は、たとえば、コンピュータ１２内部に設けられるハードディスクやＲＯＭ（図示せず）などに記憶されている。

コンピュータ１２は、会話状態判別処理を開始すると、ステップＳ１で、着目するオンラベル（発話区間）の直前の無音期間がｔ１秒未満かどうかを判断する。ここで、ステップＳ１（後述するステップＳ７も同様。）において、着目するオンラベルとは、テーブルデータのうち、最も若い（小さい）テーブル番号に対応して記述されるオンラベルを意味する。

なお、図示は省略するが、上述したように、着目するオンラベルがテーブルデータの先頭に存在し、かつ、当該テーブルデータの時間的に直前のテーブルデータが存在しない場合には、当該オンラベルの直前の無音区間（オフラベル）も存在しないため、次に若いテーブル番号に対応して記述されるオンラベルを着目するように、補正処理がなされる。ただし、時間的に直前のテーブルデータが存在する場合には、当該直前のテーブルデータの末尾に存在する無音区間に基づいて会話状態を判別することができるため、先頭のオンラベルが着目するオンラベルとなる。

ステップＳ１で“ＹＥＳ”であれば、つまり当該無音区間がｔ１秒未満であれば、会話状態が説明状態であると判断し、ステップＳ３で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して説明状態すなわち“Ｌ”を書込み、ステップＳ５で、次のオンラベルが在るかどうかを判断する。具体的には、次のオフラベル・オンラベルが存在するか、すなわち、テーブルデータが継続しているか否かを判断している。以下、同様である。次のオンラベルがなければ、ステップＳ５で“ＮＯ”となり、そのまま会話状態判別処理を終了する。しかし、次のオンラベルが在れば、ステップＳ５で“ＹＥＳ”となり、ステップＳ７で、後述する説明モード処理（図５および図６参照）を実行して、会話状態判別処理を終了する。

一方、ステップＳ１で“ＮＯ”であれば、つまり当該無音区間がｔ１秒未満でなければ、ステップＳ９で、着目するオンラベルの直前の無音区間がｔ１秒以上ｔ２秒以下であるかどうかを判断する。当該無音区間がｔ１秒以上ｔ２秒以下であれば、会話状態が対話状態であると判断し、ステップＳ９で“ＹＥＳ”となり、ステップＳ１１で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して対話状態すなわち“Ｉ”を書込み、ステップＳ１３で、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、ステップＳ１３で“ＮＯ”となり、そのまま会話状態判別処理を終了する。しかし、次のオンラベルが在れば、ステップＳ１３で“ＹＥＳ”となり、ステップＳ１５で、後述する対話モード処理（図７および図８参照）を実行して、会話状態判別処理を終了する。

また、当該無音区間がｔ１秒以上ｔ２秒以下でなければ、つまり当該無音区間がｔ２秒よりも長ければ、会話状態が会話なし状態であると判断し、ステップＳ９で“ＮＯ”となり、ステップＳ１７で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して会話なし状態すなわち“Ｎ”を書込み、ステップＳ１９で、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、ステップＳ１９で“ＮＯ”となり、そのまま会話状態判別処理を終了する。しかし、次のオンラベルが在れば、ステップＳ１９で“ＹＥＳ”となり、ステップＳ２１で、後述する会話なしモード処理（図９）を実行して、会話状態判別処理を終了する。

なお、この実施例では、ステップＳ１７で会話なし状態を書込んだ後に、次のオンラベルが在るかどうかを判断して、次のオンラベルが在る場合には、会話なしモード処理を実行するようにしてあるが、会話なし状態になった場合には、説明状態や対話状態と比べてオンラベルが現われるまでに或る程度の時間を要し、また、音声信号３０ａが入力されていない場合と区別することができない。したがって、実際には、会話なし状態を書込んだ後では、音声信号３０ａが入力されているかどうか、すなわちマイク１４入力が有効かどうかを判断して、マイク１４入力が有効な場合に次のオンラベルが在るかどうかを判断するようにしてある。一方、マイク１４入力が無効な場合には、音声信号３０ａが入力されておらず、したがって、そのまま会話状態の判別処理を終了するようにしてある。これは、後述する説明モード処理の一部（Ｓ４５，Ｓ４７，Ｓ４９）および対話モード処理の一部（Ｓ９５，Ｓ９７，Ｓ９９）においても同様である。

また、説明モード処理は説明状態における会話状態の維持ないしは遷移処理を意味し、対話モード処理は対話状態における会話状態の維持ないしは遷移処理を意味し、そして、会話なしモード処理は会話なし状態における会話状態の維持ないしは遷移処理を意味する。

図５および図６は、図４に示したステップＳ７の説明モード処理を示すフロー図である。図５に示すように、説明モード処理を開始すると、ステップＳ３１で、着目するオンラベルの直前の無音区間がｔ１秒未満であるかどうかを判断する。このステップＳ３１（後述するステップＳ３７も同じ。）で着目すべきオンラベルは、図４の会話判別処理において、次のオンラベルが在ると判断したオンラベルであり、後述するステップＳ３５で“ＹＥＳ”と判断した場合には、さらに次のオンラベルである。

ステップＳ３１で“ＹＥＳ”であれば、つまり当該無音区間がｔ１秒未満であれば、会話状態が説明状態であると判断し、ステップＳ３３で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して説明状態すなわち“Ｌ”を書込む。つまり、説明状態が維持される。次のステップＳ３５では、次のオンラベルが在るかどうかを判断する。ステップＳ３５で“ＮＯ”であれば、つまり次のオンラベルがなければ、そのまま説明モード処理をリターンする。一方、ステップＳ３５で“ＹＥＳ”であれば、つまり次のオンラベルが在れば、ステップＳ３１に戻って、当該次のオンラベルの直前の無音区間に基づいて会話状態を判別する。

一方、ステップＳ３１で“ＮＯ”であれば、つまり当該無音区間がｔ１秒未満でなければ、ステップＳ３７で、当該無音区間がｔ１秒以上ｔ２以下であるかどうかを判断する。当該無音区間がｔ１秒以上ｔ２秒以下であれば、ステップＳ３７で“ＹＥＳ”となり、ステップＳ３９で、第１カウンタ（図１では省略しているが、コンピュータ１２の内部カウンタである。）をインクリメントし、ステップＳ４１で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｌ”を書込む。

続くステップＳ４３では、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、ステップＳ４３で“ＮＯ”となり、そのまま説明モード処理をリターンする。一方、次のオンラベルが在れば、ステップＳ４３で“ＹＥＳ”となり、図６に示すステップＳ５１に進む。

また、ステップＳ３７で“ＮＯ”であれば、つまり当該無音区間がｔ１秒以上ｔ２秒以下でなければ、当該無音区間がｔ２秒よりも長く会話なし状態に遷移したと判断して、ステップＳ４５で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｎ”を書込み、ステップＳ４７で、次のオンラベルが在るかどうかを判断する。ここで、次のオンラベルがなければ、“ＮＯ”となり、そのまま説明モード処理をリターンする。しかし、次のオンラベルが在れば、“ＹＥＳ”となり、ステップＳ４９で、会話なしモード処理（図９参照）を開始し、説明モード処理をリターンする。

図６に示すように、ステップＳ５１では、当該次のオンラベルの直前の無音区間がｔ１秒以上ｔ２秒以下かどうかを判断する。ただし、後述するステップＳ５９で“ＹＥＳ”と判断した場合にはさらに次のオンラベルの直前の無音区間について判断する。ここで、当該無音区間がｔ１秒以上ｔ２秒以下であれば、“ＹＥＳ”となり、ステップＳ５３で、第１カウンタをインクリメントし、ステップＳ５５で、第１カウンタのカウント値が「３」であるかどうかを判断する。ステップＳ５５で“ＮＯ”であれば、つまり第１カウンタのカウント値が「３」でなければ、説明状態を維持すると判断し、ステップＳ５７で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｌ”を書込む。

続くステップＳ５９では、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、“ＮＯ”となり、そのまま説明モード処理をリターンする。しかし、次のオンラベルが在れば、“ＹＥＳ”となり、ステップＳ５１に戻って、当該次のオンラベルについての会話状態を判別する。

また、ステップＳ５５で“ＹＥＳ”であれば、つまり第１カウンタのカウント値が「３」であれば、対話状態に遷移したと判断して、ステップＳ６１で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｉ”を書込む。そして、ステップＳ６３で、次のオンラベルがあるかどうかを判断する。次のオンラベルがなければ、“ＮＯ”となり、そのまま説明モード処理をリターンする。しかし、次のオンラベルが在れば、対話モード処理（図７および図８参照）を開始して、説明モード処理をリターンする。

また、ステップＳ５１で“ＮＯ”であれば、つまり当該無音区間がｔ１秒以上ｔ２秒以下であれば、ステップＳ６７で、第１カウンタをリセットし、ステップＳ６９で、当該無音区間がｔ１秒未満であるかどうかを判断する。当該無音区間がｔ１秒未満であれば、説明状態を維持すると判断し、ステップＳ６９で“ＹＥＳ”となり、図５に示したステップＳ３３に戻る。しかし、当該無音区間がｔ１秒未満でなければ、つまり当該無音区間がｔ２秒より長ければ、会話なし状態に遷移したと判断し、ステップＳ６９で“ＮＯ”となり、図５に示したステップＳ４５に戻る。

図７および図８は、図４に示したステップＳ１５の対話モード処理を示すフロー図である。図７に示すように、対話モード処理を開始すると、ステップＳ８１で、着目するオンラベルの直前の無音区間がｔ１秒以上ｔ２秒以下であるかどうかを判断する。このステップＳ８１（後述するステップＳ８７も同じ）で着目するオンラベルは、図４に示したステップＳ１３で次のオンラベルが在ると判断した場合のオンラベルであり、後述するステップＳ８５で“ＹＥＳ”と判断した場合には、さらに次のオンラベルである。

ステップＳ８１で“ＹＥＳ”であれば、つまり当該無音区間がｔ１秒以上ｔ２秒以下であれば、対話状態を維持すると判断し、ステップＳ８３で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して対話状態すなわち“Ｉ”を書込み、ステップＳ８５に進む。ステップＳ８５では、次のオンラベルが在るかどうかを判断する。次のオンラベルがあれば、“ＹＥＳ”となり、ステップＳ８１に戻る。しかし、次のオンラベルがなければ、“ＮＯ”となり、そのまま対話モード処理をリターンする。

また、ステップＳ８１で“ＮＯ”であれば、つまり当該無音区間がｔ１秒以上ｔ２秒以下でなければ、ステップＳ８７で、当該無音区間がｔ１秒未満であるかどかを判断する。当該無音区間がｔ１秒未満であれば、ステップＳ８７で“ＹＥＳ”となり、ステップＳ８９で、第２カウンタ（図１では省略しているが、第１カウンタとは異なるコンピュータ１２の内部カウンタである。）をインクリメントし、ステップＳ９１で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｉ”を書込む。つまり、説明状態に遷移されるまでは、対話状態を維持する。

続くステップＳ９３では、次のオンラベルが在るかどうかを判断する。ステップＳ９３で“ＮＯ”であれば、つまり次のオンラベルがなければ、そのまま対話モード処理をリターンする。一方、ステップＳ９３で“ＹＥＳ”であれば、つまり次のオンラベルが在れば、図８に示すステップＳ１０１に進む。

また、ステップＳ８７で“ＮＯ”であれば、つまり当該無音区間がｔ１秒未満でなければ、当該無音区間がｔ２秒より長く会話なし状態に遷移したと判断し、ステップＳ９５で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｎ”を書込み、ステップＳ９７で、次のオンラベルが在るかどうかを判断する。ステップＳ９７で“ＮＯ”であれば、つまり次のオンラベルがなければ、そのまま対話モード処理をリターンする。一方、ステップＳ９７で“ＹＥＳ”であれば、つまり次のオンラベルが在れば、ステップＳ９９で、会話なしモード（図９参照）を開始して、対話モード処理をリターンする。

図８に示すステップＳ１０１では、当該次のオンラベルの直前の無音区間がｔ１秒未満であるかどうかを判断する。ただし、後述するステップＳ１０９で“ＹＥＳ”と判断した場合には、さらに次のオンラベルの直前の無音区間について判断する。ステップＳ１０１で“ＹＥＳ”であれば、つまり当該無音区間がｔ１秒未満あれば、ステップＳ１０３で、第２カウンタをインクリメントし、ステップＳ１０５で、第２カウンタのカウント値が「３」であるかどうかを判断する。

ステップＳ１０５で“ＮＯ”であれば、つまり第２カウンタのカウント値が「３」でなければ、対話状態を維持すると判断して、ステップＳ１０７で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｉ”を書込む。そして、次のステップＳ１０９で、次のオンラベルが在るかどうかを判断する。次のオンラベルがない場合には、“ＮＯ”となり、そのまま対話モード処理をリターンする。しかし、次のオンラベルが在る場合には、“ＹＥＳ”となり、ステップＳ１０１に戻って、さらに次のオンラベルについての会話状態を判別する。

また、ステップＳ１０５で“ＹＥＳ”であれば、つまり第２カウンタのカウント値が「３」であれば、説明状態に遷移したと判断し、ステップＳ１１１で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｌ”を書込み、ステップＳ１１３で、次のオンラベルが在るかどうかを判断する。次のオンラベルがない場合には、“ＮＯ”となり、そのまま対話モード処理をリターンする。しかし、次のオンラベルが在る場合には、“ＹＥＳ”となり、ステップＳ１１５で、図５および図６に示した説明モード処理を開始して、対話モード処理をリターンする。

また、ステップＳ１０１で“ＮＯ”であれば、つまり当該無音区間がｔ１秒未満でなければ、ステップＳ１１７で、第２カウンタをリセットして、ステップＳ１１９で、当該無音区間がｔ１秒以上ｔ２秒以下であるかどうかを判断する。ここで、当該無音区間がｔ１秒以上ｔ２秒以下であれば、対話状態を維持すると判断し、“ＹＥＳ”となり、図７に示したステップＳ８３に戻る。しかし、当該無音区間がｔ１秒以上ｔ２秒以下でなければ、つまり当該無音区間がｔ２秒より長く会話なし状態に遷移したと判断し、“ＮＯ”となり、図７に示したステップＳ９５に戻る。

図９に示すように、会話なしモード処理を開始すると、ステップＳ１３１で、着目するオンラベルの直前の無音区間がｔ１秒未満かどうかを判断する。このステップＳ１３１（後述するステップＳ１３９も同じ。）で着目するオンラベルは、図４に示したステップＳ１９で次のオンラベルが在ると判断した場合のオンラベルであり、後述するステップＳ１４９で“ＹＥＳ”と判断した場合には、さらに次のオンラベルである。

ステップＳ１３１で“ＹＥＳ”であれば、つまり当該無音区間がｔ１秒未満であれば、説明状態に遷移したと判断し、ステップＳ１３３で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｌ”を書込み、ステップＳ１３５で、次のオンラベルが在るかどうかを判断する。ここで、次のオンラベルがなければ、“ＮＯ”となり、そのまま会話なしモード処理をリターンする。しかし、次のオンラベルが在れば、“ＹＥＳ”となり、ステップＳ１３７で、図５および図６に示した説明モード処理を開始して、会話なしモード処理をリターンする。

また、ステップＳ１３１で“ＮＯ”であれば、つまり当該無音区間がｔ１秒未満でなければ、ステップＳ１３９で、当該無音区間がｔ１秒以上ｔ２秒以下であるかどうかを判断する。当該無音区間がｔ１秒以上ｔ２秒以下であれば、対話状態に遷移したと判断し、ステップＳ１３９で“ＹＥＳ”となり、ステップＳ１４１で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｉ”を書込み、ステップＳ１４３で、次のオンラベルが在るかどうかを判断する。次のオンラベルがなければ、ステップＳ１４３で“ＮＯ”と判断し、そのまま会話なしモードをリターンする。逆に、次のオンラベルが在れば、ステップＳ１４３で“ＹＥＳ”と判断し、ステップＳ１４５で、図７および図８に示した対話モード処理を開始して、会話なしモード処理をリターンする。

また、ステップＳ１３９で“ＮＯ”であれば、つまり当該無音区間がｔ１秒以上ｔ２秒以下でなければ、当該無音区間がｔ２秒より長く会話なし状態を維持すると判断し、ステップＳ１４７で、会話状態データ３２ａの会話状態の欄に、当該オンラベルに対応して“Ｎ”を書込む。そして、ステップＳ１４９で、次のオンラベルが在るかどうかを判断する。ステップＳ１４９で“ＹＥＳ”であれば、つまり次のオンラベルが在れば、ステップＳ１３１に戻る。一方、ステップＳ１４９で“ＮＯ”であれば、つまり次のオンラベルがなければ、そのまま会話なしモード処理をリターンする。

この実施例によれば、会話の先導者のみの音声信号から発話区間および無音区間を検出し、無音区間の長さに応じて会話状態が説明状態、対話状態または会話なし状態であるかどうかを判別するので、当該先導者が存在する場すなわち会話の起こり得る場の会話状態を容易に判別することができる。

なお、この実施例では、ｔ１およびｔ２を固定して、会話状態およびその遷移を判別するようにしてあるが、先導者の話す速度は個人差があるため、適宜変化させるようにしてもよい。たとえば、話す速度が比較的速い先導者である場合には、会話なし状態が全く検出されない場合があるため、かかる場合には、ｔ２またはｔ１およびｔ２の両方を短くして、会話なし状態を判別できるようにしてもよい。つまり、一旦図４〜図９に示した処理を実行したときに、会話状態データ３２ａに“Ｎ”が現われない場合に、ｔ２またはｔ１およびｔ２の両方を短くして、再度図４〜図９に示した処理を実行し、判別結果を書き換えるようにすればよい。

また、この実施例では、オンラインで音声信号を記録して、一定時間毎に会話状態判別処理を実行するようにしてあるが、オフラインで会話状態判別処理を実行するようにしてもよい。かかる場合には、会話の先導者の音声をＭＤやＩＣのような記憶媒体を用いた記録装置を用いて記録しておき、そのような記録装置からデータベースに直接或いはコンピュータを介して入力することもできる。

さらに、この実施例では、１人の先導者に着目した場合についてのみ説明したが、先導者は異なる場所に複数存在してもよい。たとえば、図１０に示すように、先導者Ａおよび先導者Ｂが異なる場所に存在し、先導者Ａはポスターのような対象物２０について説明等し、先導者Ｂは焼き物のような対象物２２の品評会等の先導をする。図１０から分かるように、先導者Ａにマイク１４ａが装着され、先導者Ｂにマイク１４ｂが装着される。マイク１４ｂは、コンピュータ１２に有線または無線により接続され、先導者Ｂの音声信号もコンピュータ１２に入力される。したがって、図２に示したデータベース１６の音声記憶領域３０には、ユーザＡおよびユーザＢの音声信号がそれぞれ記憶され、また、発話状態データ記憶領域にはユーザＡおよびユーザＢの会話状態データがそれぞれ記憶される。つまり、先導者毎に会話状態が判別されるのである。

かかる場合には、たとえば、先導者Ａおよび先導者Ｂが同じフロアの異なる場所ないしは異なるフロアに存在し、それらが存在する会場ないしはフロアの入り口に出力装置１８を配置し、判別した会話状態を画面表示ないしは音声出力するようにしておけば、聴衆（入場者）はどの場の会話が盛り上がっているかなどを容易に知ることができる。ただし、このような場合には、必要数の出力装置１８がコンピュータ１２に接続されることになる。

さらに、図示は省略するが、たとえば、コミュニケーションロボットやＣＧキャラクタを制御する制御装置がデータベース１６にアクセス可能な構成にすることにより、会話状態に応じたアクションやリアクションをするコミュニケーションロボットやＣＧキャラクタを設計することもできる。たとえば、会話状態が対話状態である場合に、その場における会話（コミュニケーション）には参加しないような設計にしておけば、状況に応じて、或いは、自然に人同士の会話に参加するコミュニケーションロボットやＣＧキャラクタを設計ないしは製造することもできる。

さらにまた、上述の実施例では、会話の先導者が固定的に決定されている場合についてのみ説明したが、会議や井戸端会議などの会話の場のように、会話の先導者が時々刻々と変化するような場合には、そのような場に存在するすべての人物にマイクを装着しておき、会話の先導者を特定した後に、特定した会話の先導者の音声に基づいて当該場の会話状態を判別することも考えられる。

この発明の会話状態判別装置の構成の一例および会話状態判別装置の使用状態の一例を示す図解図である。図１実施例に示すデータベースの内容を示す図解図である。図１実施例に示すデータベースに記憶される会話状態データの一例を示す図解図である。図１実施例に示すコンピュータの会話状態判別処理を示すフロー図である。図１実施例に示すコンピュータの説明モード処理の一部を示すフロー図である。図１実施例に示すコンピュータの説明モード処理の他の一部を示すフロー図である。図１実施例に示すコンピュータの対話モード処理の一部を示すフロー図である。図１実施例に示すコンピュータの対話モード処理の他の一部を示すフロー図である。図１実施例に示すコンピュータの会話なしモード処理を示すフロー図である。この発明の会話状態判別装置の使用状態の他の例を示す図解図である。

符号の説明

１０ …会話状態判別装置
１２ …コンピュータ
１４，１４ａ，１４ｂ …マイク
１６ …データベース
１８ …出力装置
２０，２２ …対象物

Claims

会話の先導者の音声を収集するためのマイク、
前記マイクの出力に基づいて、少なくとも前記音声の無音区間についての長さを検出する長さ検出手段、および
前記長さ検出手段の検出結果に基づいて、前記先導者が存在する場の会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する判別手段を備える、会話状態判別装置。
前記判別手段は、前記無音区間の長さが第１所定時間未満のとき、前記会話状態を前記説明状態と判別し、前記無音区間の長さが前記第１所定時間よりも長い第２所定時間よりも長いとき、前記会話状態を前記会話なし状態と判別し、そして、前記無音区間の長さが前記第１所定時間以上前記第２所定時間以下のとき、前記会話状態を前記対話状態と判別する、請求項１記載の会話状態判別装置。
前記長さ検出手段の検出結果に基づいて、前記会話状態を前記説明状態、前記対話状態および前記会話なし状態の間で遷移させる状態遷移手段をさらに備える、請求項１または２記載の会話状態判別装置。
前記状態遷移手段は、前記会話状態が前記対話状態または前記会話なし状態である場合において、前記第１所定時間未満の長さの無音区間が現われると、前記会話状態を前記説明状態に遷移させ、前記会話状態が前記説明状態または前記対話状態である場合において、前記第２所定時間よりも長い無音区間が現われると、前記会話状態を会話なし状態に遷移させ、そして、前記会話状態が前記説明状態または前記会話なし状態である場合において、前記第１所定期間以上前記第２所定期間以下の長さの無音区間が現われると、前記会話状態を前記対話状態に遷移させる、請求項３記載の会話状態判別装置。
前記状態遷移手段は、前記会話状態が前記対話状態である場合において、前記第１所定時間未満の長さの無音区間が第１所定回数連続して現われると、前記会話状態を前記説明状態に遷移させ、前記会話状態が前記説明状態または前記対話状態である場合において、前記第２所定時間よりも長い無音区間が現われると、前記会話状態を前記会話なし状態に遷移させ、前記会話状態が前記説明状態または前記会話なし状態である場合において、前記第１所定時間以上前記第２所定時間以下の長さの無音区間が第２所定回数連続して現われると、前記会話状態を前記対話状態に遷移させ、そして、前記会話状態が前記会話なし状態である場合において、前記第１所定時間未満の長さの無音区間が現われると、前記会話状態を前記説明状態に遷移させ、または、前記第１所定時間以上前記第２所定時間以下の長さの無音区間が現われると、前記会話状態を前記対話状態に遷移させる、請求項３記載の会話状態判別装置。
前記無音区間は、前記先導者の音声のうち隣接する２つの発話区間で区切られる、かつ第３所定時間以上継続する区間で規定される、請求項１ないし５のいずれかに記載の会話状態判別装置。
会話の先導者が存在する場の会話状態を判別する会話状態判別プログラムであって、
コンピュータに、
前記会話の先導者の音声に対応する音声信号に基づいて、少なくとも前記音声の無音区間についての長さを検出する長さ検出ステップと、
前記長さ検出ステップの検出結果に基づいて、前記先導者が存在する場の会話状態を説明状態、対話状態および会話なし状態のいずれか一つとして判別する判別ステップとを、実行させる、会話状態判別プログラム。
前記判別ステップは、前記無音区間の長さが第１所定時間未満のとき、前記会話状態を前記説明状態と判別し、前記無音区間の長さが前記第１所定時間よりも長い第２所定時間よりも長いとき、前記会話状態を前記会話なし状態と判別し、そして、前記無音区間の長さが第１所定時間以上前記第２所定時間以下のとき、前記会話状態を前記対話状態と判別する、請求項７記載の会話状態判別プログラム。