以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態におけるテレビ電話システムの構成例を示す図である。図1において、テレビ会議システム1は、会話補助装置10、並びに端末装置20a及び端末装置20b等の2以上の端末装置20を含む。以下、端末装置20a及び端末装置20bを区別しない場合、「端末装置20」という。各端末装置20と会話補助装置10とは、インターネット等の通信回線によって通信可能に接続される。
端末装置20は、例えば、テレビ電話専用端末、PC(Personal Computer)、フィーチャーフォン、スマートフォン、又はタブレット型端末等である。すなわち、端末装置20は、テレビ電話において、ユーザに対するインタフェースとして機能する装置である。各端末装置20には、マイク21、スピーカ22、カメラ23、及びディスプレイ24等が接続又は内蔵される。端末装置20は、マイク21によって電気信号に変換されたユーザの声の音声と、カメラ23によって撮影されたユーザの画像(動画)とを示す動画データを会話補助装置10に送信する。端末装置20は、また、会話相手の声と動画とを含む動画データを会話補助装置10から受信する。受信された動画データに含まれる音声は、スピーカ22によって出力され、当該動画データに含まれる動画は、ディスプレイ24によって表示される。
会話補助装置10は、テレビ電話による会話を中継する1以上のコンピュータ又は機器等である。具体的には、会話補助装置10は、テレビ電話の呼が設定された二つの端末装置20間において、音声及び動画を含む動画データを中継する。また、会話補助装置10は、着信側のユーザが不在の場合に、発信側のユーザが、着信側のユーザと擬似的な会話を補助するための処理を実行する。なお、会話の中継は、公知の技術を用いて行われてよい。
図2は、本発明の実施の形態における会話補助装置のハードウェア構成例を示す図である。図2の会話補助装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
会話補助装置10での処理を実現するプログラムは、記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って会話補助装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
なお、記録媒体101の一例としては、CD−ROM、DVDディスク、又はUSBメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置102の一例としては、HDD(Hard Disk Drive)又はフラッシュメモリ等が挙げられる。記録媒体101及び補助記憶装置102のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。
図3は、本発明の実施の形態における会話補助装置の機能構成例を示す図である。図3において、会話補助装置10は、中継部11を有する。中継部11は、テレビ電話による会話の中継を行う。なお、中継部11は、会話補助装置10とは別の装置によって実現されてもよい。
会話補助装置10は、また、分類データ生成部12及び会話補助部13等を有する。これら各部は、会話補助装置10にインストールされたプログラムがCPU104に実行させる処理により実現される。会話補助装置10は、更に、会話データ記憶部14及び分類データ記憶部15等を利用する。これら各記憶部は、補助記憶装置102、又は会話補助装置10にネットワークを介して接続される記憶装置等を用いて実現可能である。
分類データ生成部12は、テレビ電話の発信に対して着信側が応答した場合、すなわち、テレビ電話によって実際に会話が行われる場合に機能する。図3において、分類データ生成部12は、会話記録部121、反応抽出部122、反応分析部123、会話評価部124、及び会話段階判定部125等を含む。
会話記録部121は、中継部11によって中継されている会話の動画データを中継部11から入力し、当該会話の開始から終了まで(呼が設定されてから呼が解放されるまで)の動画及び音声を含むデータ(以下、「会話データ」という。)を記録する。会話データ記憶部14は、会話データをその書誌情報に対応づけて記憶する。
反応抽出部122は、会話データから、会話を行った一方のユーザによる、他方のユーザの発話に対するリアクション(反応)が記録されている部分(以下、「リアクションデータ」という。)を抽出する。本実施の形態では、説明の便宜上、着信側のユーザ(以下、「着信ユーザ」という。)に関して、リアクションデータが抽出されることとする。但し、着信側及び発信側の双方のユーザに関して、リアクションデータが抽出されてもよい。
他方のユーザの発話に対するリアクションとは、例えば、首を縦又は横に振る動作、首を傾げる動作、身振り手振りによる動作、「うんうん」、「へぇ〜」等の発話、笑う、微笑む、顔をしかめる等の表情の変化等である。リアクションは、動作、発声、表情の変化のうちのいずれか一つであってもよいし、2以上の組合せであってもよい。
反応分析部123は、反応抽出部122によって抽出されたリアクションデータごとに、当該リアクションデータに係るリアクションの変化傾向を評価する。リアクションの変化傾向とは、例えば、声の大きさの変化傾向、表情の変化若しくは動作の大きさの変化傾向、又はテンポの速さの変化傾向等である。テンポの速さとは、相手の発話に対する着信ユーザのリアクションの速さを推定する指標である。すなわち、リアクションが早いほど、リアクションが大きいと判定される。
会話評価部124は、リアクションデータごとに、会話の盛り上がり度を評価する。会話の盛り上がり度は、会話が盛り上がっている程度を示す指標である。会話の盛り上がり度についても、着信ユーザによるリアクションに基づいて評価される。すなわち、着信ユーザによるリアクションに基づいて、発信側のユーザと着信ユーザとの間の会話自体の盛り上がり度が評価される。
会話段階判定部125は、リアクションデータごとに、当該リアクションデータに係るリアクションが、会話に関する所定の遷移モデルにおけるいずれの段階(以下、「会話段階」という。)において発生したのかを判定する。本実施の形態では、会話は、図4に示される遷移モデルに従った段階を有するものと推定される。
図4は、本実施の形態における会話の遷移モデルの一例を示す図である。図4において、横軸は、時間である。縦軸は、会話の盛り上がり度である。本実施の形態では、会話は、時間の経過と会話の盛り上がり度とに応じて、スタート段階から、テンポアップ段階、ハイライト(上げ)段階、ハイライト(下げ)段階へと遷移し、その後、つなぎ段階又はしめ段階に遷移するものと推定される。
スタート段階は、会話が開始された段階であり、例えば、本題に入る前の挨拶等が会話の内容となる。テンポアップ段階は、例えば、本題に向けて会話がテンポアップしてく段階である。ハイライト(上げ)段階は、本題において会話が盛り上がっていく段階である。ハイライト(下げ)段階は、会話の盛り上がりの頂点を過ぎて、会話が収束していく段階である。つなぎ段階は、2以上の話題が或る場合に存在する段階であり、例えば、次の話題へ移行するための会話が行われる。つなぎ段階の後は、再び、テンポアップ段階、ハイライト(上げ)段階、ハイライト(下げ)段階に遷移する。しめ段階は、例えば、会話を終了させるための話が行われる段階である。
図4には、つなぎ段階、2度目のテンポアップ段階、2度目のハイライト(上げ)段階、2度目のハイライト(下げ)段階が存在する例が示されているが、これらの会話段階が存在せずに、しめ段階への遷移が発生してもよい。
図3に戻る。分類データ記憶部15は、各会話の各リアクションデータに対して、反応分析部123による評価結果及び会話段階判定部125による判定結果等を対応付けて記憶する。その結果、各リアクションデータが、反応分析部123による評価結果及び会話段階判定部125による判定結果等に基づいて分類された状態となる。
会話補助部13は、テレビ電話の発信に対して着信側が応答しない場合、すなわち、一般的には留守番電話サービスが起動される場合に機能し、着信側との擬似的な会話を実現するための処理を実行する。図3において、会話補助部13は、補助可否判定部131、発話入力部132、発話態度分析部133、会話評価部134、会話段階判定部135、反応選択部136、及び反応出力部137等を含む。
補助可否判定部131は、着信側との擬似的な会話の可否を判定する。分類データ記憶部15において、着信側のリアクションデータが記憶されている場合、着信側との擬似的な会話は可能であると判定される。発話入力部132には、発信側による発話に係る音声及び動画を含む動画データが、中継部11から入力される。発話態度分析部133、会話評価部134、及び会話段階判定部135は、発信側による発話に関して、反応分析部123、会話評価部124、又は会話段階判定部125と同様の処理を実行する。その結果、発信側の発話が、その態様に基づいて分類される。反応選択部136は、発信側の発話の分類結果と、着信側に係るリアクションデータの分類結果とに基づいて、当該発話に対応するリアクションデータを選択する。反応出力部137は、反応選択部136によって選択されたリアクションデータを、発信側の発話に対して出力する。その結果、発信側の発話に対する着信側の反応が、擬似的に再生される。
以下、会話補助装置10が実行する処理手順について説明する。以下の説明において、端末装置20aのユーザは、ユーザAであり、端末装置20bのユーザは、ユーザBであるとする。また、ユーザAが、着信ユーザであるとする。
図5は、会話補助装置が実行する処理手順の一例を説明するためのフローチャートである。
中継部11は、ユーザBによる操作に応じた端末装置20bから発信の通知を受けると(S101でYes)、所定時間が経過するまで(S103)、着信側の端末装置20aに発信を通知する。所定時間内にユーザAが応答することにより、呼が設定され、端末装置20aのユーザAと端末装置20bのユーザBとの間で会話が開始されると(S102でYes)、会話記録部121は、会話データを記録する(S104)。会話データの記録は、会話の終了まで(呼の解放まで)継続的に行われる。会話が終了すると(S105でYes)、会話記録部121は、会話データを会話データ記憶部14に登録する(S106)。
図6は、会話データ記憶部の構成例を示す図である。図6において、会話データ記憶部14は、会話ごとに、会話ID、開始日時、終了日時、ファイル名、及び満足度等を含むレコードを記憶する。会話IDは、会話ごと、すなわち、会話データ記憶部14のレコードごとの識別情報である。会話IDは、例えば、会話記録部121によって自動的に割り当てられる。開始日時及び終了日時は、会話の開始日時又は終了日時である。ファイル名は、会話データを格納したファイルのファイル名である。図6では、一つの会話データの例が概念的に示されている。当該会話データには、発信側及び着信側の双方の動画及び音声が含まれているが、本実施の形態においては、発信側の情報は含まれなくてもよい。満足度は、会話に対する満足度であり、後述されるステップS108において記憶される。なお、ステップS106では、1つのレコードが登録される。以下、ステップS106において登録されたレコードを、「対象レコード」という。
続いて、会話記録部121は、今回の会話に対する満足度を受信する。本実施の形態では、ユーザAの端末装置20aから満足度が受信される。但し、双方の端末装置20から満足度が受け付けられてもよい。満足度は、例えば、会話の終了に応じて端末装置20aのディスプレイ24に表示される、満足度入力画面を介して入力されてもよい。
図7は、満足度入力画面の表示例を示す図である。図7において、満足度入力画面510は、満足度を選択肢とするラジオボタン511を含む。ユーザAによって、ラジオボタン511におけるいずれかの選択肢が選択され、OKボタン512が押下されると、端末装置20aは、当該選択肢を示す数値を、会話補助装置10に送信する。ステップS107では、当該数値が受信される。当該数値は、例えば、「とても満足」、「やや満足」、「ふつう」、「やや不満足」、「とても不満足」の順に、「5」、「4」、「3」、「2」、「1」である。但し、満足度は、必ずしも数値でなくてもよい。アルファベット等、他の記号によって満足度が表現されてもよい。
なお、満足度の選択は、例えば、楽しかった、話したいことが十分話せた等、ユーザAの主観に基づいて行われてよい。また、満足度の選択は、音声ガイダンスの誘導に従って行われてもよい。この場合、満足度入力画面510は表示されなくてもよい。
続いて、会話記録部121は、受信された満足度を、対象レコードに登録する(S108)。
一方、端末装置20bからの発信に対して、所定時間が経過すると、すなわち、所定時間内にユーザAが応答しないと(S103でYes)、端末装置20aへの発信の通知は中止され、会話補助部13が、会話補助処理を実行する(S109)。会話補助処理により、ユーザBは、ユーザAと擬似的な会話を行うことができる。
図5の処理の終了後、対象レコードに係る会話データに関して、図8に示す処理手順が実行される。図8は、会話データからのリアクションデータの抽出処理の処理手順の一例を説明するためのフローチャートである。なお、図8の処理は、図5の処理における会話データの記録と並行して行われてもよいし、図5の処理の終了後、任意のタイミングでバッチ的に実行されてもよい。
ステップS111において、反応抽出部122は、対象レコードのファイル名に係るファイルから会話データを取得する(S111)。続いて、反応抽出部122は、会話データに含まれている、ユーザAの発話に係る音声、又はユーザA及びユーザBの双方の発話に係る音声に対して、音声認識処理を行い、当該音声を文字列データに変換する(S112)。音声認識処理は、公知技術を用いて行うことができる。
続いて、反応抽出部122は、文字列データに対して文節分析処理を実行し、文節を抽出する(S113)。続いて、反応抽出部122は、各文節に関して言語辞書解析処理を実行し、各文節から、ユーザAによるリアクションに該当する部分を抽出する(S114)。
続いて、反応抽出部122は、会話データにおいて各リアクションに該当する部分に関する情報を、分類データ記憶部15に登録する(S115)。会話データにおいてリアクションに該当する部分のそれぞれが、リアクションデータに相当する。したがって、ステップS115において、分類データ記憶部15には、各リアクションデータに関する情報が記憶される。
図9は、分類データ記憶部の構成例を示す図である。図9において、分類データ記憶部15は、リアクションデータごとに、会話ID、着信番号、開始時間、終了時間、声のトーン、表情、大きさ、及び会話段階等を含むレコードを記憶する。
会話IDは、リアクションデータの抽出元の会話データの会話IDである。着信番号は、会話IDに係る会話(通話)における着信側の電話番号である。開始時間及び終了時間は、会話データ内における、当該リアクションデータの開始時間又は終了時間である。すなわち、開始時間及び終了時間によって、会話データ内における当該リアクションデータの位置及び範囲が特定される。なお、開始時間及び終了時間は、例えば、会話データの先頭からの経過時間である。このように、リアクションデータは、必ずしも、会話データから断片化されて独立したデータとされなくてもよい。会話データ内におけるリアクションデータの位置が特定可能であればよい。但し、各リアクションデータが会話データから切り出されて、それぞれ独立したファイルに格納されてもよい。この場合、分類データ記憶部15の各レコードには、開始時間及び終了時間の代わりに、当該リアクションデータを格納するファイルのファイル名が記憶されてもよい。
声のトーン、表情は、当該リアクションデータに係るリアクションにおけるユーザAの声のトーン、表情のそれぞれの評価値である。変化傾向は、当該リアクションデータに係るリアクションの変化傾向の評価値である。会話段階は、当該リアクションデータに係るリアクションが行われたと推定される会話段階である。
なお、ステップS115では、リアクションデータごとにレコードが生成され、各レコードに、当該リアクションデータに係る会話ID、開始時間、及び終了時間が登録される。声のトーン、表情、大きさ、及び会話段階については、後述の処理において登録される。
図10は、リアクションデータの抽出を概念的に示す図である。図10には、ユーザAの会話データから、各リアクションデータが抽出される様子が概念的に示されている。各リアクションデータを示す矩形の下の数字は、各リアクションデータの開始時間を示す。
このように、図8の処理によって、会話データにおいて、リアクションが行われている断片がリアクションデータとして抽出される。なお、図8の処理では、会話データに含まれる音声を文字列に変換し、当該文字列からリアクションの部分が抽出される例を示した。但し、リアクションの部分の抽出方法は、斯かる方法に限定されない。例えば、画像解析技術を用いて、無言での動作や表情の変化によるリアクションの部分が抽出されてもよい。そうすることで、より多彩なリアクションに関するリアクションデータを抽出することができる。
なお、ステップS112における音声認識処理、ステップS113における文節分析処理、ステップS114における言語辞書解析処理は、公知技術を用いて行うことができる。例えば、国際公開第2006/087799号、国際公開第2009/107211号等に記載された技術が用いられてもよい。
続いて、分類データ記憶部15に登録された各リアクションデータに係るリアクションの分析処理について説明する。
図11は、リアクションの分析処理の処理手順の一例を説明するためのフローチャートである。図8の処理は、図8の処理によって分類データ記憶部15に登録されたレコードごとに実行される。図11の処理は、図8の処理に続けて実行されてもよいし、図8の処理の後の任意のタイミングで実行されてもよい。
ステップS121において、反応分析部123は、処理対象のレコード(以下、「対象レコード」という。)に係るリアクションデータに含まれているユーザAの声のトーンを分析する(S121)。例えば、当該リアクションデータに含まれている声が、喜びの声、悲しみの声、又は中間の声に分類される。中間の声とは喜び及び悲しみの双方が無い声をいう。反応分析部123は、分析結果を、対象レコードの「声のトーン」の項目に記憶する。なお、声のトーンの分析は、例えば、特開平7−66832号公報等に記載された公知技術を用いて行うことができる。
続いて、反応分析部123は、対象レコードに係るリアクションデータに含まれているユーザAの表情の態様を分析する(S122)。例えば、当該リアクションデータに含まれている表情が、喜びの表情、悲しみの表情、又は中間の表情に分類される。中間の表情とは喜び及び悲しみの無い表情をいう。反応分析部123は、分析結果を、対象レコードの「表情」の項目に記憶する。なお、表情の分析は、例えば、特開2012−155631号公報又は特開2013−154458号句法等に記載された公知技術を用いて行うことができる。
続いて、反応分析部123は、対象レコードに係るリアクションデータにおけるユーザAのリアクションの変化傾向の評価処理を実行する(S123)。反応分析部123は、評価結果として出力される評価値を、対象レコードの「変化傾向」の項目に記憶する。リアクションの変化傾向の評価処理の詳細については後述される。
続いて、会話段階判定部125は、対象レコードに係るリアクションデータにおけるリアクションが行われた会話段階の判定処理を実行する(S124)。会話段階判定部125は、判定結果として出力される会話段階を示す値を、対象レコードの「会話段階」の項目に記憶する。会話段階の判定処理の詳細については後述される。
図11の処理が、各リアクションデータに関して実行されることにより、一つの会話(通話)について分類データ記憶部15に登録されたレコードが完成する。すなわち、各リアクションデータが、分類されたことになる。なお、声のトーン、表情、変化傾向のうちのいずれか一つに基づいて、各リアクションデータが分類されてもよい。
続いて、ステップS123の詳細について説明する。図12は、リアクションの変化傾向の評価処理の処理手順の一例を説明するためのフローチャートである。本実施の形態において、リアクションの変化傾向は、声の大きさ、動作の大きさ、及びテンポに基づいて評価される。
ステップS131において、反応分析部123は、対象レコードの順番を、変数nに代入する。対象レコードとは、図11の説明における対象レコードである。また、対象レコードの順番とは、会話IDを同じくするレコード群の中における、開始時刻順の順番である。
続いて、反応分析部123は、対象レコードが2番目以降のレコードであるか否かを判定する(S132)。対象レコードが1番目のレコードである場合(S132でNo)、反応分析部123は、対象レコードに関する声の大きさの評価値を100(%)とする(S133)。続いて、反応分析部123は、対象レコードに関する動作の大きさの評価値を100(%)とする(S134)。
一方、対象レコードが2番目以降のレコードである場合(S132でYes)、反応分析部123は、n番目のリアクションデータの声の大きさを測定する(S135)。n番目のリアクションデータとは、対象レコードに係るリアクションデータである。例えば、当該リアクションデータの或る時点における声の大きさが測定される。又は、当該リアクションデータの全期間若しくは一部の期間における声の大きさの平均値、最大値、又は最小値等が、当該リアクションデータの声の大きさとして測定される。
続いて、反応分析部123は、前回(n−1番目)のリアクションデータに関して測定された声の大きさに対する、今回(n番目)のリアクションデータに関して測定された声の大きさの割合を、声の大きさの評価値として算出する(S136)。例えば、以下のような演算が行われる。
声の大きさの評価値=(Vn/Vn−1)×100(%)
Vn:n番目のリアクションデータnの声の大きさ(dB)
Vn−1:n−1番目のリアクションデータの声の大きさ(dB)
続いて、反応分析部123は、n番目のリアクションデータにおける人物(ユーザA)の画像の投影面積を算出する(S137)。例えば、当該リアクションデータの或る時点における投影面積が算出される。又は、当該リアクションデータの全期間若しくは一部の期間における投影面積の平均値、最大値、又は最小値等が、n番目のリアクションデータの投影面積として算出される。なお、斯かる投影面積の抽出は、例えば、特開平10−51755号公報等に記載された公知技術を用いて行うことができる。
続いて、反応分析部123は、前回(n−1番目)のリアクションデータに関して算出された投影面積に対する、今回(n番目)のリアクションデータに関して算出された投影面積の割合を、動作の大きさの評価値として算出する(S138)。例えば、以下のような演算が行われる。
動作の大きさの評価値=(Gn/Gn−1)×100(%)
Gn:n番目のリアクションデータnの投影面積
Gn−1:n−1番目のリアクションデータの投影面積
なお、他の方法によって、動作の大きさが算出されてもよい。例えば、n−1番目のリアクションデータの画像と、n番目のリアクションデータの画像とにおいて、人物像の輪郭の変化に基づいて、動作の大きさが算出されてもよい。
続いて、反応分析部123は、対象レコードが3番目以降のレコードであるか否かを判定する(S139)。対象レコードが、1番目又は2番目のレコードである場合(S139でNo)、反応分析部123は、対象レコードに関するテンポの評価値を100(%)とする(S140)。
一方、対象レコードが3番目以降のレコードである場合(S132でYes)、反応分析部123は、前回(n−1番目)のリアクションデータと今回(n番目)のリアクションデータとの間隔に対する、前々回(n−2番目)のリアクションデータと前回(n−1番目)のリアクションデータとの間隔の割合を、テンポの評価値として算出する(S141)。ここでいう間隔とは、開始時間の差分をいう。例えば、以下のような演算が行われる。
Tn=(n番目のリアクションデータの開始時間)−(n−1番目のリアクションデータの開始時間)
Tn−1=(n−1番目のリアクションデータの開始時間)−(n−2番目のリアクションデータの開始時間)
テンポの評価値=(Tn−1/Tn)×100(%)
なお、テンポは短くなっている方が、リアクションが大きい方向に変化していると評価される。したがって、Tn−1がTnによって除される。したがって、Tn−1よりもTnの方が小さければ(短ければ)、テンポの評価値は100%以上になる。すなわち、テンポに関して、リアクションが大きい方向に変化していると評価される。
なお、TnやTn−1は、例えば、以下のように算出されてもよい。
Tn=(n番目のリアクションデータの開始時間)−(n−1番目のリアクションデータの終了時間)
Tn−1=(n−1番目のリアクションデータの開始時間)−(n−2番目のリアクションデータの終了時間)
続いて、反応分析部123は、声の大きさの評価値、動作の大きさの評価値、及びテンポの評価値の平均値を算出する(S142)。当該平均値が、リアクションの変化傾向の評価値である。なお、各評価値に対して、重み係数が乗ぜられて、平均値が算出されてもよい。続いて、反応分析部123は、算出されたリアクションの変化傾向の評価値を、対象レコードの「変化傾向」の項目に記憶する(S143)。
続いて、図11のステップS124の詳細について説明する。図13は、会話段階の判定処理の処理手順の一例を説明するためのフローチャートである。
ステップS151において、会話段階判定部125は、対象レコードの開始時間が、閾値α以下であるか否かを判定する(S151)。対象レコードとは、図11の説明における対象レコードである。また、閾値αは、図4における、横軸(時間軸)に対して示されている閾値αである。閾値αは、予め設定されてもよいし、会話全体の長さに対する所定の割合として求められてもよい。すなわち、ステップS151では、対象レコードに係るリアクションが、会話開始時から所定時間が経過するまでに発生したものであるかが判定される。
対象レコードの開始時間が閾値α以下である場合(S151でYes)、会話段階判定部125は、対象レコードに係るリアクションの会話段階が、スタート段階であると判定する(S152)。
対象レコードの開始時間が閾値αを超えている場合(S151でNo)、会話評価部124は、対象レコードが属する会話について、対象レコードに係る時期における会話の盛り上がり度の評価処理を実行する(S153)。当該評価処理の詳細については後述される。当該評価処理の結果、盛り上がり度の評価値が出力される。
続いて、会話段階判定部125は、対象レコードに係る会話の盛り上がり度(以下、単に「盛り上がり度」という。)が閾値βを超えるか否かを判定する(S154)。閾値βは、図4における縦軸に対して示されている、会話の盛り上がり度に対する閾値である。盛り上がり度が、閾値βを超える状態は、例えば、会話が盛り上がっている状態を示す。なお、閾値βは、例えば、予め設定される。
盛り上がり度が閾値βを超える場合(S154でYes)、会話段階判定部125は、対象レコードの「変化傾向」の値が100%以上であるか否かを判定する(S155)。「変化傾向」の値は、ステップS123において算出されている。当該リアクションの変化傾向が100%以上である場合(S155でYes)、会話段階判定部125は、対象レコードに係るリアクションの会話段階が、ハイライト(上げ)段階であると判定する(S156)。
リアクションの変化傾向が100%未満である場合(S155でNo)、会話段階判定部125は、対象レコードに係るリアクションの会話段階が、ハイライト(下げ)段階であると判定する(S157)。
一方、盛り上がり度が閾値β以下である場合(S154でNo)、会話段階判定部125は、対象レコードより順番が後のレコードに係るリアクションデータの中で、盛り上がり度が閾値βを超えるものが無いか否かを判定する(S158)。ステップS158が初めて実行される場合、対象レコードより後の全てのレコードのリアクションに関して、ステップS153における処理が実行される。ステップS158が1度実行された後は、各レコードに係るリアクションデータの盛り上がり度を記憶しておき、以降におけるステップS153やステップS158では、盛り上がり度の評価処理が省略されてもよい。
対象レコードより後のレコードに係るリアクションデータの中で、盛り上がり度が閾値βを超えるものが無い場合(S158でYes)、会話段階判定部125は、対象レコードに係るリアクションの会話段階が、しめ段階であると判定する(S159)。
対象レコードにより後のレコードに係るリアクションデータの中で、盛り上がり度が閾値βを超えるものが有る場合(S158でNo)、会話段階判定部125は、対象レコードまでに処理された同一会話に係るレコードに係るリアクションデータについて、盛り上がり度が閾値βを超えたものが有るか否かを判定する(S160)。
該当するレコードが有る場合(S160でYes)、会話段階判定部125は、対象レコードの「変化傾向」の値が100%未満であるか否かを判定する(S161)。対象レコードの「変化傾向」の値が100%未満である場合(S161でYes)、会話段階判定部125は、対象レコードに係るリアクションの会話段階が、つなぎ段階であると判定する(S162)。
一方、ステップS160において、該当するレコードが無い場合(S160でNo)、又はステップS161において、対象レコードの「変化傾向」の値が100%以上である場合(S161でNo)、会話段階判定部125は、対象レコードに係るリアクションの会話段階が、テンポアップ段階であると判定する(S163)。
ステップS152、S156、S157、S159、S162、又はS163に続いて、会話段階判定部125は、判定結果を、対象レコードの「会話段階」の項目に記憶する(S164)。
続いて、ステップS153の詳細について説明する。図14は、会話の盛り上がり度の評価処理の処理手順の一例を説明するためのフローチャートである。図14中、図12と同一ステップには同一ステップ番号を付し、その説明は省略する。図14では、ステップS136、S138、S141、S142が、ステップS136a、S138a、S141a、S142aに置き換えられている。また、ステップS143は削除されている。なお、説明が省略される各ステップは、会話評価部124によって実行される点において、図12と異なる。
ステップS136aにおいて、会話評価部124は、1番目のリアクションデータに関して測定された声の大きさに対する、今回(n番目)のリアクションデータに関して測定された声の大きさの割合を、声の大きさの評価値として算出する。例えば、以下のような演算が行われる。
声の大きさの評価値=(Vn/V1)×100(%)
Vn:n番目のリアクションデータnの声の大きさ(dB)
V1:1番目のリアクションデータの声の大きさ(dB)
すなわち、会話の盛り上がり度は、1番目のリアクションデータとの比較に基づいて求められる。
ステップS138aにおいて、会話評価部124は、1番目のリアクションデータに関して算出された投影面積に対する、今回(n番目)のリアクションデータに関して算出された投影面積の割合を、動作の大きさの評価値として算出する。例えば、以下のような演算が行われる。
動作の大きさの評価値=(Gn/G1)×100(%)
Gn:n番目のリアクションデータnの投影面積
G1:1番目のリアクションデータの投影面積
なお、他の方法によって、動作の大きさが算出されてもよい。例えば、1番目のリアクションデータの画像と、n番目のリアクションデータの画像とにおいて、人物像の輪郭の変化に基づいて、動作の大きさが算出されてもよい。
ステップS141aにおいて、会話評価部124は、前回(n−1番目)のリアクションデータと今回(n番目)のリアクションデータとの間隔に対する、2番目のリアクションデータと1番目のリアクションデータとの間隔の割合を、テンポの評価値として算出する。例えば、以下のような演算が行われる。
Tn=(n番目のリアクションデータの開始時間)−(n−1番目のリアクションデータの開始時間)
T1=(2番目のリアクションデータの開始時間)−(1番目のリアクションデータの開始時間)
テンポの評価値=(T1/Tn)×100(%)
なお、TnやT1は、例えば、以下のように算出されてもよい。
Tn=(n番目のリアクションデータの開始時間)−(n−1番目のリアクションデータの終了時間)
T1=(2番目のリアクションデータの開始時間)−(1番目のリアクションデータの終了時間)
続いて、会話評価部124は、声の大きさの評価値、動作の大きさの評価値、及びテンポの評価値の平均値を算出する(S142a)。当該平均値が、会話の盛り上がり度の評価値である。なお、各評価値に対して、重み係数が乗ぜられて、平均値が算出されてもよい。
以上によって、ユーザAが不在の場合であっても、ユーザAとの擬似的な会話を可能とするための準備は整った。なお、ユーザAによる複数回の会話に対して、上記の処理が実行されてもよい。また、ユーザAが行った会話の中で、ユーザB以外との会話に関するリアクションデータの分類結果が、ユーザBとの会話に関するリアクションデータの分類結果と共に、分類データ記憶部15に記憶されてもよい。
続いて、図5のステップS109の詳細について説明する。すなわち、端末装置20bからの発信に対して着信側であるユーザAが応答しない場合に実行される処理について説明する。ユーザAが応答しない場合とは、ユーザAが不在である場合である。不在であるとは、端末装置20aの傍にユーザAが居ない場合に限られない。ユーザAが端末装置20aによる着信を認識していても、ユーザAが受話器を取る等の応答の動作を行わない場合も、不在に含まれる。
図15は、会話補助処理の処理手順の一例を説明するためのフローチャートである。
ステップS201において、補助可否判定部131は、着信側の電話番号を含むレコードが、分類データ記憶部15に記憶されているか否かを判定する。すなわち、会話補助処理の実行の可否が判定される。該当するレコードが無ければ、会話補助処理を実行することができないからである。
該当するレコードが無い場合(S201でNo)、図15の処理は終了する。この場合、一般的な留守番電話サービスに接続されてもよい。
該当するレコードが有る場合(S202でYes)、発話入力部132は、発信に対して応答を行う(S203)。すなわち、着信側が発信に対して応答を行った場合と同様の処理が実行される。その結果、会話補助部13と端末装置20bとの間に呼が設定される。なお、発話入力部132による応答によって、端末装置20bのディスプレイ24bに表示される画像は、例えば、擬似的な会話であることを示すメッセージ等を含むものであってもよいし、着信側の電話番号に係るリアクションデータに含まれている、いずれかのユーザAの画像であってもよい。
発話入力部132の応答により、発信側のユーザBは、発話を開始する。発話に係る音声及び動画を含む動画データ(以下、「発話データ」という。)は、端末装置20bから会話補助装置10に継続的に送信される。
続いて、発話入力部132は、一定時間分の発話データを入力する(S203)。一定時間は、例えば、数秒や数十秒等、或る程度の話が可能な時間でよい。続いて、発話態度分析部133は、発話データに含まれているユーザBの声のトーンを分析する(S204)。声のトーンの分析方法は、図8のステップS121と同様でよい。続いて、発話態度分析部133は、発話データに含まれているユーザBの表情の態様を分析する(S205)。表情の分析方法は、図8のステップS122と同様でよい。
続いて、発話態度分析部133は、ユーザBの発話の態度の変化傾向の評価処理を実行する(S206)。当該処理は、処理対象のデータが、発話データとなる点を除き、図12において説明したリアクションの評価処理と同様でよい。
続いて、会話段階判定部135は、ユーザBと、ユーザAのリアクションデータに基づく動画との擬似的な会話に関する会話段階の判定処理を実行する(S207)。当該判定処理は、図13において説明した会話段階の評価処理と同様でよい。
続いて、反応選択部136は、発話データに係る発話に対応するリアクションが含まれている可能性の高いリアクションデータを、分類データ記憶部15を参照して選択する(S208)。発話に対応するリアクションとは、例えば、発話に対するリアクションとして自然な、又は適切なリアクションである。
続いて、反応出力部137は、選択されたリアクションデータに基づいて、ユーザBの発話に対するリアクションを示す画像(動画)を、端末装置20bに対して出力する(S209)。例えば、当該リアクションデータが再生されてもよい。または、当該リアクションデータに基づいて、ユーザAの仮想的なキャラクター(アバター)の画像が生成され、当該画像が、当該リアクションデータに係るリアクションを行ってもよい。
続いて、会話補助部13は、一定時間待機して(S210)、ステップS202以降を繰り返す。ステップS202以降の繰り返しは、ユーザBによって、呼が解放されるまで実行される。
なお、擬似的な会話の会話データは、例えば、会話記録部121によって会話データ記憶部14に記憶されてもよい。当該会話データに関しては、リアクションデータの抽出対象とされずに、留守番電話サービス等によってアクセス可能とされてもよい。そうすることで、ユーザAは、ユーザBからの伝言を確認することができる。
続いて、ステップS206の詳細について説明する。図16は、発話態度の変化傾向の評価処理の処理手順の一例を説明するためのフローチャートである。図16中、図12と同一ステップには同一ステップ番号を付し、その説明は省略する。図16では、ステップS131、S135、S136、S137、S138、S141、S142が、ステップS131b、S135b、S136b、S137b、S138b、S141b、S142bに置き換えられている。また、ステップS143は削除されている。なお、説明が省略される各ステップは、発話態度分析部133によって実行される点において、図12と異なる。
ステップS131b、S135b、S136b、S137b、S138b、S141b、S142bは、処理対象のデータが、発話データであり、処理の実行主体が発話態度分析部133である点を除いて、ステップS131、S135、S136、S137、S138、S141、S142と同じである。ステップS131bにおける発話データの順番は、図15のステップS204において、発話入力部132によって発話データが入力される順番である。
ステップS142bでは、各評価値の平均が、発話態度の変化傾向の評価値として算出される。
続いて、図15のステップS207の詳細について説明する。図17は、擬似的な会話の会話段階の判定処理の処理手順の一例を説明するためのフローチャートである。図17中、図13と同一ステップには同一ステップ番号を付し、その説明は省略する。図17では、ステップS151、S153、S155、S158、S161が、ステップS151、S153b、S155b、S158b、S161bに置き換えられている。また、ステップS164は削除されている。なお、説明が省略される各ステップは、会話段階判定部135によって実行される点において、図13と異なる。
ステップS151bでは、処理対象の発話データの開始時間が閾値αとの比較対象とされる。発話データの開始時間とは、擬似的な会話が開始されてから(図15のステップS202から)、当該発話データの開始時点までの経過時間である。
ステップS153bでは、擬似的な会話の盛り上がり度が評価される。
ステップS155b及びステップS161bでは、発話態度の変化傾向が、100%との比較対象とされる。
ステップS158bでは、これまでに入力された発話データによって、盛り上がり度が閾値βを超えた回数が所定回数以上であるか否かが判定される。会話補助処理は、リアルタイム処理であるため、図13のステップS158と異なり、以降における盛り上がり回数をカウントすることはできない。したがって、ステップS158bでは、以降における情報ではなく、過去における情報に基づいて判定が行われる。
続いて、図17のステップS153bの詳細について説明する。図18は、擬似的な会話の盛り上がり度の評価処理の処理手順の一例を説明するためのフローチャートである。図18中、図16と同一ステップには同一ステップ番号を付し、その説明は省略する。図18では、ステップS136b、S138b、S141b、S142bが、ステップS136c、S138c、S141c、S142cに置き換えられている。
図18と図16との違いは、図14と図12との違いと同様である。なお、図18において、各ステップの実行主体は、会話評価部134である。また、ステップS142cでは、擬似的な会話の盛り上がり度が算出される。
続いて、図15のステップS208の詳細について説明する。図19は、リアクションデータの選択処理の処理手順の一例を説明するためのフローチャートである。
ステップS221において、反応選択部136は、着信側の電話番号を含むレコードを、分類データ記憶部15から抽出する。1以上のレコード群が抽出された場合(S222でYes)、反応選択部136は、抽出されたレコード群の中から、「会話段階」の評価値が、発話データに対する会話段階の評価値に一致するレコード群を抽出する(S223)。ユーザBが感じている会話段階に適合したリアクションを再現するためである。
1以上のレコード群が抽出された場合(S224でYes)、反応選択部136は、抽出されたレコード群の中から、「表情」、「声のトーン」の評価値が、発話データに対する「表情」、「声のトーン」に一致するレコード群を抽出する(S225)。ユーザBの感情に適合したリアクションを再現するためである。
1以上のレコード群が抽出された場合(S226でYes)、反応選択部136は、抽出されたレコード群の中から「変化傾向」の評価値が、発話データに対する発話態度の変化傾向の評価値に一致するレコード群を抽出する(S227)。ユーザBの興奮の程度又は感情の盛りに適合したリアクションを再現するためである。
1以上のレコード群が抽出された場合(S228でYes)、反応選択部136は、抽出されたレコード群の中から「満足度」の値が、所定値以上(例えば、3以上)であるレコード群を抽出する(S229)。ユーザAが、過去に満足した会話におけるリアクションを再現するためである。
1以上のレコード群が抽出された場合(S230でYes)、反応選択部136は、抽出されたレコード群の中で、最新ものを選択する(S231)。レコードの新旧は、例えば、レコードの記憶順に基づいて判定されてもよい。又は、同じ会話IDを含むレコード間においては、開始時間に基づいて新旧が判定されてもよい。異なる会話IDを含むレコード間においては、各会話IDに対応付けられて会話データ記憶部14に記憶されている開始日時に基づいて新旧が判定されてもよい。
一方、ステップS221、S223、S225、S227、又はS229におけるいずれかの抽出処理において、レコードが一つも抽出されなかった場合、反応選択部136は、既定のリアクションデータを選択する(S232)。既定のリアクションデータは、ユーザAに関するリアクションデータの中から予め選択された特定のリアクションデータであってもよいし、各ユーザに関して共通のリアクションデータであってもよい。
ステップS231において選択されたレコードに係るリアクションデータ、又はS232において選択されたリアクションデータが、図15のステップS209において、ユーザBの端末装置20bへの出力対象となる。
なお、ステップS223、S225、S227、及びS229のうちのいずれかの抽出処理が省略されてもよい。また、例えば、或る擬似的な会話における最初の発話データに対していずれかのレコード(以下、「レコードA」という。)が選択された場合、当該会話中における以降の発話データに対しては、レコードAと会話IDが同じであるレコードに、選択対象が限定されるようにしてよい。または、会話の開始日時が、レコードAに係る会話の開始日時から前後所定期間内であるレコードに、選択対象が限定されてもよい。そうすることで、擬似的な会話において出力されるユーザAの顔の雰囲気がリアクションごとに大きく異なるといった不自然さの発生を回避することができる。
上述したように、本実施の形態によれば、会話を行うユーザAの動画及び音声を含む会話データを記録しておき、当該会話データから抽出されたリアクションデータに基づいて、ユーザAの不在時において、ユーザAのリアクションを再現することができる。すなわち、ユーザAの不在時にユーザAとテレビ電話を行おうとしたユーザBに対して、ユーザAとの擬似的な会話を経験させることができる。したがって、会話相手が不在であっても擬似的な会話を可能とすることができる。その結果、ユーザBをリラックスさせたり、興奮させたりして、ユーザBが一人語りするよりもスムーズに、ユーザAに対するメッセージを残すことができる可能性を高めることができる。
また、本実施の形態では、各リアクションデータが、リアクションの態様(声のトーン、表情等)や、リアクションが行われた会話段階に応じて分類される。リアクションデータに基づくリアクションの出力時には、会話相手の態度や、擬似的な会話の会話段階に対応させて、出力対象のリアクションデータが選択される。その結果、例えば、テンポアップ段階やつなぎ段階であれば、会話相手に発話を促すようなリアクションを再現できたり、ハイライト(上げ)であれば、相手の気持ちを盛りあげるようなリアクションを再現できたり、しめ段階であれば、会話を収束できるようなリアクションを再現できたりする可能性を高めることができる。
なお、本実施の形態では、テレビ電話における会話時にリアクションデータが生成される例を説明したが、リアクションデータの生成元となる動画データは、テレビ電話に関するものに限定されない。例えば、他者と会話をするユーザAが、ビデオカメラ等で撮影された動画データから、リアクションデータが抽出されてもよい。
また、リアクションデータの用途は、テレビ電話に限られない。例えば、ユーザAの画像が表示された画面に対して話しかけると、リアクションデータに基づくリアクションが画面上に再現されるといったアプリケーションに適用されてもよい。この場合、例えば、故人のリアクションデータが蓄積されていれば、故人との擬似的な会話を可能とすることもできる。
また、著名人やアニメのキャラクタ等のリアクションデータを蓄積しておくことで、著名人やアニメのキャラクタ等との擬似的な会話を可能とすることもできる。
また、友人や家族等のリアクションデータを蓄積しておき、ウェアラブルデバイスを、リアクションデータの出力先の端末として使用とすることで、例えば、一人旅の旅先において、旅の感動を擬似的な会話によって伝えることができる。
なお、リアクションデータを利用した擬似的な会話のサービスは、例えば、クラウドサービスとして提供されてもよい。例えば、クラウド側にリアクションデータを蓄積しておき、ユーザが、端末を利用してクラウドサービスにアクセスすると、当該リアクションデータに基づく擬似的な会話のサービスが端末に対して提供されるようにしてもよい。
なお、本実施の形態において、ユーザAは、第一の人の一例である。ユーザBは、第二の人の一例である。端末装置20は、通信端末の一例である。反応抽出部122は、抽出部の一例である。反応分析部123、会話評価部124、及び会話段階判定部125は、第一の分類部の一例である。分類データ記憶部15は、記憶部の一例である。発話入力部132は、入力部の一例である。発話態度分析部133、会話評価部134、及び会話段階判定部135は、第二の分類部の一例である。反応選択部136は、選択部の一例である。反応出力部137は、出力部の一例である。声のトーン及び声の大きさは、声の態様の一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
以上の説明に関し、更に以下の項を開示する。
(付記1)
第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出し、
抽出された各部分を、当該部分における前記第一の人の反応の態様に基づいて分類して、分類結果を示す情報を記憶し、
第二の人の発話が入力され、
前記第二の人の発話を当該発話の態様に基づいて分類し、
前記第二の人の発話の分類結果と、前記各部分の分類結果とに基づいて、当該発話に対応する前記部分を選択し、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する、
処理をコンピュータに実行させる会話補助プログラム。
(付記2)
前記第二の人の発話が入力される処理は、テレビ電話における前記第二の人の発話が入力され、
前記出力する処理は、前記テレビ電話において、前記第二の人の発話に対する反応を示す画像を出力する付記1記載の会話補助プログラム。
(付記3)
前記分類結果を示す情報を記憶する処理は、前記抽出された各部分における前記第一の人の声の態様又は/かつ表情の変化の態様又は/かつ動作の変化の態様に基づいて、当該各部分を分類し、
前記第二の人の発話を分類する処理は、当該発話における前記第二の人の声の態様又は/かつ表情の変化の態様又は/かつ動作の変化の態様に基づいて、当該発話を分類する付記1又は2記載の会話補助プログラム。
(付記4)
第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出し、
抽出された各部分を、当該部分における前記第一の人の反応の態様に基づいて分類して、分類結果を示す情報を記憶し、
第二の人の発話が入力され、
前記第二の人の発話を当該発話の態様に基づいて分類し、
前記第二の人の発話の分類結果と、前記各部分の分類結果とに基づいて、当該発話に対応する前記部分を選択し、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する、
処理をコンピュータが実行する会話補助方法。
(付記5)
前記第二の人の発話が入力される処理は、テレビ電話における前記第二の人の発話が入力され、
前記出力する処理は、前記テレビ電話において、前記第二の人の発話に対する反応を示す画像を出力する付記4記載の会話補助方法。
(付記6)
前記分類結果を示す情報を記憶する処理は、前記抽出された各部分における前記第一の人の声の態様又は/かつ表情の変化の態様又は/かつ動作の変化の態様に基づいて、当該各部分を分類し、
前記第二の人の発話を分類する処理は、当該発話における前記第二の人の声の態様又は/かつ表情の変化の態様又は/かつ動作の変化の態様に基づいて、当該発話を分類する付記4又は5記載の会話補助方法。
(付記7)
通信端末と、前記通信端末にネットワークを介して接続されるコンピュータとを含む会話システムであって、
前記コンピュータは、
第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出する抽出部と、
抽出された各部分を、当該部分における前記第一の人の反応の態様に基づいて分類する第一の分類部と、
前記第一の分類部による分類結果を示す情報を記憶する記憶部と、
前記通信端末から受信される、該通信端末に対する第二の人の発話が入力される入力部と、
前記第二の人の発話を当該発話の態様に基づいて分類する第二の分類部と、
前記第二の人の発話の分類結果と、前記各部分の分類結果とに基づいて、当該発話に対応する前記部分を選択する選択部と、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する出力部と、
を有する会話システム。
(付記8)
前記入力部には、テレビ電話における前記第二の人の発話が入力され、
前記出力部は、前記テレビ電話において、前記第二の人の発話に対する反応を示す画像を出力する付記7記載の会話システム。
(付記9)
前記第一の分類部は、前記抽出された各部分における前記第一の人の声の態様又は/かつ表情の変化の態様又は/かつ動作の変化の態様に基づいて、当該各部分を分類し、
前記第二の分類部は、当該発話における前記第二の人の声の態様又は/かつ表情の変化の態様又は/かつ動作の変化の態様に基づいて、当該発話を分類する付記7又は8記載の会話システム。