JP6248677B2

JP6248677B2 - 会話補助プログラム、会話補助方法、及び会話システム

Info

Publication number: JP6248677B2
Application number: JP2014027693A
Authority: JP
Inventors: 武生浅輪; 加奈子仲佐
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-02-17
Filing date: 2014-02-17
Publication date: 2017-12-20
Anticipated expiration: 2034-02-17
Also published as: JP2015154343A

Description

本発明は、会話補助プログラム、会話補助方法、及び会話システムに関する。

電話やテレビ電話等、リアルタイムに遠隔的な会話を支援するコミュニケーションツールでは、会話相手が対応できない場合に、留守番電話サービス等によって、メッセージ等を残しておくことができる。ユーザは、メッセージ等を残しておくことで、用件を相手に伝えることができる。

特開２０１１−１０７９９７号公報特開２００５−３５２８９２号公報特開２００６−３９９１７号公報

しかしながら、メッセージ等を残しておく場合、相手とのインタラクションが無いため、会話のキャッチボールで話題を膨らませたり、相手の反応によって用件を思い出して付け足したり等といった、実際の会話で得られる面白味は得難い。

そこで、一側面では、会話相手が不在であっても当該会話相手との擬似的な会話を可能とすることを目的とする。

一つの案では、会話補助プログラムは、第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出し、抽出された各部分を、前記抽出された各部分における前記第一の人の声の態様又は／かつ表情の態様又は／かつ動作の変化の態様に基づいて分類して、分類結果を示す情報を記憶し、第二の人の発話が入力され、前記第二の人の発話を、当該発話における前記第二の人の声の態様又は／かつ表情の態様又は／かつ動作の変化の態様に基づいて分類し、前記第二の人の、発話の大きさ又は／かつ動作の大きさ又は／かつ発話のテンポから会話の盛り上がり度を算出し、前記盛り上がり度から会話の段階を算出し、前記第二の人の発話の分類結果と、前記各部分の分類結果と、前記会話の段階とに基づいて、当該発話に対応する前記部分を選択し、選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する、処理をコンピュータに実行させる。

一態様によれば、会話相手が不在であっても当該会話相手との擬似的な会話を可能とすることができる。

本発明の実施の形態におけるテレビ電話システムの構成例を示す図である。本発明の実施の形態における会話補助装置のハードウェア構成例を示す図である。本発明の実施の形態における会話補助装置の機能構成例を示す図である。本実施の形態における会話の遷移モデルの一例を示す図である。会話補助装置が実行する処理手順の一例を説明するためのフローチャートである。会話データ記憶部の構成例を示す図である。満足度入力画面の表示例を示す図である。会話データからのリアクションデータの抽出処理の処理手順の一例を説明するためのフローチャートである。分類データ記憶部の構成例を示す図である。リアクションデータの抽出を概念的に示す図である。リアクションの分析処理の処理手順の一例を説明するためのフローチャートである。リアクションの変化傾向の評価処理の処理手順の一例を説明するためのフローチャートである。会話段階の判定処理の処理手順の一例を説明するためのフローチャートである。会話の盛り上がり度の評価処理の処理手順の一例を説明するためのフローチャートである。会話補助処理の処理手順の一例を説明するためのフローチャートである。発話態度の変化傾向の評価処理の処理手順の一例を説明するためのフローチャートである。擬似的な会話の会話段階の判定処理の処理手順の一例を説明するためのフローチャートである。擬似的な会話の盛り上がり度の評価処理の処理手順の一例を説明するためのフローチャートである。リアクションデータの選択処理の処理手順の一例を説明するためのフローチャートである。

以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態におけるテレビ電話システムの構成例を示す図である。図１において、テレビ会議システム１は、会話補助装置１０、並びに端末装置２０ａ及び端末装置２０ｂ等の２以上の端末装置２０を含む。以下、端末装置２０ａ及び端末装置２０ｂを区別しない場合、「端末装置２０」という。各端末装置２０と会話補助装置１０とは、インターネット等の通信回線によって通信可能に接続される。

端末装置２０は、例えば、テレビ電話専用端末、ＰＣ（Personal Computer）、フィーチャーフォン、スマートフォン、又はタブレット型端末等である。すなわち、端末装置２０は、テレビ電話において、ユーザに対するインタフェースとして機能する装置である。各端末装置２０には、マイク２１、スピーカ２２、カメラ２３、及びディスプレイ２４等が接続又は内蔵される。端末装置２０は、マイク２１によって電気信号に変換されたユーザの声の音声と、カメラ２３によって撮影されたユーザの画像（動画）とを示す動画データを会話補助装置１０に送信する。端末装置２０は、また、会話相手の声と動画とを含む動画データを会話補助装置１０から受信する。受信された動画データに含まれる音声は、スピーカ２２によって出力され、当該動画データに含まれる動画は、ディスプレイ２４によって表示される。

会話補助装置１０は、テレビ電話による会話を中継する１以上のコンピュータ又は機器等である。具体的には、会話補助装置１０は、テレビ電話の呼が設定された二つの端末装置２０間において、音声及び動画を含む動画データを中継する。また、会話補助装置１０は、着信側のユーザが不在の場合に、発信側のユーザが、着信側のユーザと擬似的な会話を補助するための処理を実行する。なお、会話の中継は、公知の技術を用いて行われてよい。

図２は、本発明の実施の形態における会話補助装置のハードウェア構成例を示す図である。図２の会話補助装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

会話補助装置１０での処理を実現するプログラムは、記録媒体１０１によって提供される。プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って会話補助装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

なお、記録媒体１０１の一例としては、ＣＤ−ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

図３は、本発明の実施の形態における会話補助装置の機能構成例を示す図である。図３において、会話補助装置１０は、中継部１１を有する。中継部１１は、テレビ電話による会話の中継を行う。なお、中継部１１は、会話補助装置１０とは別の装置によって実現されてもよい。

会話補助装置１０は、また、分類データ生成部１２及び会話補助部１３等を有する。これら各部は、会話補助装置１０にインストールされたプログラムがＣＰＵ１０４に実行させる処理により実現される。会話補助装置１０は、更に、会話データ記憶部１４及び分類データ記憶部１５等を利用する。これら各記憶部は、補助記憶装置１０２、又は会話補助装置１０にネットワークを介して接続される記憶装置等を用いて実現可能である。

分類データ生成部１２は、テレビ電話の発信に対して着信側が応答した場合、すなわち、テレビ電話によって実際に会話が行われる場合に機能する。図３において、分類データ生成部１２は、会話記録部１２１、反応抽出部１２２、反応分析部１２３、会話評価部１２４、及び会話段階判定部１２５等を含む。

会話記録部１２１は、中継部１１によって中継されている会話の動画データを中継部１１から入力し、当該会話の開始から終了まで（呼が設定されてから呼が解放されるまで）の動画及び音声を含むデータ（以下、「会話データ」という。）を記録する。会話データ記憶部１４は、会話データをその書誌情報に対応づけて記憶する。

反応抽出部１２２は、会話データから、会話を行った一方のユーザによる、他方のユーザの発話に対するリアクション（反応）が記録されている部分（以下、「リアクションデータ」という。）を抽出する。本実施の形態では、説明の便宜上、着信側のユーザ（以下、「着信ユーザ」という。）に関して、リアクションデータが抽出されることとする。但し、着信側及び発信側の双方のユーザに関して、リアクションデータが抽出されてもよい。

他方のユーザの発話に対するリアクションとは、例えば、首を縦又は横に振る動作、首を傾げる動作、身振り手振りによる動作、「うんうん」、「へぇ〜」等の発話、笑う、微笑む、顔をしかめる等の表情の変化等である。リアクションは、動作、発声、表情の変化のうちのいずれか一つであってもよいし、２以上の組合せであってもよい。

反応分析部１２３は、反応抽出部１２２によって抽出されたリアクションデータごとに、当該リアクションデータに係るリアクションの変化傾向を評価する。リアクションの変化傾向とは、例えば、声の大きさの変化傾向、表情の変化若しくは動作の大きさの変化傾向、又はテンポの速さの変化傾向等である。テンポの速さとは、相手の発話に対する着信ユーザのリアクションの速さを推定する指標である。すなわち、リアクションが早いほど、リアクションが大きいと判定される。

会話評価部１２４は、リアクションデータごとに、会話の盛り上がり度を評価する。会話の盛り上がり度は、会話が盛り上がっている程度を示す指標である。会話の盛り上がり度についても、着信ユーザによるリアクションに基づいて評価される。すなわち、着信ユーザによるリアクションに基づいて、発信側のユーザと着信ユーザとの間の会話自体の盛り上がり度が評価される。

会話段階判定部１２５は、リアクションデータごとに、当該リアクションデータに係るリアクションが、会話に関する所定の遷移モデルにおけるいずれの段階（以下、「会話段階」という。）において発生したのかを判定する。本実施の形態では、会話は、図４に示される遷移モデルに従った段階を有するものと推定される。

図４は、本実施の形態における会話の遷移モデルの一例を示す図である。図４において、横軸は、時間である。縦軸は、会話の盛り上がり度である。本実施の形態では、会話は、時間の経過と会話の盛り上がり度とに応じて、スタート段階から、テンポアップ段階、ハイライト（上げ）段階、ハイライト（下げ）段階へと遷移し、その後、つなぎ段階又はしめ段階に遷移するものと推定される。

スタート段階は、会話が開始された段階であり、例えば、本題に入る前の挨拶等が会話の内容となる。テンポアップ段階は、例えば、本題に向けて会話がテンポアップしてく段階である。ハイライト（上げ）段階は、本題において会話が盛り上がっていく段階である。ハイライト（下げ）段階は、会話の盛り上がりの頂点を過ぎて、会話が収束していく段階である。つなぎ段階は、２以上の話題が或る場合に存在する段階であり、例えば、次の話題へ移行するための会話が行われる。つなぎ段階の後は、再び、テンポアップ段階、ハイライト（上げ）段階、ハイライト（下げ）段階に遷移する。しめ段階は、例えば、会話を終了させるための話が行われる段階である。

図４には、つなぎ段階、２度目のテンポアップ段階、２度目のハイライト（上げ）段階、２度目のハイライト（下げ）段階が存在する例が示されているが、これらの会話段階が存在せずに、しめ段階への遷移が発生してもよい。

図３に戻る。分類データ記憶部１５は、各会話の各リアクションデータに対して、反応分析部１２３による評価結果及び会話段階判定部１２５による判定結果等を対応付けて記憶する。その結果、各リアクションデータが、反応分析部１２３による評価結果及び会話段階判定部１２５による判定結果等に基づいて分類された状態となる。

会話補助部１３は、テレビ電話の発信に対して着信側が応答しない場合、すなわち、一般的には留守番電話サービスが起動される場合に機能し、着信側との擬似的な会話を実現するための処理を実行する。図３において、会話補助部１３は、補助可否判定部１３１、発話入力部１３２、発話態度分析部１３３、会話評価部１３４、会話段階判定部１３５、反応選択部１３６、及び反応出力部１３７等を含む。

補助可否判定部１３１は、着信側との擬似的な会話の可否を判定する。分類データ記憶部１５において、着信側のリアクションデータが記憶されている場合、着信側との擬似的な会話は可能であると判定される。発話入力部１３２には、発信側による発話に係る音声及び動画を含む動画データが、中継部１１から入力される。発話態度分析部１３３、会話評価部１３４、及び会話段階判定部１３５は、発信側による発話に関して、反応分析部１２３、会話評価部１２４、又は会話段階判定部１２５と同様の処理を実行する。その結果、発信側の発話が、その態様に基づいて分類される。反応選択部１３６は、発信側の発話の分類結果と、着信側に係るリアクションデータの分類結果とに基づいて、当該発話に対応するリアクションデータを選択する。反応出力部１３７は、反応選択部１３６によって選択されたリアクションデータを、発信側の発話に対して出力する。その結果、発信側の発話に対する着信側の反応が、擬似的に再生される。

以下、会話補助装置１０が実行する処理手順について説明する。以下の説明において、端末装置２０ａのユーザは、ユーザＡであり、端末装置２０ｂのユーザは、ユーザＢであるとする。また、ユーザＡが、着信ユーザであるとする。

図５は、会話補助装置が実行する処理手順の一例を説明するためのフローチャートである。

中継部１１は、ユーザＢによる操作に応じた端末装置２０ｂから発信の通知を受けると（Ｓ１０１でＹｅｓ）、所定時間が経過するまで（Ｓ１０３）、着信側の端末装置２０ａに発信を通知する。所定時間内にユーザＡが応答することにより、呼が設定され、端末装置２０ａのユーザＡと端末装置２０ｂのユーザＢとの間で会話が開始されると（Ｓ１０２でＹｅｓ）、会話記録部１２１は、会話データを記録する（Ｓ１０４）。会話データの記録は、会話の終了まで（呼の解放まで）継続的に行われる。会話が終了すると（Ｓ１０５でＹｅｓ）、会話記録部１２１は、会話データを会話データ記憶部１４に登録する（Ｓ１０６）。

図６は、会話データ記憶部の構成例を示す図である。図６において、会話データ記憶部１４は、会話ごとに、会話ＩＤ、開始日時、終了日時、ファイル名、及び満足度等を含むレコードを記憶する。会話ＩＤは、会話ごと、すなわち、会話データ記憶部１４のレコードごとの識別情報である。会話ＩＤは、例えば、会話記録部１２１によって自動的に割り当てられる。開始日時及び終了日時は、会話の開始日時又は終了日時である。ファイル名は、会話データを格納したファイルのファイル名である。図６では、一つの会話データの例が概念的に示されている。当該会話データには、発信側及び着信側の双方の動画及び音声が含まれているが、本実施の形態においては、発信側の情報は含まれなくてもよい。満足度は、会話に対する満足度であり、後述されるステップＳ１０８において記憶される。なお、ステップＳ１０６では、１つのレコードが登録される。以下、ステップＳ１０６において登録されたレコードを、「対象レコード」という。

続いて、会話記録部１２１は、今回の会話に対する満足度を受信する。本実施の形態では、ユーザＡの端末装置２０ａから満足度が受信される。但し、双方の端末装置２０から満足度が受け付けられてもよい。満足度は、例えば、会話の終了に応じて端末装置２０ａのディスプレイ２４に表示される、満足度入力画面を介して入力されてもよい。

図７は、満足度入力画面の表示例を示す図である。図７において、満足度入力画面５１０は、満足度を選択肢とするラジオボタン５１１を含む。ユーザＡによって、ラジオボタン５１１におけるいずれかの選択肢が選択され、ＯＫボタン５１２が押下されると、端末装置２０ａは、当該選択肢を示す数値を、会話補助装置１０に送信する。ステップＳ１０７では、当該数値が受信される。当該数値は、例えば、「とても満足」、「やや満足」、「ふつう」、「やや不満足」、「とても不満足」の順に、「５」、「４」、「３」、「２」、「１」である。但し、満足度は、必ずしも数値でなくてもよい。アルファベット等、他の記号によって満足度が表現されてもよい。

なお、満足度の選択は、例えば、楽しかった、話したいことが十分話せた等、ユーザＡの主観に基づいて行われてよい。また、満足度の選択は、音声ガイダンスの誘導に従って行われてもよい。この場合、満足度入力画面５１０は表示されなくてもよい。

続いて、会話記録部１２１は、受信された満足度を、対象レコードに登録する（Ｓ１０８）。

一方、端末装置２０ｂからの発信に対して、所定時間が経過すると、すなわち、所定時間内にユーザＡが応答しないと（Ｓ１０３でＹｅｓ）、端末装置２０ａへの発信の通知は中止され、会話補助部１３が、会話補助処理を実行する（Ｓ１０９）。会話補助処理により、ユーザＢは、ユーザＡと擬似的な会話を行うことができる。

図５の処理の終了後、対象レコードに係る会話データに関して、図８に示す処理手順が実行される。図８は、会話データからのリアクションデータの抽出処理の処理手順の一例を説明するためのフローチャートである。なお、図８の処理は、図５の処理における会話データの記録と並行して行われてもよいし、図５の処理の終了後、任意のタイミングでバッチ的に実行されてもよい。

ステップＳ１１１において、反応抽出部１２２は、対象レコードのファイル名に係るファイルから会話データを取得する（Ｓ１１１）。続いて、反応抽出部１２２は、会話データに含まれている、ユーザＡの発話に係る音声、又はユーザＡ及びユーザＢの双方の発話に係る音声に対して、音声認識処理を行い、当該音声を文字列データに変換する（Ｓ１１２）。音声認識処理は、公知技術を用いて行うことができる。

続いて、反応抽出部１２２は、文字列データに対して文節分析処理を実行し、文節を抽出する（Ｓ１１３）。続いて、反応抽出部１２２は、各文節に関して言語辞書解析処理を実行し、各文節から、ユーザＡによるリアクションに該当する部分を抽出する（Ｓ１１４）。

続いて、反応抽出部１２２は、会話データにおいて各リアクションに該当する部分に関する情報を、分類データ記憶部１５に登録する（Ｓ１１５）。会話データにおいてリアクションに該当する部分のそれぞれが、リアクションデータに相当する。したがって、ステップＳ１１５において、分類データ記憶部１５には、各リアクションデータに関する情報が記憶される。

図９は、分類データ記憶部の構成例を示す図である。図９において、分類データ記憶部１５は、リアクションデータごとに、会話ＩＤ、着信番号、開始時間、終了時間、声のトーン、表情、大きさ、及び会話段階等を含むレコードを記憶する。

会話ＩＤは、リアクションデータの抽出元の会話データの会話ＩＤである。着信番号は、会話ＩＤに係る会話（通話）における着信側の電話番号である。開始時間及び終了時間は、会話データ内における、当該リアクションデータの開始時間又は終了時間である。すなわち、開始時間及び終了時間によって、会話データ内における当該リアクションデータの位置及び範囲が特定される。なお、開始時間及び終了時間は、例えば、会話データの先頭からの経過時間である。このように、リアクションデータは、必ずしも、会話データから断片化されて独立したデータとされなくてもよい。会話データ内におけるリアクションデータの位置が特定可能であればよい。但し、各リアクションデータが会話データから切り出されて、それぞれ独立したファイルに格納されてもよい。この場合、分類データ記憶部１５の各レコードには、開始時間及び終了時間の代わりに、当該リアクションデータを格納するファイルのファイル名が記憶されてもよい。

声のトーン、表情は、当該リアクションデータに係るリアクションにおけるユーザＡの声のトーン、表情のそれぞれの評価値である。変化傾向は、当該リアクションデータに係るリアクションの変化傾向の評価値である。会話段階は、当該リアクションデータに係るリアクションが行われたと推定される会話段階である。

なお、ステップＳ１１５では、リアクションデータごとにレコードが生成され、各レコードに、当該リアクションデータに係る会話ＩＤ、開始時間、及び終了時間が登録される。声のトーン、表情、大きさ、及び会話段階については、後述の処理において登録される。

図１０は、リアクションデータの抽出を概念的に示す図である。図１０には、ユーザＡの会話データから、各リアクションデータが抽出される様子が概念的に示されている。各リアクションデータを示す矩形の下の数字は、各リアクションデータの開始時間を示す。

このように、図８の処理によって、会話データにおいて、リアクションが行われている断片がリアクションデータとして抽出される。なお、図８の処理では、会話データに含まれる音声を文字列に変換し、当該文字列からリアクションの部分が抽出される例を示した。但し、リアクションの部分の抽出方法は、斯かる方法に限定されない。例えば、画像解析技術を用いて、無言での動作や表情の変化によるリアクションの部分が抽出されてもよい。そうすることで、より多彩なリアクションに関するリアクションデータを抽出することができる。

なお、ステップＳ１１２における音声認識処理、ステップＳ１１３における文節分析処理、ステップＳ１１４における言語辞書解析処理は、公知技術を用いて行うことができる。例えば、国際公開第２００６／０８７７９９号、国際公開第２００９／１０７２１１号等に記載された技術が用いられてもよい。

続いて、分類データ記憶部１５に登録された各リアクションデータに係るリアクションの分析処理について説明する。

図１１は、リアクションの分析処理の処理手順の一例を説明するためのフローチャートである。図８の処理は、図８の処理によって分類データ記憶部１５に登録されたレコードごとに実行される。図１１の処理は、図８の処理に続けて実行されてもよいし、図８の処理の後の任意のタイミングで実行されてもよい。

ステップＳ１２１において、反応分析部１２３は、処理対象のレコード（以下、「対象レコード」という。）に係るリアクションデータに含まれているユーザＡの声のトーンを分析する（Ｓ１２１）。例えば、当該リアクションデータに含まれている声が、喜びの声、悲しみの声、又は中間の声に分類される。中間の声とは喜び及び悲しみの双方が無い声をいう。反応分析部１２３は、分析結果を、対象レコードの「声のトーン」の項目に記憶する。なお、声のトーンの分析は、例えば、特開平７−６６８３２号公報等に記載された公知技術を用いて行うことができる。

続いて、反応分析部１２３は、対象レコードに係るリアクションデータに含まれているユーザＡの表情の態様を分析する（Ｓ１２２）。例えば、当該リアクションデータに含まれている表情が、喜びの表情、悲しみの表情、又は中間の表情に分類される。中間の表情とは喜び及び悲しみの無い表情をいう。反応分析部１２３は、分析結果を、対象レコードの「表情」の項目に記憶する。なお、表情の分析は、例えば、特開２０１２−１５５６３１号公報又は特開２０１３−１５４４５８号句法等に記載された公知技術を用いて行うことができる。

続いて、反応分析部１２３は、対象レコードに係るリアクションデータにおけるユーザＡのリアクションの変化傾向の評価処理を実行する（Ｓ１２３）。反応分析部１２３は、評価結果として出力される評価値を、対象レコードの「変化傾向」の項目に記憶する。リアクションの変化傾向の評価処理の詳細については後述される。

続いて、会話段階判定部１２５は、対象レコードに係るリアクションデータにおけるリアクションが行われた会話段階の判定処理を実行する（Ｓ１２４）。会話段階判定部１２５は、判定結果として出力される会話段階を示す値を、対象レコードの「会話段階」の項目に記憶する。会話段階の判定処理の詳細については後述される。

図１１の処理が、各リアクションデータに関して実行されることにより、一つの会話（通話）について分類データ記憶部１５に登録されたレコードが完成する。すなわち、各リアクションデータが、分類されたことになる。なお、声のトーン、表情、変化傾向のうちのいずれか一つに基づいて、各リアクションデータが分類されてもよい。

続いて、ステップＳ１２３の詳細について説明する。図１２は、リアクションの変化傾向の評価処理の処理手順の一例を説明するためのフローチャートである。本実施の形態において、リアクションの変化傾向は、声の大きさ、動作の大きさ、及びテンポに基づいて評価される。

ステップＳ１３１において、反応分析部１２３は、対象レコードの順番を、変数ｎに代入する。対象レコードとは、図１１の説明における対象レコードである。また、対象レコードの順番とは、会話ＩＤを同じくするレコード群の中における、開始時刻順の順番である。

続いて、反応分析部１２３は、対象レコードが２番目以降のレコードであるか否かを判定する（Ｓ１３２）。対象レコードが１番目のレコードである場合（Ｓ１３２でＮｏ）、反応分析部１２３は、対象レコードに関する声の大きさの評価値を１００（％）とする（Ｓ１３３）。続いて、反応分析部１２３は、対象レコードに関する動作の大きさの評価値を１００（％）とする（Ｓ１３４）。

一方、対象レコードが２番目以降のレコードである場合（Ｓ１３２でＹｅｓ）、反応分析部１２３は、ｎ番目のリアクションデータの声の大きさを測定する（Ｓ１３５）。ｎ番目のリアクションデータとは、対象レコードに係るリアクションデータである。例えば、当該リアクションデータの或る時点における声の大きさが測定される。又は、当該リアクションデータの全期間若しくは一部の期間における声の大きさの平均値、最大値、又は最小値等が、当該リアクションデータの声の大きさとして測定される。

続いて、反応分析部１２３は、前回（ｎ−１番目）のリアクションデータに関して測定された声の大きさに対する、今回（ｎ番目）のリアクションデータに関して測定された声の大きさの割合を、声の大きさの評価値として算出する（Ｓ１３６）。例えば、以下のような演算が行われる。

声の大きさの評価値＝（Ｖ_ｎ／Ｖ_ｎ−１）×１００（％）
Ｖ_ｎ：ｎ番目のリアクションデータｎの声の大きさ（ｄＢ）
Ｖ_ｎ−１：ｎ−１番目のリアクションデータの声の大きさ（ｄＢ）
続いて、反応分析部１２３は、ｎ番目のリアクションデータにおける人物（ユーザＡ）の画像の投影面積を算出する（Ｓ１３７）。例えば、当該リアクションデータの或る時点における投影面積が算出される。又は、当該リアクションデータの全期間若しくは一部の期間における投影面積の平均値、最大値、又は最小値等が、ｎ番目のリアクションデータの投影面積として算出される。なお、斯かる投影面積の抽出は、例えば、特開平１０−５１７５５号公報等に記載された公知技術を用いて行うことができる。

続いて、反応分析部１２３は、前回（ｎ−１番目）のリアクションデータに関して算出された投影面積に対する、今回（ｎ番目）のリアクションデータに関して算出された投影面積の割合を、動作の大きさの評価値として算出する（Ｓ１３８）。例えば、以下のような演算が行われる。

動作の大きさの評価値＝（Ｇ_ｎ／Ｇ_ｎ−１）×１００（％）
Ｇ_ｎ：ｎ番目のリアクションデータｎの投影面積
Ｇ_ｎ−１：ｎ−１番目のリアクションデータの投影面積
なお、他の方法によって、動作の大きさが算出されてもよい。例えば、ｎ−１番目のリアクションデータの画像と、ｎ番目のリアクションデータの画像とにおいて、人物像の輪郭の変化に基づいて、動作の大きさが算出されてもよい。

続いて、反応分析部１２３は、対象レコードが３番目以降のレコードであるか否かを判定する（Ｓ１３９）。対象レコードが、１番目又は２番目のレコードである場合（Ｓ１３９でＮｏ）、反応分析部１２３は、対象レコードに関するテンポの評価値を１００（％）とする（Ｓ１４０）。

一方、対象レコードが３番目以降のレコードである場合（Ｓ１３２でＹｅｓ）、反応分析部１２３は、前回（ｎ−１番目）のリアクションデータと今回（ｎ番目）のリアクションデータとの間隔に対する、前々回（ｎ−２番目）のリアクションデータと前回（ｎ−１番目）のリアクションデータとの間隔の割合を、テンポの評価値として算出する（Ｓ１４１）。ここでいう間隔とは、開始時間の差分をいう。例えば、以下のような演算が行われる。

Ｔ_ｎ＝（ｎ番目のリアクションデータの開始時間）−（ｎ−１番目のリアクションデータの開始時間）
Ｔ_ｎ−１＝（ｎ−１番目のリアクションデータの開始時間）−（ｎ−２番目のリアクションデータの開始時間）
テンポの評価値＝（Ｔ_ｎ−１／Ｔ_ｎ）×１００（％）
なお、テンポは短くなっている方が、リアクションが大きい方向に変化していると評価される。したがって、Ｔ_ｎ−１がＴ_ｎによって除される。したがって、Ｔ_ｎ−１よりもＴ_ｎの方が小さければ（短ければ）、テンポの評価値は１００％以上になる。すなわち、テンポに関して、リアクションが大きい方向に変化していると評価される。

なお、Ｔ_ｎやＴ_ｎ−１は、例えば、以下のように算出されてもよい。

Ｔ_ｎ＝（ｎ番目のリアクションデータの開始時間）−（ｎ−１番目のリアクションデータの終了時間）
Ｔ_ｎ−１＝（ｎ−１番目のリアクションデータの開始時間）−（ｎ−２番目のリアクションデータの終了時間）
続いて、反応分析部１２３は、声の大きさの評価値、動作の大きさの評価値、及びテンポの評価値の平均値を算出する（Ｓ１４２）。当該平均値が、リアクションの変化傾向の評価値である。なお、各評価値に対して、重み係数が乗ぜられて、平均値が算出されてもよい。続いて、反応分析部１２３は、算出されたリアクションの変化傾向の評価値を、対象レコードの「変化傾向」の項目に記憶する（Ｓ１４３）。

続いて、図１１のステップＳ１２４の詳細について説明する。図１３は、会話段階の判定処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ１５１において、会話段階判定部１２５は、対象レコードの開始時間が、閾値α以下であるか否かを判定する（Ｓ１５１）。対象レコードとは、図１１の説明における対象レコードである。また、閾値αは、図４における、横軸（時間軸）に対して示されている閾値αである。閾値αは、予め設定されてもよいし、会話全体の長さに対する所定の割合として求められてもよい。すなわち、ステップＳ１５１では、対象レコードに係るリアクションが、会話開始時から所定時間が経過するまでに発生したものであるかが判定される。

対象レコードの開始時間が閾値α以下である場合（Ｓ１５１でＹｅｓ）、会話段階判定部１２５は、対象レコードに係るリアクションの会話段階が、スタート段階であると判定する（Ｓ１５２）。

対象レコードの開始時間が閾値αを超えている場合（Ｓ１５１でＮｏ）、会話評価部１２４は、対象レコードが属する会話について、対象レコードに係る時期における会話の盛り上がり度の評価処理を実行する（Ｓ１５３）。当該評価処理の詳細については後述される。当該評価処理の結果、盛り上がり度の評価値が出力される。

続いて、会話段階判定部１２５は、対象レコードに係る会話の盛り上がり度（以下、単に「盛り上がり度」という。）が閾値βを超えるか否かを判定する（Ｓ１５４）。閾値βは、図４における縦軸に対して示されている、会話の盛り上がり度に対する閾値である。盛り上がり度が、閾値βを超える状態は、例えば、会話が盛り上がっている状態を示す。なお、閾値βは、例えば、予め設定される。

盛り上がり度が閾値βを超える場合（Ｓ１５４でＹｅｓ）、会話段階判定部１２５は、対象レコードの「変化傾向」の値が１００％以上であるか否かを判定する（Ｓ１５５）。「変化傾向」の値は、ステップＳ１２３において算出されている。当該リアクションの変化傾向が１００％以上である場合（Ｓ１５５でＹｅｓ）、会話段階判定部１２５は、対象レコードに係るリアクションの会話段階が、ハイライト（上げ）段階であると判定する（Ｓ１５６）。

リアクションの変化傾向が１００％未満である場合（Ｓ１５５でＮｏ）、会話段階判定部１２５は、対象レコードに係るリアクションの会話段階が、ハイライト（下げ）段階であると判定する（Ｓ１５７）。

一方、盛り上がり度が閾値β以下である場合（Ｓ１５４でＮｏ）、会話段階判定部１２５は、対象レコードより順番が後のレコードに係るリアクションデータの中で、盛り上がり度が閾値βを超えるものが無いか否かを判定する（Ｓ１５８）。ステップＳ１５８が初めて実行される場合、対象レコードより後の全てのレコードのリアクションに関して、ステップＳ１５３における処理が実行される。ステップＳ１５８が１度実行された後は、各レコードに係るリアクションデータの盛り上がり度を記憶しておき、以降におけるステップＳ１５３やステップＳ１５８では、盛り上がり度の評価処理が省略されてもよい。

対象レコードより後のレコードに係るリアクションデータの中で、盛り上がり度が閾値βを超えるものが無い場合（Ｓ１５８でＹｅｓ）、会話段階判定部１２５は、対象レコードに係るリアクションの会話段階が、しめ段階であると判定する（Ｓ１５９）。

対象レコードにより後のレコードに係るリアクションデータの中で、盛り上がり度が閾値βを超えるものが有る場合（Ｓ１５８でＮｏ）、会話段階判定部１２５は、対象レコードまでに処理された同一会話に係るレコードに係るリアクションデータについて、盛り上がり度が閾値βを超えたものが有るか否かを判定する（Ｓ１６０）。

該当するレコードが有る場合（Ｓ１６０でＹｅｓ）、会話段階判定部１２５は、対象レコードの「変化傾向」の値が１００％未満であるか否かを判定する（Ｓ１６１）。対象レコードの「変化傾向」の値が１００％未満である場合（Ｓ１６１でＹｅｓ）、会話段階判定部１２５は、対象レコードに係るリアクションの会話段階が、つなぎ段階であると判定する（Ｓ１６２）。

一方、ステップＳ１６０において、該当するレコードが無い場合（Ｓ１６０でＮｏ）、又はステップＳ１６１において、対象レコードの「変化傾向」の値が１００％以上である場合（Ｓ１６１でＮｏ）、会話段階判定部１２５は、対象レコードに係るリアクションの会話段階が、テンポアップ段階であると判定する（Ｓ１６３）。

ステップＳ１５２、Ｓ１５６、Ｓ１５７、Ｓ１５９、Ｓ１６２、又はＳ１６３に続いて、会話段階判定部１２５は、判定結果を、対象レコードの「会話段階」の項目に記憶する（Ｓ１６４）。

続いて、ステップＳ１５３の詳細について説明する。図１４は、会話の盛り上がり度の評価処理の処理手順の一例を説明するためのフローチャートである。図１４中、図１２と同一ステップには同一ステップ番号を付し、その説明は省略する。図１４では、ステップＳ１３６、Ｓ１３８、Ｓ１４１、Ｓ１４２が、ステップＳ１３６ａ、Ｓ１３８ａ、Ｓ１４１ａ、Ｓ１４２ａに置き換えられている。また、ステップＳ１４３は削除されている。なお、説明が省略される各ステップは、会話評価部１２４によって実行される点において、図１２と異なる。

ステップＳ１３６ａにおいて、会話評価部１２４は、１番目のリアクションデータに関して測定された声の大きさに対する、今回（ｎ番目）のリアクションデータに関して測定された声の大きさの割合を、声の大きさの評価値として算出する。例えば、以下のような演算が行われる。

声の大きさの評価値＝（Ｖ_ｎ／Ｖ_１）×１００（％）
Ｖ_ｎ：ｎ番目のリアクションデータｎの声の大きさ（ｄＢ）
Ｖ_１：１番目のリアクションデータの声の大きさ（ｄＢ）
すなわち、会話の盛り上がり度は、１番目のリアクションデータとの比較に基づいて求められる。

ステップＳ１３８ａにおいて、会話評価部１２４は、１番目のリアクションデータに関して算出された投影面積に対する、今回（ｎ番目）のリアクションデータに関して算出された投影面積の割合を、動作の大きさの評価値として算出する。例えば、以下のような演算が行われる。

動作の大きさの評価値＝（Ｇ_ｎ／Ｇ_１）×１００（％）
Ｇ_ｎ：ｎ番目のリアクションデータｎの投影面積
Ｇ_１：１番目のリアクションデータの投影面積
なお、他の方法によって、動作の大きさが算出されてもよい。例えば、１番目のリアクションデータの画像と、ｎ番目のリアクションデータの画像とにおいて、人物像の輪郭の変化に基づいて、動作の大きさが算出されてもよい。

ステップＳ１４１ａにおいて、会話評価部１２４は、前回（ｎ−１番目）のリアクションデータと今回（ｎ番目）のリアクションデータとの間隔に対する、２番目のリアクションデータと１番目のリアクションデータとの間隔の割合を、テンポの評価値として算出する。例えば、以下のような演算が行われる。

Ｔ_ｎ＝（ｎ番目のリアクションデータの開始時間）−（ｎ−１番目のリアクションデータの開始時間）
Ｔ_１＝（２番目のリアクションデータの開始時間）−（１番目のリアクションデータの開始時間）
テンポの評価値＝（Ｔ_１／Ｔ_ｎ）×１００（％）
なお、Ｔ_ｎやＴ_１は、例えば、以下のように算出されてもよい。

Ｔ_ｎ＝（ｎ番目のリアクションデータの開始時間）−（ｎ−１番目のリアクションデータの終了時間）
Ｔ_１＝（２番目のリアクションデータの開始時間）−（１番目のリアクションデータの終了時間）
続いて、会話評価部１２４は、声の大きさの評価値、動作の大きさの評価値、及びテンポの評価値の平均値を算出する（Ｓ１４２ａ）。当該平均値が、会話の盛り上がり度の評価値である。なお、各評価値に対して、重み係数が乗ぜられて、平均値が算出されてもよい。

以上によって、ユーザＡが不在の場合であっても、ユーザＡとの擬似的な会話を可能とするための準備は整った。なお、ユーザＡによる複数回の会話に対して、上記の処理が実行されてもよい。また、ユーザＡが行った会話の中で、ユーザＢ以外との会話に関するリアクションデータの分類結果が、ユーザＢとの会話に関するリアクションデータの分類結果と共に、分類データ記憶部１５に記憶されてもよい。

続いて、図５のステップＳ１０９の詳細について説明する。すなわち、端末装置２０ｂからの発信に対して着信側であるユーザＡが応答しない場合に実行される処理について説明する。ユーザＡが応答しない場合とは、ユーザＡが不在である場合である。不在であるとは、端末装置２０ａの傍にユーザＡが居ない場合に限られない。ユーザＡが端末装置２０ａによる着信を認識していても、ユーザＡが受話器を取る等の応答の動作を行わない場合も、不在に含まれる。

図１５は、会話補助処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ２０１において、補助可否判定部１３１は、着信側の電話番号を含むレコードが、分類データ記憶部１５に記憶されているか否かを判定する。すなわち、会話補助処理の実行の可否が判定される。該当するレコードが無ければ、会話補助処理を実行することができないからである。

該当するレコードが無い場合（Ｓ２０１でＮｏ）、図１５の処理は終了する。この場合、一般的な留守番電話サービスに接続されてもよい。

該当するレコードが有る場合（Ｓ２０２でＹｅｓ）、発話入力部１３２は、発信に対して応答を行う（Ｓ２０３）。すなわち、着信側が発信に対して応答を行った場合と同様の処理が実行される。その結果、会話補助部１３と端末装置２０ｂとの間に呼が設定される。なお、発話入力部１３２による応答によって、端末装置２０ｂのディスプレイ２４ｂに表示される画像は、例えば、擬似的な会話であることを示すメッセージ等を含むものであってもよいし、着信側の電話番号に係るリアクションデータに含まれている、いずれかのユーザＡの画像であってもよい。

発話入力部１３２の応答により、発信側のユーザＢは、発話を開始する。発話に係る音声及び動画を含む動画データ（以下、「発話データ」という。）は、端末装置２０ｂから会話補助装置１０に継続的に送信される。

続いて、発話入力部１３２は、一定時間分の発話データを入力する（Ｓ２０３）。一定時間は、例えば、数秒や数十秒等、或る程度の話が可能な時間でよい。続いて、発話態度分析部１３３は、発話データに含まれているユーザＢの声のトーンを分析する（Ｓ２０４）。声のトーンの分析方法は、図８のステップＳ１２１と同様でよい。続いて、発話態度分析部１３３は、発話データに含まれているユーザＢの表情の態様を分析する（Ｓ２０５）。表情の分析方法は、図８のステップＳ１２２と同様でよい。

続いて、発話態度分析部１３３は、ユーザＢの発話の態度の変化傾向の評価処理を実行する（Ｓ２０６）。当該処理は、処理対象のデータが、発話データとなる点を除き、図１２において説明したリアクションの評価処理と同様でよい。

続いて、会話段階判定部１３５は、ユーザＢと、ユーザＡのリアクションデータに基づく動画との擬似的な会話に関する会話段階の判定処理を実行する（Ｓ２０７）。当該判定処理は、図１３において説明した会話段階の評価処理と同様でよい。

続いて、反応選択部１３６は、発話データに係る発話に対応するリアクションが含まれている可能性の高いリアクションデータを、分類データ記憶部１５を参照して選択する（Ｓ２０８）。発話に対応するリアクションとは、例えば、発話に対するリアクションとして自然な、又は適切なリアクションである。

続いて、反応出力部１３７は、選択されたリアクションデータに基づいて、ユーザＢの発話に対するリアクションを示す画像（動画）を、端末装置２０ｂに対して出力する（Ｓ２０９）。例えば、当該リアクションデータが再生されてもよい。または、当該リアクションデータに基づいて、ユーザＡの仮想的なキャラクター（アバター）の画像が生成され、当該画像が、当該リアクションデータに係るリアクションを行ってもよい。

続いて、会話補助部１３は、一定時間待機して（Ｓ２１０）、ステップＳ２０２以降を繰り返す。ステップＳ２０２以降の繰り返しは、ユーザＢによって、呼が解放されるまで実行される。

なお、擬似的な会話の会話データは、例えば、会話記録部１２１によって会話データ記憶部１４に記憶されてもよい。当該会話データに関しては、リアクションデータの抽出対象とされずに、留守番電話サービス等によってアクセス可能とされてもよい。そうすることで、ユーザＡは、ユーザＢからの伝言を確認することができる。

続いて、ステップＳ２０６の詳細について説明する。図１６は、発話態度の変化傾向の評価処理の処理手順の一例を説明するためのフローチャートである。図１６中、図１２と同一ステップには同一ステップ番号を付し、その説明は省略する。図１６では、ステップＳ１３１、Ｓ１３５、Ｓ１３６、Ｓ１３７、Ｓ１３８、Ｓ１４１、Ｓ１４２が、ステップＳ１３１ｂ、Ｓ１３５ｂ、Ｓ１３６ｂ、Ｓ１３７ｂ、Ｓ１３８ｂ、Ｓ１４１ｂ、Ｓ１４２ｂに置き換えられている。また、ステップＳ１４３は削除されている。なお、説明が省略される各ステップは、発話態度分析部１３３によって実行される点において、図１２と異なる。

ステップＳ１３１ｂ、Ｓ１３５ｂ、Ｓ１３６ｂ、Ｓ１３７ｂ、Ｓ１３８ｂ、Ｓ１４１ｂ、Ｓ１４２ｂは、処理対象のデータが、発話データであり、処理の実行主体が発話態度分析部１３３である点を除いて、ステップＳ１３１、Ｓ１３５、Ｓ１３６、Ｓ１３７、Ｓ１３８、Ｓ１４１、Ｓ１４２と同じである。ステップＳ１３１ｂにおける発話データの順番は、図１５のステップＳ２０４において、発話入力部１３２によって発話データが入力される順番である。

ステップＳ１４２ｂでは、各評価値の平均が、発話態度の変化傾向の評価値として算出される。

続いて、図１５のステップＳ２０７の詳細について説明する。図１７は、擬似的な会話の会話段階の判定処理の処理手順の一例を説明するためのフローチャートである。図１７中、図１３と同一ステップには同一ステップ番号を付し、その説明は省略する。図１７では、ステップＳ１５１、Ｓ１５３、Ｓ１５５、Ｓ１５８、Ｓ１６１が、ステップＳ１５１、Ｓ１５３ｂ、Ｓ１５５ｂ、Ｓ１５８ｂ、Ｓ１６１ｂに置き換えられている。また、ステップＳ１６４は削除されている。なお、説明が省略される各ステップは、会話段階判定部１３５によって実行される点において、図１３と異なる。

ステップＳ１５１ｂでは、処理対象の発話データの開始時間が閾値αとの比較対象とされる。発話データの開始時間とは、擬似的な会話が開始されてから（図１５のステップＳ２０２から）、当該発話データの開始時点までの経過時間である。

ステップＳ１５３ｂでは、擬似的な会話の盛り上がり度が評価される。

ステップＳ１５５ｂ及びステップＳ１６１ｂでは、発話態度の変化傾向が、１００％との比較対象とされる。

ステップＳ１５８ｂでは、これまでに入力された発話データによって、盛り上がり度が閾値βを超えた回数が所定回数以上であるか否かが判定される。会話補助処理は、リアルタイム処理であるため、図１３のステップＳ１５８と異なり、以降における盛り上がり回数をカウントすることはできない。したがって、ステップＳ１５８ｂでは、以降における情報ではなく、過去における情報に基づいて判定が行われる。

続いて、図１７のステップＳ１５３ｂの詳細について説明する。図１８は、擬似的な会話の盛り上がり度の評価処理の処理手順の一例を説明するためのフローチャートである。図１８中、図１６と同一ステップには同一ステップ番号を付し、その説明は省略する。図１８では、ステップＳ１３６ｂ、Ｓ１３８ｂ、Ｓ１４１ｂ、Ｓ１４２ｂが、ステップＳ１３６ｃ、Ｓ１３８ｃ、Ｓ１４１ｃ、Ｓ１４２ｃに置き換えられている。

図１８と図１６との違いは、図１４と図１２との違いと同様である。なお、図１８において、各ステップの実行主体は、会話評価部１３４である。また、ステップＳ１４２ｃでは、擬似的な会話の盛り上がり度が算出される。

続いて、図１５のステップＳ２０８の詳細について説明する。図１９は、リアクションデータの選択処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ２２１において、反応選択部１３６は、着信側の電話番号を含むレコードを、分類データ記憶部１５から抽出する。１以上のレコード群が抽出された場合（Ｓ２２２でＹｅｓ）、反応選択部１３６は、抽出されたレコード群の中から、「会話段階」の評価値が、発話データに対する会話段階の評価値に一致するレコード群を抽出する（Ｓ２２３）。ユーザＢが感じている会話段階に適合したリアクションを再現するためである。

１以上のレコード群が抽出された場合（Ｓ２２４でＹｅｓ）、反応選択部１３６は、抽出されたレコード群の中から、「表情」、「声のトーン」の評価値が、発話データに対する「表情」、「声のトーン」に一致するレコード群を抽出する（Ｓ２２５）。ユーザＢの感情に適合したリアクションを再現するためである。

１以上のレコード群が抽出された場合（Ｓ２２６でＹｅｓ）、反応選択部１３６は、抽出されたレコード群の中から「変化傾向」の評価値が、発話データに対する発話態度の変化傾向の評価値に一致するレコード群を抽出する（Ｓ２２７）。ユーザＢの興奮の程度又は感情の盛りに適合したリアクションを再現するためである。

１以上のレコード群が抽出された場合（Ｓ２２８でＹｅｓ）、反応選択部１３６は、抽出されたレコード群の中から「満足度」の値が、所定値以上（例えば、３以上）であるレコード群を抽出する（Ｓ２２９）。ユーザＡが、過去に満足した会話におけるリアクションを再現するためである。

１以上のレコード群が抽出された場合（Ｓ２３０でＹｅｓ）、反応選択部１３６は、抽出されたレコード群の中で、最新ものを選択する（Ｓ２３１）。レコードの新旧は、例えば、レコードの記憶順に基づいて判定されてもよい。又は、同じ会話ＩＤを含むレコード間においては、開始時間に基づいて新旧が判定されてもよい。異なる会話ＩＤを含むレコード間においては、各会話ＩＤに対応付けられて会話データ記憶部１４に記憶されている開始日時に基づいて新旧が判定されてもよい。

一方、ステップＳ２２１、Ｓ２２３、Ｓ２２５、Ｓ２２７、又はＳ２２９におけるいずれかの抽出処理において、レコードが一つも抽出されなかった場合、反応選択部１３６は、既定のリアクションデータを選択する（Ｓ２３２）。既定のリアクションデータは、ユーザＡに関するリアクションデータの中から予め選択された特定のリアクションデータであってもよいし、各ユーザに関して共通のリアクションデータであってもよい。

ステップＳ２３１において選択されたレコードに係るリアクションデータ、又はＳ２３２において選択されたリアクションデータが、図１５のステップＳ２０９において、ユーザＢの端末装置２０ｂへの出力対象となる。

なお、ステップＳ２２３、Ｓ２２５、Ｓ２２７、及びＳ２２９のうちのいずれかの抽出処理が省略されてもよい。また、例えば、或る擬似的な会話における最初の発話データに対していずれかのレコード（以下、「レコードＡ」という。）が選択された場合、当該会話中における以降の発話データに対しては、レコードＡと会話ＩＤが同じであるレコードに、選択対象が限定されるようにしてよい。または、会話の開始日時が、レコードＡに係る会話の開始日時から前後所定期間内であるレコードに、選択対象が限定されてもよい。そうすることで、擬似的な会話において出力されるユーザＡの顔の雰囲気がリアクションごとに大きく異なるといった不自然さの発生を回避することができる。

上述したように、本実施の形態によれば、会話を行うユーザＡの動画及び音声を含む会話データを記録しておき、当該会話データから抽出されたリアクションデータに基づいて、ユーザＡの不在時において、ユーザＡのリアクションを再現することができる。すなわち、ユーザＡの不在時にユーザＡとテレビ電話を行おうとしたユーザＢに対して、ユーザＡとの擬似的な会話を経験させることができる。したがって、会話相手が不在であっても擬似的な会話を可能とすることができる。その結果、ユーザＢをリラックスさせたり、興奮させたりして、ユーザＢが一人語りするよりもスムーズに、ユーザＡに対するメッセージを残すことができる可能性を高めることができる。

また、本実施の形態では、各リアクションデータが、リアクションの態様（声のトーン、表情等）や、リアクションが行われた会話段階に応じて分類される。リアクションデータに基づくリアクションの出力時には、会話相手の態度や、擬似的な会話の会話段階に対応させて、出力対象のリアクションデータが選択される。その結果、例えば、テンポアップ段階やつなぎ段階であれば、会話相手に発話を促すようなリアクションを再現できたり、ハイライト（上げ）であれば、相手の気持ちを盛りあげるようなリアクションを再現できたり、しめ段階であれば、会話を収束できるようなリアクションを再現できたりする可能性を高めることができる。

なお、本実施の形態では、テレビ電話における会話時にリアクションデータが生成される例を説明したが、リアクションデータの生成元となる動画データは、テレビ電話に関するものに限定されない。例えば、他者と会話をするユーザＡが、ビデオカメラ等で撮影された動画データから、リアクションデータが抽出されてもよい。

また、リアクションデータの用途は、テレビ電話に限られない。例えば、ユーザＡの画像が表示された画面に対して話しかけると、リアクションデータに基づくリアクションが画面上に再現されるといったアプリケーションに適用されてもよい。この場合、例えば、故人のリアクションデータが蓄積されていれば、故人との擬似的な会話を可能とすることもできる。

また、著名人やアニメのキャラクタ等のリアクションデータを蓄積しておくことで、著名人やアニメのキャラクタ等との擬似的な会話を可能とすることもできる。

また、友人や家族等のリアクションデータを蓄積しておき、ウェアラブルデバイスを、リアクションデータの出力先の端末として使用とすることで、例えば、一人旅の旅先において、旅の感動を擬似的な会話によって伝えることができる。

なお、リアクションデータを利用した擬似的な会話のサービスは、例えば、クラウドサービスとして提供されてもよい。例えば、クラウド側にリアクションデータを蓄積しておき、ユーザが、端末を利用してクラウドサービスにアクセスすると、当該リアクションデータに基づく擬似的な会話のサービスが端末に対して提供されるようにしてもよい。

なお、本実施の形態において、ユーザＡは、第一の人の一例である。ユーザＢは、第二の人の一例である。端末装置２０は、通信端末の一例である。反応抽出部１２２は、抽出部の一例である。反応分析部１２３、会話評価部１２４、及び会話段階判定部１２５は、第一の分類部の一例である。分類データ記憶部１５は、記憶部の一例である。発話入力部１３２は、入力部の一例である。発話態度分析部１３３、会話評価部１３４、及び会話段階判定部１３５は、第二の分類部の一例である。反応選択部１３６は、選択部の一例である。反応出力部１３７は、出力部の一例である。声のトーン及び声の大きさは、声の態様の一例である。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

以上の説明に関し、更に以下の項を開示する。
（付記１）
第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出し、
抽出された各部分を、当該部分における前記第一の人の反応の態様に基づいて分類して、分類結果を示す情報を記憶し、
第二の人の発話が入力され、
前記第二の人の発話を当該発話の態様に基づいて分類し、
前記第二の人の発話の分類結果と、前記各部分の分類結果とに基づいて、当該発話に対応する前記部分を選択し、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する、
処理をコンピュータに実行させる会話補助プログラム。
（付記２）
前記第二の人の発話が入力される処理は、テレビ電話における前記第二の人の発話が入力され、
前記出力する処理は、前記テレビ電話において、前記第二の人の発話に対する反応を示す画像を出力する付記１記載の会話補助プログラム。
（付記３）
前記分類結果を示す情報を記憶する処理は、前記抽出された各部分における前記第一の人の声の態様又は／かつ表情の変化の態様又は／かつ動作の変化の態様に基づいて、当該各部分を分類し、
前記第二の人の発話を分類する処理は、当該発話における前記第二の人の声の態様又は／かつ表情の変化の態様又は／かつ動作の変化の態様に基づいて、当該発話を分類する付記１又は２記載の会話補助プログラム。
（付記４）
第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出し、
抽出された各部分を、当該部分における前記第一の人の反応の態様に基づいて分類して、分類結果を示す情報を記憶し、
第二の人の発話が入力され、
前記第二の人の発話を当該発話の態様に基づいて分類し、
前記第二の人の発話の分類結果と、前記各部分の分類結果とに基づいて、当該発話に対応する前記部分を選択し、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する、
処理をコンピュータが実行する会話補助方法。
（付記５）
前記第二の人の発話が入力される処理は、テレビ電話における前記第二の人の発話が入力され、
前記出力する処理は、前記テレビ電話において、前記第二の人の発話に対する反応を示す画像を出力する付記４記載の会話補助方法。
（付記６）
前記分類結果を示す情報を記憶する処理は、前記抽出された各部分における前記第一の人の声の態様又は／かつ表情の変化の態様又は／かつ動作の変化の態様に基づいて、当該各部分を分類し、
前記第二の人の発話を分類する処理は、当該発話における前記第二の人の声の態様又は／かつ表情の変化の態様又は／かつ動作の変化の態様に基づいて、当該発話を分類する付記４又は５記載の会話補助方法。
（付記７）
通信端末と、前記通信端末にネットワークを介して接続されるコンピュータとを含む会話システムであって、
前記コンピュータは、
第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出する抽出部と、
抽出された各部分を、当該部分における前記第一の人の反応の態様に基づいて分類する第一の分類部と、
前記第一の分類部による分類結果を示す情報を記憶する記憶部と、
前記通信端末から受信される、該通信端末に対する第二の人の発話が入力される入力部と、
前記第二の人の発話を当該発話の態様に基づいて分類する第二の分類部と、
前記第二の人の発話の分類結果と、前記各部分の分類結果とに基づいて、当該発話に対応する前記部分を選択する選択部と、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する出力部と、
を有する会話システム。
（付記８）
前記入力部には、テレビ電話における前記第二の人の発話が入力され、
前記出力部は、前記テレビ電話において、前記第二の人の発話に対する反応を示す画像を出力する付記７記載の会話システム。
（付記９）
前記第一の分類部は、前記抽出された各部分における前記第一の人の声の態様又は／かつ表情の変化の態様又は／かつ動作の変化の態様に基づいて、当該各部分を分類し、
前記第二の分類部は、当該発話における前記第二の人の声の態様又は／かつ表情の変化の態様又は／かつ動作の変化の態様に基づいて、当該発話を分類する付記７又は８記載の会話システム。

１テレビ会議システム
１０会話補助装置
１１中継部
１２分類データ生成部
１３会話補助部
１４会話データ記憶部
１５分類データ記憶部
２０ａ、２０ｂ端末装置
２１マイク
２２スピーカ
２３カメラ
２４ディスプレイ
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１２１会話記録部
１２２反応抽出部
１２３反応分析部
１２４会話評価部
１２５会話段階判定部
１３１補助可否判定部
１３２発話入力部
１３３発話態度分析部
１３４会話評価部
１３５会話段階判定部
１３６反応選択部
１３７反応出力部
Ｂバス

Claims

第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出し、
抽出された各部分を、前記抽出された各部分における前記第一の人の声の態様又は／かつ表情の態様又は／かつ動作の変化の態様に基づいて分類して、分類結果を示す情報を記憶し、
第二の人の発話が入力され、
前記第二の人の発話を、当該発話における前記第二の人の声の態様又は／かつ表情の態様又は／かつ動作の変化の態様に基づいて分類し、
前記第二の人の、発話の大きさ又は／かつ動作の大きさ又は／かつ発話のテンポから会話の盛り上がり度を算出し、前記盛り上がり度から会話の段階を算出し、
前記第二の人の発話の分類結果と、前記各部分の分類結果と、前記会話の段階とに基づいて、当該発話に対応する前記部分を選択し、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する、
処理をコンピュータに実行させる会話補助プログラム。
前記第二の人の発話が入力される処理は、テレビ電話における前記第二の人の発話が入力され、
前記出力する処理は、前記テレビ電話において、前記第二の人の発話に対する反応を示す画像を出力する請求項１記載の会話補助プログラム。
第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出し、
抽出された各部分を、前記抽出された各部分における前記第一の人の声の態様又は／かつ表情の態様又は／かつ動作の変化の態様に基づいて分類して、分類結果を示す情報を記憶し、
第二の人の発話が入力され、
前記第二の人の発話を、当該発話における前記第二の人の声の態様又は／かつ表情の態様又は／かつ動作の変化の態様に基づいて分類し、
前記第二の人の、発話の大きさ又は／かつ動作の大きさ又は／かつ発話のテンポから会話の盛り上がり度を算出し、前記盛り上がり度から会話の段階を算出し、
前記第二の人の発話の分類結果と、前記各部分の分類結果と、前記会話の段階とに基づいて、当該発話に対応する前記部分を選択し、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する、
処理をコンピュータが実行する会話補助方法。
通信端末と、前記通信端末にネットワークを介して接続されるコンピュータとを含む会話システムであって、
前記コンピュータは、
第一の人の会話の様子が記録された動画データから、前記第一の人が他者の発話に反応している部分を抽出する抽出部と、
抽出された各部分を、前記抽出された各部分における前記第一の人の声の態様又は／かつ表情の態様又は／かつ動作の変化の態様に基づいて分類する第一の分類部と、
前記第一の分類部による分類結果を示す情報を記憶する記憶部と、
前記通信端末から受信される、該通信端末に対する第二の人の発話が入力される入力部と、
前記第二の人の発話を、当該発話における前記第二の人の声の態様又は／かつ表情の態様又は／かつ動作の変化の態様に基づいて分類する第二の分類部と、
前記第二の人の、発話の大きさ又は／かつ動作の大きさ又は／かつ発話のテンポから会話の盛り上がり度を算出し、前記盛り上がり度から会話の段階を算出する算出部と、
前記第二の人の発話の分類結果と、前記各部分の分類結果と、前記会話の段階とに基づいて、当該発話に対応する前記部分を選択する選択部と、
選択された部分に関する情報に基づいて、前記第二の人の発話に対する反応を示す画像を出力する出力部と、
を有する会話システム。