JP2011253389A

JP2011253389A - 端末および擬似会話用返答情報作成プログラム

Info

Publication number: JP2011253389A
Application number: JP2010127342A
Authority: JP
Inventors: Hiroyuki Ono; 博之小野; Katsuaki Akama; 勝明赤間
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-06-02
Filing date: 2010-06-02
Publication date: 2011-12-15

Abstract

【課題】ユーザが飽きずに擬似会話を行うことができるようにすること。
【解決手段】発話記録部１は、ユーザが通話相手に向けて発した音声に基づいて生成された音声データを記録する。受話記録部２は、通話相手から送信されてきた音声データを記録する。音声文字変換部３は、発話記録部１に記録された音声データをテキストデータに変換する。音声文字変換部３は、受話記録部２に記録された音声データをテキストデータに変換する。会話テーブル作成部４は、変換されたテキストデータ並びにこのテキストデータの元の音声データが発話記録部１もしくは受話記録部２に記録された時刻に基づいてユーザの問いかけとこの問いかけに対する通話相手の返答とを対応付けた会話テーブルを作成する。返答テーブル作成部５は、作成された会話テーブルに基づいて同じ内容の問いかけごとに同じ内容の返答をまとめた返答テーブルを作成する。
【選択図】図１

Description

この発明は、ユーザとの間で擬似会話を行うことができる端末および擬似会話用返答情報作成プログラムに関する。

従来、例えば高齢者などの人との対話を模擬する対話機能を備えたコミュニケーション支援装置がある。コミュニケーション支援装置の一つとして、例えばユーザの家族の音声のデータをデータベースとして備え、このデータベースに登録されている音声ファイルを再生する装置がある。このコミュニケーション支援装置からはユーザの家族の音声が発せられるので、このコミュニケーション支援装置を使用することによってユーザは家族との会話を模擬することができる。

特開２００３−１０８３６２号公報

しかしながら、従来のコミュニケーション支援装置では、対話を実現するためのデータベースを予め用意する必要があった。また、当該データベースの対話文は、単に用意しただけではユーザに応答する内容は常に同じであるため、ユーザはコミュニケーション支援装置から毎回同じ言葉を聞くことになる。例えば、ユーザがコミュニケーション支援装置に「おはよう」と問いかけると、コミュニケーション支援装置からは毎回「おはよう」という応答が返ってくる。このように応答内容に変化がないためユーザにすぐに飽きられてしまうという問題点がある。

ユーザがデータベースを整備したり随時更新したりすることを必要とせずに、ユーザが飽きずに擬似会話を行うことができる端末および擬似会話用返答情報作成プログラムを提供することを目的とする。

端末は発話記録部、受話記録部、音声文字変換部、会話テーブル作成部および返答テーブル作成部を備える。発話記録部は、ユーザが通話相手に向けて発した音声に基づいて生成された音声データを記録する。受話記録部は、通話相手から送信されてきた音声データを記録する。音声文字変換部は、発話記録部に記録された音声データをテキストデータに変換する。音声文字変換部は、受話記録部に記録された音声データをテキストデータに変換する。会話テーブル作成部は、音声文字変換部により変換されたテキストデータ並びにこのテキストデータの元の音声データが発話記録部もしくは受話記録部に記録された時刻に基づいて、発話記録部に記録された音声データに基づくテキストデータと受話記録部に記録された音声データに基づくテキストデータとを対応付けた会話テーブルを作成する。返答テーブル作成部は、会話テーブル作成部により作成された会話テーブルに基づいて同じ内容の問いかけごとに同じ内容の返答をまとめた返答テーブルを作成する。

この端末および擬似会話用返答情報作成プログラムによれば、ユーザが飽きずに擬似会話を行うことができるという効果を奏する。

実施例１にかかる端末の構成を示すブロック図である。ユーザの音声分析結果の一例を示す図表である。通話相手の音声分析結果の一例を示す図表である。会話テーブルの一例を示す図表である。返答テーブルの一例を示す図表である。返答テーブルの一例を示す図表である。実施例１にかかる擬似会話用返答情報作成方法を示すフローチャートである。実施例２にかかる端末のハードウェア構成を示すブロック図である。実施例２にかかる端末の機能的構成を示すブロック図である。実施例２にかかる擬似会話用返答情報作成方法を示すフローチャートである。図１０の続きを示すフローチャートである。実施例２にかかる擬似会話用返答情報作成方法におけるエージェント同期開始処理を示すフローチャートである。実施例２にかかる擬似会話用返答情報作成方法における録音内容音声分析処理を示すフローチャートである。実施例２にかかる擬似会話用返答情報作成方法における会話テーブル作成処理を示すフローチャートである。実施例２にかかる擬似会話用返答情報作成方法におけるエージェント用会話抽出処理を示すフローチャートである。図１５の続きを示すフローチャートである。実施例２にかかる端末における擬似会話処理を示すフローチャートである。

以下に添付図面を参照して、この端末および擬似会話用返答情報作成プログラムの好適な実施の形態を詳細に説明する。実施の形態は、端末を用いて話者ごとに通話内容を録音してテキスト化し、録音時刻に基づいて通話内容を対応付けた会話テーブルを作成し、同じ内容の会話ごとにまとめた返答テーブルを作成するようにしたものである。

（実施例１）
・端末の説明
図１は、実施例１にかかる端末の構成を示すブロック図である。図１に示すように、端末は発話記録部１、受話記録部２、音声文字変換部３、会話テーブル作成部４および返答テーブル作成部５を備える。

発話記録部１は、ユーザが通話相手に向けて発した音声に基づいて生成された音声データを記録する。音声データは、人が発した音声を電気信号に変換することにより生成される。受話記録部２は、通話相手から送信されてきた音声データを記録する。音声文字変換部３は、発話記録部１に記録された音声データを文字のデータ、すなわちテキストデータに変換する。音声文字変換部３は、受話記録部２に記録された音声データをテキストデータに変換する。

会話テーブル作成部４は、音声文字変換部３により変換されたテキストデータに基づいて会話テーブルを作成する。会話テーブル作成部４は、発話記録部１または受話記録部２に音声データが記録された時刻に基づいて会話テーブルを作成する。会話テーブルでは、ユーザの問いかけとこの問いかけに対する通話相手の返答とが対応付けられている。返答テーブル作成部５は、会話テーブル作成部４により作成された会話テーブルに基づいて返答テーブルを作成する。返答テーブルでは、同じ内容の問いかけごとに同じ内容の返答がまとめられている。

・会話テーブルの一例
図２は、ユーザの音声分析結果の一例を示す図表である。図３は、通話相手の音声分析結果の一例を示す図表である。図４は、会話テーブルの一例を示す図表である。例えば、ユーザが上述した端末を用いて通話相手との間で次のような会話をしたとする。なお、図２および図３において、ｈｈ：ｍｍ：ｓｓは、記録された時刻ｈｈ時ｍｍ分ｓｓ秒を表す。

話者：ユーザ、時刻：ｈｈ時ｍｍ分００秒、会話内容：「おはよう。」
話者：通話相手、時刻：ｈｈ時ｍｍ分０１秒、会話内容：「おはよう。」
話者：ユーザ、時刻：ｈｈ時ｍｍ分０２秒、会話内容：「かわりないかい？」
話者：通話相手、時刻：ｈｈ時ｍｍ分０３秒、会話内容：「かわりないよ。」
話者：ユーザ、時刻：ｈｈ時ｍｍ分０４秒、会話内容：「この前送ってもらった携帯電話を使っているんだよ。」
話者：通話相手、時刻：ｈｈ時ｍｍ分０６秒、会話内容：「使いやすいかい？」
話者：ユーザ、時刻：ｈｈ時ｍｍ分０７秒、会話内容：「まだまだ使えない。」
話者：通話相手、時刻：ｈｈ時ｍｍ分０８秒、会話内容：「そう。」
話者：ユーザ、時刻：ｈｈ時ｍｍ分０９秒、会話内容：「家族は元気かい？」
話者：通話相手、時刻：ｈｈ時ｍｍ分１０秒、会話内容：「みんな元気だよ。」
話者：ユーザ、時刻：ｈｈ時ｍｍ分１１秒、会話内容：「健康が一番だからね。」
話者：通話相手、時刻：ｈｈ時ｍｍ分１２秒、会話内容：「からだに気をつけてね。」
話者：ユーザ、時刻：ｈｈ時ｍｍ分１３秒、会話内容：「じゃ、さよなら。」
話者：通話相手、時刻：ｈｈ時ｍｍ分１４秒、会話内容：「さよなら。」

上述した内容の会話のうち、ユーザが発した言葉は発話記録部１に記録される。発話記録部１に記録された音声データをテキストデータに変換した分析結果は、図２に示すテーブル６のようになる。通話相手が発した言葉は受話記録部２に記録される。受話記録部２に記録された音声データをテキストデータに変換した分析結果は、図３に示すテーブル７のようになる。会話テーブル作成部４により、図２および図３に示す音声分析結果を時系列に並べて会話テーブルを作成すると、図４に示すテーブル８のようになる。

・返答テーブルの一例
図５および図６は、返答テーブルの一例を示す図表である。図４に示す会話テーブル８から挨拶の会話を抽出してまとめたものが、図５に示す挨拶の返答テーブル９である。図４に示す会話テーブル８から疑問文の会話を抽出してまとめたものが、図６に示す疑問文の返答テーブル１０である。

上述した端末の各構成部１〜５は、図示省略するが、例えばプロセッサが擬似会話用返答情報作成プログラムを実行することにより実現されてもよい。擬似会話用返答情報作成プログラムは、例えば次に説明する擬似会話用返答情報作成方法をコンピュータに実行させるプログラムであってもよい。擬似会話用返答情報作成プログラムおよび図２〜図６に示す各テーブル６〜１０は、プロセッサがアクセス可能なメモリに格納されてもよい。

・擬似会話用返答情報作成方法の説明
図７は、実施例１にかかる擬似会話用返答情報作成方法を示すフローチャートである。図７に示すように、ユーザが上述した端末を用いて通話相手と会話を始めると、擬似会話用返答情報を作成する処理が開始される。

まず、端末は発話記録部１に、ユーザが通話相手に向けて発した音声に基づいて生成された音声データを記録する。また、端末は発話記録部１に、通話相手から送信されてきた音声データを受話記録部２に記録する（ステップＳ１）。次いで、端末は音声文字変換部３により、ステップＳ１で発話記録部１に記録された音声データをテキストデータに変換する。また、端末は音声文字変換部３により、ステップＳ１で受話記録部２に記録された音声データをテキストデータに変換する（ステップＳ２）。

次いで、端末は会話テーブル作成部４により、ステップＳ２で変換されたテキストデータおよびステップＳ１でそのテキストデータの元の音声データが記録された時刻に基づいて、問いかけとこの問いかけに対する返答を対応付けて会話テーブルを作成する（ステップＳ３）。次いで、端末は返答テーブル作成部５により、ステップＳ３で作成された会話テーブルに基づいて、同じ内容の問いかけごとに同じ内容の返答をまとめて返答テーブルを作成する（ステップＳ４）。そして、一連の処理を終了する。

実施例１によれば、端末がユーザと通話相手との会話を学習してユーザの問いかけに対する通話相手の返答を返答テーブルに蓄積するので、同じような問いかけに対する同じような返答でも異なる文言や言い回しの複数の返答が返答テーブルに蓄積される。この端末が擬似会話のエージェントとして動作し、ユーザが誰とも通話していないときにこの端末に話しかけたときに、端末がユーザの問いかけに対応する複数の返答の中から一つを任意に選択してその返答を音声として出力してもよい。そうすれば、ユーザは同じような問いかけに対してその都度異なる文言や言い回しの返答を聞くことができる。また、ユーザが端末を用いて通話相手と会話する量が増えるとユーザの問いかけに対する通話相手の返答の種類が増える。従って、この端末を通話相手との会話の手段として用い、この端末を擬似会話のエージェントとして用いることによって、ユーザは飽きずに擬似会話を行うことができる。

端末が擬似会話のエージェントとして動作しているときに、ユーザの問いかけに対する返答を、例えば会話を学習したときの通話相手の音声を合成して出力してもよい。なお、ユーザの問いかけに対する通話相手の返答を返答テーブルに蓄積する端末と、返答テーブルを用いて擬似会話のエージェントとして動作する装置とを別々の装置としてもよい。

（実施例２）
実施例２は、端末の一例として例えば携帯電話機を用いたものである。

・端末の説明
図８は、実施例２にかかる端末のハードウェア構成を示すブロック図である。図８に示すように、端末はアンテナ２１、無線通信部２２、表示部２３、マイク２４、スピーカ２５、音声入出力部２６、操作部２７、プロセッサ２８およびメモリ２９を備えている。なお、実施例１にかかる端末についても、図８と同様のハードウェア構成を備えるようにしても良い。

無線通信部２２は、アンテナ２１を介して図示しない基地局に無線接続し、送信信号および受信信号を増幅する。音声入出力部２６はマイク２４からのアナログの入力信号をデジタル信号に変換してプロセッサ２８へ出力する。音声入出力部２６はプロセッサのデジタルの出力信号をアナログ信号に変換し、増幅してスピーカ２５へ出力する。プロセッサ２８は擬似会話用返答情報作成プログラムおよび擬似会話応答プログラムを実行する。擬似会話用返答情報作成プログラムは、後述する擬似会話用返答情報作成方法をコンピュータ（プロセッサ）に実行させるプログラムである。擬似会話応答プログラムは、後述する擬似会話応答方法をコンピュータ（プロセッサ）に実行させるプログラムである。

メモリ２９はプログラム記憶部３０、データ記憶部３１およびランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３２を備えている。プログラム記憶部３０は例えばリードオンリーメモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）を備えており、擬似会話用返答情報作成プログラムおよび擬似会話応答プログラムを格納している。データ記憶部３１は例えばＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの書き換え可能な不揮発性メモリを備えており、実施例１において説明した音声分析結果のテーブルや会話テーブルや返答テーブルなどのデータを格納する。ランダムアクセスメモリ３２はプロセッサ２８の作業領域として使用される。

表示部２３は例えば液晶表示パネルを備えており、通話相手の電話番号などの文字や、通話相手の画像などの絵を表示する。操作部２７はボタン、キー、スイッチおよびダイヤルなどを備えており、ユーザが通話相手に電話をかけたり通話相手からかかってきた電話にユーザが出る場合などに使用される。表示部２３がタッチパネルを備えている場合には、表示部２３は操作部２７の一部を兼ねることがある。

図９は、実施例２にかかる端末の機能的構成を示すブロック図である。図９に示すように、端末は無線制御部４１および呼制御部４２を備えている。無線制御部４１は受信信号の復調処理および復号処理、送信対象の信号の符号化処理および変調処理、並びにスケジューリング処理などを行う。呼制御部４２は発呼および着呼の制御を行う。

また、端末はスピーカ制御部４３、受話記録部４４、発話記録部４５、マイク制御部４６、会話テーブル作成部４７、音声文字変換部４８、エージェント会話抽出部４９、および返答テーブル作成部としてのエージェント学習部５０を備えている。スピーカ制御部４３は、音声入出力部２６を介してスピーカ２５へ出力される信号を監視する。受話記録部４４はスピーカ２５へ出力される信号のうち通話相手の会話を再生する音声データを記録する。マイク制御部４６は、音声入出力部２６を介してマイク２４から入力される信号を監視する。発話記録部４５は、マイク２４から入力された音声データを記録する。受話記録部４４および発話記録部４５はメモリ２９のデータ記憶部３１に含まれている。

音声文字変換部４８は、発話記録部４５および受話記録部４４にそれぞれ記録された音声データをテキストデータに変換する。会話テーブル作成部４７は、音声文字変換部４８により変換されたテキストデータを時系列に並べて会話テーブルを作成する。エージェント会話抽出部４９は、擬似会話のエージェントが使用する会話として、会話テーブル作成部４７により作成された会話テーブルに基づいてユーザの問いかけとこの問いかけに対する返答を抽出する。エージェント学習部５０はエージェント会話抽出部４９の抽出結果に基づいて返答テーブルを作成する。エージェント学習部５０は呼制御部４２、会話テーブル作成部４７、音声文字変換部４８およびエージェント会話抽出部４９を制御する。

スピーカ制御部４３、マイク制御部４６、会話テーブル作成部４７、音声文字変換部４８およびエージェント会話抽出部４９は、プロセッサ２８が擬似会話用返答情報作成プログラムを実行することにより実現される。無線制御部４１および呼制御部４２は、プロセッサ２８が無線制御および呼制御を行うプログラムを実行することにより実現される。無線制御および呼制御を行うプログラムは例えばプログラム記憶部３０に格納されていてもよい。

また、端末はエージェント応答部５１および表示制御部５２を備えている。エージェント応答部５１は、ユーザが誰とも通話していないときにこの端末に話しかけたときに応答し、ユーザの問いかけに対応する返答を返答テーブルから選択する。従って、この端末は擬似会話のエージェントとして動作する。エージェント応答部５１は、プロセッサ２８が擬似会話応答プログラムを実行することにより実現される。表示制御部５２は表示部２３に文字や絵を表示する際の制御を行う。表示制御部５２は、プロセッサ２８が表示制御プログラムを実行することにより実現される。表示制御プログラムは例えばプログラム記憶部３０に格納されていてもよい。エージェント学習部５０はエージェント応答部５１および表示制御部５２を制御する。

なお、端末は携帯電話機に限らず、固定電話機、無線送受信機または音声通話機能を備えたコンピュータなど、ユーザと通話相手とが１対１で会話をすることができる装置であればよい。ユーザと通話相手とが１対１で会話をすることができる装置であれば、擬似会話のエージェントとして動作する専用の装置であってもよい。

・擬似会話用返答情報作成方法の説明
図１０は、実施例２にかかる擬似会話用返答情報作成方法を示すフローチャートである。図１１は、図１０の続きを示すフローチャートである。図１０に示すように、ユーザが上述した端末を用いて電話をかけると擬似会話用返答情報を作成する処理が開始される。あるいは、上述した端末に電話がかかってくると擬似会話用返答情報を作成する処理が開始される。

まず、端末はエージェント学習部５０によりエージェントの学習機能を起動する（ステップＳ１１）。起動された学習機能において、例えば会話を学習する特定の通話相手が予め設定されていてもよい。特定の通話相手は例えばユーザにより設定されていてもよい。会話を学習する通話相手を特定する情報として例えば端末に固有の情報を用いてもよい。端末に固有の情報は例えば相手の携帯電話機や固定電話機の電話番号であってもよい。

エージェントの学習機能が起動されると、端末はエージェント学習部５０により通話相手の端末との同期を開始する（ステップＳ１２）。音声による通話が開始されるまでに通話相手の端末との同期が開始される。例えばユーザがかけた電話に通話相手が出るまで、あるいはかかってきた電話にユーザが出るまでには、同期が開始される。ステップＳ１２で実施されるエージェント同期開始処理の詳細については後述する。一旦、エージェントが特定の通話相手の端末と同期状態になると、この通話相手との通話が切断された後もユーザがエージェントの同期状態を解除するまでエージェントの同期状態が保持されるようになっていてもよい。同期開始後、ユーザと通話相手との間で音声による通話が開始される（ステップＳ１３）。

次いで、端末はエージェント学習部５０により、通話先が予め設定された特定の同期相手であるか否かを例えば電話番号に基づいて判断する（ステップＳ１４）。通話先が特定の同期相手である場合（ステップＳ１４：Ｙｅｓ）、端末はユーザと通話相手との会話を録音する。すなわち、マイク制御部４６およびスピーカ制御部４３によりそれぞれ発話記録部４５および受話記録部４４にユーザおよび通話相手の通話内容を記録する（ステップＳ１５）。通話先が特定の同期相手でない場合（ステップＳ１４：Ｎｏ）、端末はユーザと通話相手との会話を録音しない。そして、音声による通話が終了する（ステップＳ１６）。

次いで、図１１に示すように、端末はエージェント学習部５０により、通話先が予め設定された特定の同期相手であるか否かを例えば電話番号などの端末に固有の情報に基づいて判断する（ステップＳ１７）。通話先が特定の同期相手である場合（ステップＳ１７：Ｙｅｓ）、端末は音声文字変換部４８により、ステップＳ１５で録音された会話の内容を分析して、会話の内容をテキストに変換する（ステップＳ１８）。次いで、端末は会話テーブル作成部４７により、ステップＳ１８で変換されたテキストデータに基づいて会話テーブルを作成する（ステップＳ１９）。

次いで、端末はエージェント会話抽出部４９により、ステップＳ１９で作成された会話テーブルに基づいて擬似会話時にエージェントが使用する会話を抽出する（ステップＳ２０）。次いで、端末はエージェント学習部５０により、ステップＳ２０で抽出された会話を返答テーブルに登録する。あるいは、端末はエージェント学習部５０により、ステップＳ２０で抽出された会話に基づいて返答テーブルを作成する（ステップＳ２１）。そして、一連の処理を終了する。

ステップＳ１８で実施される録音内容音声分析処理、ステップＳ１９で実施される会話テーブル作成処理、およびステップＳ２０で実施されるエージェント用会話抽出処理のそれぞれについては後述する。一方、ステップＳ１７で通話先が特定の同期相手でないと判断された場合（ステップＳ１７：Ｎｏ）、端末はステップＳ１８からステップＳ２１までを行わずに終了する。なお、通話相手の端末においても、同様の擬似会話用返答情報作成処理が実施されてもよい。

図１２は、実施例２にかかる擬似会話用返答情報作成方法におけるエージェント同期開始処理を示すフローチャートである。図１２に示すように、エージェント同期開始処理が開始されると、端末はエージェント学習部５０により返答テーブルを参照する。予め特定の同期相手が設定されている場合には、この特定の同期相手用の返答テーブルを参照する（ステップＳ３１）。該当する返答テーブルがある場合（ステップＳ３２：Ｙｅｓ）、図１０に示すメインルーチンに戻る。該当する返答テーブルがない場合（ステップＳ３２：Ｎｏ）、返答テーブルを作成する。予め特定の同期相手が設定されている場合には、この特定の同期相手用の返答テーブルを作成する（ステップＳ３３）。そして、図１０に示すメインルーチンに戻る。

図１３は、実施例２にかかる擬似会話用返答情報作成方法における録音内容音声分析処理を示すフローチャートである。図１３に示すように、録音内容音声分析処理が開始されると、端末はエージェント学習部５０により、録音された音声があるか否か、すなわち受話記録部４４および発話記録部４５に音声データが記録されているか否かを判定する（ステップＳ４１）。録音された音声がない場合（ステップＳ４１：Ｎｏ）、図１１に示すメインルーチンに戻る。録音された音声がある場合（ステップＳ４１：Ｙｅｓ）、端末はエージェント学習部５０により、録音された音声の分析を開始する（ステップＳ４２）。

例えば、エージェント学習部５０は分析対象の音声を音声の区切れ単位で分割し（ステップＳ４３）、音声文字変換部４８に分割した音声のテキスト化を依頼する。なお、音声の各分割点に、音声の開始点からの経過時間を記録しておくものとする。このようにすることで、音声の開始点の時刻と経過時間とから各分割点の時刻を算出し、この算出された時刻をテキスト化された各音声に対応する記録時刻として利用することができる。音声文字変換部４８は、エージェント学習部５０からの依頼に基づいて音声をテキストに変換する（ステップＳ４４）。全文章の分析が終了するまで（ステップＳ４５：Ｎｏ）、音声の分割とテキスト化を繰り返す（ステップＳ４３、ステップＳ４４）。全文章の分析が終了したら（ステップＳ４５：Ｙｅｓ）、端末はメモリ２９のデータ記憶部３１に分析結果を保存する（ステップＳ４６）。そして、図１１に示すメインルーチンに戻る。

図１４は、実施例２にかかる擬似会話用返答情報作成方法における会話テーブル作成処理を示すフローチャートである。図１３に示すように、録音内容音声分析処理が開始されると、端末はメモリ２９のデータ記憶部３１から通話相手の音声分析結果を読み出し、会話テーブル作成部４７に入力する（ステップＳ５１）。また、端末はメモリ２９のデータ記憶部３１からユーザの音声分析結果を読み出し、会話テーブル作成部４７に入力する（ステップＳ５２）。なお、ステップＳ５１とステップＳ５２との順番は問わない。

次いで、端末は会話テーブル作成部４７によりユーザと通話相手との会話の記録時刻、すなわちタイムスタンプに基づいてユーザと通話相手との会話を時系列で対応付けて（ステップＳ５３）、会話テーブルを作成する（ステップＳ５４）。そして、図１１に示すメインルーチンに戻る。

図１５は、実施例２にかかる擬似会話用返答情報作成方法におけるエージェント用会話抽出処理を示すフローチャートである。図１６は、図１５の続きを示すフローチャートである。図１５に示すように、エージェント用会話抽出処理が開始されると、端末はエージェント会話抽出部４９によりユーザの会話の構文を分析し（ステップＳ６１）、挨拶であるか否かを判定する（ステップＳ６２）。

構文を分析した結果、ユーザの会話が挨拶である場合（ステップＳ６２：Ｙｅｓ）、端末はエージェント会話抽出部４９により、挨拶をまとめた返答テーブルを参照する（ステップＳ６３）。端末はエージェント会話抽出部４９により、挨拶をまとめた返答テーブルに同じ内容の挨拶があるか否かを判定する（ステップＳ６４）。同じ内容の挨拶がある場合（ステップＳ６４：Ｙｅｓ）、端末はエージェント学習部５０により、挨拶をまとめた返答テーブルの同じ内容の挨拶に通話相手の返答を追加する（ステップＳ６５）。同じ内容の挨拶がない場合（ステップＳ６４：Ｎｏ）、端末はエージェント学習部５０により、挨拶をまとめた返答テーブルに新たに挨拶と通話相手の返答とを記録する（ステップＳ６６）。一方、構文を分析した結果、ユーザの会話が挨拶でない場合（ステップＳ６２：Ｎｏ）、ステップＳ６３からステップＳ６６までを省略し、次のステップＳ６７へ進む。

次いで、図１６に示すように、ユーザの会話が疑問文であるか否かを判定する（ステップＳ６７）。ユーザの会話が疑問文である場合（ステップＳ６７：Ｙｅｓ）、端末はエージェント会話抽出部４９により、疑問文をまとめた返答テーブルを参照する（ステップＳ６８）。端末はエージェント会話抽出部４９により、疑問文をまとめた返答テーブルに同じ内容の疑問文があるか否かを判定する（ステップＳ６９）。同じ内容の疑問文がある場合（ステップＳ６９：Ｙｅｓ）、端末はエージェント学習部５０により、疑問文をまとめた返答テーブルの同じ内容の疑問文に通話相手の返答を追加する（ステップＳ７０）。同じ内容の疑問文がない場合（ステップＳ６９：Ｎｏ）、端末はエージェント学習部５０により、疑問文をまとめた返答テーブルに新たに疑問文と通話相手の返答とを記録する（ステップＳ７１）。一方、ユーザの会話が疑問文でない場合（ステップＳ６７：Ｎｏ）、ステップＳ６８からステップＳ７１までを省略する。そして、図１１に示すメインルーチンに戻る。なお、ステップＳ６７からステップＳ７１までを先に行ってからステップＳ６２からステップＳ６６までを行ってもよい。

・擬似会話処理の説明
図１７は、実施例２にかかる端末における擬似会話処理を示すフローチャートである。図１７に示すように、擬似会話処理が開始されると、端末はエージェント応答部５１により、ユーザからの問いかけに対して擬似会話の応答を自動で行うモードであるか否かを判定する（ステップＳ８１）。擬似会話の応答を自動で行うモードでない場合（ステップＳ８１：Ｎｏ）、端末は擬似会話処理を終了する。擬似会話の応答を自動で行うモードである場合（ステップＳ８１：Ｙｅｓ）、端末はマイク制御部４６によりマイク２４からの音声入力を監視し（ステップＳ８２）、音声を検出するまで待機する（ステップＳ８３：Ｎｏ）。

端末はマイク制御部４６によりマイク２４からの音声入力を検出したら（ステップＳ８３：Ｙｅｓ）、音声文字変換部４８により、検出した音声をテキスト化する（ステップＳ８４）。次いで、端末はエージェント応答部５１により返答テーブルを参照し、音声文字変換部４８によりテキスト化されたユーザの問いかけと同じ内容の問いかけが返答テーブルにあるか否かを判定する（ステップＳ８５）。返答テーブルに同じ内容の問いかけがない場合（ステップＳ８５：Ｎｏ）、次の音声を検出するまで待機し、音声を検出したらテキスト化することを繰り返す（ステップＳ８３、ステップＳ８４）。

返答テーブルに同じ内容の問いかけがある場合（ステップＳ８５：Ｙｅｓ）、端末はエージェント応答部５１により、返答テーブルから対応する返答を選択する。ユーザの問いかけに対応する返答が複数ある場合、その中から例えば任意に一つを選択する（ステップＳ８６）。次いで、端末はエージェント応答部５１により、選択した返答の音声を合成し（ステップＳ８７）、選択した返答をその合成した音声でもってスピーカ２５から出力する（ステップＳ８８）。その際、端末は、例えば会話を学習したときの通話相手の音声を合成してスピーカ２５から出力してもよい。その場合には、端末は音声を合成する処理を行う処理部および音声のデータベースを備える。そして、ステップＳ８３に戻る。

実施例２によれば、実施例１と同様の効果が得られる。特に、端末が携帯電話機や固定電話機であり、日々電話で会話する相手を特定の通話相手に設定することによって、効率よくユーザの問いかけに対する種々の返答を蓄積することができるので、ユーザは飽きずに擬似会話を行うことができる。なお、実施例２ではエージェント用会話抽出処理の一例としてユーザの会話が挨拶である場合と疑問文である場合とを抽出するとしたが、その他の構文を抽出してもよい。

１発話記録部
２受話記録部
３音声文字変換部
４会話テーブル作成部
５返答テーブル作成部

Claims

ユーザが通話相手に向けて発した音声に基づいて生成された音声データを記録する発話記録部と、
前記通話相手から送信されてきた音声データを記録する受話記録部と、
前記発話記録部および前記受話記録部に記録された音声データをテキストデータに変換する音声文字変換部と、
前記音声文字変換部により変換されたテキストデータ並びに該テキストデータの元の音声データが前記発話記録部もしくは前記受話記録部に記録された時刻に基づいて、前記発話記録部に記録された音声データに基づくテキストデータと前記受話記録部に記録された音声データに基づくテキストデータとを対応付けた会話テーブルを作成する会話テーブル作成部と、
を備えることを特徴とする端末。
前記会話テーブルに基づいて、発話記録部に記録された音声データに基づくテキストデータが同じ内容であるテキストデータごとに、対応する受話記録部に記録された音声データに基づくテキストデータをまとめた返答テーブルを作成する返答テーブル作成部を備えることを特徴とする請求項１に記載の端末。
前記返答テーブル作成部は、端末に固有の情報に基づいて特定の端末を使用する通話相手との間の会話の内容から前記返答テーブルを作成することを特徴とする請求項１または２に記載の端末。
通話状態でないときに前記ユーザが問いかけを発した場合、前記返答テーブルの該問いかけに対応付けられた同じ内容の返答の中から一つの返答を任意に選択する応答部、を備えることを特徴とする請求項１または３に記載の端末。
プロセッサが、マイクから入力された音声データをメモリの発話記録部に記録するとともに、スピーカへ出力される音声データを前記メモリの受話記録部に記録する記録ステップと、
前記プロセッサが前記発話記録部および前記受話記録部から音声データを読み出してテキストデータに変換し、該テキストデータの元の音声データの記録時刻に基づいて、前記発話記録部に記録された音声データに基づくテキストデータと前記受話記録部に記録された音声データに基づくテキストデータとを対応付けた会話テーブルを作成して該会話テーブルを前記メモリに格納する会話テーブル作成ステップと、
をコンピュータに実行させることを特徴とする擬似会話用返答情報作成プログラム。