JP2020067877A

JP2020067877A - 対話装置および対話装置の制御プログラム

Info

Publication number: JP2020067877A
Application number: JP2018200831A
Authority: JP
Inventors: 美奈舩造; Mina Funatsukuri; 智哉高谷; Tomoya Takatani
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2020-04-30
Anticipated expiration: 2038-10-25
Also published as: JP7010193B2; US11485022B2; CN111104494A; US20200130195A1

Abstract

【課題】対話可能な外部のコミュニケーションロボットに対して愛着を持てるように、ユーザが、当該コミュニケーションロボットを再現したキャラクタと、ストレスなく円滑に対話ができる対話装置等を提供する。【解決手段】対話装置は、表示部と、表示部に第１キャラクタを表示させ、対話可能な外部コミュニケーションロボットの発話機能をシミュレートしてユーザとの対話を実行する第１対話制御部と、表示部に第２キャラクタを表示させ、ユーザと第１対話制御部の対話に介入する対話を実行する第２対話制御部と、第１対話制御部および第２対話制御部が実行した対話の対話情報を外部コミュニケーションロボットへ送信する送信部とを備える。【選択図】図２

Description

本発明は、対話装置および対話装置の制御プログラムに関する。

自律移動が可能なサービス提供型のロボットが実用化されつつある。このようなサービスロボットの中には、音声認識機能や発話機能を備え、対話を通じてユーザとコミュニケーションを取るものもある（例えば、特許文献１参照）。

自律移動するようなコミュニケーションロボットは、ユーザが利用できる場所や時間が限られていることも多く、ユーザがコミュニケーションロボットに対して愛着を感じたり、コミュニケーションロボットがユーザの気質を把握したりすることが難しい場合もある。そこで、コミュニケーションロボットを利用できない状況において、ユーザがスマートフォンなどの携帯端末で擬似的にコミュニケーションロボットを再現したキャラクタとコミュニケーションを取れるようにしたアプリが知られるようになってきた。ユーザが携帯端末でキャラクタとコミュニケーションを重ねた結果を、コミュニケーションロボットが携帯端末から当該コミュニケーションの履歴情報として受け取ると、コミュニケーションロボットは、ユーザとの間で相応のコミュニケーションが取れるようになる。ユーザは、このようなコミュニケーションを通じて、コミュニケーションロボットに対して愛着を感じるに至る。

特開２０１２−８６３４８号公報

コミュニケーションロボットが利用に供される環境は、ユーザが携帯端末を利用する環境に比べて、コミュニケーションにとっては不利な場合が多い。例えば、一般の公共空間であれば雑音が多く、音声識別精度が低下する。また、コミュニケーションロボットの種類によっては、高性能な対話システムを搭載することが難しい場合もある。このような場合には、コミュニケーションロボットに対するコミュニケーションと、携帯端末で再現されたキャラクタに対するコミュニケーションとの間に、円滑さや奥深さの点において隔たりが生じてしまう。すると、ユーザは、それぞれのコミュニケーションが別物であると感じ、コミュニケーションロボットに対する愛着の醸成に対して好ましくない影響を与えてしまう。

本発明は、このような問題を解決するためになされたものであり、ユーザが、対話可能な外部のコミュニケーションロボットに対して愛着を持てるように、当該コミュニケーションロボットを再現したキャラクタとストレスなく円滑に対話を楽しむことができる対話装置等を提供するものである。

本発明の第１の態様における対話装置は、表示部と、表示部に第１キャラクタを表示させ、対話可能な外部コミュニケーションロボットの発話機能をシミュレートしてユーザとの対話を実行する第１対話制御部と、表示部に第２キャラクタを表示させ、ユーザと第１対話制御部の対話に介入する対話を実行する第２対話制御部と、第１対話制御部および第２対話制御部が実行した対話の対話情報を外部コミュニケーションロボットへ送信する送信部とを備える。

このような第１対話制御部を備えることにより、ユーザは、外部コミュニケーションロボットに対するコミュニケーションと同様のコミュニケーションを第１キャラクタに対して取ることができる。また、第２対話制御部を備えることにより、第１対話制御部とのコミュニケーションで生じ得るぎこちなさやストレスを緩和することができる。また、送信部によって対話情報が外部コミュニケーションロボットに送信されることにより、ユーザは、外部コミュニケーションロボットに対して連続性のあるコミュニケーションを取ることができ、ひいては愛着を増すことができる。

上記の対話装置は、外部コミュニケーションロボットが実行した対話の対話情報を受信する受信部を備え、第１対話制御部は、受信部が受信した対話情報に基づいて対話を実行するように構成しても良い。このように構成することにより、ユーザは、外部コミュニケーションロボットに対して行ったコミュニケーションの続きを対話装置で行うことができる。すなわち、対話装置の第１キャラクタと外部コミュニケーションロボットに、より一体性を持たせることができる。

また、上記の対話装置において、第１対話制御部は、ユーザが外部コミュニケーションロボットと対話を行うことができる環境においては、対話を実行しないようにしても良い。このような環境で第１キャラクタを表出させないことにより、切替え感を演出することができ、対話装置の第１キャラクタと外部コミュニケーションロボットに、より一体性を持たせることができる。この場合、第２対話制御部は、ユーザと外部コミュニケーションロボットの対話に介入する対話を実行しても良い。第２対話制御部が対話に介入して補助することにより、ユーザは、外部コミュニケーションロボットと円滑に対話を楽しむことができる。

また、上記の対話装置において、第２対話制御部は、外部コミュニケーションロボットの発話機能によって制限された発話を補うように対話を実行しても良い。対話装置に搭載された対話システムが高性能である場合には、第２対話制御部を介してその性能を発揮することができるので、より円滑なコミュニケーションを実現することができる。

また、上記の対話装置において、第１対話制御部および第２対話制御部による発話は、スピーカから発せられる音声および表示部に表示される文字の少なくともいずれかを介して実行される。発話を音声で行うか文字で行うかをユーザが選べれば、様々な環境において対話を行うことができる。

本発明の第２の態様における対話装置の制御プログラムは、表示部に第１キャラクタを表示させ、対話可能な外部コミュニケーションロボットの発話機能をシミュレートしてユーザとの対話を実行する第１対話制御ステップと、表示部に第２キャラクタを表示させ、ユーザと第１対話制御ステップの対話に介入する対話を実行する第２対話制御ステップと、第１対話制御ステップで実行した対話および第２対話制御ステップで実行した対話の対話情報を外部コミュニケーションロボットへ送信する送信ステップとをコンピュータに実行させる。このようなプログラムがコンピュータによって実行される対話装置よれば、第１の態様と同様に、外部コミュニケーションロボットを再現した第１キャラクタとユーザがコミュニケーションを取れると共に、第２キャラクタの仲介によりユーザにとってストレスのない円滑な対話を実現することができる。

本発明に係る対話装置等によれば、ユーザが、外部のコミュニケーションロボットを再現したキャラクタと、ストレスなく円滑に対話を楽しむことができ、ひいては当該コミュニケーションロボットに対して愛着を持てるようになる。

本実施形態に係るコミュニケーションの様子を示す図である。コミュニケーション端末で実行される対話の様子を示す図である。コミュニケーション端末のシステム構成図である。キャラクタの動作基準を記述したルックアップテーブルの一例である。第１環境における対話で実行する処理のフロー図である。第２環境で実行される対話の様子を示す図である。第２環境における対話で実行する処理のフロー図である。

以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。

図１は、本実施形態に係るコミュニケーションの様子を示す図である。対話装置としてのコミュニケーション端末３００は、例えばタブレット端末やスマートフォンであり、コンピュータがプログラムを実行することにより、ユーザと人工対話を行うことができる。第１環境は、コミュニケーション端末３００が利用される環境であり、例えばユーザの自宅である。第１環境には、ロボット１００は存在しない。

対話可能な外部コミュニケーションロボットとしてのロボット１００は、例えば自律移動可能なサービスロボットであり、コンピュータがプログラムを実行することにより、ユーザと人工対話を行うことができる。第２環境は、ロボット１００が利用される環境であり、例えばスポーツスタジアムである。後述するように、ユーザは、第２環境においても、コミュニケーション端末３００を利用する場合がある。

ロボット１００とコミュニケーション端末３００は、インターネット６００に接続されたシステムサーバ５００を介して、互いに情報の授受を行うことができる。コミュニケーション端末３００は、例えば無線ＬＡＮにより、第１環境内に設置された無線ルータ７００を介して、システムサーバ５００と接続される。同様に、ロボット１００は、例えば無線ＬＡＮにより、第２環境内に設置された無線ルータ７００を介して、システムサーバ５００と接続される。システムサーバ５００は、互いに関連付けられたロボット１００とコミュニケーション端末３００の間で、対話情報等の授受を仲介する。

ユーザが、第１環境で、コミュニケーション端末３００を相手に、例えば「ぼくは、ホットコーヒーが好きなんだよ。」などと話し掛けると、その内容が対話情報としてロボット１００へ送られる。ロボット１００は、第２環境でユーザから例えば「ロボタ君、コーヒー買ってきて。」と依頼されると、受信した対話情報を踏まえて、「ホットコーヒーでいいかな？」などと応答発話する。すなわち、ユーザがコミュニケーション端末３００を相手に話した内容は対話情報としてロボット１００へ送信され、ロボット１００は、当該対話情報を参照して、ユーザからの話し掛けに相応しい応答文を生成して発話する。

コミュニケーション端末３００は、ユーザの対話相手として表示する２つのキャラクタを用意している。１つは、ロボット１００の発話機能をシミュレートしてユーザとの対話を実行する擬似キャラクタ９０１であり、１つは、ユーザと擬似キャラクタ９０１の対話に介入する対話を実行する仲介キャラクタ９０２である。ロボット１００の発話機能をシミュレートする擬似キャラクタ９０１が、ユーザの発話に対して適切に応答できない場合に、仲介キャラクタ９０２が、例えば「『良く聞こえなかったからもう一回言って』だって。」のように発話する。すなわち、仲介キャラクタ９０２は、ユーザと擬似キャラクタ９０１の間で実行される対話が円滑に進むように、補助的な発話を行う。

このような対話の進行について更に説明する。図２は、コミュニケーション端末３００で実行される対話の様子を示す図であり、図２（ａ）は、主に擬似キャラクタ９０１が、コミュニケーション端末３００の表示パネル３０３に表示されている様子を示す。コミュニケーション端末３００は、マイク３０１とスピーカ３０２を備える。コミュニケーション端末３００は、ユーザが発した音声をマイク３０１から取り込み、生成した応答発話文を音声としてスピーカ３０２から発する。

表示パネル３０３は、例えば有機ＥＬディスプレイである。表示パネル３０３に表示される擬似キャラクタ９０１は、例えばロボット１００を模したイラストである。擬似キャラクタ９０１は、アニメーションとして動作を伴っても良く、ユーザ発話や応答発話に応じて顔部の表情を変化するように構成しても良い。また、擬似キャラクタ９０１は、ロボット１００をデフォルメしたイラストでも良く、実機であるロボット１００を撮影した画像を用いても良い。なお、複数種類の外部コミュニケーションロボットが存在する場合には、ユーザは、使用に先立ち、コミュニケーションを取る予定の外部コミュニケーションロボットに対応する擬似キャラクタを選択する。外部コミュニケーションロボット側で既にユーザ登録がなされている場合には、システムサーバ５００を介して、対応する擬似キャラクタが自動的に選択されても良い。

擬似キャラクタ９０１は、上述のように、ロボット１００の発話機能をシミュレートしてユーザとの対話を実行する。例えば、ユーザが「今日は暑いね」などと話し掛けると、コミュニケーション端末３００は、このユーザ発話に相応しい、例えば「太郎くんはどんな飲み物が好き？」といった応答発話文を生成する。生成された応答発話文は、音声信号に変換されてスピーカ３０２から発せられる。また、表示パネル３０３に表示された擬似キャラクタ９０１が話しているかのように、吹き出し形式のテキストボックス９１１に文字として表示される。このように、ユーザと擬似キャラクタ９０１の対話が円滑に行われているときには、仲介キャラクタ９０２は、例えば表示画面の隅に揺らめきながら小さく表示されている。ユーザは、仲介キャラクタ９０２が表示されていることにより、対話を円滑に進める補助機能が働いていると認識できる。

図２（ｂ）は、主に仲介キャラクタ９０２が、コミュニケーション端末３００の表示パネル３０３に表示されている様子を示す。上述のように、擬似キャラクタ９０１による発話は、ロボット１００の発話機能をシミュレートして実行される。すなわち、擬似キャラクタ９０１の発話機能は、ロボット１００が搭載している対話システムの発話性能やロボット１００が利用に供される環境などを調整要因として、コミュニケーション端末３００が本来備える発話機能に対して敢えて劣るように調整されている。

コミュニケーション端末３００を通じて行う対話が、実機であるロボット１００との対話と同様に行える点において、ユーザは、コミュニケーション端末３００に表示された擬似キャラクタ９０１があたかもロボット１００の分身であるかのように感じられる。すなわち、擬似キャラクタ９０１に対してコミュニケーションを重ねることによっても、ロボット１００に対するユーザの愛着が育まれることが期待できる。

しかし、発話機能が制限された擬似キャラクタ９０１との対話は、円滑に進まない場合もあり、ユーザにストレスを生じさせる場合もある。そこで、ユーザと擬似キャラクタ９０１の対話が円滑に進まない場合には、表示パネル３０３に仲介キャラクタ９０２を表示させ、ユーザと擬似キャラクタ９０１の対話に介入する対話を実行させる。仲介キャラクタ９０２の発話機能は、コミュニケーション端末３００が本来備える発話機能を存分に発揮する。

例えば、擬似キャラクタ９０１による発話機能ではユーザ発話を理解できない場合に、コミュニケーション端末３００は、仲介キャラクタ９０２の発話機能を用いて、例えば「『よく聞こえなかったからもう一回言って』だって。」といった仲介を内容とする応答発話文を生成する。生成された応答発話文は、音声信号に変換されてスピーカ３０２から発せられる。また、表示パネル３０３に表示された仲介キャラクタ９０２が話しているかのように、吹き出し形式のテキストボックス９１２に文字として表示される。このように、仲介キャラクタ９０２が対話に介入するときには、擬似キャラクタ９０１は、例えば表示画面の隅に小さく、理解できない旨を示すテキストボックス９１１と共に表示される。このように、仲介キャラクタ９０２がユーザと擬似キャラクタ９０１の対話に仲介して補助することにより、対話を円滑に進め、ユーザのストレスを緩和することができる。

次に、コミュニケーション端末３００のシステム構成について説明する。図３は、コミュニケーション端末３００のシステム構成図である。ここでは、ユーザとのコミュニケーションに関係する主な要素について説明するが、コミュニケーション端末３００の構成としては他の要素も備え、またコミュニケーションに寄与する他の要素が加えられることもあり得る。

制御部３１０は、例えばＣＰＵであり、コミュニケーション端末３００の全体を制御すると共に、様々な演算を実行する。マイク３０１は、主な機能として、ユーザの発話音声を集音する。マイク３０１は、集音したユーザの発話音声を音声信号に変換し、ユーザからの入力発話として制御部３１０へ引き渡す。スピーカ３０２は、制御部３１０で変換された音声信号を受け取って、出力発話を音声として出力する。

表示パネル３０３は、制御部３１０が生成する映像信号に従って、擬似キャラクタ９０１、仲介キャラクタ９０２、テキストボックス９１１、９１２等を表示する。表示パネル３０３は、文字に変換されたユーザ発話を、例えばチャット形式を採用して、テキストボックスで表示しても良い。通信ユニット３２０は、例えば無線ＬＡＮユニットであり、無線ルータ７００との間で無線通信を行う。通信ユニット３２０は、例えばロボット１００が近傍に存在する場合に対話情報を直接送受信できるように、近接通信用の無線ユニットを備えていても良い。

メモリ３３０は、不揮発性の記憶媒体であり、例えばソリッドステートドライブが用いられる。メモリ３３０は、コミュニケーション端末３００を制御するための制御プログラムの他にも、制御や演算に用いられる様々なパラメータ値、関数、ルックアップテーブル等を記憶している。特に、第１テーブル３３１、第２テーブル３３２、履歴データ３３３を記憶している。

第１テーブル３３１は、擬似キャラクタ９０１を特徴付ける動作基準を記述したルックアップテーブルである。第２テーブル３３２は、仲介キャラクタ９０２を特徴付ける動作基準を記述したルックアップテーブルである。第１テーブル３３１および第２テーブル３３２は、後に詳述する。履歴データ３３３は、ユーザと擬似キャラクタ９０１の間でこれまでに実行した対話情報、ユーザと仲介キャラクタ９０２の間でこれまでに実行した対話情報を含む参照データである。また、ユーザがロボット１００と実行した対話情報を通信ユニット３２０を介して取得した場合にも、履歴データ３３３として管理される。

発話データベース３４０は、例えばハードディスクドライブの記録媒体によって構成されており、コーパスとして体系化された個々の用語は、再生可能な発話データを伴って格納されている。発話データベース３４０は、コミュニケーション端末３００が内蔵していなくても良く、例えばインターネット６００に接続されていても良い。

キャラクタデータベース３５０は、例えばハードディスクドライブの記録媒体によって構成されており、擬似キャラクタ９０１および仲介キャラクタ９０２の映像データが格納されている。擬似キャラクタ９０１については、複数種類の外部コミュニケーションロボットが存在する場合には、それぞれに対応する映像データが格納されている。仲介キャラクタ９０２については、ユーザが好みに応じて選択できるように構成されている場合には、複数の仲介キャラクタに対応する映像データが格納されている。

制御部３１０は、制御や処理に関わる様々な演算を実行する機能演算部としての役割も担う。発話解析部３１１、第１対話部３１３、第２対話部３１４および調停部３１５は、機能演算部の例である。

発話解析部３１１は、マイク３０１から受け取った入力発話を解析してテキスト化し、ユーザの発話内容を認識する。発話解析部３１１は、具体的には、一般的な音声認識技術を用いてユーザの発話内容を認識する。例えば、テキスト化された入力発話に単語分析等を施して、ＤＮＮモデルやロジスティック回帰モデルを用いて発話内容を認識する。

第１対話部３１３は、擬似キャラクタ９０１による発話機能を担う。すなわち、第１対話部３１３は、第１テーブル３３１を参照し、表示パネル３０３に擬似キャラクタ９０１を表示させ、ロボット１００の発話機能をシミュレートしてユーザとの対話を実行する対話制御部である。具体的には、第１対話部３１３は、発話データベース３４０を参照してユーザ発話に相応しい応答発話文を生成し、当該応答発話文を音声としてスピーカ３０２から発すると共に、文字として表示パネル３０３へ表示する。

第２対話部３１４は、仲介キャラクタ９０２の発話機能を担う。すなわち、第２対話部３１４は、第２テーブル３３２を参照し、表示パネル３０３に仲介キャラクタ９０２を表示させ、ユーザと擬似キャラクタ９０１の対話に介入する対話を実行する対話制御部である。具体的には、第２対話部３１４は、発話データベース３４０を参照して対話を補助する応答発話文を生成し、当該応答発話文を音声としてスピーカ３０２から発すると共に、文字として表示パネル３０３へ表示する。

調停部３１５は、ユーザと擬似キャラクタ９０１の対話が円滑に進んでいるかを発話ごとに監視し、仲介キャラクタ９０２の介入が必要か否かを判断する。その判断結果に応じて、次の発話権限を第１対話部３１３か第２対話部３１４のいずれかへ引き渡す。

次に、第１テーブル３３１と第２テーブル３３２について説明する。図４は、キャラクタを特徴付ける動作基準を記述したルックアップテーブルである第１テーブル３３１と第２テーブル３３２の一例である。

第１対話部３１３は、擬似キャラクタ９０１がロボット１００の分身であると感じられるように、第１テーブル３３１に記述された動作基準を参照してロボット１００をシミュレートする。第１テーブル３３１は、ロボット１００に設定された特徴に対応するように、予め設定されている。あるいは、ロボット１００から、インターネット６００を介してロボット１００の設定を取り込むようにしても良い。

本実施形態においては、動作基準の項目として、「表示キャラクタ」、「声音」、「会話速度」、「選択用語レベル」、「気性変化頻度」、「会話中ジェスチャ」、「音声識別レベル」、「発話モジュールレベル」を定めている。「表示キャラクタ」は、ロボット１００に対応するキャラクタ番号を示す。第１対話部３１３は、「表示キャラクタ」の欄を参照して、キャラクタデータベース３５０から取得するキャラクタ映像を決定する。「声音」は、ロボット１００が発する声音に対応する番号が記されている。第１対話部３１３は、「声音」の欄を参照して、発話データベース３４０から取得する音声データを決定する。

「会話速度」は、ロボット１００で実行される会話速度に対応する番号が記されている。第１対話部３１３は、「会話速度」の欄を参照して、スピーカ３０２から発する音声の速さを調整する。「選択用語レベル」は、ロボット１００が生成する応答発話文の丁寧さのレベルに対応する番号が記されている。例えば、丁寧な言い回しが「Ａ」であり、形式張らない言い回しが「Ｃ」である。第１対話部３１３は、「選択用語レベル」の欄を参照して、応答発話文の丁寧さを調整する。

「気性変化頻度」は、ロボット１００に設定された気性の変化度合に対応する番号が記されている。例えば、ユーザが少しからかうような言葉を発したときに、すぐに怒った発話をするのであれば「高」であり、冷静を保つのであれば「低」である。第１対話部３１３は、「気性変化頻度」の欄を参照して、応答発話文の内容を調整する。「対話ジェスチャ」は、ロボット１００が対話中に実行するジェスチャの大きさの度合いに対応する番号が記されている。例えば、対話中に首をよく振ったり、アームを上げ下げしたりするのであれば「多」である。第１対話部３１３は、「対話ジェスチャ」の欄を参照して、表示パネル３０３に表示する擬似キャラクタ９０１のアニメーションを調整する。

「音声識別レベル」は、ロボット１００が利用に供される環境、ロボット１００のマイク性能、ロボット１００の発話解析能力に応じて設定されるユーザ発話の識別レベルに対応する番号が記されている。例えば、ロボット１００が利用に供される環境が一般の公共空間であれば、雑音が多く音声識別精度が低下するので、「音声識別レベル」は、その程度に応じて設定される。第１対話部３１３は、「音声識別レベル」の欄を参照して、発話解析部３１１を制限的に機能させる。あるいは、発話解析部３１１が出力したテキストを修正する。例えば、テキストの一部をランダムに欠落させる。

「発話モジュールレベル」は、ロボット１００に搭載された応答生成モジュールの性能に対応する番号が記されている。第１対話部３１３は、「発話モジュールレベル」の欄を参照して、生成された複数の応答発話文の候補の中から、相応しい応答発話文を選択して出力する。

第１テーブル３３１のうち、「音声識別レベル」と「発話モジュールレベル」は、ロボット１００の発話性能をシミュレートするために必要な項目である。本実施形態においては、ロボット１００が利用に供される環境など外的要因も考慮したが、ロボット１００が性質の異なる環境を行き来するような場合には、外的要因の考慮を省いても良い。

第２対話部３１４は、仲介キャラクタ９０２が擬似キャラクタ９０１とは異なるキャラクタであると感じられるように、第２テーブル３３２に記述された動作基準を参照して対話を実行する。第２テーブル３３２は、仲介キャラクタ９０２に対して設定された特徴付けに合わせて予め設定されている。

第２テーブル３３２は、動作基準の項目として、第１テーブル３３１と同様に、「表示キャラクタ」、「声音」、「会話速度」、「選択用語レベル」、「気性変化頻度」、「会話中ジェスチャ」を定めている。一方で、ロボット１００の発話性能をシミュレートするための項目である「音声識別レベル」および「発話モジュールレベル」を含まない。

第２テーブル３３２は、仲介キャラクタ９０２による発話を実行する場合に、「表示キャラクタ」の欄を参照して、キャラクタデータベース３５０から取得するキャラクタ映像を決定する。また、「声音」の欄を参照して発話データベース３４０から取得する音声データを決定し、「会話速度」の欄を参照してスピーカ３０２から発する音声の速さを調整する。また、「選択用語レベル」の欄を参照して応答発話文の丁寧さを調整し、「気性変化頻度」の欄を参照して応答発話文の内容を調整し、「対話ジェスチャ」の欄を参照して、表示パネル３０３に表示する擬似キャラクタ９０１のアニメーションを調整する。

なお、キャラクタを特徴付ける動作基準は、図４に示した基準に限らない。他の基準が追加されても良いし、特定の基準が省かれていても良い。また、シミュレートする特定のロボットに対して特別な基準が用意されていても良い。

次に、第１環境における対話において制御部３１０が実行する処理の流れについて説明する。図５は、第１環境における対話で制御部３１０が実行する処理のフロー図である。フロー図は、ユーザが１フレーズを発話してから、コミュニケーション端末３００が１フレーズを返すまでの処理を表わしている。フローは、周囲にロボット１００が存在しないことが確認された時点から開始される。

制御部３１０は、ステップＳ１０１で、マイク３０１を介してユーザ発話を取得すると、発話解析部３１１が、ステップＳ１０２で、当該ユーザ発話を入力発話として解析し認識する。発話解析部３１１は、解析結果を第１対話部３１３へ引き渡す。

第１対話部３１３は、ステップＳ１０３で、第１テーブル３３１を参照して入力発話に対する応答発話文を生成する。ステップＳ１０４へ進み、調停部３１５は、ステップＳ１０３で生成された応答発話文を解析する。そして、調停部３１５は、ステップＳ１０３で生成された応答発話文が入力発話に対して相応しいものであるか否かを判断する。相応しいものであると判断した場合には、次の発話権限を第１対話部３１３へ引き渡して、ステップＳ１０５へ進む。一方、ステップＳ１０３で生成された応答発話文が入力発話に対して意味を成さなかったり、そもそも応答発話文が生成されていなかったりする場合には、仲介キャラクタ９０２の介入が必要と判断し、次の発話権限を第２対話部３１４へ引き渡し、ステップＳ１０７へ進む。

ステップＳ１０５へ進んだ場合には、第１対話部３１３は、キャラクタデータベース３５０から擬似キャラクタ９０１の映像データを取得して、表示パネル３０３に表示する。また、ステップＳ１０３で生成した応答発話文に対応する文字を表示する。ステップＳ１０６へ進み、発話データベース３４０から音声データを取得して調整し、ステップＳ１０３で生成した応答発話文に対応する音声をスピーカ３０２から発する。ステップＳ１０５とステップＳ１０６は、互いにリンクするように、並列的に処理すると良い。ステップＳ１０６の処理を終えたら、ステップＳ１１０へ進む。

ステップＳ１０７へ進んだ場合には、第２対話部３１４が、ステップＳ１０２で演算された解析結果を引き受け、更にステップＳ１０３で生成された応答発話文と第２テーブル３３２を参照して、入力発話に対する応答発話文を生成する。第２対話部３１４は、ステップＳ１０３で生成された応答発話文を参照することにより、その内容に応じた応答発話文を生成し得る。例えば、ステップＳ１０３で応答発話文を生成できなかった場合には、「『良く聞こえなかったからもう一回言って』だって。」との応答発話文を生成する。話題がずれてしまっているような場合には、「太郎くんは、○○を知らないみたいだよ。」との応答発話文を生成する。

ステップＳ１０７で応答発話文を生成したら、ステップＳ１０８へ進み、第２対話部３１４は、キャラクタデータベース３５０から仲介キャラクタ９０２の映像データを取得して、表示パネル３０３に表示する。また、ステップＳ１０７で生成した応答発話文に対応する文字を表示する。ステップＳ１０９へ進み、発話データベース３４０から音声データを取得して調整し、ステップＳ１０７で生成した応答発話文に対応する音声をスピーカ３０２から発する。ステップＳ１０８とステップＳ１０９は、互いにリンクするように、並列的に処理すると良い。ステップＳ１０９の処理を終えたら、ステップＳ１１０へ進む。

ステップＳ１１０に進むと、制御部３１０は、ステップＳ１０２で解析されたユーザ発話文と、ユーザに提示された応答発話文とを予め定められたデータ形式に調整し、通信ユニット３２０からロボット１００へ送信する。制御部３１０は、ステップＳ１１１へ進み、ユーザとの対話が継続されているか、終了したかを判断する。例えば、一定時間の間にユーザが発話しなければ、対話は終了したと判断する。対話が終了していないと判断したらステップＳ１０１へ戻り、一連の処理を繰り返す。対話が終了したと判断したら、表示パネル３０３の表示を停止して、一連の処理を終了する。

図１の第２環境では、ユーザが、コミュニケーション端末３００を所持することなく、ロボット１００と対話する様子を説明した。しかし、上述のように、ユーザとロボット１００の二者間の対話は、円滑に進められない場合も多い。そこで、第２環境においてもコミュニケーション端末３００を利用してロボット１００との対話を円滑に進める利用形態について説明する。図６は、第２環境で実行される対話の様子を示す図である。

図６（ａ）は、ロボット１００との対話に障害が発生している様子を示す。具体的には、ユーザが、「ロボタ君、コーヒー買ってきて。」とロボット１００に話し掛けても、ロボット１００が意味不明な応答発話を発した様子を示している。このとき、ユーザがコミュニケーション端末３００を所持していれば、コミュニケーション端末３００は、通信を介してロボット１００が生成した応答発話文を取得することができる。コミュニケーション端末３００は、取得した応答発話文が対話として意味を成さないことを判断する。

図６（ｂ）は、コミュニケーション端末３００の表示パネル３０３に仲介キャラクタ９０２が表示され、ユーザとロボット１００の対話を仲介キャラクタ９０２が補助している様子を示す。コミュニケーション端末３００は、ユーザがロボット１００へ話し掛けたユーザ発話を取得しており、ロボット１００から取得したロボット１００の応答発話が意味を成さない場合に、コミュニケーション端末３００がユーザへの応答発話文を生成して出力する。具体的には、図示するように、ユーザの「ロボタ君、コーヒー買ってきて。」に対して、「『ホットコーヒーでいいかな？』と言っているよ。」などと音声を発し、文字を表示する。このとき、コミュニケーション端末３００は、出力した応答発話文についての対話情報をロボット１００へ送信する。ロボット１００は、受信した対話情報を参照することにより、矛盾なくその後の対話を続けることができる。

図７は、図６を用いて説明した第２環境における対話で制御部３１０が実行する処理のフロー図である。フロー図は、ユーザが１フレーズを発話してから、ロボット１００が適切な１フレーズを返すか、コミュニケーション端末３００が補助する１フレーズを返すまでの処理を表わしている。フローは、周囲にロボット１００が存在することが確認された時点から開始される。なお、制御部３１０は、周囲にロボット１００が存在するか否かを、例えば、通信ユニット３２０を介して取得するロボット１００の位置情報と、コミュニケーション端末３００の位置情報を比較して判断する。近接通信用の無線ユニットを備えている場合には、近接通信が確立できるか否かにより判断しても良い。

制御部３１０は、ステップＳ２０１で、マイク３０１を介してユーザ発話を取得すると、発話解析部３１１が、ステップＳ２０２で、当該ユーザ発話を入力発話として解析し認識する。発話解析部３１１は、解析結果を調停部３１５へ引き渡す。

制御部３１０は、ステップＳ２０３で、マイク３０１を介してロボット１００が発するロボット発話を取得すると、発話解析部３１１が、ステップＳ２０４で、当該ロボット発話を応答発話として解析し認識する。発話解析部３１１は、解析結果を調停部３１５へ引き渡す。

ステップＳ１０４へ進むと、調停部３１５は、ステップＳ２０２で解析されたユーザ発話に対してステップＳ２０４で解析されたロボット発話が、対話を成立させるものであるか否かを判断する。成立させていると判断した場合にはステップＳ２１０へ進む。成立させていないと判断したら、ステップＳ２０６へ進む。

ステップＳ２０６へ進んだ場合には、第２対話部３１４が、ステップＳ２０２で演算された解析結果を引き受け、更にステップＳ２０４で演算された解析結果と第２テーブル３３２を参照して、ユーザ発話に対する応答発話文を生成する。

ステップＳ２０６で応答発話文を生成したら、ステップＳ２０７へ進み、第２対話部３１４は、キャラクタデータベース３５０から仲介キャラクタ９０２の映像データを取得して、表示パネル３０３に表示する。また、ステップＳ２０６で生成した応答発話文に対応する文字を表示する。ステップＳ２０８へ進み、発話データベース３４０から音声データを取得して調整し、ステップＳ２０６で生成した応答発話文に対応する音声をスピーカ３０２から発する。ステップＳ２０７とステップＳ２０８は、互いにリンクするように、並列的に処理すると良い。制御部３１０は、ステップＳ２０９へ進み、ステップＳ２０６で生成された応答発話文を予め定められたデータ形式に調整し、通信ユニット３２０からロボット１００へ送信する。

ステップＳ２１０へ進むと、制御部３１０は、ユーザとロボット１００の対話が継続されているか、終了したかを判断する。対話が終了していないと判断したらステップＳ２０１へ戻り、一連の処理を繰り返す。対話が終了したと判断したら、表示パネル３０３の表示を停止して、一連の処理を終了する。

このように、ユーザがロボット１００と対話を行うことができる第２環境にいては、第１対話部３１３による対話を実行しない。すなわち、擬似キャラクタ９０１を表出させない。このように制御することにより、ロボット１００と擬似キャラクタ９０１の切替え感を演出することができる。換言すると、コミュニケーション端末３００の擬似キャラクタ９０１と対話可能な外部コミュニケーションロボットとしてのロボット１００に、より一体性を持たせることができる。また、このように、ユーザとロボット１００が対話を行う環境において、両者の対話に第２対話部３１４が介入して補助することにより、ユーザは、ロボット１００と円滑に対話を楽しむことができる。

以上説明した本実施形態においては、コミュニケーション端末３００は生成した応答発話文を文字と音声で出力したが、何れかであっても構わない。ユーザが応答発話文をどのように出力させるかを、利用環境等に応じて選択できるように構成しても良い。

また、第１環境で実行される図５を用いて説明した処理フローは、履歴データ３３３を参照することなく応答発話文を生成するものであったが、もちろん履歴データ３３３を参照して応答発話文を生成しても良い。この場合、第１対話部３１３および第２対話部３１４が過去に生成した応答発話文を対話情報として参照するだけでなく、ロボット１００が過去に発話した応答発話文も対話情報として参照しても良い。このように過去の応答発話文を参照することにより、対話をバリエーションに富む奥深いものにすることができる。

以上説明した本実施形態においては、図２を用いて説明したように、表示パネル３０３には、疑似キャラクタ９０１と仲介キャラクタ９０２のうち発話主体となる一方が大きく表示される表示態様を説明したが、表示態様は、これに限らない。表示画面を分割して一方を疑似キャラクタ９０１の表示領域とし、他方を仲介キャラクタ９０２の表示領域としても良い。

また、説明した本実施形態においては、ロボット１００を自律移動可能なサービスロボットとして説明したが、実環境下でユーザがコミュニケーションを取ることのできるロボットは、このような類に限らない。例えば遊園地等で固定的に設置されているコミュニケーションロボットであっても良い。また、特定の場所においてのみコミュニケーションが取れるロボットという観点においては、当該ロボットが必ずしも何らかの視認可能な外形を備えていなくても良い。

また、説明した本実施形態においては、仲介キャラクタ９０２は、ユーザと疑似キャラクタ９０１の対話、またはユーザとロボット１００の対話を仲介する対話を実行する場合を説明したが、仲介のための発話以外の発話も行わせても良い。すなわち、ユーザと仲介キャラクタ９０２が、ロボット１００との対話とは切り離された独自内容の対話を行えるようにしても構わない。この場合に、疑似キャラクタ９０１は、ユーザと仲介キャラクタ９０２が行った対話の内容を反映した発話を行えるようにしても良い。また、疑似キャラクタ９０１と仲介キャラクタ９０２が相互に対話するように構成しても構わない。このように構成すると、疑似キャラクタ９０１と仲介キャラクタ９０２が、より独立したキャラクタであることが認識されやすい。また、発話内容も厚みが増し、より豊かなコミュニケーションを実現することができる。

１００ロボット、３００コミュニケーション端末、３０１マイク、３０２スピーカ、３０３表示パネル、３１０制御部、３１１発話解析部、３１３第１対話部、３１４第２対話部、３１５調停部、３２０通信ユニット、３３０メモリ、３３１第１テーブル、３３２第２テーブル、３３３履歴データ、３４０発話データベース、３５０キャラクタデータベース、５００システムサーバ、６００インターネット、７００無線ルータ、９０１擬似キャラクタ、９０２仲介キャラクタ、９１１、９１２テキストボックス

Claims

表示部と、
前記表示部に第１キャラクタを表示させ、対話可能な外部コミュニケーションロボットの発話機能をシミュレートしてユーザとの対話を実行する第１対話制御部と、
前記表示部に第２キャラクタを表示させ、前記ユーザと前記第１対話制御部の対話に介入する対話を実行する第２対話制御部と、
前記第１対話制御部および前記第２対話制御部が実行した対話の対話情報を前記外部コミュニケーションロボットへ送信する送信部と
を備える対話装置。
前記外部コミュニケーションロボットが実行した対話の対話情報を受信する受信部を備え、
前記第１対話制御部は、前記受信部が受信した前記対話情報に基づいて対話を実行する請求項１に記載の対話装置。
前記第１対話制御部は、前記ユーザが前記外部コミュニケーションロボットと対話を行うことができる環境においては、対話を実行しない請求項２に記載の対話装置。
前記第２対話制御部は、前記ユーザが前記外部コミュニケーションロボットと対話を行うことができる環境においては、前記ユーザと前記外部コミュニケーションロボットの対話に介入する対話を実行する請求項３に記載の対話装置。
前記第２対話制御部は、前記外部コミュニケーションロボットの前記発話機能によって制限された発話を補うように対話を実行する請求項１から４のいずれか１項に記載の対話装置。
前記第１対話制御部および前記第２対話制御部による発話は、スピーカから発せられる音声および前記表示部に表示される文字の少なくともいずれかを介して実行される請求項１から５のいずれか１項に記載の対話装置。
表示部に第１キャラクタを表示させ、対話可能な外部コミュニケーションロボットの発話機能をシミュレートしてユーザとの対話を実行する第１対話制御ステップと、
前記表示部に第２キャラクタを表示させ、前記ユーザと前記第１対話制御ステップの対話に介入する対話を実行する第２対話制御ステップと、
前記第１対話制御ステップで実行した対話および前記第２対話制御ステップで実行した対話の対話情報を前記外部コミュニケーションロボットへ送信する送信ステップと
をコンピュータに実行させる対話装置の制御プログラム。