本発明は、ユーザの発話状況及び発話目的に応じて応答内容を変化させる会話ロボットに関する。
従来の会話ロボットとの会話(対話)では、マニュアルに基づく接客対応に代表されるような反復的かつ画一的となる不自然な会話が行なわれ易く、雑談も合わせて行うような会話ができないといった問題点が指摘されている。このため、会話ロボットがユーザを識別して予め入手しているユーザのプロファイルに基づいて会話を行い、更に会話を行いながらユーザの新たな情報を入手し、得られた情報を適宜反映させることにより、会話が不自然になることを回避する提案が行なわれている(例えば、特許文献1参照)。
しかしながら、特許文献1の会話ロボットでは、雑談のための情報が限られるため、幅広い話題に関する雑談や、個別の話題に特化された雑談には対応しきれず、不自然な会話、内容の破綻した会話に陥り易いという問題が生じる。
更に、従来の会話ロボットにユーザの異常状態を検出する監視カメラや人感センサ等の見守り用のセンサを取り付けることにより、会話ロボットに「見守り機能」を付加することが行なわれている。しかしながら、見守り用のセンサを用いたユーザの異常状態の監視では、明らかな異常の前兆となる軽微な異常は認識できず、ユーザが重篤な状態になるまで放置されるという問題がある。
本発明はかかる事情に鑑みてなされたもので、ユーザの発話状況からユーザに生じた異常有無を判定すると共に、ユーザの発話目的からユーザの求めに応じた最適な応答を行なうことが可能となる会話ロボットを提供することを目的とする。
前記目的に沿う本発明に係る会話ロボットは、ユーザの発話状況及び発話目的に応じて応答内容が変化する会話ロボットであって、
前記ユーザの発話音声を受信して受信信号を出力する音声入力装置と、
前記ユーザとのロボット側の対話者として、前記応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示する表示装置と、
前記ユーザに対して応答音声を発生する音声出力装置と、
前記受信信号から前記発話状況として発話異常有無の判定を行い、発話異常有と判定された際に緊急通報応答としての前記応答音声を形成し、発話異常無と判定され、かつ前記受信信号から前記発話目的が雑談と判別された際に雑談応答としての前記応答音声を形成し、発話異常無と判定され、かつ前記受信信号から前記発話目的が質問と判別された際に質問応答としての前記応答音声を形成する応答音声データを作成し前記音声出力装置に入力しながら、前記担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成し前記表示装置に入力する応答制御装置とを有する。
ここで、発話目的が雑談と判別されるのは、受信信号(ユーザの発話音声)から推定したユーザの意図に、例えば、ある事柄に対する回答要求や依頼要求が存在せず、かつ話題継続願望が存在する場合であり、発話目的が質問と判別されるのは、受信信号から推定したユーザの意図に、例えば、ある事柄に対する回答要求や依頼要求が存在し、かつ話題継続願望が存在しない場合である。
なお、本発明に係る会話ロボットは、ユーザを撮影する撮像手段を有し、応答制御装置には、撮像手段で得られたユーザの画像を用いて、表示手段の表示面の方向を調節し、表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部が設けられていることが好ましい。
これによって、ユーザは、担当キャラクタの応答時の顔表情の変化を容易に捉えることができる。
本発明に係る会話ロボットにおいて、前記担当キャラクタの顔画像はペット又は人の顔画像から形成することができる。
これによって、ユーザは、担当キャラクタの顔を、応答内容に応じて設定することができる。ここで、担当キャラクタの顔画像は、予め準備された複数のペット(小動物)の写真(映像を含む、以下同様)、複数のペットの絵(漫画及び劇画を含む、以下同様)、複数の人の写真、又は複数の人の絵の中からユーザにより選択されたものに基づいて作製する。また、ユーザから提供された、あるいはユーザの要求に合わせて作製されたペットの写真、ペットの絵、人の写真、又は人の絵に基づいて作製することも可能である。
本発明に係る会話ロボットにおいて、前記音声入力装置は、前記ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し前記受信信号として出力する音声入力処理部を有し、
前記応答制御装置は、(1)前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部と、(2)前記異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部と、(3)前記異常無信号が出力され、前記受信信号から前記発話目的が雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部と、(4)前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部と、(5)前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部と、(6)前記応答文字ファイルから前記応答音声データを作成して前記音声出力装置に入力する音声出力処理部と、(7)前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタAを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタBを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタCをそれぞれ設定するキャラクタ設定部と、(8)前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記画像表示データとして前記表示手段に入力するキャラクタ表情処理部と、(9)前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタAの顔画像を表示させる初期状態設定部とを有していることが好ましい。
このような構成とすることで、応答制御装置を構成する各処理部のメンテナンスや更新を処理部毎に独立して行なうことができる。
音声入力処理部を設けることで、ユーザの発話音声を選別することができ、ユーザの発話状況及び発話目的を確実に捉えることができる。また、応答内容に応じて担当キャラクタが変わるので、会話自体に興味を持たせることができる。
ここで、受信信号に対応する雑談文字ファイル又は質問文字ファイルの作成には、クラウド(インターネット)上に設けた汎用の会話応答処理装置を用いる。会話応答処理装置では、クラウド上の大規模なデータベース(例えば、発話データベース及び知識データベース)と、ユーザの発話履歴に基づいて随時更新されるユーザ情報データベース(例えば、応答制御装置内に構築する)を利用して、受信信号から、例えば、ユーザ情報データベース及び発話データベースを検索することにより、ユーザの話題の推定が行なわれると共に、ユーザの発話意図がある事柄に対する回答要求なのか、ある事柄に対する依頼要求なのか、又はある事柄に対する回答要求や依頼要求が存在せず単なる話題継続願望なのかの推定が行なわれる。次いで、会話応答処理装置では、ユーザの発話意図が単なる話題継続願望であると推定された場合は、ユーザの話題に沿った雑談文字ファイルが、ユーザ情報データベース、発話データベース及び知識データベースの検索結果に基づいて作成される。一方、ユーザの発話意図がある事柄に対する回答要求又はある事柄に対する依頼要求のいずれかであって、話題継続願望が存在しないと推定された場合は、ユーザの話題に沿った質問文字ファイルが、ユーザ情報データベース、発話データベース及び知識データベースの検索結果に基づいて作成される。
本発明に係る会話ロボットにおいて、前記雑談対応処理部は、(1)前記発話文字ファイルが有する話題で雑談する応答雑談が、該発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から1つ設定する雑談確率設定手段と、(2)前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、前記キャラクタAは、前記実行確率毎に設定されることが好ましい。
雑談確率設定手段を介して、ユーザは会話を行なう時の気分に応じて会話ロボットに非応答雑談の機会を与える、即ち会話ロボットの従順度を設定することができる。これにより、会話ロボットとの間に適度な距離感を有するコミュニケーションを図ることができ、変化に富んだ会話を楽しむことができる。
本発明に係る会話ロボットにおいて、前記非応答雑談は、(1)前記発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、(2)前記発話文字ファイルの入力に対し無応答となる雑談無視と、(3)前記発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶とを有することが好ましい。
これにより、会話ロボットに意外性、自立性、及び威嚇性を持たせることができる。
本発明に係る会話ロボットにおいて、前記発話文字ファイル中に前記キャラクタBを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力されることが好ましい。
これにより、会話ロボットに発話目的が質問であることを確実に認識させることができ、ユーザは適切な応答内容を会話ロボットから受け取ることができる。
本発明に係る会話ロボットにおいて、(1)テレビ放送を視聴するテレビ視聴手段と、(2)テレビ放送を録画し再生する又は映像データを再生する映像処理手段と、(3)ラジオ放送を聴取するラジオ聴取手段と、(4)前記テレビ視聴手段によるテレビ放送の視聴時に該テレビ放送の番組情報を取得し、前記映像処理手段によるテレビ放送の録画時に該テレビ放送の番組情報を取得し、又は前記ラジオ聴取手段によるラジオ放送の聴取時に該ラジオ放送の番組情報を取得して保存する番組情報記憶手段と、(5)前記テレビ視聴手段によるテレビ放送の視聴時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、前記映像処理手段による録画されたテレビ放送の再生時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、又は前記ラジオ聴取手段によるラジオ放送の聴取時に前記番組情報記憶手段に保存された該ラジオ放送の番組情報から番組文字ファイルを作成して前記応答文字ファイルとして出力する番組対応発話手段とを有することが好ましい。
このような構成とすることで、ユーザは会話ロボットと一緒に、テレビ放送を視聴しながら、録画したテレビ放送の再生を行ないながら、又はラジオ放送を聴取しながら、番組情報に基づいた発話を行なうことができる。
そして、会話ロボットの発話に応答したユーザからの発話音声が会話ロボットに受信されると、会話ロボットから応答音声が発生されて会話が成立する。
本発明に係る会話ロボットにおいて、前記発話異常判定処理部は、(1)予め設定された時間帯で前記応答音声が発せられる度に該応答音声が発せられてから前記音声入力装置で前記発話音声が受信されるまでの待機時間を測定し、予め求めておいた前記ユーザの基準待機時間と該待機時間との偏差が設定した許容値を超える発話状況変化の発生有無を検知し、前記ユーザとの間で1日の最初の対話が成立して以降の該発話状況変化の発生の累積回数が予め設定した異常発話判定値に到達した際に発話異常有と判定し前記異常有信号として第1の異常信号を出力する第1の警報手段と、(2)前記発話文字ファイルの前記発話音声ファイルに対する確からしさを定量的に示す確信度を取得し、該確信度が予め設定された異常確信度以下となる低確信度状態の発生有無を検知し、該低確信度状態の発生の累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し前記異常有信号として第2の異常信号を出力する第2の警報手段とを有することが好ましい。
ここで、基準待機時間は、ユーザの平常状態の待機時間を複数回測定し統計処理して得られる統計量で、例えば、待機時間分布の平均値、中央値、又は最頻値を採用することができる。また、偏差は待機時間と基準待機時間との差であり、許容値は、例えば、待機時間分布の標準偏差σを用いて、σ、2σ、又は3σのいずれか1に設定することができる。更に、異常発話判定値は、例えば、10回程度の値に設定することができる。
待機時間(会話ロボットの音声出力装置より応答音声が発せられてから会話ロボットの音声入力装置でユーザの発話音声が受信されるまでの時間)は、ユーザの体調に影響される会話処理能力を反映する測定値と考えられる。このため、偏差が許容値を超えることは、ユーザの発話状況が変化していることを示している。そして、発話状態変化の発生の累積回数が異常発話判定値に到達したことは、ユーザに平常状態とは異なる発話状況が生じていることを示しており、ユーザに体調の変化(異常)が生じている可能性が高いと判断できる。
本発明に係る会話ロボットにおいて、前記緊急通報対応処理部は、(1)前記第1の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの体調変化を確認する体調確認文字ファイルを作成して出力する第1の緊急通報対応手段と、(2)前記第2の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの会話認識変化を確認する会話認識度確認文字ファイルを作成して出力する第2の緊急通報対応手段とを有することが好ましい。
音声入力処理部では、受信信号から作成した発話音声ファイルを発話文字ファイルに変換する際、音声に対して文(文字)が一義的に決定できない場合(会話ロボット側が、発話音声から形成した発話音声ファイルを発話文字ファイルに変換する際の確からしさを確率的に評価した数値が90%以上でない場合)、確信度の高い順に複数の発話文字ファイルが候補として提供され、通常は、第1候補(確信度が最大)の発話文字ファイルが応答制御装置(発話異常判定処理部)に入力される。ここで、音声入力処理部での発話文字ファイルの作成方法を固定すると、同一の発話音声ファイル(発話音声)に対しては常に同一の確信度で同一の発話文字ファイルが得られる。従って、平常状態のユーザの種々の発話音声ファイル(発話音声)に対して音声入力処理部で評価される確信度を求めると、確信度の分布は平常状態のユーザの発話状態を定量的に評価する尺度の一つとなる。
このため、確信度の分布の最小値より小さい値を異常確信度に設定し、発話文字ファイルの作成時の確信度が異常確信度以下となる低確信度状態が発生すること(即ち、会話ロボット側で会話の認識率の低下が検出されること)は、ユーザが平常状態とは異なる発話状況であることを示している。そして、低確信度状態の発生の累積回数が異常累積回数に到達することは、ユーザに発話状況を変化させるほどの体調の変化(異常)が生じている可能性が高いことを示している。
なお、平常状態のユーザの発話音声ファイル(発話音声)に対する確信度は、一般的に90%程度の値となるため、例えば、異常確信度は確信度70%程度の値に設定できる。また、異常累積回数は、例えば、5回程度の値に設定することができる。
本発明に係る会話ロボットにおいては、ユーザの発話音声が会話ロボット側で受信される度に、発話状況として発話異常有無の判定が行われ、発話異常有と判定された際には緊急通報応答としての応答音声がユーザに発せられるので、ユーザは異常発生の前兆となる軽微な異常を早期に認識することができ、ユーザの安心及び安全のレベルを高めることが可能になる。
更に、発話異常無と判定された際には、発話目的が雑談なのか、質問なのかの判別が行なわれ、雑談と判別されると雑談応答としての応答音声が、質問と判別されると質問応答としての応答音声がそれぞれユーザに発せられるので、不自然な会話や内容の破綻した会話の発生を防止することが可能になる。
本発明の一実施の形態に係る会話ロボットの構成を示すブロック図である。
同会話ロボットの音声入力処理部の構成を示すブロック図である。
同会話ロボットの応答制御装置の構成を示すブロック図である。
同会話ロボットの応答制御装置の構成を示すブロック図である。
同会話ロボットの発話異常判定処理部と緊急通報対応処理部の構成を示すブロック図である。
同会話ロボットの雑談対応処理部の構成を示すブロック図である。
同会話ロボットの音声出力処理部の構成を示すブロック図である。
同会話ロボットのキャラクタ表情処理部の構成を示すブロック図である。
同会話ロボットの放送受信会話処理部の構成を示すブロック図である。
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図1に示すように、本発明の一実施の形態に係る会話ロボット10は、会話ロボット10のユーザの発話状況及び発話目的に応じて応答内容が変化するものであって、ユーザの発話音声をマイクロフォン11で受信して受信信号として出力する音声入力処理部12を備えた音声入力装置13と、ロボット側の対話者(ユーザとの対話者)として、応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示するディスプレイ14(表示装置の一例)と、ユーザに対して応答音声を発生するスピーカ15(音声出力装置の一例)とを有する。
担当キャラクタの顔画像は、予め準備された複数のペットの写真、複数のペットの絵、複数の人の写真、又は複数の人の絵の中からユーザにより選択されたものに基づいて作製する。なお、担当キャラクタの顔画像は、ユーザから提供された、あるいはユーザの要求に合わせて作製されたペットの写真、ペットの絵、人の写真、又は人の絵に基づいて作製することも可能である。応答内容に応じて担当キャラクタを変えることで、会話自体に興味を持たせることができる。
更に、会話ロボット10は、受信信号から発話状況として発話異常有無の判定を行い、発話異常有と判定された際に緊急通報応答としての応答音声を形成し、発話異常無と判定され、かつ受信信号から発話目的が雑談と判別された際に雑談応答としての応答音声を形成し、発話異常無と判定され、かつ受信信号から発話目的が質問と判別された際に質問応答としての応答音声を形成する応答音声データを作成しスピーカ15に入力しながら、担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成しディスプレイ14に入力する応答制御装置16を有する。
ここで、発話状況は、例えば、会話ロボットから応答音声が発せられてから会話ロボットがユーザの発話音声を受信するまでのロボット側の待機時間(会話ロボットの応答に対してユーザが発話するまでに要する時間であって、ユーザ側の会話応答速度に相当する)と、会話ロボット側における発話音声認識率(発話音声を会話ロボット側が発話文字ファイルに変換する際の確からしさを確率的に評価した数値)を指す。なお、質問には、単なる回答を求めることに加えて、何かを依頼することも含む。
更に、会話ロボット10は、ユーザを撮影するカメラ17(撮像手段の一例)を有し、応答制御装置16には、カメラ17で得られたユーザの画像を用いて、ディスプレイ14の表示面の方向を調節し、ディスプレイ14の表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部18が設けられている。
ここで、表示位置調整部18は、ユーザの画像からディスプレイ14(例えば、表示面の中心位置)に対するユーザの三次元位置を求めてディスプレイ14の表示面の方向(例えば、表示面の中心位置に立てた法線の方向)を調節する修正データを演算する修正データ演算器19と、ディスプレイ14を載置し、修正データに基づいてディスプレイ14の表示面の方向を変化させる可動保持台20とを有している。
図2に示すように、音声入力装置13は、ユーザの発話音声及びユーザ周囲の環境音を受信するマイクロフォン11と、マイクロフォン11から出力される出力信号からユーザの発話音声を選別して発話音声ファイルに変換し、発話音声ファイルから発話文字ファイルを作成し受信信号として出力する音声入力処理部12を備えている。
音声入力処理部12は、出力信号から音声が含まれている時間区間を音声区間として検出して発話音声ファイルとして出力する音声検出手段32と、発話音声ファイルを情報通信回線33(例えば、光回線、ADSL回線、ケーブルテレビ回線等)を介してクラウド(インターネット)上に設けられた音声認識処理手段34に入力(送信)する送信手段35とを有している。更に、音声入力処理部12は、入力された発話音声ファイルに応答して音声認識処理手段34から出力(送信)される発話文字ファイルを情報通信回線33を介して受信して出力する受信手段36とを有している。
応答制御装置16は、図3に示すように、受信信号(発話文字ファイル)から発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部22と、異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部23と、異常無信号が出力され、発話文字ファイルから発話目的が雑談と判別された際に雑談信号を、発話文字ファイルから発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部24と、雑談信号が出力された際に、発話文字ファイルからクラウド上に設けた会話応答処理装置25を介して雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部26と、質問信号が出力された際に、発話文字ファイルから会話応答処理装置25を介して質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部27と、応答文字ファイルから応答音声データを作成してスピーカ15に入力する音声出力処理部28とを有している。
図4に示すように、応答制御装置16は、発話目的判別処理部24で雑談と判別された、即ち、雑談信号が出力された際に担当キャラクタとしてキャラクタAを、発話目的判別処理部24で質問と判別された、即ち、質問信号が出力された際に担当キャラクタとしてキャラクタBを、発話異常判定処理部24で発話異常有と判定された、即ち、異常有信号が出力された際に担当キャラクタとしてキャラクタCをそれぞれ設定するキャラクタ設定部29を有している。更に、応答制御装置16は、キャラクタ設定部29で設定された担当キャラクタの顔画像を形成する顔画像合成データと、応答文字ファイルから担当キャラクタの感情を推定し、感情に応じた表情を形成する顔表情データをそれぞれ作成し、顔画像合成データと顔表情データを組み合わせて画像表示データとしてディスプレイ14に入力するキャラクタ表情処理部30と、音声入力装置13の起動時(会話ロボット10の起動スイッチのオン時)又はユーザに対してスピーカ15から応答音声が発生した後に、発話異常判定処理部22から異常無信号を出力させると共に、キャラクタ設定部29を介してディスプレイ14にキャラクタAの顔画像を表示させる初期状態設定部31とを有している。
なお、初期状態設定部31を介してディスプレイ14にキャラクタAの顔画像が表示される場合、キャラクタ表情処理部30には応答文字ファイルの情報が入力されないため、キャラクタAの顔表情は平常時の顔表情とする。
ここで、音声入力処理部12の音声認識処理手段34からは、発話音声ファイル(発話音声)を発話文字ファイルに変換する際、音声に対して文(文字)が一義的に決定できない場合、確信度の高い順に複数の発話文字ファイルが候補として提供(出力)される。従って、受信手段36では、出力された複数の発話文字ファイルの中から確信度が最大の発話文字ファイルを発話音声ファイルに対応する発話文字ファイルとして発話異常判定処理部22に向けて出力する。
なお、音声認識処理手段34をクラウド(インターネット)上に設けることで、音声認識処理手段34に大規模なデータベースを接続することができ、ハードウェアの更新、アプリケーションソフトウェアの更新や改善を適宜行うことができる。このため、音声認識処理手段34では発話音声ファイルから発話文字ファイルへの正確かつ迅速な変換を行なうことができる。
図5に示すように、発話異常判定処理部22は、予め設定された時間帯で応答音声が発せられる度に、スピーカ15で応答音声が発せられた時刻と、応答音声に対してユーザの発話音声の受信信号が音声入力装置13から出力された時刻の間の時間差を求めて待機時間とする待機時間検出手段37と、平常状態のユーザの待機時間を予め複数回測定して待機時間分布を求め、待機時間の平均値と標準偏差σをそれぞれ算出し、待機時間の平均値を基準待機時間、標準偏差σの3倍の値(3σ)を許容値として格納する基準データ形成手段38と、待機時間検出手段37から得られる待機時間と基準データ形成手段37から取得した基準待機時間との偏差を算出し、得られた偏差が許容値を超える発話状況変化の発生有無を検知して発話状況変化の発生の累積回数を求め、会話ロボット10とユーザとの間で1日の最初の対話が成立して以降の累積回数を求め、累積回数が設定した異常発話判定値に到達した際に発話異常有と判定し異常有信号として第1の異常信号を出力する第1の警報手段39とを有している。
会話ロボット10から応答音声が発せられてからユーザが発話するまでの待機時間は、会話の内容によっても変化するので、平常状態のユーザと種々の内容の会話を行って求めた待機時間分布は、平常状態のユーザの発話状況を定量的に評価する一つの基準になると考えられる。なお、待機時間分布を構成している各待機時間は、基準待機時間−3σを下限値とし、基準待機時間+3σを上限値とする範囲にほぼ存在する。従って、待機時間検出手段37から得られる待機時間から求めた偏差が、基準待機時間−3σ〜基準待機時間+3σの範囲に存在すれば、ユーザに異常は生じていないと判定され異常無信号が出力される。一方、ユーザに異常が生じた場合、ユーザの会話処理能力は低下するため、待機時間検出手段37から得られる待機時間が長くなって、偏差は基準待機時間+3σを超えることになる。このため、偏差が基準待機時間−3σ〜基準待機時間+3σの範囲外に存在すれば、ユーザに異常が生じていると判定され異常有信号として第1の異常信号が出力される。
更に、発話異常判定処理部22は、図5に示すように、発話文字ファイルの発話音声ファイルに対する確からしさを定量的に示す確信度を音声入力処理部12より取得する確信度取得手段40と、平常状態のユーザの種々の発話音声ファイル(発話音声)に対して音声入力処理部12で評価される確信度を予め求め、得られた確信度から確信度の分布を作成して最小値を求めて、最小値より小さい値を異常確信度として設定し保存する異常確信度設定手段41と、確信度取得手段40を介して得られる確信度と異常確信度設定手段41から取得した異常確信度を比較し、確信度が異常確信度以下となる低確信度状態の発生有無を検知し、低確信度状態の発生の累積回数を求め、累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し異常有信号として第2の異常信号を出力する第2の警報手段42とを有している。
ここで、最小値より小さい値には、例えば、確信度の分布を複数求めて、各確信度の分布が有する最小値を抽出し、抽出された最小値から構成される最小値分布を求めて、得られた最小値分布から推定される推定最小値を用いることができる。
音声入力処理部12における発話文字ファイルの作成方法を固定すると、同一の発話音声ファイル(発話音声)に対しては常に同一の確信度で同一の発話文字ファイルが得られるので、平常状態のユーザが会話ロボット10と会話する場合、ユーザの発話音声から発話文字ファイルが作成される際の確信度は、異常確信度設定手段41で作成された確信度の分布の範囲内に存在し、常に異常確信度を超える値となる。
一方、ユーザに異常が発生するとユーザの会話状態に変化が生じるため、ユーザの発話音声から発話文字ファイルが作成される際の確信度が低下し、異常確信度以下となる低確信度状態が発生することになる。そして、会話ロボット10との会話中に、ユーザに生じた低確信度状態の発生が一定時間継続すると累積回数が異常累積回数に達することになる。
図5に示すように、緊急通報対応処理部23は、予め作成されたユーザの体調変化を確認する体調確認文字ファイルとユーザの会話認識変化を確認する会話認識度確認文字ファイルを保存する緊急通報文字ファイル記憶手段43と、異常有信号として第1の異常信号が出力された際に起動して、緊急通報文字ファイル記憶手段43から体調確認文字ファイルを呼び出して緊急通報文字ファイルとして出力する第1の緊急通報対応手段44と、異常有信号として第2の異常信号が出力された際に、緊急通報文字ファイル記憶手段43から会話認識度確認文字ファイルを呼び出して緊急通報文字ファイルとして出力する第2の緊急通報対応手段45とを有する。
ここで、体調確認文字ファイルは、キャラクタCに、例えば、「会話の待機時間が長くなっています。何か異常はありませんか?」と発話させる情報を有し、会話認識度確認文字ファイルは、キャラクタCに、例えば、「会話の認識率が下がっています。何か異常はありませんか?」と発話させる情報を有する。
発話目的判別処理部24は、発話異常判定処理部22から異常無信号が出力されたことを受けて起動し、発話文字ファイル(受信信号)から発話目的が雑談であるか、質問であるかを判別して、雑談信号又は質問信号を出力する。ここで、発話目的の判別は、例えば、ユーザによるキャラクタの切り替えや特定のキーワードが発話文字ファイル中に存在するか否かにより行う。特に、質問に対する応答を行なう担当キャラクタとしてキャラクタBが設定されている場合、特定のキーワードとしてキャラクタBを指定すると、発話文字ファイル中にキャラクタBを呼び出す情報が含まれることになって、発話目的判別処理部24からは質問信号が確実に出力される。
図6に示すように、雑談対応処理部26は、発話目的判別処理部24から雑談信号が出力された際に起動し、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から1つ設定する雑談確率設定手段46と、雑談確率設定手段46で設定された確率で雑談を行なう雑談実行手段47とを有している。ここで、雑談確率設定手段46では、実行確率として複数の確率値が予め設定されており、従って、雑談に対する応答を行なうキャラクターAは、複数の確率値毎に設定される。
雑談実行手段47で発話文字ファイルに基づいた応答雑談が実行される場合は、発話文字ファイルを会話応答処理装置25に入力し、会話応答処理装置25から出力された複数の雑談文字ファイルを受け取り、その中から一つの雑談文字ファイルを選択し応答文字ファイルとして出力する。なお、会話応答処理装置25は、例えば、クラウド(インターネット)上に配置されており、発話文字ファイルの会話応答処理装置25への入力、会話応答処理装置25からの複数の雑談文字ファイルの取得は、情報通信回線33を介して行われる。
非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、発話文字ファイルの入力に対し無応答となる雑談無視と、発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶に分類される。なお、変更話題雑談、雑談無視、雑談拒絶の中でいずれの雑談が選択されるかは、非応答雑談が実行される際に確率的に決定される。そして、変更話題雑談が選択された場合は、例えば、発話文字ファイルに含まれるキーワードに関連する内容の発話文字ファイルを作成し、会話応答処理装置25に入力し、会話応答処理装置25から出力された複数の文字ファイルの中から一つの文字ファイルを選択し応答文字ファイルとして出力する。また、雑談無視が選択された場合は、予め作成して文字ファイルデータベース48として保存しておいた雑談無視に対応する文字ファイルを応答文字ファイルとして出力し、雑談拒絶が選択された場合は、予め作成しておいた雑談拒絶に対応する文字ファイルを応答文字ファイルとして出力する。
質問対応処理部27は、発話文字ファイルを会話応答処理装置25に入力して発話文字ファイルが有する文意を求める。そして、文意を構成するキーワードに関する検索を、例えば、インターネット上で行い。得られた検索結果から質問文字ファイルを作成し、応答文字ファイルとして出力する。
図7に示すように、音声出力処理部28は、応答文字ファイルを応答音声ファイルに変換する音声合成手段49と、応答音声ファイルから応答音声データを作成し音声信号に変換してスピーカ15に出力する音声変換手段50とを有している。これにより、会話ロボット10は、ユーザの発話音声を受信して作成した応答文字ファイルに基づいて応答音声を発することができる。
図8に示すように、担当キャラクタの顔画像は、予め準備された複数のペットの写真、複数のペットの絵、複数の人の写真、又は複数の人の絵からそれぞれキャラクタの顔画像を形成する画像要素データ群を作製して格納する顔画像データベース51と、顔画像データベース51から複数のキャラクタの顔画像(例えば、平常時の顔表情)を取り出してディスプレイ14に表示させ、特定のキャラクタの顔画像を1つユーザに選択させて担当キャラクタの顔画像として設定させる顔画像選択手段52と、担当キャラクタの顔画像についての画像要素データ群を顔画像データベース51から抽出して顔画像合成データとして出力する画像合成手段53とを有している。更に、キャラクタ表情処理部30は、応答文字ファイルから担当キャラクタの感情を推定し、感情に応じた表情を形成する顔表情データを作成する感情推定手段54と、顔画像合成データと顔表情データを組み合わせて担当キャラクタの応答時の顔表情を形成する画像表示データを作成してディスプレイ14に出力する画像表示手段55とを有している。
感情推定手段54には、複数の標準文に対してそれぞれ心理状態(快、不快、喜び、怒り、悲しみ等の各種気持ちの強弱関係)を対応させた感情データベースが設けられている。また、感情推定手段54には、心理状態と顔表情変化量(平常時の顔表情を形成している各部位の位置を基準位置とし、顔の各部位毎における基準位置からの変化方向と変化距離)の対応関係を求めて作成した表情データベースが設けられている。
このため、感情推定手段54に応答文字ファイルが入力されると、応答文字ファイルに含まれる文と同趣旨の標準文をデータベース内で抽出し、抽出された標準文が有する心理状態を文(応答文字ファイル)の感情と推定する。なお、文の趣旨が複数の標準文の組合せから構成される場合は、文の趣旨を構成する各標準文を抽出すると共に各標準文の寄与率(重み付け率)を算出し、各標準文の心理状態を寄与率で調整した修正心理状態の総和を文(応答文字ファイル)の感情と推定する。
そして、応答文字ファイルに含まれる文の感情が推定されると、推定された感情の心理状態(修正心理状態の総和)に一致又は最も類似する顔表情変化量を表情データベース内で抽出し、抽出された顔表情変化量を文の顔表情データとする。
応答文字ファイルがキャラクタ表情処理部30に入力されない場合、即ち、顔表情データが作成されない場合、画像表示データは顔画像合成データに一致するため、ディスプレイ14には担当キャラクタの顔画像(平常時の顔表情)が表示される。
なお、キャラクタ表情処理部30に入力された応答文字ファイルから感情が推定できない場合、例えば、擬声語の場合は、擬声語を発する際の表情状態を顔表情データと設定する。
これにより、会話ロボット10は、キャラクタの顔表情を変化させながら対話を行なうことができる。
図9に示すように、会話ロボット10は、テレビ放送を視聴するテレビ受像機56(テレビ視聴手段の一例)と、テレビ放送を録画し再生する又は映像データを再生するビデオデッキ57(映像処理手段の一例)と、ラジオ放送を聴取するラジオ受信機58(ラジオ聴取手段の一例)と、テレビ受像機56によるテレビ放送視聴時にはテレビ放送の番組情報を、ビデオデッキ57によるテレビ放送録画時にはテレビ放送の番組情報を、ラジオ受信機58によるラジオ放送聴取時にはラジオ放送の番組情報をそれぞれ情報通信回線33を介してインターネットから取得して保存する番組情報記憶手段59と、テレビ放送視聴時にはその番組情報を、再生時にはその番組情報を、ラジオ放送聴取時にはその番組情報をそれぞれ番組情報記憶手段59から取得し、番組情報に含まれるキーワードを用いてインターネット上でキーワード検索を行い、検索結果に含まれる内容の文字ファイルに基づいてインターネット上の会話応答処理装置25を介して作成される番組文字ファイルを応答文字ファイルとして出力する番組対応発話手段60とを備えた放送受信会話処理部61を有する。更に、放送受信会話処理部61には、テレビ受像機56、ビデオデッキ57、又はラジオ受信機58をそれぞれ起動させる起動スイッチを備え、起動スイッチの操作に連動して番組情報記憶手段59及び番組対応発話手段60を起動させる操作手段62が設けられている。
なお、ビデオデッキ57で再生する映像データは記憶媒体(例えば、磁気テープ系、磁気ディスク系、光磁気ディスク系、光ディスク系、メモリ系のリムーバブルメディア)やインターネットを介して取得することができる。
ここで、テレビ受像機56はテレビチューナ56aと、表示画面56bと、スピーカ56cとを有し、ビデオデッキ57はテレビチューナ57aと、録画記憶部57bとを有しており、ビデオデッキ57で録画再生を行なう場合、映像は表示画面56bに、音声はスピーカ56cに出力されるように構成することができる。また、ラジオ受信機58はラジオチューナ58aと、スピーカ58bとを有している。
このような構成とすることにより、放送局から送信されたテレビ放送の電波をテレビ受像機56のテレビチューナ56aを介して受信し、映像を表示画面56bに表示し音声をスピーカ56cから出力させることができ、ビデオデッキ57のテレビチューナ57aを介して受信し、録画データを録画記憶部57bに保存することができる。また、放送局から送信されたラジオ放送の電波をラジオ受信機58のラジオチューナ58aを介して受信し、音声をスピーカ58bから出力させることができる。
このような構成とすることで、ユーザが操作手段62の起動スイッチをオンして、例えば、テレビ放送を視聴すると(録画を再生すると、ラジオを視聴すると)、会話ロボット10はテレビ放送の番組情報に基づいた発話をすることになる。そして、そして、会話ロボット10の発話に応答したユーザからの発話音声が会話ロボット10に受信されると、ユーザと会話ロボット10との間で会話が成立することになり、ユーザの発話音声に応答する応答音声が会話ロボット10から発生される。
なお、テレビ受像機56とビデオデッキ57はそれぞれ専用のディスプレイを有しても、テレビ受像機56とビデオデッキ57は共用のディスプレイを有してもよい。更に、テレビ受像機56とビデオデッキ57はディスプレイを有さず、テレビ受像機56とビデオデッキ57の各映像信号をディスプレイ14に入力するようにしてもよい。
なお、本実施の形態では、会話ロボット10がテレビ受像機56、ビデオデッキ57、及びラジオ受信機58を有する構成としたが、インターネットを介して操作手段62と外部に設けた別のテレビ受像機、別のビデオデッキを接続することもできる。このような構成とすることにより、会話ロボット10の構成が簡単になって製造コストを低減させることが可能になると共に、大きな表示画面を有する別のテレビ受像機をテレビ受像機に使用することで、大迫力の映像を楽しむことができる。
また、テレビ受像機をテレビチューナと、スピーカで構成し、テレビ放送の映像又は録画再生時の映像は会話ロボット10のティスプレイ14に表示させることもできる。このような構成とすることにより、会話ロボット10の構成が更に簡単になって製造コストをより低減させることが可能になる。
続いて、本発明の一実施の形態に係る会話ロボット10の作用について説明する。
図3、図4に示すように、ユーザが会話ロボット10を起動させると、初期状態設定部31によりディスプレイ14に担当キャラクタAが表示され、会話ロボット10と雑談を開始することができる状態となる。そして、ユーザの発話音声が会話ロボット10の側で受信される度に、発話異常判定処理部22を介して、発話音声に基づいて発話状況に異常があるか否か(発話異常有無)の判定が行われる。ここで、発話異常有と判定された際は、発話異常有の場合の担当キャラクタであるキャラクタCがディスプレイ14に自動的に表示され、緊急通報対応処理部23で緊急通報文字ファイルが作成され、応答文字ファイルとして出力される。応答文字ファイルは音声出力処理部28に入力され、緊急通報応答としての応答音声がスピーカ15からユーザに発せられる。
以上のように、ユーザの発話音声から異常発生の前兆となる軽微な異常が検出されると、会話ロボット10からユーザに対して直ちに異常の存在が通知されるので、ユーザの安心及び安全のレベルを高めることが可能になる。
発話異常判定処理部22において発話異常無と判定された際には発話目的判別処理部24が起動し、発話目的判別処理部24は受信信号から発話目的が雑談なのか、質問なのかの判別を行なう。そして、発話目的が雑談と判別されると、雑談対応処理部26で雑談文字ファイルが作成され、応答文字ファイルとして出力される。そして、応答文字ファイルは音声出力処理部28に入力され、雑談応答としての応答音声がスピーカ15からユーザに発せられる。このときディスプレイ14には、雑談の担当キャラクタであるキャラクタAが表示され、応答音声に合わせてキャラクタAの顔表情が変化する。
ここで、雑談対応処理部26では雑談確率設定手段46を介して、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率(ユーザの意向に沿った応答雑談が行なわれる確率であって、ユーザに対する会話ロボット10の従順度に相当)を複数の確率(例えば、90%、60%、30%)の中から1つ設定することができる。これにより、ユーザは、気分に応じて会話ロボット10の実行確率(従順度)を調節することができ、ユーザは会話ロボット10との間に適度な距離感を設けて会話(コミュニケーション)を図ることができる。
なお、キャラクタAは実行確率毎にそれぞれ設定されており、実行確率が設定されると、その実行確率に対応するキャラクタAがディスプレイ14に表示される。
非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、ユーザの発話音声(発話文字ファイル)の入力に対し無応答となる雑談無視と、ユーザの発話音声(発話文字ファイル)の入力に対し雑談を拒絶する雑談拒絶から構成される。そして、雑談実行手段47を介して雑談を行う際に非応答雑談が選択されると、変更話題雑談、雑談無視、及び雑談拒絶の中から1つが更に任意に(例えば、乱数を用いて)選択される。これにより、会話ロボット10に意外性、自立性、及び威嚇性を持たせることができる。
なお、雑談無視が選択された場合は雑談無視を示す雑談文字ファイルが雑談対応処理部26で形成され、雑談拒絶が選択された場合は雑談拒絶を示す雑談文字ファイルが雑談対応処理部26で形成され、応答文字ファイルとして音声出力処理部28に出力される。
また、ユーザがディスプレイ14に表示されたキャラクタAと雑談を行なっているときに、ユーザに質問、例えば、「今日の天気が知りたい」等の回答要求や「電話をかけたい」等の依頼事項が生じた場合、ユーザは「キャラクタBを呼んで」と発話することにより会話ロボット10側に発話目的が質問であることを認識させることができる。その結果、ディスプレイ14ではキャラクタAの表示が消えてキャラクタBが表示される。次いで、ユーザの発話音声から形成された受信信号が質問対応処理部27に入力されて形成された質問文字ファイルが応答文字ファイルとして出力される。そして、応答文字ファイルは音声出力処理部28に入力され、質問応答としての応答音声がスピーカ15からユーザに発せられる。
以上のように、ユーザからの発話音声(受信信号)から先ず発話目的を特定し、次いで目的に応じた応答文字ファイルを作成するので、ユーザと会話ロボット10との間で不自然な会話や内容の破綻した会話の発生を防止することが可能になる。
図9に示すように、放送受信会話処理部61の操作手段62を操作して、例えば、テレビ受像機56を起動させると、放送受信会話処理部61の番組情報記憶手段59にはテレビ放送の番組情報が保存され、番組対応発話手段60からは番組情報記憶手段59で取得されたテレビ放送の番組情報に基づいて会話応答処理装置25を介して作成された番組文字ファイルが応答文字ファイルとして出力される。このため、会話ロボット10はテレビ放送の番組情報に基づいた発話をすることになって、会話ロボット10の発話に応答したユーザからの発話音声が会話ロボット10に受信されると、ユーザと会話ロボット10との間でテレビ放送を視聴しながら会話が成立することになる。その結果、ユーザと会話ロボット10との間では、相互にテレビ放送の内容に対する批判や感想の同意を求めたり、意見を聞いたりすることができる。
ここで、ビデオデッキ57で非録画映像データ(テレビ放送番組の録画ではなく、番組情報に相当する情報が入手できないもの)を再生する場合は、発話会話ロボット10による再生された映像に関する発話は生じないので、会話ロボット10からの応答は、ユーザの発話に対するものとなる。
なお、会話ロボット10でユーザの発話音声から発話目的が雑談と認識されても、雑談確率設定手段46を介して応答雑談が選択される実行確率(会話ロボット10の従順度)が予め設定されているので、会話ロボット10からテレビ放送の内容に対する批判や感想の同意に対する応答、意見を聞いたことに対する応答が必ず得られることはない。このため、会話ロボット10側の予期せぬ応答に対して、更にユーザが対応すると、新たな会話が成立することになる。
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。
例えば、発話目的判別処理部から質問信号が確実に出力されるために、発話文字ファイル中にキャラクタBを呼び出す情報を含ませたが、質問に対する回答が必ずしも必要でない場合は、発話音声中に質問に関する情報を含ませ、雑談が進行する過程で回答が得られるようにすることもできる。
10:会話ロボット、11:マイクロフォン、12:音声入力処理部、13:音声入力装置、14:ディスプレイ、15:スピーカ、16:応答制御装置、17:カメラ、18:表示位置調整部、19:修正データ演算器、20:可動保持台、22:発話異常判定処理部、23:緊急通報対応処理部、24:発話目的判別処理部、25:会話応答処理装置、26:雑談対応処理部、27:質問対応処理部、28:音声出力処理部、29:キャラクタ設定部、30:キャラクタ表情処理部、31:初期状態設定部、32:音声検出手段、33:情報通信回線、34:音声認識処理手段、35:送信手段、36:受信手段、37:待機時間検出手段、38:基準データ形成手段、39:第1の警報手段、40:確信度取得手段、41:異常確信度設定手段、42:第2の警報手段、43:緊急通報文字ファイル記憶手段、44:第1の緊急通報対応手段、45:第2の緊急通報対応手段、46:雑談確率設定手段、47:雑談実行手段、48:文字ファイルデータベース、49:音声合成手段、50:音声変換手段、51:顔画像データベース、52:顔画像選択手段、53:画像合成手段、54:感情推定手段、55:画像表示手段、56:テレビ受像機、56a:テレビチューナ、56b:表示画面、56c:スピーカ、57:ビデオデッキ、57a:テレビチューナ、57b:録画記憶部、58:ラジオ受信機、58a:はラジオチューナ、58b:スピーカ、59:番組情報記憶手段、60:番組対応発話手段、61:放送受信会話処理部、62:操作手段
本発明は、ユーザの発話状況及び発話目的に応じて応答内容を変化させる会話ロボットに関する。
従来の会話ロボットとの会話(対話)では、マニュアルに基づく接客対応に代表されるような反復的かつ画一的となる不自然な会話が行なわれ易く、雑談も合わせて行うような会話ができないといった問題点が指摘されている。このため、会話ロボットがユーザを識別して予め入手しているユーザのプロファイルに基づいて会話を行い、更に会話を行いながらユーザの新たな情報を入手し、得られた情報を適宜反映させることにより、会話が不自然になることを回避する提案が行なわれている(例えば、特許文献1参照)。
しかしながら、特許文献1の会話ロボットでは、雑談のための情報が限られるため、幅広い話題に関する雑談や、個別の話題に特化された雑談には対応しきれず、不自然な会話、内容の破綻した会話に陥り易いという問題が生じる。
更に、従来の会話ロボットにユーザの異常状態を検出する監視カメラや人感センサ等の見守り用のセンサを取り付けることにより、会話ロボットに「見守り機能」を付加することが行なわれている。しかしながら、見守り用のセンサを用いたユーザの異常状態の監視では、明らかな異常の前兆となる軽微な異常は認識できず、ユーザが重篤な状態になるまで放置されるという問題がある。
本発明はかかる事情に鑑みてなされたもので、ユーザの発話状況からユーザに生じた異常有無を判定すると共に、ユーザの発話目的からユーザの求めに応じた最適な応答を行なうことが可能となる会話ロボットを提供することを目的とする。
前記目的に沿う本発明に係る会話ロボットは、ユーザの発話状況及び発話目的に応じて応答内容が変化する会話ロボットであって、
前記ユーザの発話音声及び該ユーザ周囲の環境音を受信するマイクロフォンと、該マイクロフォンから出力される出力信号から該ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し受信信号として出力する音声入力処理部とを備えた音声入力装置と、
前記ユーザとのロボット側の対話者として、前記応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示する表示装置と、
前記ユーザに対して応答音声を発生する音声出力装置と、
(1)前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部、(2)前記異常有信号が出力された際に、緊急通報応答としての緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部、(3)前記異常無信号が出力され、前記受信信号から前記発話目的が話題継続願望による雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が回答要求又は依頼要求による質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部、(4)前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部、(5)前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部、(6)前記応答文字ファイルから応答音声データを作成して前記音声出力装置に入力する音声出力処理部、(7)前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタAを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタBを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタCをそれぞれ設定するキャラクタ設定部、(8)前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成し前記表示装置に入力するキャラクタ表情処理部、及び(9)前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタAの顔画像を表示させる初期状態設定部を備えた応答制御装置とを有し、
前記発話文字ファイル中に前記キャラクタBを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力され、
前記雑談対応処理部は、前記発話文字ファイルが有する話題で雑談する応答雑談が、前記発話文字ファイルが有する話題で雑談しない非応答雑談に対して実行される確率を、予め設定された複数の確率の中からユーザの意向に沿って1つ設定する雑談確率設定手段と、前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、
前記非応答雑談が実行される際は、前記発話文字ファイルに含まれるキーワードに関連する内容の新たな発話文字ファイルを作成して雑談する変更話題雑談、前記発話文字ファイルの入力に対し、予め作成しておいた雑談無視に対応する文字ファイルを出力する雑談無視、及び前記発話文字ファイルの入力に対し、予め作成しておいた雑談拒絶に対応する文字ファイルを出力する雑談拒絶の中から1つが確率的に決定され、前記キャラクタAの顔表情は、前記応答音声に合わせて変化する。
なお、本発明に係る会話ロボットは、ユーザを撮影する撮像手段を有し、応答制御装置には、撮像手段で得られたユーザの画像を用いて、表示装置の表示面の方向を調節し、表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部が設けられていることが好ましい。
これによって、ユーザは、担当キャラクタの応答時の顔表情の変化を容易に捉えることができる。
本発明に係る会話ロボットにおいて、前記担当キャラクタの顔画像はペット又は人の顔画像から形成することができる。
これによって、ユーザは、担当キャラクタの顔を、応答内容に応じて設定することができる。ここで、担当キャラクタの顔画像は、予め準備された複数のペット(小動物)の写真(映像を含む、以下同様)、複数のペットの絵(漫画及び劇画を含む、以下同様)、複数の人の写真、又は複数の人の絵の中からユーザにより選択されたものに基づいて作製する。また、ユーザから提供された、あるいはユーザの要求に合わせて作製されたペットの写真、ペットの絵、人の写真、又は人の絵に基づいて作製することも可能である。
前記音声入力装置は、前記ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し前記受信信号として出力する音声入力処理部を有し、
前記応答制御装置は、(1)前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部と、(2)前記異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部と、(3)前記異常無信号が出力され、前記受信信号から前記発話目的が雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部と、(4)前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部と、(5)前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部と、(6)前記応答文字ファイルから前記応答音声データを作成して前記音声出力装置に入力する音声出力処理部と、(7)前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタAを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタBを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタCをそれぞれ設定するキャラクタ設定部と、(8)前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記画像表示データとして前記表示装置に入力するキャラクタ表情処理部と、(9)前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタAの顔画像を表示させる初期状態設定部とを有している。
このような構成とすることで、応答制御装置を構成する各処理部のメンテナンスや更新を処理部毎に独立して行なうことができる。
音声入力処理部を設けることで、ユーザの発話音声を選別することができ、ユーザの発話状況及び発話目的を確実に捉えることができる。また、応答内容に応じて担当キャラクタが変わるので、会話自体に興味を持たせることができる。
ここで、受信信号に対応する雑談文字ファイル又は質問文字ファイルの作成には、クラウド(インターネット)上に設けた汎用の会話応答処理装置を用いる。会話応答処理装置では、クラウド上の大規模なデータベース(例えば、発話データベース及び知識データベース)と、ユーザの発話履歴に基づいて随時更新されるユーザ情報データベース(例えば、応答制御装置内に構築する)を利用して、受信信号から、例えば、ユーザ情報データベース及び発話データベースを検索することにより、ユーザの話題の推定が行なわれると共に、ユーザの発話意図がある事柄に対する回答要求なのか、ある事柄に対する依頼要求なのか、又はある事柄に対する回答要求や依頼要求が存在せず単なる話題継続願望なのかの推定が行なわれる。次いで、会話応答処理装置では、ユーザの発話意図が単なる話題継続願望であると推定された場合は、ユーザの話題に沿った雑談文字ファイルが、ユーザ情報データベース、発話データベース及び知識データベースの検索結果に基づいて作成される。一方、ユーザの発話意図がある事柄に対する回答要求又はある事柄に対する依頼要求のいずれかであって、話題継続願望が存在しないと推定された場合は、ユーザの話題に沿った質問文字ファイルが、ユーザ情報データベース、発話データベース及び知識データベースの検索結果に基づいて作成される。
前記雑談対応処理部は、(1)前記発話文字ファイルが有する話題で雑談する応答雑談が、該発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から1つ設定する雑談確率設定手段と、(2)前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、前記キャラクタAの顔表情は、前記応答音声に合わせて変化する。
雑談確率設定手段を介して、ユーザは会話を行なう時の気分に応じて会話ロボットに非応答雑談の機会を与える、即ち会話ロボットの従順度を設定することができる。これにより、会話ロボットとの間に適度な距離感を有するコミュニケーションを図ることができ、変化に富んだ会話を楽しむことができる。
前記非応答雑談は、(1)前記発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、(2)前記発話文字ファイルの入力に対し無応答となる雑談無視と、(3)前記発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶とを有する。
これにより、会話ロボットに意外性、自立性、及び威嚇性を持たせることができる。
前記発話文字ファイル中に前記キャラクタBを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力される。
これにより、会話ロボットに発話目的が質問であることを確実に認識させることができ、ユーザは適切な応答内容を会話ロボットから受け取ることができる。
本発明に係る会話ロボットにおいて、(1)テレビ放送を視聴するテレビ視聴手段と、(2)テレビ放送を録画し再生する又は映像データを再生する映像処理手段と、(3)ラジオ放送を聴取するラジオ聴取手段と、(4)前記テレビ視聴手段によるテレビ放送の視聴時に該テレビ放送の番組情報を取得し、前記映像処理手段によるテレビ放送の録画時に該テレビ放送の番組情報を取得し、又は前記ラジオ聴取手段によるラジオ放送の聴取時に該ラジオ放送の番組情報を取得して保存する番組情報記憶手段と、(5)前記テレビ視聴手段によるテレビ放送の視聴時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、前記映像処理手段による録画されたテレビ放送の再生時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、又は前記ラジオ聴取手段によるラジオ放送の聴取時に前記番組情報記憶手段に保存された該ラジオ放送の番組情報から番組文字ファイルを作成して前記応答文字ファイルとして出力する番組対応発話手段とを有することが好ましい。
このような構成とすることで、ユーザは会話ロボットと一緒に、テレビ放送を視聴しながら、録画したテレビ放送の再生を行ないながら、又はラジオ放送を聴取しながら、番組情報に基づいた発話を行なうことができる。
そして、会話ロボットの発話に応答したユーザからの発話音声が会話ロボットに受信されると、会話ロボットから応答音声が発生されて会話が成立する。
本発明に係る会話ロボットにおいて、前記発話異常判定処理部は、(1)予め設定された時間帯で前記応答音声が発せられる度に該応答音声が発せられてから前記音声入力装置で前記発話音声が受信されるまでの待機時間を測定し、予め求めておいた前記ユーザの基準待機時間と該待機時間との偏差が設定した許容値を超える発話状況変化の発生有無を検知し、前記ユーザとの間で1日の最初の対話が成立して以降の該発話状況変化の発生の累積回数が予め設定した異常発話判定値に到達した際に発話異常有と判定し前記異常有信号として第1の異常信号を出力する第1の警報手段と、(2)前記発話文字ファイルの前記発話音声ファイルに対する確からしさを定量的に示す確信度を取得し、該確信度が予め設定された異常確信度以下となる低確信度状態の発生有無を検知し、該低確信度状態の発生の累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し前記異常有信号として第2の異常信号を出力する第2の警報手段とを有することが好ましい。
ここで、基準待機時間は、ユーザの平常状態の待機時間を複数回測定し統計処理して得られる統計量で、例えば、待機時間分布の平均値、中央値、又は最頻値を採用することができる。また、偏差は待機時間と基準待機時間との差であり、許容値は、例えば、待機時間分布の標準偏差σを用いて、σ、2σ、又は3σのいずれか1に設定することができる。更に、異常発話判定値は、例えば、10回程度の値に設定することができる。
待機時間(会話ロボットの音声出力装置より応答音声が発せられてから会話ロボットの音声入力装置でユーザの発話音声が受信されるまでの時間)は、ユーザの体調に影響される会話処理能力を反映する測定値と考えられる。このため、偏差が許容値を超えることは、ユーザの発話状況が変化していることを示している。そして、発話状態変化の発生の累積回数が異常発話判定値に到達したことは、ユーザに平常状態とは異なる発話状況が生じていることを示しており、ユーザに体調の変化(異常)が生じている可能性が高いと判断できる。
本発明に係る会話ロボットにおいて、前記緊急通報対応処理部は、(1)前記第1の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの体調変化を確認する体調確認文字ファイルを作成して出力する第1の緊急通報対応手段と、(2)前記第2の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの会話認識変化を確認する会話認識度確認文字ファイルを作成して出力する第2の緊急通報対応手段とを有することが好ましい。
音声入力処理部では、受信信号から作成した発話音声ファイルを発話文字ファイルに変換する際、音声に対して文(文字)が一義的に決定できない場合(会話ロボット側が、発話音声から形成した発話音声ファイルを発話文字ファイルに変換する際の確からしさを確率的に評価した数値が90%以上でない場合)、確信度の高い順に複数の発話文字ファイルが候補として提供され、通常は、第1候補(確信度が最大)の発話文字ファイルが応答制御装置(発話異常判定処理部)に入力される。ここで、音声入力処理部での発話文字ファイルの作成方法を固定すると、同一の発話音声ファイル(発話音声)に対しては常に同一の確信度で同一の発話文字ファイルが得られる。従って、平常状態のユーザの種々の発話音声ファイル(発話音声)に対して音声入力処理部で評価される確信度を求めると、確信度の分布は平常状態のユーザの発話状態を定量的に評価する尺度の一つとなる。
このため、確信度の分布の最小値より小さい値を異常確信度に設定し、発話文字ファイルの作成時の確信度が異常確信度以下となる低確信度状態が発生すること(即ち、会話ロボット側で会話の認識率の低下が検出されること)は、ユーザが平常状態とは異なる発話状況であることを示している。そして、低確信度状態の発生の累積回数が異常累積回数に到達することは、ユーザに発話状況を変化させるほどの体調の変化(異常)が生じている可能性が高いことを示している。
なお、平常状態のユーザの発話音声ファイル(発話音声)に対する確信度は、一般的に90%程度の値となるため、例えば、異常確信度は確信度70%程度の値に設定できる。また、異常累積回数は、例えば、5回程度の値に設定することができる。
本発明に係る会話ロボットにおいては、ユーザの発話音声が会話ロボット側で受信される度に、発話状況として発話異常有無の判定が行われ、発話異常有と判定された際には緊急通報応答としての応答音声がユーザに発せられるので、ユーザは異常発生の前兆となる軽微な異常を早期に認識することができ、ユーザの安心及び安全のレベルを高めることが可能になる。
更に、発話異常無と判定された際には、発話目的が雑談なのか、質問なのかの判別が行なわれ、雑談と判別されると雑談応答としての応答音声が、質問と判別されると質問応答としての応答音声がそれぞれユーザに発せられるので、不自然な会話や内容の破綻した会話の発生を防止することが可能になる。
本発明の一実施の形態に係る会話ロボットの構成を示すブロック図である。
同会話ロボットの音声入力処理部の構成を示すブロック図である。
同会話ロボットの応答制御装置の構成を示すブロック図である。
同会話ロボットの応答制御装置の構成を示すブロック図である。
同会話ロボットの発話異常判定処理部と緊急通報対応処理部の構成を示すブロック図である。
同会話ロボットの雑談対応処理部の構成を示すブロック図である。
同会話ロボットの音声出力処理部の構成を示すブロック図である。
同会話ロボットのキャラクタ表情処理部の構成を示すブロック図である。
同会話ロボットの放送受信会話処理部の構成を示すブロック図である。
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図1に示すように、本発明の一実施の形態に係る会話ロボット10は、会話ロボット10のユーザの発話状況及び発話目的に応じて応答内容が変化するものであって、ユーザの発話音声をマイクロフォン11で受信して受信信号として出力する音声入力処理部12を備えた音声入力装置13と、ロボット側の対話者(ユーザとの対話者)として、応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示するディスプレイ14(表示装置の一例)と、ユーザに対して応答音声を発生するスピーカ15(音声出力装置の一例)とを有する。
担当キャラクタの顔画像は、予め準備された複数のペットの写真、複数のペットの絵、複数の人の写真、又は複数の人の絵の中からユーザにより選択されたものに基づいて作製する。なお、担当キャラクタの顔画像は、ユーザから提供された、あるいはユーザの要求に合わせて作製されたペットの写真、ペットの絵、人の写真、又は人の絵に基づいて作製することも可能である。応答内容に応じて担当キャラクタを変えることで、会話自体に興味を持たせることができる。
更に、会話ロボット10は、受信信号から発話状況として発話異常有無の判定を行い、発話異常有と判定された際に緊急通報応答としての応答音声を形成し、発話異常無と判定され、かつ受信信号から発話目的が雑談と判別された際に雑談応答としての応答音声を形成し、発話異常無と判定され、かつ受信信号から発話目的が質問と判別された際に質問応答としての応答音声を形成する応答音声データを作成しスピーカ15に入力しながら、担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成しディスプレイ14に入力する応答制御装置16を有する。
ここで、発話状況は、例えば、会話ロボットから応答音声が発せられてから会話ロボットがユーザの発話音声を受信するまでのロボット側の待機時間(会話ロボットの応答に対してユーザが発話するまでに要する時間であって、ユーザ側の会話応答速度に相当する)と、会話ロボット側における発話音声認識率(発話音声を会話ロボット側が発話文字ファイルに変換する際の確からしさを確率的に評価した数値)を指す。なお、質問には、単なる回答を求めることに加えて、何かを依頼することも含む。
更に、会話ロボット10は、ユーザを撮影するカメラ17(撮像手段の一例)を有し、応答制御装置16には、カメラ17で得られたユーザの画像を用いて、ディスプレイ14の表示面の方向を調節し、ディスプレイ14の表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部18が設けられている。
ここで、表示位置調整部18は、ユーザの画像からディスプレイ14(例えば、表示面の中心位置)に対するユーザの三次元位置を求めてディスプレイ14の表示面の方向(例えば、表示面の中心位置に立てた法線の方向)を調節する修正データを演算する修正データ演算器19と、ディスプレイ14を載置し、修正データに基づいてディスプレイ14の表示面の方向を変化させる可動保持台20とを有している。
図2に示すように、音声入力装置13は、ユーザの発話音声及びユーザ周囲の環境音を受信するマイクロフォン11と、マイクロフォン11から出力される出力信号からユーザの発話音声を選別して発話音声ファイルに変換し、発話音声ファイルから発話文字ファイルを作成し受信信号として出力する音声入力処理部12を備えている。
音声入力処理部12は、出力信号から音声が含まれている時間区間を音声区間として検出して発話音声ファイルとして出力する音声検出手段32と、発話音声ファイルを情報通信回線33(例えば、光回線、ADSL回線、ケーブルテレビ回線等)を介してクラウド(インターネット)上に設けられた音声認識処理手段34に入力(送信)する送信手段35とを有している。更に、音声入力処理部12は、入力された発話音声ファイルに応答して音声認識処理手段34から出力(送信)される発話文字ファイルを情報通信回線33を介して受信して出力する受信手段36とを有している。
応答制御装置16は、図3に示すように、受信信号(発話文字ファイル)から発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部22と、異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部23と、異常無信号が出力され、発話文字ファイルから発話目的が雑談と判別された際に雑談信号を、発話文字ファイルから発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部24と、雑談信号が出力された際に、発話文字ファイルからクラウド上に設けた会話応答処理装置25を介して雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部26と、質問信号が出力された際に、発話文字ファイルから会話応答処理装置25を介して質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部27と、応答文字ファイルから応答音声データを作成してスピーカ15に入力する音声出力処理部28とを有している。
図4に示すように、応答制御装置16は、発話目的判別処理部24で雑談と判別された、即ち、雑談信号が出力された際に担当キャラクタとしてキャラクタAを、発話目的判別処理部24で質問と判別された、即ち、質問信号が出力された際に担当キャラクタとしてキャラクタBを、発話異常判定処理部24で発話異常有と判定された、即ち、異常有信号が出力された際に担当キャラクタとしてキャラクタCをそれぞれ設定するキャラクタ設定部29を有している。更に、応答制御装置16は、キャラクタ設定部29で設定された担当キャラクタの顔画像を形成する顔画像合成データと、応答文字ファイルから担当キャラクタの感情を推定し、感情に応じた表情を形成する顔表情データをそれぞれ作成し、顔画像合成データと顔表情データを組み合わせて画像表示データとしてディスプレイ14に入力するキャラクタ表情処理部30と、音声入力装置13の起動時(会話ロボット10の起動スイッチのオン時)又はユーザに対してスピーカ15から応答音声が発生した後に、発話異常判定処理部22から異常無信号を出力させると共に、キャラクタ設定部29を介してディスプレイ14にキャラクタAの顔画像を表示させる初期状態設定部31とを有している。
なお、初期状態設定部31を介してディスプレイ14にキャラクタAの顔画像が表示される場合、キャラクタ表情処理部30には応答文字ファイルの情報が入力されないため、キャラクタAの顔表情は平常時の顔表情とする。
ここで、音声入力処理部12の音声認識処理手段34からは、発話音声ファイル(発話音声)を発話文字ファイルに変換する際、音声に対して文(文字)が一義的に決定できない場合、確信度の高い順に複数の発話文字ファイルが候補として提供(出力)される。従って、受信手段36では、出力された複数の発話文字ファイルの中から確信度が最大の発話文字ファイルを発話音声ファイルに対応する発話文字ファイルとして発話異常判定処理部22に向けて出力する。
なお、音声認識処理手段34をクラウド(インターネット)上に設けることで、音声認識処理手段34に大規模なデータベースを接続することができ、ハードウェアの更新、アプリケーションソフトウェアの更新や改善を適宜行うことができる。このため、音声認識処理手段34では発話音声ファイルから発話文字ファイルへの正確かつ迅速な変換を行なうことができる。
図5に示すように、発話異常判定処理部22は、予め設定された時間帯で応答音声が発せられる度に、スピーカ15で応答音声が発せられた時刻と、応答音声に対してユーザの発話音声の受信信号が音声入力装置13から出力された時刻の間の時間差を求めて待機時間とする待機時間検出手段37と、平常状態のユーザの待機時間を予め複数回測定して待機時間分布を求め、待機時間の平均値と標準偏差σをそれぞれ算出し、待機時間の平均値を基準待機時間、標準偏差σの3倍の値(3σ)を許容値として格納する基準データ形成手段38と、待機時間検出手段37から得られる待機時間と基準データ形成手段37から取得した基準待機時間との偏差を算出し、得られた偏差が許容値を超える発話状況変化の発生有無を検知して発話状況変化の発生の累積回数を求め、会話ロボット10とユーザとの間で1日の最初の対話が成立して以降の累積回数を求め、累積回数が設定した異常発話判定値に到達した際に発話異常有と判定し異常有信号として第1の異常信号を出力する第1の警報手段39とを有している。
会話ロボット10から応答音声が発せられてからユーザが発話するまでの待機時間は、会話の内容によっても変化するので、平常状態のユーザと種々の内容の会話を行って求めた待機時間分布は、平常状態のユーザの発話状況を定量的に評価する一つの基準になると考えられる。なお、待機時間分布を構成している各待機時間は、基準待機時間−3σを下限値とし、基準待機時間+3σを上限値とする範囲にほぼ存在する。従って、待機時間検出手段37から得られる待機時間から求めた偏差が、基準待機時間−3σ〜基準待機時間+3σの範囲に存在すれば、ユーザに異常は生じていないと判定され異常無信号が出力される。一方、ユーザに異常が生じた場合、ユーザの会話処理能力は低下するため、待機時間検出手段37から得られる待機時間が長くなって、偏差は基準待機時間+3σを超えることになる。このため、偏差が基準待機時間−3σ〜基準待機時間+3σの範囲外に存在すれば、ユーザに異常が生じていると判定され異常有信号として第1の異常信号が出力される。
更に、発話異常判定処理部22は、図5に示すように、発話文字ファイルの発話音声ファイルに対する確からしさを定量的に示す確信度を音声入力処理部12より取得する確信度取得手段40と、平常状態のユーザの種々の発話音声ファイル(発話音声)に対して音声入力処理部12で評価される確信度を予め求め、得られた確信度から確信度の分布を作成して最小値を求めて、最小値より小さい値を異常確信度として設定し保存する異常確信度設定手段41と、確信度取得手段40を介して得られる確信度と異常確信度設定手段41から取得した異常確信度を比較し、確信度が異常確信度以下となる低確信度状態の発生有無を検知し、低確信度状態の発生の累積回数を求め、累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し異常有信号として第2の異常信号を出力する第2の警報手段42とを有している。
ここで、最小値より小さい値には、例えば、確信度の分布を複数求めて、各確信度の分布が有する最小値を抽出し、抽出された最小値から構成される最小値分布を求めて、得られた最小値分布から推定される推定最小値を用いることができる。
音声入力処理部12における発話文字ファイルの作成方法を固定すると、同一の発話音声ファイル(発話音声)に対しては常に同一の確信度で同一の発話文字ファイルが得られるので、平常状態のユーザが会話ロボット10と会話する場合、ユーザの発話音声から発話文字ファイルが作成される際の確信度は、異常確信度設定手段41で作成された確信度の分布の範囲内に存在し、常に異常確信度を超える値となる。
一方、ユーザに異常が発生するとユーザの会話状態に変化が生じるため、ユーザの発話音声から発話文字ファイルが作成される際の確信度が低下し、異常確信度以下となる低確信度状態が発生することになる。そして、会話ロボット10との会話中に、ユーザに生じた低確信度状態の発生が一定時間継続すると累積回数が異常累積回数に達することになる。
図5に示すように、緊急通報対応処理部23は、予め作成されたユーザの体調変化を確認する体調確認文字ファイルとユーザの会話認識変化を確認する会話認識度確認文字ファイルを保存する緊急通報文字ファイル記憶手段43と、異常有信号として第1の異常信号が出力された際に起動して、緊急通報文字ファイル記憶手段43から体調確認文字ファイルを呼び出して緊急通報文字ファイルとして出力する第1の緊急通報対応手段44と、異常有信号として第2の異常信号が出力された際に、緊急通報文字ファイル記憶手段43から会話認識度確認文字ファイルを呼び出して緊急通報文字ファイルとして出力する第2の緊急通報対応手段45とを有する。
ここで、体調確認文字ファイルは、キャラクタCに、例えば、「会話の待機時間が長くなっています。何か異常はありませんか?」と発話させる情報を有し、会話認識度確認文字ファイルは、キャラクタCに、例えば、「会話の認識率が下がっています。何か異常はありませんか?」と発話させる情報を有する。
発話目的判別処理部24は、発話異常判定処理部22から異常無信号が出力されたことを受けて起動し、発話文字ファイル(受信信号)から発話目的が雑談であるか、質問であるかを判別して、雑談信号又は質問信号を出力する。ここで、発話目的の判別は、例えば、ユーザによるキャラクタの切り替えや特定のキーワードが発話文字ファイル中に存在するか否かにより行う。特に、質問に対する応答を行なう担当キャラクタとしてキャラクタBが設定されている場合、特定のキーワードとしてキャラクタBを指定すると、発話文字ファイル中にキャラクタBを呼び出す情報が含まれることになって、発話目的判別処理部24からは質問信号が確実に出力される。
図6に示すように、雑談対応処理部26は、発話目的判別処理部24から雑談信号が出力された際に起動し、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から1つ設定する雑談確率設定手段46と、雑談確率設定手段46で設定された確率で雑談を行なう雑談実行手段47とを有している。ここで、雑談確率設定手段46では、実行確率として複数の確率値が予め設定されており、従って、雑談に対する応答を行なうキャラクターAは、複数の確率値毎に設定される。
雑談実行手段47で発話文字ファイルに基づいた応答雑談が実行される場合は、発話文字ファイルを会話応答処理装置25に入力し、会話応答処理装置25から出力された複数の雑談文字ファイルを受け取り、その中から一つの雑談文字ファイルを選択し応答文字ファイルとして出力する。なお、会話応答処理装置25は、例えば、クラウド(インターネット)上に配置されており、発話文字ファイルの会話応答処理装置25への入力、会話応答処理装置25からの複数の雑談文字ファイルの取得は、情報通信回線33を介して行われる。
非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、発話文字ファイルの入力に対し無応答となる雑談無視と、発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶に分類される。なお、変更話題雑談、雑談無視、雑談拒絶の中でいずれの雑談が選択されるかは、非応答雑談が実行される際に確率的に決定される。そして、変更話題雑談が選択された場合は、例えば、発話文字ファイルに含まれるキーワードに関連する内容の新たな発話文字ファイルを作成し、会話応答処理装置25に入力し、会話応答処理装置25から出力された複数の文字ファイルの中から一つの文字ファイルを選択し応答文字ファイルとして出力する。また、雑談無視が選択された場合は、予め作成して文字ファイルデータベース48として保存しておいた雑談無視に対応する文字ファイルを応答文字ファイルとして出力し、雑談拒絶が選択された場合は、予め作成しておいた雑談拒絶に対応する文字ファイルを応答文字ファイルとして出力する。
質問対応処理部27は、発話文字ファイルを会話応答処理装置25に入力して発話文字ファイルが有する文意を求める。そして、文意を構成するキーワードに関する検索を、例えば、インターネット上で行い。得られた検索結果から質問文字ファイルを作成し、応答文字ファイルとして出力する。
図7に示すように、音声出力処理部28は、応答文字ファイルを応答音声ファイルに変換する音声合成手段49と、応答音声ファイルから応答音声データを作成し音声信号に変換してスピーカ15に出力する音声変換手段50とを有している。これにより、会話ロボット10は、ユーザの発話音声を受信して作成した応答文字ファイルに基づいて応答音声を発することができる。
図8に示すように、担当キャラクタの顔画像は、予め準備された複数のペットの写真、複数のペットの絵、複数の人の写真、又は複数の人の絵からそれぞれキャラクタの顔画像を形成する画像要素データ群を作製して格納する顔画像データベース51と、顔画像データベース51から複数のキャラクタの顔画像(例えば、平常時の顔表情)を取り出してディスプレイ14に表示させ、特定のキャラクタの顔画像を1つユーザに選択させて担当キャラクタの顔画像として設定させる顔画像選択手段52と、担当キャラクタの顔画像についての画像要素データ群を顔画像データベース51から抽出して顔画像合成データとして出力する画像合成手段53とを有している。更に、キャラクタ表情処理部30は、応答文字ファイルから担当キャラクタの感情を推定し、感情に応じた表情を形成する顔表情データを作成する感情推定手段54と、顔画像合成データと顔表情データを組み合わせて担当キャラクタの応答時の顔表情を形成する画像表示データを作成してディスプレイ14に出力する画像表示手段55とを有している。
感情推定手段54には、複数の標準文に対してそれぞれ心理状態(快、不快、喜び、怒り、悲しみ等の各種気持ちの強弱関係)を対応させた感情データベースが設けられている。また、感情推定手段54には、心理状態と顔表情変化量(平常時の顔表情を形成している各部位の位置を基準位置とし、顔の各部位毎における基準位置からの変化方向と変化距離)の対応関係を求めて作成した表情データベースが設けられている。
このため、感情推定手段54に応答文字ファイルが入力されると、応答文字ファイルに含まれる文と同趣旨の標準文をデータベース内で抽出し、抽出された標準文が有する心理状態を文(応答文字ファイル)の感情と推定する。なお、文の趣旨が複数の標準文の組合せから構成される場合は、文の趣旨を構成する各標準文を抽出すると共に各標準文の寄与率(重み付け率)を算出し、各標準文の心理状態を寄与率で調整した修正心理状態の総和を文(応答文字ファイル)の感情と推定する。
そして、応答文字ファイルに含まれる文の感情が推定されると、推定された感情の心理状態(修正心理状態の総和)に一致又は最も類似する顔表情変化量を表情データベース内で抽出し、抽出された顔表情変化量を文の顔表情データとする。
応答文字ファイルがキャラクタ表情処理部30に入力されない場合、即ち、顔表情データが作成されない場合、画像表示データは顔画像合成データに一致するため、ディスプレイ14には担当キャラクタの顔画像(平常時の顔表情)が表示される。
なお、キャラクタ表情処理部30に入力された応答文字ファイルから感情が推定できない場合、例えば、擬声語の場合は、擬声語を発する際の表情状態を顔表情データと設定する。
これにより、会話ロボット10は、キャラクタの顔表情を変化させながら対話を行なうことができる。
図9に示すように、会話ロボット10は、テレビ放送を視聴するテレビ受像機56(テレビ視聴手段の一例)と、テレビ放送を録画し再生する又は映像データを再生するビデオデッキ57(映像処理手段の一例)と、ラジオ放送を聴取するラジオ受信機58(ラジオ聴取手段の一例)と、テレビ受像機56によるテレビ放送視聴時にはテレビ放送の番組情報を、ビデオデッキ57によるテレビ放送録画時にはテレビ放送の番組情報を、ラジオ受信機58によるラジオ放送聴取時にはラジオ放送の番組情報をそれぞれ情報通信回線33を介してインターネットから取得して保存する番組情報記憶手段59と、テレビ放送視聴時にはその番組情報を、再生時にはその番組情報を、ラジオ放送聴取時にはその番組情報をそれぞれ番組情報記憶手段59から取得し、番組情報に含まれるキーワードを用いてインターネット上でキーワード検索を行い、検索結果に含まれる内容の文字ファイルに基づいてインターネット上の会話応答処理装置25を介して作成される番組文字ファイルを応答文字ファイルとして出力する番組対応発話手段60とを備えた放送受信会話処理部61を有する。更に、放送受信会話処理部61には、テレビ受像機56、ビデオデッキ57、又はラジオ受信機58をそれぞれ起動させる起動スイッチを備え、起動スイッチの操作に連動して番組情報記憶手段59及び番組対応発話手段60を起動させる操作手段62が設けられている。
なお、ビデオデッキ57で再生する映像データは記憶媒体(例えば、磁気テープ系、磁気ディスク系、光磁気ディスク系、光ディスク系、メモリ系のリムーバブルメディア)やインターネットを介して取得することができる。
ここで、テレビ受像機56はテレビチューナ56aと、表示画面56bと、スピーカ56cとを有し、ビデオデッキ57はテレビチューナ57aと、録画記憶部57bとを有しており、ビデオデッキ57で録画再生を行なう場合、映像は表示画面56bに、音声はスピーカ56cに出力されるように構成することができる。また、ラジオ受信機58はラジオチューナ58aと、スピーカ58bとを有している。
このような構成とすることにより、放送局から送信されたテレビ放送の電波をテレビ受像機56のテレビチューナ56aを介して受信し、映像を表示画面56bに表示し音声をスピーカ56cから出力させることができ、ビデオデッキ57のテレビチューナ57aを介して受信し、録画データを録画記憶部57bに保存することができる。また、放送局から送信されたラジオ放送の電波をラジオ受信機58のラジオチューナ58aを介して受信し、音声をスピーカ58bから出力させることができる。
このような構成とすることで、ユーザが操作手段62の起動スイッチをオンして、例えば、テレビ放送を視聴すると(録画を再生すると、ラジオを視聴すると)、会話ロボット10はテレビ放送の番組情報に基づいた発話をすることになる。そして、そして、会話ロボット10の発話に応答したユーザからの発話音声が会話ロボット10に受信されると、ユーザと会話ロボット10との間で会話が成立することになり、ユーザの発話音声に応答する応答音声が会話ロボット10から発生される。
なお、テレビ受像機56とビデオデッキ57はそれぞれ専用のディスプレイを有しても、テレビ受像機56とビデオデッキ57は共用のディスプレイを有してもよい。更に、テレビ受像機56とビデオデッキ57はディスプレイを有さず、テレビ受像機56とビデオデッキ57の各映像信号をディスプレイ14に入力するようにしてもよい。
なお、本実施の形態では、会話ロボット10がテレビ受像機56、ビデオデッキ57、及びラジオ受信機58を有する構成としたが、インターネットを介して操作手段62と外部に設けた別のテレビ受像機、別のビデオデッキを接続することもできる。このような構成とすることにより、会話ロボット10の構成が簡単になって製造コストを低減させることが可能になると共に、大きな表示画面を有する別のテレビ受像機をテレビ受像機に使用することで、大迫力の映像を楽しむことができる。
また、テレビ受像機をテレビチューナと、スピーカで構成し、テレビ放送の映像又は録画再生時の映像は会話ロボット10のティスプレイ14に表示させることもできる。このような構成とすることにより、会話ロボット10の構成が更に簡単になって製造コストをより低減させることが可能になる。
続いて、本発明の一実施の形態に係る会話ロボット10の作用について説明する。
図3、図4に示すように、ユーザが会話ロボット10を起動させると、初期状態設定部31によりディスプレイ14に担当キャラクタAが表示され、会話ロボット10と雑談を開始することができる状態となる。そして、ユーザの発話音声が会話ロボット10の側で受信される度に、発話異常判定処理部22を介して、発話音声に基づいて発話状況に異常があるか否か(発話異常有無)の判定が行われる。ここで、発話異常有と判定された際は、発話異常有の場合の担当キャラクタであるキャラクタCがディスプレイ14に自動的に表示され、緊急通報対応処理部23で緊急通報文字ファイルが作成され、応答文字ファイルとして出力される。応答文字ファイルは音声出力処理部28に入力され、緊急通報応答としての応答音声がスピーカ15からユーザに発せられる。
以上のように、ユーザの発話音声から異常発生の前兆となる軽微な異常が検出されると、会話ロボット10からユーザに対して直ちに異常の存在が通知されるので、ユーザの安心及び安全のレベルを高めることが可能になる。
発話異常判定処理部22において発話異常無と判定された際には発話目的判別処理部24が起動し、発話目的判別処理部24は受信信号から発話目的が雑談なのか、質問なのかの判別を行なう。そして、発話目的が雑談と判別されると、雑談対応処理部26で雑談文字ファイルが作成され、応答文字ファイルとして出力される。そして、応答文字ファイルは音声出力処理部28に入力され、雑談応答としての応答音声がスピーカ15からユーザに発せられる。このときディスプレイ14には、雑談の担当キャラクタであるキャラクタAが表示され、応答音声に合わせてキャラクタAの顔表情が変化する。
ここで、雑談対応処理部26では雑談確率設定手段46を介して、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率(ユーザの意向に沿った応答雑談が行なわれる確率であって、ユーザに対する会話ロボット10の従順度に相当)を複数の確率(例えば、90%、60%、30%)の中から1つ設定することができる。これにより、ユーザは、気分に応じて会話ロボット10の実行確率(従順度)を調節することができ、ユーザは会話ロボット10との間に適度な距離感を設けて会話(コミュニケーション)を図ることができる。
なお、キャラクタAは実行確率毎にそれぞれ設定されており、実行確率が設定されると、その実行確率に対応するキャラクタAがディスプレイ14に表示される。
非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、ユーザの発話音声(発話文字ファイル)の入力に対し無応答となる雑談無視と、ユーザの発話音声(発話文字ファイル)の入力に対し雑談を拒絶する雑談拒絶から構成される。そして、雑談実行手段47を介して雑談を行う際に非応答雑談が選択されると、変更話題雑談、雑談無視、及び雑談拒絶の中から1つが更に任意に(例えば、乱数を用いて)選択される。これにより、会話ロボット10に意外性、自立性、及び威嚇性を持たせることができる。
なお、雑談無視が選択された場合は雑談無視を示す雑談文字ファイルが雑談対応処理部26で形成され、雑談拒絶が選択された場合は雑談拒絶を示す雑談文字ファイルが雑談対応処理部26で形成され、応答文字ファイルとして音声出力処理部28に出力される。
また、ユーザがディスプレイ14に表示されたキャラクタAと雑談を行なっているときに、ユーザに質問、例えば、「今日の天気が知りたい」等の回答要求や「電話をかけたい」等の依頼事項が生じた場合、ユーザは「キャラクタBを呼んで」と発話することにより会話ロボット10側に発話目的が質問であることを認識させることができる。その結果、ディスプレイ14ではキャラクタAの表示が消えてキャラクタBが表示される。次いで、ユーザの発話音声から形成された受信信号が質問対応処理部27に入力されて形成された質問文字ファイルが応答文字ファイルとして出力される。そして、応答文字ファイルは音声出力処理部28に入力され、質問応答としての応答音声がスピーカ15からユーザに発せられる。
以上のように、ユーザからの発話音声(受信信号)から先ず発話目的を特定し、次いで目的に応じた応答文字ファイルを作成するので、ユーザと会話ロボット10との間で不自然な会話や内容の破綻した会話の発生を防止することが可能になる。
図9に示すように、放送受信会話処理部61の操作手段62を操作して、例えば、テレビ受像機56を起動させると、放送受信会話処理部61の番組情報記憶手段59にはテレビ放送の番組情報が保存され、番組対応発話手段60からは番組情報記憶手段59で取得されたテレビ放送の番組情報に基づいて会話応答処理装置25を介して作成された番組文字ファイルが応答文字ファイルとして出力される。このため、会話ロボット10はテレビ放送の番組情報に基づいた発話をすることになって、会話ロボット10の発話に応答したユーザからの発話音声が会話ロボット10に受信されると、ユーザと会話ロボット10との間でテレビ放送を視聴しながら会話が成立することになる。その結果、ユーザと会話ロボット10との間では、相互にテレビ放送の内容に対する批判や感想の同意を求めたり、意見を聞いたりすることができる。
ここで、ビデオデッキ57で非録画映像データ(テレビ放送番組の録画ではなく、番組情報に相当する情報が入手できないもの)を再生する場合は、発話会話ロボット10による再生された映像に関する発話は生じないので、会話ロボット10からの応答は、ユーザの発話に対するものとなる。
なお、会話ロボット10でユーザの発話音声から発話目的が雑談と認識されても、雑談確率設定手段46を介して応答雑談が選択される実行確率(会話ロボット10の従順度)が予め設定されているので、会話ロボット10からテレビ放送の内容に対する批判や感想の同意に対する応答、意見を聞いたことに対する応答が必ず得られることはない。このため、会話ロボット10側の予期せぬ応答に対して、更にユーザが対応すると、新たな会話が成立することになる。
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。
例えば、発話目的判別処理部から質問信号が確実に出力されるために、発話文字ファイル中にキャラクタBを呼び出す情報を含ませたが、質問に対する回答が必ずしも必要でない場合は、発話音声中に質問に関する情報を含ませ、雑談が進行する過程で回答が得られるようにすることもできる。
10:会話ロボット、11:マイクロフォン、12:音声入力処理部、13:音声入力装置、14:ディスプレイ、15:スピーカ、16:応答制御装置、17:カメラ、18:表示位置調整部、19:修正データ演算器、20:可動保持台、22:発話異常判定処理部、23:緊急通報対応処理部、24:発話目的判別処理部、25:会話応答処理装置、26:雑談対応処理部、27:質問対応処理部、28:音声出力処理部、29:キャラクタ設定部、30:キャラクタ表情処理部、31:初期状態設定部、32:音声検出手段、33:情報通信回線、34:音声認識処理手段、35:送信手段、36:受信手段、37:待機時間検出手段、38:基準データ形成手段、39:第1の警報手段、40:確信度取得手段、41:異常確信度設定手段、42:第2の警報手段、43:緊急通報文字ファイル記憶手段、44:第1の緊急通報対応手段、45:第2の緊急通報対応手段、46:雑談確率設定手段、47:雑談実行手段、48:文字ファイルデータベース、49:音声合成手段、50:音声変換手段、51:顔画像データベース、52:顔画像選択手段、53:画像合成手段、54:感情推定手段、55:画像表示手段、56:テレビ受像機、56a:テレビチューナ、56b:表示画面、56c:スピーカ、57:ビデオデッキ、57a:テレビチューナ、57b:録画記憶部、58:ラジオ受信機、58a:ラジオチューナ、58b:スピーカ、59:番組情報記憶手段、60:番組対応発話手段、61:放送受信会話処理部、62:操作手段
本発明は、ユーザの発話状況及び発話目的に応じて応答内容を変化させる会話ロボットに関する。
従来の会話ロボットとの会話(対話)では、マニュアルに基づく接客対応に代表されるような反復的かつ画一的となる不自然な会話が行なわれ易く、雑談も合わせて行うような会話ができないといった問題点が指摘されている。このため、会話ロボットがユーザを識別して予め入手しているユーザのプロファイルに基づいて会話を行い、更に会話を行いながらユーザの新たな情報を入手し、得られた情報を適宜反映させることにより、会話が不自然になることを回避する提案が行なわれている(例えば、特許文献1参照)。
しかしながら、特許文献1の会話ロボットでは、雑談のための情報が限られるため、幅広い話題に関する雑談や、個別の話題に特化された雑談には対応しきれず、不自然な会話、内容の破綻した会話に陥り易いという問題が生じる。
更に、従来の会話ロボットにユーザの異常状態を検出する監視カメラや人感センサ等の見守り用のセンサを取り付けることにより、会話ロボットに「見守り機能」を付加することが行なわれている。しかしながら、見守り用のセンサを用いたユーザの異常状態の監視では、明らかな異常の前兆となる軽微な異常は認識できず、ユーザが重篤な状態になるまで放置されるという問題がある。
本発明はかかる事情に鑑みてなされたもので、ユーザの発話状況からユーザに生じた異常有無を判定すると共に、ユーザの発話目的からユーザの求めに応じた最適な応答を行なうことが可能となる会話ロボットを提供することを目的とする。
前記目的に沿う本発明に係る会話ロボットは、ユーザの発話状況及び発話目的に応じて応答内容が変化する会話ロボットであって、
前記ユーザの発話音声及び該ユーザ周囲の環境音を受信するマイクロフォンと、該マイクロフォンから出力される出力信号から該ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し受信信号として出力する音声入力処理部とを備えた音声入力装置と、
前記ユーザとのロボット側の対話者として、前記応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示する表示装置と、
前記ユーザに対して応答音声を発生する音声出力装置と、
(1)前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部、(2)前記異常有信号が出力された際に、緊急通報応答としての緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部、(3)前記異常無信号が出力され、前記受信信号から前記発話目的が話題継続願望による雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が回答要求又は依頼要求による質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部、(4)前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部、(5)前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部、(6)前記応答文字ファイルから応答音声データを作成して前記音声出力装置に入力する音声出力処理部、(7)前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタAを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタBを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタCをそれぞれ設定するキャラクタ設定部、(8)前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成し前記表示装置に入力するキャラクタ表情処理部、及び(9)前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタAの顔画像を表示させる初期状態設定部を備えた応答制御装置とを有し、
前記発話文字ファイル中に前記キャラクタBを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力され、
前記雑談対応処理部は、前記発話目的が雑談と認識されても、前記発話文字ファイルが有する話題で雑談する応答雑談と、前記発話文字ファイルが有する話題で雑談しない非応答雑談のいずれを実行するかの確率を、予め設定された複数の確率の中からユーザの意向に沿って1つ設定する雑談確率設定手段と、前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、
前記非応答雑談が実行される際は、前記発話文字ファイルに含まれるキーワードに関連する内容の新たな発話文字ファイルを作成して雑談する変更話題雑談、前記発話文字ファイルの入力に対し、予め作成しておいた雑談無視に対応する文字ファイルを出力する雑談無視、及び前記発話文字ファイルの入力に対し、予め作成しておいた雑談拒絶に対応する文字ファイルを出力する雑談拒絶の中から1つが確率的に決定され、前記キャラクタAの顔表情は、前記応答音声に合わせて変化する。
なお、本発明に係る会話ロボットは、ユーザを撮影する撮像手段を有し、応答制御装置には、撮像手段で得られたユーザの画像を用いて、表示装置の表示面の方向を調節し、表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部が設けられていることが好ましい。
これによって、ユーザは、担当キャラクタの応答時の顔表情の変化を容易に捉えることができる。
本発明に係る会話ロボットにおいて、前記担当キャラクタの顔画像はペット又は人の顔画像から形成することができる。
これによって、ユーザは、担当キャラクタの顔を、応答内容に応じて設定することができる。ここで、担当キャラクタの顔画像は、予め準備された複数のペット(小動物)の写真(映像を含む、以下同様)、複数のペットの絵(漫画及び劇画を含む、以下同様)、複数の人の写真、又は複数の人の絵の中からユーザにより選択されたものに基づいて作製する。また、ユーザから提供された、あるいはユーザの要求に合わせて作製されたペットの写真、ペットの絵、人の写真、又は人の絵に基づいて作製することも可能である。
前記音声入力装置は、前記ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し前記受信信号として出力する音声入力処理部を有し、
前記応答制御装置は、(1)前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部と、(2)前記異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部と、(3)前記異常無信号が出力され、前記受信信号から前記発話目的が雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部と、(4)前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部と、(5)前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部と、(6)前記応答文字ファイルから前記応答音声データを作成して前記音声出力装置に入力する音声出力処理部と、(7)前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタAを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタBを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタCをそれぞれ設定するキャラクタ設定部と、(8)前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記画像表示データとして前記表示装置に入力するキャラクタ表情処理部と、(9)前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタAの顔画像を表示させる初期状態設定部とを有している。
このような構成とすることで、応答制御装置を構成する各処理部のメンテナンスや更新を処理部毎に独立して行なうことができる。
音声入力処理部を設けることで、ユーザの発話音声を選別することができ、ユーザの発話状況及び発話目的を確実に捉えることができる。また、応答内容に応じて担当キャラクタが変わるので、会話自体に興味を持たせることができる。
ここで、受信信号に対応する雑談文字ファイル又は質問文字ファイルの作成には、クラウド(インターネット)上に設けた汎用の会話応答処理装置を用いる。会話応答処理装置では、クラウド上の大規模なデータベース(例えば、発話データベース及び知識データベース)と、ユーザの発話履歴に基づいて随時更新されるユーザ情報データベース(例えば、応答制御装置内に構築する)を利用して、受信信号から、例えば、ユーザ情報データベース及び発話データベースを検索することにより、ユーザの話題の推定が行なわれると共に、ユーザの発話意図がある事柄に対する回答要求なのか、ある事柄に対する依頼要求なのか、又はある事柄に対する回答要求や依頼要求が存在せず単なる話題継続願望なのかの推定が行なわれる。次いで、会話応答処理装置では、ユーザの発話意図が単なる話題継続願望であると推定された場合は、ユーザの話題に沿った雑談文字ファイルが、ユーザ情報データベース、発話データベース及び知識データベースの検索結果に基づいて作成される。一方、ユーザの発話意図がある事柄に対する回答要求又はある事柄に対する依頼要求のいずれかであって、話題継続願望が存在しないと推定された場合は、ユーザの話題に沿った質問文字ファイルが、ユーザ情報データベース、発話データベース及び知識データベースの検索結果に基づいて作成される。
前記雑談対応処理部は、(1)前記発話文字ファイルが有する話題で雑談する応答雑談が、該発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から1つ設定する雑談確率設定手段と、(2)前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、前記キャラクタAの顔表情は、前記応答音声に合わせて変化する。
雑談確率設定手段を介して、ユーザは会話を行なう時の気分に応じて会話ロボットに非応答雑談の機会を与える、即ち会話ロボットの従順度を設定することができる。これにより、会話ロボットとの間に適度な距離感を有するコミュニケーションを図ることができ、変化に富んだ会話を楽しむことができる。
前記非応答雑談は、(1)前記発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、(2)前記発話文字ファイルの入力に対し無応答となる雑談無視と、(3)前記発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶とを有する。
これにより、会話ロボットに意外性、自立性、及び威嚇性を持たせることができる。
前記発話文字ファイル中に前記キャラクタBを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力される。
これにより、会話ロボットに発話目的が質問であることを確実に認識させることができ、ユーザは適切な応答内容を会話ロボットから受け取ることができる。
本発明に係る会話ロボットにおいて、(1)テレビ放送を視聴するテレビ視聴手段と、(2)テレビ放送を録画し再生する又は映像データを再生する映像処理手段と、(3)ラジオ放送を聴取するラジオ聴取手段と、(4)前記テレビ視聴手段によるテレビ放送の視聴時に該テレビ放送の番組情報を取得し、前記映像処理手段によるテレビ放送の録画時に該テレビ放送の番組情報を取得し、又は前記ラジオ聴取手段によるラジオ放送の聴取時に該ラジオ放送の番組情報を取得して保存する番組情報記憶手段と、(5)前記テレビ視聴手段によるテレビ放送の視聴時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、前記映像処理手段による録画されたテレビ放送の再生時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、又は前記ラジオ聴取手段によるラジオ放送の聴取時に前記番組情報記憶手段に保存された該ラジオ放送の番組情報から番組文字ファイルを作成して前記応答文字ファイルとして出力する番組対応発話手段とを有することが好ましい。
このような構成とすることで、ユーザは会話ロボットと一緒に、テレビ放送を視聴しながら、録画したテレビ放送の再生を行ないながら、又はラジオ放送を聴取しながら、番組情報に基づいた発話を行なうことができる。
そして、会話ロボットの発話に応答したユーザからの発話音声が会話ロボットに受信されると、会話ロボットから応答音声が発生されて会話が成立する。
本発明に係る会話ロボットにおいて、前記発話異常判定処理部は、(1)予め設定された時間帯で前記応答音声が発せられる度に該応答音声が発せられてから前記音声入力装置で前記発話音声が受信されるまでの待機時間を測定し、予め求めておいた前記ユーザの基準待機時間と該待機時間との偏差が設定した許容値を超える発話状況変化の発生有無を検知し、前記ユーザとの間で1日の最初の対話が成立して以降の該発話状況変化の発生の累積回数が予め設定した異常発話判定値に到達した際に発話異常有と判定し前記異常有信号として第1の異常信号を出力する第1の警報手段と、(2)前記発話文字ファイルの前記発話音声ファイルに対する確からしさを定量的に示す確信度を取得し、該確信度が予め設定された異常確信度以下となる低確信度状態の発生有無を検知し、該低確信度状態の発生の累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し前記異常有信号として第2の異常信号を出力する第2の警報手段とを有することが好ましい。
ここで、基準待機時間は、ユーザの平常状態の待機時間を複数回測定し統計処理して得られる統計量で、例えば、待機時間分布の平均値、中央値、又は最頻値を採用することができる。また、偏差は待機時間と基準待機時間との差であり、許容値は、例えば、待機時間分布の標準偏差σを用いて、σ、2σ、又は3σのいずれか1に設定することができる。更に、異常発話判定値は、例えば、10回程度の値に設定することができる。
待機時間(会話ロボットの音声出力装置より応答音声が発せられてから会話ロボットの音声入力装置でユーザの発話音声が受信されるまでの時間)は、ユーザの体調に影響される会話処理能力を反映する測定値と考えられる。このため、偏差が許容値を超えることは、ユーザの発話状況が変化していることを示している。そして、発話状態変化の発生の累積回数が異常発話判定値に到達したことは、ユーザに平常状態とは異なる発話状況が生じていることを示しており、ユーザに体調の変化(異常)が生じている可能性が高いと判断できる。
本発明に係る会話ロボットにおいて、前記緊急通報対応処理部は、(1)前記第1の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの体調変化を確認する体調確認文字ファイルを作成して出力する第1の緊急通報対応手段と、(2)前記第2の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの会話認識変化を確認する会話認識度確認文字ファイルを作成して出力する第2の緊急通報対応手段とを有することが好ましい。
音声入力処理部では、受信信号から作成した発話音声ファイルを発話文字ファイルに変換する際、音声に対して文(文字)が一義的に決定できない場合(会話ロボット側が、発話音声から形成した発話音声ファイルを発話文字ファイルに変換する際の確からしさを確率的に評価した数値が90%以上でない場合)、確信度の高い順に複数の発話文字ファイルが候補として提供され、通常は、第1候補(確信度が最大)の発話文字ファイルが応答制御装置(発話異常判定処理部)に入力される。ここで、音声入力処理部での発話文字ファイルの作成方法を固定すると、同一の発話音声ファイル(発話音声)に対しては常に同一の確信度で同一の発話文字ファイルが得られる。従って、平常状態のユーザの種々の発話音声ファイル(発話音声)に対して音声入力処理部で評価される確信度を求めると、確信度の分布は平常状態のユーザの発話状態を定量的に評価する尺度の一つとなる。
このため、確信度の分布の最小値より小さい値を異常確信度に設定し、発話文字ファイルの作成時の確信度が異常確信度以下となる低確信度状態が発生すること(即ち、会話ロボット側で会話の認識率の低下が検出されること)は、ユーザが平常状態とは異なる発話状況であることを示している。そして、低確信度状態の発生の累積回数が異常累積回数に到達することは、ユーザに発話状況を変化させるほどの体調の変化(異常)が生じている可能性が高いことを示している。
なお、平常状態のユーザの発話音声ファイル(発話音声)に対する確信度は、一般的に90%程度の値となるため、例えば、異常確信度は確信度70%程度の値に設定できる。また、異常累積回数は、例えば、5回程度の値に設定することができる。
本発明に係る会話ロボットにおいては、ユーザの発話音声が会話ロボット側で受信される度に、発話状況として発話異常有無の判定が行われ、発話異常有と判定された際には緊急通報応答としての応答音声がユーザに発せられるので、ユーザは異常発生の前兆となる軽微な異常を早期に認識することができ、ユーザの安心及び安全のレベルを高めることが可能になる。
更に、発話異常無と判定された際には、発話目的が雑談なのか、質問なのかの判別が行なわれ、雑談と判別されると雑談応答としての応答音声が、質問と判別されると質問応答としての応答音声がそれぞれユーザに発せられるので、不自然な会話や内容の破綻した会話の発生を防止することが可能になる。
本発明の一実施の形態に係る会話ロボットの構成を示すブロック図である。
同会話ロボットの音声入力処理部の構成を示すブロック図である。
同会話ロボットの応答制御装置の構成を示すブロック図である。
同会話ロボットの応答制御装置の構成を示すブロック図である。
同会話ロボットの発話異常判定処理部と緊急通報対応処理部の構成を示すブロック図である。
同会話ロボットの雑談対応処理部の構成を示すブロック図である。
同会話ロボットの音声出力処理部の構成を示すブロック図である。
同会話ロボットのキャラクタ表情処理部の構成を示すブロック図である。
同会話ロボットの放送受信会話処理部の構成を示すブロック図である。
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図1に示すように、本発明の一実施の形態に係る会話ロボット10は、会話ロボット10のユーザの発話状況及び発話目的に応じて応答内容が変化するものであって、ユーザの発話音声をマイクロフォン11で受信して受信信号として出力する音声入力処理部12を備えた音声入力装置13と、ロボット側の対話者(ユーザとの対話者)として、応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示するディスプレイ14(表示装置の一例)と、ユーザに対して応答音声を発生するスピーカ15(音声出力装置の一例)とを有する。
担当キャラクタの顔画像は、予め準備された複数のペットの写真、複数のペットの絵、複数の人の写真、又は複数の人の絵の中からユーザにより選択されたものに基づいて作製する。なお、担当キャラクタの顔画像は、ユーザから提供された、あるいはユーザの要求に合わせて作製されたペットの写真、ペットの絵、人の写真、又は人の絵に基づいて作製することも可能である。応答内容に応じて担当キャラクタを変えることで、会話自体に興味を持たせることができる。
更に、会話ロボット10は、受信信号から発話状況として発話異常有無の判定を行い、発話異常有と判定された際に緊急通報応答としての応答音声を形成し、発話異常無と判定され、かつ受信信号から発話目的が雑談と判別された際に雑談応答としての応答音声を形成し、発話異常無と判定され、かつ受信信号から発話目的が質問と判別された際に質問応答としての応答音声を形成する応答音声データを作成しスピーカ15に入力しながら、担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成しディスプレイ14に入力する応答制御装置16を有する。
ここで、発話状況は、例えば、会話ロボットから応答音声が発せられてから会話ロボットがユーザの発話音声を受信するまでのロボット側の待機時間(会話ロボットの応答に対してユーザが発話するまでに要する時間であって、ユーザ側の会話応答速度に相当する)と、会話ロボット側における発話音声認識率(発話音声を会話ロボット側が発話文字ファイルに変換する際の確からしさを確率的に評価した数値)を指す。なお、質問には、単なる回答を求めることに加えて、何かを依頼することも含む。
更に、会話ロボット10は、ユーザを撮影するカメラ17(撮像手段の一例)を有し、応答制御装置16には、カメラ17で得られたユーザの画像を用いて、ディスプレイ14の表示面の方向を調節し、ディスプレイ14の表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部18が設けられている。
ここで、表示位置調整部18は、ユーザの画像からディスプレイ14(例えば、表示面の中心位置)に対するユーザの三次元位置を求めてディスプレイ14の表示面の方向(例えば、表示面の中心位置に立てた法線の方向)を調節する修正データを演算する修正データ演算器19と、ディスプレイ14を載置し、修正データに基づいてディスプレイ14の表示面の方向を変化させる可動保持台20とを有している。
図2に示すように、音声入力装置13は、ユーザの発話音声及びユーザ周囲の環境音を受信するマイクロフォン11と、マイクロフォン11から出力される出力信号からユーザの発話音声を選別して発話音声ファイルに変換し、発話音声ファイルから発話文字ファイルを作成し受信信号として出力する音声入力処理部12を備えている。
音声入力処理部12は、出力信号から音声が含まれている時間区間を音声区間として検出して発話音声ファイルとして出力する音声検出手段32と、発話音声ファイルを情報通信回線33(例えば、光回線、ADSL回線、ケーブルテレビ回線等)を介してクラウド(インターネット)上に設けられた音声認識処理手段34に入力(送信)する送信手段35とを有している。更に、音声入力処理部12は、入力された発話音声ファイルに応答して音声認識処理手段34から出力(送信)される発話文字ファイルを情報通信回線33を介して受信して出力する受信手段36とを有している。
応答制御装置16は、図3に示すように、受信信号(発話文字ファイル)から発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部22と、異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部23と、異常無信号が出力され、発話文字ファイルから発話目的が雑談と判別された際に雑談信号を、発話文字ファイルから発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部24と、雑談信号が出力された際に、発話文字ファイルからクラウド上に設けた会話応答処理装置25を介して雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部26と、質問信号が出力された際に、発話文字ファイルから会話応答処理装置25を介して質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部27と、応答文字ファイルから応答音声データを作成してスピーカ15に入力する音声出力処理部28とを有している。
図4に示すように、応答制御装置16は、発話目的判別処理部24で雑談と判別された、即ち、雑談信号が出力された際に担当キャラクタとしてキャラクタAを、発話目的判別処理部24で質問と判別された、即ち、質問信号が出力された際に担当キャラクタとしてキャラクタBを、発話異常判定処理部24で発話異常有と判定された、即ち、異常有信号が出力された際に担当キャラクタとしてキャラクタCをそれぞれ設定するキャラクタ設定部29を有している。更に、応答制御装置16は、キャラクタ設定部29で設定された担当キャラクタの顔画像を形成する顔画像合成データと、応答文字ファイルから担当キャラクタの感情を推定し、感情に応じた表情を形成する顔表情データをそれぞれ作成し、顔画像合成データと顔表情データを組み合わせて画像表示データとしてディスプレイ14に入力するキャラクタ表情処理部30と、音声入力装置13の起動時(会話ロボット10の起動スイッチのオン時)又はユーザに対してスピーカ15から応答音声が発生した後に、発話異常判定処理部22から異常無信号を出力させると共に、キャラクタ設定部29を介してディスプレイ14にキャラクタAの顔画像を表示させる初期状態設定部31とを有している。
なお、初期状態設定部31を介してディスプレイ14にキャラクタAの顔画像が表示される場合、キャラクタ表情処理部30には応答文字ファイルの情報が入力されないため、キャラクタAの顔表情は平常時の顔表情とする。
ここで、音声入力処理部12の音声認識処理手段34からは、発話音声ファイル(発話音声)を発話文字ファイルに変換する際、音声に対して文(文字)が一義的に決定できない場合、確信度の高い順に複数の発話文字ファイルが候補として提供(出力)される。従って、受信手段36では、出力された複数の発話文字ファイルの中から確信度が最大の発話文字ファイルを発話音声ファイルに対応する発話文字ファイルとして発話異常判定処理部22に向けて出力する。
なお、音声認識処理手段34をクラウド(インターネット)上に設けることで、音声認識処理手段34に大規模なデータベースを接続することができ、ハードウェアの更新、アプリケーションソフトウェアの更新や改善を適宜行うことができる。このため、音声認識処理手段34では発話音声ファイルから発話文字ファイルへの正確かつ迅速な変換を行なうことができる。
図5に示すように、発話異常判定処理部22は、予め設定された時間帯で応答音声が発せられる度に、スピーカ15で応答音声が発せられた時刻と、応答音声に対してユーザの発話音声の受信信号が音声入力装置13から出力された時刻の間の時間差を求めて待機時間とする待機時間検出手段37と、平常状態のユーザの待機時間を予め複数回測定して待機時間分布を求め、待機時間の平均値と標準偏差σをそれぞれ算出し、待機時間の平均値を基準待機時間、標準偏差σの3倍の値(3σ)を許容値として格納する基準データ形成手段38と、待機時間検出手段37から得られる待機時間と基準データ形成手段37から取得した基準待機時間との偏差を算出し、得られた偏差が許容値を超える発話状況変化の発生有無を検知して発話状況変化の発生の累積回数を求め、会話ロボット10とユーザとの間で1日の最初の対話が成立して以降の累積回数を求め、累積回数が設定した異常発話判定値に到達した際に発話異常有と判定し異常有信号として第1の異常信号を出力する第1の警報手段39とを有している。
会話ロボット10から応答音声が発せられてからユーザが発話するまでの待機時間は、会話の内容によっても変化するので、平常状態のユーザと種々の内容の会話を行って求めた待機時間分布は、平常状態のユーザの発話状況を定量的に評価する一つの基準になると考えられる。なお、待機時間分布を構成している各待機時間は、基準待機時間−3σを下限値とし、基準待機時間+3σを上限値とする範囲にほぼ存在する。従って、待機時間検出手段37から得られる待機時間から求めた偏差が、基準待機時間−3σ〜基準待機時間+3σの範囲に存在すれば、ユーザに異常は生じていないと判定され異常無信号が出力される。一方、ユーザに異常が生じた場合、ユーザの会話処理能力は低下するため、待機時間検出手段37から得られる待機時間が長くなって、偏差は基準待機時間+3σを超えることになる。このため、偏差が基準待機時間−3σ〜基準待機時間+3σの範囲外に存在すれば、ユーザに異常が生じていると判定され異常有信号として第1の異常信号が出力される。
更に、発話異常判定処理部22は、図5に示すように、発話文字ファイルの発話音声ファイルに対する確からしさを定量的に示す確信度を音声入力処理部12より取得する確信度取得手段40と、平常状態のユーザの種々の発話音声ファイル(発話音声)に対して音声入力処理部12で評価される確信度を予め求め、得られた確信度から確信度の分布を作成して最小値を求めて、最小値より小さい値を異常確信度として設定し保存する異常確信度設定手段41と、確信度取得手段40を介して得られる確信度と異常確信度設定手段41から取得した異常確信度を比較し、確信度が異常確信度以下となる低確信度状態の発生有無を検知し、低確信度状態の発生の累積回数を求め、累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し異常有信号として第2の異常信号を出力する第2の警報手段42とを有している。
ここで、最小値より小さい値には、例えば、確信度の分布を複数求めて、各確信度の分布が有する最小値を抽出し、抽出された最小値から構成される最小値分布を求めて、得られた最小値分布から推定される推定最小値を用いることができる。
音声入力処理部12における発話文字ファイルの作成方法を固定すると、同一の発話音声ファイル(発話音声)に対しては常に同一の確信度で同一の発話文字ファイルが得られるので、平常状態のユーザが会話ロボット10と会話する場合、ユーザの発話音声から発話文字ファイルが作成される際の確信度は、異常確信度設定手段41で作成された確信度の分布の範囲内に存在し、常に異常確信度を超える値となる。
一方、ユーザに異常が発生するとユーザの会話状態に変化が生じるため、ユーザの発話音声から発話文字ファイルが作成される際の確信度が低下し、異常確信度以下となる低確信度状態が発生することになる。そして、会話ロボット10との会話中に、ユーザに生じた低確信度状態の発生が一定時間継続すると累積回数が異常累積回数に達することになる。
図5に示すように、緊急通報対応処理部23は、予め作成されたユーザの体調変化を確認する体調確認文字ファイルとユーザの会話認識変化を確認する会話認識度確認文字ファイルを保存する緊急通報文字ファイル記憶手段43と、異常有信号として第1の異常信号が出力された際に起動して、緊急通報文字ファイル記憶手段43から体調確認文字ファイルを呼び出して緊急通報文字ファイルとして出力する第1の緊急通報対応手段44と、異常有信号として第2の異常信号が出力された際に、緊急通報文字ファイル記憶手段43から会話認識度確認文字ファイルを呼び出して緊急通報文字ファイルとして出力する第2の緊急通報対応手段45とを有する。
ここで、体調確認文字ファイルは、キャラクタCに、例えば、「会話の待機時間が長くなっています。何か異常はありませんか?」と発話させる情報を有し、会話認識度確認文字ファイルは、キャラクタCに、例えば、「会話の認識率が下がっています。何か異常はありませんか?」と発話させる情報を有する。
発話目的判別処理部24は、発話異常判定処理部22から異常無信号が出力されたことを受けて起動し、発話文字ファイル(受信信号)から発話目的が雑談であるか、質問であるかを判別して、雑談信号又は質問信号を出力する。ここで、発話目的の判別は、例えば、ユーザによるキャラクタの切り替えや特定のキーワードが発話文字ファイル中に存在するか否かにより行う。特に、質問に対する応答を行なう担当キャラクタとしてキャラクタBが設定されている場合、特定のキーワードとしてキャラクタBを指定すると、発話文字ファイル中にキャラクタBを呼び出す情報が含まれることになって、発話目的判別処理部24からは質問信号が確実に出力される。
図6に示すように、雑談対応処理部26は、発話目的判別処理部24から雑談信号が出力された際に起動し、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から1つ設定する雑談確率設定手段46と、雑談確率設定手段46で設定された確率で雑談を行なう雑談実行手段47とを有している。ここで、雑談確率設定手段46では、実行確率として複数の確率値が予め設定されており、従って、雑談に対する応答を行なうキャラクタAは、複数の確率値毎に設定される。
雑談実行手段47で発話文字ファイルに基づいた応答雑談が実行される場合は、発話文字ファイルを会話応答処理装置25に入力し、会話応答処理装置25から出力された複数の雑談文字ファイルを受け取り、その中から一つの雑談文字ファイルを選択し応答文字ファイルとして出力する。なお、会話応答処理装置25は、例えば、クラウド(インターネット)上に配置されており、発話文字ファイルの会話応答処理装置25への入力、会話応答処理装置25からの複数の雑談文字ファイルの取得は、情報通信回線33を介して行われる。
非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、発話文字ファイルの入力に対し無応答となる雑談無視と、発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶に分類される。なお、変更話題雑談、雑談無視、雑談拒絶の中でいずれの雑談が選択されるかは、非応答雑談が実行される際に確率的に決定される。そして、変更話題雑談が選択された場合は、例えば、発話文字ファイルに含まれるキーワードに関連する内容の新たな発話文字ファイルを作成し、会話応答処理装置25に入力し、会話応答処理装置25から出力された複数の文字ファイルの中から一つの文字ファイルを選択し応答文字ファイルとして出力する。また、雑談無視が選択された場合は、予め作成して文字ファイルデータベース48として保存しておいた雑談無視に対応する文字ファイルを応答文字ファイルとして出力し、雑談拒絶が選択された場合は、予め作成しておいた雑談拒絶に対応する文字ファイルを応答文字ファイルとして出力する。
質問対応処理部27は、発話文字ファイルを会話応答処理装置25に入力して発話文字ファイルが有する文意を求める。そして、文意を構成するキーワードに関する検索を、例えば、インターネット上で行い。得られた検索結果から質問文字ファイルを作成し、応答文字ファイルとして出力する。
図7に示すように、音声出力処理部28は、応答文字ファイルを応答音声ファイルに変換する音声合成手段49と、応答音声ファイルから応答音声データを作成し音声信号に変換してスピーカ15に出力する音声変換手段50とを有している。これにより、会話ロボット10は、ユーザの発話音声を受信して作成した応答文字ファイルに基づいて応答音声を発することができる。
図8に示すように、担当キャラクタの顔画像は、予め準備された複数のペットの写真、複数のペットの絵、複数の人の写真、又は複数の人の絵からそれぞれキャラクタの顔画像を形成する画像要素データ群を作製して格納する顔画像データベース51と、顔画像データベース51から複数のキャラクタの顔画像(例えば、平常時の顔表情)を取り出してディスプレイ14に表示させ、特定のキャラクタの顔画像を1つユーザに選択させて担当キャラクタの顔画像として設定させる顔画像選択手段52と、担当キャラクタの顔画像についての画像要素データ群を顔画像データベース51から抽出して顔画像合成データとして出力する画像合成手段53とを有している。更に、キャラクタ表情処理部30は、応答文字ファイルから担当キャラクタの感情を推定し、感情に応じた表情を形成する顔表情データを作成する感情推定手段54と、顔画像合成データと顔表情データを組み合わせて担当キャラクタの応答時の顔表情を形成する画像表示データを作成してディスプレイ14に出力する画像表示手段55とを有している。
感情推定手段54には、複数の標準文に対してそれぞれ心理状態(快、不快、喜び、怒り、悲しみ等の各種気持ちの強弱関係)を対応させた感情データベースが設けられている。また、感情推定手段54には、心理状態と顔表情変化量(平常時の顔表情を形成している各部位の位置を基準位置とし、顔の各部位毎における基準位置からの変化方向と変化距離)の対応関係を求めて作成した表情データベースが設けられている。
このため、感情推定手段54に応答文字ファイルが入力されると、応答文字ファイルに含まれる文と同趣旨の標準文をデータベース内で抽出し、抽出された標準文が有する心理状態を文(応答文字ファイル)の感情と推定する。なお、文の趣旨が複数の標準文の組合せから構成される場合は、文の趣旨を構成する各標準文を抽出すると共に各標準文の寄与率(重み付け率)を算出し、各標準文の心理状態を寄与率で調整した修正心理状態の総和を文(応答文字ファイル)の感情と推定する。
そして、応答文字ファイルに含まれる文の感情が推定されると、推定された感情の心理状態(修正心理状態の総和)に一致又は最も類似する顔表情変化量を表情データベース内で抽出し、抽出された顔表情変化量を文の顔表情データとする。
応答文字ファイルがキャラクタ表情処理部30に入力されない場合、即ち、顔表情データが作成されない場合、画像表示データは顔画像合成データに一致するため、ディスプレイ14には担当キャラクタの顔画像(平常時の顔表情)が表示される。
なお、キャラクタ表情処理部30に入力された応答文字ファイルから感情が推定できない場合、例えば、擬声語の場合は、擬声語を発する際の表情状態を顔表情データと設定する。
これにより、会話ロボット10は、キャラクタの顔表情を変化させながら対話を行なうことができる。
図9に示すように、会話ロボット10は、テレビ放送を視聴するテレビ受像機56(テレビ視聴手段の一例)と、テレビ放送を録画し再生する又は映像データを再生するビデオデッキ57(映像処理手段の一例)と、ラジオ放送を聴取するラジオ受信機58(ラジオ聴取手段の一例)と、テレビ受像機56によるテレビ放送視聴時にはテレビ放送の番組情報を、ビデオデッキ57によるテレビ放送録画時にはテレビ放送の番組情報を、ラジオ受信機58によるラジオ放送聴取時にはラジオ放送の番組情報をそれぞれ情報通信回線33を介してインターネットから取得して保存する番組情報記憶手段59と、テレビ放送視聴時にはその番組情報を、再生時にはその番組情報を、ラジオ放送聴取時にはその番組情報をそれぞれ番組情報記憶手段59から取得し、番組情報に含まれるキーワードを用いてインターネット上でキーワード検索を行い、検索結果に含まれる内容の文字ファイルに基づいてインターネット上の会話応答処理装置25を介して作成される番組文字ファイルを応答文字ファイルとして出力する番組対応発話手段60とを備えた放送受信会話処理部61を有する。更に、放送受信会話処理部61には、テレビ受像機56、ビデオデッキ57、又はラジオ受信機58をそれぞれ起動させる起動スイッチを備え、起動スイッチの操作に連動して番組情報記憶手段59及び番組対応発話手段60を起動させる操作手段62が設けられている。
なお、ビデオデッキ57で再生する映像データは記憶媒体(例えば、磁気テープ系、磁気ディスク系、光磁気ディスク系、光ディスク系、メモリ系のリムーバブルメディア)やインターネットを介して取得することができる。
ここで、テレビ受像機56はテレビチューナ56aと、表示画面56bと、スピーカ56cとを有し、ビデオデッキ57はテレビチューナ57aと、録画記憶部57bとを有しており、ビデオデッキ57で録画再生を行なう場合、映像は表示画面56bに、音声はスピーカ56cに出力されるように構成することができる。また、ラジオ受信機58はラジオチューナ58aと、スピーカ58bとを有している。
このような構成とすることにより、放送局から送信されたテレビ放送の電波をテレビ受像機56のテレビチューナ56aを介して受信し、映像を表示画面56bに表示し音声をスピーカ56cから出力させることができ、ビデオデッキ57のテレビチューナ57aを介して受信し、録画データを録画記憶部57bに保存することができる。また、放送局から送信されたラジオ放送の電波をラジオ受信機58のラジオチューナ58aを介して受信し、音声をスピーカ58bから出力させることができる。
このような構成とすることで、ユーザが操作手段62の起動スイッチをオンして、例えば、テレビ放送を視聴すると(録画を再生すると、ラジオを視聴すると)、会話ロボット10はテレビ放送の番組情報に基づいた発話をすることになる。そして、そして、会話ロボット10の発話に応答したユーザからの発話音声が会話ロボット10に受信されると、ユーザと会話ロボット10との間で会話が成立することになり、ユーザの発話音声に応答する応答音声が会話ロボット10から発生される。
なお、テレビ受像機56とビデオデッキ57はそれぞれ専用のディスプレイを有しても、テレビ受像機56とビデオデッキ57は共用のディスプレイを有してもよい。更に、テレビ受像機56とビデオデッキ57はディスプレイを有さず、テレビ受像機56とビデオデッキ57の各映像信号をディスプレイ14に入力するようにしてもよい。
なお、本実施の形態では、会話ロボット10がテレビ受像機56、ビデオデッキ57、及びラジオ受信機58を有する構成としたが、インターネットを介して操作手段62と外部に設けた別のテレビ受像機、別のビデオデッキを接続することもできる。このような構成とすることにより、会話ロボット10の構成が簡単になって製造コストを低減させることが可能になると共に、大きな表示画面を有する別のテレビ受像機をテレビ受像機に使用することで、大迫力の映像を楽しむことができる。
また、テレビ受像機をテレビチューナと、スピーカで構成し、テレビ放送の映像又は録画再生時の映像は会話ロボット10のティスプレイ14に表示させることもできる。このような構成とすることにより、会話ロボット10の構成が更に簡単になって製造コストをより低減させることが可能になる。
続いて、本発明の一実施の形態に係る会話ロボット10の作用について説明する。
図3、図4に示すように、ユーザが会話ロボット10を起動させると、初期状態設定部31によりディスプレイ14に担当キャラクタAが表示され、会話ロボット10と雑談を開始することができる状態となる。そして、ユーザの発話音声が会話ロボット10の側で受信される度に、発話異常判定処理部22を介して、発話音声に基づいて発話状況に異常があるか否か(発話異常有無)の判定が行われる。ここで、発話異常有と判定された際は、発話異常有の場合の担当キャラクタであるキャラクタCがディスプレイ14に自動的に表示され、緊急通報対応処理部23で緊急通報文字ファイルが作成され、応答文字ファイルとして出力される。応答文字ファイルは音声出力処理部28に入力され、緊急通報応答としての応答音声がスピーカ15からユーザに発せられる。
以上のように、ユーザの発話音声から異常発生の前兆となる軽微な異常が検出されると、会話ロボット10からユーザに対して直ちに異常の存在が通知されるので、ユーザの安心及び安全のレベルを高めることが可能になる。
発話異常判定処理部22において発話異常無と判定された際には発話目的判別処理部24が起動し、発話目的判別処理部24は受信信号から発話目的が雑談なのか、質問なのかの判別を行なう。そして、発話目的が雑談と判別されると、雑談対応処理部26で雑談文字ファイルが作成され、応答文字ファイルとして出力される。そして、応答文字ファイルは音声出力処理部28に入力され、雑談応答としての応答音声がスピーカ15からユーザに発せられる。このときディスプレイ14には、雑談の担当キャラクタであるキャラクタAが表示され、応答音声に合わせてキャラクタAの顔表情が変化する。
ここで、雑談対応処理部26では雑談確率設定手段46を介して、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率(ユーザの意向に沿った応答雑談が行なわれる確率であって、ユーザに対する会話ロボット10の従順度に相当)を複数の確率(例えば、90%、60%、30%)の中から1つ設定することができる。これにより、ユーザは、気分に応じて会話ロボット10の実行確率(従順度)を調節することができ、ユーザは会話ロボット10との間に適度な距離感を設けて会話(コミュニケーション)を図ることができる。
なお、キャラクタAは実行確率毎にそれぞれ設定されており、実行確率が設定されると、その実行確率に対応するキャラクタAがディスプレイ14に表示される。
非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、ユーザの発話音声(発話文字ファイル)の入力に対し無応答となる雑談無視と、ユーザの発話音声(発話文字ファイル)の入力に対し雑談を拒絶する雑談拒絶から構成される。そして、雑談実行手段47を介して雑談を行う際に非応答雑談が選択されると、変更話題雑談、雑談無視、及び雑談拒絶の中から1つが更に任意に(例えば、乱数を用いて)選択される。これにより、会話ロボット10に意外性、自立性、及び威嚇性を持たせることができる。
なお、雑談無視が選択された場合は雑談無視を示す雑談文字ファイルが雑談対応処理部26で形成され、雑談拒絶が選択された場合は雑談拒絶を示す雑談文字ファイルが雑談対応処理部26で形成され、応答文字ファイルとして音声出力処理部28に出力される。
また、ユーザがディスプレイ14に表示されたキャラクタAと雑談を行なっているときに、ユーザに質問、例えば、「今日の天気が知りたい」等の回答要求や「電話をかけたい」等の依頼事項が生じた場合、ユーザは「キャラクタBを呼んで」と発話することにより会話ロボット10側に発話目的が質問であることを認識させることができる。その結果、ディスプレイ14ではキャラクタAの表示が消えてキャラクタBが表示される。次いで、ユーザの発話音声から形成された受信信号が質問対応処理部27に入力されて形成された質問文字ファイルが応答文字ファイルとして出力される。そして、応答文字ファイルは音声出力処理部28に入力され、質問応答としての応答音声がスピーカ15からユーザに発せられる。
以上のように、ユーザからの発話音声(受信信号)から先ず発話目的を特定し、次いで目的に応じた応答文字ファイルを作成するので、ユーザと会話ロボット10との間で不自然な会話や内容の破綻した会話の発生を防止することが可能になる。
図9に示すように、放送受信会話処理部61の操作手段62を操作して、例えば、テレビ受像機56を起動させると、放送受信会話処理部61の番組情報記憶手段59にはテレビ放送の番組情報が保存され、番組対応発話手段60からは番組情報記憶手段59で取得されたテレビ放送の番組情報に基づいて会話応答処理装置25を介して作成された番組文字ファイルが応答文字ファイルとして出力される。このため、会話ロボット10はテレビ放送の番組情報に基づいた発話をすることになって、会話ロボット10の発話に応答したユーザからの発話音声が会話ロボット10に受信されると、ユーザと会話ロボット10との間でテレビ放送を視聴しながら会話が成立することになる。その結果、ユーザと会話ロボット10との間では、相互にテレビ放送の内容に対する批判や感想の同意を求めたり、意見を聞いたりすることができる。
ここで、ビデオデッキ57で非録画映像データ(テレビ放送番組の録画ではなく、番組情報に相当する情報が入手できないもの)を再生する場合は、発話会話ロボット10による再生された映像に関する発話は生じないので、会話ロボット10からの応答は、ユーザの発話に対するものとなる。
なお、会話ロボット10でユーザの発話音声から発話目的が雑談と認識されても、雑談確率設定手段46を介して応答雑談が選択される実行確率(会話ロボット10の従順度)が予め設定されているので、会話ロボット10からテレビ放送の内容に対する批判や感想の同意に対する応答、意見を聞いたことに対する応答が必ず得られることはない。このため、会話ロボット10側の予期せぬ応答に対して、更にユーザが対応すると、新たな会話が成立することになる。
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。
例えば、発話目的判別処理部から質問信号が確実に出力されるために、発話文字ファイル中にキャラクタBを呼び出す情報を含ませたが、質問に対する回答が必ずしも必要でない場合は、発話音声中に質問に関する情報を含ませ、雑談が進行する過程で回答が得られるようにすることもできる。
10:会話ロボット、11:マイクロフォン、12:音声入力処理部、13:音声入力装置、14:ディスプレイ、15:スピーカ、16:応答制御装置、17:カメラ、18:表示位置調整部、19:修正データ演算器、20:可動保持台、22:発話異常判定処理部、23:緊急通報対応処理部、24:発話目的判別処理部、25:会話応答処理装置、26:雑談対応処理部、27:質問対応処理部、28:音声出力処理部、29:キャラクタ設定部、30:キャラクタ表情処理部、31:初期状態設定部、32:音声検出手段、33:情報通信回線、34:音声認識処理手段、35:送信手段、36:受信手段、37:待機時間検出手段、38:基準データ形成手段、39:第1の警報手段、40:確信度取得手段、41:異常確信度設定手段、42:第2の警報手段、43:緊急通報文字ファイル記憶手段、44:第1の緊急通報対応手段、45:第2の緊急通報対応手段、46:雑談確率設定手段、47:雑談実行手段、48:文字ファイルデータベース、49:音声合成手段、50:音声変換手段、51:顔画像データベース、52:顔画像選択手段、53:画像合成手段、54:感情推定手段、55:画像表示手段、56:テレビ受像機、56a:テレビチューナ、56b:表示画面、56c:スピーカ、57:ビデオデッキ、57a:テレビチューナ、57b:録画記憶部、58:ラジオ受信機、58a:ラジオチューナ、58b:スピーカ、59:番組情報記憶手段、60:番組対応発話手段、61:放送受信会話処理部、62:操作手段