JP2019184694A

JP2019184694A - 会話ロボット

Info

Publication number: JP2019184694A
Application number: JP2018072380A
Authority: JP
Inventors: 大西　忠治; Tadaharu Onishi; 忠治大西; 譲治岩坪; Joji Iwatsubo; 忠吉原; Tadashi Yoshihara; 齋藤慈子; Shigeko Saito; 慈子齋藤
Original assignee: It Shindan Shien Center Kitakyushu
Current assignee: It Shindan Shien Center Kitakyushu
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-10-24
Anticipated expiration: 2038-04-04
Also published as: JP6420514B1

Abstract

【課題】ユーザの発話状況からユーザに生じた異常有無を判定すると共に、ユーザの発話目的からユーザの求めに応じた最適な応答を行なうことが可能となる会話ロボットを提供する。【解決手段】ユーザの発話状況及び発話目的に応じて応答内容が変化する会話ロボット１０であって、ユーザの発話音声を受信して受信信号を出力する音声入力装置１３と、ユーザとのロボット側の対話者として、応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示する表示装置１４と、ユーザに対して応答音声を発生する音声出力装置１５と、受信信号から発話状況及び発話目的をそれぞれ特定し、特定された発話状況及び発話目的に基づいてユーザに対する応答音声を形成する応答音声データを作成して音声出力装置１５に入力しながら、担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成して表示装置１４に入力する応答制御装置１６とを有する。【選択図】図１

Description

本発明は、ユーザの発話状況及び発話目的に応じて応答内容を変化させる会話ロボットに関する。

従来の会話ロボットとの会話（対話）では、マニュアルに基づく接客対応に代表されるような反復的かつ画一的となる不自然な会話が行なわれ易く、雑談も合わせて行うような会話ができないといった問題点が指摘されている。このため、会話ロボットがユーザを識別して予め入手しているユーザのプロファイルに基づいて会話を行い、更に会話を行いながらユーザの新たな情報を入手し、得られた情報を適宜反映させることにより、会話が不自然になることを回避する提案が行なわれている（例えば、特許文献１参照）。

特表２０１６−５３６６３０号公報

しかしながら、特許文献１の会話ロボットでは、雑談のための情報が限られるため、幅広い話題に関する雑談や、個別の話題に特化された雑談には対応しきれず、不自然な会話、内容の破綻した会話に陥り易いという問題が生じる。
更に、従来の会話ロボットにユーザの異常状態を検出する監視カメラや人感センサ等の見守り用のセンサを取り付けることにより、会話ロボットに「見守り機能」を付加することが行なわれている。しかしながら、見守り用のセンサを用いたユーザの異常状態の監視では、明らかな異常の前兆となる軽微な異常は認識できず、ユーザが重篤な状態になるまで放置されるという問題がある。

本発明はかかる事情に鑑みてなされたもので、ユーザの発話状況からユーザに生じた異常有無を判定すると共に、ユーザの発話目的からユーザの求めに応じた最適な応答を行なうことが可能となる会話ロボットを提供することを目的とする。

前記目的に沿う本発明に係る会話ロボットは、ユーザの発話状況及び発話目的に応じて応答内容が変化する会話ロボットであって、
前記ユーザの発話音声を受信して受信信号を出力する音声入力装置と、
前記ユーザとのロボット側の対話者として、前記応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示する表示装置と、
前記ユーザに対して応答音声を発生する音声出力装置と、
前記受信信号から前記発話状況として発話異常有無の判定を行い、発話異常有と判定された際に緊急通報応答としての前記応答音声を形成し、発話異常無と判定され、かつ前記受信信号から前記発話目的が雑談と判別された際に雑談応答としての前記応答音声を形成し、発話異常無と判定され、かつ前記受信信号から前記発話目的が質問と判別された際に質問応答としての前記応答音声を形成する応答音声データを作成し前記音声出力装置に入力しながら、前記担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成し前記表示装置に入力する応答制御装置とを有する。
ここで、発話目的が雑談と判別されるのは、受信信号（ユーザの発話音声）から推定したユーザの意図に、例えば、ある事柄に対する回答要求や依頼要求が存在せず、かつ話題継続願望が存在する場合であり、発話目的が質問と判別されるのは、受信信号から推定したユーザの意図に、例えば、ある事柄に対する回答要求や依頼要求が存在し、かつ話題継続願望が存在しない場合である。

なお、本発明に係る会話ロボットは、ユーザを撮影する撮像手段を有し、応答制御装置には、撮像手段で得られたユーザの画像を用いて、表示手段の表示面の方向を調節し、表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部が設けられていることが好ましい。
これによって、ユーザは、担当キャラクタの応答時の顔表情の変化を容易に捉えることができる。

本発明に係る会話ロボットにおいて、前記担当キャラクタの顔画像はペット又は人の顔画像から形成することができる。
これによって、ユーザは、担当キャラクタの顔を、応答内容に応じて設定することができる。ここで、担当キャラクタの顔画像は、予め準備された複数のペット（小動物）の写真（映像を含む、以下同様）、複数のペットの絵（漫画及び劇画を含む、以下同様）、複数の人の写真、又は複数の人の絵の中からユーザにより選択されたものに基づいて作製する。また、ユーザから提供された、あるいはユーザの要求に合わせて作製されたペットの写真、ペットの絵、人の写真、又は人の絵に基づいて作製することも可能である。

本発明に係る会話ロボットにおいて、前記音声入力装置は、前記ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し前記受信信号として出力する音声入力処理部を有し、
前記応答制御装置は、（１）前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部と、（２）前記異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部と、（３）前記異常無信号が出力され、前記受信信号から前記発話目的が雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部と、（４）前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部と、（５）前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部と、（６）前記応答文字ファイルから前記応答音声データを作成して前記音声出力装置に入力する音声出力処理部と、（７）前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタＡを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタＢを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタＣをそれぞれ設定するキャラクタ設定部と、（８）前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記画像表示データとして前記表示手段に入力するキャラクタ表情処理部と、（９）前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタＡの顔画像を表示させる初期状態設定部とを有していることが好ましい。

このような構成とすることで、応答制御装置を構成する各処理部のメンテナンスや更新を処理部毎に独立して行なうことができる。
音声入力処理部を設けることで、ユーザの発話音声を選別することができ、ユーザの発話状況及び発話目的を確実に捉えることができる。また、応答内容に応じて担当キャラクタが変わるので、会話自体に興味を持たせることができる。

ここで、受信信号に対応する雑談文字ファイル又は質問文字ファイルの作成には、クラウド（インターネット）上に設けた汎用の会話応答処理装置を用いる。会話応答処理装置では、クラウド上の大規模なデータベース（例えば、発話データベース及び知識データベース）と、ユーザの発話履歴に基づいて随時更新されるユーザ情報データベース（例えば、応答制御装置内に構築する）を利用して、受信信号から、例えば、ユーザ情報データベース及び発話データベースを検索することにより、ユーザの話題の推定が行なわれると共に、ユーザの発話意図がある事柄に対する回答要求なのか、ある事柄に対する依頼要求なのか、又はある事柄に対する回答要求や依頼要求が存在せず単なる話題継続願望なのかの推定が行なわれる。次いで、会話応答処理装置では、ユーザの発話意図が単なる話題継続願望であると推定された場合は、ユーザの話題に沿った雑談文字ファイルが、ユーザ情報データベース、発話データベース及び知識データベースの検索結果に基づいて作成される。一方、ユーザの発話意図がある事柄に対する回答要求又はある事柄に対する依頼要求のいずれかであって、話題継続願望が存在しないと推定された場合は、ユーザの話題に沿った質問文字ファイルが、ユーザ情報データベース、発話データベース及び知識データベースの検索結果に基づいて作成される。

本発明に係る会話ロボットにおいて、前記雑談対応処理部は、（１）前記発話文字ファイルが有する話題で雑談する応答雑談が、該発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から１つ設定する雑談確率設定手段と、（２）前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、前記キャラクタＡは、前記実行確率毎に設定されることが好ましい。
雑談確率設定手段を介して、ユーザは会話を行なう時の気分に応じて会話ロボットに非応答雑談の機会を与える、即ち会話ロボットの従順度を設定することができる。これにより、会話ロボットとの間に適度な距離感を有するコミュニケーションを図ることができ、変化に富んだ会話を楽しむことができる。

本発明に係る会話ロボットにおいて、前記非応答雑談は、（１）前記発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、（２）前記発話文字ファイルの入力に対し無応答となる雑談無視と、（３）前記発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶とを有することが好ましい。
これにより、会話ロボットに意外性、自立性、及び威嚇性を持たせることができる。

本発明に係る会話ロボットにおいて、前記発話文字ファイル中に前記キャラクタＢを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力されることが好ましい。
これにより、会話ロボットに発話目的が質問であることを確実に認識させることができ、ユーザは適切な応答内容を会話ロボットから受け取ることができる。

本発明に係る会話ロボットにおいて、（１）テレビ放送を視聴するテレビ視聴手段と、（２）テレビ放送を録画し再生する又は映像データを再生する映像処理手段と、（３）ラジオ放送を聴取するラジオ聴取手段と、（４）前記テレビ視聴手段によるテレビ放送の視聴時に該テレビ放送の番組情報を取得し、前記映像処理手段によるテレビ放送の録画時に該テレビ放送の番組情報を取得し、又は前記ラジオ聴取手段によるラジオ放送の聴取時に該ラジオ放送の番組情報を取得して保存する番組情報記憶手段と、（５）前記テレビ視聴手段によるテレビ放送の視聴時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、前記映像処理手段による録画されたテレビ放送の再生時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、又は前記ラジオ聴取手段によるラジオ放送の聴取時に前記番組情報記憶手段に保存された該ラジオ放送の番組情報から番組文字ファイルを作成して前記応答文字ファイルとして出力する番組対応発話手段とを有することが好ましい。

このような構成とすることで、ユーザは会話ロボットと一緒に、テレビ放送を視聴しながら、録画したテレビ放送の再生を行ないながら、又はラジオ放送を聴取しながら、番組情報に基づいた発話を行なうことができる。
そして、会話ロボットの発話に応答したユーザからの発話音声が会話ロボットに受信されると、会話ロボットから応答音声が発生されて会話が成立する。

本発明に係る会話ロボットにおいて、前記発話異常判定処理部は、（１）予め設定された時間帯で前記応答音声が発せられる度に該応答音声が発せられてから前記音声入力装置で前記発話音声が受信されるまでの待機時間を測定し、予め求めておいた前記ユーザの基準待機時間と該待機時間との偏差が設定した許容値を超える発話状況変化の発生有無を検知し、前記ユーザとの間で１日の最初の対話が成立して以降の該発話状況変化の発生の累積回数が予め設定した異常発話判定値に到達した際に発話異常有と判定し前記異常有信号として第１の異常信号を出力する第１の警報手段と、（２）前記発話文字ファイルの前記発話音声ファイルに対する確からしさを定量的に示す確信度を取得し、該確信度が予め設定された異常確信度以下となる低確信度状態の発生有無を検知し、該低確信度状態の発生の累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し前記異常有信号として第２の異常信号を出力する第２の警報手段とを有することが好ましい。

ここで、基準待機時間は、ユーザの平常状態の待機時間を複数回測定し統計処理して得られる統計量で、例えば、待機時間分布の平均値、中央値、又は最頻値を採用することができる。また、偏差は待機時間と基準待機時間との差であり、許容値は、例えば、待機時間分布の標準偏差σを用いて、σ、２σ、又は3σのいずれか１に設定することができる。更に、異常発話判定値は、例えば、１０回程度の値に設定することができる。
待機時間（会話ロボットの音声出力装置より応答音声が発せられてから会話ロボットの音声入力装置でユーザの発話音声が受信されるまでの時間）は、ユーザの体調に影響される会話処理能力を反映する測定値と考えられる。このため、偏差が許容値を超えることは、ユーザの発話状況が変化していることを示している。そして、発話状態変化の発生の累積回数が異常発話判定値に到達したことは、ユーザに平常状態とは異なる発話状況が生じていることを示しており、ユーザに体調の変化（異常）が生じている可能性が高いと判断できる。

本発明に係る会話ロボットにおいて、前記緊急通報対応処理部は、（１）前記第１の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの体調変化を確認する体調確認文字ファイルを作成して出力する第１の緊急通報対応手段と、（２）前記第２の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの会話認識変化を確認する会話認識度確認文字ファイルを作成して出力する第２の緊急通報対応手段とを有することが好ましい。

音声入力処理部では、受信信号から作成した発話音声ファイルを発話文字ファイルに変換する際、音声に対して文（文字）が一義的に決定できない場合（会話ロボット側が、発話音声から形成した発話音声ファイルを発話文字ファイルに変換する際の確からしさを確率的に評価した数値が９０％以上でない場合）、確信度の高い順に複数の発話文字ファイルが候補として提供され、通常は、第１候補（確信度が最大）の発話文字ファイルが応答制御装置（発話異常判定処理部）に入力される。ここで、音声入力処理部での発話文字ファイルの作成方法を固定すると、同一の発話音声ファイル（発話音声）に対しては常に同一の確信度で同一の発話文字ファイルが得られる。従って、平常状態のユーザの種々の発話音声ファイル（発話音声）に対して音声入力処理部で評価される確信度を求めると、確信度の分布は平常状態のユーザの発話状態を定量的に評価する尺度の一つとなる。

このため、確信度の分布の最小値より小さい値を異常確信度に設定し、発話文字ファイルの作成時の確信度が異常確信度以下となる低確信度状態が発生すること（即ち、会話ロボット側で会話の認識率の低下が検出されること）は、ユーザが平常状態とは異なる発話状況であることを示している。そして、低確信度状態の発生の累積回数が異常累積回数に到達することは、ユーザに発話状況を変化させるほどの体調の変化（異常）が生じている可能性が高いことを示している。
なお、平常状態のユーザの発話音声ファイル（発話音声）に対する確信度は、一般的に９０％程度の値となるため、例えば、異常確信度は確信度７０％程度の値に設定できる。また、異常累積回数は、例えば、５回程度の値に設定することができる。

本発明に係る会話ロボットにおいては、ユーザの発話音声が会話ロボット側で受信される度に、発話状況として発話異常有無の判定が行われ、発話異常有と判定された際には緊急通報応答としての応答音声がユーザに発せられるので、ユーザは異常発生の前兆となる軽微な異常を早期に認識することができ、ユーザの安心及び安全のレベルを高めることが可能になる。
更に、発話異常無と判定された際には、発話目的が雑談なのか、質問なのかの判別が行なわれ、雑談と判別されると雑談応答としての応答音声が、質問と判別されると質問応答としての応答音声がそれぞれユーザに発せられるので、不自然な会話や内容の破綻した会話の発生を防止することが可能になる。

本発明の一実施の形態に係る会話ロボットの構成を示すブロック図である。同会話ロボットの音声入力処理部の構成を示すブロック図である。同会話ロボットの応答制御装置の構成を示すブロック図である。同会話ロボットの応答制御装置の構成を示すブロック図である。同会話ロボットの発話異常判定処理部と緊急通報対応処理部の構成を示すブロック図である。同会話ロボットの雑談対応処理部の構成を示すブロック図である。同会話ロボットの音声出力処理部の構成を示すブロック図である。同会話ロボットのキャラクタ表情処理部の構成を示すブロック図である。同会話ロボットの放送受信会話処理部の構成を示すブロック図である。

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態につき説明し、本発明の理解に供する。
図１に示すように、本発明の一実施の形態に係る会話ロボット１０は、会話ロボット１０のユーザの発話状況及び発話目的に応じて応答内容が変化するものであって、ユーザの発話音声をマイクロフォン１１で受信して受信信号として出力する音声入力処理部１２を備えた音声入力装置１３と、ロボット側の対話者（ユーザとの対話者）として、応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示するディスプレイ１４（表示装置の一例）と、ユーザに対して応答音声を発生するスピーカ１５（音声出力装置の一例）とを有する。
担当キャラクタの顔画像は、予め準備された複数のペットの写真、複数のペットの絵、複数の人の写真、又は複数の人の絵の中からユーザにより選択されたものに基づいて作製する。なお、担当キャラクタの顔画像は、ユーザから提供された、あるいはユーザの要求に合わせて作製されたペットの写真、ペットの絵、人の写真、又は人の絵に基づいて作製することも可能である。応答内容に応じて担当キャラクタを変えることで、会話自体に興味を持たせることができる。

更に、会話ロボット１０は、受信信号から発話状況として発話異常有無の判定を行い、発話異常有と判定された際に緊急通報応答としての応答音声を形成し、発話異常無と判定され、かつ受信信号から発話目的が雑談と判別された際に雑談応答としての応答音声を形成し、発話異常無と判定され、かつ受信信号から発話目的が質問と判別された際に質問応答としての応答音声を形成する応答音声データを作成しスピーカ１５に入力しながら、担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成しディスプレイ１４に入力する応答制御装置１６を有する。

ここで、発話状況は、例えば、会話ロボットから応答音声が発せられてから会話ロボットがユーザの発話音声を受信するまでのロボット側の待機時間（会話ロボットの応答に対してユーザが発話するまでに要する時間であって、ユーザ側の会話応答速度に相当する）と、会話ロボット側における発話音声認識率（発話音声を会話ロボット側が発話文字ファイルに変換する際の確からしさを確率的に評価した数値）を指す。なお、質問には、単なる回答を求めることに加えて、何かを依頼することも含む。

更に、会話ロボット１０は、ユーザを撮影するカメラ１７（撮像手段の一例）を有し、応答制御装置１６には、カメラ１７で得られたユーザの画像を用いて、ディスプレイ１４の表示面の方向を調節し、ディスプレイ１４の表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部１８が設けられている。
ここで、表示位置調整部１８は、ユーザの画像からディスプレイ１４（例えば、表示面の中心位置）に対するユーザの三次元位置を求めてディスプレイ１４の表示面の方向（例えば、表示面の中心位置に立てた法線の方向）を調節する修正データを演算する修正データ演算器１９と、ディスプレイ１４を載置し、修正データに基づいてディスプレイ１４の表示面の方向を変化させる可動保持台２０とを有している。

図２に示すように、音声入力装置１３は、ユーザの発話音声及びユーザ周囲の環境音を受信するマイクロフォン１１と、マイクロフォン１１から出力される出力信号からユーザの発話音声を選別して発話音声ファイルに変換し、発話音声ファイルから発話文字ファイルを作成し受信信号として出力する音声入力処理部１２を備えている。

音声入力処理部１２は、出力信号から音声が含まれている時間区間を音声区間として検出して発話音声ファイルとして出力する音声検出手段３２と、発話音声ファイルを情報通信回線３３（例えば、光回線、ＡＤＳＬ回線、ケーブルテレビ回線等）を介してクラウド（インターネット）上に設けられた音声認識処理手段３４に入力（送信）する送信手段３５とを有している。更に、音声入力処理部１２は、入力された発話音声ファイルに応答して音声認識処理手段３４から出力（送信）される発話文字ファイルを情報通信回線３３を介して受信して出力する受信手段３６とを有している。

応答制御装置１６は、図３に示すように、受信信号（発話文字ファイル）から発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部２２と、異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部２３と、異常無信号が出力され、発話文字ファイルから発話目的が雑談と判別された際に雑談信号を、発話文字ファイルから発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部２４と、雑談信号が出力された際に、発話文字ファイルからクラウド上に設けた会話応答処理装置２５を介して雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部２６と、質問信号が出力された際に、発話文字ファイルから会話応答処理装置２５を介して質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部２７と、応答文字ファイルから応答音声データを作成してスピーカ１５に入力する音声出力処理部２８とを有している。

図４に示すように、応答制御装置１６は、発話目的判別処理部２４で雑談と判別された、即ち、雑談信号が出力された際に担当キャラクタとしてキャラクタＡを、発話目的判別処理部２４で質問と判別された、即ち、質問信号が出力された際に担当キャラクタとしてキャラクタＢを、発話異常判定処理部２４で発話異常有と判定された、即ち、異常有信号が出力された際に担当キャラクタとしてキャラクタＣをそれぞれ設定するキャラクタ設定部２９を有している。更に、応答制御装置１６は、キャラクタ設定部２９で設定された担当キャラクタの顔画像を形成する顔画像合成データと、応答文字ファイルから担当キャラクタの感情を推定し、感情に応じた表情を形成する顔表情データをそれぞれ作成し、顔画像合成データと顔表情データを組み合わせて画像表示データとしてディスプレイ１４に入力するキャラクタ表情処理部３０と、音声入力装置１３の起動時（会話ロボット１０の起動スイッチのオン時）又はユーザに対してスピーカ１５から応答音声が発生した後に、発話異常判定処理部２２から異常無信号を出力させると共に、キャラクタ設定部２９を介してディスプレイ１４にキャラクタＡの顔画像を表示させる初期状態設定部３１とを有している。
なお、初期状態設定部３１を介してディスプレイ１４にキャラクタＡの顔画像が表示される場合、キャラクタ表情処理部３０には応答文字ファイルの情報が入力されないため、キャラクタＡの顔表情は平常時の顔表情とする。

ここで、音声入力処理部１２の音声認識処理手段３４からは、発話音声ファイル（発話音声）を発話文字ファイルに変換する際、音声に対して文（文字）が一義的に決定できない場合、確信度の高い順に複数の発話文字ファイルが候補として提供（出力）される。従って、受信手段３６では、出力された複数の発話文字ファイルの中から確信度が最大の発話文字ファイルを発話音声ファイルに対応する発話文字ファイルとして発話異常判定処理部２２に向けて出力する。
なお、音声認識処理手段３４をクラウド（インターネット）上に設けることで、音声認識処理手段３４に大規模なデータベースを接続することができ、ハードウェアの更新、アプリケーションソフトウェアの更新や改善を適宜行うことができる。このため、音声認識処理手段３４では発話音声ファイルから発話文字ファイルへの正確かつ迅速な変換を行なうことができる。

図５に示すように、発話異常判定処理部２２は、予め設定された時間帯で応答音声が発せられる度に、スピーカ１５で応答音声が発せられた時刻と、応答音声に対してユーザの発話音声の受信信号が音声入力装置１３から出力された時刻の間の時間差を求めて待機時間とする待機時間検出手段３７と、平常状態のユーザの待機時間を予め複数回測定して待機時間分布を求め、待機時間の平均値と標準偏差σをそれぞれ算出し、待機時間の平均値を基準待機時間、標準偏差σの３倍の値（３σ）を許容値として格納する基準データ形成手段３８と、待機時間検出手段３７から得られる待機時間と基準データ形成手段３７から取得した基準待機時間との偏差を算出し、得られた偏差が許容値を超える発話状況変化の発生有無を検知して発話状況変化の発生の累積回数を求め、会話ロボット１０とユーザとの間で１日の最初の対話が成立して以降の累積回数を求め、累積回数が設定した異常発話判定値に到達した際に発話異常有と判定し異常有信号として第１の異常信号を出力する第１の警報手段３９とを有している。

会話ロボット１０から応答音声が発せられてからユーザが発話するまでの待機時間は、会話の内容によっても変化するので、平常状態のユーザと種々の内容の会話を行って求めた待機時間分布は、平常状態のユーザの発話状況を定量的に評価する一つの基準になると考えられる。なお、待機時間分布を構成している各待機時間は、基準待機時間−３σを下限値とし、基準待機時間＋３σを上限値とする範囲にほぼ存在する。従って、待機時間検出手段３７から得られる待機時間から求めた偏差が、基準待機時間−３σ〜基準待機時間＋３σの範囲に存在すれば、ユーザに異常は生じていないと判定され異常無信号が出力される。一方、ユーザに異常が生じた場合、ユーザの会話処理能力は低下するため、待機時間検出手段３７から得られる待機時間が長くなって、偏差は基準待機時間＋３σを超えることになる。このため、偏差が基準待機時間−３σ〜基準待機時間＋３σの範囲外に存在すれば、ユーザに異常が生じていると判定され異常有信号として第１の異常信号が出力される。

更に、発話異常判定処理部２２は、図５に示すように、発話文字ファイルの発話音声ファイルに対する確からしさを定量的に示す確信度を音声入力処理部１２より取得する確信度取得手段４０と、平常状態のユーザの種々の発話音声ファイル（発話音声）に対して音声入力処理部１２で評価される確信度を予め求め、得られた確信度から確信度の分布を作成して最小値を求めて、最小値より小さい値を異常確信度として設定し保存する異常確信度設定手段４１と、確信度取得手段４０を介して得られる確信度と異常確信度設定手段４１から取得した異常確信度を比較し、確信度が異常確信度以下となる低確信度状態の発生有無を検知し、低確信度状態の発生の累積回数を求め、累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し異常有信号として第２の異常信号を出力する第２の警報手段４２とを有している。
ここで、最小値より小さい値には、例えば、確信度の分布を複数求めて、各確信度の分布が有する最小値を抽出し、抽出された最小値から構成される最小値分布を求めて、得られた最小値分布から推定される推定最小値を用いることができる。

音声入力処理部１２における発話文字ファイルの作成方法を固定すると、同一の発話音声ファイル（発話音声）に対しては常に同一の確信度で同一の発話文字ファイルが得られるので、平常状態のユーザが会話ロボット１０と会話する場合、ユーザの発話音声から発話文字ファイルが作成される際の確信度は、異常確信度設定手段４１で作成された確信度の分布の範囲内に存在し、常に異常確信度を超える値となる。
一方、ユーザに異常が発生するとユーザの会話状態に変化が生じるため、ユーザの発話音声から発話文字ファイルが作成される際の確信度が低下し、異常確信度以下となる低確信度状態が発生することになる。そして、会話ロボット１０との会話中に、ユーザに生じた低確信度状態の発生が一定時間継続すると累積回数が異常累積回数に達することになる。

図５に示すように、緊急通報対応処理部２３は、予め作成されたユーザの体調変化を確認する体調確認文字ファイルとユーザの会話認識変化を確認する会話認識度確認文字ファイルを保存する緊急通報文字ファイル記憶手段４３と、異常有信号として第１の異常信号が出力された際に起動して、緊急通報文字ファイル記憶手段４３から体調確認文字ファイルを呼び出して緊急通報文字ファイルとして出力する第１の緊急通報対応手段４４と、異常有信号として第２の異常信号が出力された際に、緊急通報文字ファイル記憶手段４３から会話認識度確認文字ファイルを呼び出して緊急通報文字ファイルとして出力する第２の緊急通報対応手段４５とを有する。
ここで、体調確認文字ファイルは、キャラクタＣに、例えば、「会話の待機時間が長くなっています。何か異常はありませんか？」と発話させる情報を有し、会話認識度確認文字ファイルは、キャラクタＣに、例えば、「会話の認識率が下がっています。何か異常はありませんか？」と発話させる情報を有する。

発話目的判別処理部２４は、発話異常判定処理部２２から異常無信号が出力されたことを受けて起動し、発話文字ファイル（受信信号）から発話目的が雑談であるか、質問であるかを判別して、雑談信号又は質問信号を出力する。ここで、発話目的の判別は、例えば、ユーザによるキャラクタの切り替えや特定のキーワードが発話文字ファイル中に存在するか否かにより行う。特に、質問に対する応答を行なう担当キャラクタとしてキャラクタＢが設定されている場合、特定のキーワードとしてキャラクタＢを指定すると、発話文字ファイル中にキャラクタＢを呼び出す情報が含まれることになって、発話目的判別処理部２４からは質問信号が確実に出力される。

図６に示すように、雑談対応処理部２６は、発話目的判別処理部２４から雑談信号が出力された際に起動し、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から１つ設定する雑談確率設定手段４６と、雑談確率設定手段４６で設定された確率で雑談を行なう雑談実行手段４７とを有している。ここで、雑談確率設定手段４６では、実行確率として複数の確率値が予め設定されており、従って、雑談に対する応答を行なうキャラクターＡは、複数の確率値毎に設定される。

雑談実行手段４７で発話文字ファイルに基づいた応答雑談が実行される場合は、発話文字ファイルを会話応答処理装置２５に入力し、会話応答処理装置２５から出力された複数の雑談文字ファイルを受け取り、その中から一つの雑談文字ファイルを選択し応答文字ファイルとして出力する。なお、会話応答処理装置２５は、例えば、クラウド（インターネット）上に配置されており、発話文字ファイルの会話応答処理装置２５への入力、会話応答処理装置２５からの複数の雑談文字ファイルの取得は、情報通信回線３３を介して行われる。

非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、発話文字ファイルの入力に対し無応答となる雑談無視と、発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶に分類される。なお、変更話題雑談、雑談無視、雑談拒絶の中でいずれの雑談が選択されるかは、非応答雑談が実行される際に確率的に決定される。そして、変更話題雑談が選択された場合は、例えば、発話文字ファイルに含まれるキーワードに関連する内容の発話文字ファイルを作成し、会話応答処理装置２５に入力し、会話応答処理装置２５から出力された複数の文字ファイルの中から一つの文字ファイルを選択し応答文字ファイルとして出力する。また、雑談無視が選択された場合は、予め作成して文字ファイルデータベース４８として保存しておいた雑談無視に対応する文字ファイルを応答文字ファイルとして出力し、雑談拒絶が選択された場合は、予め作成しておいた雑談拒絶に対応する文字ファイルを応答文字ファイルとして出力する。

質問対応処理部２７は、発話文字ファイルを会話応答処理装置２５に入力して発話文字ファイルが有する文意を求める。そして、文意を構成するキーワードに関する検索を、例えば、インターネット上で行い。得られた検索結果から質問文字ファイルを作成し、応答文字ファイルとして出力する。

図７に示すように、音声出力処理部２８は、応答文字ファイルを応答音声ファイルに変換する音声合成手段４９と、応答音声ファイルから応答音声データを作成し音声信号に変換してスピーカ１５に出力する音声変換手段５０とを有している。これにより、会話ロボット１０は、ユーザの発話音声を受信して作成した応答文字ファイルに基づいて応答音声を発することができる。

図８に示すように、担当キャラクタの顔画像は、予め準備された複数のペットの写真、複数のペットの絵、複数の人の写真、又は複数の人の絵からそれぞれキャラクタの顔画像を形成する画像要素データ群を作製して格納する顔画像データベース５１と、顔画像データベース５１から複数のキャラクタの顔画像（例えば、平常時の顔表情）を取り出してディスプレイ１４に表示させ、特定のキャラクタの顔画像を１つユーザに選択させて担当キャラクタの顔画像として設定させる顔画像選択手段５２と、担当キャラクタの顔画像についての画像要素データ群を顔画像データベース５１から抽出して顔画像合成データとして出力する画像合成手段５３とを有している。更に、キャラクタ表情処理部３０は、応答文字ファイルから担当キャラクタの感情を推定し、感情に応じた表情を形成する顔表情データを作成する感情推定手段５４と、顔画像合成データと顔表情データを組み合わせて担当キャラクタの応答時の顔表情を形成する画像表示データを作成してディスプレイ１４に出力する画像表示手段５５とを有している。

感情推定手段５４には、複数の標準文に対してそれぞれ心理状態（快、不快、喜び、怒り、悲しみ等の各種気持ちの強弱関係）を対応させた感情データベースが設けられている。また、感情推定手段５４には、心理状態と顔表情変化量（平常時の顔表情を形成している各部位の位置を基準位置とし、顔の各部位毎における基準位置からの変化方向と変化距離）の対応関係を求めて作成した表情データベースが設けられている。
このため、感情推定手段５４に応答文字ファイルが入力されると、応答文字ファイルに含まれる文と同趣旨の標準文をデータベース内で抽出し、抽出された標準文が有する心理状態を文（応答文字ファイル）の感情と推定する。なお、文の趣旨が複数の標準文の組合せから構成される場合は、文の趣旨を構成する各標準文を抽出すると共に各標準文の寄与率（重み付け率）を算出し、各標準文の心理状態を寄与率で調整した修正心理状態の総和を文（応答文字ファイル）の感情と推定する。

そして、応答文字ファイルに含まれる文の感情が推定されると、推定された感情の心理状態（修正心理状態の総和）に一致又は最も類似する顔表情変化量を表情データベース内で抽出し、抽出された顔表情変化量を文の顔表情データとする。
応答文字ファイルがキャラクタ表情処理部３０に入力されない場合、即ち、顔表情データが作成されない場合、画像表示データは顔画像合成データに一致するため、ディスプレイ１４には担当キャラクタの顔画像（平常時の顔表情）が表示される。
なお、キャラクタ表情処理部３０に入力された応答文字ファイルから感情が推定できない場合、例えば、擬声語の場合は、擬声語を発する際の表情状態を顔表情データと設定する。
これにより、会話ロボット１０は、キャラクタの顔表情を変化させながら対話を行なうことができる。

図９に示すように、会話ロボット１０は、テレビ放送を視聴するテレビ受像機５６（テレビ視聴手段の一例）と、テレビ放送を録画し再生する又は映像データを再生するビデオデッキ５７（映像処理手段の一例）と、ラジオ放送を聴取するラジオ受信機５８（ラジオ聴取手段の一例）と、テレビ受像機５６によるテレビ放送視聴時にはテレビ放送の番組情報を、ビデオデッキ５７によるテレビ放送録画時にはテレビ放送の番組情報を、ラジオ受信機５８によるラジオ放送聴取時にはラジオ放送の番組情報をそれぞれ情報通信回線３３を介してインターネットから取得して保存する番組情報記憶手段５９と、テレビ放送視聴時にはその番組情報を、再生時にはその番組情報を、ラジオ放送聴取時にはその番組情報をそれぞれ番組情報記憶手段５９から取得し、番組情報に含まれるキーワードを用いてインターネット上でキーワード検索を行い、検索結果に含まれる内容の文字ファイルに基づいてインターネット上の会話応答処理装置２５を介して作成される番組文字ファイルを応答文字ファイルとして出力する番組対応発話手段６０とを備えた放送受信会話処理部６１を有する。更に、放送受信会話処理部６１には、テレビ受像機５６、ビデオデッキ５７、又はラジオ受信機５８をそれぞれ起動させる起動スイッチを備え、起動スイッチの操作に連動して番組情報記憶手段５９及び番組対応発話手段６０を起動させる操作手段６２が設けられている。
なお、ビデオデッキ５７で再生する映像データは記憶媒体（例えば、磁気テープ系、磁気ディスク系、光磁気ディスク系、光ディスク系、メモリ系のリムーバブルメディア）やインターネットを介して取得することができる。

ここで、テレビ受像機５６はテレビチューナ５６ａと、表示画面５６ｂと、スピーカ５６ｃとを有し、ビデオデッキ５７はテレビチューナ５７ａと、録画記憶部５７ｂとを有しており、ビデオデッキ５７で録画再生を行なう場合、映像は表示画面５６ｂに、音声はスピーカ５６ｃに出力されるように構成することができる。また、ラジオ受信機５８はラジオチューナ５８ａと、スピーカ５８ｂとを有している。
このような構成とすることにより、放送局から送信されたテレビ放送の電波をテレビ受像機５６のテレビチューナ５６ａを介して受信し、映像を表示画面５６ｂに表示し音声をスピーカ５６ｃから出力させることができ、ビデオデッキ５７のテレビチューナ５７ａを介して受信し、録画データを録画記憶部５７ｂに保存することができる。また、放送局から送信されたラジオ放送の電波をラジオ受信機５８のラジオチューナ５８ａを介して受信し、音声をスピーカ５８ｂから出力させることができる。

このような構成とすることで、ユーザが操作手段６２の起動スイッチをオンして、例えば、テレビ放送を視聴すると（録画を再生すると、ラジオを視聴すると）、会話ロボット１０はテレビ放送の番組情報に基づいた発話をすることになる。そして、そして、会話ロボット１０の発話に応答したユーザからの発話音声が会話ロボット１０に受信されると、ユーザと会話ロボット１０との間で会話が成立することになり、ユーザの発話音声に応答する応答音声が会話ロボット１０から発生される。
なお、テレビ受像機５６とビデオデッキ５７はそれぞれ専用のディスプレイを有しても、テレビ受像機５６とビデオデッキ５７は共用のディスプレイを有してもよい。更に、テレビ受像機５６とビデオデッキ５７はディスプレイを有さず、テレビ受像機５６とビデオデッキ５７の各映像信号をディスプレイ１４に入力するようにしてもよい。

なお、本実施の形態では、会話ロボット１０がテレビ受像機５６、ビデオデッキ５７、及びラジオ受信機５８を有する構成としたが、インターネットを介して操作手段６２と外部に設けた別のテレビ受像機、別のビデオデッキを接続することもできる。このような構成とすることにより、会話ロボット１０の構成が簡単になって製造コストを低減させることが可能になると共に、大きな表示画面を有する別のテレビ受像機をテレビ受像機に使用することで、大迫力の映像を楽しむことができる。
また、テレビ受像機をテレビチューナと、スピーカで構成し、テレビ放送の映像又は録画再生時の映像は会話ロボット１０のティスプレイ１４に表示させることもできる。このような構成とすることにより、会話ロボット１０の構成が更に簡単になって製造コストをより低減させることが可能になる。

続いて、本発明の一実施の形態に係る会話ロボット１０の作用について説明する。
図３、図４に示すように、ユーザが会話ロボット１０を起動させると、初期状態設定部３１によりディスプレイ１４に担当キャラクタＡが表示され、会話ロボット１０と雑談を開始することができる状態となる。そして、ユーザの発話音声が会話ロボット１０の側で受信される度に、発話異常判定処理部２２を介して、発話音声に基づいて発話状況に異常があるか否か（発話異常有無）の判定が行われる。ここで、発話異常有と判定された際は、発話異常有の場合の担当キャラクタであるキャラクタＣがディスプレイ１４に自動的に表示され、緊急通報対応処理部２３で緊急通報文字ファイルが作成され、応答文字ファイルとして出力される。応答文字ファイルは音声出力処理部２８に入力され、緊急通報応答としての応答音声がスピーカ１５からユーザに発せられる。
以上のように、ユーザの発話音声から異常発生の前兆となる軽微な異常が検出されると、会話ロボット１０からユーザに対して直ちに異常の存在が通知されるので、ユーザの安心及び安全のレベルを高めることが可能になる。

発話異常判定処理部２２において発話異常無と判定された際には発話目的判別処理部２４が起動し、発話目的判別処理部２４は受信信号から発話目的が雑談なのか、質問なのかの判別を行なう。そして、発話目的が雑談と判別されると、雑談対応処理部２６で雑談文字ファイルが作成され、応答文字ファイルとして出力される。そして、応答文字ファイルは音声出力処理部２８に入力され、雑談応答としての応答音声がスピーカ１５からユーザに発せられる。このときディスプレイ１４には、雑談の担当キャラクタであるキャラクタＡが表示され、応答音声に合わせてキャラクタＡの顔表情が変化する。

ここで、雑談対応処理部２６では雑談確率設定手段４６を介して、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率（ユーザの意向に沿った応答雑談が行なわれる確率であって、ユーザに対する会話ロボット１０の従順度に相当）を複数の確率（例えば、９０％、６０％、３０％）の中から１つ設定することができる。これにより、ユーザは、気分に応じて会話ロボット１０の実行確率（従順度）を調節することができ、ユーザは会話ロボット１０との間に適度な距離感を設けて会話（コミュニケーション）を図ることができる。
なお、キャラクタＡは実行確率毎にそれぞれ設定されており、実行確率が設定されると、その実行確率に対応するキャラクタＡがディスプレイ１４に表示される。

非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、ユーザの発話音声（発話文字ファイル）の入力に対し無応答となる雑談無視と、ユーザの発話音声（発話文字ファイル）の入力に対し雑談を拒絶する雑談拒絶から構成される。そして、雑談実行手段４７を介して雑談を行う際に非応答雑談が選択されると、変更話題雑談、雑談無視、及び雑談拒絶の中から１つが更に任意に（例えば、乱数を用いて）選択される。これにより、会話ロボット１０に意外性、自立性、及び威嚇性を持たせることができる。
なお、雑談無視が選択された場合は雑談無視を示す雑談文字ファイルが雑談対応処理部２６で形成され、雑談拒絶が選択された場合は雑談拒絶を示す雑談文字ファイルが雑談対応処理部２６で形成され、応答文字ファイルとして音声出力処理部２８に出力される。

また、ユーザがディスプレイ１４に表示されたキャラクタＡと雑談を行なっているときに、ユーザに質問、例えば、「今日の天気が知りたい」等の回答要求や「電話をかけたい」等の依頼事項が生じた場合、ユーザは「キャラクタＢを呼んで」と発話することにより会話ロボット１０側に発話目的が質問であることを認識させることができる。その結果、ディスプレイ１４ではキャラクタＡの表示が消えてキャラクタＢが表示される。次いで、ユーザの発話音声から形成された受信信号が質問対応処理部２７に入力されて形成された質問文字ファイルが応答文字ファイルとして出力される。そして、応答文字ファイルは音声出力処理部２８に入力され、質問応答としての応答音声がスピーカ１５からユーザに発せられる。
以上のように、ユーザからの発話音声（受信信号）から先ず発話目的を特定し、次いで目的に応じた応答文字ファイルを作成するので、ユーザと会話ロボット１０との間で不自然な会話や内容の破綻した会話の発生を防止することが可能になる。

図９に示すように、放送受信会話処理部６１の操作手段６２を操作して、例えば、テレビ受像機５６を起動させると、放送受信会話処理部６１の番組情報記憶手段５９にはテレビ放送の番組情報が保存され、番組対応発話手段６０からは番組情報記憶手段５９で取得されたテレビ放送の番組情報に基づいて会話応答処理装置２５を介して作成された番組文字ファイルが応答文字ファイルとして出力される。このため、会話ロボット１０はテレビ放送の番組情報に基づいた発話をすることになって、会話ロボット１０の発話に応答したユーザからの発話音声が会話ロボット１０に受信されると、ユーザと会話ロボット１０との間でテレビ放送を視聴しながら会話が成立することになる。その結果、ユーザと会話ロボット１０との間では、相互にテレビ放送の内容に対する批判や感想の同意を求めたり、意見を聞いたりすることができる。
ここで、ビデオデッキ５７で非録画映像データ（テレビ放送番組の録画ではなく、番組情報に相当する情報が入手できないもの）を再生する場合は、発話会話ロボット１０による再生された映像に関する発話は生じないので、会話ロボット１０からの応答は、ユーザの発話に対するものとなる。

なお、会話ロボット１０でユーザの発話音声から発話目的が雑談と認識されても、雑談確率設定手段４６を介して応答雑談が選択される実行確率（会話ロボット１０の従順度）が予め設定されているので、会話ロボット１０からテレビ放送の内容に対する批判や感想の同意に対する応答、意見を聞いたことに対する応答が必ず得られることはない。このため、会話ロボット１０側の予期せぬ応答に対して、更にユーザが対応すると、新たな会話が成立することになる。

以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。
例えば、発話目的判別処理部から質問信号が確実に出力されるために、発話文字ファイル中にキャラクタＢを呼び出す情報を含ませたが、質問に対する回答が必ずしも必要でない場合は、発話音声中に質問に関する情報を含ませ、雑談が進行する過程で回答が得られるようにすることもできる。

１０：会話ロボット、１１：マイクロフォン、１２：音声入力処理部、１３：音声入力装置、１４：ディスプレイ、１５：スピーカ、１６：応答制御装置、１７：カメラ、１８：表示位置調整部、１９：修正データ演算器、２０：可動保持台、２２：発話異常判定処理部、２３：緊急通報対応処理部、２４：発話目的判別処理部、２５：会話応答処理装置、２６：雑談対応処理部、２７：質問対応処理部、２８：音声出力処理部、２９：キャラクタ設定部、３０：キャラクタ表情処理部、３１：初期状態設定部、３２：音声検出手段、３３：情報通信回線、３４：音声認識処理手段、３５：送信手段、３６：受信手段、３７：待機時間検出手段、３８：基準データ形成手段、３９：第１の警報手段、４０：確信度取得手段、４１：異常確信度設定手段、４２：第２の警報手段、４３：緊急通報文字ファイル記憶手段、４４：第１の緊急通報対応手段、４５：第２の緊急通報対応手段、４６：雑談確率設定手段、４７：雑談実行手段、４８：文字ファイルデータベース、４９：音声合成手段、５０：音声変換手段、５１：顔画像データベース、５２：顔画像選択手段、５３：画像合成手段、５４：感情推定手段、５５：画像表示手段、５６：テレビ受像機、５６ａ：テレビチューナ、５６ｂ：表示画面、５６ｃ：スピーカ、５７：ビデオデッキ、５７ａ：テレビチューナ、５７ｂ：録画記憶部、５８：ラジオ受信機、５８ａ：はラジオチューナ、５８ｂ：スピーカ、５９：番組情報記憶手段、６０：番組対応発話手段、６１：放送受信会話処理部、６２：操作手段

特表２０１６−５３６６３０号公報

前記目的に沿う本発明に係る会話ロボットは、ユーザの発話状況及び発話目的に応じて応答内容が変化する会話ロボットであって、
前記ユーザの発話音声及び該ユーザ周囲の環境音を受信するマイクロフォンと、該マイクロフォンから出力される出力信号から該ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し受信信号として出力する音声入力処理部とを備えた音声入力装置と、
前記ユーザとのロボット側の対話者として、前記応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示する表示装置と、
前記ユーザに対して応答音声を発生する音声出力装置と、
（１）前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部、（２）前記異常有信号が出力された際に、緊急通報応答としての緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部、（３）前記異常無信号が出力され、前記受信信号から前記発話目的が話題継続願望による雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が回答要求又は依頼要求による質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部、（４）前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部、（５）前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部、（６）前記応答文字ファイルから応答音声データを作成して前記音声出力装置に入力する音声出力処理部、（７）前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタＡを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタＢを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタＣをそれぞれ設定するキャラクタ設定部、（８）前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成し前記表示装置に入力するキャラクタ表情処理部、及び（９）前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタＡの顔画像を表示させる初期状態設定部を備えた応答制御装置とを有し、
前記発話文字ファイル中に前記キャラクタＢを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力され、
前記雑談対応処理部は、前記発話文字ファイルが有する話題で雑談する応答雑談が、前記発話文字ファイルが有する話題で雑談しない非応答雑談に対して実行される確率を、予め設定された複数の確率の中からユーザの意向に沿って１つ設定する雑談確率設定手段と、前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、
前記非応答雑談が実行される際は、前記発話文字ファイルに含まれるキーワードに関連する内容の新たな発話文字ファイルを作成して雑談する変更話題雑談、前記発話文字ファイルの入力に対し、予め作成しておいた雑談無視に対応する文字ファイルを出力する雑談無視、及び前記発話文字ファイルの入力に対し、予め作成しておいた雑談拒絶に対応する文字ファイルを出力する雑談拒絶の中から１つが確率的に決定され、前記キャラクタＡの顔表情は、前記応答音声に合わせて変化する。

なお、本発明に係る会話ロボットは、ユーザを撮影する撮像手段を有し、応答制御装置には、撮像手段で得られたユーザの画像を用いて、表示装置の表示面の方向を調節し、表示面に表示された担当キャラクタの顔画像をユーザに対向させる表示位置調整部が設けられていることが好ましい。
これによって、ユーザは、担当キャラクタの応答時の顔表情の変化を容易に捉えることができる。

前記音声入力装置は、前記ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し前記受信信号として出力する音声入力処理部を有し、
前記応答制御装置は、（１）前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部と、（２）前記異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部と、（３）前記異常無信号が出力され、前記受信信号から前記発話目的が雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部と、（４）前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部と、（５）前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部と、（６）前記応答文字ファイルから前記応答音声データを作成して前記音声出力装置に入力する音声出力処理部と、（７）前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタＡを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタＢを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタＣをそれぞれ設定するキャラクタ設定部と、（８）前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記画像表示データとして前記表示装置に入力するキャラクタ表情処理部と、（９）前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタＡの顔画像を表示させる初期状態設定部とを有している。

前記雑談対応処理部は、（１）前記発話文字ファイルが有する話題で雑談する応答雑談が、該発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から１つ設定する雑談確率設定手段と、（２）前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、前記キャラクタＡの顔表情は、前記応答音声に合わせて変化する。
雑談確率設定手段を介して、ユーザは会話を行なう時の気分に応じて会話ロボットに非応答雑談の機会を与える、即ち会話ロボットの従順度を設定することができる。これにより、会話ロボットとの間に適度な距離感を有するコミュニケーションを図ることができ、変化に富んだ会話を楽しむことができる。

前記非応答雑談は、（１）前記発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、（２）前記発話文字ファイルの入力に対し無応答となる雑談無視と、（３）前記発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶とを有する。
これにより、会話ロボットに意外性、自立性、及び威嚇性を持たせることができる。

前記発話文字ファイル中に前記キャラクタＢを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力される。
これにより、会話ロボットに発話目的が質問であることを確実に認識させることができ、ユーザは適切な応答内容を会話ロボットから受け取ることができる。

非応答雑談は、発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、発話文字ファイルの入力に対し無応答となる雑談無視と、発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶に分類される。なお、変更話題雑談、雑談無視、雑談拒絶の中でいずれの雑談が選択されるかは、非応答雑談が実行される際に確率的に決定される。そして、変更話題雑談が選択された場合は、例えば、発話文字ファイルに含まれるキーワードに関連する内容の新たな発話文字ファイルを作成し、会話応答処理装置２５に入力し、会話応答処理装置２５から出力された複数の文字ファイルの中から一つの文字ファイルを選択し応答文字ファイルとして出力する。また、雑談無視が選択された場合は、予め作成して文字ファイルデータベース４８として保存しておいた雑談無視に対応する文字ファイルを応答文字ファイルとして出力し、雑談拒絶が選択された場合は、予め作成しておいた雑談拒絶に対応する文字ファイルを応答文字ファイルとして出力する。

１０：会話ロボット、１１：マイクロフォン、１２：音声入力処理部、１３：音声入力装置、１４：ディスプレイ、１５：スピーカ、１６：応答制御装置、１７：カメラ、１８：表示位置調整部、１９：修正データ演算器、２０：可動保持台、２２：発話異常判定処理部、２３：緊急通報対応処理部、２４：発話目的判別処理部、２５：会話応答処理装置、２６：雑談対応処理部、２７：質問対応処理部、２８：音声出力処理部、２９：キャラクタ設定部、３０：キャラクタ表情処理部、３１：初期状態設定部、３２：音声検出手段、３３：情報通信回線、３４：音声認識処理手段、３５：送信手段、３６：受信手段、３７：待機時間検出手段、３８：基準データ形成手段、３９：第１の警報手段、４０：確信度取得手段、４１：異常確信度設定手段、４２：第２の警報手段、４３：緊急通報文字ファイル記憶手段、４４：第１の緊急通報対応手段、４５：第２の緊急通報対応手段、４６：雑談確率設定手段、４７：雑談実行手段、４８：文字ファイルデータベース、４９：音声合成手段、５０：音声変換手段、５１：顔画像データベース、５２：顔画像選択手段、５３：画像合成手段、５４：感情推定手段、５５：画像表示手段、５６：テレビ受像機、５６ａ：テレビチューナ、５６ｂ：表示画面、５６ｃ：スピーカ、５７：ビデオデッキ、５７ａ：テレビチューナ、５７ｂ：録画記憶部、５８：ラジオ受信機、５８ａ：ラジオチューナ、５８ｂ：スピーカ、５９：番組情報記憶手段、６０：番組対応発話手段、６１：放送受信会話処理部、６２：操作手段

特表２０１６−５３６６３０号公報

前記目的に沿う本発明に係る会話ロボットは、ユーザの発話状況及び発話目的に応じて応答内容が変化する会話ロボットであって、
前記ユーザの発話音声及び該ユーザ周囲の環境音を受信するマイクロフォンと、該マイクロフォンから出力される出力信号から該ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し受信信号として出力する音声入力処理部とを備えた音声入力装置と、
前記ユーザとのロボット側の対話者として、前記応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示する表示装置と、
前記ユーザに対して応答音声を発生する音声出力装置と、
（１）前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部、（２）前記異常有信号が出力された際に、緊急通報応答としての緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部、（３）前記異常無信号が出力され、前記受信信号から前記発話目的が話題継続願望による雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が回答要求又は依頼要求による質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部、（４）前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部、（５）前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部、（６）前記応答文字ファイルから応答音声データを作成して前記音声出力装置に入力する音声出力処理部、（７）前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタＡを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタＢを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタＣをそれぞれ設定するキャラクタ設定部、（８）前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成し前記表示装置に入力するキャラクタ表情処理部、及び（９）前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタＡの顔画像を表示させる初期状態設定部を備えた応答制御装置とを有し、
前記発話文字ファイル中に前記キャラクタＢを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力され、
前記雑談対応処理部は、前記発話目的が雑談と認識されても、前記発話文字ファイルが有する話題で雑談する応答雑談と、前記発話文字ファイルが有する話題で雑談しない非応答雑談のいずれを実行するかの確率を、予め設定された複数の確率の中からユーザの意向に沿って１つ設定する雑談確率設定手段と、前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、
前記非応答雑談が実行される際は、前記発話文字ファイルに含まれるキーワードに関連する内容の新たな発話文字ファイルを作成して雑談する変更話題雑談、前記発話文字ファイルの入力に対し、予め作成しておいた雑談無視に対応する文字ファイルを出力する雑談無視、及び前記発話文字ファイルの入力に対し、予め作成しておいた雑談拒絶に対応する文字ファイルを出力する雑談拒絶の中から１つが確率的に決定され、前記キャラクタＡの顔表情は、前記応答音声に合わせて変化する。

図６に示すように、雑談対応処理部２６は、発話目的判別処理部２４から雑談信号が出力された際に起動し、発話文字ファイルが有する話題で雑談する応答雑談が、発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から１つ設定する雑談確率設定手段４６と、雑談確率設定手段４６で設定された確率で雑談を行なう雑談実行手段４７とを有している。ここで、雑談確率設定手段４６では、実行確率として複数の確率値が予め設定されており、従って、雑談に対する応答を行なうキャラクタＡは、複数の確率値毎に設定される。

Claims

ユーザの発話状況及び発話目的に応じて応答内容が変化する会話ロボットであって、
前記ユーザの発話音声を受信して受信信号を出力する音声入力装置と、
前記ユーザとのロボット側の対話者として、前記応答内容に応じて設定された担当キャラクタの応答時の顔画像を表示する表示装置と、
前記ユーザに対して応答音声を発生する音声出力装置と、
前記受信信号から前記発話状況として発話異常有無の判定を行い、発話異常有と判定された際に緊急通報応答としての前記応答音声を形成し、発話異常無と判定され、かつ前記受信信号から前記発話目的が雑談と判別された際に雑談応答としての前記応答音声を形成し、発話異常無と判定され、かつ前記受信信号から前記発話目的が質問と判別された際に質問応答としての前記応答音声を形成する応答音声データを作成し前記音声出力装置に入力しながら、前記担当キャラクタの顔画像の表情を応答時に変化させる画像表示データを作成し前記表示装置に入力する応答制御装置とを有することを特徴とする会話ロボット。
請求項１記載の会話ロボットにおいて、前記担当キャラクタの顔画像はペット又は人の顔画像から形成されることを特徴とする会話ロボット。
請求項１又は２記載の会話ロボットにおいて、前記音声入力装置は、前記ユーザの発話音声を選別して発話音声ファイルに変換し、該発話音声ファイルから発話文字ファイルを作成し前記受信信号として出力する音声入力処理部を有し、
前記応答制御装置は、（１）前記受信信号から前記発話状況の発話異常有無を判定し異常有信号又は異常無信号を出力する発話異常判定処理部と、（２）前記異常有信号が出力された際に、緊急通報文字ファイルを作成し応答文字ファイルとして出力する緊急通報対応処理部と、（３）前記異常無信号が出力され、前記受信信号から前記発話目的が雑談と判別された際に雑談信号を、前記受信信号から前記発話目的が質問と判別された際に質問信号をそれぞれ出力する発話目的判別処理部と、（４）前記雑談信号が出力された際に、前記受信信号に対応する雑談文字ファイルを作成し応答文字ファイルとして出力する雑談対応処理部と、（５）前記質問信号が出力された際に、前記受信信号に対応する質問文字ファイルを作成し応答文字ファイルとして出力する質問対応処理部と、（６）前記応答文字ファイルから前記応答音声データを作成して前記音声出力装置に入力する音声出力処理部と、（７）前記発話目的判別処理部から前記雑談信号が出力された際に前記担当キャラクタとしてキャラクタＡを、前記発話目的判別処理部から前記質問信号が出力された際に前記担当キャラクタとしてキャラクタＢを、前記発話異常判定処理部から前記異常有信号が出力された際に前記担当キャラクタとしてキャラクタＣをそれぞれ設定するキャラクタ設定部と、（８）前記キャラクタ設定部で設定された前記担当キャラクタの顔画像を形成する顔画像合成データと、前記応答文字ファイルから前記担当キャラクタの感情を推定し、該感情に応じた表情を形成する顔表情データをそれぞれ作成し、前記顔画像合成データと前記顔表情データを組み合わせて前記画像表示データとして前記表示手段に入力するキャラクタ表情処理部と、（９）前記音声入力装置の起動時又は前記応答音声の発生後に、前記発話異常判定処理部から前記異常無信号を出力させると共に、前記表示装置に前記キャラクタＡの顔画像を表示させる初期状態設定部とを有していることを特徴とする会話ロボット。
請求項３記載の会話ロボットにおいて、前記雑談対応処理部は、（１）前記発話文字ファイルが有する話題で雑談する応答雑談が、該発話文字ファイルが有する話題で雑談しない非応答雑談に対して選択される実行確率を複数の確率の中から１つ設定する雑談確率設定手段と、（２）前記雑談確率設定手段で設定された確率で雑談を行なう雑談実行手段とを有し、
前記キャラクタＡは、前記実行確率毎に設定されることを特徴とする会話ロボット。
請求項４記載の会話ロボットにおいて、前記非応答雑談は、（１）前記発話文字ファイルが有する話題とは別の話題で雑談する変更話題雑談と、（２）前記発話文字ファイルの入力に対し無応答となる雑談無視と、（３）前記発話文字ファイルの入力に対し雑談を拒絶する雑談拒絶とを有することを特徴とする会話ロボット。
請求項４記載の会話ロボットにおいて、前記発話文字ファイル中に前記キャラクタＢを呼び出す情報が含まれる際は、前記発話目的判別処理部から前記質問信号が出力されることを特徴とする会話ロボット。
請求項３〜６のいずれか１項に記載の会話ロボットにおいて、（１）テレビ放送を視聴するテレビ視聴手段と、（２）テレビ放送を録画し再生する又は映像データを再生する映像処理手段と、（３）ラジオ放送を聴取するラジオ聴取手段と、（４）前記テレビ視聴手段によるテレビ放送の視聴時に該テレビ放送の番組情報を取得し、前記映像処理手段によるテレビ放送の録画時に該テレビ放送の番組情報を取得し、又は前記ラジオ聴取手段によるラジオ放送の聴取時に該ラジオ放送の番組情報を取得して保存する番組情報記憶手段と、（５）前記テレビ視聴手段によるテレビ放送の視聴時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、前記映像処理手段による録画されたテレビ放送の再生時に前記番組情報記憶手段に保存された該テレビ放送の番組情報から、又は前記ラジオ聴取手段によるラジオ放送の聴取時に前記番組情報記憶手段に保存された該ラジオ放送の番組情報から番組文字ファイルを作成して前記応答文字ファイルとして出力する番組対応発話手段とを有することを特徴とする会話ロボット。
請求項３〜７のいずれか１項に記載の会話ロボットにおいて、前記発話異常判定処理部は、（１）予め設定された時間帯で前記応答音声が発せられる度に該応答音声が発せられてから前記音声入力装置で前記発話音声が受信されるまでの待機時間を測定し、予め求めておいた前記ユーザの基準待機時間と該待機時間との偏差が設定した許容値を超える発話状況変化の発生有無を検知し、前記ユーザとの間で１日の最初の対話が成立して以降の該発話状況変化の発生の累積回数が予め設定した異常発話判定値に到達した際に発話異常有と判定し前記異常有信号として第１の異常信号を出力する第１の警報手段と、（２）前記発話文字ファイルの前記発話音声ファイルに対する確からしさを定量的に示す確信度を取得し、該確信度が予め設定された異常確信度以下となる低確信度状態の発生有無を検知し、該低確信度状態の発生の累積回数が予め設定した異常累積回数に到達した際に発話異常有と判定し前記異常有信号として第２の異常信号を出力する第２の警報手段とを有することを特徴とする会話ロボット。
請求項８記載の会話ロボットにおいて、前記緊急通報対応処理部は、（１）前記第１の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの体調変化を確認する体調確認文字ファイルを作成して出力する第１の緊急通報対応手段と、（２）前記第２の異常信号が出力された際に、前記緊急通報文字ファイルとして前記ユーザの会話認識変化を確認する会話認識度確認文字ファイルを作成して出力する第２の緊急通報対応手段とを有することを特徴とする会話ロボット。