JP2004090109A - ロボット装置およびロボット装置の対話方法 - Google Patents
ロボット装置およびロボット装置の対話方法 Download PDFInfo
- Publication number
- JP2004090109A JP2004090109A JP2002251794A JP2002251794A JP2004090109A JP 2004090109 A JP2004090109 A JP 2004090109A JP 2002251794 A JP2002251794 A JP 2002251794A JP 2002251794 A JP2002251794 A JP 2002251794A JP 2004090109 A JP2004090109 A JP 2004090109A
- Authority
- JP
- Japan
- Prior art keywords
- intimacy
- response sentence
- robot
- dialogue
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Manipulator (AREA)
Abstract
【課題】感情をこめて対話を行うロボット装置およびロボット装置の対話方法を提供する。
【解決手段】ロボットは、ロボットと人間および人間と人間との親密度を記録した親密度データベース29Aを有している。親密度データベース29Aは、人間とロボットに接するときの接し方や会話の内容をもとに更新されている。ロボットは、人間と対話する際の態度を記憶する対話データベースを有している。ロボットは、人間と対話する際、人間の会話の内容からその人間の感情を判別する。そして、ロボットは、人間の感情と人間の親密度とをもとに対話データベースを検索し、検索した態度でその人間に対して応答する。
【選択図】 図4
【解決手段】ロボットは、ロボットと人間および人間と人間との親密度を記録した親密度データベース29Aを有している。親密度データベース29Aは、人間とロボットに接するときの接し方や会話の内容をもとに更新されている。ロボットは、人間と対話する際の態度を記憶する対話データベースを有している。ロボットは、人間と対話する際、人間の会話の内容からその人間の感情を判別する。そして、ロボットは、人間の感情と人間の親密度とをもとに対話データベースを検索し、検索した態度でその人間に対して応答する。
【選択図】 図4
Description
【0001】
【発明の属する技術分野】
本発明は、ロボット装置およびロボット装置の対話方法に関し、特に、対話者を認識して対話を行うロボット装置およびこのロボット装置の対話方法に関する。
【0002】
【従来の技術】
従来、音声認識技術を利用して、使用者の発明を認識し、その発話に対する応答としての応答文を発話し、ユーザと対話する機能、およびユーザから受けた言葉を他の人間に伝達する伝達機能を有するロボットが実用化されている。
【0003】
【発明が解決しようとする課題】
ところで、従来のロボットでは、ユーザとの対話を行う際やユーザの言葉を他の人間に伝達する際にユーザとの対話や他の人間との対話の内容を考慮し、感情をこめて対話するというようなことはなされていない。感情のない音声では人間とロボットとの間に壁を作ることとなり、ロボットが人間の生活環境に溶け込むことが困難になってしまう。
【0004】
本発明は、このような状況に鑑みてなされたものであり、感情をこめて対話を行うロボット装置およびロボット装置の対話方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記の課題を解決するため、本発明にかかるロボット装置は、外部情報、外部からの働きかけに応じた動作及び/又は内部状態に基づいて自律的動作を実行し、ユーザと対話して該ユーザからの伝言を得、該ユーザが望む第三者と対話して伝言を伝えるロボット装置において、対話者を識別する識別手段と、識別手段において識別された対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定する行動決定手段とを備える。
【0006】
また、本発明にかかるロボット装置の対話方法は、外部情報、外部からの働きかけに応じた動作及び/又は内部状態に基づいて自律的動作を実行し、ユーザと対話して該ユーザからの伝言を得、該ユーザが望む第三者と対話して伝言を伝えるロボット装置の対話方法において、対話者を識別する識別工程と、識別工程において識別された対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定する行動決定工程とを備える。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明を適用したロボットについて説明する。本発明を適用したロボットは、ロボットに接触する人間を識別し、その人間が発した言葉を聞き取る。ロボットは、接触した人間との親密度を記憶・更新しており、人間との親密度を基に、接触している人間に応対する態度および返答する言葉を変化させる。
【0008】
また、ロボットは、人間同士の親密度を記憶・更新している。ロボットは、ある人間の発した言葉を他の人間に伝言するとき、人間同士の親密度と伝言する言葉の内容とを基に、伝言を与える側の人間に対する態度および伝言する言葉のニュアンスを変化させる。
【0009】
図1に示すように、ロボット1は、体幹部ユニット2の所定の位置に頭部ユニット3が連結されると共に、左右2つの腕部ユニット4R/Lと、左右2つの脚部ユニット5R/Lが連結されて構成されている(但し、R及びLの各々は、右及び左の各々を示す接尾辞である。以下において同じ。)。
【0010】
このロボット1が具備する関節自由度構成を図2に模式的に示す。頭部ユニット3を支持する首関節は、首関節ヨー軸101と、首関節ピッチ軸102と、首関節ロール軸103という3自由度を有している。
【0011】
また、上肢を構成する各々の腕部ユニット4R/Lは、肩関節ピッチ軸107と、肩関節ロール軸108と、上腕ヨー軸109と、肘関節ピッチ軸110と、前腕ヨー軸111と、手首関節ピッチ軸112と、手首関節ロール軸113と、手部114とで構成される。手部114は、実際には、複数本の指を含む多関節・多自由度構造体である。但し、手部114の動作は、ロボット装置1の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部は7自由度を有するとする。
【0012】
また、体幹部ユニット2は、体幹ピッチ軸104と、体幹ロール軸105と、体幹ヨー軸106という3自由度を有する。
【0013】
また、下肢を構成する各々の脚部ユニット5R/Lは、股関節ヨー軸115と、股関節ピッチ軸116と、股関節ロール軸117と、膝関節ピッチ軸118と、足首関節ピッチ軸119と、足首関節ロール軸120と、足部121とで構成される。本明細書中では、股関節ピッチ軸116と股関節ロール軸117の交点は、ロボット1の股関節位置を定義する。人体の足部121は、実際には多関節・多自由度の足底を含んだ構造体であるが、ロボット1の足底は、ゼロ自由度とする。したがって、各脚部は、6自由度で構成される。
【0014】
以上を総括すれば、ロボット1としては、合計で3+7×2+3+6×2=32自由度を有することになる。但し、エンターテインメント向けのロボット1が必ずしも32自由度に限定されるわけではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができる。
【0015】
上述したようなロボット1がもつ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、2足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、アクチュエータは小型且つ軽量であることが好ましい。
【0016】
図3は、ロボット1の制御システム構成を模式的に示している。ロボット1は、ヒトの四肢を表現した体幹部ユニット2,頭部ユニット3,腕部ユニット4R/L,脚部ユニット5R/Lと、各ユニット間の協調動作を実現するための適応制御を行うコントローラ10とで構成される。
【0017】
胴体部ユニット2には、ロボット全体の制御を行うコントローラ10、ロボットの動力源となるバッテリ11、並びにバッテリセンサ12および熱センサ13からなる内部センサ部14などが収納されている。
【0018】
頭部ユニット4には、「耳」に相当するマイク(マイクロフォン)15、「目」に相当するCCD(Charge Coupled Device)カメラ16、触覚に相当するタッチセンサ17、「口」に相当するスピーカ18などが、それぞれ所定位置に配設されている。
【0019】
脚部ユニット3A乃至3Dそれぞれの関節部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユニット2の連結部分、頭部ユニット4と胴体部ユニット2の連結部分などには、図2の自由度構成に対応した部分にアクチュエータA2乃至A4、A5乃至A7、A8乃至A14、A16乃至A21が配設されており、これにより、各連結部分は、所定の自由度をもって回転することができるようになっている。
【0020】
頭部ユニット4におけるマイク15は、ユーザからの発話を含む周囲の音声(音)を集音し、得られた音声信号を、コントローラ10に送出する。CCDカメラ16は、周囲の状況を撮像し、得られた画像信号を、コントローラ10に送出する。
【0021】
タッチセンサ17は、例えば、頭部ユニット4の上部に設けられており、ユーザからの「なでる」や「たたく」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ10に送出する。
【0022】
胴体部ユニット2におけるバッテリセンサ12は、バッテリ11の残量を検出し、その検出結果を、バッテリ残量検出信号としてコントローラ10に送出する。熱センサ13は、ロボット内部の熱や外気の温度を検出し、その検出結果を、コントローラ10に送出する。
【0023】
ロボット1の動作は、コントローラ10によって統括的に制御される。コントローラ10は、CPU10Aやメモリ10Bを内蔵し、CPU10Aにおいて、メモリ10Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。
【0024】
即ち、コントローラ10は、バッテリセンサ12や、熱センサ13、マイク15、CCDカメラ16、タッチセンサ17から与えられる各信号に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断する。
【0025】
さらに、コントローラ10は、この判断結果等に基づいて、続く行動を決定し、その決定結果に基づいて、アクチュエータA2乃至A4、A5乃至A7、A8乃至A14、A16乃至A21のうちの必要なものを駆動する。これにより、ロボット1は、頭部ユニット4を上下左右に振る、各脚部ユニットA16乃至A21を駆動する、ロボットを歩行するなどの行動を行う。
【0026】
また、コントローラ10は、必要に応じて、合成音を生成し、スピーカ18に供給して出力させる。
【0027】
以上のような構成を備えることによって、ロボット1は、外部情報、外部からの働きかけに応じた動作及び/又は内部状態に基づいて自立的に行動できるようになっている。
【0028】
次に、図4は、コントローラ10のユーザの発話に対する応答としての応答文を発話し、対話を行う機能(以下、対話機能と称する)を実行するための機能ブロック図である。なお、この対話機能は、CPU10Aが、メモリ10Bに記憶された制御プログラムを実行することによって実現されるようになっている。
【0029】
話者識別部21にはマイク15から話者の音声が、CCD16カメラが撮像した話者の画像が入力される。話者認識部は、対話管理部26に制御され、入力された音声および入力された画像に基づき識別情報記憶部21Aを参照して話者を識別する。
【0030】
すなわち、識別情報記憶部21Aには、話者となり得るユーザの音声のピッチやフォルマントなどのユーザ固有の音声情報、およびユーザの画像上の特徴量が記録されている。
【0031】
話者識別部21は、入力された音声に対して、適応フィルタバンク等の音響処理を施し、ピッチやフォルマントを抽出し、また、入力された画像から特徴量を抽出し、識別情報記憶部21Aから、それらの抽出結果に対応するユーザのID(識別番号)を検出する。
【0032】
話者識別部21は、IDと名前を関連付けるネームリストデータベース21Bを有する。ネームリストデータベース21Bは、図5に示すように、名前を格納するフィールドと、IDを格納するフィールドの2つのフィールドが設けられている。ネームリストデータベース21Bには、ロボット自身のIDも設定されており、この例ではロボットのIDは”0”となっている。
【0033】
音声認識部22は、対話管理部26により制御され、マイク15から与えられる音声信号を用いて、音声認識を行い、その音声認識結果としてのテキスト、その他付随する情報(例えば、ワードグラフ等)をバッファ23に出力する。バッファ23は、その音声認識結果を一時的に保持し、対話管理部26からの指令に基づくタイミングで、対話管理部26に出力する。
【0034】
言語解析部24は、対話管理部26により制御され、バッファ23を介して入力される音声認識部22による音声認識結果を解析し、ユーザの発話の内容の意味理解を行い、その意味理解の結果としての単語情報や構文情報をバッファ25に出力する。バッファ25は、その意味理解の結果を一時的に保持し、対話管理部26からの指令に基づくタイミングで意味理解の結果を対話管理部26に出力する。
【0035】
対話管理部26は、バッファ25を介して入力される言語解析部24による意味理解の結果に対応する応答文(テキスト)を生成するために必要な応答文の意味や概念を表す情報(以下、応答文意味情報と称する)を生成する。対話管理部26は、この際、話者識別部21から送出された識別情報により識別される話者との対話(対話履歴)を利用して、行動指令情報および応答文意味情報を生成する。
【0036】
応答文生成部27は、対話管理部26から入力される応答文意味情報を基に、応答文(テキスト)を生成し、音声合成部28に出力する。応答文生成部27は、応答文を生成するとき、言語解析部24から入力される意味理解の結果と、話者識別部21から入力される識別結果と、話者とロボットの親密度とを基に、話者に返答する際の態度および対話管理部26から入力された応答文を変化させる。また、話者から他の人間に伝言を頼まれた場合、応答文生成部27は、話者と他の人間との親密度を参照し、伝言する相手への態度及び対話管理部26から入力された応答文を変化させる。
【0037】
音声合成部28は、応答文生成部27が出力する応答文に対応する合成音を生成し、スピーカ18に出力する。
【0038】
図6は、音声認識部22の構成例を示している。話者の発話は、マイク15に入力され、マイク15で、電気信号としての音声信号に変換され、AD(AnalogDigital)変換部51に供給される。AD変換部31では、マイク15からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、特徴抽出部32に供給される。
【0039】
特徴抽出部32は、AD変換部31からの音声データについて、適当なフレームごとに、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴パラメータを抽出し、マッチング部33に供給する。
【0040】
マッチング部33は、特徴抽出部32からの特徴パラメータに基づき、音響モデルデータベース34、辞書データベース35、および文法データベース36を必要に応じて参照しながら、マイク15に入力された音声(入力音声)を認識する。
【0041】
即ち、音響モデルデータベース34は、音声認識する音声の言語におけるここに音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここで、音響モデルとして、例えば、HMM(Hidden Markov Model)などを用いることができる。辞書データベース35は、認識対象の各単語について、その発音に関する情報が記述された単語辞書を記憶している。文法データベース36は、辞書データベース35の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法(FG)や、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
【0042】
マッチング部33は、辞書データベース35の単語辞書を参照することにより、音響モデルデータベース34に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、マッチング部33は、幾つかの単語モデルと、文法データベース36に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴パラメータに基づき、例えば、HMM法等によって、マイク15に入力された音声を認識する。マッチング部33による音声認識結果は、例えば、テキスト等で、バッファに出力される。
【0043】
図7は、言語解析部24の構成例を示している。言語解析部24のテキスト解析部41には、音声認識部22による音声認識結果としてのテキストが入力される。テキスト解析部41は、辞書データベース42や解析用文法データベース43を参照しながら、そのテキストを解析する。
【0044】
辞書データベース42には、各単語の表記や、解析用文法を適用するために必要な品詞情報などが記述された単語辞書が記憶されている。また、解析用文法データベース43には、単語辞書に記述された各単語の情報に基づいて、単語連鎖に関する制約等が記述された解析用文法規則が記憶されている。
【0045】
テキスト解析部41は、その単語辞書や解析用文法規則に基づいて、そこに入力されるテキスト(入力テキスト)の形態素解析や、構文解析等を行い、その入力テキストの意味理解を行い、その意味理解の結果としての言語情報をバッファに出力する。
【0046】
例えば、音声認識部22による、ユーザの発話「ワタナベさんに僕の車壊れちゃったと伝えておいてね」の音声認識結果(テキスト)が入力された場合、テキスト解析部41において、その形態素解析や構文解析が行われ、「伝えておいてね」から”伝言を頼まれた”との意味理解が行われ、「ワタナベさんに」から伝言する相手は”ワタナベさん”であるとの意味理解が行われる。また、「僕の車」「壊れちゃった」から伝言する内容は、”話者の車”が”壊れた”ことであるとの意味理解が行われる。テキスト解析部41による認識結果は、伝言[[伝えておいてね],対象者[ワタナベさん],伝言内容[動作[壊れちゃった],対象物[車],対象者[僕の]]]となる。
【0047】
親密度更新部29は、親密度データベース29Aを更新する。図8に示すように、親密度データベース29Aは、2つのIDと親密度とを関連付けて記憶している。親密度とは、親しさの度合いを数値化したものである。
【0048】
ここで説明するロボット1は、親密度更新部によって更新される親密度に基づいて対話者に応対するときの態度を変更し、対話に感情を持たせることができる。
【0049】
以下、本実施の形態における親密度を更新する例について説明する。親密度は、1.0から0.0の間の値をとり、親密度1.0のとき互いの関係は非常に良好とし、親密度0.0のとき互いの関係は非常に疎遠とする。親密度データベース29Aにおいて、IDが0であるデータは、ロボットと他の人間との親密度であり、その他のデータはある人間と他の人間との親密度である。親密度更新部29は、ロボットと人間との親密度と、ある人間と他の人間との親密度とを異なる方法で計算している。
【0050】
以下、親密度の更新方法について説明する。親密度更新部29は、ロボットと人間との親密度を計算する場合、話者識別部21の識別結果と各センサからの検出結果とを入力し、センサの検出結果から何らかのインタラクションを受けたことを検出すると、インタラクションを与えた話者に対する親密度を更新する。親密度は、初期値を0.5とし、インタラクションの種類と、回数およびインタラクションを受けた時間などを基に更新される。
【0051】
インタラクションの種類には、人間がロボットに対して食事を提供する、話かける、ボール遊びをするなどがある。
【0052】
例えば、タッチセンサ17の検出結果からロボットの頭がなでられたことやたたかれたことを検出すると、親密度更新部29は、頭をなでた回数や頭をたたいた回数を以下の計算式(1)(2)に代入し、親密度を更新するための計算を行う。
頭をなでられた回数×aを足す(aは係数) ・・・(1)
頭をたたかれた回数×aを引く(aは係数) ・・・(2)
また、親密度更新部29は、インタラクションを受けた時間を計測し、この時間を以下の計算式(3)(4)に代入し、親密度を更新するための計算を行う。
インタラクション時間の総和/起動時間の総和×bを足す・・・(3)
(インタラクション中の正の感情−インタラクション中の負の感情)×cを足す(cは係数) ・・・(4)
上記式(3)により、インタラクション時間が長いほど親密度が高くなり、上記式(4)により、インタラクション中にロボットの気分がよければ親密度が高くなり、不快な感情が強ければ親密度が低くなる。また、話者識別部21からの入力が少ない人間、ロボットとの接触の少ない人間は、時間に応じて徐々に親密度が減少する。親密度更新部29は、このようにして、ロボット自身と他の人間との親密度を更新する。
【0053】
また、ある人間と他の人間との間の親密度を更新する場合、親密度更新部29は、人間の会話の意味および口調をもとに親密度データベース29Aを更新する。親密度の更新方法は複数考えられる。
【0054】
第1の方法は、ロボット1が人間に直接質問する方法である。親密度更新部29は、「Aさん、Bさんのこと好き?」などと質問をするようにロボットを制御し、このときのAさんの返答に応じてAさんとBさんとの親密度を更新する。
【0055】
第2の方法は、ロボットと人間との会話の内容から推測する方法である。ある人間とロボットとが会話をしているとき、親密度更新部29は、話者認識部の認識結果と、言語解析部24からの解析結果をもとに、誰がどのような会話をしているかを認識する。そして、話者が他の人間ついての会話しているときに、親密度更新部29は、話者が話している人間の名前からIDを読み出し、話者の会話の内容およびイントネーションなどをもとに、話者と話者が話している人間との親密度を更新する。また、親密度更新部29は、話者がある人間について話すときの回数および頻度を記憶しておき、回数や頻度が高いほど親密度を高くする。
【0056】
第3の方法は、ロボットを含まない複数の人間の会話から推測する方法である。複数の人間が会話をしているとき、親密度更新部29は、話者認識結果の認識結果と、言語解析部24からの解析結果をもとに、会話をしている人間の親密度および会話に出場する人間の親密度を更新する。例えば、A、B、C、Dの4人が会話をしているとき、AさんがBさんに対して冷たい口調で話しかけると、親密度更新部29は、AさんとBさんとの親密度を低くする。また、A、B、C、Dの4人が会話をしているとき、その場にいないEさんという人間を誉めていれば、親密度更新部29は、A、B、C、Dの4人とEさんの親密度を高くする。
【0057】
図9は、対話管理部26の構成例を示している。対話管理部26の対話制御部51には、言語解析部24による意味理解の結果および話者識別部21による識別結果が入力される。対話制御部51は、その意味理解の結果の一部または全部を、対話履歴記憶部52に順次供給して記憶させる。これにより、対話履歴記憶部52には、対話履歴が記憶され、また更新される。
【0058】
対話制御部51は入力される意味理解の結果(ユーザの発話)に基づき、シナリオ記憶部53を参照して、ユーザの発話に対する応答としての行動の行動指令情報を生成する。
【0059】
シナリオ記憶部53には、発話に対する応答としての行動の行動指令情報を生成するのに必要な情報がどのような情報であるかを示す情報が、行動に対応するフレーム毎に記憶されている。
【0060】
対話制御部51は、発話に対する応答としての行動に対応するフレームをシナリオ記憶部53から検出し、検出したフレームに示されている必要情報項目に対応して、その必要情報をフレームに埋め込む。これにより、行動指令情報が生成される。具体的には、フレームに示される必要情報項目の必要情報が、発話の意味理解の結果に含まれている場合、対話制御部51はそこから必要情報をよみとり、そのフレームに埋め込む。一方、必要情報が発話の意味理解の結果に含まれていない場合、対話制御部51は、必要情報を対話履歴記憶部52から検出し、そのフレームに埋め込む。
【0061】
例えば、「○○(ロボットの名称)ちゃん新聞とってきてくれる」の意味理解の結果として、要求[くれる,動作[取ってくる,対象物[新聞],対象者[ロボット,敬称[ちゃん]]]]が入力され、その発話に対する応答としての、ロボットが新聞を取ってくる行動に対応するフレームによれば、その行動指令情報を生成するために、対象物[新聞]が置かれている場所の情報(必要情報)がさらに必要であるとされている場合、対話制御部51は、その必要情報(対話の中で省略され、対話理解の結果には含まれていない必要情報を対話履歴記憶部52から検出し、そのフレームに埋め込む。
【0062】
例えば、対象物[新聞]が、新聞受けに置かれていることが検出された場合、その必要情報は、フレームに埋め込まれ、行動指令情報として、要求[くれる,動作[取ってくる,対象物[新聞],場所[新聞受け]],対象者[ロボット、敬称[ちゃん]]]が生成される。
【0063】
対話履歴記憶部52には、対話履歴が話者ごとに記憶されている。なお、対話履歴記憶部52から、必要情報を検出する際、対話制御部51は、対話履歴記憶部52に記憶されている話者ごとの対話履歴のうち、話者識別部21により識別された話者の対話履歴を参照する。
【0064】
また、必要情報がユーザの意味理解の結果および対話履歴記憶部52の両方から検出することができないとき、すなわち、必要情報が、意味理解の結果にも含まれず、対話履歴記憶部52にも記憶されていないとき、対話制御部51は、知識データベース54に記憶されている手順に従い、その必要情報をユーザから聞きとるための応答文の応答意味情報を生成し、応答文生成部27に出力する。これにより、この応答文意味情報に基づいて生成された応答文が発話され、その応答としての発話から必要情報が取得される。その結果、行動指令情報が生成される。
【0065】
例えば、上述の例では、新聞の置かれている場所が意味理解の結果にも含まれず、対話履歴記憶部52にも記憶されていない場合、知識データベース54に記憶されている手順に従って、例えば、応答文意味情報として対象者[ロボット,敬称[ちゃん]],動作[取ってくる,対象物[新聞],場所[?]]が生成される。このように、過去の対話の中で、すでに指定されており、対話の中で省略されている事柄については、対話履歴から検出される。
【0066】
すなわち、知識データベース54には、対話の中で、ユーザが所定の情報を聞きとるための応答文の応答文意味情報を生成するための手順が記憶されている。
【0067】
以上のようにして生成された行動指令情報は、コントローラ10の他の機能である。アクチュエータA2乃至A4、A5乃至A7、A8乃至A14、A16乃至A21などを制御する機能において用いられる。これにより、その行動指令情報に基づいて、例えば、必要なアクチュエータが駆動され、例えば、ロボットは、新聞受けまで歩行するなどの行動を取る。
【0068】
図10は、応答文生成部27の構成例を示している。応答文生成部27のテキスト生成部61には、対話管理部26からの応答文意味情報が入力される。応答文生成部27は、応答文意味情報に基づき、生成規則データベース62を参照して、応答文(テキスト)を生成する。また、応答文生成部27は、話者の感情を推定し、推定した結果と親密度とを基に、応答文を変化させたり、応答するときのイントネーションや態度を変化させる。
【0069】
応答文生成部27は、言語解析部24の解析結果を基に、話者の感情を推定する。例えば、話者がロボットに対して、「僕の車壊れちゃった」と発話すると、言語解析部24の解析結果は、動作[壊れた],対象物[[車],対象者[僕の]]となる。応答文生成部27は、「壊れた」というネガティブの言葉があることから、話者の伝言属性(以下、感情のカテゴリーと記す)を「悲しみ」に分類する。
【0070】
そして、応答文生成部27は、親密度データベース29Aとネームリストデータベース21Bとを読み出す。応答文生成部27は、話者識別部21から入力される話者のIDとロボットのID”0”をキーとして親密度データベース29Aを検索し、ロボットと話者との親密度を読み出す。
【0071】
また、話者がロボットに伝言を依頼した場合、応答文生成部27は、対話管理部26からの応答文意味情報をもとに、伝言する人間(以下、伝言対象者と称する)の名前を抽出する。例えば、話者がロボットに対して、「ワタナベさんに僕の車が壊れちゃったと伝えておいてね」と発話した場合、言語解析部24の解析結果は、伝言[[伝えておいてね],対象者[ワタナベさん],伝言内容[動作[壊れちゃった],対象物[車],対象者[僕の]]]となる。応答文生成部27は、伝言対象者の名前”ワタナベ”を読み出し、伝言対象者の名前”ワタナベ”をキーとしてネームリストデータベース21Bから伝言対象者のIDを検索する。
【0072】
応答文生成部27は、話者のIDとロボットのID”0”、伝言対象者のIDとロボットのID”0”、話者のIDと伝言対象者のIDとをキーとして親密度データベース29Aを検索し、話者とロボットとの親密度、伝言対象者とロボットとの親密度、話者と伝言対象者との親密度を読み出す。応答文生成部27は、親密度を読み出すと、環境から親密度への影響を考慮した値、インタラクションバリュー(以降、IVと称する)を算出する。
【0073】
応答文生成部27は、IVを算出すると、対話データベース63を参照して話者または伝言対象者に応答するときの態度、および応答文に付加する語尾を選択する。対話データベース63は、応答するときの語調、スピード、抑揚、語尾などが記録されており、これらのデータは、会話に含まれる感情のカテゴリー、ロボットが応答する相手、およびロボットと話者または伝言対象者とのIVごとに分類されている。
【0074】
具体的に説明すると、図11、図12に示すように、対話データベース63は、ロボットが応答する相手が話者または伝言対象者であるかによって分類されており、さらに、話者または伝言対象者とロボットとのIVが0.5以上であるか、0.5未満であるかによって分類されている。すなわち、対話データベース63は、「ロボットと話者のIVが0.5以上のとき」、「ロボットと話者のIVが0.5未満のとき」、「ロボットと伝言対象者のIVが0.5以上のとき」、「ロボットと伝言対象者のIVが0.5未満のとき」の4つのパターンに分類されている。さらに、対話データベース63は、会話に含まれる感情のカテゴリーによっても分類されており、感情のカテゴリーには、「怒り」、「喜び」、「悲しみ」、「謝罪」、「感情なし」があり、感情のカテゴリーに対応した語調、スピード、抑揚、語尾が記憶されている。
【0075】
応答文生成部27は、対話する相手、IV、感情のカテゴリーをもとに、対話データベース63を検索すると、検索した語尾を応答文に付加する。そして、応答文生成部27は、語尾を付加した応答文、検索した語調、スピード、抑揚などのデータを音声合成部28に出力する。
【0076】
図13は、音声合成部28の構成例を示している。音声合成部28のテキスト解析部71には、応答文生成部27により生成された応答文(テキスト)が音声合成処理の対象として入力されるようになっており、テキスト解析部71は、辞書データベース72や解析用文法データベース73を参照しながら、そのテキストを解析する。
【0077】
即ち、辞書データベース72には、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書が記憶されており、また、解析用文法データベース73には、辞書データベース72の単語辞書に記述された単語について、単語連鎖に関する制約等の解析用文法規則が記憶されている。そして、テキスト解析部71は、この単語辞書および解析用文法規則に基づいて、そこに入力されるテキストの形態素解析や構文解析等の解析を行い、後段の規則合成部74で行われる規則音声合成に必要な情報を抽出する。ここで、規則音声合成に必要な情報としては、例えば、ポーズの位置や、アクセントおよびイントネーションを制御するための情報その他の韻律情報や、各単語の発音等の音韻情報などである。
【0078】
また、テキスト解析部71は、規則音声合成に必要な情報を抽出する際、応答文生成部27から入力される応答文の語調、スピード、抑揚などのデータを加味し、規則音声合成に必要な情報を変更する。
【0079】
テキスト解析部71で得られた情報は、規則合成部74に供給され、規則合成部74では、音素片データベース75を用いて、テキスト解析部71に入力されたテキストに対応する合成音の音声データ(ディジタルデータ)が生成される。
【0080】
即ち、音素片データベース75には、例えば、CV(Consonant,Vowel)や、VCV、CVC等の形で音素片データが記憶されており、規則合成部74はテキスト解析部71からの情報に基づいて、必要な音素片データを接続し、さらに、ポーズ、アクセント、イントネーション等を適切に付加することで、テキスト解析部71に入力されたテキストに対応する合成音の音声データを生成する。
【0081】
この音声データは、DA変換部76に供給され、そこで、アナログ信号としての音声信号に変換される。この音声信号は、スピーカ18に供給され、これにより、テキスト解析部71に入力されたテキストに対応する合成音が出力される。
【0082】
次に、上記ロボットが話者からの伝言を受け、伝言対象者に伝える動作について、図14のフローチャートを参照して説明する。
【0083】
例えば、「ワタナベさんに僕の車が壊れちゃったと伝えておいてね」と話者がロボットに発話すると、話者の音声はマイク15を介して音声認識部22に出力される。音声認識部22は、話者の音声を用いて音声認識を行い、音声認識結果としてのテキスト「ワタナベさんに僕の車が壊れちゃったと伝えておいてね」をバッファに出力する。
【0084】
言語解析部24は、音声認識部22の認識結果「ワタナベさんに僕の車が壊れちゃったと伝えておいてね」(テキスト)が入力されると、このテキストの意味理解を行う。言語解析部24は、伝えておいてねから、“伝言を頼まれた”との意味理解が行われ、「ワタナベさんに」から伝言する相手は“ワタナベさん”であるとの意味理解が行われる。また、「僕の車」「壊れちゃった」から伝言する内容は、“話者の車”が“壊れた”ことであるとの意味理解が行われる。言語解析部24による認識結果は、伝言[[伝えておいてね],対象者[ワタナベさん],伝言内容[動作[壊れちゃった],対象物[車],対象者[僕の]]]となる。
【0085】
対話管理部26は、言語解析部24からの出力結果をもとに応答文意味情報を生成し、応答文生成部27に出力する。
【0086】
応答文生成部27は、言語解析部24の出力結果、伝言[[伝えておいてね],対象者[ワタナベさん],伝言内容[動作[壊れちゃった],対象物[車],対象者[僕の]]]を入力すると、この出力結果のなかに「壊れた」というネガティブな言葉があることから、話者の感情のカテゴリーを「悲しみ」と分類する(ステップS1)。
【0087】
次いで、応答文生成部27は、ネームリストデータベース21Bと親密度データベース29Aとを読み出す(ステップS2)。話者識別部21は、ロボットが会話をしている話者の識別を行う(ステップS3)。話者識別部21は、話者の識別を行うと(ステップS3;YES)、話者のIDを応答文生成部27に出力する(ステップS4)。話者識別部21は、話者のデータが記憶されておらず話者が識別できない場合(ステップS3;NO)、話者を識別できなかった旨を対話管理部26に出力する。対話管理部26は、話者識別部21からの出力に応じて、話者の名前をたずねる応答文意味情報を生成する。この応答文に対し話者が自分の名前を返答した場合、応答文生成部27は、話者の名前にIDを付けてネームリストデータベース21Bに格納する。例えば、話者が「私は“ヤマダ”です」と応答すると応答文生成部27は、言語解析部24からの出力を入力し、“ヤマダ”さんにID“4”を付加してネームリストデータベース21Bに格納する(ステップS5)。ステップS5において、話者の名前とIDがネームリストデータベース21Bに格納されると、ステップS6に処理を移行する。
【0088】
応答文生成部27は、対話管理部26からの応答文意味情報および言語解析部24からの解析結果をもとに、伝言を伝える相手(伝言対象者)が“ワタナベ”さんであることを認識する。そして、名前が“ワタナベ”であるデータをネームリストデータベース21Bから検索する(ステップS6)。応答文生成部27は、“ワタナベ”という名前がネームリストデータベース21Bに記録されていない場合(ステップS6;NO)、名前“ワタナベ”さんにID“5”を付加してネームリストデータベース21Bに格納するとともに、親密度データベース29Aの話者(=ID“4”)とワタナベさん(=ID“5”)親密度を0.5に設定し(ステップS7)、ステップS8に処理を移行する。
【0089】
また、ステップS6において、伝言対象者の名前“ワタナベ”がネームリストデータベース21Bに存在する場合(ステップS6;YES)、ステップS8に処理を移行する。
【0090】
応答文生成部27は、話者とロボットの親密度、伝言対象者とロボットの親密度、話者と伝言対象者との親密度を親密度データベース29Aから読み出す。
【0091】
例えば、話者“ヤマダ”、伝言対象者“ワタナベ”であるとき、図5のネームリストデータベース21Bを参照すると、話者のIDは“4”、伝言対象者のIDは“5”となる。また、ロボットのIDは“0”である。そこで、それぞれのIDをもとに、図8の親密度データベース29Aを検索すると、話者(=ID“4”)とロボット(=ID“0”)の親密度は0.5、伝言対象者(=ID“5”)とロボット(=ID“0”)の親密度は0.7、話者(ID“4”)と伝言対象者(=ID“5”)の親密度は0.7となる(ステップS8)。
【0092】
そして、応答文生成部27は、IVを計算する。IVとは、外部の環境から親密度への影響を考慮した値である。外部の環境とは、職場、結婚式、葬式、自宅、屋外などのロボットが存在する周囲の環境のことである。
【0093】
IVを計算する例として、外部の環境が屋外か屋内かによってIVを変更する例について説明する。屋外にいるときの人間は感情を表に出しにくくなる。そのため、親密度が0.5以上のとき親密度から0.1を引いた値をIVとし、親密度が0.5未満のとき親密度に0.1足した値をIVとする。また、親密度が0.5以上でIVが0.5未満になるときはIVを0.5とし、親密度が0.5未満でIVが0.5を超える場合には、IVを0.49とする。また、IVの影響が生じない場合には、IV=親密度とする(ステップS9)。
【0094】
応答文生成部27は、対話管理部26から入力した応答文意味情報をもとに、応答文を生成するとともにロボットと話者のIVおよび話者の会話に含まれる感情のカテゴリーをもとに、対話データベース63を検索し、ロボットが話者に話しかける際の語調、スピード、抑揚、語尾を検索する。
【0095】
上記の例を用いて説明すると、話者“ヤマダ”と“ロボット”との親密度は0.5である。ここで外部環境からの影響はなくIV=親密度とすると、IV=0.5となる。また、ステップS1において、話者“ヤマダ”の伝言属性は“悲しみ”に分類されている。そこで、ロボットと話者のIVが0.5、感情のカテゴリーが“悲しみ”のデータを図11および図12の対話データベース63から検索すると、語調“悲しみに同調する”、スピード“ゆっくり”、抑揚“少し低い音”、語尾“元気を出してよ”となる。応答文生成部27は、対話管理部26から入力した応答文意味情報をもとに応答文“車壊れちゃったのか”を生成し、この応答文に語尾“元気を出してよ”を付加した応答文“車壊れちゃったのか、元気出してよ”と、語調“悲しみに同調する”、スピード“ゆっくり”、抑揚“少し低い音”というデータを音声合成部28に出力する。
【0096】
音声合成部28は、語調、スピード、抑揚というデータを加味しながら、応答文の音声合成を行い、音声データを生成する。音声合成部28は、生成した音声データをDA変換部76に出力し、応答文“車壊れちゃったのか、元気出してよ”が音声として出力され、話者とロボットとの間の対話が行われる。(ステップS10)。
【0097】
ロボットが伝言対象者に伝言を送る場合、対話データベース63の他に伝言データベース64を用いて、ロボットの応答文の語尾および語調などを変化させる。
【0098】
伝言データベース64は、図15に示すように、話者と伝言対象者とのIV、感情のカテゴリーによって区分されている。すなわち、伝言データベース64は、「話者と伝言対象者のIVが0.5以上のとき」と「話者と伝言対象者のIVが0.5未満のとき」の2つのパターンに分類されている。さらに、伝言データベース64は、会話に含まれる感情のカテゴリーによっても分類されており、感情のカテゴリーには、「怒り」、「喜び」、「悲しみ」、「謝罪」、「感情なし」がある。
【0099】
伝言データベース64は、話者と伝言対象者とのIVをもとにデータを区分している点を特徴としており、応答文生成部27は、話者と伝言対象者とのIVが算出できた際には、対話データベース63を基本として使用し、語尾については伝言データベース64を使用する。話者と伝言対象者のIVは算出できないが、話者とロボットおよび伝言対象者とロボットのIVが算出できた際には、対話データベース63を使用する。
【0100】
上述の例では、話者“ヤマダ”と伝言対象者“ワタナベ”の間の親密度は”0.7”である。ここで、IV=親密度とすると、IV=0.7となる。また、ステップS1において、感情のカテゴリーは”悲しみ”と判定されている。図15の伝言データベースにおいて、話者と伝言対象者とのIVが0.5以上、感情のカテゴリーが”悲しみ”であるときの語尾は“慰めてあげてよ”になる。ここで、応答文生成部27が、“ワタナベさんの車壊れたっていってたよ”という応答文を生成している場合、この応答文の語尾に“慰めてあげてよ”を付加し、“ワタナベさんの車壊れたっていってたよ、慰めてあげなよ”という応答文を生成する。
【0101】
応答文生成部27は、生成した応答文を音声合成部28に出力し、音声合成部28は、音声合成を行い、音声データを生成する。音声合成部28は生成した音声データをDA変換部76に出力する。DA変換部76は、音声データをアナログデータに変換し、このデータはスピーカ18を介して音声として出力される。これにより、ロボットと伝言対象者との対話が行われる(ステップS11)。
【0102】
また、話者と伝言対象者とのIVが計算できなかった場合、応答文生成部27は、応答文に付加する語尾、応答文を発話するときの語調、スピード、抑揚などを対話データベース63から検索して、この検索結果に応じて応答文を発話する。
【0103】
上記の例では伝言対象者とロボットの親密度は0.7、IV=親密度とすると、IV=0.7となる。応答文生成部27は、ロボットと伝言対象者のIVが0.5以上、感情のカテゴリーが悲しみのデータを対話データベース63から検索する。この検出結果は、語調“親切に伝言”、スピード”普通”、抑揚“フラット”、語尾“どうする?”となる。ここで、応答文生成部27が“ワタナベさん車壊れたっていってたよ”という応答文を生成している場合、この応答文の語尾に“どうする?”が付加されて、応答文は、“ワタナベさん車壊れたっていってたよ、どうする?”となる。そして、応答文生成部27は、生成した応答文と、語調、スピード、抑揚などのデータを音声合成部28に出力し、音声として出力させる。
【0104】
以上のように、本発明を適用したロボット1は、周囲の人間とロボット1との親密度および人間同士の親密度を記憶・更新することができる。また、このロボット1は、この親密度に基づいて対話者への応答および応答するときの態度を変更できる。
【0105】
また、ロボット1は、会話の内容をもとに話者がどのような感情であるかを推定し、この推定結果と親密度との2つの因子に基づいて対話者への応答および応答するときの態度を変更できる。
【0106】
また、ロボット1は、外部の環境のような外的要因がロボットおよび人間の親密度に影響を与えることを考慮し、インタラクションバリューを計算する。ロボット1は、このインタラクションバリューに基づいて対話者への応答および応答するときの態度を変更できる。
【0107】
このように、ロボット1は、会話相手、会話の内容および外的要因に応じて応答する内容および応答するときの態度を変更できることから、ロボット1の応対に感情がこもる。これにより、人間は、ロボットに対して親しみを感じるようになる。
【0108】
なお、本明細書において、記録媒体により提供されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0109】
【発明の効果】
上述のように、本発明にかかるロボット装置は、伝言を伝える際に、対話者を識別し、識別した対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定することによって、感情をこめて対話を行うことができる。
【0110】
また、本発明にかかるロボット装置の対話方法は、伝言を伝える際に、対話者を識別し、識別した対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定することによって、ロボットに感情をこめて対話をさせることができる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの外観の構成例を示す図である。
【図2】図1のロボットの自由度構成モデルを模式的に示す図である。
【図3】図1のロボットの内部の構成例を示すブロック図である。
【図4】対話機能を実行するための機能ブロック図である。
【図5】ネームリストデータベースの構造を示す図である。
【図6】音声認識部の構成を示すブロック図である。
【図7】言語解析部の構成を示すブロック図である。
【図8】親密度データベースの構成を示す図である。
【図9】対話管理部の構成を示す図である。
【図10】応答文生成部の構成を示す図である。
【図11】対話データベースの構成を示す図である。
【図12】対話データベースの構成を示す図である。
【図13】音声合成部の構成を示す図である。
【図14】対話機能の処理の流れを示すフローチャートである。
【図15】伝言データベースの構成を示す図である。
【符号の説明】
10 コントローラ、10A CPU、10B メモリ、15 マイク、16CCDカメラ、21 話者識別部、21B ネームリストデータベース、22音声認識部、23 バッファ、24 言語解析部、25 バッファ、26 対話管理部、27 応答文生成部、28 音声合成部、29 親密度更新部、29A 親密度データベース、31 AD変換部、32 特徴抽出部、33 マッチング部、34 音響モデルデータベース、35 辞書データベース、36 文法データベース、41 テキスト解析部、42 辞書データベース、43 解析用文法データベース、51 対話制御部、52 対話履歴記憶部、53 シナリオ記憶部、54 知識データベース、61 テキスト生成部、62 生成規則データベース、63 対話データベース、64 伝言データベース、71 テキスト生成部、72 辞書データベース、73 解析用文法データベース、74 規則合成部、75 音素片データベース、76 DA変換部
【発明の属する技術分野】
本発明は、ロボット装置およびロボット装置の対話方法に関し、特に、対話者を認識して対話を行うロボット装置およびこのロボット装置の対話方法に関する。
【0002】
【従来の技術】
従来、音声認識技術を利用して、使用者の発明を認識し、その発話に対する応答としての応答文を発話し、ユーザと対話する機能、およびユーザから受けた言葉を他の人間に伝達する伝達機能を有するロボットが実用化されている。
【0003】
【発明が解決しようとする課題】
ところで、従来のロボットでは、ユーザとの対話を行う際やユーザの言葉を他の人間に伝達する際にユーザとの対話や他の人間との対話の内容を考慮し、感情をこめて対話するというようなことはなされていない。感情のない音声では人間とロボットとの間に壁を作ることとなり、ロボットが人間の生活環境に溶け込むことが困難になってしまう。
【0004】
本発明は、このような状況に鑑みてなされたものであり、感情をこめて対話を行うロボット装置およびロボット装置の対話方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記の課題を解決するため、本発明にかかるロボット装置は、外部情報、外部からの働きかけに応じた動作及び/又は内部状態に基づいて自律的動作を実行し、ユーザと対話して該ユーザからの伝言を得、該ユーザが望む第三者と対話して伝言を伝えるロボット装置において、対話者を識別する識別手段と、識別手段において識別された対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定する行動決定手段とを備える。
【0006】
また、本発明にかかるロボット装置の対話方法は、外部情報、外部からの働きかけに応じた動作及び/又は内部状態に基づいて自律的動作を実行し、ユーザと対話して該ユーザからの伝言を得、該ユーザが望む第三者と対話して伝言を伝えるロボット装置の対話方法において、対話者を識別する識別工程と、識別工程において識別された対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定する行動決定工程とを備える。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明を適用したロボットについて説明する。本発明を適用したロボットは、ロボットに接触する人間を識別し、その人間が発した言葉を聞き取る。ロボットは、接触した人間との親密度を記憶・更新しており、人間との親密度を基に、接触している人間に応対する態度および返答する言葉を変化させる。
【0008】
また、ロボットは、人間同士の親密度を記憶・更新している。ロボットは、ある人間の発した言葉を他の人間に伝言するとき、人間同士の親密度と伝言する言葉の内容とを基に、伝言を与える側の人間に対する態度および伝言する言葉のニュアンスを変化させる。
【0009】
図1に示すように、ロボット1は、体幹部ユニット2の所定の位置に頭部ユニット3が連結されると共に、左右2つの腕部ユニット4R/Lと、左右2つの脚部ユニット5R/Lが連結されて構成されている(但し、R及びLの各々は、右及び左の各々を示す接尾辞である。以下において同じ。)。
【0010】
このロボット1が具備する関節自由度構成を図2に模式的に示す。頭部ユニット3を支持する首関節は、首関節ヨー軸101と、首関節ピッチ軸102と、首関節ロール軸103という3自由度を有している。
【0011】
また、上肢を構成する各々の腕部ユニット4R/Lは、肩関節ピッチ軸107と、肩関節ロール軸108と、上腕ヨー軸109と、肘関節ピッチ軸110と、前腕ヨー軸111と、手首関節ピッチ軸112と、手首関節ロール軸113と、手部114とで構成される。手部114は、実際には、複数本の指を含む多関節・多自由度構造体である。但し、手部114の動作は、ロボット装置1の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部は7自由度を有するとする。
【0012】
また、体幹部ユニット2は、体幹ピッチ軸104と、体幹ロール軸105と、体幹ヨー軸106という3自由度を有する。
【0013】
また、下肢を構成する各々の脚部ユニット5R/Lは、股関節ヨー軸115と、股関節ピッチ軸116と、股関節ロール軸117と、膝関節ピッチ軸118と、足首関節ピッチ軸119と、足首関節ロール軸120と、足部121とで構成される。本明細書中では、股関節ピッチ軸116と股関節ロール軸117の交点は、ロボット1の股関節位置を定義する。人体の足部121は、実際には多関節・多自由度の足底を含んだ構造体であるが、ロボット1の足底は、ゼロ自由度とする。したがって、各脚部は、6自由度で構成される。
【0014】
以上を総括すれば、ロボット1としては、合計で3+7×2+3+6×2=32自由度を有することになる。但し、エンターテインメント向けのロボット1が必ずしも32自由度に限定されるわけではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができる。
【0015】
上述したようなロボット1がもつ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、2足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、アクチュエータは小型且つ軽量であることが好ましい。
【0016】
図3は、ロボット1の制御システム構成を模式的に示している。ロボット1は、ヒトの四肢を表現した体幹部ユニット2,頭部ユニット3,腕部ユニット4R/L,脚部ユニット5R/Lと、各ユニット間の協調動作を実現するための適応制御を行うコントローラ10とで構成される。
【0017】
胴体部ユニット2には、ロボット全体の制御を行うコントローラ10、ロボットの動力源となるバッテリ11、並びにバッテリセンサ12および熱センサ13からなる内部センサ部14などが収納されている。
【0018】
頭部ユニット4には、「耳」に相当するマイク(マイクロフォン)15、「目」に相当するCCD(Charge Coupled Device)カメラ16、触覚に相当するタッチセンサ17、「口」に相当するスピーカ18などが、それぞれ所定位置に配設されている。
【0019】
脚部ユニット3A乃至3Dそれぞれの関節部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユニット2の連結部分、頭部ユニット4と胴体部ユニット2の連結部分などには、図2の自由度構成に対応した部分にアクチュエータA2乃至A4、A5乃至A7、A8乃至A14、A16乃至A21が配設されており、これにより、各連結部分は、所定の自由度をもって回転することができるようになっている。
【0020】
頭部ユニット4におけるマイク15は、ユーザからの発話を含む周囲の音声(音)を集音し、得られた音声信号を、コントローラ10に送出する。CCDカメラ16は、周囲の状況を撮像し、得られた画像信号を、コントローラ10に送出する。
【0021】
タッチセンサ17は、例えば、頭部ユニット4の上部に設けられており、ユーザからの「なでる」や「たたく」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ10に送出する。
【0022】
胴体部ユニット2におけるバッテリセンサ12は、バッテリ11の残量を検出し、その検出結果を、バッテリ残量検出信号としてコントローラ10に送出する。熱センサ13は、ロボット内部の熱や外気の温度を検出し、その検出結果を、コントローラ10に送出する。
【0023】
ロボット1の動作は、コントローラ10によって統括的に制御される。コントローラ10は、CPU10Aやメモリ10Bを内蔵し、CPU10Aにおいて、メモリ10Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。
【0024】
即ち、コントローラ10は、バッテリセンサ12や、熱センサ13、マイク15、CCDカメラ16、タッチセンサ17から与えられる各信号に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断する。
【0025】
さらに、コントローラ10は、この判断結果等に基づいて、続く行動を決定し、その決定結果に基づいて、アクチュエータA2乃至A4、A5乃至A7、A8乃至A14、A16乃至A21のうちの必要なものを駆動する。これにより、ロボット1は、頭部ユニット4を上下左右に振る、各脚部ユニットA16乃至A21を駆動する、ロボットを歩行するなどの行動を行う。
【0026】
また、コントローラ10は、必要に応じて、合成音を生成し、スピーカ18に供給して出力させる。
【0027】
以上のような構成を備えることによって、ロボット1は、外部情報、外部からの働きかけに応じた動作及び/又は内部状態に基づいて自立的に行動できるようになっている。
【0028】
次に、図4は、コントローラ10のユーザの発話に対する応答としての応答文を発話し、対話を行う機能(以下、対話機能と称する)を実行するための機能ブロック図である。なお、この対話機能は、CPU10Aが、メモリ10Bに記憶された制御プログラムを実行することによって実現されるようになっている。
【0029】
話者識別部21にはマイク15から話者の音声が、CCD16カメラが撮像した話者の画像が入力される。話者認識部は、対話管理部26に制御され、入力された音声および入力された画像に基づき識別情報記憶部21Aを参照して話者を識別する。
【0030】
すなわち、識別情報記憶部21Aには、話者となり得るユーザの音声のピッチやフォルマントなどのユーザ固有の音声情報、およびユーザの画像上の特徴量が記録されている。
【0031】
話者識別部21は、入力された音声に対して、適応フィルタバンク等の音響処理を施し、ピッチやフォルマントを抽出し、また、入力された画像から特徴量を抽出し、識別情報記憶部21Aから、それらの抽出結果に対応するユーザのID(識別番号)を検出する。
【0032】
話者識別部21は、IDと名前を関連付けるネームリストデータベース21Bを有する。ネームリストデータベース21Bは、図5に示すように、名前を格納するフィールドと、IDを格納するフィールドの2つのフィールドが設けられている。ネームリストデータベース21Bには、ロボット自身のIDも設定されており、この例ではロボットのIDは”0”となっている。
【0033】
音声認識部22は、対話管理部26により制御され、マイク15から与えられる音声信号を用いて、音声認識を行い、その音声認識結果としてのテキスト、その他付随する情報(例えば、ワードグラフ等)をバッファ23に出力する。バッファ23は、その音声認識結果を一時的に保持し、対話管理部26からの指令に基づくタイミングで、対話管理部26に出力する。
【0034】
言語解析部24は、対話管理部26により制御され、バッファ23を介して入力される音声認識部22による音声認識結果を解析し、ユーザの発話の内容の意味理解を行い、その意味理解の結果としての単語情報や構文情報をバッファ25に出力する。バッファ25は、その意味理解の結果を一時的に保持し、対話管理部26からの指令に基づくタイミングで意味理解の結果を対話管理部26に出力する。
【0035】
対話管理部26は、バッファ25を介して入力される言語解析部24による意味理解の結果に対応する応答文(テキスト)を生成するために必要な応答文の意味や概念を表す情報(以下、応答文意味情報と称する)を生成する。対話管理部26は、この際、話者識別部21から送出された識別情報により識別される話者との対話(対話履歴)を利用して、行動指令情報および応答文意味情報を生成する。
【0036】
応答文生成部27は、対話管理部26から入力される応答文意味情報を基に、応答文(テキスト)を生成し、音声合成部28に出力する。応答文生成部27は、応答文を生成するとき、言語解析部24から入力される意味理解の結果と、話者識別部21から入力される識別結果と、話者とロボットの親密度とを基に、話者に返答する際の態度および対話管理部26から入力された応答文を変化させる。また、話者から他の人間に伝言を頼まれた場合、応答文生成部27は、話者と他の人間との親密度を参照し、伝言する相手への態度及び対話管理部26から入力された応答文を変化させる。
【0037】
音声合成部28は、応答文生成部27が出力する応答文に対応する合成音を生成し、スピーカ18に出力する。
【0038】
図6は、音声認識部22の構成例を示している。話者の発話は、マイク15に入力され、マイク15で、電気信号としての音声信号に変換され、AD(AnalogDigital)変換部51に供給される。AD変換部31では、マイク15からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、特徴抽出部32に供給される。
【0039】
特徴抽出部32は、AD変換部31からの音声データについて、適当なフレームごとに、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴パラメータを抽出し、マッチング部33に供給する。
【0040】
マッチング部33は、特徴抽出部32からの特徴パラメータに基づき、音響モデルデータベース34、辞書データベース35、および文法データベース36を必要に応じて参照しながら、マイク15に入力された音声(入力音声)を認識する。
【0041】
即ち、音響モデルデータベース34は、音声認識する音声の言語におけるここに音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここで、音響モデルとして、例えば、HMM(Hidden Markov Model)などを用いることができる。辞書データベース35は、認識対象の各単語について、その発音に関する情報が記述された単語辞書を記憶している。文法データベース36は、辞書データベース35の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法(FG)や、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
【0042】
マッチング部33は、辞書データベース35の単語辞書を参照することにより、音響モデルデータベース34に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、マッチング部33は、幾つかの単語モデルと、文法データベース36に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴パラメータに基づき、例えば、HMM法等によって、マイク15に入力された音声を認識する。マッチング部33による音声認識結果は、例えば、テキスト等で、バッファに出力される。
【0043】
図7は、言語解析部24の構成例を示している。言語解析部24のテキスト解析部41には、音声認識部22による音声認識結果としてのテキストが入力される。テキスト解析部41は、辞書データベース42や解析用文法データベース43を参照しながら、そのテキストを解析する。
【0044】
辞書データベース42には、各単語の表記や、解析用文法を適用するために必要な品詞情報などが記述された単語辞書が記憶されている。また、解析用文法データベース43には、単語辞書に記述された各単語の情報に基づいて、単語連鎖に関する制約等が記述された解析用文法規則が記憶されている。
【0045】
テキスト解析部41は、その単語辞書や解析用文法規則に基づいて、そこに入力されるテキスト(入力テキスト)の形態素解析や、構文解析等を行い、その入力テキストの意味理解を行い、その意味理解の結果としての言語情報をバッファに出力する。
【0046】
例えば、音声認識部22による、ユーザの発話「ワタナベさんに僕の車壊れちゃったと伝えておいてね」の音声認識結果(テキスト)が入力された場合、テキスト解析部41において、その形態素解析や構文解析が行われ、「伝えておいてね」から”伝言を頼まれた”との意味理解が行われ、「ワタナベさんに」から伝言する相手は”ワタナベさん”であるとの意味理解が行われる。また、「僕の車」「壊れちゃった」から伝言する内容は、”話者の車”が”壊れた”ことであるとの意味理解が行われる。テキスト解析部41による認識結果は、伝言[[伝えておいてね],対象者[ワタナベさん],伝言内容[動作[壊れちゃった],対象物[車],対象者[僕の]]]となる。
【0047】
親密度更新部29は、親密度データベース29Aを更新する。図8に示すように、親密度データベース29Aは、2つのIDと親密度とを関連付けて記憶している。親密度とは、親しさの度合いを数値化したものである。
【0048】
ここで説明するロボット1は、親密度更新部によって更新される親密度に基づいて対話者に応対するときの態度を変更し、対話に感情を持たせることができる。
【0049】
以下、本実施の形態における親密度を更新する例について説明する。親密度は、1.0から0.0の間の値をとり、親密度1.0のとき互いの関係は非常に良好とし、親密度0.0のとき互いの関係は非常に疎遠とする。親密度データベース29Aにおいて、IDが0であるデータは、ロボットと他の人間との親密度であり、その他のデータはある人間と他の人間との親密度である。親密度更新部29は、ロボットと人間との親密度と、ある人間と他の人間との親密度とを異なる方法で計算している。
【0050】
以下、親密度の更新方法について説明する。親密度更新部29は、ロボットと人間との親密度を計算する場合、話者識別部21の識別結果と各センサからの検出結果とを入力し、センサの検出結果から何らかのインタラクションを受けたことを検出すると、インタラクションを与えた話者に対する親密度を更新する。親密度は、初期値を0.5とし、インタラクションの種類と、回数およびインタラクションを受けた時間などを基に更新される。
【0051】
インタラクションの種類には、人間がロボットに対して食事を提供する、話かける、ボール遊びをするなどがある。
【0052】
例えば、タッチセンサ17の検出結果からロボットの頭がなでられたことやたたかれたことを検出すると、親密度更新部29は、頭をなでた回数や頭をたたいた回数を以下の計算式(1)(2)に代入し、親密度を更新するための計算を行う。
頭をなでられた回数×aを足す(aは係数) ・・・(1)
頭をたたかれた回数×aを引く(aは係数) ・・・(2)
また、親密度更新部29は、インタラクションを受けた時間を計測し、この時間を以下の計算式(3)(4)に代入し、親密度を更新するための計算を行う。
インタラクション時間の総和/起動時間の総和×bを足す・・・(3)
(インタラクション中の正の感情−インタラクション中の負の感情)×cを足す(cは係数) ・・・(4)
上記式(3)により、インタラクション時間が長いほど親密度が高くなり、上記式(4)により、インタラクション中にロボットの気分がよければ親密度が高くなり、不快な感情が強ければ親密度が低くなる。また、話者識別部21からの入力が少ない人間、ロボットとの接触の少ない人間は、時間に応じて徐々に親密度が減少する。親密度更新部29は、このようにして、ロボット自身と他の人間との親密度を更新する。
【0053】
また、ある人間と他の人間との間の親密度を更新する場合、親密度更新部29は、人間の会話の意味および口調をもとに親密度データベース29Aを更新する。親密度の更新方法は複数考えられる。
【0054】
第1の方法は、ロボット1が人間に直接質問する方法である。親密度更新部29は、「Aさん、Bさんのこと好き?」などと質問をするようにロボットを制御し、このときのAさんの返答に応じてAさんとBさんとの親密度を更新する。
【0055】
第2の方法は、ロボットと人間との会話の内容から推測する方法である。ある人間とロボットとが会話をしているとき、親密度更新部29は、話者認識部の認識結果と、言語解析部24からの解析結果をもとに、誰がどのような会話をしているかを認識する。そして、話者が他の人間ついての会話しているときに、親密度更新部29は、話者が話している人間の名前からIDを読み出し、話者の会話の内容およびイントネーションなどをもとに、話者と話者が話している人間との親密度を更新する。また、親密度更新部29は、話者がある人間について話すときの回数および頻度を記憶しておき、回数や頻度が高いほど親密度を高くする。
【0056】
第3の方法は、ロボットを含まない複数の人間の会話から推測する方法である。複数の人間が会話をしているとき、親密度更新部29は、話者認識結果の認識結果と、言語解析部24からの解析結果をもとに、会話をしている人間の親密度および会話に出場する人間の親密度を更新する。例えば、A、B、C、Dの4人が会話をしているとき、AさんがBさんに対して冷たい口調で話しかけると、親密度更新部29は、AさんとBさんとの親密度を低くする。また、A、B、C、Dの4人が会話をしているとき、その場にいないEさんという人間を誉めていれば、親密度更新部29は、A、B、C、Dの4人とEさんの親密度を高くする。
【0057】
図9は、対話管理部26の構成例を示している。対話管理部26の対話制御部51には、言語解析部24による意味理解の結果および話者識別部21による識別結果が入力される。対話制御部51は、その意味理解の結果の一部または全部を、対話履歴記憶部52に順次供給して記憶させる。これにより、対話履歴記憶部52には、対話履歴が記憶され、また更新される。
【0058】
対話制御部51は入力される意味理解の結果(ユーザの発話)に基づき、シナリオ記憶部53を参照して、ユーザの発話に対する応答としての行動の行動指令情報を生成する。
【0059】
シナリオ記憶部53には、発話に対する応答としての行動の行動指令情報を生成するのに必要な情報がどのような情報であるかを示す情報が、行動に対応するフレーム毎に記憶されている。
【0060】
対話制御部51は、発話に対する応答としての行動に対応するフレームをシナリオ記憶部53から検出し、検出したフレームに示されている必要情報項目に対応して、その必要情報をフレームに埋め込む。これにより、行動指令情報が生成される。具体的には、フレームに示される必要情報項目の必要情報が、発話の意味理解の結果に含まれている場合、対話制御部51はそこから必要情報をよみとり、そのフレームに埋め込む。一方、必要情報が発話の意味理解の結果に含まれていない場合、対話制御部51は、必要情報を対話履歴記憶部52から検出し、そのフレームに埋め込む。
【0061】
例えば、「○○(ロボットの名称)ちゃん新聞とってきてくれる」の意味理解の結果として、要求[くれる,動作[取ってくる,対象物[新聞],対象者[ロボット,敬称[ちゃん]]]]が入力され、その発話に対する応答としての、ロボットが新聞を取ってくる行動に対応するフレームによれば、その行動指令情報を生成するために、対象物[新聞]が置かれている場所の情報(必要情報)がさらに必要であるとされている場合、対話制御部51は、その必要情報(対話の中で省略され、対話理解の結果には含まれていない必要情報を対話履歴記憶部52から検出し、そのフレームに埋め込む。
【0062】
例えば、対象物[新聞]が、新聞受けに置かれていることが検出された場合、その必要情報は、フレームに埋め込まれ、行動指令情報として、要求[くれる,動作[取ってくる,対象物[新聞],場所[新聞受け]],対象者[ロボット、敬称[ちゃん]]]が生成される。
【0063】
対話履歴記憶部52には、対話履歴が話者ごとに記憶されている。なお、対話履歴記憶部52から、必要情報を検出する際、対話制御部51は、対話履歴記憶部52に記憶されている話者ごとの対話履歴のうち、話者識別部21により識別された話者の対話履歴を参照する。
【0064】
また、必要情報がユーザの意味理解の結果および対話履歴記憶部52の両方から検出することができないとき、すなわち、必要情報が、意味理解の結果にも含まれず、対話履歴記憶部52にも記憶されていないとき、対話制御部51は、知識データベース54に記憶されている手順に従い、その必要情報をユーザから聞きとるための応答文の応答意味情報を生成し、応答文生成部27に出力する。これにより、この応答文意味情報に基づいて生成された応答文が発話され、その応答としての発話から必要情報が取得される。その結果、行動指令情報が生成される。
【0065】
例えば、上述の例では、新聞の置かれている場所が意味理解の結果にも含まれず、対話履歴記憶部52にも記憶されていない場合、知識データベース54に記憶されている手順に従って、例えば、応答文意味情報として対象者[ロボット,敬称[ちゃん]],動作[取ってくる,対象物[新聞],場所[?]]が生成される。このように、過去の対話の中で、すでに指定されており、対話の中で省略されている事柄については、対話履歴から検出される。
【0066】
すなわち、知識データベース54には、対話の中で、ユーザが所定の情報を聞きとるための応答文の応答文意味情報を生成するための手順が記憶されている。
【0067】
以上のようにして生成された行動指令情報は、コントローラ10の他の機能である。アクチュエータA2乃至A4、A5乃至A7、A8乃至A14、A16乃至A21などを制御する機能において用いられる。これにより、その行動指令情報に基づいて、例えば、必要なアクチュエータが駆動され、例えば、ロボットは、新聞受けまで歩行するなどの行動を取る。
【0068】
図10は、応答文生成部27の構成例を示している。応答文生成部27のテキスト生成部61には、対話管理部26からの応答文意味情報が入力される。応答文生成部27は、応答文意味情報に基づき、生成規則データベース62を参照して、応答文(テキスト)を生成する。また、応答文生成部27は、話者の感情を推定し、推定した結果と親密度とを基に、応答文を変化させたり、応答するときのイントネーションや態度を変化させる。
【0069】
応答文生成部27は、言語解析部24の解析結果を基に、話者の感情を推定する。例えば、話者がロボットに対して、「僕の車壊れちゃった」と発話すると、言語解析部24の解析結果は、動作[壊れた],対象物[[車],対象者[僕の]]となる。応答文生成部27は、「壊れた」というネガティブの言葉があることから、話者の伝言属性(以下、感情のカテゴリーと記す)を「悲しみ」に分類する。
【0070】
そして、応答文生成部27は、親密度データベース29Aとネームリストデータベース21Bとを読み出す。応答文生成部27は、話者識別部21から入力される話者のIDとロボットのID”0”をキーとして親密度データベース29Aを検索し、ロボットと話者との親密度を読み出す。
【0071】
また、話者がロボットに伝言を依頼した場合、応答文生成部27は、対話管理部26からの応答文意味情報をもとに、伝言する人間(以下、伝言対象者と称する)の名前を抽出する。例えば、話者がロボットに対して、「ワタナベさんに僕の車が壊れちゃったと伝えておいてね」と発話した場合、言語解析部24の解析結果は、伝言[[伝えておいてね],対象者[ワタナベさん],伝言内容[動作[壊れちゃった],対象物[車],対象者[僕の]]]となる。応答文生成部27は、伝言対象者の名前”ワタナベ”を読み出し、伝言対象者の名前”ワタナベ”をキーとしてネームリストデータベース21Bから伝言対象者のIDを検索する。
【0072】
応答文生成部27は、話者のIDとロボットのID”0”、伝言対象者のIDとロボットのID”0”、話者のIDと伝言対象者のIDとをキーとして親密度データベース29Aを検索し、話者とロボットとの親密度、伝言対象者とロボットとの親密度、話者と伝言対象者との親密度を読み出す。応答文生成部27は、親密度を読み出すと、環境から親密度への影響を考慮した値、インタラクションバリュー(以降、IVと称する)を算出する。
【0073】
応答文生成部27は、IVを算出すると、対話データベース63を参照して話者または伝言対象者に応答するときの態度、および応答文に付加する語尾を選択する。対話データベース63は、応答するときの語調、スピード、抑揚、語尾などが記録されており、これらのデータは、会話に含まれる感情のカテゴリー、ロボットが応答する相手、およびロボットと話者または伝言対象者とのIVごとに分類されている。
【0074】
具体的に説明すると、図11、図12に示すように、対話データベース63は、ロボットが応答する相手が話者または伝言対象者であるかによって分類されており、さらに、話者または伝言対象者とロボットとのIVが0.5以上であるか、0.5未満であるかによって分類されている。すなわち、対話データベース63は、「ロボットと話者のIVが0.5以上のとき」、「ロボットと話者のIVが0.5未満のとき」、「ロボットと伝言対象者のIVが0.5以上のとき」、「ロボットと伝言対象者のIVが0.5未満のとき」の4つのパターンに分類されている。さらに、対話データベース63は、会話に含まれる感情のカテゴリーによっても分類されており、感情のカテゴリーには、「怒り」、「喜び」、「悲しみ」、「謝罪」、「感情なし」があり、感情のカテゴリーに対応した語調、スピード、抑揚、語尾が記憶されている。
【0075】
応答文生成部27は、対話する相手、IV、感情のカテゴリーをもとに、対話データベース63を検索すると、検索した語尾を応答文に付加する。そして、応答文生成部27は、語尾を付加した応答文、検索した語調、スピード、抑揚などのデータを音声合成部28に出力する。
【0076】
図13は、音声合成部28の構成例を示している。音声合成部28のテキスト解析部71には、応答文生成部27により生成された応答文(テキスト)が音声合成処理の対象として入力されるようになっており、テキスト解析部71は、辞書データベース72や解析用文法データベース73を参照しながら、そのテキストを解析する。
【0077】
即ち、辞書データベース72には、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書が記憶されており、また、解析用文法データベース73には、辞書データベース72の単語辞書に記述された単語について、単語連鎖に関する制約等の解析用文法規則が記憶されている。そして、テキスト解析部71は、この単語辞書および解析用文法規則に基づいて、そこに入力されるテキストの形態素解析や構文解析等の解析を行い、後段の規則合成部74で行われる規則音声合成に必要な情報を抽出する。ここで、規則音声合成に必要な情報としては、例えば、ポーズの位置や、アクセントおよびイントネーションを制御するための情報その他の韻律情報や、各単語の発音等の音韻情報などである。
【0078】
また、テキスト解析部71は、規則音声合成に必要な情報を抽出する際、応答文生成部27から入力される応答文の語調、スピード、抑揚などのデータを加味し、規則音声合成に必要な情報を変更する。
【0079】
テキスト解析部71で得られた情報は、規則合成部74に供給され、規則合成部74では、音素片データベース75を用いて、テキスト解析部71に入力されたテキストに対応する合成音の音声データ(ディジタルデータ)が生成される。
【0080】
即ち、音素片データベース75には、例えば、CV(Consonant,Vowel)や、VCV、CVC等の形で音素片データが記憶されており、規則合成部74はテキスト解析部71からの情報に基づいて、必要な音素片データを接続し、さらに、ポーズ、アクセント、イントネーション等を適切に付加することで、テキスト解析部71に入力されたテキストに対応する合成音の音声データを生成する。
【0081】
この音声データは、DA変換部76に供給され、そこで、アナログ信号としての音声信号に変換される。この音声信号は、スピーカ18に供給され、これにより、テキスト解析部71に入力されたテキストに対応する合成音が出力される。
【0082】
次に、上記ロボットが話者からの伝言を受け、伝言対象者に伝える動作について、図14のフローチャートを参照して説明する。
【0083】
例えば、「ワタナベさんに僕の車が壊れちゃったと伝えておいてね」と話者がロボットに発話すると、話者の音声はマイク15を介して音声認識部22に出力される。音声認識部22は、話者の音声を用いて音声認識を行い、音声認識結果としてのテキスト「ワタナベさんに僕の車が壊れちゃったと伝えておいてね」をバッファに出力する。
【0084】
言語解析部24は、音声認識部22の認識結果「ワタナベさんに僕の車が壊れちゃったと伝えておいてね」(テキスト)が入力されると、このテキストの意味理解を行う。言語解析部24は、伝えておいてねから、“伝言を頼まれた”との意味理解が行われ、「ワタナベさんに」から伝言する相手は“ワタナベさん”であるとの意味理解が行われる。また、「僕の車」「壊れちゃった」から伝言する内容は、“話者の車”が“壊れた”ことであるとの意味理解が行われる。言語解析部24による認識結果は、伝言[[伝えておいてね],対象者[ワタナベさん],伝言内容[動作[壊れちゃった],対象物[車],対象者[僕の]]]となる。
【0085】
対話管理部26は、言語解析部24からの出力結果をもとに応答文意味情報を生成し、応答文生成部27に出力する。
【0086】
応答文生成部27は、言語解析部24の出力結果、伝言[[伝えておいてね],対象者[ワタナベさん],伝言内容[動作[壊れちゃった],対象物[車],対象者[僕の]]]を入力すると、この出力結果のなかに「壊れた」というネガティブな言葉があることから、話者の感情のカテゴリーを「悲しみ」と分類する(ステップS1)。
【0087】
次いで、応答文生成部27は、ネームリストデータベース21Bと親密度データベース29Aとを読み出す(ステップS2)。話者識別部21は、ロボットが会話をしている話者の識別を行う(ステップS3)。話者識別部21は、話者の識別を行うと(ステップS3;YES)、話者のIDを応答文生成部27に出力する(ステップS4)。話者識別部21は、話者のデータが記憶されておらず話者が識別できない場合(ステップS3;NO)、話者を識別できなかった旨を対話管理部26に出力する。対話管理部26は、話者識別部21からの出力に応じて、話者の名前をたずねる応答文意味情報を生成する。この応答文に対し話者が自分の名前を返答した場合、応答文生成部27は、話者の名前にIDを付けてネームリストデータベース21Bに格納する。例えば、話者が「私は“ヤマダ”です」と応答すると応答文生成部27は、言語解析部24からの出力を入力し、“ヤマダ”さんにID“4”を付加してネームリストデータベース21Bに格納する(ステップS5)。ステップS5において、話者の名前とIDがネームリストデータベース21Bに格納されると、ステップS6に処理を移行する。
【0088】
応答文生成部27は、対話管理部26からの応答文意味情報および言語解析部24からの解析結果をもとに、伝言を伝える相手(伝言対象者)が“ワタナベ”さんであることを認識する。そして、名前が“ワタナベ”であるデータをネームリストデータベース21Bから検索する(ステップS6)。応答文生成部27は、“ワタナベ”という名前がネームリストデータベース21Bに記録されていない場合(ステップS6;NO)、名前“ワタナベ”さんにID“5”を付加してネームリストデータベース21Bに格納するとともに、親密度データベース29Aの話者(=ID“4”)とワタナベさん(=ID“5”)親密度を0.5に設定し(ステップS7)、ステップS8に処理を移行する。
【0089】
また、ステップS6において、伝言対象者の名前“ワタナベ”がネームリストデータベース21Bに存在する場合(ステップS6;YES)、ステップS8に処理を移行する。
【0090】
応答文生成部27は、話者とロボットの親密度、伝言対象者とロボットの親密度、話者と伝言対象者との親密度を親密度データベース29Aから読み出す。
【0091】
例えば、話者“ヤマダ”、伝言対象者“ワタナベ”であるとき、図5のネームリストデータベース21Bを参照すると、話者のIDは“4”、伝言対象者のIDは“5”となる。また、ロボットのIDは“0”である。そこで、それぞれのIDをもとに、図8の親密度データベース29Aを検索すると、話者(=ID“4”)とロボット(=ID“0”)の親密度は0.5、伝言対象者(=ID“5”)とロボット(=ID“0”)の親密度は0.7、話者(ID“4”)と伝言対象者(=ID“5”)の親密度は0.7となる(ステップS8)。
【0092】
そして、応答文生成部27は、IVを計算する。IVとは、外部の環境から親密度への影響を考慮した値である。外部の環境とは、職場、結婚式、葬式、自宅、屋外などのロボットが存在する周囲の環境のことである。
【0093】
IVを計算する例として、外部の環境が屋外か屋内かによってIVを変更する例について説明する。屋外にいるときの人間は感情を表に出しにくくなる。そのため、親密度が0.5以上のとき親密度から0.1を引いた値をIVとし、親密度が0.5未満のとき親密度に0.1足した値をIVとする。また、親密度が0.5以上でIVが0.5未満になるときはIVを0.5とし、親密度が0.5未満でIVが0.5を超える場合には、IVを0.49とする。また、IVの影響が生じない場合には、IV=親密度とする(ステップS9)。
【0094】
応答文生成部27は、対話管理部26から入力した応答文意味情報をもとに、応答文を生成するとともにロボットと話者のIVおよび話者の会話に含まれる感情のカテゴリーをもとに、対話データベース63を検索し、ロボットが話者に話しかける際の語調、スピード、抑揚、語尾を検索する。
【0095】
上記の例を用いて説明すると、話者“ヤマダ”と“ロボット”との親密度は0.5である。ここで外部環境からの影響はなくIV=親密度とすると、IV=0.5となる。また、ステップS1において、話者“ヤマダ”の伝言属性は“悲しみ”に分類されている。そこで、ロボットと話者のIVが0.5、感情のカテゴリーが“悲しみ”のデータを図11および図12の対話データベース63から検索すると、語調“悲しみに同調する”、スピード“ゆっくり”、抑揚“少し低い音”、語尾“元気を出してよ”となる。応答文生成部27は、対話管理部26から入力した応答文意味情報をもとに応答文“車壊れちゃったのか”を生成し、この応答文に語尾“元気を出してよ”を付加した応答文“車壊れちゃったのか、元気出してよ”と、語調“悲しみに同調する”、スピード“ゆっくり”、抑揚“少し低い音”というデータを音声合成部28に出力する。
【0096】
音声合成部28は、語調、スピード、抑揚というデータを加味しながら、応答文の音声合成を行い、音声データを生成する。音声合成部28は、生成した音声データをDA変換部76に出力し、応答文“車壊れちゃったのか、元気出してよ”が音声として出力され、話者とロボットとの間の対話が行われる。(ステップS10)。
【0097】
ロボットが伝言対象者に伝言を送る場合、対話データベース63の他に伝言データベース64を用いて、ロボットの応答文の語尾および語調などを変化させる。
【0098】
伝言データベース64は、図15に示すように、話者と伝言対象者とのIV、感情のカテゴリーによって区分されている。すなわち、伝言データベース64は、「話者と伝言対象者のIVが0.5以上のとき」と「話者と伝言対象者のIVが0.5未満のとき」の2つのパターンに分類されている。さらに、伝言データベース64は、会話に含まれる感情のカテゴリーによっても分類されており、感情のカテゴリーには、「怒り」、「喜び」、「悲しみ」、「謝罪」、「感情なし」がある。
【0099】
伝言データベース64は、話者と伝言対象者とのIVをもとにデータを区分している点を特徴としており、応答文生成部27は、話者と伝言対象者とのIVが算出できた際には、対話データベース63を基本として使用し、語尾については伝言データベース64を使用する。話者と伝言対象者のIVは算出できないが、話者とロボットおよび伝言対象者とロボットのIVが算出できた際には、対話データベース63を使用する。
【0100】
上述の例では、話者“ヤマダ”と伝言対象者“ワタナベ”の間の親密度は”0.7”である。ここで、IV=親密度とすると、IV=0.7となる。また、ステップS1において、感情のカテゴリーは”悲しみ”と判定されている。図15の伝言データベースにおいて、話者と伝言対象者とのIVが0.5以上、感情のカテゴリーが”悲しみ”であるときの語尾は“慰めてあげてよ”になる。ここで、応答文生成部27が、“ワタナベさんの車壊れたっていってたよ”という応答文を生成している場合、この応答文の語尾に“慰めてあげてよ”を付加し、“ワタナベさんの車壊れたっていってたよ、慰めてあげなよ”という応答文を生成する。
【0101】
応答文生成部27は、生成した応答文を音声合成部28に出力し、音声合成部28は、音声合成を行い、音声データを生成する。音声合成部28は生成した音声データをDA変換部76に出力する。DA変換部76は、音声データをアナログデータに変換し、このデータはスピーカ18を介して音声として出力される。これにより、ロボットと伝言対象者との対話が行われる(ステップS11)。
【0102】
また、話者と伝言対象者とのIVが計算できなかった場合、応答文生成部27は、応答文に付加する語尾、応答文を発話するときの語調、スピード、抑揚などを対話データベース63から検索して、この検索結果に応じて応答文を発話する。
【0103】
上記の例では伝言対象者とロボットの親密度は0.7、IV=親密度とすると、IV=0.7となる。応答文生成部27は、ロボットと伝言対象者のIVが0.5以上、感情のカテゴリーが悲しみのデータを対話データベース63から検索する。この検出結果は、語調“親切に伝言”、スピード”普通”、抑揚“フラット”、語尾“どうする?”となる。ここで、応答文生成部27が“ワタナベさん車壊れたっていってたよ”という応答文を生成している場合、この応答文の語尾に“どうする?”が付加されて、応答文は、“ワタナベさん車壊れたっていってたよ、どうする?”となる。そして、応答文生成部27は、生成した応答文と、語調、スピード、抑揚などのデータを音声合成部28に出力し、音声として出力させる。
【0104】
以上のように、本発明を適用したロボット1は、周囲の人間とロボット1との親密度および人間同士の親密度を記憶・更新することができる。また、このロボット1は、この親密度に基づいて対話者への応答および応答するときの態度を変更できる。
【0105】
また、ロボット1は、会話の内容をもとに話者がどのような感情であるかを推定し、この推定結果と親密度との2つの因子に基づいて対話者への応答および応答するときの態度を変更できる。
【0106】
また、ロボット1は、外部の環境のような外的要因がロボットおよび人間の親密度に影響を与えることを考慮し、インタラクションバリューを計算する。ロボット1は、このインタラクションバリューに基づいて対話者への応答および応答するときの態度を変更できる。
【0107】
このように、ロボット1は、会話相手、会話の内容および外的要因に応じて応答する内容および応答するときの態度を変更できることから、ロボット1の応対に感情がこもる。これにより、人間は、ロボットに対して親しみを感じるようになる。
【0108】
なお、本明細書において、記録媒体により提供されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0109】
【発明の効果】
上述のように、本発明にかかるロボット装置は、伝言を伝える際に、対話者を識別し、識別した対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定することによって、感情をこめて対話を行うことができる。
【0110】
また、本発明にかかるロボット装置の対話方法は、伝言を伝える際に、対話者を識別し、識別した対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定することによって、ロボットに感情をこめて対話をさせることができる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの外観の構成例を示す図である。
【図2】図1のロボットの自由度構成モデルを模式的に示す図である。
【図3】図1のロボットの内部の構成例を示すブロック図である。
【図4】対話機能を実行するための機能ブロック図である。
【図5】ネームリストデータベースの構造を示す図である。
【図6】音声認識部の構成を示すブロック図である。
【図7】言語解析部の構成を示すブロック図である。
【図8】親密度データベースの構成を示す図である。
【図9】対話管理部の構成を示す図である。
【図10】応答文生成部の構成を示す図である。
【図11】対話データベースの構成を示す図である。
【図12】対話データベースの構成を示す図である。
【図13】音声合成部の構成を示す図である。
【図14】対話機能の処理の流れを示すフローチャートである。
【図15】伝言データベースの構成を示す図である。
【符号の説明】
10 コントローラ、10A CPU、10B メモリ、15 マイク、16CCDカメラ、21 話者識別部、21B ネームリストデータベース、22音声認識部、23 バッファ、24 言語解析部、25 バッファ、26 対話管理部、27 応答文生成部、28 音声合成部、29 親密度更新部、29A 親密度データベース、31 AD変換部、32 特徴抽出部、33 マッチング部、34 音響モデルデータベース、35 辞書データベース、36 文法データベース、41 テキスト解析部、42 辞書データベース、43 解析用文法データベース、51 対話制御部、52 対話履歴記憶部、53 シナリオ記憶部、54 知識データベース、61 テキスト生成部、62 生成規則データベース、63 対話データベース、64 伝言データベース、71 テキスト生成部、72 辞書データベース、73 解析用文法データベース、74 規則合成部、75 音素片データベース、76 DA変換部
Claims (18)
- 外部情報、外部からの働きかけに応じた動作及び/又は内部状態に基づいて自律的動作を実行し、ユーザと対話して該ユーザからの伝言を得、該ユーザが望む第三者と対話して上記伝言を伝えるロボット装置において、
対話者を識別する識別手段と、
上記識別手段において識別された対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定する行動決定手段と
を備えることを特徴とするロボット装置。 - 上記対話者との間の親密度を記憶する親密度記憶手段と、
上記対話者とのコミュニケーションから上記親密度記憶手段に記憶された親密度を更新する親密度更新手段とを備え、
上記行動決定手段は、上記親密度に応じて上記対話における応答文および応答文を発話する際の態度を決定することを特徴とする請求項1記載のロボット装置。 - 上記親密度更新手段は、上記ユーザとのコミュニケーションに応じて、当該ロボット装置自身とユーザとの親密度を更新することを特徴とする請求項2記載のロボット装置。
- 上記親密度更新手段は、上記第三者とのコミュニケーションに応じて、当該ロボット装置自身と上記第三者との親密度を更新することを特徴とする請求項2記載のロボット装置。
- 上記親密度更新手段は、上記ユーザとの対話において上記ユーザから受ける該ユーザの上記第三者に対する反応と、上記第三者との対話において上記第三者から受ける該第三者の上記ユーザに対する反応と、上記ユーザと上記第三者との対話とから上記ユーザと上記第三者との間の親密度を更新することを特徴とする請求項2記載のロボット装置。
- 上記対話の内容に含まれる表現から伝言属性を判別する伝言属性判別手段を備え、
上記行動決定手段は、上記伝言属性に応じて上記対話における応答文および応答文を発話するときの態度を決定することを特徴とする請求項1記載のロボット装置。 - 上記伝言属性は、上記伝言の内容に含まれる怒り、喜び、悲しみ及び謝罪の表現から判別される感情の属性であることを特徴とする請求項6記載のロボット装置。
- 上記行動決定手段は、応答文を発話するときの態度として、応答文を発話する際の語調、スピード、抑揚、応答文に付加する語尾を決定することを特徴とする請求項1記載のロボット装置。
- 上記行動決定手段は、当該ロボット装置自身と対話者との置かれた外部環境に基づいて上記対話における応答文および応答文を発話する際の態度を決定することを特徴とする請求項1記載のロボット装置。
- 外部情報、外部からの働きかけに応じた動作及び/又は内部状態に基づいて自律的動作を実行し、ユーザと対話して該ユーザからの伝言を得、該ユーザが望む第三者と対話して上記伝言を伝えるロボット装置の対話方法において、
対話者を識別する識別工程と、
上記識別工程において識別された対話者から得られる情報に応じて応答文および応答文を発話する際の動作を決定する行動決定工程と
を備えることを特徴とするロボット装置の対話方法。 - 上記対話者との間の親密度を記憶手段に記憶する親密度記憶工程と、
上記対話者とのコミュニケーションから上記記憶手段に記憶された親密度を更新する親密度更新工程とを備え、
上記行動決定工程は、上記親密度に応じて上記対話における応答文および応答文を発話する際の態度を決定することを特徴とする請求項10記載のロボット装置の対話方法。 - 上記親密度更新工程は、上記ユーザから受ける行動およびユーザとの対話に応じて、当該ロボット装置とユーザとの親密度を更新することを特徴とする請求項11記載のロボット装置の対話方法。
- 上記親密度更新工程は、上記第三者から受ける行動およびユーザとの対話に応じて、ロボット装置と上記第三者との親密度を更新することを特徴とする請求項11記載のロボット装置の対話方法。
- 上記親密度更新工程は、上記ユーザから受ける上記第三者についての対話と、上記第三者から受ける上記ユーザについての対話と、上記ユーザと上記第三者との対話とに応じて上記ユーザと上記第三者との間の親密度を更新することを特徴とする請求項11記載のロボット装置の対話方法。
- 上記対話の内容に含まれる表現から伝言属性を判別する伝言属性判別工程を備え、
上記行動生成工程は、上記伝言属性に応じて上記対話における応答文および応答文を発話するときの態度を決定することを特徴とする請求項10記載のロボット装置の対話方法。 - 上記伝言属性は、上記伝言の内容に含まれる怒り、喜び、悲しみ、謝罪の表現から判別される感情の属性であることを特徴とする請求項15記載のロボット装置の対話方法。
- 上記行動決定工程は、応答文を発話する際の態度として、応答文を発話する際の語調、スピード、抑揚、応答文に付加する語尾を決定することを特徴とする請求項10記載のロボット装置の対話方法。
- 上記行動決定工程は、外部の環境に応じて上記対話における応答文および応答文を発話する際の態度を決定することを特徴とする請求項10記載のロボット装置の対話方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002251794A JP2004090109A (ja) | 2002-08-29 | 2002-08-29 | ロボット装置およびロボット装置の対話方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002251794A JP2004090109A (ja) | 2002-08-29 | 2002-08-29 | ロボット装置およびロボット装置の対話方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004090109A true JP2004090109A (ja) | 2004-03-25 |
Family
ID=32058283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002251794A Withdrawn JP2004090109A (ja) | 2002-08-29 | 2002-08-29 | ロボット装置およびロボット装置の対話方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004090109A (ja) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008152943A1 (ja) * | 2007-06-13 | 2008-12-18 | Softbank Bb Corp. | 移動通信装置、移動通信装置の制御方法、そのプログラムおよび記録媒体 |
JP2009025658A (ja) * | 2007-07-20 | 2009-02-05 | Oki Electric Ind Co Ltd | 音声合成装置、音声合成システム |
WO2009022713A1 (ja) * | 2007-08-13 | 2009-02-19 | Nec Corporation | 通信装置、コミュニケーション分析方法およびコミュニケーション分析プログラム |
KR100914309B1 (ko) | 2007-08-03 | 2009-08-27 | 한양대학교 산학협력단 | 지능형 에이전트 시스템 및 지능형 에이전트의 감정 생성방법 |
WO2009107185A1 (ja) * | 2008-02-25 | 2009-09-03 | パイオニア株式会社 | 車載ロボット |
KR100919095B1 (ko) * | 2008-01-18 | 2009-09-28 | 주식회사 케이티 | 사용자 자극행동에 따른 로봇 반응행동 수행 방법 및 그로봇 |
KR100953407B1 (ko) * | 2008-04-24 | 2010-04-19 | 한국과학기술원 | 로봇의 호감도 형성장치 및 그 방법 |
JP2010110862A (ja) * | 2008-11-06 | 2010-05-20 | Nec Corp | コミュニケーションロボットシステム、コミュニケーションロボット制御方法およびプログラム |
JP2010204487A (ja) * | 2009-03-04 | 2010-09-16 | Toyota Motor Corp | ロボット、対話装置及び対話装置の動作方法 |
JP2011000681A (ja) * | 2009-06-19 | 2011-01-06 | Advanced Telecommunication Research Institute International | コミュニケーションロボット |
US8315454B2 (en) | 2004-09-14 | 2012-11-20 | Sony Corporation | Robot apparatus and method of controlling the behavior thereof |
CN104123939A (zh) * | 2014-06-06 | 2014-10-29 | 国家电网公司 | 基于变电站巡检机器人的语音交互控制方法 |
JP2014206850A (ja) * | 2013-04-12 | 2014-10-30 | シャープ株式会社 | 電子機器および自走式掃除機 |
JP2015524934A (ja) * | 2012-04-04 | 2015-08-27 | アルデバラン ロボティクス | ユーザとの自然対話をロボットの挙動に組み込むことができるロボットならびに前記ロボットをプログラムする方法および使用する方法 |
WO2016010341A1 (ko) * | 2014-07-14 | 2016-01-21 | 한양대학교 에리카산학협력단 | 펫을 중심으로 하는 펫 기반의 커뮤니케이션 서비스 제공 장치, 펫 기반의 커뮤니케이션 서비스 제공 방법 |
KR20160017717A (ko) * | 2014-08-01 | 2016-02-17 | 한양대학교 에리카산학협력단 | 펫 성장 및 경험을 반영할 수 있는 펫 중심적인 온라인 커뮤니케이션 서비스 제공 장치, 온라인 커뮤니케이션 서비스 제공 방법 및 기록 매체 |
JP2016090776A (ja) * | 2014-11-04 | 2016-05-23 | トヨタ自動車株式会社 | 応答生成装置、応答生成方法およびプログラム |
JP2016133557A (ja) * | 2015-01-16 | 2016-07-25 | 国立大学法人大阪大学 | エージェント対話システムおよびプログラム |
JP2016150413A (ja) * | 2015-02-17 | 2016-08-22 | 本田技研工業株式会社 | 環境認識装置及びそれを備えたロボット |
JP6309673B1 (ja) * | 2017-06-09 | 2018-04-11 | 六月 林 | デバイスと操作者との間に恋愛感情を形成する恋愛感情形成装置、恋愛感情形成方法、及びプログラム |
JP2018129068A (ja) * | 2018-03-16 | 2018-08-16 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2018136500A (ja) * | 2017-02-23 | 2018-08-30 | 株式会社Nttドコモ | 音声応答システム |
WO2018155116A1 (ja) | 2017-02-24 | 2018-08-30 | ソニーモバイルコミュニケーションズ株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
WO2018198791A1 (ja) * | 2017-04-26 | 2018-11-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2019008891A1 (ja) | 2017-07-07 | 2019-01-10 | ソニーモバイルコミュニケーションズ株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
JP2019032843A (ja) * | 2013-03-14 | 2019-02-28 | トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド | 自動車又は携帯電子装置を使用した能動的且つ自動的なパーソナルアシスタンスを提供するコンピュータベースの方法及びシステム |
JP2019053650A (ja) * | 2017-09-19 | 2019-04-04 | 富士ゼロックス株式会社 | 自走式装置 |
WO2019064650A1 (ja) * | 2017-09-28 | 2019-04-04 | 三菱自動車工業株式会社 | 車両用情報伝達支援システム |
US10269349B2 (en) | 2016-08-01 | 2019-04-23 | Toyota Jidosha Kabushiki Kaisha | Voice interactive device and voice interaction method |
US10389873B2 (en) | 2015-06-01 | 2019-08-20 | Samsung Electronics Co., Ltd. | Electronic device for outputting message and method for controlling the same |
JP2020077000A (ja) * | 2017-06-16 | 2020-05-21 | 本田技研工業株式会社 | インタラクション装置、インタラクション方法、プログラム、および車両制御方法 |
CN112185389A (zh) * | 2020-09-22 | 2021-01-05 | 北京小米松果电子有限公司 | 语音生成方法、装置、存储介质和电子设备 |
JP2021503112A (ja) * | 2017-09-29 | 2021-02-04 | トルーク インコーポレイテッドTorooc Inc. | 自律行動ロボットを利用して対話サービスを提供する方法、システム、及び非一時的なコンピュータ読み取り可能な記録媒体 |
JP2021510851A (ja) * | 2018-01-26 | 2021-04-30 | 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. | インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体 |
WO2021106080A1 (ja) * | 2019-11-26 | 2021-06-03 | 日本電信電話株式会社 | 対話装置、方法及びプログラム |
-
2002
- 2002-08-29 JP JP2002251794A patent/JP2004090109A/ja not_active Withdrawn
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8315454B2 (en) | 2004-09-14 | 2012-11-20 | Sony Corporation | Robot apparatus and method of controlling the behavior thereof |
WO2008152943A1 (ja) * | 2007-06-13 | 2008-12-18 | Softbank Bb Corp. | 移動通信装置、移動通信装置の制御方法、そのプログラムおよび記録媒体 |
JP2009025658A (ja) * | 2007-07-20 | 2009-02-05 | Oki Electric Ind Co Ltd | 音声合成装置、音声合成システム |
KR100914309B1 (ko) | 2007-08-03 | 2009-08-27 | 한양대학교 산학협력단 | 지능형 에이전트 시스템 및 지능형 에이전트의 감정 생성방법 |
WO2009022713A1 (ja) * | 2007-08-13 | 2009-02-19 | Nec Corporation | 通信装置、コミュニケーション分析方法およびコミュニケーション分析プログラム |
JP5521549B2 (ja) * | 2007-08-13 | 2014-06-18 | 日本電気株式会社 | 通信装置、コミュニケーション分析方法およびコミュニケーション分析プログラム |
CN101785284A (zh) * | 2007-08-13 | 2010-07-21 | 日本电气株式会社 | 通信设备、通信分析方法和通信分析程序 |
CN101785284B (zh) * | 2007-08-13 | 2013-07-31 | 日本电气株式会社 | 通信设备、通信分析方法和通信分析程序 |
KR100919095B1 (ko) * | 2008-01-18 | 2009-09-28 | 주식회사 케이티 | 사용자 자극행동에 따른 로봇 반응행동 수행 방법 및 그로봇 |
JPWO2009107185A1 (ja) * | 2008-02-25 | 2011-06-30 | パイオニア株式会社 | 車載ロボット |
WO2009107185A1 (ja) * | 2008-02-25 | 2009-09-03 | パイオニア株式会社 | 車載ロボット |
KR100953407B1 (ko) * | 2008-04-24 | 2010-04-19 | 한국과학기술원 | 로봇의 호감도 형성장치 및 그 방법 |
JP2010110862A (ja) * | 2008-11-06 | 2010-05-20 | Nec Corp | コミュニケーションロボットシステム、コミュニケーションロボット制御方法およびプログラム |
JP2010204487A (ja) * | 2009-03-04 | 2010-09-16 | Toyota Motor Corp | ロボット、対話装置及び対話装置の動作方法 |
JP2011000681A (ja) * | 2009-06-19 | 2011-01-06 | Advanced Telecommunication Research Institute International | コミュニケーションロボット |
JP2015524934A (ja) * | 2012-04-04 | 2015-08-27 | アルデバラン ロボティクス | ユーザとの自然対話をロボットの挙動に組み込むことができるロボットならびに前記ロボットをプログラムする方法および使用する方法 |
US10052769B2 (en) | 2012-04-04 | 2018-08-21 | Softbank Robotics Europe | Robot capable of incorporating natural dialogues with a user into the behaviour of same, and methods of programming and using said robot |
JP2019032843A (ja) * | 2013-03-14 | 2019-02-28 | トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド | 自動車又は携帯電子装置を使用した能動的且つ自動的なパーソナルアシスタンスを提供するコンピュータベースの方法及びシステム |
JP2014206850A (ja) * | 2013-04-12 | 2014-10-30 | シャープ株式会社 | 電子機器および自走式掃除機 |
CN104123939A (zh) * | 2014-06-06 | 2014-10-29 | 国家电网公司 | 基于变电站巡检机器人的语音交互控制方法 |
WO2016010341A1 (ko) * | 2014-07-14 | 2016-01-21 | 한양대학교 에리카산학협력단 | 펫을 중심으로 하는 펫 기반의 커뮤니케이션 서비스 제공 장치, 펫 기반의 커뮤니케이션 서비스 제공 방법 |
KR20160017717A (ko) * | 2014-08-01 | 2016-02-17 | 한양대학교 에리카산학협력단 | 펫 성장 및 경험을 반영할 수 있는 펫 중심적인 온라인 커뮤니케이션 서비스 제공 장치, 온라인 커뮤니케이션 서비스 제공 방법 및 기록 매체 |
KR101633180B1 (ko) * | 2014-08-01 | 2016-06-24 | 한양대학교 에리카산학협력단 | 펫 성장 및 경험을 반영할 수 있는 펫 중심적인 온라인 커뮤니케이션 서비스 제공 장치, 온라인 커뮤니케이션 서비스 제공 방법 및 기록 매체 |
JP2016090776A (ja) * | 2014-11-04 | 2016-05-23 | トヨタ自動車株式会社 | 応答生成装置、応答生成方法およびプログラム |
JP2016133557A (ja) * | 2015-01-16 | 2016-07-25 | 国立大学法人大阪大学 | エージェント対話システムおよびプログラム |
JP2016150413A (ja) * | 2015-02-17 | 2016-08-22 | 本田技研工業株式会社 | 環境認識装置及びそれを備えたロボット |
US10389873B2 (en) | 2015-06-01 | 2019-08-20 | Samsung Electronics Co., Ltd. | Electronic device for outputting message and method for controlling the same |
US10269349B2 (en) | 2016-08-01 | 2019-04-23 | Toyota Jidosha Kabushiki Kaisha | Voice interactive device and voice interaction method |
JP2018136500A (ja) * | 2017-02-23 | 2018-08-30 | 株式会社Nttドコモ | 音声応答システム |
US11380332B2 (en) | 2017-02-24 | 2022-07-05 | Sony Mobile Communications Inc. | Information processing apparatus, information processing method, and computer program |
WO2018155116A1 (ja) | 2017-02-24 | 2018-08-30 | ソニーモバイルコミュニケーションズ株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
WO2018198791A1 (ja) * | 2017-04-26 | 2018-11-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JPWO2018198791A1 (ja) * | 2017-04-26 | 2020-03-05 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP2018206273A (ja) * | 2017-06-09 | 2018-12-27 | 六月 林 | デバイスと操作者との間に恋愛感情を形成する恋愛感情形成装置、恋愛感情形成方法、及びプログラム |
JP6309673B1 (ja) * | 2017-06-09 | 2018-04-11 | 六月 林 | デバイスと操作者との間に恋愛感情を形成する恋愛感情形成装置、恋愛感情形成方法、及びプログラム |
JP2020077000A (ja) * | 2017-06-16 | 2020-05-21 | 本田技研工業株式会社 | インタラクション装置、インタラクション方法、プログラム、および車両制御方法 |
JP7222938B2 (ja) | 2017-06-16 | 2023-02-15 | 本田技研工業株式会社 | インタラクション装置、インタラクション方法、およびプログラム |
WO2019008891A1 (ja) | 2017-07-07 | 2019-01-10 | ソニーモバイルコミュニケーションズ株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
JP2019053650A (ja) * | 2017-09-19 | 2019-04-04 | 富士ゼロックス株式会社 | 自走式装置 |
WO2019064650A1 (ja) * | 2017-09-28 | 2019-04-04 | 三菱自動車工業株式会社 | 車両用情報伝達支援システム |
JP2021503112A (ja) * | 2017-09-29 | 2021-02-04 | トルーク インコーポレイテッドTorooc Inc. | 自律行動ロボットを利用して対話サービスを提供する方法、システム、及び非一時的なコンピュータ読み取り可能な記録媒体 |
US11373641B2 (en) | 2018-01-26 | 2022-06-28 | Shanghai Xiaoi Robot Technology Co., Ltd. | Intelligent interactive method and apparatus, computer device and computer readable storage medium |
JP2021510851A (ja) * | 2018-01-26 | 2021-04-30 | 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. | インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体 |
JP2018129068A (ja) * | 2018-03-16 | 2018-08-16 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JPWO2021106080A1 (ja) * | 2019-11-26 | 2021-06-03 | ||
WO2021106080A1 (ja) * | 2019-11-26 | 2021-06-03 | 日本電信電話株式会社 | 対話装置、方法及びプログラム |
CN112185389A (zh) * | 2020-09-22 | 2021-01-05 | 北京小米松果电子有限公司 | 语音生成方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004090109A (ja) | ロボット装置およびロボット装置の対話方法 | |
AU2018204246B2 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
US11990120B2 (en) | Non-speech input to speech processing system | |
US10692489B1 (en) | Non-speech input to speech processing system | |
KR100814569B1 (ko) | 로봇 제어 장치 | |
US6509707B2 (en) | Information processing device, information processing method and storage medium | |
JP2003255991A (ja) | 対話制御システム、対話制御方法及びロボット装置 | |
JP2001188784A (ja) | 会話処理装置および方法、並びに記録媒体 | |
JP2001188787A (ja) | 会話処理装置および方法、並びに記録媒体 | |
Poncela et al. | Command-based voice teleoperation of a mobile robot via a human-robot interface | |
JP2002268699A (ja) | 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体 | |
JP2010094799A (ja) | 人型ロボット | |
JP2001188779A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP4600736B2 (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
JP2001188782A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP2002268663A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP2002307349A (ja) | ロボット装置、情報学習方法、プログラム及び記録媒体 | |
JP2004286805A (ja) | 話者識別装置および話者識別方法、並びにプログラム | |
JP2001188783A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP4656354B2 (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
JP2001117752A (ja) | 情報処理装置および情報処理方法、並びに記録媒体 | |
JP2002258886A (ja) | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 | |
JP2001188786A (ja) | 会話処理装置および方法、並びに記録媒体 | |
Lin et al. | Nonverbal acoustic communication in human-computer interaction | |
JP2001188785A (ja) | 会話処理装置および方法、並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20051101 |