JP4839838B2 - 情報処理システム、情報処理方法および情報処理用プログラム - Google Patents

情報処理システム、情報処理方法および情報処理用プログラム Download PDF

Info

Publication number
JP4839838B2
JP4839838B2 JP2005516220A JP2005516220A JP4839838B2 JP 4839838 B2 JP4839838 B2 JP 4839838B2 JP 2005516220 A JP2005516220 A JP 2005516220A JP 2005516220 A JP2005516220 A JP 2005516220A JP 4839838 B2 JP4839838 B2 JP 4839838B2
Authority
JP
Japan
Prior art keywords
information
unit
speaker
processing
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005516220A
Other languages
English (en)
Other versions
JPWO2005057549A1 (ja
Inventor
昭彦 杉山
潔 山端
研治 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005516220A priority Critical patent/JP4839838B2/ja
Publication of JPWO2005057549A1 publication Critical patent/JPWO2005057549A1/ja
Application granted granted Critical
Publication of JP4839838B2 publication Critical patent/JP4839838B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Toys (AREA)

Description

本発明は、情報処理システム、情報処理方法、情報処理用プログラムおよびロボットに関し、特に処理結果を伝達する際に情報を付加/削除することができる情報処理システム、情報処理方法、情報処理用プログラムおよびロボットに関する。
従来の通訳/翻訳を目的とした情報処理システムの例が、特許文献1、特許文献2、特許文献3、特許文献4、特許文献5、特許文献6および特許文献7に記載されている。
特許文献1に開示された情報処理システムは、音声認識部と、機械翻訳部と、音声合成部、表示部と、対話管理部とから構成されている。このような構成を有する特許文献1に記載された情報処理システムはつぎのように動作する。
音声認識部で入力される音声が音声認識され、その音声認識結果が機械翻訳部に供給される。機械翻訳部では、音声認識結果を機械翻訳する。機械翻訳部は機械翻訳を行うに適切な構成単位で構成されていない場合に、構成単位を変更するように音声認識部へ指示する。そして、音声合成部から音声出力を行う。
従来の通訳/翻訳を目的とした情報処理システムの他の例である特許文献2、特許文献3および特許文献4は、いずれも特許文献1と同様に音声認識部、機械翻訳部、音声合成部を有している。特許文献1から特許文献4に開示された従来の情報処理システムは、いずれも通訳・翻訳を対象としており、高精度で自然な通訳・翻訳を遂行することがその目的となっている。
特許文献5の従来の技術に関する説明では、ユーザからの指令や外部環境に基づいて定められた動作を行うロボットについて記載がある。また、外部状態を認識する手段と、内部状態を基に情動を発生させる手段を備え、情動の変化を対話に反映させるロボットについての記載がある。
特許文献6では、音声認識部、機械翻訳部、音声を入力する入力部等からのユーザの感情を表す情報に基づいて、画像として表示されるキャラクタや状態が制御されるロボットについての記載がある。また特許文献7では、翻訳機能、外国語会話機能、ユーザからの回答が正解かを判定する勉強機能、発音評価機能等を備えたロボットの記載がある。
特開2001−100784号公報 特開2001−100788号公報 特開2001−117921号公報 特開2001−117922号公報 特開2002−283261号公報 特開2001−117752号公報 特開2002−351305号公報
以上、特許文献1から特許文献7までを参照して従来の技術に関して説明した。これらの技術を適切に組み合わせることにより、高精度に通訳/翻訳を行い、外部から受け取る信号や内部状態に応じて様々な動作を行うことができる。しかし、従来の技術では、以下のような問題点がある。
従来例の問題点は、処理の対象となる情報の正確な処理結果以外を再生できないということである。その理由は、情報処理された結果がそのまま再生されるように構成されているためである。
そこで、本発明は、処理の対象となる情報の正確な処理結果以外も再生できる情報処理システム、情報処理方法、情報処理用プログラムおよびロボットを提供することを目的とする。
本発明による情報処理システムは、受けた情報がどのような情報であるかを分析し、分析結果に基づいて前記受けた情報に付加する付加情報又は前記受けた情報から削除する削除情報を決定する情報分析部と、前記情報分析手段により決定された付加情報の付加又は削除情報の削除を行う変更処理部と、変更を受けた情報を再生する情報再生部と、を備えたことを特徴とする。
本発明によるロボットは、ロボット本体の動作を制御する動作制御手段と、
話者からの音声又は画像に基づいて前記話者の方向を同定し、ある時刻での前記話者の方向を同定することで、その後に前記話者と聴取者が交代したときの、音声を出力する対象となる前記聴取者の方向を同定する方向同定手段と、
前記話者と前記聴取者とが交代して会話が繰り返されるときに、前記話者と前記聴取者との間の通訳を行う情報処理手段と、を有し、
前記動作制御手段は該同定した方向に前記ロボット本体が向くように制御することを特徴とする。
また本発明の情報処理システムは、受けた情報がどのような情報であるかを分析し、分析結果に基づいて前記受けた情報に付加する付加情報又は前記受けた情報から削除する削除情報を決定する情報分析部と、 前記情報分析手段により決定された付加情報の付加又は削除情報の削除を行う変更処理部と、付加情報の付加又は削除情報の削除が行われた情報を再生する情報再生部と、前記情報分析部で決定された前記付加情報の検索指示を送信する第1通信手段とを備えた情報処理装置と、
前記第1通信手段と情報の送受信を行う第2通信手段と、前記付加情報として利用する可能性のある情報を記憶する記憶部と、前記検索指示に基づいて前記付加情報を前記記憶部から検索する検索部とを備えた情報格納装置と、
を有し、
前記情報格納装置で検索された前記付加情報を前記第2通信手段及び第1通信手段を介して前記変更処理部へ送ってなることを特徴とする。
本発明の情報処理方法は、受けた情報がどのような情報であるかを分析し、分析結果に基づいて前記受けた情報に付加する付加情報又は前記受けた情報から削除する削除情報を決定する第1ステップとと、
前記第1ステップで決定された付加情報の付加又は削除情報の削除を行う第2ステップと、
を備えたことを特徴とする。
また本発明の情報処理方法は、受けた情報がどのような情報であるかを分析し、分析結果に基づいて前記受けた情報に付加する付加情報を決定する第1ステップと、
前記付加情報の検索指示を送信する第3ステップと、
受信した前記付加情報の検索指示に基づいて、付加情報として利用する可能性のある情報が記憶された記憶部から前記付加情報を検索する第4ステップと、
検索された前記付加情報を送信する第5ステップと、
前記受けた情報に、受信した前記付加情報の付加を行う第6ステップと、
前記付加情報の付加が行われた情報を再生する第7ステップと、
を有する情報処理方法である。
本発明の情報処理用プログラムは、コンピュータに、
受けた情報がどのような情報であるかを分析し、分析結果に基づいて前記受けた情報に付加する付加情報又は前記受けた情報から削除する削除情報を決定する第1処理と、
前記第1処理での情報分析により決定された付加情報の付加又は削除情報の削除を行う第2処理と、
を実行させるための情報処理用プログラムである。
本発明によれば、意思の疎通を円滑にすることができる。その理由は、本来の情報処理結果以外に付加的な情報を伝達することができるためである。また、本発明によれば、意思の疎通を効率的にすることができる。その理由は、本来の情報処理結果から不要な情報や冗長な情報を除外できるためである。また、本発明によれば、意思の疎通における品質を高くすることができる。その理由は、本来の情報処理結果に適切な詳細情報を付加できるためである。
実施の形態1.
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。図1を参照すると、本発明の第1の実施の形態は、情報入力部となるセンサ2と、情報処理手段3と、情報変更手段5と、情報再生手段4とを含む。これらの手段は、それぞれ概略つぎのように動作する。
情報入力部となるセンサ2は、外部からの信号など処理対象となる情報を受ける。センサ2は、例えば、電波、光、音、温度(サーモグラフィ)、接触刺激またはその組み合わせによって表されるあらゆる信号を受けるように構成することができる。これらの例としては、マイクロフォン等の音響トランスデューサ、CCDカメラ、キーボードをあげることができる。情報処理手段3は、センサ2で受けた情報を処理し、処理結果を情報再生手段4に伝達する。情報処理が音声認識、翻訳、音声合成を含む通訳である場合には、センサ2となるマイクロフォンやキーボードで受けた第1の言語を、情報処理手段3において第2の言語に翻訳し、情報変更手段5で、情報処理手段3において得られた処理結果に対して、情報の付加/削除を行い、情報再生手段4で再生する。情報再生手段4の取り扱う再生信号は、音、画像(静止画、動画)、文字を含む。情報再生手段4としてはスピーカ、液晶表示装置等のディスプレイデバイス等がある。
情報処理手段3が通訳を行うように動作する実施の形態を図2に示す。情報処理手段3は、制御部31、音声処理部32および自動通訳部33を備える。また、音声処理部32は、音声認識部321および音声合成部322を含む。なお、音声認識部の詳細な動作に関しては、例えば「安藤彰男、“リアルタイム音声認識”、電子情報通信学会編、2003年9月(文献A)」に、音声合成部の詳細な動作に関しては、例えば「古井貞熙、“ディジタル音声処理”、東海大学出版会、1985年9月(文献B)」に記載されている。
制御部31は、システム全体の動作を制御するものであり、2言語における翻訳の方向、各種情報の流れ、情報のアドレスなど全てを管理・制御する。音声認識部321は、入力された音声を属性に基づいて認識する。音声合成部322は、自動通訳部33からの出力を音声化する。自動通訳部33は、音声認識部321から送出されてくる発話者の発話内容を、別の言語に翻訳する。音声認識部321から送出されてくる発話者の発話内容は、2言語のうちのいずれかで表現されているので、自動通訳部33は双方向自動通訳機能を有することになる。
情報処理手段3が多言語通訳を行うように動作する実施の形態を図3に示す。情報処理手段3は、制御部31、音声処理部32および自動通訳部33を含む。特に、音声処理部32と自動通訳部33との組合せは、通訳対象とする言語の数以上を備えている。
制御部31は、システム全体の動作を制御するものであり、多言語における翻訳の方向、各種情報の流れ、情報のアドレス、適切な音声処理部32と自動通訳部33の組合せの選択など全てを管理・制御する。その他の動作は、図2を用いて説明したとおりである。
情報変更手段5が情報を付加するように動作する実施の形態を図4に示す。図4に示す情報変更手段5は、変更処理部51と、付加情報生成部52と、制御部53とを含む。付加情報生成部52は、情報分析部521、検索部522および記憶手段523を含む。
変更処理部51は、情報処理手段3から処理結果を受けて、実際に情報を付加する処理を行う。付加情報生成部52は、変更処理部51を経由して情報処理手段3から処理結果を受けて、変更処理部51が付加する情報を生成する。制御部53は、付加情報生成部52における付加情報の生成と変更処理部51における付加を制御する。情報分析部521は、検索部522を経て受けた情報処理手段3の処理結果として供給された情報を分析し、どのような情報を付加するかを決定する。分析のステップは、供給情報の分類、付加情報カテゴリ選択、付加情報選択から構成される。
供給情報の分類では、供給情報の意味を解釈し、それを疑問文、説明文などに分類する。例えば、供給情報に「・・・であろうか?」、「・・・かどうかは疑問である。」等の文があれば疑問文、「その点について説明すると・・・である。」、「・・・と解釈されている。」等の文があれば説明文と解釈する。
付加情報カテゴリの選択では、疑問文や説明文に適した付加情報カテゴリを選択する。例えば、疑問文に対しては回答を促す表現を付加することができ、説明文に関しては理解・伝達を確認する表現を付加することができる。回答を促す表現としては、「・・・に対して答えてください。」などがあり、理解・伝達を確認する表現としては、「わかりましたか?」、「聞こえましたか?」などがある。
付加情報選択ステップでは、これらのカテゴリに属する情報から一つ以上のものを選択して、付加情報とする。これらのカテゴリに属する情報としては、複数のものをあらかじめ、記憶手段523に記憶しておく。選択の方法としては、情報処理結果と記憶した付加情報の双方からキーワードを抽出し、それらの対応関係に基づいて選択することができる。このためには、記憶手段523に記憶する付加情報は、キーワード毎に分類して記憶しておくことがよい。キーワードを用いて対応させることのできる付加情報が複数存在するときには、記憶手段523に記憶された順に使用することもできるし、逆順に使用することもできる。さらに、過去に用いたものを一定時間の後に再度利用することも可能である。また、情報処理結果から抽出したキーワードに対して、ランダムな付加情報を付加することもできる。この場合には、まず乱数を発生させて、発生した乱数とあらかじめ対応が定められている付加情報を選択する。ランダムな言葉は、予想しない好意的な反応を引き起こすことがあり、情報付加による効果が大きい。
別の分類としては、過去の処理結果と付加情報を分析することによって、処理結果が主として短い言葉で構成されるテンポの速いやりとりであるか、長い言葉で構成される比較的フォーマルなやりとりかの分類が可能である。付加情報カテゴリの選択において、前者の場合には、テンポの速いやりとりをさまたげないような短い言葉である掛け声、合いの手などを付加情報として用いることが、後者の場合には長い言葉を付加情報として用いることができる。掛け声、合いの手の例としては、「いよっ、大統領!(Way to go, man!)」、「ブラボー」などがある。
また、処理結果を情報再生装置に伝達してから次の情報処理結果が得られるまでの時間間隔を評価することによって、相手の理解度をはかる目安として用いることもできる。この時間間隔評価過程において、相手からの反応が遅れていることが判明した際には、付加情報カテゴリの選択において、例えば回答を促す表現や相槌を付加することができる。相槌の例としては、「たしかに(Exactly. )」、「そのとおり(You bet!/You got it!)」、「ええ、分かります(I see.)」、「そうですね。(I agree.)」などがある。
さらに、通訳相手が通訳結果を聞いて感じるであろう気持ちに対する励まし、なぐさめの言葉を付加することもできる。この場合は、前記供給情報の分類過程において、供給情報に対する反応を分析し、その反応を分類することによって、前記付加情報カテゴリの選択に利用する。例えば、反応の分類結果が悲しみや喜びである場合には、慰めや共感を表す付加情報カテゴリを選択する。
検索部522は、情報分析部521で決定した付加情報を記憶手段523から検索する。記憶手段523は、付加情報として利用する可能性のある情報を、予め記憶しておく。
検索部522が検索した付加情報は、変更処理部51に供給される。記憶手段に記憶される情報の例としては、通訳・翻訳していることを明示的に示す表現、回答を促す表現、理解・伝達を確認する表現、掛け声、合いの手、相槌などがある。通訳/翻訳していることを明示的に示す表現としては、「・・・と言っています。」、「・・・と聞いていますが、どうしましょうか?」、「・・・と尋ねているようですが・・・」などがある。
情報再生手段4がディスプレイデバイスやロボットなどである場合には、これまで説明してきた言語情報以外の情報を付加することもできる。そのような例としては、動作、色、光などがあげられる。ディスプレイデバイスにエージェントが表示されている場合やロボットを用いる場合には、エージェントやロボットの動作が付加情報となる。例えば、うなずき、頭の傾け、首振り、ジャンプなど通常の体の動作に加えて、人間には存在しない動作を用いることもできる。このような特殊な動作の例としては、エージェントやロボットにおける体の伸縮、分離があり、エージェントの場合にはエージェント数の増減も可能である。動作を現す動作手段としてはロボットの場合は腕、手、足、胴体、頭、顔等がある。
色を付加情報として用いる例としては、エージェントやロボットの色の変化がある。例えば、エージェントの表示色を変化させたり、エージェントやロボットの様々な位置に内蔵された発光体の色を変化させることができる。このような発光体としては、通常の電球の他にLEDを利用することも可能である。複数の発光体を複雑に組み合わせて制御することによって、エージェントやロボットがあたかも感情を有しているように表現することができ、本発明の情報付加効果が増大する。
同様に、光を付加情報とする例としては、光の点滅パターンや明るさの制御がある。複数の発光体を組み合わせた点滅パターンや明るさの制御によって、上記色の変化と同様の効果を得ることができる。
情報変更手段5が情報を付加するように動作する別の実施の形態を図5に示す。図5に示す付加情報生成部52は、図4の記憶手段523に代えて通信手段524を含み、さらに付加情報格納部54を含む。すなわち、付加情報生成部52は、変更処理部51が付加する情報を記憶手段523から取り出す代わりに、通信手段524を経て付加情報格納部54から取得する。付加情報格納部54は、通信処理部541、検索部542、記憶手段543、制御部544を含む。
通信手段541は、通信手段524と対になって通信し、検索部522が検索するべき情報を受ける。通信手段541が受けた検索するべき情報は、検索部542に伝達される。検索部542は、記憶手段543から必要な情報を検索し、通信手段541、通信手段524を経て、検索部522に伝達する。これら一連の動作は、制御部544と制御部53とによって制御される。
記憶手段543は、付加情報として利用する可能性のある情報を、予め記憶しておく。通信手段541と通信手段524とが検索に関する情報をやりとりする方法/手段としては、有線伝送、無線LANを含む無線伝送、さらにはインターネットを経由したIP通信など、あらゆる手段を利用することができる。
付加情報格納部54は、インターネットを介して接続されるサーバとしてもよい。例えば、通訳結果が明日の天気を話題にしているとき、インターネットを経由して検索してきた明日の天気予報を通訳結果に付加することによって、処理された情報の品質を高めることができる。
情報変更手段5が情報を付加するように動作する実施の形態を図4と図5とを用いて説明したが、情報変更手段5が情報を除去するように動作する実施の形態も同様に構成することができる。まず、図4と図5とにおいて、付加情報生成部を除去情報生成部で、付加情報格納部を除去情報格納部でそれぞれ置き換える。情報分析部は、供給された情報を分析して、どのような情報を付加するかの代わりにどのような情報を除去するかを決定する。
本実施形態の情報処理システムは、PDA(個人用デジタル情報処理支援装置)、パーソナルコンピュータ、携帯電話など、可搬性のあるものとして実現され、各構成要素が一つの端末として可搬性のある形にまとめられているので、あらゆる場所で円滑な意思の疎通を図ることができる。
以上のように、本実施の形態によれば、情報変更手段5が情報処理手段3において得られた処理結果に対して情報の付加/削除を行うように構成されているので、正確に処理された結果に感情表現や詳細情報の付加価値をつけることが可能となり、円滑な意思の疎通を図ることができる。
情報処理手段が通訳/翻訳を行う場合には、通訳・翻訳結果に応じて適切な付加語を用いることにより、相手になごやかな気分を生起させ、円滑な意思の疎通に貢献する。また、通訳・翻訳結果を適切に要約したり、詳細情報を付加することにより、意思の疎通における品質を高めることができる。
実施の形態2.
本実施形態では、実施形態1の構成を、通信路80を介して端末21とサーバ40とに機能分離したものである。
図6を参照すると、本発明の第2の実施の形態は、端末21とサーバ40と通信路80とを含む。また、端末21は、センサ2と、通信手段211と、情報変更手段5と、情報再生手段4とを含む。サーバ40は、情報処理手段3と、情報変更手段401と、通信手段402とを含む。センサ2、情報処理手段3、情報再生手段4の動作に関しては、すでに説明したとおりである。情報変更手段205,401は情報変更手段5の動作と同じである。これらの手段は、それぞれ概略つぎのように動作する。
センサ2は、外部からの信号など処理対象となる情報を受ける。通信手段211は、センサ2で受けた情報を通信路80を介して通信手段402に伝達する。通信手段402は、通信手段211を介して伝達されたセンサ2で受けた情報を、情報処理手段3に供給する。情報処理手段3は、センサ2で受けた情報を処理し、情報変更手段401に伝達する。情報変更手段401は、情報処理手段3において得られた処理結果に対して、情報の付加/削除を行い、通信手段402に伝達する。
通信手段402は、再び通信路80を介して通信手段211に情報変更処理を受けた処理結果を伝達する。通信手段211は、通信手段402を介して受けた処理結果を、情報変更手段205に伝達する。情報変更手段205は、通信手段402を介して受けた処理結果に対して情報の付加/削除を行い、情報再生手段4に伝達する。
なお、以上の処理の流れでは、情報変更手段401と情報変更手段205とがいずれも情報の付加/削除を行う構成となっているが、いずれか一つだけでもよい。例えば、情報変更手段401に図4の付加情報生成部52を配置し、情報変更手段205に付加情報生成部52で生成された付加情報を付加する変更処理部51を配置することができる。
端末21は、PDA(個人用デジタル情報処理支援装置)、パーソナルコンピュータ、携帯電話など、可搬性のあるものとして実現される。サーバ40の実現に制約はない。通信路80としては、有線伝送、無線LANを含む無線伝送、さらにはインターネットを経由したIP通信など、あらゆる手段を利用することができる。
端末21とサーバ40とが行う処理が通訳である場合には、センサ2、情報処理手段3および情報再生手段4の間で、音声認識、翻訳、音声合成の処理を分担することができる。例えば、情報処理手段3で音声認識と翻訳を実行し、情報再生手段4の中で音声合成を行うことができる。その際、端末21から通信路80を経てサーバ40に伝達される情報は音声情報であり、サーバから端末21に伝達される情報は翻訳結果である。
また、センサ2でケプストラムなど音声情報の特徴量抽出を、情報処理手段3で音声認識、翻訳、音素情報生成を実行し、情報再生手段4の中で音素情報から音声への合成を行うこともできる。その際、端末21から通信路80を経てサーバ40に伝達される情報は音声の特徴量であり、サーバから端末21に伝達される情報は音素情報である。
このように、センサ2、情報処理手段3および情報再生手段4の間で、部分処理を適切に分担することができる。
通信手段211と通信手段402とが情報をやりとりする方法/手段としては、有線伝送、無線LANを含む無線伝送、さらにはインターネットを経由したIP通信など、あらゆる手段を利用することができる。
また、図6では一つの端末21とサーバ40を示しているが、ネットワークを介して一つの端末と複数のサーバ、複数の端末と一つのサーバ、或いは複数の端末と複数のサーバを接続することができる。ネットワークとしては、有線伝送、無線LANを含む無線伝送、さらにはインターネットを経由したIP通信など、あらゆる手段を利用することができる。
一つの端末に複数のサーバをネットワークを介して接続した場合、一つの端末から通信手段を介してセンサからの情報を複数のサーバに送り、複数のサーバから、ほぼ同様の処理結果を受取ることができる。端末では、複数のサーバから受けた処理結果を比較して、より適切な方を選択することができる。あるいは、複数のサーバからの処理結果を適切に組み合わせて、より適切な結果を生成することができる。サーバの数は任意に設定でき、例えば、端末1台とサーバ10台とを用いた実施の形態を考える。この場合、端末には10台のサーバで処理された10種類の類似の結果が得られる。
サーバにおける処理が音声認識や通訳である場合には、端末内の選択組み合わせ手段において、これら10種類の認識結果や通訳結果を比較し、多数を占めるものを情報変更手段に伝達する結果として選択することができる。
以上のように、本実施の形態によれば、情報変更手段401、205が情報処理手段3において得られた処理結果に対して情報の付加/削除を行うように構成されているので、正確に処理された結果に感情表現や詳細情報の付加価値をつけることが可能となり、円滑な意思の疎通を図ることができる。また、本実施の形態によれば、さらに、演算量の多い処理がサーバ40に、それ以外の軽微な処理とインタフェースが端末21に分散配置されているので、円滑な意思の疎通を図るための処理を効率よく実現することができる。
また、本実施の形態によれば、一又は二以上の端末が複数のサーバの双方で得られた処理結果を比較してより適切な方を選択する、あるいは適切に組み合わせてより適切な結果を生成するので、高品質で円滑な意思の疎通を図ることができる。
実施の形態3.
本実施形態では、情報処理手段3と情報変更手段5の機能をソフトウエアにより実現する。図7を参照すると、プログラム制御により動作するコンピュータ(中央処理装置、プロセッサ、データ処理装置)900と、センサ2と、情報再生手段4とを含む。コンピュータ(中央処理装置、プロセッサ、データ処理装置)200は、情報処理手段3と、情報変更手段5とを含む。例えばコンピュータ900は演算処理を行うCPU、情報処理手段3と情報変更手段5との機能を実行するプログラムが記憶された記憶素子(例えばROM)、センサ2からの情報や演算処理情報が記憶される記憶素子(例えばRAM)で構成される。かかるコンピュータは例えば1チップコンピュータとして構成される。これらの手段は、それぞれ概略つぎのように動作する。
センサ2は、外部からの信号など処理対象となる情報を受ける。情報処理手段3は、センサ2で受けた情報を処理し、処理結果を情報再生手段4に伝達する。情報変更手段5は、情報処理手段3において得られた処理結果に対して、情報の付加/削除を行う。情報再生手段4は、情報変更手段5によって情報を付加/削除された処理結果を再生する。
情報処理手段3と情報変更手段5の機能をソフトウエアにより実現する別の形態は図8に示される。図8を参照すると、本プログラム(情報処理用プログラム)は、コンピュータ(中央処理装置、プロセッサ、データ処理装置)910に読み込まれ、コンピュータ910の動作を制御する。例えばコンピュータ910は演算処理を行うCPU、情報処理手段3と情報変更手段5との機能を実行するプログラムが記憶された記憶装置(例えばハードディスク装置等のディスク装置)、センサ2からの情報や演算処理情報が記憶される記憶素子(例えばRAM)で構成される。情報処理手段3と情報変更手段5との機能を実行するプログラムは適宜インストールされ、ソフトウエアの更新を行うことができる。コンピュータ910はプログラムの制御により図7を用いて説明したコンピュータ900による処理と同様の処理を実行する。
以上のように、本実施の形態によれば、情報変更手段5が情報処理手段3において得られた処理結果に対して情報の付加/削除を行うように構成されているので、正確に処理された結果に感情表現や詳細情報の付加価値をつけることが可能となり、円滑な意思の疎通を図ることができる。
実施の形態4.
図1〜図5を用いて説明した情報処理システムを用いたロボットについて説明する。図9を参照すると、本発明の第2の実施の形態は、ロボット本体1と、センサ2と、情報処理手段3と、情報変更手段5と、情報再生手段4と、全体制御部6と、動作制御手段7と、方向入力手段10と、送信手段11とを含む。また、全体制御部6は、評価手段62とタイミング生成手段63とを含む。さらに、動作制御手段7は、ロボット本体1を回転させたり、上下に移動させたりするモータ71および記憶手段72を含む。ロボットは手足を有し人間に近いもの、犬や猫の動物に近いもの、ディスプレイデバイス,マイク,スピーカからなる機械に近いもの等種々の形態がある。これらの手段は、それぞれ概略つぎのように動作する。
センサ2、情報処理手段3、情報再生手段4および情報変更手段5の動作に関しては、すでに説明したとおりである。全体制御部6は、評価手段62を用いて、情報変更手段5で得られた処理結果を評価し、評価結果に基づいた制御信号を動作制御手段7に伝達する。また全体制御部6は、タイミング生成手段63を用いて、情報変更手段5で変更された処理結果とセンサ2からの出力とに基づいて、動作制御手段7が動作するタイミングを生成する。なお全体制御部6は、評価手段62を用いて、情報処理手段3で得られた処理結果を評価し、評価結果に基づいた制御信号を動作制御手段7に伝達してもよい。
図9に示すように、評価手段62が情報変更手段5で得られた変更結果を評価する場合、例えば、情報変更手段5が、通訳結果に関係の深い冗談を付け加えるように動作したとき、評価手段62が評価し、その内容に対応した制御信号を発生する。例えば、動作制御手段7が冗談に合わせてロボット本体1が左右に回転するような動作を行わせる信号を発生することができる。さらに、複雑な動作を行うことが可能な場合には、情報再生手段4で再生する情報に合わせたジェスチャなどの動作を行うようにすることもできる。
一方、評価手段62が情報処理手段3で得られた処理結果を評価する場合、例えば、情報処理手段3が通訳を行うときには、通訳結果を評価手段61が評価し、その内容に対応した制御信号を発生する。例えば、通訳結果に「笑い」が含まれている場合には、動作制御手段7が左右あるいは上下に小刻みに方向を変えるような信号を発生することができる。このような動作は、実際に人間が笑うときの動作に共通するものがあり、ロボットに適用することで親しみある性格を表現することができる。
なお評価手段62が情報変更手段5で得られた変更結果を評価する場合と、情報処理手段3で得られた処理結果を評価する場合とでは動作制御手段7に対する制御信号が異なることが普通である。例えば、通訳結果に「笑い」が含まれていても、情報変更手段5によって笑いの部分が除去されていれば、評価回路62が動作制御手段7が左右あるいは上下に小刻みに方向を変えるような信号を発生することはない。
動作制御手段7は、全体制御部6に含まれるタイミング生成手段63から伝達されたタイミングで、評価手段61から伝達される制御信号を受け、実際に動作を制御するためのモータの動きを制御するための信号に変換したうえで、モータ71に伝達する。モータ71は、そのようにして供給された制御信号に従って、回転動作や上下移動動作を発生する。
タイミング生成手段63は、あらゆる入力情報を用いてタイミングを生成することができる。このような入力情報として、音響情報、画像情報、接触情報などを用いることができる。音響情報としては、音声の強度、音声の到来方向、言語の種類、単語またはその組合わせ、呼びかけ語、人名、その他個人に特有の情報などを用いることができる。さらに、これらの変化に関する情報、たとえば音声強度の変化、言語の変化なども用いることができる。これらの情報は、予め記憶手段に格納しておくことができる。動作制御手段7において、評価手段62から伝達される制御信号が定める動作を行うタイミングが問題とならない場合にはタイミング生成手段は必ずしも設けなくともよい。
タイミング生成手段63は本実施形態ではセンサ2からの出力と情報変更手段5からの出力とに基づいてタイミングを生成しているが、外部からの電波、光、音などの外部刺激をセンサで検知してタイミングを生成してもよい。この場合、電波、光、音などの外部刺激を送信手段として外部に設け、これらの外部刺激を電波受信機、光電変換素子、マイクロフォン等のセンサで受けてタイミングを生成することもできる。かかる送信手段としては、リモコン制御装置、PDA(Personal Digital Assistants )、PC(Personal Computer )、携帯電話機などがある。外部刺激を検知するセンサがタッチセンサの場合には、接触刺激によってもタイミング情報を伝達することができる。外部刺激を検知するセンサとしてキーボードや音声認識装置を用いることもできる。その際には、キーボード等から入力された情報の意味、認識結果、または入力が発生したタイミング自体を、入力すべきタイミング情報として用いることができる。かかる構成によれば、外部から入力した任意のタイミングに応じて動作を制御するように構成することができるので、多様な表現を通じた円滑な意思の疎通を図ることができる。
なお、動作制御手段7はモータを複数装備することも可能であり、その際に動作制御手段7は、多数の軸方向を中心とした回転運動を組合わせた複雑な動きを実現することができる。モータ以外にも、動作制御手段7における機械的動作制御のしくみを複雑化することによって、さらに複雑な動作の制御が可能となることは明らかである。
また動作制御手段7は、評価手段62が生成する制御信号、タイミング生成手段63が生成するタイミング情報に加えて、方向入力手段10から伝達される情報も用いて動作を制御する。例として、評価手段62において情報変更手段5の出力に含まれる言語に関する情報を検出し、この言語に関する情報と、方向入力手段10から入力されるその言語を聞くことになる聴取者の方向情報とを用いて、動作制御手段7が聴取者の方を向くように制御することができる。方向入力手段10は、話者と聴取者の方向情報を受け、これに対応した制御信号を動作制御手段7に伝達する。方向入力手段10に対する入力は、電波、光、音などによって表されるが、方向入力手段10がタッチセンサであれば、接触刺激またはその組合わせによっても方向情報を入力することができる。方向入力手段10の受ける方向に関する情報も、記憶手段73に格納されている情報と同様に、多言語通訳や複数の話者/聴取者が存在する場合には、言語数や話者・聴取者の数に対応して複数方向に拡張される。
送信手段11は、方向入力手段10が受ける方向に関する情報を発生する。送信手段11と方向入力手段10とは、同じ情報(刺激)を取り扱うように構成する。送信手段11の例としては、リモコン制御装置、PDA、PC、携帯電話などを用いることもできる。なお、送信手段11は設けなくともよい。
同様に、評価手段62に対して情報変更手段5の出力に代えて情報処理手段3の入力を供給し、同様に言語に関する情報を検出することによって、動作制御手段7が話者の方を向くように制御することができる。さらに、タイミング生成手段63によって話者の言葉の終わりを検出すれば、話者が話し終わってすぐに聴取者の方向に向くように動作制御手段7が制御することもできる。
評価手段61から供給される制御信号と動作制御手段7の具体的な動作との関係は、予め定めておくことができる。具体的な動作とは、動作の内容および動作のタイミングを含む。その際には、具体的関係を記憶手段72に格納しておく。動作制御手段7は、評価手段61から制御信号が供給されると、その内容を記憶手段72の内容を参照して、モータ71を制御する信号に変換する。
動作制御手段7において、記憶手段72とは別に、通訳されるべき第1の言語を発する主体のある方向と通訳結果である第2の言語を受取る主体のある方向とに関する情報を格納する他の記憶手段を設け、方向入力手段の代わりとすることもできる。以下、第1の言語を発する主体を話者、第2の言語を受取る主体を聴取者と記すが、ロボットなどの無生物を含む。なお、多言語通訳や複数の話者/聴取者が存在する場合には、他の記憶手段の記憶する方向に関する情報も、言語数や話者/聴取者の数に対応して複数方向に拡張される。
動作制御手段7は、評価手段62が生成する制御信号、タイミング生成手段63が生成するタイミング情報に加えて、他の記憶手段に格納されている情報も用いて動作を制御する。例として、評価手段62において情報変更手段5の出力に含まれる言語に関する情報を検出し、この言語に関する情報と、他の記憶手段に格納されているその言語を聞くことになる聴取者の方向情報とを用いて、動作制御手段7が聴取者の方を向くように制御することができる。
同様に、評価手段62に対して情報変更手段5の出力に代えて情報処理手段3の入力を供給し、同様に言語に関する情報を検出することによって、動作制御手段7が話者の方を向くように制御することができる。さらに、タイミング生成手段63によって話者の言葉の終わりを検出すれば、話者が話し終わってすぐに聴取者の方向に向くように動作制御手段7が制御することもできる。
動作制御のための方向情報を記憶しておくように構成されていれば、多様な表現を通じた円滑な意思の疎通を図ることができる。
以上のように、本実施の形態によれば、情報変更手段5が情報処理手段3において得られた処理結果に対して情報の付加/削除を行うように構成されているので、正確に処理された結果に感情表現や詳細情報の付加価値をつけることが可能となり、円滑な意思の疎通を図ることができる。また、本実施の形態によれば、さらに、処理結果や変更後の情報に応じて動作を制御するように構成されているので、多様な表現を通じた円滑な意思の疎通を図ることができる。さらに、動作のパターンを記憶しておくように構成されているので、多様な表現を少ない演算量で実現することができる。
また、本実施の形態によれば、入力および処理結果が得られたタイミングに応じて動作を制御するように構成されているので、多様な表現を通じた円滑な意思の疎通を図ることができる。また、任意の方向情報を外部から入力できるように構成されているので、多様な表現を通じた円滑な意思の疎通を図ることができる。されに、本実施の形態によれば、方向情報を外部から入力する際に特定の形式の情報を送信できるように構成されているので、多様な表現を通じた円滑な意思の疎通を図ることができる。
実施の形態5.
本実施形態はロボットの他の構成例を示すものである。
図10を参照すると、本発明の第5の実施の形態は、センサ2と、情報処理手段3と、情報変更手段5と、情報再生手段4と、全体制御部6と、動作制御手段7と、センサ12と、方向同定手段13と、送信手段14、センサ15とを含む。また、全体制御部6は、評価手段62と、タイミング生成手段64と、分析手段66とを含む。さらに、動作制御手段17は、モータ71,171と、車輪18,19とを含む。また方向同定手段13は選択手段131と同定手段132と反復制御手段133とを含む。これらの手段は、それぞれ概略つぎのように動作する。
センサ2、情報処理手段3、情報再生手段4、情報変更手段5、評価手段62、タイミング生成手段63及びモータ71の動作に関しては、すでに説明したとおりである。
センサ12は、話者と聴取者の方向に関する情報を受け、方向同定手段13に伝達する。方向同定手段13は、センサ12から受けた情報を用いて話者と聴取者の方向を同定し、これに対応した制御信号を動作制御手段7に伝達する。方向同定手段13の同定する方向も、多言語通訳や複数の話者/聴取者が存在する場合には、言語数や話者/聴取者の数に対応して複数方向に拡張される。
例えば、センサ12が受ける話者と聴取者の方向に関する情報が音声情報である場合を考える。センサ12は、複数の音響トランスデューサとする。音響トランスデューサの代表例はマイクロフォンであるので、この後センサ12が複数のマイクロフォンであると仮定して説明する。音響信号を用いた信号到来方向の同定は、複数マイクが受ける信号の位相差を用いて行えることが知られている。
「大賀、山崎、金田、“音響システムとディジタル処理”、電子情報通信学会編、1995年9月(文献C)」に記載されている複数のマイクロフォンが直線上に配置されているとき、これらマイクロフォンを結ぶ直線と直角な方向から到来した信号に対しては、各マイクロフォンが受ける信号に位相差はない。一方、マイクロフォンを結ぶ直線と直角な方向以外から到来した信号は、複数のマイクロフォンが受ける信号に位相差を発生させる。これは、各マイクロフォンに到達する信号に時間差があるからである。
この位相差、すなわち時間差は、音速とマイクロフォン間隔と信号到来方向がマイクロフォンを結ぶ直線となす角から一意に定まる。従って、複数のマイクロフォンが受けた信号の位相差を評価することによって、信号到来方向を同定することができる。これは、話者の存在方向を話者の発話を用いて同定することができることを意味する。
一方、話者と聴取者の関係は、通訳のシナリオにおいては、時間と共に交代を繰り返す。従って、ある時刻において話者の方向を同定することができれば、聴取者の方向も聴取者が第2の言語の話者となったときに同定することができる。
また、センサ12が受ける話者と聴取者の方向に関する情報が画像情報である場合を考えることもできる。この場合、センサ12は複数のカメラとする。複数画像を用いた話者方向同定は、人物検出を用いて行えることが知られている。複数の方向に対応した画像をセンサ12を用いて取得し、それぞれの画像に対して人物検出を行う。特定の画像に対して人物が検出されたときは、その画像に対応した方向を、話者方向とする。
一般に、画像情報からだけでは、検出された人物が話者なのか聴取者なのかの区別をつけることが困難である。そこで、音声信号を用いた方向検出を行ったり、画像からさらに口唇を同定してその動きを分析し、話者であることを確認する必要がある。人物検出識別の詳細に関しては、例えば「特開2002−56388号公報(文献D)」に記載されている。人物検出の代わりに、顔、目、口唇などを検出することによって、認識/同定の手がかりとすることができる。
これら以外にも、センサ12は、電波、光、音、温度(サーモグラフィ)、接触刺激またはその組合わせによって表されるあらゆる信号を受けるように構成することができる。これらの例としては、既に説明したキーボードや音声認識装置をあげることができる。
方向同定手段13の動作は、センサ12からの出力だけでなく、入力としてタイミング生成手段63の生成するタイミング制御信号を受けてもよい。方向同定手段13は、センサ12で受けた情報を用いて方向を同定するタイミングを、タイミング生成手段64から受けた信号で制御することができる。かかる場合、入力および処理結果が得られたタイミングで方向同定ができるように構成されているので、より正確な方向同定結果に基づいた円滑な意思の疎通を図ることができる。
全体制御部6は、タイミング生成手段64を用いて、情報変更手段5で変更された処理結果と、センサ2およびセンサ12から得られる入力とを用いて、動作制御手段7が動作するタイミングを生成してもよい。特に、センサ12が画像情報を受ける場合には、タイミング生成手段64は、センサ2から供給される音声情報とセンサ12から供給される画像情報との双方を用いて、動作制御手段7が動作するタイミングを高精度で生成する。かかる場合、さらに、入力、処理結果および方向に関する情報が得られたタイミングを反映したタイミングに応じて動作を制御するように構成されているので、多様な表現を通じた円滑な意思の疎通を図ることができる。
送信手段14は、特定の信号を送出する。センサ12は、送信手段14が送出した信号の話者における反射信号を検出する。方向同定手段13は、センサ12から供給された反射信号を分析することで、話者と聴取者の方向を検出する。送信手段14の送出する信号としては、電波、光、音などを用いることができるが、もっとも手軽なものは超音波である。かかる場合、さらに、特定の情報を送信して得られた反応を用いて、方向同定とタイミング生成を行うように構成されているので、多様な表現を通じた円滑な意思の疎通を図ることができる。送信手段14は必ずしも設けなくともよい。
方向同定手段13は、選択手段131と同定手段132と、反復制御手段133とを含む。選択手段131と反復制御手段133とは必ずしも設けなくともよい。
本実施形態のように、選択手段131と同定手段132を設けた場合、送信手段14は、送出する領域を限定して、特定の信号を送出する。センサ12は、送信手段14が送出した信号の話者における反射信号を検出する。方向同定手段13は、選択手段131と同定手段132とを含み、まず選択手段131でセンサ12が受けた反射信号のうち送信手段14が送信対象とした領域に対応する反射信号だけを選択する。このようにして選択された反射信号を用いて、同定手段132が話者の方向を同定する。
なお、ここでは送信手段14から送信した信号の反射をセンサ12が受ける例について説明したが、反射とは無関係な情報をセンサ12が受ける場合にも、選択手段131によるセンサ12で受けた信号の選択と同定手段132における選択された信号を用いた話者方向同定を同様の原理で行うことができる。
方向同定手段13として選択手段131と同定手段132を設けた場合、さらに、方向同定に用いる情報を受ける範囲を限定するように構成されているので、より正確な方向同定結果に基づいた円滑な意思の疎通を図ることができる。
方向同定手段13に設けられた反復制御手段133は、選択手段131によるセンサ12で受けた信号の選択と同定手段132における選択された信号を用いた話者方向同定を繰り返し、複数の領域に対して話者の同定を反復する動作を制御する。この例では、同定手段132を反復して別の領域から受けた情報を処理するために用いたが、同様の目的で複数の同定手段を含み、これらに適切な信号を配分することも可能である。複数の領域に対する話者方向同定を可能とすることによって、存在方向が全く不明である話者を、部分領域に対する人物検出を用いて検出したり、さらには複数話者を検出したりすることが可能となる。反復制御手段133は必ずしも設けなくともよい。
センサ12が画像情報を受ける場合には、話者を検出し、話者の向きを判定し、その方向に関する情報を用いて聴取者の方向に関する情報を得ることもできる。これは、一般的に話者は聴取者に向かって話すためである。話者の向きは、話者の体の向きや視線方向を画像情報から検出し、決定することができる。話者がどちらの方向を向いているかがわかった場合には、話者自体の方向を用いてその方向をセンサ12の位置から見た方向に変換し、変換されて得られた情報と聴取者の方向に関する情報を合わせて、より正確に聴取者の方向を求めることができる。もちろん、前記変換された方向自体が十分な精度を有する場合には、その情報をそのまま聴取者の方向として用いてもよい。
さらに、これら一連の過程において、音声情報を用いることもできる。その際には、センサ12は、画像情報と音声情報の双方を受けることのできるものとし、方向同定手段13は音声情報処理機能も有することが必要となる。音声情報としては、音声の開始/終了、言語の切替え、個人の特徴などを用いることができる。すなわち、音声情報処理機能としては、音声検出、言語識別、音声による個人識別が含まれる。
本実施形態において、方向同定に用いる情報を受ける範囲を限定し、この限定された範囲を変化させて方向同定を繰り返すように構成することで、より正確な方向同定結果を得られるばかりでなく、複数の話者/聴取者に対応することができ、円滑な意思の疎通を図ることができる。
センサ15は、話者、聴取者との距離に関する情報を受け、分析手段66に伝達する。分析手段66は、センサ15から伝達された情報を評価して、話者、聴取者との距離を求め、動作制御手段17に伝達する。動作伝達手段17は、移動用の車輪18,19を制御して、話者、聴取者との距離を調整する。
具体的には、分析手段66から伝達された距離が、予め定められた距離よりも短いときには、車輪18,19を制御して話者、聴取者に接近する動作を行わせる。予め定められた距離よりも長いときには、車輪18,19を制御して話者、聴取者に接近する動作を行わせる。センサ15と分析手段66、車輪18,19は必ずしも設けなくともよい。
図10では、動作制御手段16が車輪18,19を制御するように構成されているが、車輪の数は任意である。また、移動の手段が車輪18,19である例を示しているが、車輪以外の移動手段で構成することもできる。移動手段としては、キャタピラや多足歩行なども用いることができる。
センサ15の例としては、超音波センサがある。また、センサ15を撮像素子を含む画像センサとし、分析手段66を画像認識手段とすることにより、画像に基づいて話者や聴取者との距離を調整することができる。その際には、すでにセンサ12に関して説明したように、顔(顔サイズ)、目(目の相対的な位置や間隔)、口唇(相対的な位置)など様々な情報を用いることができる。
さらに、センサ15を複数の音響トランスデューサで構成し、分析手段66を音源方向検出手段とすることにより、三角測量の原理で話者や聴取者との距離を調整することもできる。その他にも、音や光の強度などを用いることができる。
さらに、外部から受けた情報に基づいて話者/聴取者との距離を制御できるように構成されているので、多様な表現を通じた円滑な意思の疎通を図ることができる。
センサ2をロボット本体1と切り離して端末に設け、この端末とロボット本体とにそれぞれ通信手段を設けて、通信路を介して端末からセンサ出力をロボット本体に送信するように構成してもよい。このような構成では、センサ2を有する端末は、ロボットとは独立に移動させることができ、センサ2は信号源に近接して配置することができる。センサ2が音声情報を受ける際には、信号源である口の近くに配置することができ、音声以外の雑音の混入を相対的に削減することができる。このため、信号対雑音比の高い信号を認識処理することになり、認識率の向上につながる。これは、高品質で円滑な意思の疎通に貢献する。
なお、図6で説明した実施の形態と同様に、センサ2、情報処理手段3および情報再生手段4の間で、部分処理を適切に分担することができる。また、センサ2を有する端末に対して複数のロボットを設けてもよい。端末は、複数のロボットに等しく処理を行わせることができるので、言語や話題などセンサ2で受ける情報の性質に応じて、ロボットを適切に選択して動作させることができる。このように端末24が複数のロボットと適切に通信を行って情報処理を分担させることができるので、高品質で円滑な意思の疎通を図ることができる。
図6で説明した実施の形態と同様に、センサ2、情報処理手段3および情報再生手段4の間で、部分処理を適切に分担することができる。
以上のように、本実施の形態によれば、情報変更手段5が情報処理手段3において得られた処理結果に対して情報の付加/削除を行うように構成されているので、正確に処理された結果に感情表現や詳細情報の付加価値をつけることが可能となり、円滑な意思の疎通を図ることができる。また、本実施の形態によれば、さらに、方向情報を外部から入力された情報を用いて自動的に計算できるように構成されているので、多様な表現を通じた円滑な意思の疎通を図ることができる。
実施の形態6.
本実施形態はロボットの他の構成例を示すものである。
図11を参照すると、本実施の形態は、端末24と、サーバ40と、ロボット25と、通信路85,87とを含む。端末24は、センサ2と、通信手段211とを含む。また、ロボット25は、通信手段70と、情報再生手段4とを含む。これらの手段は、それぞれ概略つぎのように動作する。
センサ2は、外部からの信号など処理対象となる情報を受ける。通信手段211は、センサ2で受けた情報を通信路85を介して通信手段402に伝達する。通信手段402は、通信手段211から通信路85を介して伝達されたセンサ2で受けた情報を、情報処理手段3に供給する。情報処理手段3は、センサ2で受けた情報を処理し、情報変更手段401に伝達する。
情報変更手段401は、情報処理手段3において得られた処理結果に対して、情報の付加/削除を行い、通信手段402に伝達する。通信手段402は、通信路87を介して通信手段70に情報変更処理を受けた処理結果を伝達する。通信手段70は、通信手段402を介して受けた処理結果を、情報再生手段4に伝達する。
なお、図6で説明した実施の形態と同様に、センサ2、情報処理手段3および情報再生手段4の間で、部分処理を適切に分担することができる。通信路85,87としては、有線伝送、無線LANを含む無線伝送、さらにはインターネットを経由したIP通信など、あらゆる手段を利用することができる。また、端末22,23は、PDA(個人用デジタル情報処理支援装置)、パーソナルコンピュータ、携帯電話など、可搬性のあるものとして実現される。
図11に示した本実施の形態は、図6に示した実施の形態における端末21の機能を分離し、センサ2による情報入力機能を端末24に、情報再生手段4による情報再生機能をロボット25に割り当てた構成となっている。
サーバ40は二台以上の複数のロボットに情報変更手段401の出力情報を送信するように構成してもよい。かかる構成では、端末24が複数のロボットと適切に通信を行って情報処理を分担させることができるので、高品質で円滑な意思の疎通を図ることができる。 そして、センサ2が端末24に装備されていて、信号源に近接して配置することができるので、音声や画像の認識率を向上することができる。これは、高品質で円滑な意思の疎通に貢献する。
以上のように、本実施の形態によれば、情報変更手段5が情報処理手段3において得られた処理結果に対して情報の付加/削除を行うように構成されているので、正確に処理された結果に感情表現や詳細情報の付加価値をつけることが可能となり、円滑な意思の疎通を図ることができる。また、本実施の形態によれば、さらに、演算量の多い処理がサーバ40に、それ以外の軽微な処理とインタフェースが端末23に分散配置されているので、円滑な意思の疎通を図るための処理を効率よく実現することができる。
さらに、本実施の形態によれば、センサ2が端末24に装備されていて、信号源に近接して配置することができるので、音声や画像の認識率を向上することができる。これは、高品質で円滑な意思の疎通に貢献する。
実施の形態7.
図1〜図5を用いて説明した情報処理システムを用い、画像として表示されるエージェントの動作により付加情報等の情報を現す装置について図12〜図17を用いて説明する。本装置は例えば、カーナビゲーション、語学学習機、翻訳機、通訳機等に用いることができる。また、本装置の情報処理手段、情報変更手段、全体制御部の機能はパーソナルコンピュータでソフトウエアとして実現することができる。 図12は本実施形態の装置の構成例を示すブロック図であり、図13は装置の使用者がセンサに情報を入力する状態を示す図、図14はセンサ2がマイクの場合を示す図、図15〜図17は情報再生手段4でのエージェントの動作を説明する図である。
図12〜図14に示すように、本実施形態の装置は、装置本体1と、センサ2(マイク21)と、情報処理手段3と、情報変更手段5と、情報再生手段4と、全体制御部6とを含む。各手段についての動作は既に説明したのでここでは情報再生手段4についてのみ説明する。
情報再生手段4としては画像表示が可能な液晶表示装置、EL表示装置等のフラットディスプレイ、CRT等を用いることができる。図15に示すように、付加情報に対応してエージェントが画面41内で上下に移動したり、図16に示すように、エージェントが画面41内で回転しながら、斜め方向に移動したり、図17に示すように回転しながら上下に移動したりすることで、付加情報を表現することができる。図15〜図17に示す情報再生装置4において、スピーカ42〜45で音声を出し、画面41でエージェントを表示することができる。既に説明したように、エージェントの動作は、うなずき、頭の傾け、首振り、ジャンプなど通常の体の動作に加えて、人間には存在しない動作を用いることもできる。このような特殊な動作の例としては、体の伸縮、分離があり、エージェント数の増減も可能である。
さらに、スピーカー42〜45を用いて音像定位を制御することもできる。各スピーカーに供給する信号の振幅と位相を適切に制御することによって、特定の位置、方向における再生音の大きさを制御することが可能である。
本発明は、通訳、翻訳、対話、音声認識、音声合成、画像理解などを行う情報処理システムやその実現形態としてのロボット、情報処理システムをコンピュータを用いて実現するためのプログラムの用途に適用できる。
本発明の第1の実施形態の構成の一例を示すブロック図である。 本発明の第1の実施形態の情報処理手段の第1の構成例を示すブロック図である。 本発明の第1の実施形態の情報処理手段の第2の構成例を示すブロック図である。 本発明の第1の実施形態の情報変更手段の第1の構成例を示すブロック図である。 本発明の第1の実施形態の情報変更手段の第1の構成例を示すブロック図である。 本発明の第2の実施形態の構成例を示すブロック図である。 本発明の第3の実施形態の構成の一例を示すブロック図である。 本発明の第3の実施形態の構成の他の例を示すブロック図である。 本発明の第4の実施形態の構成例を示すブロック図である。 本発明の第5の実施形態の構成例を示すブロック図である。 本発明の第6の実施形態の構成例を示すブロック図である。 本発明の第7の実施形態の装置の構成例を示すブロック図である。 装置の使用者がセンサに情報を入力する状態を示す図である。 センサ2がマイクの場合を示す図である。 情報再生手段4でのエージェントの動作を説明する図である。 情報再生手段4でのエージェントの動作を説明する図である。 情報再生手段4でのエージェントの動作を説明する図である。
符号の説明
1 ロボット本体(装置本体)
2,12,15 センサ
21,24 端末
211,402,70 通信手段
3 情報処理手段
31,53,544 制御部
32 音声処理部
321 音声認識部
322 音声合成部
33 自動通訳部
4 情報再生手段
40 サーバ
25 ロボット
5,401 情報変更手段
50 ネットワーク
51 変更処理部
52 付加情報生成部
521 情報分析部
522,542 検索部
523,543,72 記憶手段
524,541 通信手段
54 付加情報格納部
6 全体制御部
62 評価手段
63,64 タイミング生成手段
7,17 動作制御手段
71,171 モータ
80,85,87 通信路
11,14 送信手段
10 方向入力手段
13 方向同定手段
131 選択手段
132 同定手段
133 反復制御手段
18,19 車輪

Claims (4)

  1. ロボット本体の動作を制御する動作制御手段と、
    話者からの音声又は画像に基づいて前記話者の方向を同定し、ある時刻での前記話者の方向を同定することで、その後に前記話者と聴取者が交代したときの、音声を出力する対象となる前記聴取者の方向を同定する方向同定手段と、
    前記話者と前記聴取者とが交代して会話が繰り返されるときに、前記話者と前記聴取者との間の通訳を行う情報処理手段と、を有し、
    前記動作制御手段は該同定した方向に前記ロボット本体が向くように制御することを特徴とするロボット。
  2. 前記話者の音声を検出する複数の音響トランスデューサを有し、前記方向同定手段は前記複数の音響トランスデューサからの音声を用いて前記話者の方向を同定することを特徴とする請求項に記載のロボット。
  3. 前記話者の画像を検出する複数のカメラを有し、前記方向同定手段は前記複数のカメラからの画像を用いて前記話者の方向を同定することを特徴とする請求項に記載のロボット。
  4. 前記話者の画像を検出するカメラを有し、前記方向同定手段は前記カメラからの画像に基づいて前記話者の向きを判定し、この話者の向きから前記聴取者の方向を同定することを特徴とする請求項に記載のロボット。
JP2005516220A 2003-12-12 2004-12-13 情報処理システム、情報処理方法および情報処理用プログラム Expired - Fee Related JP4839838B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005516220A JP4839838B2 (ja) 2003-12-12 2004-12-13 情報処理システム、情報処理方法および情報処理用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2003415598 2003-12-12
JP2003415598 2003-12-12
JP2005516220A JP4839838B2 (ja) 2003-12-12 2004-12-13 情報処理システム、情報処理方法および情報処理用プログラム
PCT/JP2004/018582 WO2005057549A1 (ja) 2003-12-12 2004-12-13 情報処理システム、情報処理方法および情報処理用プログラム

Publications (2)

Publication Number Publication Date
JPWO2005057549A1 JPWO2005057549A1 (ja) 2008-04-17
JP4839838B2 true JP4839838B2 (ja) 2011-12-21

Family

ID=34675136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005516220A Expired - Fee Related JP4839838B2 (ja) 2003-12-12 2004-12-13 情報処理システム、情報処理方法および情報処理用プログラム

Country Status (6)

Country Link
US (2) US8433580B2 (ja)
EP (2) EP2267697A3 (ja)
JP (1) JP4839838B2 (ja)
KR (2) KR100953902B1 (ja)
CN (1) CN1894740B (ja)
WO (1) WO2005057549A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030230921A1 (en) * 2002-05-10 2003-12-18 George Gifeisman Back support and a device provided therewith
US7475806B1 (en) * 2005-02-24 2009-01-13 Savr Communications, Inc. Method and system of universal RFID communication
JP4718987B2 (ja) * 2005-12-12 2011-07-06 本田技研工業株式会社 インターフェース装置およびそれを備えた移動ロボット
JP4791285B2 (ja) * 2006-08-04 2011-10-12 富士通株式会社 ネットワーク装置およびフィルタリングプログラム
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
KR101317383B1 (ko) * 2011-10-12 2013-10-11 한국과학기술연구원 로봇을 이용한 인지 능력 훈련 장치 및 그 방법
JP2013102373A (ja) * 2011-11-09 2013-05-23 Denso Corp ハンズフリー装置
US9264812B2 (en) * 2012-06-15 2016-02-16 Kabushiki Kaisha Toshiba Apparatus and method for localizing a sound image, and a non-transitory computer readable medium
CN104239180B (zh) * 2013-06-24 2016-07-27 腾讯科技(深圳)有限公司 变更处理方法、装置及系统
CN104424944B (zh) * 2013-08-19 2018-01-23 联想(北京)有限公司 一种信息处理方法及电子设备
CN103530285A (zh) * 2013-10-09 2014-01-22 百度在线网络技术(北京)有限公司 翻译消息的方法和装置
US8977376B1 (en) 2014-01-06 2015-03-10 Alpine Electronics of Silicon Valley, Inc. Reproducing audio signals with a haptic apparatus on acoustic headphones and their calibration and measurement
US8767996B1 (en) 2014-01-06 2014-07-01 Alpine Electronics of Silicon Valley, Inc. Methods and devices for reproducing audio signals with a haptic apparatus on acoustic headphones
US10986454B2 (en) 2014-01-06 2021-04-20 Alpine Electronics of Silicon Valley, Inc. Sound normalization and frequency remapping using haptic feedback
US9483768B2 (en) * 2014-08-11 2016-11-01 24/7 Customer, Inc. Methods and apparatuses for modeling customer interaction experiences
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
KR20160026317A (ko) * 2014-08-29 2016-03-09 삼성전자주식회사 음성 녹음 방법 및 장치
US20180009118A1 (en) * 2015-02-17 2018-01-11 Nec Corporation Robot control device, robot, robot control method, and program recording medium
JP6470097B2 (ja) * 2015-04-22 2019-02-13 株式会社東芝 通訳装置、方法およびプログラム
JP6663444B2 (ja) * 2015-10-29 2020-03-11 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
JP6520878B2 (ja) * 2016-09-21 2019-05-29 トヨタ自動車株式会社 音声取得システムおよび音声取得方法
KR20180061586A (ko) * 2016-11-30 2018-06-08 충북대학교 산학협력단 사용자 간의 감정 의사소통 시스템
CN107545895B (zh) * 2017-09-26 2021-10-22 联想(北京)有限公司 信息处理方法和电子设备
US10878824B2 (en) * 2018-02-21 2020-12-29 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
JP7081317B2 (ja) * 2018-06-12 2022-06-07 トヨタ自動車株式会社 車両用コクピット
WO2020031453A1 (ja) * 2018-08-10 2020-02-13 ソニー株式会社 情報処理装置及び情報処理方法、並びに映像音声出力システム
CN117750110A (zh) * 2018-08-10 2024-03-22 索尼公司 信息处理装置、信息处理方法和视频声音输出系统
CN110600016B (zh) * 2019-09-20 2022-02-25 北京市律典通科技有限公司 卷宗推送方法和装置
US11688412B2 (en) * 2020-06-15 2023-06-27 Tencent America LLC Multi-modal framework for multi-channel target speech separation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117752A (ja) * 1999-10-15 2001-04-27 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
JP2002283261A (ja) * 2001-03-27 2002-10-03 Sony Corp ロボット装置及びその制御方法、並びに記憶媒体
JP2002351305A (ja) * 2001-05-23 2002-12-06 Apollo Seiko Ltd 語学研修用ロボット
JP2003062777A (ja) * 2001-08-22 2003-03-05 Honda Motor Co Ltd 自律行動ロボット
JP2003093747A (ja) * 2001-09-25 2003-04-02 Mitsumi Electric Co Ltd デジタルペット
JP2003271172A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63168774A (ja) * 1987-01-06 1988-07-12 Fujitsu Ltd 機械翻訳システムにおける主語の補足方式
JPS63204465A (ja) 1987-02-20 1988-08-24 Sanyo Electric Co Ltd 機械翻訳システム
US4974191A (en) * 1987-07-31 1990-11-27 Syntellect Software Inc. Adaptive natural language computer interface system
US5495557A (en) * 1992-06-26 1996-02-27 Hyman; Greg Electronic toy for forming sentences
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JPH0792993A (ja) * 1993-09-20 1995-04-07 Fujitsu Ltd 音声認識装置
JPH09131468A (ja) * 1995-11-09 1997-05-20 Matsushita Electric Ind Co Ltd 漫才人形
US5835881A (en) * 1996-01-16 1998-11-10 Philips Electronics North America Corporation Portable system for providing voice driving directions
US6314411B1 (en) * 1996-06-11 2001-11-06 Pegasus Micro-Technologies, Inc. Artificially intelligent natural language computational interface system for interfacing a human to a data processor having human-like responses
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
JPH10153998A (ja) 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JPH10136327A (ja) 1996-10-25 1998-05-22 Meidensha Corp ディスクトップ会議システム
US6157913A (en) * 1996-11-25 2000-12-05 Bernstein; Jared C. Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions
US6122606A (en) * 1996-12-10 2000-09-19 Johnson; William J. System and method for enhancing human communications
EP1078323A4 (en) * 1997-04-22 2007-04-25 Greg Hetherington METHOD AND APPARATUS FOR PROCESSING UNSTRUCTURED DATA
US6249720B1 (en) * 1997-07-22 2001-06-19 Kabushikikaisha Equos Research Device mounted in vehicle
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout &amp; Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
JP3623127B2 (ja) * 1998-12-25 2005-02-23 松下電器産業株式会社 ヘッドホン装置
US6385584B1 (en) * 1999-04-30 2002-05-07 Verizon Services Corp. Providing automated voice responses with variable user prompting
US6385581B1 (en) * 1999-05-05 2002-05-07 Stanley W. Stephenson System and method of providing emotive background sound to text
US20020042713A1 (en) * 1999-05-10 2002-04-11 Korea Axis Co., Ltd. Toy having speech recognition function and two-way conversation for dialogue partner
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
JP3514372B2 (ja) * 1999-06-04 2004-03-31 日本電気株式会社 マルチモーダル対話装置
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
JP2001014237A (ja) 1999-07-02 2001-01-19 Nec Corp 電子メール番組装置および電子メール番組用プログラムを記録した記録媒体
US6347261B1 (en) * 1999-08-04 2002-02-12 Yamaha Hatsudoki Kabushiki Kaisha User-machine interface system for enhanced interaction
US6658388B1 (en) * 1999-09-10 2003-12-02 International Business Machines Corporation Personality generator for conversational systems
US6940953B1 (en) * 1999-09-13 2005-09-06 Microstrategy, Inc. System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services including module for generating and formatting voice services
JP2001100784A (ja) 1999-09-30 2001-04-13 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
JP2001100788A (ja) 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP2001117922A (ja) 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP2001117921A (ja) 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager
GB9926134D0 (en) * 1999-11-05 2000-01-12 Ibm Interactive voice response system
US6665640B1 (en) * 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
JP4032273B2 (ja) * 1999-12-28 2008-01-16 ソニー株式会社 同期制御装置および方法、並びに記録媒体
JP2001191283A (ja) * 1999-12-31 2001-07-17 Sony Corp ロボット装置及びその制御方法
JP3994368B2 (ja) * 2000-01-25 2007-10-17 ソニー株式会社 情報処理装置および情報処理方法、並びに記録媒体
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US6773344B1 (en) * 2000-03-16 2004-08-10 Creator Ltd. Methods and apparatus for integration of interactive toys with interactive television and cellular communication systems
JP2001296343A (ja) * 2000-04-11 2001-10-26 Nec Corp 音源方位設定装置及びそれを備えた撮像装置、送信システム
JP2001339703A (ja) 2000-05-26 2001-12-07 Nec Corp テレビ会議システム及びテレビ会議システムに於けるカメラの制御装置並びにカメラの制御方法
US6697708B2 (en) * 2000-10-11 2004-02-24 Sony Corporation Robot apparatus and robot apparatus motion control method
CN1398214A (zh) * 2000-10-23 2003-02-19 索尼公司 有足机器人、用于有足机器人的动作控制方法、和存储介质
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
US6751591B1 (en) * 2001-01-22 2004-06-15 At&T Corp. Method and system for predicting understanding errors in a task classification system
US6967455B2 (en) * 2001-03-09 2005-11-22 Japan Science And Technology Agency Robot audiovisual system
CN1258285C (zh) * 2001-03-26 2006-05-31 富士通株式会社 多信道信息处理装置和多信道信息处理方法
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
JP3823760B2 (ja) 2001-05-28 2006-09-20 日本電気株式会社 ロボット装置
JP3771812B2 (ja) * 2001-05-28 2006-04-26 インターナショナル・ビジネス・マシーンズ・コーポレーション ロボットおよびその制御方法
US20030009342A1 (en) * 2001-07-06 2003-01-09 Haley Mark R. Software that converts text-to-speech in any language and shows related multimedia
JP3627058B2 (ja) * 2002-03-01 2005-03-09 独立行政法人科学技術振興機構 ロボット視聴覚システム
JP2003263192A (ja) * 2002-03-12 2003-09-19 Nec Corp 情報処理システムおよび情報処理方法ならびに情報処理プログラム
JP3714268B2 (ja) * 2002-03-18 2005-11-09 ソニー株式会社 ロボット装置
JP2003319085A (ja) * 2002-04-18 2003-11-07 Ntt Advanced Technology Corp 音声情報検索装置および音声情報検索方法
US7076430B1 (en) * 2002-05-16 2006-07-11 At&T Corp. System and method of providing conversational visual prosody for talking heads
US20060064202A1 (en) * 2002-08-26 2006-03-23 Sony Corporation Environment identification device, environment identification method, and robot device
ATE527086T1 (de) * 2002-12-10 2011-10-15 Honda Motor Co Ltd Steuervorrichtung, steuerverfahren und steuerprogramm für einen roboter
US7587053B1 (en) * 2003-10-28 2009-09-08 Nvidia Corporation Audio-based position tracking

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117752A (ja) * 1999-10-15 2001-04-27 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
JP2002283261A (ja) * 2001-03-27 2002-10-03 Sony Corp ロボット装置及びその制御方法、並びに記憶媒体
JP2002351305A (ja) * 2001-05-23 2002-12-06 Apollo Seiko Ltd 語学研修用ロボット
JP2003062777A (ja) * 2001-08-22 2003-03-05 Honda Motor Co Ltd 自律行動ロボット
JP2003093747A (ja) * 2001-09-25 2003-04-02 Mitsumi Electric Co Ltd デジタルペット
JP2003271172A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置

Also Published As

Publication number Publication date
EP2267697A2 (en) 2010-12-29
KR20090013842A (ko) 2009-02-05
EP1699040A4 (en) 2007-11-28
US20090043423A1 (en) 2009-02-12
KR20060096520A (ko) 2006-09-12
KR100953902B1 (ko) 2010-04-22
CN1894740A (zh) 2007-01-10
US8473099B2 (en) 2013-06-25
JPWO2005057549A1 (ja) 2008-04-17
KR100906136B1 (ko) 2009-07-07
CN1894740B (zh) 2012-07-04
US20070081529A1 (en) 2007-04-12
WO2005057549A1 (ja) 2005-06-23
EP2267697A3 (en) 2011-04-06
EP1699040A1 (en) 2006-09-06
US8433580B2 (en) 2013-04-30

Similar Documents

Publication Publication Date Title
JP4839838B2 (ja) 情報処理システム、情報処理方法および情報処理用プログラム
US11241789B2 (en) Data processing method for care-giving robot and apparatus
WO2021036644A1 (zh) 一种基于人工智能的语音驱动动画方法和装置
CN102903362B (zh) 集成的本地和基于云的语音识别
US8942849B2 (en) Humanoid robot equipped with a natural dialogue interface, method for controlling the robot and corresponding program
US20200027459A1 (en) Artificial intelligence apparatus and method for recognizing speech of user
US11443747B2 (en) Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
WO2002045916A1 (fr) Robot, procede de commande du mouvement d&#39;un robot et systeme de commande du mouvement d&#39;un robot
JP2011059659A (ja) 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法
KR20010062767A (ko) 정보 처리 장치, 정보 처리 방법 및 저장 매체
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
Mubin et al. You just do not understand me! Speech Recognition in Human Robot Interaction
JP2016076007A (ja) 対話装置および対話方法
JP2023120130A (ja) 抽出質問応答を利用する会話型aiプラットフォーム
KR20180012192A (ko) 유아동용 학습 장치 및 그 동작 방법
WO2016206647A1 (zh) 用于控制机器装置产生动作的系统
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
CN112823047A (zh) 用于控制网络应用程序的系统和设备
WO2024190616A1 (ja) 行動制御システム及びプログラム
JP2000311077A (ja) 音声情報入力装置
KR102147835B1 (ko) 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법
Low et al. Wake word and speech recognition application on edge device: a case of improving the electric wheelchair/Low Jian He...[et al.]
JP2002239962A (ja) ロボット装置、ロボット装置の動作制御方法及びロボット装置の動作制御システム
JP2004046018A (ja) 発話型語学学習装置
JP2002203227A (ja) インタラクションデータ生成装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100712

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101008

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110919

R150 Certificate of patent or registration of utility model

Ref document number: 4839838

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees