JP6633250B2 - 対話ロボットおよび対話システム、並びに対話プログラム - Google Patents
対話ロボットおよび対話システム、並びに対話プログラム Download PDFInfo
- Publication number
- JP6633250B2 JP6633250B2 JP2019521492A JP2019521492A JP6633250B2 JP 6633250 B2 JP6633250 B2 JP 6633250B2 JP 2019521492 A JP2019521492 A JP 2019521492A JP 2019521492 A JP2019521492 A JP 2019521492A JP 6633250 B2 JP6633250 B2 JP 6633250B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- information
- server
- unit
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002452 interceptive effect Effects 0.000 title description 106
- 230000004044 response Effects 0.000 claims description 236
- 238000003384 imaging method Methods 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 30
- 230000014509 gene expression Effects 0.000 claims description 26
- 230000005540 biological transmission Effects 0.000 claims description 17
- 230000009118 appropriate response Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 description 29
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000010365 information processing Effects 0.000 description 11
- 238000000034 method Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 230000008451 emotion Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000000474 nursing effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Manipulator (AREA)
- Electrically Operated Instructional Devices (AREA)
- Collating Specific Patterns (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Description
例えば特許文献1では、豊富な応答文を蓄積させた対話型ロボットや、このロボットをコンピューターと接続することによりロボットのほかにキャラクターと対話することができる対話システムが提案されている。
すなわち、ネットワークを介した疑似的な会話システムを実現する場合、対話する相手は仮想現実の人物であるため、生身の人間と異なって非日常的な雰囲気がどうしても出てしまう。
一方で特許文献1では、対話型ロボットや他のキャラクターとの会話が可能である点において趣向性が高く飽きにくいものの、主として音声でのみユーザーとの間で会話を行っているため単調な会話となってしまう感は否めない。
このように上記した特許文献を含む従来技術においては、費用がかさまずにユーザーとの間で自然な(あたかも人間同士が会話するような生き生きとした)会話が実現できるレベルのものはなく、まだまだ改善の余地は大きい。
そして上記した英会話などの語学学習に限られず、例えば介護や娯楽などで使用者との間で対話を行うシステムのニーズは将来的に益々増加することが予想される。
<対話システム100>
図1は、実施形態に係る対話システム100全体の構成を示す模式図である。
本実施形態に係る対話システム100は、対話ロボット10、及びサーバ20を含んで構成されている。そして対話ロボット10とサーバ20とは、インターネットなどのネットワークNを介して互いに通信可能となるように接続されている。そしてユーザーUは、語学習得などを目的として、サーバ20と通信可能に接続された対話ロボット10に対して英会話を行う。
このように本実施形態の対話システム100は、ユーザーUの英会話を行うための英会話システムとして機能としている。
<対話ロボット10>
まず図2を用いて本実施形態の対話ロボット10の構成および機能を詳述する。
本実施形態の対話ロボット10は、ネットワークN(例えばインターネット)上のサーバ20と通信回線を介して接続されて、ユーザーUとの間で英会話を行うロボットである。そして本実施形態の対話ロボット10は、例えばユーザーUと英語で対話することができる小鳥の形態を有するロボットである。
なお、対話ロボット10は、後述するサーバ20における統括制御部38の機能の一部を、制御部17として含んでいてもよい。この場合における制御部17の具体例としては、公知のCPUなどのプロセッサーが例示できる。
後述するとおり、サーバ20において生成された応答文情報などに基づく発話が、この当該発生部13を介して行われる。
一方で応答文情報受信部14bは、後述するサーバ20が生成した応答文情報を上記通信回線によって受信する機能を備えている。
次に図3を参照しつつ、本実施形態のサーバ20の詳細な構成について説明する。
本実施形態のサーバ20は、インターネットなどのネットワークNを介して対話ロボット10と情報通信を行うコンピューターとして機能する。
より具体的にサーバ20は、アプリケーションサーバ30と、ストレージサーバ40とを含んで構成されている。かようなサーバ20は、機能的に分類すると、通信インターフェース31、応答文マッチング部32a、応答文音声変換部32b、応答文情報送信部32c、発話音声記録部33、情報解析記録部34、顔面情報マッチング部35、会話レベル設定部36、ROM/RAM部37、統括制御部38およびデータベース40を含んで構成されている。
したがって会話レベル設定部36は、設定するレベルに応じた応答文を応答文DB41から抽出するように応答文マッチング部32aを制御する一方で、音声認識部12から受信したユーザーUの返答が応答文DB41内に格納された返答例と一致するかを判定すればよい。
なお、本実施形態の対話システム100は語学学習としての英会話システムであるため、ユーザーUからの発話内容の正誤に基づくレベル設定が可能であるが、例えば介護分野に本システムを適用する場合などには会話レベル設定部36は必ずしも必要ではない。
なお、対話ロボット10で稼働するソフトウェアの一部又は全部は、対話ロボット10自身で格納する形態でもよく、この場合にはROM/RAM部37にはサーバ20内で稼働する各種のソフトウェアが格納される。
このうち、応答文DB41に蓄積された応答文としては、例えば「おはよう(Good morning)、やあ(Hi)」などがある。なお、蓄積する応答文における他の例としては、例えば国際公開公報WO2005/076258号や特開2012−215645号公報などに開示された公知の種々の文例や公知のデータ構成を適宜用いてもよい。
なお本実施形態は英会話システムであることから上記のごとき例文が応答文DB41に蓄積されるが、例えば介護分野に適用する場合には日常的な会話文例や趣味・娯楽性の話題などが応答文例として蓄積される。すなわち本実施形態の対話システム100の応答文DB41には、その適用される分野(語学学習、介護、娯楽、あるいは受付応対などの業務補助など)に応じて必要とされる例文が蓄積される。
上記した対話システム100に適用されるプログラムは、対話ロボット10及びサーバ20のいずれかに、対話ロボット又はサーバに、撮像部を用いてユーザーの顔面を撮像させ、撮像された前記ユーザーの顔面に関する情報をサーバに通信回線を介して送信させ、前記顔面に関する情報に基づいて前記ユーザーが未登録であるか特定させ、i)未登録であった場合に前記ユーザーの氏名を質問する氏名質問を含む応答文情報を生成させるとともに、ii)登録済であった場合に前記ユーザーの氏名を含む応答文情報を生成させ、発声部を用いて前記ユーザーに対して前記応答文情報に基づくスタート発話として発声させ、音声認識部を用いて前記スタート発話に対する前記ユーザーの発話を音声認識させ、前記音声認識させた前記ユーザーの発話を前記サーバに前記通信回線を介して送信させる。
次に図4を用いて、本実施形態における対話システム100が起動初期におけるユーザー特定動作について詳述する。なお以後に図4〜6で説明されるフローは、サーバ20の統括制御部38と、必要に応じて設けられる対話ロボット10の制御部17との制御下で実行される。
まずステップS10では、対話ロボット10と会話(本例では英会話)を所望するユーザーUが対話ロボット10の電源スイッチ(不図示)をONにすると、対話ロボット10のシステムが起動するとともにネットワークN(以下、インターネットを例にして説明する)を介してサーバ20と接続要求を行う。
このように本実施形態では、発声部13は、ユーザーUが登録済か否かに応じて、当該ユーザーUに対して氏名を問う氏名質問またはユーザーUの氏名を含むスタート発話をユーザーUに対して行う。
なお上記ステップS10では、システム起動が行われたことやオンライン化が成功したことを示すLEDなどの表示手段が対話ロボット10に搭載されていてもよい。この場合、例えばシステム起動、オンラインの順に表示手段の表示色を変化させることが好ましい。
次に図5を用いて、対話システム100がユーザーUとの会話内容を決定する動作について詳述する。
そしてステップS32では、音声認識部12はユーザーUからのテーマ回答に関する発話を音声認識するとともに、ユーザー情報送信部14aは、この音声認識部12が認識したテーマ回答に関する音声情報をサーバ20に送信する。
そしてステップS33で学習テーマが決定された後は、ステップS34で学習履歴が存在するか否かが判定される。より具体的にサーバ20の統括制御部38は、学習履歴DB43を参照して、今回のユーザーUに関して過去に学習した履歴があるかを検索する。そして過去の学習履歴があると判定された場合、ステップS35において、統括制御部38は、この抽出した学習履歴の内容を今回の英会話に反映させる。具体的な反映内容としては、例えば過去に行った会話レベルを継続することや、既に学習済みのテーマの有無などが挙げられる。
このようにこのステップS34を経た後は、統括制御部38の制御の下で発話音声記録部33などによって、以後のユーザーUと対話ロボット10の間の会話の記録・管理が行われる。また、以降のユーザーUと対話ロボット10との間の会話が学習履歴DBに記録されるので、ユーザーUの習熟度や会話レベルなどが学習履歴DB内で随時更新されていくことになる。
なおこのステップS37は、ユーザーUが応答文に対する返答する際に常に行ってもよいし、例えば5分毎や10分毎など任意のタイミングで実行する形態であってもよい。その場合には、後述するステップS40〜S42は、このステップS37が起動したタイミングで実行されればよい。
次いでステップS39では、音声認識部12はユーザーUからの応答文に対する発話を音声認識するとともに、ユーザー情報送信部14aは、この音声認識部12が認識した応答文に対する発話(応答文に対する回答となる返答文)に関する音声情報をサーバ20に送信する。
このように本実施形態では、対話ロボット10のユーザー情報送信部14aは、応答文に対して発話(返答)したユーザーUの音声情報と共に、撮像部11が撮像した返答中のユーザーUの画像情報をサーバ20に送信する。
また、上記の他の判定手法としては、例えば特開平3−252775号公報、特開平8−249447号公報、特開平8−249453号公報、特開平10−255043号公報、特開2001−051338号公報等の顔の表情を認識する公知技術を適用し、その表情から「困惑」と関連する感情(「怒り」、「不安」、「憎しみ」など)を抽出して判定するようにしてもよい。
このように本実施形態では、ユーザーUにおける表情の判定結果に応じて、ユーザーUでなくシステム側が積極的に対話の内容(話題など)やレベルを変更しているとも言える。
なお、このステップS43では、ステップS39でユーザーUが行った発話に対する文法ミスの指摘や矯正あるいは発音の矯正と訓練を促す応答文を対話ロボット10に送信してもよい。
次いでステップS45では、発話された次の応答文に対するユーザーUの発話(返答)を音声認識部12が音声認識するとともに、この音声認識されたユーザーUの発話内容に関する音声情報がユーザー情報送信部14aを介してサーバ20に送信される。
以上説明したとおり、本実施形態では、対話ロボット10がユーザーUに会話を投げかけるとき、ユーザーUの返答中における顔画像を撮影する。そしてユーザーUが返答している最中の表情がユーザーの発話音声とともにインターネットを介してサーバ20で受信され、その画像をもとにサーバ20でユーザーUの感情を判定する。そして判定の結果、ユーザーUの表情に応じてそれぞれに適応したレベルの応答文に変化させる点などに主とした特徴がある。
以下、図6を用いて本発明の第2実施形態に係る対話システム100´を説明する。上記第1実施形態では、対話ロボット10はネットワークNを介して物理的なサーバ20と情報通信可能に接続されていたが、本実施形態ではクラウドコンピューティングを活用している点に違いがある。よって、以下では第1実施形態と異なる点を説明し、既述の構成と同じ機能・作用を奏するものは同じ参照番号を付してその説明は適宜省略する。
また、この仮想サーバ20´は、物理的な各種が配置されたデータセンター60とネットワークNを介して接続されている。
すなわち本実施形態では、対話ロボット10は、クラウド内の仮想サーバ20´とネットワークN(例えばインターネット)を介して情報通信を行うこととなっている。
このように本発明は、物理的なサーバ20と直接情報のやり取りを行う場合に限られず、クラウドコンピューティングを活用して実施することも可能となっている。
以下、図7を用いて変形例に係る会話レベルの決定動作フローを説明する。
なお、図7においては、レベル決定ルーチンであるステップR1〜R7以外のステップS30〜S46は、上記した第1実施形態の図5と同じ内容の処理であるので、適宜その説明は省略する。
なお、レベル決定ルーチンの発動頻度としては特に制限はなく任意のタイミングで発動してもよく、例えばユーザーUが対話ロボット10の不図示のスイッチを操作して発動したり、10分など所定時間毎にレベル決定が行われるように発動したり、あるいは対話ロボット10が起動された初期に1回だけ発動するようにしてもよい。
なお、この会話レベルを決定するためのレベル決定用質問としては、上記公知の英語問題集や公開英語テストの試験問題などに基づいた複数個の英文例が適用でき、かようなレベル決定用質問が応答文DB41に格納されている。
そして続くステップR4では、音声認識部12がユーザーUからの質問文に対する発話(返答)を音声認識するとともに、音声認識部12が認識した質問文に対する発話(質問文に対する回答となる返答)に関する音声情報をユーザー情報送信部14aがサーバ20に送信する。
次いでステップR6では、サーバ20で所定の質問数に到達したか否かが判定されて、未だ到達していなければステップR2へと戻って質問を繰り返す制御が実行される。一方で所定の質問数に到達した場合には、ステップR7において、それまで行った質問に対する正誤の状況に基づいて適正な会話レベルが設定される。
このように、第1実施形態ではユーザーUの返答時における表情を解析して会話レベルを変更させていたが、この変形例においては上記表情に加えてユーザーUの実際の回答内容に応じて会話レベルを設定することを行っている。
例えば上記した実施形態および変形例では、適切な応答文を選択する情報処理などは対話ロボット10側で実行せずにネットワークNを介したサーバ側で行っていたが、この態様に限らない。
この場合には、対話ロボット10に対して2人の人間が加わっている。そして対話ロボット10の音声認識部12で変換された音声情報は、サーバ20で個別に(ユーザーUと介護者で区別されて)管理される。そして応答文マッチング部32aは、話者ごとに適切な応答文を応答文DB41から選択して会話ロボット10にネットワークNを介して送信する。
この場合には、情報処理端末50はネットワークNを介してサーバ20と接続され、ユーザーU一人に対して複数の情報機器が対話に加わることとなる。そして応答文マッチング部32aは、情報処理端末50からの応答文情報を受信し、当該情報処理端末50からの応答文情報にも基づいて、適切な応答文を応答文DB41から選択して会話ロボット10にネットワークNを介して送信する。
さらに、上記(a)及び(b)の場合において、サーバ20は、話者ごとに音声情報を識別可能である場合には、話者ごとに異なる会話の内容(テーマ)を設定してもよい。また、サーバ20又は情報処理端末50や上記情報機器から、積極的にテーマに関連した情報を提示するようにしてもよい。
また、本発明の対話システムおよび対話ロボット並びに対話プログラムは、家庭内や教室などで行う上記した英会話を含む語学学習の分野に限られず、例えば介護分野や娯楽分野などユーザーとの間で何らかの対話が必要な様々な分野に広く応用が可能である。
なお上記した第1実施形態においては、ステップS41でユーザーUの表情が困惑していると判定されたときに、続くステップS42ではすぐに会話レベル設定部36を制御して設定レベルを変更した。
しかしながら本発明はこの態様に限られず、以下のごとき設定レベル変更前の事前処理を実行してもよい。
まずステップS41では、上記第1実施形態と同様にしてユーザーUの表情を判定する。そしてサーバ20は、ユーザーUの表情が困惑していた場合、ユーザーUからの返答文に関する音声情報を受信していないときには、ステップS41aでユーザーUへ回答を促すメッセージを送信する。かようなメッセージの例としては、例えば「どうしたの?」や「もう少しお待ちしましょうか?」などが例示できる。
このようなステップS41bまでの催促や事前予告を経たうえで、上記第1実施形態と同様にステップS42で会話の設定レベルを変更する処理を行う。なおステップS41aとステップS41bは共に実行される必要はなく、少なくとも一方が実行される形態であってもよい。
また、本発明においては、他のユーザーとのやりとりで取得した応答文例をビッグデータとしてサーバ20が保持し、このビッグデータを活用してユーザーUへのサーバ20から送信するメッセージを変更するようにしてもよい。
より具体的には、図8においては、ユーザーUからの返答(ステップS38の応答文に対する発話)の内容に応じて、ビッグデータを参考にしてユーザーUへの次の応答文選択を行う点にも特徴を有している。
そしてユーザーUからの返答が、例えば予め保持している想定された返答内容とかけ離れた内容であった場合や文法上の間違いがあった場合などの正答でなかった場合には、ステップP2でビッグデータを参照する。
従ってサーバ20は、例えばユーザーUからの返答内に頻度の高い文法上の間違いがあった場合には、続くステップS43においてその文法に関連する内容の応答文を選択してユーザーUへ送信するようにしてもよい。また、サーバ20は、例えばユーザーUからの返答内容が想定される返答内容に含まれない場合には、続くステップS43において設定レベルを下げた応答文を選択してユーザーUへ送信するようにしてもよい。
また、図8においても、図7を用いて説明したレベル決定ルーチン(ステップR1〜R7)が実行されるように構成されていてもよい。
10 対話ロボット
11 撮像部
12 音声認識部
13 発声部
14 通信インターフェース
15 ROM/RAM部
16 電源
17 制御部
20 サーバ
20´ 仮想サーバ
30´ 仮想アプリケーションサーバ
31 通信インターフェース
32a 応答文マッチング部
33 発話音声解析記録部
34 情報解析記録部
35 顔面情報マッチング部
36 会話レベル設定部
37 ROM/RAM部
38 統括制御部
40 データベース
41 応答文DB
42 ID情報DB
43 学習履歴DB
100 対話システム
Claims (6)
- ネットワーク上のサーバと通信回線を介して接続されて、ユーザーとの間で外国語会話を行う外国語会話ロボットであって、
前記ユーザーの顔面を撮像する撮像部と、
前記ユーザーが発した発話音声を認識する音声認識部と、
前記ユーザーに対して発話する発声部と、
前記通信回線を介して前記顔面に関する顔面情報及び前記音声認識部が認識した音声情報を前記サーバへ送信するユーザー情報送信部と、
前記サーバから外国語の応答文情報を受信する応答文情報受信部と、を具備し、
前記ユーザー情報送信部は、前記撮像部が撮像した前記顔面情報を前記サーバに送信し、
i)前記顔面情報に基づいて前記サーバで前記ユーザーが未登録であると特定した場合に、当該サーバが生成した前記ユーザーの氏名を外国語で質問する氏名質問を含む前記応答文情報を前記応答文情報受信部が受信し、
ii)前記顔面情報に基づいて前記サーバで前記ユーザーが登録済であると特定した場合に、当該サーバが生成した当該ユーザーの氏名を含む外国語の前記応答文情報を前記応答文情報受信部が受信し、
前記発声部は、前記ユーザーが登録済か否かに応じて、当該ユーザーに対して前記氏名質問又は前記ユーザーの氏名を含むスタート発話を外国語で前記ユーザーに対して行い、
前記ユーザー情報送信部は、前記音声認識部が認識した前記スタート発話に対する前記ユーザーの発話した外国語の音声情報を前記サーバに送信し、
前記ユーザーが登録済の場合には前記ユーザーの学習履歴を反映した外国語の前記応答文情報が前記応答文情報受信部で受信されるとともに、
前記ユーザーが未登録の場合には新たに学習の履歴がデータベースに蓄積されることを特徴とする外国語会話ロボット。 - 請求項1に記載の外国語会話ロボットと、
前記サーバと、を含む外国語会話システムであって、
前記サーバは、前記ユーザーごとに個別に管理されたデータベースを含み、前記データベースに前記ユーザーとの間の対話に関する情報が記録される外国語会話システム。 - 前記サーバは、前記ユーザー情報送信部から受信した前記ユーザーの発話に関する音声情報をテキスト化し、当該テキスト化した音声情報とデータベース内の応答文情報とのマッチングを行い、当該マッチングに基づく適切な応答文を含む前記応答文情報を前記応答文情報受信部へ送信し、
前記外国語会話ロボットは、受信した前記応答文を含む応答文情報に基づいて、前記発声部を介して前記ユーザーに対して発話する請求項2に記載の外国語会話システム。 - 前記撮像部は、前記応答文に対する返答中の前記ユーザーを撮像し、
前記ユーザー情報送信部は、前記応答文に対して発話した前記ユーザーの音声情報と共に、前記撮像部が撮像した前記返答中の前記ユーザーの画像情報を前記サーバに送信し、
前記サーバは、前記ユーザー情報送信部から受信した前記ユーザーの画像情報に基づいて前記ユーザーの表情を判定し、当該表情の判定結果に基づいて内容を変化させた次の応答文を含む前記応答文情報を前記応答文情報受信部へ送信する請求項3に記載の外国語会話システム。 - 前記サーバは、会話レベルを決定するためのレベル決定用質問を含む応答文情報を前記応答文情報受信部へ送信し、
前記外国語会話ロボットは、受信した前記レベル決定用質問を含む応答文を、前記発声部を介して前記ユーザーに対して発声し、
前記ユーザーが発した前記レベル決定用質問に対する返答に基づいて前記会話レベルが決定され、
前記決定した会話レベルに基づいて前記サーバで前記データベース内の応答文が選択されて前記応答文情報受信部へ送信される請求項3又は4に記載の外国語会話システム。 - 外国語会話ロボット又はサーバに、
撮像部を用いてユーザーの顔面を撮像させ、
撮像された前記ユーザーの顔面に関する情報をサーバに通信回線を介して送信させ、
前記顔面に関する情報に基づいて前記ユーザーが未登録であるか特定させ、i)未登録であった場合に前記ユーザーの氏名を外国語で質問する氏名質問を含む外国語の応答文情報を生成させるとともに、ii)登録済であった場合に前記ユーザーの氏名を含む外国語の応答文情報を生成させ、
発声部を用いて前記ユーザーに対して前記応答文情報に基づく外国語のスタート発話として発声させ、
音声認識部を用いて前記スタート発話に対する前記ユーザーの外国語による発話を音声認識させ、
前記音声認識させた前記ユーザーの発話を前記サーバに前記通信回線を介して送信させ、
前記ユーザーが登録済の場合には前記ユーザーの学習履歴を反映した外国語の前記応答文情報が前記応答文情報受信部で受信されるとともに、
前記ユーザーが未登録の場合には新たに学習の履歴がデータベースに蓄積されることを特徴とする外国語会話プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017118012 | 2017-06-15 | ||
JP2017118012 | 2017-06-15 | ||
PCT/JP2018/020735 WO2018230345A1 (ja) | 2017-06-15 | 2018-05-30 | 対話ロボットおよび対話システム、並びに対話プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018230345A1 JPWO2018230345A1 (ja) | 2019-11-07 |
JP6633250B2 true JP6633250B2 (ja) | 2020-01-22 |
Family
ID=64659733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019521492A Active JP6633250B2 (ja) | 2017-06-15 | 2018-05-30 | 対話ロボットおよび対話システム、並びに対話プログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6633250B2 (ja) |
CN (1) | CN109643550A (ja) |
WO (1) | WO2018230345A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024117292A1 (ko) * | 2022-11-29 | 2024-06-06 | 주식회사 아이오테드 | 메타버스 연동 챗봇 로봇 시스템 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689781A (zh) * | 2019-10-31 | 2020-01-14 | 北京光年无限科技有限公司 | 基于儿童教育的数据处理方法和系统 |
KR102302137B1 (ko) * | 2019-10-31 | 2021-09-15 | 주식회사 엘지씨엔에스 | 외국어 학습장치 및 이를 이용하는 외국어 학습서비스 제공방법 |
WO2021181679A1 (ja) | 2020-03-13 | 2021-09-16 | 日本電信電話株式会社 | 対話支援装置、対話支援方法及びプログラム |
CN114461066A (zh) * | 2021-12-29 | 2022-05-10 | 上海盛付通电子支付服务有限公司 | 用于追忆已故对象的方法、设备、介质及程序产品 |
JP2023142373A (ja) * | 2022-03-25 | 2023-10-05 | 学校法人早稲田大学 | 情報処理方法、情報処理プログラム及び情報処理装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3529049B2 (ja) * | 2002-03-06 | 2004-05-24 | ソニー株式会社 | 学習装置及び学習方法並びにロボット装置 |
JP2004021121A (ja) * | 2002-06-19 | 2004-01-22 | Nec Corp | 音声対話制御装置 |
JP2004101901A (ja) * | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | 音声対話装置及び音声対話プログラム |
JP2005106876A (ja) * | 2003-09-26 | 2005-04-21 | Cai Media Kyodo Kaihatsu:Kk | 語学学習用ロボット及び語学学習システム |
JP2006078802A (ja) * | 2004-09-09 | 2006-03-23 | Nisshinbo Ind Inc | 学習支援装置、学習支援方法及びプログラム |
JP4671898B2 (ja) * | 2006-03-30 | 2011-04-20 | 富士通株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
JP2010282058A (ja) * | 2009-06-05 | 2010-12-16 | Tokyobay Communication Co Ltd | 外国語学習補助方法及び装置 |
KR101211796B1 (ko) * | 2009-12-16 | 2012-12-13 | 포항공과대학교 산학협력단 | 외국어 학습 장치 및 그 제공 방법 |
JP2012215645A (ja) * | 2011-03-31 | 2012-11-08 | Speakglobal Ltd | コンピュータを利用した外国語会話練習システム |
JP5701935B2 (ja) * | 2013-06-11 | 2015-04-15 | 富士ソフト株式会社 | 音声認識システムおよび音声認識システムの制御方法 |
JP2016080894A (ja) * | 2014-10-17 | 2016-05-16 | シャープ株式会社 | 電子機器、家電、制御システム、制御方法、および制御プログラム |
JP6583765B2 (ja) * | 2015-01-16 | 2019-10-02 | 国立大学法人大阪大学 | エージェント対話システムおよびプログラム |
JP6192126B2 (ja) * | 2015-04-16 | 2017-09-06 | トヨタ自動車株式会社 | 着信通知制御システム |
JP6084654B2 (ja) * | 2015-06-04 | 2017-02-22 | シャープ株式会社 | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 |
-
2018
- 2018-05-30 CN CN201880001020.7A patent/CN109643550A/zh active Pending
- 2018-05-30 WO PCT/JP2018/020735 patent/WO2018230345A1/ja active Application Filing
- 2018-05-30 JP JP2019521492A patent/JP6633250B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024117292A1 (ko) * | 2022-11-29 | 2024-06-06 | 주식회사 아이오테드 | 메타버스 연동 챗봇 로봇 시스템 |
Also Published As
Publication number | Publication date |
---|---|
WO2018230345A1 (ja) | 2018-12-20 |
JPWO2018230345A1 (ja) | 2019-11-07 |
CN109643550A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6633250B2 (ja) | 対話ロボットおよび対話システム、並びに対話プログラム | |
US11222632B2 (en) | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs | |
US11017779B2 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
US20240168933A1 (en) | Ai story platform with customizable personality for education, entertainment, and therapy | |
US11468894B2 (en) | System and method for personalizing dialogue based on user's appearances | |
CN107340865B (zh) | 多模态虚拟机器人交互方法和系统 | |
US11151997B2 (en) | Dialog system, dialog method, dialog apparatus and program | |
US20190371318A1 (en) | System and method for adaptive detection of spoken language via multiple speech models | |
US11222634B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
US11200902B2 (en) | System and method for disambiguating a source of sound based on detected lip movement | |
US20190251350A1 (en) | System and method for inferring scenes based on visual context-free grammar model | |
WO2019161249A1 (en) | System and method for visual scene construction based on user communication | |
KR20220123170A (ko) | 인공지능 아바타 튜터를 활용한 회화 학습 시스템 및 그 방법 | |
JPWO2020070923A1 (ja) | 対話装置、その方法、およびプログラム | |
KR20210123545A (ko) | 사용자 피드백 기반 대화 서비스 제공 방법 및 장치 | |
CN114745349B (zh) | 一种点评方法、电子设备及计算机可读存储介质 | |
JP7474211B2 (ja) | ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 | |
JP7425681B2 (ja) | 社会的能力生成装置、社会的能力生成方法、およびコミュニケーションロボット | |
Senarathne et al. | Automated Sinhala Voice Assistant to Manage Tasks using Natural Language Processing-ශ්රී Voice | |
WO2023212261A1 (en) | Retrieval of augmented parameters for artificial intelligence-based characters | |
WO2024145628A1 (en) | Real-time animation of artificial intelligence characters | |
JP2022139436A (ja) | 会議支援装置、会議支援システム、会議支援方法、およびプログラム | |
CN115730048A (zh) | 一种会话处理方法、装置、电子设备及可读存储介质 | |
CN116189682A (zh) | 文本信息显示方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190419 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190419 |
|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20190514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190516 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190618 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6633250 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |