JP2006313287A - Speech dialogue apparatus - Google Patents
Speech dialogue apparatus Download PDFInfo
- Publication number
- JP2006313287A JP2006313287A JP2005136681A JP2005136681A JP2006313287A JP 2006313287 A JP2006313287 A JP 2006313287A JP 2005136681 A JP2005136681 A JP 2005136681A JP 2005136681 A JP2005136681 A JP 2005136681A JP 2006313287 A JP2006313287 A JP 2006313287A
- Authority
- JP
- Japan
- Prior art keywords
- user
- information
- intention
- voice
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、ユーザとの情報のやりとりを音声によって行う音声対話装置に関する。 The present invention relates to a voice interactive apparatus that exchanges information with a user by voice.
従来から、目的地の位置データを入力する例えばタッチパネルやキーボード等の入力手段と、地図データや交差点データ等の道路情報が格納された記憶手段と、音声を出力する複数の音声出力手段と、車両の現在位置を検出するGPSやジャイロセンサー等の現在位置検出手段と、この現在位置検出手段で検出した現在位置と前記記憶手段に格納されている前記道路情報とにより入力手段から入力された目的地までの進路判断を行う進路判断手段と、進路判断手段が車両の進むべき方向を右方向であるとした場合、運転者が感覚的に指示内容を認知できるようにするべく、音声出力手段からの指示音声を右方向から聞こえるように出力制御する音声出力制御手段とを備えた音声出力装置が知られている(例えば、特許文献1参照)。
ところで、一般的な音声認識装置は、ユーザの発話に対して所与の音声認識エンジンを用いて音声認識処理を行い、得られた音声認識結果(言語情報)に基づいて、ユーザの意図を認識する機能を持つ。例えば、ナビゲーションシステムにおける目的地設定時に、ユーザが「とよたしえき」と発話した場合、「とよたしえき」という音声認識結果(言語情報)に基づいて、「とよたしえき」に行きたいというユーザの意図を認識する。これにより、ユーザは、ユーザの意図(目的地)を、手入力することなく音声認識装置(ナビゲーションシステム)に伝えること(認識してもらうこと)ができる。 By the way, a general speech recognition apparatus performs speech recognition processing on a user's utterance using a given speech recognition engine, and recognizes the user's intention based on the obtained speech recognition result (language information). It has a function to do. For example, if the user utters “Toyota Eki” when setting the destination in the navigation system, the user wants to go to “Toyota Eki” based on the speech recognition result (language information) “Toyota Eki”. Recognize intent. Thereby, the user can transmit (recognize) the user's intention (destination) to the voice recognition device (navigation system) without manually inputting.
ところで、近年では、音声認識装置の音声認識能力の向上に伴い、ユーザとの対話能力が高まりつつある。即ち、先の例のように既に決まっている目的地を直接音声で入力するような単純な対話アプリケーションではなく、例えば目的地に関するユーザの希望をユーザが音声入力し、それに対するシステム側の提案がユーザに対して出力され、それに対するユーザの返答(承諾又は拒絶)といったように、複数の対話を経てユーザの意図を確定していくようなアプリケーションが行われている。かかるアプリケーションでは、ユーザの意図をシステム側が速やかに汲み取ることが、ユーザとの間の対話を円滑に実現する上で重要となるが、これを上述の言語情報のみで実現することは困難である。 By the way, in recent years, with the improvement of the voice recognition ability of the voice recognition apparatus, the ability to interact with the user is increasing. In other words, it is not a simple interactive application that directly inputs a predetermined destination by voice as in the previous example, but for example, the user inputs the voice of the user regarding the destination and the system side suggests that There are applications in which a user's intention is determined through a plurality of dialogues such as a user's response (acceptance or rejection) to the user. In such an application, it is important for the system side to quickly capture the user's intention in order to smoothly realize the dialogue with the user, but it is difficult to realize this only with the language information described above.
そこで、本発明は、ユーザとの間の対話をより円滑に実現することが可能な音声対話装置の提供を目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide a voice dialogue apparatus that can more smoothly realize a dialogue with a user.
上記課題を解決するため、本発明の一局面によれば、ユーザとの情報のやりとりを音声によって行う音声対話装置において、
ユーザの発話する言葉に含まれるユーザの意図を、該発話に対する音声認識処理により得られる言語情報と、ユーザの感情又は生理状態を表すことが可能な非言語情報との双方に基づいて推定する意図推定機能を有することを特徴とする、音声対話装置が提供される。
In order to solve the above-described problem, according to one aspect of the present invention, in a voice interaction apparatus that performs voice exchange of information with a user,
Intention to estimate the user's intention included in the words spoken by the user based on both linguistic information obtained by speech recognition processing for the utterance and non-linguistic information capable of representing the user's emotion or physiological state A spoken dialogue apparatus characterized by having an estimation function is provided.
本局面において、前記非言語情報は、カメラによるユーザの撮像画像を画像処理して得られる画像情報、及び、ユーザの発話音声を解析して得られる韻律情報を含んでよい。前記非言語情報は、心電や脈拍の計測結果に基づくユーザの生理情報を含んでよい。 In this aspect, the non-linguistic information may include image information obtained by performing image processing on a captured image of the user by a camera, and prosodic information obtained by analyzing the user's uttered voice. The non-linguistic information may include user physiological information based on a measurement result of an electrocardiogram or a pulse.
本発明によれば、ユーザの発話する言葉に含まれるユーザの意図を、該発話に対する音声認識処理により得られる言語情報と、ユーザの感情又は生理状態を表すことが可能な非言語情報との双方に基づいて推定する意図推定機能を有することで、ユーザとの間の対話をより円滑に実現することが可能な音声対話装置を得ることができる。 According to the present invention, both the linguistic information obtained by the speech recognition processing for the utterance and the non-linguistic information capable of representing the user's emotion or physiological state, the user's intention included in the words uttered by the user. By having the intention estimation function that performs estimation based on the above, it is possible to obtain a voice conversation apparatus that can more smoothly realize a conversation with the user.
以下、図面を参照して、本発明を実施するための最良の形態の説明を行う。 The best mode for carrying out the present invention will be described below with reference to the drawings.
図1は、本発明による音声対話装置が組み込まれる音声対話システムの一実施例を示すシステム構成図である。音声対話装置10は、対話制御ECU20、車室内の音(音声)を拾う車内マイク(マイクロフォン)30、アンプ42、スピーカ40、及びディスプレイ50を備える。尚、アンプ42及びスピーカ40は、車載オーディオシステムで用いられるものと共通であってよい。
FIG. 1 is a system configuration diagram showing an embodiment of a voice dialogue system in which a voice dialogue apparatus according to the present invention is incorporated. The
対話制御ECU20は、ユーザとの対話を統括的に制御する。対話の一方向を構成するシステム側(対話制御ECU20)からユーザへの応答は、スピーカ40及び/又はディスプレイ50を介した音響的及び/又は視覚的な出力により実現される。対話の他方向、即ち、ユーザからシステム側への意思伝達は、原則的に、車内マイク30を介した音声入力により実現される。
The dialogue control
対話制御ECU20は、その基本的な構成として、バスを介して接続されるCPU、メモリ、A/D(analog-to-digital)変換器を備える。メモリには、以下で説明する対話制御ECU20の機能を実現するプログラムやデータが格納される。
The
車内マイク30に入力されるアナログ音声は、マイクアンプにて増幅処理やノイズ除去などの所定処理を受けて、A/D変換器でデジタル形式の音声信号に変換され、対話制御ECU20に送られる。対話制御ECU20は、音声信号から特徴量を抽出し、次いで、所与の音響/言語モデルを用いたマッチング処理により認識結果を得る。尚、本発明は、特に音声認識方法により限定されるものでなく、如何なるハードウェア構成で如何なるソフトウェア(音声認識エンジン)を用いた音声認識処理に対しても適用可能である。
The analog audio input to the in-
対話制御ECU20には、CAN(controller area network)などの適切なバスを介して、乗員状態推定ECU70が接続される。乗員状態推定ECU70は、車内カメラ60及び生体センサ80が接続され、ユーザの感情又は生理状態を表すことが可能な非言語情報を取得・生成する。
An occupant
車内カメラ60は、例えばCCDカメラで構成され、車室内のユーザ(即ち、運転者を含む乗員)を撮像できるような位置に搭載される。乗員状態推定ECU70は、内蔵の画像処理プロセッサにより、車内カメラ60が撮像した画像データを受信及び処理することにより、ユーザの表情、ジェスチャー、仕草等を表す画像情報を取得する。或いは、車内カメラ60は、サーモグラフィカメラ(赤外線カメラ)であってもよい。この場合、乗員状態推定ECU70は、ユーザの顔などの所定部位における熱の分布状態を表す画像情報を取得する。
The in-
生体センサ80は、心電や脈拍の計測するセンサを含み、具体的には、生体センサ80は、心電計ないし心拍計(例えば、腕時計等のリストバンドに設定された心拍感知センサ)、又は、脈拍数を計測する脈拍計、血圧を計測する血圧計である。生体センサ80は、ユーザが携帯する例えば腕時計に設定されるものであってもよく、或いは、ドライバがハンドル操作するステアリングホイールに埋設されてもよい。
The
乗員状態推定ECU70は、また、上述の如く車内マイク30に入力される音声データを解析することで、ユーザの発話音声の韻律的特徴(声の高さ、強さ、大きさ、長さ等)を表す韻律情報を取得する。
The occupant
図2は、本実施例の音声対話装置により実現される特徴的な動作フローを示す。 FIG. 2 shows a characteristic operation flow realized by the voice interaction apparatus of the present embodiment.
図2に示すように、本実施例の音声対話装置は、車内マイク30に入力される音声データに対する音声認識結果に基づいて、言語情報に基づく意図推定を行う(ステップ100)と共に、音声認識結果(韻律情報等)又は乗員状態検出結果に基づいて、非言語情報に基づく感情推定を行い(ステップ110)、これらの意図推定結果を統合して最終的な意図推定を行う(ステップ120)。即ち、本実施例の音声対話装置は、ユーザの感情及びその変化等を表す非言語情報と、音声認識結果を表す言語情報との双方に基づいて、ユーザの発話する言葉に含まれるユーザの本来の意図(真意)を推定する意図推定機能を有する。 As shown in FIG. 2, the voice interaction apparatus according to the present embodiment performs intention estimation based on language information based on the voice recognition result with respect to the voice data input to the in-vehicle microphone 30 (step 100) and the voice recognition result. Based on (prosodic information, etc.) or occupant state detection results, emotion estimation based on non-linguistic information is performed (step 110), and these intention estimation results are integrated to perform final intention estimation (step 120). That is, the speech dialogue apparatus according to the present embodiment is based on both the non-linguistic information representing the user's emotions and changes thereof and the linguistic information representing the speech recognition result. It has an intention estimation function for estimating the intention (meaning).
具体的には、ステップ110では、対話制御ECU20は、生体センサ80からの生理情報に基づいて、心電計からの心電図や脈拍データを解析することで、ユーザの緊張ないし興奮状態又は平静状態を推定する。また、対話制御ECU20は、韻律情報や画像情報に基づいて、ユーザの感情(例えば、平静、怒り、喜び、悲しみ)を推定する。このとき、対話制御ECU20は、ユーザの固有情報を格納したユーザデータベース22を利用する。即ち、ユーザデータベース22内には、各ユーザの基準となる生理情報が、そのときのユーザの精神状態(緊張ないし興奮状態又は平静状態)に応じて分類した形でユーザデータベース22内に格納されている。同様に、韻律情報や画像情報についても同様に、各ユーザの基準となる韻律情報や画像情報が、そのときのユーザの感情に応じて分類した形でユーザデータベース22内に格納されている。これらの基準データは、事前に取得されてもよいし、或いは、実際のアプリケーションを通じて学習されてもよい。これにより、対話制御ECU20は、今回検出された生理情報や韻律情報を、データベース22内のデータと照合することで、ユーザの精神状態ないし感情を高い精度で推定することができる。
Specifically, in
また、ステップ120で最終的な意図推定を行う際、当然ながら、ステップ100及びステップ110で得られる推定結果は互いに同期したものが用いられる。即ち、あるユーザの発話に対する言語情報は、当該発話時又はその前後の非言語情報に対応付けられる。
When the final intention estimation is performed in
図3は、非言語情報と言語情報とを統合してユーザの意図(真意)を汲み取る方法の一例を示す表図である。図3に示す例は、ユーザが「なんで」と発声した場合に関する。 FIG. 3 is a table showing an example of a method for fetching a user's intention (meaning) by integrating non-linguistic information and linguistic information. The example shown in FIG. 3 relates to a case where the user utters “why”.
ここで、「なんで」という発話は、一般的に、相手が言ったことに対する質問、詰問(相手の非を責めながらきびしく問いつめる)、疑い等といったように、その意味には複数の可能性があるので、言語情報に基づくだけでは的確にユーザの意図推定を行うことができない。 Here, the utterance “why” generally has multiple possibilities in its meaning, such as a question about what the other party said, a question (quickly blaming the other party), doubt, etc. Therefore, the user's intention cannot be accurately estimated only based on the language information.
これに対して、本実施例では、図3に示すように、韻律情報や画像情報から推定されるユーザの感情の推定結果と、生理情報から推定されるユーザの精神状態の推定結果とに基づいて、「なんで」という発話に含まれるユーザの意図(質問なのか、詰問なのか、それとも疑いなのか)を推定・判断することで、的確にユーザの意図推定を行うことが可能となる。 On the other hand, in this embodiment, as shown in FIG. 3, based on the estimation result of the user's emotion estimated from the prosodic information and the image information, and the estimation result of the user's mental state estimated from the physiological information. Thus, by estimating and judging the user's intention (whether it is a question, a question, or a suspicion) included in the utterance “why”, it is possible to accurately estimate the user's intention.
例えば、図3に示す例では、「なんで」と発声したユーザの感情の推定結果が「平静」であるときは、言葉「なんで」は“質問”の意味で用いられた言語であると推定される。また、感情推定結果が「怒り」であるときは、言葉「なんで」は“詰問”の意味で用いられた言語であると推定される。同様に、感情推定結果が「喜び」又は「悲しみ」であるときは、言葉「なんで」は“疑い”の意味で用いられた言語であると推定される。 For example, in the example shown in FIG. 3, when the estimation result of the emotion of the user who uttered “why” is “calm”, the word “why” is estimated to be a language used in the meaning of “question”. The When the emotion estimation result is “anger”, the word “why” is estimated to be a language used in the meaning of “question”. Similarly, when the emotion estimation result is “joy” or “sadness”, the word “why” is estimated to be a language used in the meaning of “suspect”.
尚、ユーザの感情は、韻律情報や画像情報に基づいて、例えば韻律が通常時と同じ場合、及び/又は、顔の表情や仕草に特段の変化が無い場合に、「平静」と推定されてよい。また、韻律が大きく変化した場合、且つ、顔の表情や仕草に怒りを表す特徴(例えば、目のつり上がりや口のとんがり)が表れた場合、ユーザの感情が「怒り」であると推定されてよい。同様に、韻律が大きく変化した場合、且つ、顔の表情や仕草に喜びを表す特徴(例えば、微笑みないし笑いや、手をたたくような仕草)が表れた場合、ユーザの感情が「喜び」であると推定されてよい。また、韻律が大きく変化した場合、且つ、顔の表情や仕草に悲しみを表す特徴(例えば、うつむく仕草や涙を拭く仕草)が表れた場合、ユーザの感情が「悲しみ」であると推定されてよい。 Note that the user's emotion is estimated to be “seduce” based on prosodic information and image information, for example, when the prosody is the same as normal and / or when there is no particular change in facial expression or gesture. Good. In addition, when the prosody changes greatly, and when a facial expression or gesture is characterized by anger (for example, rising eyes or pointed mouth), the user's emotion is estimated to be “angry”. It's okay. Similarly, if the prosody changes significantly and if facial expressions or gestures show joyful features (for example, smiles or laughter or clapping hands), the user's emotion is “joy”. It may be estimated that there is. Also, if the prosody changes greatly and if a facial expression or a characteristic that expresses sadness (such as a gesture of wiping or tearing) appears, the user's emotion is assumed to be "sadness" Good.
また、図3に示す例では、「なんで」と発声したユーザの精神状態の推定結果が「平静」であるときは、言葉「なんで」は“質問”の意味で用いられた言語であると推定される。また、精神状態の推定結果が「緊張」であるときは、言葉「なんで」は“詰問”の意味で用いられた言語であると推定され、精神状態の推定結果が「(興奮に近い)緊張」であるときは、言葉「なんで」は“疑い”の意味で用いられた言語であると推定される。尚、かかるユーザの精神状態は、上述のパターン照合によらず簡易的に、心電や脈拍に大きな変化が現れた否かで推定されてもよい。 Further, in the example shown in FIG. 3, when the estimation result of the mental state of the user who uttered “why” is “calm”, the word “why” is estimated to be a language used in the meaning of “question”. Is done. When the mental state estimation result is “tension”, the word “why” is presumed to be the language used in the meaning of “question”, and the mental state estimation result is “tension (close to excitement)”. ”, The word“ why ”is presumed to be a language used in the sense of“ suspect ”. Note that the mental state of the user may be estimated simply based on whether or not a large change in the electrocardiogram or the pulse appears regardless of the pattern matching described above.
図4は、その他の一例を示す表図である。図4に示す例は、ユーザが「いいよ」と発声した場合に関する。 FIG. 4 is a table showing another example. The example shown in FIG. 4 relates to a case where the user utters “OK”.
同様に、「いいよ」という発話は、一般的に、相手が言ったことに対する承諾や、あきらめ(どうでもいい、というあきらめ)等といったように、その意味には複数の可能性があるので、言語情報に基づくだけでは的確にユーザの意図推定を行うことができない。 Similarly, the utterance of “OK” generally has multiple possibilities in its meaning, such as consent to what the other party said or giving up (giving up that it ’s okay). The user's intention cannot be accurately estimated only based on the language information.
これに対して、本実施例では、図3に示すように、韻律情報や画像情報から推定されるユーザの感情の推定結果と、生理情報から推定されるユーザの精神状態の推定結果とに基づいて、「いいよ」という発話に含まれるユーザの意図(承諾なのか、それともあきらめなのか)を特定することで、的確にユーザの意図推定を行うことが可能となる。 On the other hand, in this embodiment, as shown in FIG. 3, based on the estimation result of the user's emotion estimated from the prosodic information and the image information, and the estimation result of the user's mental state estimated from the physiological information. Thus, it is possible to accurately estimate the user's intention by specifying the user's intention (whether to accept or give up) included in the utterance “OK”.
例えば、図4に示す例では、「いいよ」と発声したユーザの感情の推定結果が「平静」又は「喜び」であるときは、言葉「いいよ」は“承諾”の意味で用いられた言語であると推定される。また、感情推定結果が「怒り」又は「悲しみ」であるときは、言葉「いいよ」は“あきらめ”の意味で用いられた言語であると推定される。 For example, in the example shown in FIG. 4, when the estimated result of the emotion of the user who uttered “good” is “calm” or “joy”, the word “good” was used to mean “acceptance”. Presumed to be language. When the emotion estimation result is “anger” or “sadness”, the word “good” is estimated to be a language used in the meaning of “give up”.
同様に、図4に示す例では、「いいよ」と発声したユーザの精神状態の推定結果が「平静」であるときは、言葉「いいよ」は“承諾”の意味で用いられた言語であると推定される。また、精神状態の推定結果が「緊張」であるときは、言葉「いいよ」は“あきらめ”の意味で用いられた言語であると推定される。 Similarly, in the example shown in FIG. 4, when the estimation result of the mental state of the user who uttered “good” is “calm”, the word “good” is a language used to mean “acceptance”. Presumed to be. When the mental state estimation result is “tension”, the word “good” is presumed to be a language used in the sense of “give up”.
尚、図3及び図4に示すような、ユーザの感情や精神状態と、ユーザの意図との対応関係は、かかる複数の意味を有しうる言語毎に作成され、対話制御ECU20のアクセス可能なメモリに予め保存される。
The correspondence relationship between the user's emotion and mental state and the user's intention as shown in FIGS. 3 and 4 is created for each language that can have such a plurality of meanings, and can be accessed by the
これにより、例えばシステム側からユーザに対して、「目的地周辺の駐車場の空き状況をお知らせしましょうか?」なる音声をスピーカ40を介して出力して、ユーザに問い合わせした場合に、ユーザから「いいよ」という返答を受けたとき、上述の如くユーザの感情や精神状態を加味することで、その返答が「よろしくたのむ」という意味の「いいよ」なのか、又は、「必要ない」という意味の「いいよ」なのかを的確に判断することができる。この結果、再度聞き直すなどしてユーザを煩わせることがなくなり、当該返答に対するシステム側からの次の出力(動作)を的確なものとすることができ、ユーザとの対話をより円滑にすることが可能となる。例えば、「よろしくたのむ」という意味の「いいよ」の場合であるときだけ、対話制御ECU20は、直ぐに目的地周辺の駐車場の空き状況を取得して、「目的地周辺の駐車場の空き状況をお知らせします」なる音声を出力しつつ、駐車場の空き状況をディスプレイ50に表示することができる。
As a result, for example, when the system side outputs a voice message “Would you like to inform about the availability of the parking lot around the destination?” Through the
以上のように本実施例によれば、ユーザの発話した言語の意味が複数あり、その言語情報からはユーザの意図が一意的に特定できない場合であっても、ユーザの感情や精神状態を推定してこれらを加味することで、ユーザの意図を高精度に(的確に)推定することが可能となる。即ち、人間同士のコミュニケーションにおいて言語情報で伝達可能なのは7%程度であり、音声の韻律や表情などがコミュニケーションにおいて重要な役割を果たしているという研究結果(心理学者のアルバート・メラビアンによる研究結果)が知られているが、本実施例では、この研究結果からも分かるように、言語情報に加えて音声の韻律や表情などを考慮することで、言語情報だけで認識困難なユーザの意図をより的確に把握することが可能となる。 As described above, according to the present embodiment, there are a plurality of meanings of the language spoken by the user, and even if the user's intention cannot be uniquely specified from the language information, the user's emotion and mental state are estimated. By taking these into account, it is possible to estimate the user's intention with high accuracy (exactly). That is, about 7% of humans can communicate with linguistic information, and the research results (study results by psychologist Albert Melavian) that voice prosody and facial expression play an important role in communication are known. However, in this example, as can be seen from the results of this study, the intentions of users who are difficult to recognize using only linguistic information are more accurately considered by taking into account the prosodic and facial expressions of speech in addition to linguistic information. It becomes possible to grasp.
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなく、上述した実施例に種々の変形及び置換を加えることができる。 The preferred embodiments of the present invention have been described in detail above. However, the present invention is not limited to the above-described embodiments, and various modifications and substitutions can be made to the above-described embodiments without departing from the scope of the present invention. Can be added.
例えば、上述した実施例では、ユーザの意図の推定精度を高めるため、ユーザの感情及び精神状態の双方を推定しているが、その何れかのみを推定する構成も可能である。また、そのときの推定精度に応じて、一方の推定結果を優先して用い、他方の推定結果を補助的に用いることも可能である。 For example, in the above-described embodiment, in order to improve the estimation accuracy of the user's intention, both the user's emotion and mental state are estimated, but a configuration in which only one of them is estimated is also possible. Also, according to the estimation accuracy at that time, it is possible to preferentially use one estimation result and use the other estimation result as an auxiliary.
また、上述では、車内マイク30に入力される非言語情報として、韻律情報を例示しているが、本発明は、特にこれに限定されることはなく、例えば、車内マイク30に入力されるブレス・息遣いの態様(ため息や息を呑む態様)に基づいて、ユーザの感情や精神状態を検出してもよい。
In the above description, prosodic information is illustrated as non-linguistic information input to the in-
10 音声対話装置
20 対話制御ECU
22 ユーザデータベース
30 車内マイク
40 スピーカ
42 アンプ
50 ディスプレイ
60 車内カメラ
70 乗員状態推定ECU
80 生体センサ
10
22
80 Biosensor
Claims (3)
ユーザの発話する言葉に含まれるユーザの意図を、該発話に対する音声認識処理により得られる言語情報と、ユーザの感情又は生理状態を表すことが可能な非言語情報との双方に基づいて推定する意図推定機能を有することを特徴とする、音声対話装置。 In a voice interaction device that exchanges information with the user by voice,
Intention to estimate the user's intention included in the words spoken by the user based on both linguistic information obtained by speech recognition processing for the utterance and non-linguistic information capable of representing the user's emotion or physiological state A spoken dialogue apparatus characterized by having an estimation function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005136681A JP2006313287A (en) | 2005-05-09 | 2005-05-09 | Speech dialogue apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005136681A JP2006313287A (en) | 2005-05-09 | 2005-05-09 | Speech dialogue apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006313287A true JP2006313287A (en) | 2006-11-16 |
Family
ID=37534801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005136681A Pending JP2006313287A (en) | 2005-05-09 | 2005-05-09 | Speech dialogue apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006313287A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015014834A (en) * | 2013-07-03 | 2015-01-22 | 株式会社Lassic | Feeling estimation system and program by mechanic dialog |
JP2018068548A (en) * | 2016-10-27 | 2018-05-10 | 富士ゼロックス株式会社 | Interaction control system |
CN108154381A (en) * | 2016-12-06 | 2018-06-12 | 松下知识产权经营株式会社 | Motion candidate suggestion device and motion candidate's reminding method |
JP2019086679A (en) * | 2017-11-08 | 2019-06-06 | 株式会社東芝 | Dialogue system, dialogue method, and dialogue program |
JP2019518247A (en) * | 2016-03-31 | 2019-06-27 | シェン ツェン クアン−チ ヘチョン テクノロジー リミティッド | Cloud-based equipment and operation method thereof |
JP2021510851A (en) * | 2018-01-26 | 2021-04-30 | 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. | Intelligent interaction methods, devices, computer devices and computer readable storage media |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05252509A (en) * | 1992-03-02 | 1993-09-28 | Toshiba Corp | Multimedia device and electronic conference system |
JPH08234789A (en) * | 1995-02-27 | 1996-09-13 | Sharp Corp | Integrated recognition interactive device |
WO2004075168A1 (en) * | 2003-02-19 | 2004-09-02 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device and speech recognition method |
-
2005
- 2005-05-09 JP JP2005136681A patent/JP2006313287A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05252509A (en) * | 1992-03-02 | 1993-09-28 | Toshiba Corp | Multimedia device and electronic conference system |
JPH08234789A (en) * | 1995-02-27 | 1996-09-13 | Sharp Corp | Integrated recognition interactive device |
WO2004075168A1 (en) * | 2003-02-19 | 2004-09-02 | Matsushita Electric Industrial Co., Ltd. | Speech recognition device and speech recognition method |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015014834A (en) * | 2013-07-03 | 2015-01-22 | 株式会社Lassic | Feeling estimation system and program by mechanic dialog |
JP2019518247A (en) * | 2016-03-31 | 2019-06-27 | シェン ツェン クアン−チ ヘチョン テクノロジー リミティッド | Cloud-based equipment and operation method thereof |
JP2018068548A (en) * | 2016-10-27 | 2018-05-10 | 富士ゼロックス株式会社 | Interaction control system |
JP7003400B2 (en) | 2016-10-27 | 2022-01-20 | 富士フイルムビジネスイノベーション株式会社 | Dialogue control system |
CN108154381A (en) * | 2016-12-06 | 2018-06-12 | 松下知识产权经营株式会社 | Motion candidate suggestion device and motion candidate's reminding method |
JP2019086679A (en) * | 2017-11-08 | 2019-06-06 | 株式会社東芝 | Dialogue system, dialogue method, and dialogue program |
JP2021510851A (en) * | 2018-01-26 | 2021-04-30 | 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. | Intelligent interaction methods, devices, computer devices and computer readable storage media |
US11373641B2 (en) | 2018-01-26 | 2022-06-28 | Shanghai Xiaoi Robot Technology Co., Ltd. | Intelligent interactive method and apparatus, computer device and computer readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6466385B2 (en) | Service providing apparatus, service providing method, and service providing program | |
JP7192222B2 (en) | speech system | |
Weng et al. | Conversational in-vehicle dialog systems: The past, present, and future | |
JP2006350567A (en) | Interactive system | |
JP2006313287A (en) | Speech dialogue apparatus | |
JP2018060192A (en) | Speech production device and communication device | |
JP2018059960A (en) | Information providing device | |
JP2006227499A (en) | Device for speech recognition | |
JP2010128015A (en) | Device and program for determining erroneous recognition in speech recognition | |
JP6037130B2 (en) | Operating condition improvement device | |
US20200411012A1 (en) | Speech recognition device, speech recognition system, and speech recognition method | |
JP6552548B2 (en) | Point proposing device and point proposing method | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP7165566B2 (en) | Control device, agent device and program | |
JP5277704B2 (en) | Voice recognition apparatus and vehicle system using the same | |
JP2004021121A (en) | Voice interaction controller unit | |
JP6944793B2 (en) | Driving support system, driving support method and driving support program | |
JP4811059B2 (en) | Agent device | |
JP2019074498A (en) | Drive supporting device | |
JP6785889B2 (en) | Service provider | |
JP2010197858A (en) | Speech interactive system | |
JP7280074B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
JP6657048B2 (en) | Processing result abnormality detection device, processing result abnormality detection program, processing result abnormality detection method, and moving object | |
JP7287258B2 (en) | Agent management device, program and agent management method | |
JP2007206239A (en) | Voice recognition device and voice recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100528 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100615 |