JP2001215993A - Device and method for interactive processing and recording medium - Google Patents

Device and method for interactive processing and recording medium

Info

Publication number
JP2001215993A
JP2001215993A JP2000022225A JP2000022225A JP2001215993A JP 2001215993 A JP2001215993 A JP 2001215993A JP 2000022225 A JP2000022225 A JP 2000022225A JP 2000022225 A JP2000022225 A JP 2000022225A JP 2001215993 A JP2001215993 A JP 2001215993A
Authority
JP
Japan
Prior art keywords
user
emotion
information
unit
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000022225A
Other languages
Japanese (ja)
Inventor
Koji Asano
康治 浅野
Seiichi Aoyanagi
誠一 青柳
Miyuki Tanaka
幸 田中
Jun Yokono
順 横野
Toshio Oe
敏生 大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000022225A priority Critical patent/JP2001215993A/en
Publication of JP2001215993A publication Critical patent/JP2001215993A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To conduct interactive operations having rich variations depending on the feeling condition of a user. SOLUTION: In a voice recognition section 2, user's voice is recognized and phoneme information of the voice is extracted. In an interactive control section 3, conceptual information of the words and the phrases included in the voice recognition result obtained by the section 2 is extracted. An image inputting section 6 photographs the face of the user and outputs face image information. In a physiological information inputting section 7, physiological information such as the pulse rate of the user is detected. Then, a user feeling information updating section 8 estimates the feeling of the user based on the phoneme, the conceptual, the face image and the physiological information. In the section 3 and a sentence generating section 4, an output sentence is generated and outputted to the user based on the estimated result of the feeling.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、対話処理装置およ
び対話処理方法、並びに記録媒体に関し、特に、例え
ば、ユーザの感情を考慮した対話を行うことができるよ
うにする対話処理装置および対話処理方法、並びに記録
媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a dialogue processing apparatus, a dialogue processing method, and a recording medium, and more particularly to a dialogue processing apparatus and a dialogue processing method capable of performing a dialogue in consideration of, for example, a user's emotion. And a recording medium.

【0002】[0002]

【従来の技術】いわゆる対話システムにおいては、ユー
ザから入力があると、その入力の意味内容に対応した応
答文が生成されて出力される。
2. Description of the Related Art In a so-called interactive system, when a user inputs, a response sentence corresponding to the meaning of the input is generated and output.

【0003】[0003]

【発明が解決しようとする課題】従って、従来の対話シ
ステムでは、ユーザの感情がどのような状態であって
も、入力の意味内容が同一であれば、同じような応答文
が出力され、その結果、同じような対話が行われること
になる。
Therefore, in the conventional dialogue system, the same response sentence is output regardless of the state of the user's emotion if the meaning of the input is the same. As a result, a similar dialogue will take place.

【0004】本発明は、このような状況に鑑みてなされ
たものであり、ユーザの感情の状態によって、バリエー
ションに富んだ対話を行うことができるようにするもの
である。
[0004] The present invention has been made in view of such a situation, and enables a variety of dialogues to be performed depending on the emotional state of the user.

【0005】[0005]

【課題を解決するための手段】本発明の対話処理装置
は、ユーザから入力された語句の概念を抽出する概念抽
出手段と、ユーザから入力された語句の概念に基づい
て、ユーザの感情を推定し、その感情を表す感情情報を
出力する感情推定手段と、感情情報に基づいて、ユーザ
に出力する出力文を生成する出力文生成手段とを備える
ことを特徴とする。
According to the present invention, there is provided a dialogue processing apparatus for extracting a concept of a phrase input by a user, and estimating a user's emotion based on the concept of a phrase input by the user. The apparatus further includes an emotion estimating unit that outputs emotion information indicating the emotion, and an output sentence generating unit that generates an output sentence to be output to the user based on the emotion information.

【0006】感情推定手段には、出力文にも基づいて、
ユーザの感情を推定させることができる。
[0006] The emotion estimation means, based on the output sentence,
The emotion of the user can be estimated.

【0007】また、感情推定手段には、ユーザを撮像し
て得られる画像にも基づいて、ユーザの感情を推定させ
ることができる。
Further, the emotion estimation means can estimate the user's emotion based on an image obtained by imaging the user.

【0008】さらに、感情推定手段には、ユーザの生理
現象にも基づいて、ユーザの感情を推定させることがで
きる。
Further, the emotion estimation means can estimate the user's emotion based on the user's physiological phenomenon.

【0009】本発明の対話処理装置には、外部から得ら
れる音響信号を処理する音響処理手段をさらに設けるこ
とができ、この場合、感情推定手段には、音響処理手段
の処理結果にも基づいて、ユーザの感情を推定させるこ
とができる。
The dialogue processing apparatus of the present invention may further include sound processing means for processing a sound signal obtained from the outside. In this case, the emotion estimation means may be provided based on the processing result of the sound processing means. Thus, the user's emotion can be estimated.

【0010】本発明の対話処理装置には、ユーザの音声
を認識する音声認識手段をさらに設けることができ、こ
の場合、概念抽出手段には、ユーザの音声の音声認識結
果に含まれる語句の概念を抽出させることができる。
[0010] The dialogue processing apparatus of the present invention may further include voice recognition means for recognizing the user's voice. In this case, the concept extracting means includes a concept of a phrase included in the voice recognition result of the user's voice. Can be extracted.

【0011】感情推定手段には、ユーザの音声の韻律情
報にも基づいて、ユーザの感情を推定させることができ
る。
The emotion estimating means can estimate the user's emotion based on the prosodic information of the user's voice.

【0012】出力文生成手段には、感情情報に基づい
て、出力文の表現を変更させることができる。
[0012] The output sentence generation means can change the expression of the output sentence based on the emotion information.

【0013】出力文生成手段には、感情情報に基づい
て、出力文の個数を変更させることができる。
[0013] The output sentence generation means can change the number of output sentences based on the emotion information.

【0014】出力文は、相づちを意味するものとするこ
とができる。
[0014] The output sentence can be meant to be a combination.

【0015】本発明の対話処理装置には、感情情報を記
憶する記憶手段をさらに設けることができ、この場合、
出力文生成手段には、記憶手段に記憶された感情情報に
基づいて、出力文を生成させることができる。
[0015] The interactive processing device of the present invention may further include a storage means for storing emotion information.
The output sentence generating means can generate an output sentence based on the emotion information stored in the storage means.

【0016】本発明の対話処理装置には、出力文を出力
する出力文出力手段をさらに設けることができる。
The interactive processing device according to the present invention may further include output sentence output means for outputting an output sentence.

【0017】出力文出力手段には、出力文を合成音で出
力させることができる。
The output sentence output means can output the output sentence as a synthesized sound.

【0018】また、出力文出力手段には、感情情報に基
づいて、合成音の韻律を制御させることができる。
Also, the output sentence output means can control the prosody of the synthesized sound based on the emotion information.

【0019】本発明の対話処理方法は、ユーザから入力
された語句の概念を抽出する概念抽出ステップと、ユー
ザから入力された語句の概念に基づいて、ユーザの感情
を推定し、その感情を表す感情情報を出力する感情推定
ステップと、感情情報に基づいて、ユーザに出力する出
力文を生成する出力文生成ステップとを備えることを特
徴とする。
According to the dialogue processing method of the present invention, a concept extracting step of extracting a concept of a phrase input from a user, and estimating the user's emotion based on the concept of the phrase input by the user, and expressing the emotion An emotion estimation step for outputting emotion information and an output sentence generation step for generating an output sentence to be output to the user based on the emotion information are provided.

【0020】本発明の記録媒体は、ユーザから入力され
た語句の概念を抽出する概念抽出ステップと、ユーザか
ら入力された語句の概念に基づいて、ユーザの感情を推
定し、その感情を表す感情情報を出力する感情推定ステ
ップと、感情情報に基づいて、ユーザに出力する出力文
を生成する出力文生成ステップとを備えるプログラムが
記録されていることを特徴とする。
A recording medium according to the present invention includes a concept extracting step of extracting a concept of a phrase input by a user, and estimating a user's emotion based on the concept of a phrase input by the user, and an emotion expressing the feeling. A program is recorded which includes an emotion estimation step of outputting information, and an output sentence generation step of generating an output sentence to be output to a user based on the emotion information.

【0021】本発明の対話処理装置および対話処理方
法、並びに記録媒体においては、ユーザから入力された
語句の概念が抽出され、その概念に基づいて、ユーザの
感情が推定される。そして、その結果得られる感情情報
に基づいて、ユーザに出力する出力文が生成される。
In the dialogue processing apparatus, the dialogue processing method, and the recording medium of the present invention, the concept of a phrase input by the user is extracted, and the emotion of the user is estimated based on the concept. Then, an output sentence to be output to the user is generated based on the emotion information obtained as a result.

【0022】[0022]

【発明の実施の形態】図1は、本発明を適用した対話シ
ステム(システムとは、複数の装置が論理的に集合した
ものをいい、各構成の装置が同一筐体中にあるか否かは
問わない)の一実施の形態の構成例を示している。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows a dialogue system to which the present invention is applied (a system refers to a system in which a plurality of devices are logically assembled, and whether or not the devices of each configuration are in the same housing. The configuration example of one embodiment is shown.

【0023】音声入力部1は、例えば、マイク(マイク
ロフォン)およびアンプ等で構成され、ユーザの音声
を、電気信号としての音声信号に変換し、必要に応じて
増幅して、その音声信号を、音声認識部2に供給する。
The audio input unit 1 is composed of, for example, a microphone (microphone), an amplifier, etc., converts a user's voice into an audio signal as an electric signal, amplifies it as necessary, and converts the audio signal into an audio signal. It is supplied to the voice recognition unit 2.

【0024】音声認識部2は、音声入力部1からの音声
信号を音響処理し、さらに、その音響処理結果に基づい
て、ユーザの音声を認識する。この音声認識結果は、対
話管理部3に供給される。また、音声認識部2は、音声
信号を音響処理することにより得られるユーザの音声の
韻律情報を、ユーザ感情情報更新部8に供給する。
The voice recognition unit 2 performs audio processing on the voice signal from the voice input unit 1, and further recognizes the user's voice based on the result of the voice processing. This speech recognition result is supplied to the dialogue management unit 3. Further, the voice recognition unit 2 supplies the user emotion information updating unit 8 with the prosody information of the user's voice obtained by acoustically processing the voice signal.

【0025】対話管理部3は、ユーザ感情情報記録部9
が保持(記憶)している、ユーザの感情を表す感情情報
を考慮して、音声認識部2からの音声認識結果に対する
応答等としての、ユーザに出力する出力文の内容を生成
し、その内容を表す内容情報を、文生成部4に供給す
る。また、対話管理部3は、音声認識部2からの音声認
識結果に含まれる語句や、自身が生成した内容情報に対
応する出力文に含まれる語句の概念を抽出し、その概念
を表す概念情報を、ユーザ感情情報更新部8に供給す
る。
The dialog management unit 3 includes a user emotion information recording unit 9
Generates the contents of an output sentence to be output to the user as a response to the speech recognition result from the speech recognition unit 2 in consideration of the emotion information indicating (e.g., emotions of) the user, which is held (stored) by the user. Is supplied to the sentence generation unit 4. Further, the dialogue management unit 3 extracts a concept of a phrase included in the speech recognition result from the speech recognition unit 2 and a concept of a phrase included in an output sentence corresponding to the content information generated by itself, and conceptual information representing the concept. Is supplied to the user emotion information updating unit 8.

【0026】文生成部4は、ユーザ感情情報記録部9が
保持している感情情報を考慮しながら、対話管理部3か
らの内容情報に対応する、例えばテキストの出力文を生
成し、さらに、その出力文に対応する合成音の音声信号
を生成して、音声出力部5に供給する。
The sentence generation unit 4 generates an output sentence of, for example, a text corresponding to the content information from the dialog management unit 3 while considering the emotion information held by the user emotion information recording unit 9. A speech signal of a synthesized sound corresponding to the output sentence is generated and supplied to the speech output unit 5.

【0027】音声出力部5は、例えば、アンプおよびス
ピーカ等で構成され、文生成部4からの音声信号を、必
要に応じて増幅し、スピーカから出力する。
The audio output unit 5 is composed of, for example, an amplifier and a speaker. The audio output unit 5 amplifies the audio signal from the sentence generation unit 4 as necessary, and outputs the amplified signal from the speaker.

【0028】画像入力部6は、例えば、レンズ、CCD
(Charge Coupled Device)、A/D変換器等で構成さ
れ、ユーザの顔等を撮像して、その結果得られる顔画像
のディジタルデータ(画像データ)である顔画像情報
を、ユーザ感情情報更新部8に供給する。
The image input unit 6 includes, for example, a lens, a CCD,
(Charge Coupled Device), an A / D converter, etc., images a user's face and the like, and converts the resulting face image digital data (image data) of the face image into a user emotion information updating unit. 8

【0029】生理情報入力部7は、例えば、脈拍計、発
汗量や熱を測定するセンサ等で構成され、ユーザの脈拍
や、発汗量、熱等の生理的な情報を感知し、その結果得
られる生理情報を、ユーザ感情情報更新部8に供給す
る。
The physiological information input unit 7 comprises, for example, a pulse meter, a sensor for measuring the amount of sweat and heat, etc., and senses physiological information such as the user's pulse, amount of sweat and heat, and obtains the result. The supplied physiological information is supplied to the user emotion information updating unit 8.

【0030】ユーザ感情情報更新部8は、音声認識部2
からのユーザの音声の韻律情報や、対話管理部3からの
音声認識結果等に含まれる語句の概念情報、画像入力部
6からの顔画像情報、生理情報入力部7からの生理情報
に基づいて、ユーザの感情の状態を推定する。さらに、
ユーザ感情情報更新部8は、その推定の結果得られる感
情情報によって、ユーザ感情情報記録部9に保持されて
いる感情情報を更新する。
The user emotion information updating unit 8 includes the voice recognition unit 2
Based on the prosody information of the user's voice, the concept information of words and phrases included in the speech recognition results and the like from the dialog management unit 3, the face image information from the image input unit 6, and the physiological information from the physiological information input unit 7. Estimate the emotional state of the user. further,
The user emotion information updating unit 8 updates the emotion information stored in the user emotion information recording unit 9 with the emotion information obtained as a result of the estimation.

【0031】ユーザ感情情報記録部9は、ユーザの感情
としての、例えば、喜びや、怒り、驚き、悲しみ等の状
態を、所定の範囲の数値で表す感情情報を保持してい
る。
The user emotion information recording unit 9 holds emotion information that represents the user's emotions, such as joy, anger, surprise, sadness, and the like, in numerical values within a predetermined range.

【0032】次に、図2のフローチャートを参照して、
図1の対話システムの基本的な処理の流れについて説明
する。
Next, referring to the flowchart of FIG.
The basic processing flow of the dialog system of FIG. 1 will be described.

【0033】ユーザにより発話が行われると、音声入力
部1は、ステップS1において、その発話された音声に
対して音声入力処理を施し、その結果得られる音声信号
を、音声認識部2に出力する。即ち、音声入力部1は、
ユーザの音声を、電気信号としての音声信号に変換し、
その音声信号を、必要に応じて増幅して、音声認識部2
に供給する。
When the user speaks, the speech input unit 1 performs a speech input process on the spoken speech in step S 1, and outputs a speech signal obtained as a result to the speech recognition unit 2. . That is, the voice input unit 1
Convert the user's voice into a voice signal as an electrical signal,
The voice signal is amplified as needed, and the voice recognition unit 2
To supply.

【0034】音声認識部2は、ステップS2において、
音声入力部2からの音声信号に基づいて、ユーザの音声
を認識し、その音声認識結果を、対話管理部3に供給す
る。さらに、音声認識部2は、音声入力部2からの音声
信号から、ユーザの音声の韻律情報を抽出し、ユーザ感
情情報更新部8に供給する。
In step S2, the voice recognition unit 2
Based on the voice signal from the voice input unit 2, the voice of the user is recognized, and the voice recognition result is supplied to the dialog management unit 3. Further, the voice recognition unit 2 extracts the prosody information of the user's voice from the voice signal from the voice input unit 2 and supplies the information to the user emotion information updating unit 8.

【0035】その後、ステップS3に進み、ユーザ感情
情報記録部9に保持されている感情情報を更新する準備
を行う処理が行われる。
Thereafter, the process proceeds to step S3, and a process for preparing to update the emotion information stored in the user emotion information recording unit 9 is performed.

【0036】即ち、ステップS3では、対話管理部3
は、音声認識部2からのユーザの音声の音声認識結果等
に基づいて、感情情報を更新するのに用いる、上述の概
念情報を得る感情情報更新用対話管理処理を行い、その
概念情報を、ユーザ感情情報更新部8に供給する。さら
に、ステップS3では、画像入力部6は、ユーザの顔を
撮像して、顔画像情報を得る画像入力処理を行い、その
顔画像情報を、ユーザ感情情報更新部8に供給する。ま
た、ステップS3では、生理情報入力部7は、ユーザの
生理情報を得る生理情報入力処理を行い、その生理情報
を、ユーザ感情情報更新部8に供給する。
That is, in step S3, the dialogue management unit 3
Performs an emotion information updating dialogue management process for obtaining the above-mentioned concept information, which is used to update the emotion information, based on the speech recognition result of the user's voice from the speech recognition unit 2, and converts the concept information into The information is supplied to the user emotion information updating unit 8. Further, in step S3, the image input unit 6 performs an image input process of capturing the face of the user and obtaining face image information, and supplies the face image information to the user emotion information updating unit 8. In step S3, the physiological information input unit 7 performs a physiological information input process for obtaining physiological information of the user, and supplies the physiological information to the user emotion information updating unit 8.

【0037】ユーザ感情情報更新部8は、ステップS4
において、音声認識部2からのユーザの音声の韻律情報
や、対話管理部3からの概念情報、画像入力部6からの
顔画像情報、生理情報入力部7からの生理情報に基づい
て、ユーザの感情の状態を推定する。さらに、ステップ
S4では、ユーザ感情情報更新部8は、その推定の結果
得られる感情情報によって、ユーザ感情情報記録部9に
保持されている感情情報を更新する。
The user emotion information updating unit 8 determines in step S4
, Based on the prosody information of the user's voice from the voice recognition unit 2, the concept information from the dialogue management unit 3, the face image information from the image input unit 6, and the physiological information from the physiological information input unit 7, Estimate emotional state. Further, in step S4, the user emotion information updating unit 8 updates the emotion information stored in the user emotion information recording unit 9 with the emotion information obtained as a result of the estimation.

【0038】その後、ステップS5において、対話管理
部3は、ユーザ感情情報記録部9が保持(記憶)してい
る、ユーザの感情を表す感情情報を考慮して、音声認識
部2からの音声認識結果に対する応答等としての、ユー
ザに出力する出力文の内容を表す内容情報を生成する文
生成用対話管理処理を行い、その内容情報を、文生成部
4に供給する。
Thereafter, in step S5, the dialog management unit 3 considers the emotion information representing the emotion of the user, which is stored (stored) in the user emotion information recording unit 9, and performs the speech recognition from the speech recognition unit 2. A sentence generation dialogue management process for generating content information representing the content of an output sentence to be output to the user as a response to the result or the like is performed, and the content information is supplied to the sentence generation unit 4.

【0039】そして、ステップS6において、文生成部
4は、ユーザ感情情報記録部9が保持している感情情報
を考慮しながら、対話管理部3からの内容情報に対応す
るテキストの出力文を生成し(文生成処理を行い)、さ
らに、その出力文に対応する合成音の音声信号を生成し
て、音声出力部5に供給する。
In step S 6, the sentence generation unit 4 generates a text output sentence corresponding to the content information from the dialog management unit 3 while considering the emotion information held by the user emotion information recording unit 9. (Sentence generation processing is performed), and further, an audio signal of a synthesized sound corresponding to the output sentence is generated and supplied to the audio output unit 5.

【0040】音声出力部5は、ステップS7において、
文生成部4からの音声信号を増幅し、スピーカから出力
する音声出力処理を行い、処理を終了する。
The audio output unit 5 determines in step S7
The sound signal from the sentence generation unit 4 is amplified, sound output processing for outputting from the speaker is performed, and the processing ends.

【0041】なお、上述の場合には、対話システムにお
いて、ユーザが何らかの発話を行ったことをトリガとし
て、合成音の出力(以下、適宜、対話システムの発話と
もいう)が行われるから、その合成音は、ユーザの発話
に対する応答となるが、対話システムにおいては、ユー
ザの発話以外をトリガとして、発話を行うようにするこ
とも可能である。
In the above case, in the interactive system, the output of a synthesized sound (hereinafter, also referred to as an utterance of the interactive system as appropriate) is triggered by the fact that the user utters some utterance. The sound is a response to the utterance of the user, but in the interactive system, the utterance can be triggered by a trigger other than the utterance of the user.

【0042】即ち、対話システムにおいては、例えば、
所定の時間ごとに発話を行うようにすることが可能であ
る。また、例えば、画像入力部6において、ユーザの顔
画像が得られたとき(単に、顔画像が得られたときの
他、所定の表情の顔画像が得られたときも含む)や、生
理情報入力部7において、所定の生理情報が得られたと
きに、発話を行うようにすることも可能である。さら
に、例えば、ユーザ感情情報記録部9に保持された感情
情報が所定の値以上または以下になったときに、発話を
行うようにすることも可能である。これらの場合は、対
話システムが、ユーザに話しかけ、その応答をユーザが
返す形で、対話が行われることになる。
That is, in the interactive system, for example,
It is possible to make an utterance every predetermined time. Further, for example, when the image input unit 6 obtains a user's face image (including not only when a face image is obtained but also when a face image with a predetermined expression is obtained), or when physiological information is obtained. When predetermined physiological information is obtained in the input unit 7, it is also possible to make an utterance. Further, for example, when the emotion information stored in the user emotion information recording unit 9 becomes equal to or more than a predetermined value, it is possible to make an utterance. In these cases, the dialogue will take place in such a way that the dialogue system speaks to the user and the response is returned by the user.

【0043】次に、図3は、図1の音声認識部2の構成
例を示している。
Next, FIG. 3 shows an example of the configuration of the speech recognition section 2 in FIG.

【0044】音声入力部1からの音声信号は、AD(Ana
log Digtal)変換部11に供給されるようになってお
り、AD変換部11は、その音声信号を、アナログ信号
からディジタル信号に変換し、その結果得られる音声デ
ータを、特徴抽出部12に供給する。特徴抽出部12
は、AD変換部11からの音声データについて、適当な
フレームごとに音響処理を施すことで、例えば、スペク
トルや、線形予測係数、ケプストラム係数、線スペクト
ル対、MFCC(Mel Frequency Cepstrum Coefficient)
等の特徴パラメータを抽出し、マッチング部13に供給
する。
The audio signal from the audio input unit 1 is AD (Ana
(Log Digtal) conversion unit 11, and the AD conversion unit 11 converts the audio signal from an analog signal to a digital signal, and supplies the resulting audio data to the feature extraction unit 12. I do. Feature extraction unit 12
Performs audio processing on the audio data from the AD conversion unit 11 for each appropriate frame to obtain, for example, a spectrum, a linear prediction coefficient, a cepstrum coefficient, a line spectrum pair, and a MFCC (Mel Frequency Cepstrum Coefficient).
Are extracted and supplied to the matching unit 13.

【0045】また、特徴抽出部12は、音声データに音
響処理を施すことにより得られる、例えば、発話速度
や、ピッチ周波数、パワー等の韻律情報を、ユーザ感情
情報更新部8に供給する。なお、発話速度としては、例
えば、1フレームあたりのモーラ数等を用いることがで
きる。
The feature extracting unit 12 supplies the user emotion information updating unit 8 with prosody information, such as speech speed, pitch frequency, and power, obtained by performing audio processing on the audio data. As the utterance speed, for example, the number of mora per frame or the like can be used.

【0046】マッチング部13は、特徴抽出部12から
供給される特徴パラメータに基づき、音響モデルデータ
ベース14、辞書データベース15、および文法データ
ベース16を必要に応じて参照しながら、ユーザの音声
(入力音声)を認識する。
The matching section 13 refers to the acoustic model database 14, the dictionary database 15, and the grammar database 16 as needed based on the feature parameters supplied from the feature extracting section 12, and, if necessary, the user's voice (input voice). Recognize.

【0047】即ち、音響モデルデータベース14は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、HMM(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス15は、認識対象の各単語について、その発音に関す
る情報が記述された単語辞書を記憶している。文法デー
タベース16は、辞書データベース15の単語辞書に登
録されている各単語が、どのように連鎖する(つなが
る)かを記述した文法規則を記憶している。ここで、文
法規則としては、例えば、文脈自由文法(CFG)やH
PSG(Head-driven Phrase Structure Grammar)(主
辞駆動句構造文法)、統計的な単語連鎖確率(N−gr
am)などに基づく規則を用いることができる。
That is, the acoustic model database 14 stores acoustic models representing acoustic features such as individual phonemes and syllables in the language of the speech to be recognized. Here, as the acoustic model, for example, HMM (Hidden Mark
ov Model) can be used. The dictionary database 15 stores a word dictionary in which information about pronunciation is described for each word to be recognized. The grammar database 16 stores grammar rules that describe how words registered in the word dictionary of the dictionary database 15 are linked (connected). Here, the grammar rules include, for example, context-free grammar (CFG) and H
PSG (Head-driven Phrase Structure Grammar) (head-driven phrase structure grammar), statistical word chain probability (N-gr
am) or the like.

【0048】マッチング部13は、辞書データベース1
5の単語辞書を参照することにより、音響モデルデータ
ベース14に記憶されている音響モデルを接続すること
で、単語の音響モデル(単語モデル)を構成する。さら
に、マッチング部13は、幾つかの単語モデルを、文法
データベース16に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、HMM法等
によって、ユーザの音声を認識する。
[0048] The matching section 13 is a dictionary database 1
By connecting the acoustic models stored in the acoustic model database 14 by referring to the word dictionary of No. 5, an acoustic model (word model) of the word is formed. Further, the matching unit 13 connects several word models by referring to the grammar rules stored in the grammar database 16, and uses the word models connected in this manner, based on the feature parameters, for example, , HMM method, etc., to recognize the user's voice.

【0049】そして、マッチング部13による音声認識
結果としての音韻情報は、例えば、テキストやワードグ
ラフ等で、対話管理部3に出力される。
The phoneme information as a result of the speech recognition by the matching unit 13 is output to the dialog management unit 3 in the form of, for example, a text or a word graph.

【0050】次に、図4は、図1の対話管理部3の構成
例を示している。
Next, FIG. 4 shows an example of the configuration of the dialog management section 3 of FIG.

【0051】音声認識部2が出力するユーザの音声認識
結果は、言語処理部21に供給されるようになってお
り、言語処理部21は、シソーラスデータベース23
や、言語処理用データベース24、履歴データベース2
5を必要に応じて参照しながら、音声認識結果を処理
し、その音声認識結果が表す意味や概念を、対話処理部
22に供給する。
The speech recognition result of the user output from the speech recognition unit 2 is supplied to a language processing unit 21.
, Language processing database 24, history database 2
The speech recognition result is processed while referring to 5 as necessary, and the meaning and concept represented by the speech recognition result are supplied to the dialog processing unit 22.

【0052】即ち、シソーラスデータベース23には、
単語を、その概念によって階層構造に分類したシソーラ
スが記憶されており、言語処理部21は、このシソーラ
スを参照することにより、音声認識結果に含まれる単語
の概念を認識する。
That is, the thesaurus database 23 contains
A thesaurus in which words are classified into a hierarchical structure based on the concept is stored, and the language processing unit 21 recognizes the concept of the word included in the speech recognition result by referring to the thesaurus.

【0053】ここで、シソーラスとしては、例えば、国
立国語研究所によって発表されている分類語彙表等を用
いることができる。
Here, as the thesaurus, for example, a classification vocabulary table published by the National Institute for Japanese Language and the like can be used.

【0054】言語処理用データベース24には、各単語
の表記や必要な品詞情報などが記述された単語辞書と、
その単語辞書に記述された各単語の情報に基づいて、単
語連鎖に関する制約等が記述された構文/意味規則が記
憶されており、言語処理部21は、その単語辞書や構文
/意味規則に基づいて、そこに入力される音声認識結果
の形態素解析を行う。さらに、言語処理部21は、その
形態素解析結果に基づいて、音声認識結果の構文解析、
さらには、その意味内容の理解を行う。そして、言語処
理部21は、以上のようにして得られる音声認識結果を
構成する各単語の概念や、音声認識結果の意味内容の理
解の結果(以下、適宜、まとめて言語処理結果という)
を、対話処理部22に出力する。
The database 24 for language processing includes a word dictionary in which the notation of each word and necessary part-of-speech information are described.
Based on the information of each word described in the word dictionary, a syntax / semantic rule in which restrictions on word chains and the like are described is stored. The language processing unit 21 uses the word dictionary and the syntax / semantic rule based on the word dictionary and the syntax / semantic rule. Then, a morphological analysis of the speech recognition result input thereto is performed. Further, the language processing unit 21 analyzes the syntax of the speech recognition result based on the morphological analysis result,
In addition, understand the meaning. Then, the language processing unit 21 interprets the concept of each word constituting the speech recognition result obtained as described above and the result of understanding the meaning and content of the speech recognition result (hereinafter, collectively referred to as the language processing result as appropriate).
Is output to the interaction processing unit 22.

【0055】ここで、言語処理部21では、例えば、正
規文法や、文脈自由文法、HPSG、統計的な単語連鎖
確率を用いて、構文解析や意味内容の理解を行うことが
できる。
Here, the language processing section 21 can perform syntactic analysis and understanding of semantic contents using, for example, regular grammar, context-free grammar, HPSG, and statistical word chain probability.

【0056】また、言語処理部21は、必要に応じて、
履歴データベース25も参照しながら処理を行う。即
ち、履歴データベース25には、ユーザが発話した音声
の音声認識結果と、その発話に対して、対話システムが
出力した応答との組や、あるいは、対話システムの出力
と、その出力に対して、ユーザが発話した音声の音声認
識結果との組等の形で、ユーザと対話システムとの間の
対話の履歴(対話履歴)が記憶されるようになってお
り、言語処理部21は、対話履歴を参照することで、音
声認識結果における主語等の省略や、照応表現等の解析
を行い、これにより、例えば、ユーザの音声認識結果に
含まれる代名詞が、具体的に何を意味しているのか等を
認識するようになっている。
Further, the language processing unit 21 may, if necessary,
The processing is performed with reference to the history database 25. That is, in the history database 25, a set of a speech recognition result of a speech uttered by the user and a response output by the dialogue system with respect to the utterance, or an output of the dialogue system and an output thereof, The history of the conversation between the user and the conversation system (conversation history) is stored in the form of a combination of the speech uttered by the user with the speech recognition result, and the language processing unit 21 stores the conversation history. , Omission of the subject, etc. in the speech recognition result, analysis of the anaphoric expression, etc., and thereby, for example, what the pronoun included in the user's speech recognition result specifically means And so on.

【0057】なお、シソーラスデータベース23および
言語処理用データベース24に記憶されている情報は、
基本的には更新されないから、いわば静的な情報という
ことができる。これに対して、履歴データベース25に
記憶されている対話履歴は、ユーザにより発話が行わ
れ、あるいは、対話システムが、ユーザに対して何らか
の出力を行うと、後述する対話処理部22によって更新
されていくので、いわば動的な情報ということができ
る。
The information stored in the thesaurus database 23 and the language processing database 24 is as follows.
Basically, it is not updated, so it can be called static information. On the other hand, the dialogue history stored in the history database 25 is updated by the dialogue processing unit 22 described later when the user utters or the dialogue system performs some output to the user. As it goes, it can be called dynamic information.

【0058】上述したように、言語処理部21は、シソ
ーラスデータベース23を参照することで、音声認識結
果を構成する各単語(語彙)の概念を抽出するが、その
概念が、感情を表すものであるとき、その感情を表す概
念を、概念情報として、ユーザ感情情報更新部8に供給
する。即ち、言語処理部21は、シソーラス上におい
て、例えば、「喜び」や、「怒り」、「驚き」、「悲し
み」、「苦しさ」、「恥ずかしさ」、「楽しさ」等の、
感情を表す概念に属する単語が、音声認識結果に含まれ
るとき、その概念を表す概念情報を、ユーザ感情情報更
新部8に供給する。
As described above, the language processing unit 21 extracts the concept of each word (vocabulary) constituting the speech recognition result by referring to the thesaurus database 23, and the concept represents emotion. At some point, a concept representing the emotion is supplied to the user emotion information updating unit 8 as concept information. That is, on the thesaurus, the language processing unit 21 outputs, for example, "joy,""anger,""surprise,""sadness,""suffering,""embarrassment,""fun," and the like.
When a word belonging to a concept representing an emotion is included in the speech recognition result, concept information representing the concept is supplied to the user emotion information updating unit 8.

【0059】なお、言語処理部21は、音声認識結果に
含まれる単語の概念情報の他、対話履歴として記憶され
ている対話システムの出力に含まれる単語の概念情報
も、必要に応じて抽出し、ユーザ感情情報更新部8に供
給するようになっている。
The language processing unit 21 extracts not only the concept information of the words included in the speech recognition result but also the concept information of the words included in the output of the dialog system stored as the dialog history as necessary. , And to the user emotion information updating unit 8.

【0060】即ち、ユーザ感情情報更新部8は、上述の
ように、ユーザの感情の状態を推定するが、その推定に
あたっては、音声認識結果に含まれる単語の概念情報は
勿論であるが、対話システムの出力に含まれる単語の概
念情報も役に立つ場合がある。具体的には、例えば、対
話システムにおいて、ユーザを愚弄するような発話を行
った場合には、ユーザが怒ることが予想される。このた
め、言語処理部21は、対話履歴として記憶されている
対話システムの出力に含まれる単語の概念情報も、シソ
ーラスを参照することで抽出し、音声認識結果に含まれ
る単語の概念情報とともに、ユーザ感情情報更新部8に
供給するようになっている。
That is, the user emotion information updating section 8 estimates the emotion state of the user as described above. In the estimation, not only the concept information of the words included in the speech recognition result but also the dialogue information is used. Word conceptual information in the output of the system may also be useful. Specifically, for example, in a dialogue system, when an utterance that fools the user is performed, the user is expected to be angry. For this reason, the language processing unit 21 extracts the concept information of the words included in the output of the dialog system stored as the dialog history by referring to the thesaurus, and extracts the concept information of the words included in the speech recognition result, The information is supplied to the user emotion information updating unit 8.

【0061】対話処理部22は、言語処理部21からの
言語処理結果、およびユーザ感情情報記録部9に保持さ
れている、ユーザの感情の状態を表す感情情報に基づ
き、履歴データベース25やシナリオデータベース26
を参照しながら、ユーザの音声認識結果に対する応答等
としての、ユーザに出力する出力文の内容を生成し、そ
の内容を表す内容情報を、文生成部4に供給する。
The dialogue processing unit 22 is based on the language processing result from the language processing unit 21 and the emotion information indicating the emotional state of the user, which is stored in the user emotion information recording unit 9, based on the history database 25 and the scenario database. 26
, The contents of an output sentence to be output to the user, such as a response to the user's voice recognition result, and the like, and the content information representing the contents is supplied to the sentence generation unit 4.

【0062】即ち、シナリオデータベース26は、例え
ば、ユーザとの対話パターンの規則としてのシナリオ
を、タスク(話題)ごとに記憶しており、対話処理部2
2は、基本的には、シナリオデータベース26に記憶さ
れているシナリオの中から、言語処理部21からの言語
処理結果に基づいて、ユーザとの対話に用いるものを決
定し、そのシナリオにしたがって、内容情報を生成す
る。
That is, the scenario database 26 stores, for example, a scenario as a rule of an interaction pattern with the user for each task (topic).
2 basically determines, from among the scenarios stored in the scenario database 26, those to be used for dialogue with the user based on the language processing result from the language processing unit 21, and according to the scenario, Generate content information.

【0063】具体的には、例えば、ビデオ予約等の目的
志向型のタスクについては、例えば、次のようなシナリ
オが記憶されている。
More specifically, for the purpose-oriented task such as video reservation, for example, the following scenario is stored.

【0064】 (action(Question(date,start_time,end_time,channel))) (date ???) #日付 (start_time ???)#開始時刻 (end_time ???) #終了時刻 (channel ???) #チャンネル ・・・(1)(Action (Question (date, start_time, end_time, channel))) (date ???) #date (start_time ???) # start time (end_time ???) #end time (channel ???) #Channel ・ ・ ・ (1)

【0065】ここで、(1)のシナリオによれば、言語
処理部21による言語処理結果が、録画の要求を表すも
のである場合には、対話処理部22において、録画を行
う日付、録画を開始する時刻、録画を終了する時刻、録
画を行うチャンネルを、そのような順番で質問する旨の
内容情報が生成される。
Here, according to the scenario (1), if the result of the language processing by the language processing unit 21 indicates a request for recording, the interactive processing unit 22 sets the date of recording and the recording date. Content information is generated to ask the start time, the end time of the recording, and the channel to be recorded in such an order.

【0066】また、例えば、無目的型の対話(いわゆる
雑談)を行うためのシナリオとしては、次のようなもの
が記憶されている。
For example, the following is stored as a scenario for performing a purposeless conversation (so-called chat).

【0067】 If X exist then speak (Y) # X:キーワード, Y:応答文 (お金 何が欲しいの) # (X Y) (食べたい お腹がすいているの) ・・・(2)If X exist then speak (Y) # X: keyword, Y: response sentence (money what do you want) # (X Y) (you want to eat hungry) ... (2)

【0068】ここで、(2)のシナリオによれば、言語
処理部21による言語処理結果に、「お金」というキー
ワードが含まれていれば、対話処理部22において、
「何が欲しいの」という、質問を行う旨の内容情報が生
成される。また、言語処理部21による言語処理結果
に、「食べたい」というキーワードが含まれていれば、
対話処理部22において、「お腹がすいているの」とい
う、質問を行う旨の内容情報が生成される。
Here, according to the scenario (2), if the keyword “money” is included in the language processing result by the language processing unit 21,
Content information for asking a question, “What do you want?” Is generated. If the keyword “I want to eat” is included in the language processing result by the language processing unit 21,
In the interactive processing unit 22, content information indicating that a question is to be made, such as "I am hungry," is generated.

【0069】また、対話処理部22は、例えば、言語処
理部21からの言語処理結果だけでなく、ユーザ感情情
報記録部9に保持されている感情情報にも基づいて、使
用するシナリオを決定する。即ち、例えば、言語処理部
21からの言語処理結果が、ユーザが挨拶をしたことを
表している場合において、感情情報が、「楽しさ」や
「うれしさ」が通常レベルであることを表しているとき
には、あるいは、「怒り」や「いらつき」が大であるこ
とを表しているときには、対話処理部22は、ユーザに
「こんにちは」と、単に挨拶を返すシナリオの使用を決
定する。また、例えば、例えば、言語処理部21からの
言語処理結果が、ユーザが挨拶をしたことを表している
場合において、感情情報が、「楽しさ」や「うれしさ」
が大であることを表しているときには、対話処理部22
は、ユーザに「何か良いことがあったのですか?」と問
い合わせるシナリオの使用を決定する。
The dialogue processing unit 22 determines a scenario to be used, for example, based on not only the language processing result from the language processing unit 21 but also the emotion information stored in the user emotion information recording unit 9. . That is, for example, when the language processing result from the language processing unit 21 indicates that the user has greeted, the emotion information indicates that “fun” or “joy” is at the normal level. when there is or when it indicates that "anger" and "irritability" of the character is large, dialogue processing unit 22, a "Hello" to the user, simply determine the use of scenarios that return greeting. Further, for example, when the language processing result from the language processing unit 21 indicates that the user has made a greeting, the emotion information may be “fun” or “joy”.
Is large, the dialogue processing unit 22
Decides to use a scenario that asks the user "What's good?"

【0070】なお、シナリオデータベース26には、シ
ナリオの他、ユーザと対話を行うにあたっての一般的な
知識も記憶されている。即ち、シナリオデータベース2
6には、例えば、言語処理部21による言語処理結果
が、ユーザが挨拶をしたことを表している場合には、そ
の挨拶に対する挨拶を行うことを指示する情報が、一般
的な知識として記憶されている。また、シナリオデータ
ベース26には、例えば、雑談時に使用する話題(トピ
ックス)なども、一般的な知識として記憶されている。
The scenario database 26 also stores general knowledge for interacting with the user in addition to the scenario. That is, scenario database 2
For example, in the case where the result of the language processing by the language processing unit 21 indicates that the user has made a greeting, information indicating that a greeting is given to the greeting is stored as general knowledge. ing. Further, in the scenario database 26, for example, topics (topics) used at the time of chatting are also stored as general knowledge.

【0071】さらに、対話処理部22は、言語処理部2
1からの言語処理結果や、自身が生成した内容情報、さ
らには、その内容情報を生成するのに用いたシナリオに
関する情報等を、対話履歴として、履歴データベース2
5に記憶させる。
Further, the dialogue processing unit 22 includes the language processing unit 2
The language processing result from the language database 1 and the content information generated by itself, as well as information on the scenario used to generate the content information, etc.
5 is stored.

【0072】また、対話処理部22は、必要に応じて、
対話履歴を参照し、これにより、例えば、音声認識結果
や、その意味の理解に誤りがあったことが、後から判明
した場合等に対処するようにもなっている。
Further, the dialogue processing unit 22 may, if necessary,
By referring to the conversation history, for example, it is possible to deal with a case where it is later found that there is an error in the speech recognition result or in understanding the meaning thereof, for example.

【0073】次に、図5は、図1の文生成部4の構成例
を示している。
Next, FIG. 5 shows a configuration example of the sentence generation unit 4 of FIG.

【0074】テキスト文生成部31には、対話管理部3
から内容情報が供給されるようになっており、テキスト
文生成部31は、必要に応じて、辞書データベース34
および生成文法データベース35を参照しながら、内容
情報に対応する(即した)、テキストの出力文を生成す
る。
The text sentence generation unit 31 includes the dialogue management unit 3
The text sentence generating unit 31 supplies the content information from the dictionary database 34 as necessary.
While referring to the generated grammar database 35, a text output sentence corresponding to (conforming to) the content information is generated.

【0075】即ち、辞書データベース34には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、生成用文法データベース3
5には、出力文の例のテンプレート、さらには、出力文
を生成するのに必要な単語の活用規則や、語順の制約情
報等の生成用文法規則が記憶されている。そして、テキ
スト文生成部31は、内容情報に対応するテンプレート
を選択し、さらに、必要な単語を単語辞書から選択す
る。さらに、テキスト文生成部31は、生成用文法規則
を参照して、語尾等を適切に変えながら、単語をテンプ
レートにあてはめることで、内容情報に対応する出力文
を生成する。
That is, the dictionary database 34 stores a word dictionary in which part-of-speech information of each word, and information such as readings and accents are described.
Reference numeral 5 stores a template of an example of an output sentence, as well as a rule for utilizing words necessary for generating the output sentence and a grammatical rule for generation such as constraint information on word order. Then, the text sentence generation unit 31 selects a template corresponding to the content information, and further selects a necessary word from the word dictionary. Further, the text sentence generation unit 31 refers to the grammar rules for generation and applies words to the template while appropriately changing the ending or the like, thereby generating an output sentence corresponding to the content information.

【0076】また、テキスト文生成部31には、ユーザ
感情情報記録部9に保持されている感情情報も供給され
るようになっており、テキスト文生成部31は、その感
情情報に基づいて、出力文の表現を変更する。即ち、生
成用文法データベース35には、同一内容のテンプレー
トで、表現の異なるものが記憶されており、テキスト文
生成部31は、そのような同一内容のテンプレートか
ら、所定の表現のものを、感情情報に基づいて選択す
る。また、テキスト文生成部31は、テンプレートにあ
てはめる単語についても、所定の表現のものを、感情情
報に基づいて選択する。さらに、テキスト文生成部31
は、語尾等の変更も、感情情報に基づいて行う。
The text sentence generation unit 31 is also supplied with the emotion information held in the user emotion information recording unit 9. Change the expression of the output statement. That is, the generation grammar database 35 stores templates having the same content but different expressions, and the text sentence generation unit 31 converts the template having the same content from the template having the same content into an emotional expression. Make an informed choice. In addition, the text sentence generation unit 31 also selects a word to be applied to the template with a predetermined expression based on the emotion information. Further, the text sentence generation unit 31
Also changes the ending and the like based on the emotion information.

【0077】これにより、例えば、感情情報が、「怒
り」や「悲しみ」のレベルが大であることを表している
ときには、テキスト生成部31において、比較的丁寧な
表現の出力文が生成される。また、例えば、感情情報
が、「楽しさ」や「喜び」のレベルが大であることを表
しているときには、テキスト生成部31において、いわ
ゆるラフな表現の出力文が生成される。
Thus, for example, when the emotion information indicates that the level of “anger” or “sadness” is high, the text generator 31 generates an output sentence of a relatively polite expression. . Further, for example, when the emotion information indicates that the level of “fun” or “joy” is high, the text generating unit 31 generates a so-called rough output sentence.

【0078】なお、出力文の生成の方法としては、テン
プレートを用いる方法の他、例えば、格構造に基づく方
法等を採用することも可能である。
As a method of generating an output sentence, besides the method using a template, for example, a method based on a case structure can be adopted.

【0079】テキスト文生成部31は、出力文を生成す
ると、その形態素解析や構文解析等を行い、後段の規則
合成部32で行われる規則音声合成に必要な情報を抽出
する。ここで、規則音声合成に必要な情報としては、例
えば、ポーズの位置や、アクセントおよびイントネーシ
ョンを制御するための情報その他の韻律情報や、各単語
の発音等の音韻情報などがある。
When the output sentence is generated, the text sentence generation unit 31 performs morphological analysis and syntax analysis on the output sentence, and extracts information necessary for the rule speech synthesis performed by the rule synthesis unit 32 at the subsequent stage. Here, the information necessary for the rule speech synthesis includes, for example, information for controlling the position of a pause, accent and intonation, other prosody information, and phoneme information such as pronunciation of each word.

【0080】テキスト文生成部31で得られた情報は、
規則合成部32に供給され、規則合成部32では、音素
片データベース36を用いて、テキスト文生成部31に
おいて生成された出力文に対応する合成音の音声データ
(ディジタルデータ)が生成される。
The information obtained by the text sentence generator 31 is
The text data is supplied to the rule synthesizing unit 32, and the rule synthesizing unit 32 generates speech data (digital data) of synthesized speech corresponding to the output sentence generated by the text sentence generating unit 31 using the phoneme segment database 36.

【0081】即ち、音素片データベース36には、例え
ば、CV(Consonant, Vowel)や、VCV、CVC等の形
で音素片データが記憶されており、規則合成部32は、
テキスト文生成部31からの情報に基づいて、必要な音
素片データを接続し、さらに、ポーズ、アクセント、イ
ントネーション等を適切に付加することで、テキスト文
生成部31で生成された出力文に対応する合成音の音声
データを生成する。
That is, the speech segment database 36 stores speech segment data in the form of, for example, CV (Consonant, Vowel), VCV, CVC, and the like.
Based on the information from the text sentence generation unit 31, the necessary sentence segment data is connected, and further, pauses, accents, intonations, etc. are appropriately added to correspond to the output sentence generated by the text sentence generation unit 31. The voice data of the synthesized sound to be generated is generated.

【0082】また、規則合成部32には、ユーザ感情情
報記録部9に保持されている感情情報が供給されるよう
になっており、規則合成部32は、感情情報に基づい
て、接続された音素片データに付加するポーズや、アク
セント、イントネーション、さらには、発話速度、ピッ
チ周波数等の韻律情報を制御する。即ち、これにより、
規則合成部32では、例えば、感情情報が、ユーザが興
奮していることを表しているときには、ゆっくりとし
た、落ち着いた調子の合成音の音声データが生成され
る。また、例えば、感情情報が、ユーザが楽しそうであ
ることを表しているときには、規則合成部32では、や
はり、楽しそうな調子の合成音の音声データが生成され
る。
The rule synthesizing unit 32 is supplied with the emotion information stored in the user emotion information recording unit 9, and the rule synthesizing unit 32 is connected based on the emotion information. It controls pause, accent, intonation, and prosody information such as utterance speed and pitch frequency to be added to the phoneme segment data. That is,
In the rule synthesizing unit 32, for example, when the emotion information indicates that the user is excited, voice data of a synthesized sound with a slow and calm tone is generated. Further, for example, when the emotion information indicates that the user is likely to be happy, the rule synthesizing unit 32 also generates speech data of a synthesized sound having a fun tone.

【0083】なお、感情と音声との関係については、例
えば、前川、「音声によるパラ言語情報の伝達;言語学
の立場から」、日本音響学会平成9年度秋季研究発表会
講演論文集1−3−10、pp.381-384、平成9年9月等
に、その詳細が記載されている。
The relationship between emotions and voices is described in, for example, Maekawa, "Transmission of Paralinguistic Information by Voice; From the Perspective of Linguistics", Proceedings of the Acoustical Society of Japan 1997 Fall Meeting 1-3. -10, pp. 381-384, September 1997, etc., the details are described.

【0084】規則合成部32で得られた合成音の音声デ
ータは、DA(Digital Analog)変換部33に供給され、
そこで、アナログ信号としての音声信号に変換される。
この音声信号は、音声出力部5に供給され、これによ
り、テキスト文生成部31で生成された出力文に対応す
る合成音が出力される。
The sound data of the synthesized sound obtained by the rule synthesizing unit 32 is supplied to a DA (Digital Analog) converting unit 33,
Then, it is converted into an audio signal as an analog signal.
This audio signal is supplied to the audio output unit 5, whereby a synthesized sound corresponding to the output sentence generated by the text sentence generation unit 31 is output.

【0085】次に、図6は、図1のユーザ感情情報更新
部8の構成例を示している。
Next, FIG. 6 shows an example of the configuration of the user emotion information updating unit 8 of FIG.

【0086】音声認識部2が出力する韻律情報は韻律情
報処理部41に、対話管理部3が出力する概念情報は概
念情報処理部42に、画像入力部6が出力する顔画像情
報は画像情報処理部43に、生理情報入力部7が出力す
る生理情報は生理情報処理部44に、それぞれ供給され
るようになっている。
The prosody information output by the voice recognition unit 2 is output to the prosody information processing unit 41, the concept information output by the dialogue management unit 3 is output to the concept information processing unit 42, and the face image information output by the image input unit 6 is output by the image information The physiological information output from the physiological information input unit 7 to the processing unit 43 is supplied to the physiological information processing unit 44.

【0087】韻律情報処理部41は、そこに供給される
韻律情報を処理することにより、ユーザの感情を推定
し、その推定結果としての感情情報を、更新処理部45
に出力する。
The prosody information processing section 41 estimates the user's emotion by processing the prosody information supplied thereto, and outputs the emotion information as the estimation result to the update processing section 45.
Output to

【0088】なお、ユーザの音声の韻律情報から、その
ユーザの感情を推定する方法としては、例えば、特開平
10−55194号公報に記載されているもの等を用い
ることが可能である。
As a method for estimating the emotion of the user from the prosodic information of the voice of the user, for example, a method described in Japanese Patent Application Laid-Open No. H10-55194 can be used.

【0089】概念情報処理部42は、そこに供給される
概念情報を処理することにより、ユーザの感情を推定
し、その推定結果としての感情情報を、更新処理部45
に出力する。即ち、概念情報処理部42は、概念情報に
基づき、「喜び」や「怒り」等といった各感情を表す概
念に属する単語が、ユーザと対話システムとの対話にお
いて出現した出現頻度をカウントする。そして、概念情
報処理部42は、その出現頻度に基づいて、ユーザの感
情を推定し、その推定結果としての感情情報を、更新処
理部45に出力する。
The concept information processing section 42 estimates the user's emotion by processing the concept information supplied thereto, and outputs the emotion information as the estimation result to the update processing section 45.
Output to That is, the concept information processing unit 42 counts, based on the concept information, the frequency of occurrence of words belonging to concepts representing respective emotions such as “joy” and “anger” in a dialog between the user and the dialog system. Then, concept information processing section 42 estimates the emotion of the user based on the appearance frequency, and outputs emotion information as the estimation result to update processing section 45.

【0090】画像情報処理部43は、そこに供給される
顔画像情報を処理することにより、ユーザの感情を推定
し、その推定結果としての感情情報を、更新処理部45
に出力する。
The image information processing section 43 estimates the emotion of the user by processing the face image information supplied thereto, and sends the emotion information as the estimation result to the update processing section 45.
Output to

【0091】即ち、図7は、図6の画像情報処理部43
の構成例を示している。
FIG. 7 shows the image information processing section 43 of FIG.
Is shown.

【0092】顔画像情報は、特徴抽出部51に供給さ
れ、特徴抽出部51は、その顔画像情報の特徴量を抽出
する。即ち、特徴抽出部51は、例えば、顔画像情報を
ウェーブレット(Wavelet)変換し、空間周波数成分を表
す係数をコンポーネントとする特徴ベクトルを得て、ベ
クトル量子化部52に供給する。
[0092] The face image information is supplied to the feature extraction unit 51, and the feature extraction unit 51 extracts the feature amount of the face image information. That is, the feature extraction unit 51 performs, for example, a wavelet (Wavelet) transform on the face image information, obtains a feature vector having a component representing a spatial frequency component as a component, and supplies this to the vector quantization unit 52.

【0093】ベクトル量子化部52は、コードブックデ
ータベース54に記憶されたコードブックにしたがっ
て、特徴抽出部51からの特徴ベクトルをベクトル量子
化し、これにより、1次元のシンボル(列)を得る。
The vector quantization unit 52 performs vector quantization on the feature vector from the feature extraction unit 51 according to the codebook stored in the codebook database 54, thereby obtaining one-dimensional symbols (columns).

【0094】即ち、コードブックデータベース54に
は、喜んでいる状態や、怒っている状態、驚いている状
態、悲しんでいる状態等の、各感情の状態における顔の
画像を用いて学習を行うことにより得られたコードブッ
クが記憶されている。なお、ここでは、量子化精度を高
めるために、例えば、喜び用コードブックや怒り用コー
ドブックのように、各感情ごとのコードブックが作成さ
れて記憶されている。
That is, learning is performed in the code book database 54 by using face images in each emotional state, such as a happy state, an angry state, a surprised state, or a sad state. Is stored. Here, in order to increase the quantization accuracy, for example, a codebook for each emotion, such as a joy codebook or an anger codebook, is created and stored.

【0095】そして、ベクトル量子化部52は、コード
ブックデータベース54に記憶された各感情ごとのコー
ドブックにしたがって、特徴抽出部51からの特徴ベク
トルをベクトル量子化し、シンボル(コードブックのコ
ードベクトルに割り当てられたコード)を得て、マッチ
ング部53に出力する。従って、マッチング部53に
は、各感情ごとのベクトル量子化結果としてのシンボル
が供給される。
The vector quantization unit 52 vector-quantizes the feature vector from the feature extraction unit 51 according to the codebook for each emotion stored in the codebook database 54, and converts the symbol (the codebook of the codebook into a codebook). The assigned code is obtained and output to the matching unit 53. Therefore, the matching section 53 is supplied with a symbol as a vector quantization result for each emotion.

【0096】マッチング部53は、ベクトル量子化部5
2からのシンボルを用い、HMMデータベース55を参
照して、顔画像情報が、例えば、喜んでいる状態、怒っ
ている状態、驚いている状態、悲しんでいる状態等のう
ちのいずれの感情の状態における顔のものであるかのマ
ッチングを行う。
The matching unit 53 includes a vector quantization unit 5
Using the symbol from No. 2 and referring to the HMM database 55, the face image information is, for example, any of emotional states such as a happy state, an angry state, a surprised state, a sad state, and the like. Is performed to determine whether or not the face is a face.

【0097】即ち、HMMデータベース55には、喜ん
でいる状態や、怒っている状態、驚いている状態、悲し
んでいる状態等の、各感情の状態における顔の画像を用
いて学習を行うことにより得られた、各感情における顔
についてのモデル(HMM)が記憶されている。
That is, learning is performed in the HMM database 55 by using a face image in each emotional state such as a happy state, an angry state, a surprised state, or a sad state. The obtained model (HMM) for the face in each emotion is stored.

【0098】そして、マッチング部53は、ベクトル量
子化部52から得られるシンボル系列が観測される確率
が最も高いモデルを、ビタビ法により求める。さらに、
マッチング部53は、そのモデルに対応する感情を、ユ
ーザの感情として推定し、その推定結果としての感情情
報を、更新処理部45に出力する。
Then, matching section 53 obtains a model having the highest probability of observing the symbol sequence obtained from vector quantization section 52 by the Viterbi method. further,
The matching unit 53 estimates the emotion corresponding to the model as the user's emotion, and outputs the emotion information as the estimation result to the update processing unit 45.

【0099】ここで、マッチング部53において、ベク
トル量子化部52から得られるシンボル系列が観測され
る確率の計算は、各感情ごとに行われる。即ち、例え
ば、喜び用コードブックを用いてベクトル量子化を行う
ことにより得られたシンボル系列が観測される確率の計
算は、喜んでいる状態の顔の画像を用いて学習が行われ
たHMM(喜び用HMM)を用いて行われる。また、例
えば、怒り用コードブックを用いてベクトル量子化を行
うことにより得られたシンボル系列が観測される確率の
計算は、怒っている状態の顔の画像を用いて学習が行わ
れたHMM(怒り用HMM)を用いて行われる。
Here, the matching section 53 calculates the probability of observing the symbol sequence obtained from the vector quantization section 52 for each emotion. That is, for example, the calculation of the probability of observing the symbol sequence obtained by performing vector quantization using the joy codebook is performed by using an HMM (learned using an image of a happy face). HMM for pleasure. Further, for example, the calculation of the probability of observing a symbol sequence obtained by performing vector quantization using an anger codebook is performed by using an HMM (learned using an angry face image). This is performed using an anger HMM).

【0100】なお、上述のようにして、顔画像情報か
ら、感情を推定する方法については、例えば、坂口、大
谷、岸野、「隠れマルコフモデルによる顔動画像からの
表情認識」、テレビジョン学会誌、VOL.49, no.8, pp.1
060-1067, 1995年8月等に、その詳細が記載されてい
る。
As described above, methods for estimating emotions from face image information are described in, for example, Sakaguchi, Otani, Kishino, “Expression Recognition from Facial Moving Image Using Hidden Markov Model”, Journal of the Institute of Television Engineers of Japan. , VOL.49, no.8, pp.1
060-1067, August 1995, etc., the details are described.

【0101】また、顔画像情報から、感情を推定する方
法としては、その他、例えば、坂口、森島、「空間周波
数情報に基づく基本表情の実時間認識」、第2回知能情
報メディアシンポジウム論文集,pp.75-82,1996年
12月等に記載されている方法を採用することも可能で
ある。
Other methods for estimating emotions from face image information include, for example, Sakaguchi and Morishima, “Real-time recognition of basic facial expressions based on spatial frequency information”, Proceedings of the 2nd Intelligent Information Media Symposium, pp. 75-82, December 1996, etc. can also be used.

【0102】図6に戻り、生理情報処理部44は、そこ
に供給される生理情報を処理することにより、ユーザの
感情を推定し、その推定結果としての感情情報を、更新
処理部45に出力する。ここで、生理情報から、ユーザ
の感情を推定する方法としては、例えば、各感情と、脈
拍数や発汗量等の生理情報との相関を表す関数を、あら
かじめ統計的に求めておき、その関数を用いて行う方法
等がある。
Returning to FIG. 6, the physiological information processing section 44 estimates the emotion of the user by processing the physiological information supplied thereto, and outputs the emotion information as the estimation result to the update processing section 45. I do. Here, as a method of estimating the emotion of the user from the physiological information, for example, a function representing a correlation between each emotion and physiological information such as a pulse rate and a sweating amount is statistically obtained in advance, and the function is calculated. And the like.

【0103】更新処理部45は、韻律情報処理部41、
概念情報処理部42、画像情報処理部43、および生理
情報処理部44からの感情情報を総合的に用いて、ユー
ザ感情情報記録部9に保持されている感情情報を更新す
る最終的な更新値を求め、その更新値によって、ユーザ
感情情報記録部9の感情情報を更新する。即ち、更新処
理部45は、例えば、韻律情報処理部41、概念情報処
理部42、画像情報処理部43、生理情報処理部44そ
れぞれからの、各感情に対応する感情情報を重み付け加
算して正規化することで、各感情に対応する最終的な感
情情報を算出する。そして、更新処理部45は、この最
終的な感情情報によって、ユーザ感情情報記録部9の感
情情報を更新する。
The update processing unit 45 includes a prosody information processing unit 41,
A final update value for updating the emotion information stored in the user emotion information recording unit 9 by comprehensively using the emotion information from the concept information processing unit 42, the image information processing unit 43, and the physiological information processing unit 44. And updates the emotion information in the user emotion information recording unit 9 with the updated value. That is, the update processing unit 45 weights and adds emotion information corresponding to each emotion from each of the prosody information processing unit 41, the concept information processing unit 42, the image information processing unit 43, and the physiological information processing unit 44, and performs normalization. Then, final emotion information corresponding to each emotion is calculated. Then, the update processing unit 45 updates the emotion information of the user emotion information recording unit 9 with the final emotion information.

【0104】ここで、図8は、ユーザ感情情報記録部9
が保持している感情情報を示している。各感情に対応す
る感情情報は、その感情の度合いを、例えば、0乃至1
の範囲の実数で表すもので、値が大きいほど、その感情
が強い(値が小さいほど、その感情が弱い)ことを示
す。更新処理部45では、このような感情情報としての
値が、各感情ごとに更新される。
Here, FIG. 8 shows the user emotion information recording section 9.
Indicates the emotion information held by. The emotion information corresponding to each emotion indicates the degree of the emotion, for example, from 0 to 1.
The larger the value, the stronger the emotion (the smaller the value, the weaker the emotion). In the update processing unit 45, such a value as emotion information is updated for each emotion.

【0105】次に、図9のフローチャートを参照して、
図6のユーザ感情情報更新部8の処理(感情情報更新処
理)について説明する。
Next, referring to the flowchart of FIG.
The processing (emotion information update processing) of the user emotion information update unit 8 in FIG. 6 will be described.

【0106】まず最初に、ステップS11において、韻
律情報処理部41、概念情報処理部42、画像情報処理
部43、および生理情報処理部44は、上述したように
して、ユーザの感情を推定し、その推定結果としての感
情情報を、更新処理部45に出力する。
First, in step S11, the prosody information processing unit 41, the concept information processing unit 42, the image information processing unit 43, and the physiological information processing unit 44 estimate the user's emotion as described above. The emotion information as the estimation result is output to the update processing unit 45.

【0107】更新処理部45は、ステップS12におい
て、韻律情報処理部41、概念情報処理部42、画像情
報処理部43、および生理情報処理部44からの感情情
報を総合的に用いて、ユーザ感情情報記録部9に保持さ
れている感情情報を更新する最終的な更新値を求め、ス
テップS13に進み、その更新値によって、ユーザ感情
情報記録部9の感情情報を更新して、処理を終了する。
In step S12, the update processing unit 45 comprehensively uses the emotion information from the prosody information processing unit 41, the concept information processing unit 42, the image information processing unit 43, and the physiological information processing unit 44, and A final update value for updating the emotion information stored in the information recording unit 9 is obtained, the process proceeds to step S13, the emotion information of the user emotion information recording unit 9 is updated with the updated value, and the process ends. .

【0108】次に、上述した一連の処理は、専用のハー
ドウェアにより行うこともできるし、ソフトウェアによ
り行うこともできる。一連の処理をソフトウェアによっ
て行う場合には、そのソフトウェアを構成するプログラ
ムが、汎用のコンピュータ等にインストールされる。
Next, the above-mentioned series of processing can be performed by dedicated hardware or software. When a series of processes is performed by software, a program constituting the software is installed in a general-purpose computer or the like.

【0109】そこで、図10は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
FIG. 10 shows a configuration example of an embodiment of a computer in which a program for executing the above-described series of processing is installed.

【0110】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
The program is stored in a hard disk 105 or a ROM 1 as a recording medium built in the computer.
03 can be recorded in advance.

【0111】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory),M
O(Magneto optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体111に、一時的あるいは永続的に格納(記
録)しておくことができる。このようなリムーバブル記
録媒体111は、いわゆるパッケージソフトウエアとし
て提供することができる。
Alternatively, the program may be a floppy disk, CD-ROM (Compact Disc Read Only Memory), M
O (Magneto optical) disc, DVD (Digital Versatile)
Disc), a magnetic disk, a semiconductor memory, or another such removable storage medium 111, which can be temporarily or permanently stored (recorded). Such a removable recording medium 111 can be provided as so-called package software.

【0112】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
The program may be installed in the computer from the removable recording medium 111 as described above, or may be wirelessly transferred from a download site to the computer via an artificial satellite for digital satellite broadcasting, or transmitted to a LAN (Local Area). Network), the Internet, and the like, and can be transferred to a computer by wire. In the computer, the transferred program can be received by the communication unit 108 and installed on the built-in hard disk 105.

【0113】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードやマウス等で構成
される入力部107が操作されることにより指令が入力
されると、それにしたがって、ROM(Read Only Memory)
103に格納されているプログラムを実行する。あるい
は、また、CPU102は、ハードディスク105に格納
されているプログラム、衛星若しくはネットワークから
転送され、通信部108で受信されてハードディスク1
05にインストールされたプログラム、またはドライブ
109に装着されたリムーバブル記録媒体111から読
み出されてハードディスク105にインストールされた
プログラムを、RAM(Random Access Memory)104にロ
ードして実行する。これにより、CPU102は、上述し
たフローチャートにしたがった処理、あるいは上述した
ブロック図の構成により行われる処理を行う。そして、
CPU102は、その処理結果を、必要に応じて、例え
ば、入出力インタフェース110を介して、LCD(Liquid
CryStal Display)やスピーカ等で構成される出力部1
06から出力、あるいは、通信部108から送信、さら
には、ハードディスク105に記録等させる。
The computer has a CPU (Central Processing).
Unit) 102. The CPU 102 has a bus 1
01, an input / output interface 110 is connected. The CPU 102 receives a command via the input / output interface 110 by operating the input unit 107 including a keyboard, a mouse, and the like. Then, according to it, ROM (Read Only Memory)
The program stored in 103 is executed. Alternatively, the CPU 102 transmits the program stored in the hard disk 105, a satellite, or a network, receives the program by the communication unit 108, and
The program installed in the hard disk 105 is read from the removable recording medium 111 installed in the drive 109 and loaded into the RAM (Random Access Memory) 104 and executed. Accordingly, the CPU 102 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. And
The CPU 102 transmits the processing result to an LCD (Liquid
Output unit 1 consisting of CryStal Display) and speakers
06, or transmitted from the communication unit 108, and further recorded on the hard disk 105.

【0114】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
Here, in the present specification, processing steps for describing a program for causing a computer to perform various processes do not necessarily need to be processed in chronological order in the order described in the flowchart, and may be performed in parallel. Alternatively, it also includes processing executed individually (for example, parallel processing or processing by an object).

【0115】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
The program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.

【0116】以上のように、少なくとも、ユーザの音声
認識結果に含まれる語句の概念に基づいて、ユーザの感
情を推定するようにしたので、比較的精度良く、ユーザ
の感情を推定することができる。さらに、その他、韻律
情報や、顔画像情報、生理情報にも基づいて、ユーザの
感情を推定するようにしたので、より精度良く、ユーザ
の感情を推定することができる。さらに、そのような感
情の推定結果に基づいて、出力文を生成するようにした
ので、ユーザの感情の状態によって、バリエーションに
富んだ出力文を、ユーザに提供することが可能となる。
As described above, since the user's emotion is estimated at least based on the concept of the phrase included in the user's speech recognition result, the user's emotion can be estimated relatively accurately. . Further, since the user's emotion is estimated based on the prosody information, face image information, and physiological information, the user's emotion can be estimated more accurately. Furthermore, since the output sentence is generated based on the estimation result of the emotion, it is possible to provide the user with a variety of output sentences depending on the state of the emotion of the user.

【0117】なお、本実施の形態では、音声入力部1に
入力された音(音声)について、音声認識を行うように
したが、音声入力部1に入力された音については、音声
認識を行わずに、例えば、その音が、机を叩いている音
であるとか、ユーザの息づかいであるといったことを検
出し、その検出結果に基づいて、ユーザの感情を推定す
ることも可能である。即ち、例えば、机を叩いているこ
とが連続して検出された場合には、ユーザが怒っている
ことを推定することができる。また、例えば、息づかい
が荒いことが検出された場合には、ユーザが興奮してい
ることを推定することができる。そして、この場合、そ
のような推定結果に基づいて、「怒り」や「興奮」を表
す感情情報の値を大きくするような、アドホック(ad ho
c)な更新ルールを適用することができる。
In the present embodiment, voice recognition is performed for the sound (voice) input to the voice input unit 1. However, voice recognition is performed for the sound input to the voice input unit 1. Instead, for example, it is also possible to detect that the sound is a sound of striking a desk or a breath of the user, and to estimate the emotion of the user based on the detection result. That is, for example, when it is continuously detected that the user is hitting the desk, it can be estimated that the user is angry. Further, for example, when it is detected that breathing is rough, it can be estimated that the user is excited. Then, in this case, based on such an estimation result, an ad hoc (ad hoc) that increases the value of emotion information representing “anger” or “excitation” is increased.
c) Applicable update rules can be applied.

【0118】さらに、対話管理部3においては、感情状
態に応じて、出力文の生成回数を制御することにより、
ユーザに対する発話の回数を変化させることが可能であ
る。具合的には、例えば、ユーザが楽しそうな状態にあ
る場合には、例えば、相づちの回数を増やしたり、その
他、対話システムからの発話回数を増やして、積極的
に、ユーザとの対話を行うようにすることが可能であ
る。また、例えば、ユーザが悲しそうな状態にある場合
には、対話システムからの発話回数を減らして、ユーザ
に煩わしさを感じさせないようにすることが可能であ
る。
Further, the dialogue management section 3 controls the number of output sentence generations in accordance with the emotional state,
It is possible to change the number of utterances to the user. Specifically, for example, when the user is in a fun state, for example, the number of reciprocations and the number of utterances from the interactive system are increased, and the user actively interacts with the user. It is possible to do so. Further, for example, when the user is in a sad state, the number of utterances from the interactive system can be reduced so that the user does not feel troublesome.

【0119】また、本実施の形態では、ユーザからの音
声を音声認識し、その音声認識結果に対する応答として
の発話を行うようにしたが、その他、例えば、ユーザが
キーボードを操作することにより入力される文に対し
て、応答を行うようにすることも可能である。
Further, in the present embodiment, the voice from the user is recognized and the utterance is made as a response to the voice recognition result. However, for example, the voice is input by the user operating the keyboard. It is also possible to make a response to a sentence.

【0120】さらに、本実施の形態では、ユーザに対す
る応答等を、合成音で出力するようにしたが、その他、
例えば、テキスト等で表示するようにすることも可能で
ある。
Further, in the present embodiment, the response to the user and the like are output as synthesized sounds.
For example, it is also possible to display in text or the like.

【0121】また、本発明は、例えば、ディスプレイに
表示される仮想的なキャラクタや、あるいは実体のある
ロボット等とユーザとの間のユーザインタフェースとし
て用いることが可能である。この場合、ユーザに対する
応答等として、上述したように合成音を出力する他、仮
想的なキャラクタの表示状態を変えたり、ロボットに所
定の動作を行わせることで、マルチモーダルなインタフ
ェースを実現することができる。
Further, the present invention can be used, for example, as a user interface between a user and a virtual character displayed on a display, or a real robot or the like. In this case, in addition to outputting a synthesized sound as described above as a response to the user, a multi-modal interface is realized by changing the display state of the virtual character or causing the robot to perform a predetermined operation. Can be.

【0122】[0122]

【発明の効果】本発明の対話処理装置および対話処理方
法、並びに記録媒体によれば、ユーザから入力された語
句の概念が抽出され、その概念に基づいて、ユーザの感
情が推定される。そして、その結果得られる感情情報に
基づいて、ユーザに出力する出力文が生成される。従っ
て、ユーザの感情の状態によって、例えば、バリエーシ
ョンに富んだ対話を行うことが可能となる。
According to the dialogue processing apparatus, the dialogue processing method, and the recording medium of the present invention, the concept of a phrase input by the user is extracted, and the emotion of the user is estimated based on the concept. Then, an output sentence to be output to the user is generated based on the emotion information obtained as a result. Therefore, for example, it is possible to perform a variety of dialogues depending on the emotional state of the user.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用した対話システムの一実施の形態
の構成例を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a dialogue system to which the present invention has been applied.

【図2】図1の対話システムの処理を説明するためのフ
ローチャートである。
FIG. 2 is a flowchart illustrating a process of the dialogue system in FIG. 1;

【図3】図1の音声認識部2の構成例を示すブロック図
である。
FIG. 3 is a block diagram illustrating a configuration example of a speech recognition unit 2 in FIG. 1;

【図4】図1の対話管理部3の構成例を示すブロック図
である。
FIG. 4 is a block diagram illustrating a configuration example of a dialog management unit 3 of FIG. 1;

【図5】図1の文生成部4の構成例を示すブロック図で
ある。
FIG. 5 is a block diagram illustrating a configuration example of a sentence generation unit 4 of FIG. 1;

【図6】図1のユーザ感情情報更新部8の構成例を示す
ブロック図である。
FIG. 6 is a block diagram showing a configuration example of a user emotion information updating unit 8 of FIG. 1;

【図7】図6の画像情報処理部43の構成例を示すブロ
ック図である。
FIG. 7 is a block diagram illustrating a configuration example of an image information processing unit 43 in FIG. 6;

【図8】感情情報を示す図である。FIG. 8 is a diagram showing emotion information.

【図9】図6のユーザ感情情報更新部8の処理を説明す
るためのフローチャートである。
FIG. 9 is a flowchart illustrating a process of a user emotion information updating unit 8 of FIG. 6;

【図10】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
FIG. 10 is a block diagram illustrating a configuration example of a computer according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 音声入力部, 2 音声認識部, 3 対話管理
部, 4 文生成部,5 音声出力部, 6 画像入力
部, 7 生理情報入力部, 8 ユーザ感情情報更新
部, 9 ユーザ感情情報記録部, 11 AD変換
部, 12 特徴抽出部, 13 マッチング部, 1
4 音響モデルデータベース, 15 辞書データベー
ス, 16 文法データベース, 21 言語処理部,
22 対話処理部, 23 シソーラスデータベー
ス, 24 言語処理用データベース, 25 履歴デ
ータベース, 26 シナリオデータベース, 31
テキスト文生成部, 32 規則合成部, 33 DA
変換部, 34 辞書データベース, 35 生成用文
法データベース, 36 音素片データベース, 41
韻律情報処理部, 42 概念情報処理部, 43 画
像情報処理部, 44生理情報処理部, 51 特徴抽
出部, 52 ベクトル量子化部, 53マッチング
部, 54 コードブックデータベース, 55 HM
Mデータベース, 101 バス, 102 CPU,
103 ROM, 104 RAM, 105 ハードディス
ク, 106 出力部, 107 入力部, 108
通信部, 109 ドライブ, 110 入出力インタ
フェース, 111 リムーバブル記録媒体
1 voice input unit, 2 voice recognition unit, 3 dialogue management unit, 4 sentence generation unit, 5 voice output unit, 6 image input unit, 7 physiological information input unit, 8 user emotion information update unit, 9 user emotion information recording unit, 11 AD conversion unit, 12 feature extraction unit, 13 matching unit, 1
4 acoustic model database, 15 dictionary database, 16 grammar database, 21 language processing unit,
22 dialogue processing section, 23 thesaurus database, 24 language processing database, 25 history database, 26 scenario database, 31
Text sentence generator, 32 rule synthesizer, 33 DA
Conversion unit, 34 dictionary database, 35 grammar database for generation, 36 phoneme segment database, 41
Prosody information processing unit, 42 concept information processing unit, 43 image information processing unit, 44 physiological information processing unit, 51 feature extraction unit, 52 vector quantization unit, 53 matching unit, 54 codebook database, 55 HM
M database, 101 bus, 102 CPU,
103 ROM, 104 RAM, 105 hard disk, 106 output unit, 107 input unit, 108
Communication unit, 109 drive, 110 input / output interface, 111 removable recording medium

───────────────────────────────────────────────────── フロントページの続き (72)発明者 田中 幸 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 横野 順 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 大江 敏生 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D015 AA06 LL07 LL10 5D045 AB01 AB07 AB30 9A001 DZ11 FF03 HH17 HH18 HH33 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Sachi Tanaka 6-7-35 Kita-Shinagawa, Shinagawa-ku, Tokyo Inside Sony Corporation (72) Inventor Jun Yokono 6-35, Kita-Shinagawa, Shinagawa-ku, Tokyo Inside Sony Corporation (72) Inventor Toshio Oe 6-7-35 Kita Shinagawa, Shinagawa-ku, Tokyo Sony Corporation F-term (reference) 5D015 AA06 LL07 LL10 5D045 AB01 AB07 AB30 9A001 DZ11 FF03 HH17 HH18 HH33

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 ユーザとの対話を行う対話処理装置であ
って、 ユーザから入力された語句の概念を抽出する概念抽出手
段と、 前記ユーザから入力された語句の概念に基づいて、前記
ユーザの感情を推定し、その感情を表す感情情報を出力
する感情推定手段と、 前記感情情報に基づいて、前記ユーザに出力する出力文
を生成する出力文生成手段とを備えることを特徴とする
対話処理装置。
1. A dialogue processing device for performing a dialogue with a user, comprising: a concept extracting means for extracting a concept of a phrase input by the user; A dialogue process comprising: an emotion estimation unit that estimates an emotion and outputs emotion information representing the emotion; and an output sentence generation unit that generates an output sentence to be output to the user based on the emotion information. apparatus.
【請求項2】 前記感情推定手段は、前記出力文にも基
づいて、前記ユーザの感情を推定することを特徴とする
請求項1に記載の対話処理装置。
2. The interaction processing apparatus according to claim 1, wherein the emotion estimation unit estimates the emotion of the user based on the output sentence.
【請求項3】 前記感情推定手段は、前記ユーザを撮像
して得られる画像にも基づいて、前記ユーザの感情を推
定することを特徴とする請求項1に記載の対話処理装
置。
3. The interaction processing apparatus according to claim 1, wherein the emotion estimation unit estimates the emotion of the user based on an image obtained by imaging the user.
【請求項4】 前記感情推定手段は、前記ユーザの生理
現象にも基づいて、前記ユーザの感情を推定することを
特徴とする請求項1に記載の対話処理装置。
4. The interaction processing apparatus according to claim 1, wherein the emotion estimation unit estimates the emotion of the user based on a physiological phenomenon of the user.
【請求項5】 外部から得られる音響信号を処理する音
響処理手段をさらに備え、 前記感情推定手段は、前記音響処理手段の処理結果にも
基づいて、前記ユーザの感情を推定することを特徴とす
る請求項1に記載の対話処理装置。
5. An audio processing unit for processing an audio signal obtained from the outside, wherein the emotion estimation unit estimates the emotion of the user based on a processing result of the audio processing unit. The interactive processing device according to claim 1.
【請求項6】 前記ユーザの音声を認識する音声認識手
段をさらに備え、 前記概念抽出手段は、前記ユーザの音声の音声認識結果
に含まれる語句の概念を抽出することを特徴とする請求
項1に記載の対話処理装置。
6. The apparatus according to claim 1, further comprising voice recognition means for recognizing said user's voice, wherein said concept extracting means extracts a concept of a phrase included in a voice recognition result of said user's voice. An interactive processing device according to claim 1.
【請求項7】 前記感情推定手段は、前記ユーザの音声
の韻律情報にも基づいて、前記ユーザの感情を推定する
ことを特徴とする請求項6に記載の対話処理装置。
7. The interaction processing apparatus according to claim 6, wherein the emotion estimation unit estimates the emotion of the user based on prosodic information of the voice of the user.
【請求項8】 前記出力文生成手段は、前記感情情報に
基づいて、前記出力文の表現を変更することを特徴とす
る請求項1に記載の対話処理装置。
8. The interaction processing apparatus according to claim 1, wherein the output sentence generation unit changes the expression of the output sentence based on the emotion information.
【請求項9】 前記出力文生成手段は、前記感情情報に
基づいて、前記出力文の個数を変更することを特徴とす
る請求項1に記載の対話処理装置。
9. The interaction processing apparatus according to claim 1, wherein the output sentence generating means changes the number of the output sentences based on the emotion information.
【請求項10】 前記出力文は、相づちを意味するもの
であることを特徴とする請求項9に記載の対話処理装
置。
10. The interaction processing apparatus according to claim 9, wherein the output sentence means a mutual connection.
【請求項11】 前記感情情報を記憶する記憶手段をさ
らに備え、 前記出力文生成手段は、前記記憶手段に記憶された前記
感情情報に基づいて、前記出力文を生成することを特徴
とする請求項1に記載の対話処理装置。
11. The apparatus according to claim 11, further comprising a storage unit configured to store the emotion information, wherein the output sentence generation unit generates the output sentence based on the emotion information stored in the storage unit. Item 2. The interactive processing device according to Item 1.
【請求項12】 前記出力文を出力する出力文出力手段
をさらに備えることを特徴とする請求項1に記載の対話
処理装置。
12. The apparatus according to claim 1, further comprising output sentence output means for outputting the output sentence.
【請求項13】 前記出力文出力手段は、前記出力文を
合成音で出力することを特徴とする請求項12に記載の
対話処理装置。
13. The interactive processing apparatus according to claim 12, wherein the output sentence output unit outputs the output sentence as a synthesized sound.
【請求項14】 前記出力文出力手段は、前記感情情報
に基づいて、前記合成音の韻律を制御することを特徴と
する請求項13に記載の対話処理装置。
14. The apparatus according to claim 13, wherein the output sentence output unit controls the prosody of the synthesized sound based on the emotion information.
【請求項15】 ユーザとの対話を行うための対話処理
方法であって、 ユーザから入力された語句の概念を抽出する概念抽出ス
テップと、 前記ユーザから入力された語句の概念に基づいて、前記
ユーザの感情を推定し、その感情を表す感情情報を出力
する感情推定ステップと、 前記感情情報に基づいて、前記ユーザに出力する出力文
を生成する出力文生成ステップとを備えることを特徴と
する対話処理方法。
15. A dialogue processing method for performing a dialogue with a user, comprising: a concept extracting step of extracting a concept of a phrase input by a user; An emotion estimation step of estimating a user's emotion and outputting emotion information representing the emotion, and an output sentence generation step of generating an output sentence to be output to the user based on the emotion information. Interaction method.
【請求項16】 ユーザとの対話を行うための対話処理
を、コンピュータに行わせるプログラムが記録されてい
る記録媒体であって、 ユーザから入力された語句の概念を抽出する概念抽出ス
テップと、 前記ユーザから入力された語句の概念に基づいて、前記
ユーザの感情を推定し、その感情を表す感情情報を出力
する感情推定ステップと、 前記感情情報に基づいて、前記ユーザに出力する出力文
を生成する出力文生成ステップとを備えるプログラムが
記録されていることを特徴とする記録媒体。
16. A concept extracting step for extracting a concept of a phrase input from a user, the recording medium storing a program for causing a computer to perform an interaction process for performing a dialog with a user; An emotion estimation step of estimating the emotion of the user based on the concept of the phrase input from the user and outputting emotion information representing the emotion; and generating an output sentence output to the user based on the emotion information. A recording medium characterized by storing a program having an output statement generating step of performing the following.
JP2000022225A 2000-01-31 2000-01-31 Device and method for interactive processing and recording medium Pending JP2001215993A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000022225A JP2001215993A (en) 2000-01-31 2000-01-31 Device and method for interactive processing and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000022225A JP2001215993A (en) 2000-01-31 2000-01-31 Device and method for interactive processing and recording medium

Publications (1)

Publication Number Publication Date
JP2001215993A true JP2001215993A (en) 2001-08-10

Family

ID=18548551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000022225A Pending JP2001215993A (en) 2000-01-31 2000-01-31 Device and method for interactive processing and recording medium

Country Status (1)

Country Link
JP (1) JP2001215993A (en)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002082423A1 (en) * 2001-04-05 2002-10-17 Sony Corporation Word sequence output device
WO2005027091A1 (en) * 2003-09-12 2005-03-24 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
EP1574961A1 (en) * 2002-12-11 2005-09-14 Sony Corporation Information processing device and method, program, and recording medium
JP2006031467A (en) * 2004-07-16 2006-02-02 Fujitsu Ltd Response generation program, response generation method and response generation apparatus
JP2006127057A (en) * 2004-10-27 2006-05-18 Canon Inc Estimation device and its control method
JP2006178063A (en) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc Interactive processing device
JP2006188098A (en) * 2004-12-28 2006-07-20 Pioneer Electronic Corp Interaction device, interaction method, interaction program and recording medium readable by computer
JP2006349871A (en) * 2005-06-14 2006-12-28 Toyota Motor Corp Device for estimating driver's burden
JP2007011308A (en) * 2005-05-30 2007-01-18 Kyocera Corp Document display device and document reading method
JP2007287177A (en) * 2002-12-11 2007-11-01 Sony Corp Information processing device and method, program, and recording medium
US7315821B2 (en) 2002-01-31 2008-01-01 Sanyo Electric Co., Ltd. System and method for health care information processing based on acoustic features
JP2008021058A (en) * 2006-07-12 2008-01-31 Nec Corp Portable telephone apparatus with translation function, method for translating voice data, voice data translation program, and program recording medium
JP2010224153A (en) * 2009-03-23 2010-10-07 Toyota Central R&D Labs Inc Speech interaction device and program
US8185395B2 (en) 2004-09-14 2012-05-22 Honda Motor Co., Ltd. Information transmission device
JP2012185303A (en) * 2011-03-04 2012-09-27 Toshiba Tec Corp Information processor and program
JP2014153715A (en) * 2013-02-07 2014-08-25 Samsung Electronics Co Ltd Portable terminal with voice talk function and voice talk method thereof
JP2014219594A (en) * 2013-05-09 2014-11-20 ソフトバンクモバイル株式会社 Conversation processing system and program
JP2016062550A (en) * 2014-09-22 2016-04-25 ソフトバンク株式会社 Conversation processing system, and program
JP2016090775A (en) * 2014-11-04 2016-05-23 トヨタ自動車株式会社 Response generation apparatus, response generation method, and program
JP2018109663A (en) * 2016-12-28 2018-07-12 シャープ株式会社 Speech processing unit, dialog system, terminal device, program, and speech processing method
CN108630231A (en) * 2017-03-22 2018-10-09 卡西欧计算机株式会社 Information processing unit, emotion recognition methods and storage medium
KR20180118182A (en) * 2016-03-31 2018-10-30 선전 쾅-츠 허종 테크놀로지 엘티디. Cloud-based facilities and how to operate them
WO2018198791A1 (en) * 2017-04-26 2018-11-01 ソニー株式会社 Signal processing device, method, and program
WO2018230669A1 (en) * 2017-06-14 2018-12-20 ヤマハ株式会社 Vocal synthesizing method and vocal synthesizing system
JP2019505011A (en) * 2015-12-07 2019-02-21 エスアールアイ インターナショナルSRI International VPA with integrated object recognition and facial expression recognition
JP2019158975A (en) * 2018-03-08 2019-09-19 トヨタ自動車株式会社 Utterance system
WO2019187590A1 (en) * 2018-03-29 2019-10-03 ソニー株式会社 Information processing device, information processing method, and program
US10438586B2 (en) 2016-05-31 2019-10-08 Toyota Jidosha Kabushiki Kaisha Voice dialog device and voice dialog method
WO2019235190A1 (en) * 2018-06-06 2019-12-12 ソニー株式会社 Information processing device, information processing method, program, and conversation system
CN111341349A (en) * 2018-12-03 2020-06-26 本田技研工业株式会社 Emotion estimation device, emotion estimation method, and storage medium
JP2020126125A (en) * 2019-02-04 2020-08-20 富士通株式会社 Voice processing program, voice processing method and voice processor
US11113335B2 (en) * 2017-03-16 2021-09-07 National Institute Of Information And Communications Technology Dialogue system and computer program therefor
US11295736B2 (en) 2016-01-25 2022-04-05 Sony Corporation Communication system and communication control method
JP2023035549A (en) * 2021-09-01 2023-03-13 ウェルヴィル株式会社 Program, information processing apparatus, and information processing method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0956703A (en) * 1995-08-23 1997-03-04 Hama Denshi:Kk Affection detecting apparatus, transmitter for heat beat data and displaying apparatus for affection
JPH0981632A (en) * 1995-09-13 1997-03-28 Toshiba Corp Information publication device
JPH11305985A (en) * 1998-04-22 1999-11-05 Sharp Corp Interactive device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0956703A (en) * 1995-08-23 1997-03-04 Hama Denshi:Kk Affection detecting apparatus, transmitter for heat beat data and displaying apparatus for affection
JPH0981632A (en) * 1995-09-13 1997-03-28 Toshiba Corp Information publication device
JPH11305985A (en) * 1998-04-22 1999-11-05 Sharp Corp Interactive device

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002082423A1 (en) * 2001-04-05 2002-10-17 Sony Corporation Word sequence output device
US7315821B2 (en) 2002-01-31 2008-01-01 Sanyo Electric Co., Ltd. System and method for health care information processing based on acoustic features
JP4525712B2 (en) * 2002-12-11 2010-08-18 ソニー株式会社 Information processing apparatus and method, program, and recording medium
US7548891B2 (en) 2002-12-11 2009-06-16 Sony Corporation Information processing device and method, program, and recording medium
EP1574961A4 (en) * 2002-12-11 2011-10-26 Sony Corp Information processing device and method, program, and recording medium
EP1574961A1 (en) * 2002-12-11 2005-09-14 Sony Corporation Information processing device and method, program, and recording medium
JP2007287177A (en) * 2002-12-11 2007-11-01 Sony Corp Information processing device and method, program, and recording medium
US7881934B2 (en) 2003-09-12 2011-02-01 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
WO2005027091A1 (en) * 2003-09-12 2005-03-24 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
JP2006031467A (en) * 2004-07-16 2006-02-02 Fujitsu Ltd Response generation program, response generation method and response generation apparatus
JP4508757B2 (en) * 2004-07-16 2010-07-21 富士通株式会社 Response generation program, response generation method, and response generation apparatus
US8185395B2 (en) 2004-09-14 2012-05-22 Honda Motor Co., Ltd. Information transmission device
JP2006127057A (en) * 2004-10-27 2006-05-18 Canon Inc Estimation device and its control method
JP2006178063A (en) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc Interactive processing device
JP2006188098A (en) * 2004-12-28 2006-07-20 Pioneer Electronic Corp Interaction device, interaction method, interaction program and recording medium readable by computer
JP4694198B2 (en) * 2004-12-28 2011-06-08 パイオニア株式会社 Interactive device, interactive method, interactive program, and computer-readable recording medium
JP2007011308A (en) * 2005-05-30 2007-01-18 Kyocera Corp Document display device and document reading method
JP2006349871A (en) * 2005-06-14 2006-12-28 Toyota Motor Corp Device for estimating driver's burden
JP4507996B2 (en) * 2005-06-14 2010-07-21 トヨタ自動車株式会社 Driver load estimation device
JP2008021058A (en) * 2006-07-12 2008-01-31 Nec Corp Portable telephone apparatus with translation function, method for translating voice data, voice data translation program, and program recording medium
JP2010224153A (en) * 2009-03-23 2010-10-07 Toyota Central R&D Labs Inc Speech interaction device and program
JP2012185303A (en) * 2011-03-04 2012-09-27 Toshiba Tec Corp Information processor and program
JP2014153715A (en) * 2013-02-07 2014-08-25 Samsung Electronics Co Ltd Portable terminal with voice talk function and voice talk method thereof
JP2014219594A (en) * 2013-05-09 2014-11-20 ソフトバンクモバイル株式会社 Conversation processing system and program
JP2016062550A (en) * 2014-09-22 2016-04-25 ソフトバンク株式会社 Conversation processing system, and program
JP2016090775A (en) * 2014-11-04 2016-05-23 トヨタ自動車株式会社 Response generation apparatus, response generation method, and program
JP7022062B2 (en) 2015-12-07 2022-02-17 エスアールアイ インターナショナル VPA with integrated object recognition and facial expression recognition
JP2019505011A (en) * 2015-12-07 2019-02-21 エスアールアイ インターナショナルSRI International VPA with integrated object recognition and facial expression recognition
US11295736B2 (en) 2016-01-25 2022-04-05 Sony Corporation Communication system and communication control method
JP2019518247A (en) * 2016-03-31 2019-06-27 シェン ツェン クアン−チ ヘチョン テクノロジー リミティッド Cloud-based equipment and operation method thereof
KR20180118182A (en) * 2016-03-31 2018-10-30 선전 쾅-츠 허종 테크놀로지 엘티디. Cloud-based facilities and how to operate them
KR102156296B1 (en) 2016-03-31 2020-09-15 선전 쾅-츠 허종 테크놀로지 엘티디. Cloud-based equipment and its operation method
US10438586B2 (en) 2016-05-31 2019-10-08 Toyota Jidosha Kabushiki Kaisha Voice dialog device and voice dialog method
JP2018109663A (en) * 2016-12-28 2018-07-12 シャープ株式会社 Speech processing unit, dialog system, terminal device, program, and speech processing method
US11113335B2 (en) * 2017-03-16 2021-09-07 National Institute Of Information And Communications Technology Dialogue system and computer program therefor
CN108630231B (en) * 2017-03-22 2024-01-05 卡西欧计算机株式会社 Information processing apparatus, emotion recognition method, and storage medium
CN108630231A (en) * 2017-03-22 2018-10-09 卡西欧计算机株式会社 Information processing unit, emotion recognition methods and storage medium
WO2018198791A1 (en) * 2017-04-26 2018-11-01 ソニー株式会社 Signal processing device, method, and program
JPWO2018198791A1 (en) * 2017-04-26 2020-03-05 ソニー株式会社 Signal processing apparatus and method, and program
JP7059524B2 (en) 2017-06-14 2022-04-26 ヤマハ株式会社 Song synthesis method, song synthesis system, and program
JP2019002999A (en) * 2017-06-14 2019-01-10 ヤマハ株式会社 Singing synthesis method and singing synthesis system
CN110741430B (en) * 2017-06-14 2023-11-14 雅马哈株式会社 Singing synthesis method and singing synthesis system
WO2018230669A1 (en) * 2017-06-14 2018-12-20 ヤマハ株式会社 Vocal synthesizing method and vocal synthesizing system
JP2022092032A (en) * 2017-06-14 2022-06-21 ヤマハ株式会社 Singing synthesis system and singing synthesis method
JP7363954B2 (en) 2017-06-14 2023-10-18 ヤマハ株式会社 Singing synthesis system and singing synthesis method
CN110741430A (en) * 2017-06-14 2020-01-31 雅马哈株式会社 Singing synthesis method and singing synthesis system
JP7192222B2 (en) 2018-03-08 2022-12-20 トヨタ自動車株式会社 speech system
JP2019158975A (en) * 2018-03-08 2019-09-19 トヨタ自動車株式会社 Utterance system
WO2019187590A1 (en) * 2018-03-29 2019-10-03 ソニー株式会社 Information processing device, information processing method, and program
WO2019235190A1 (en) * 2018-06-06 2019-12-12 ソニー株式会社 Information processing device, information processing method, program, and conversation system
CN111341349A (en) * 2018-12-03 2020-06-26 本田技研工业株式会社 Emotion estimation device, emotion estimation method, and storage medium
CN111341349B (en) * 2018-12-03 2023-07-25 本田技研工业株式会社 Emotion estimation device, emotion estimation method, and storage medium
JP7230545B2 (en) 2019-02-04 2023-03-01 富士通株式会社 Speech processing program, speech processing method and speech processing device
JP2020126125A (en) * 2019-02-04 2020-08-20 富士通株式会社 Voice processing program, voice processing method and voice processor
JP2023035549A (en) * 2021-09-01 2023-03-13 ウェルヴィル株式会社 Program, information processing apparatus, and information processing method

Similar Documents

Publication Publication Date Title
JP2001215993A (en) Device and method for interactive processing and recording medium
US11496582B2 (en) Generation of automated message responses
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US10140973B1 (en) Text-to-speech processing using previously speech processed data
JP5327054B2 (en) Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
JP3994368B2 (en) Information processing apparatus, information processing method, and recording medium
CN100371926C (en) Method, apparatus, and program for dialogue, and storage medium including a program stored therein
JP4085130B2 (en) Emotion recognition device
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
JP5066242B2 (en) Speech translation apparatus, method, and program
US20160379638A1 (en) Input speech quality matching
US11763797B2 (en) Text-to-speech (TTS) processing
JP2001101187A (en) Device and method for translation and recording medium
JP4729902B2 (en) Spoken dialogue system
JP5198046B2 (en) Voice processing apparatus and program thereof
JP2001188781A (en) Device and method for processing conversation and recording medium
JP2001188779A (en) Device and method for processing information and recording medium
JP2016151736A (en) Speech processing device and program
US20040006469A1 (en) Apparatus and method for updating lexicon
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
US20230148275A1 (en) Speech synthesis device and speech synthesis method
JP2001209644A (en) Information processor, information processing method and recording medium
JP2001188782A (en) Device and method for processing information and recording medium
JP4048473B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
JPH1152987A (en) Speech synthesis device with speaker adaptive function

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100603