JP2003177788A - Audio interactive system and its method - Google Patents

Audio interactive system and its method

Info

Publication number
JP2003177788A
JP2003177788A JP2001377982A JP2001377982A JP2003177788A JP 2003177788 A JP2003177788 A JP 2003177788A JP 2001377982 A JP2001377982 A JP 2001377982A JP 2001377982 A JP2001377982 A JP 2001377982A JP 2003177788 A JP2003177788 A JP 2003177788A
Authority
JP
Japan
Prior art keywords
voice
scenario
user
utterance
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001377982A
Other languages
Japanese (ja)
Inventor
Takahiro Kii
隆弘 紀伊
Tomonori Iketani
智則 池谷
Tatsuro Matsumoto
達郎 松本
Shigeru Yamada
茂 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001377982A priority Critical patent/JP2003177788A/en
Publication of JP2003177788A publication Critical patent/JP2003177788A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To improve the recognition rate of vocabulary included in a user's speech and to enable recognition of a key word corresponding to a response with an indication word in a barge-in audio interactive system allowing the user to respond in the middle of a system speech. <P>SOLUTION: A scenario of the system speech is monitored, and weights to be added to key words included in individual parts of the scenario are determined on the basis of the time of the user's speech, the speech time of each scenario part, etc., and key words included in the user's speech are recognized. Further, a key word which the indication word means is recognized in accordance with the correspondence relation between the time of the user's speech with the indication word and a corresponding system speech. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声情報をユーザ
に提供し、ユーザからの応答に基づき処理の遂行を行な
う音声対話システムに関し、より詳しくは、順次提示す
る音声情報の発話中にユーザが応答する場合であって
も、ユーザの応答内容を認識出来る音声対話システムに
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice dialogue system that provides voice information to a user and performs processing based on a response from the user. The present invention relates to a voice dialogue system that can recognize the response content of a user even when responding.

【0002】[0002]

【従来の技術】音声対話システムでは、システムから選
択肢などを発話し、ユーザは、この選択肢の中から選択
したいものを音声で応答する。そして、システムは、こ
の音声を音声信号に変換した後、この音声信号と認識辞
書に記憶されている音声情報とを比較し、ユーザがどの
選択肢を選択したかを認識する。
2. Description of the Related Art In a voice dialogue system, a system utters an option or the like, and a user responds by voice with a choice from the options. Then, the system converts this voice into a voice signal and then compares the voice signal with the voice information stored in the recognition dictionary to recognize which option the user has selected.

【0003】この音声対話システムを番組案内などに使
用する場合には、番組のカテゴリを順次、発話して、ユ
ーザが案内を受けたいカテゴリを発話して指定してい
る。具体的な対話例を次に示す。
When this voice interactive system is used for program guides, the categories of programs are sequentially uttered, and the categories in which the user wants to receive guidance are uttered and designated. A concrete dialogue example is shown below.

【0004】システム発話:「ご利用になりたいサービ
スを選択してください。 1天気予報、 2スポーツニュース、 3今日の運
勢。」 ユーザ発話:「じゃー、天気予報」。
System utterance: "Please select the service you want to use. 1 weather forecast, 2 sports news, 3 today's fortune." User utterance: "Ja, weather forecast".

【0005】この様に、システムが選択肢(上記対話例
では、番組のカテゴリ名)を順次発話した後に、ユーザ
が指定する方法では、ユーザは最初に発話されたカテゴ
リの番組提示を受けたくとも、システムの発話が終わる
まで待たされることになり、また、ユーザは選択したい
選択肢をシステム発話が終わるまで覚えておかなくては
ならないので、間違った選択肢を選ぶ可能性も高くな
る。また、システムにとっては、発話が終了するまで、
ユーザの応答を得る事が出来ないので、シナリオに沿っ
て次のステップに進むまでに時間が掛かることになる。
ここで、「次のシナリオ」とは、上記例では、ユーザが
選択した「スポーツニュース」のより細かな選択肢であ
る野球、サッカー、テニスなどの選択肢の提示や、また
は、本日の野球の試合結果などのコンテンツの提示であ
る。
As described above, in the method in which the system sequentially utters the options (the category name of the program in the above-mentioned dialog example) and then the user specifies, even if the user wants to be presented with the program of the category uttered first, Since the system has to wait until the utterance is finished and the user has to remember the option he / she wants to select until the system utterance is finished, the possibility of selecting the wrong option is increased. Also, for the system, until the utterance ends,
Since it is not possible to get the user's response, it will take time to move to the next step according to the scenario.
Here, in the above example, the “next scenario” is the presentation of choices such as baseball, soccer, and tennis that are more detailed choices of the “sports news” selected by the user, or the results of today's baseball game. It is the presentation of content such as.

【0006】そこで、この様な不具合を解消するため
に、音声対話システムが発話中であっても、ユーザが応
答出来るバージイン(barge−in)対話システム
が知られている。このバージインで応答可能な場合の会
話例を示す。
In order to solve such a problem, there is known a barge-in dialogue system in which the user can respond even when the voice dialogue system is speaking. An example of a conversation in which a response can be made by this barge-in is shown.

【0007】(バージイン有りの場合の対話例)システ
ム発話:「ご利用になりたいサービスを選択してくださ
い。
(Example of dialogue with barge-in) System utterance: "Please select the service you want to use.

【0008】1天気予報、 2スポーツニュース、 ・
・・・」 ユーザ発話:「スポーツニュース」または「2」。
1 weather forecast, 2 sports news,
... "User utterance:" Sports news "or" 2 ".

【0009】このバージイン有りの音声対話システムで
は、システムの発話中であっても、ユーザが応答するこ
とが許され、選択肢がシステムによって発話中または発
話された直後に応答出来るので、ユーザは選択肢の発話
が終わるまで待たされることは無く、また、間違って選
択肢を選択することも少なくなり、一方、音声対話シス
テムも次のシナリオに進むことが出来る。この様に、バ
ージイン音声対話システムは、ユーザとスムーズな対話
を進行出来るユーザフレンドリーな音声対話システムと
いえる。
In this barge-in voice interaction system, the user is allowed to respond even while the system is uttering, and the option can be responded immediately after the system speaks or is spoken by the system. There is no need to wait until the utterance ends, and it is less likely that the user will select an option by mistake, while the voice dialogue system can proceed to the next scenario. In this way, the barge-in voice dialogue system can be said to be a user-friendly voice dialogue system capable of proceeding with a smooth dialogue with the user.

【0010】しかしながら、このバージイン対話システ
ムは、システムが発話中にユーザが発話出来るので、シ
ステムの発話がユーザの発話に重畳した音声がシステム
に入力されることになり、ユーザの発話内容を誤認した
り、認識率が低下する恐れがある。そのために、バージ
イン音声対話システムでは、システムの発話が再度、シ
ステムに入力されても、システムの発話をキャンセルす
るエコーキャンセンなどの技術を採用している。また更
に、ユーザが発話するであろうと予測出来る語彙に重み
を付けた認識辞書を使用して、発話内容を認識し易くし
ている。
However, in this barge-in dialogue system, since the user can speak while the system is speaking, a voice in which the system utterance is superimposed on the user's utterance is input to the system, and the user's utterance content is erroneously recognized. Or the recognition rate may decrease. Therefore, the barge-in spoken dialogue system employs a technique such as echo canceling that cancels the system utterance even if the system utterance is input to the system again. Furthermore, a recognition dictionary that weights the vocabulary that the user can predict to speak is used to facilitate recognition of the content of the speech.

【0011】[0011]

【発明が解決しようとする課題】上記したエコーキャン
セルや重み付けされた認識辞書を搭載したバージイン音
声対話システムであっても、ユーザが発話した音声の認
識を常に正しく行なう事は困難であった。更に、従来の
音声対話システムでは、複数の選択肢をシステムが発話
した際に、ユーザが「それ」などの指示語で応答して
も、ユーザがどの選択肢を選択したのか認識することは
困難であった。この指示語による対話の具体例を下記に
示す。
Even in the barge-in voice dialogue system equipped with the echo cancellation or weighted recognition dictionary described above, it is difficult to always correctly recognize the voice uttered by the user. Furthermore, in a conventional voice dialogue system, when the system utters a plurality of options, it is difficult for the user to recognize which option the user has selected, even if the user responds with a directive such as “that”. It was A specific example of the dialogue using this directive is shown below.

【0012】(指示語を使用した対話例) システム発話:「ご利用になりたいサービスを選択して
ください。
(Example of dialogue using directives) System utterance: "Please select the service you want to use.

【0013】1天気予報、 2スポーツニュース、 ・
・・・」 ユーザ発話:「それ」。
1 weather forecast, 2 sports news,
・ ・ ・ ”User utterance:“ That ”.

【0014】そこで、本発明の第1の課題は、ユーザの
発話をより正確に認識するバージインが可能な音声対話
システムおよびその方法を提供することである。
Therefore, a first object of the present invention is to provide a voice interaction system and method capable of barge-in that recognizes a user's utterance more accurately.

【0015】そして、本発明の第2の課題は、ユーザが
指示語を含む応答をしても、ユーザがどの選択肢を選択
したのかを認識出来る音声対話システムおよびその方法
を提供することである。
A second object of the present invention is to provide a voice dialogue system and method that can recognize which option the user has selected, even if the user gives a response including a directive.

【0016】[0016]

【課題を解決するための手段】以下の説明において、シ
ステムの発話をシステム発話と称し、ユーザの発話をユ
ーザ発話と称する。そして、ユーザがシステム発話中に
応答する発話をバージイン発話と称する。バージイン音
声対話システムでは、シナリオに基づいてシステムが発
話している途中であってもユーザが応答出来ることに特
徴がある。
In the following description, system utterances are referred to as system utterances, and user utterances are referred to as user utterances. An utterance that the user responds to during system utterance is called a barge-in utterance. The barge-in spoken dialogue system is characterized in that the user can respond even while the system is speaking based on the scenario.

【0017】この様な対話システムにあっては、ユーザ
は希望の選択肢がシステム発話されると、この選択肢が
発話されている途中や発話直後に応答する場合が多いと
予測出来る。
In such a dialogue system, when the user utters a desired option, the user can predict that the option is often answered during or immediately after the utterance.

【0018】本発明は、この様なユーザの応答の特徴に
着目し、システム発話中のシナリオに含まれる単語や連
続する単語とこれに応答したユーザ発話との時間間隔、
更にはユーザの発話の強さや発話の速さなどのバージイ
ンの状況に対応させて認識辞書中の語彙に重み付けをし
て、ユーザが認識辞書のどの語彙を発話したかの認識
や、更にはユーザがどの選択肢を選択したか、指示した
かの認識を向上させることを特徴とする。
The present invention pays attention to such a characteristic of the user's response, and the time interval between the word included in the scenario during the system utterance or the continuous word and the user utterance in response to the word,
Furthermore, the vocabulary in the recognition dictionary is weighted according to the barge-in situation such as the strength of the user's utterance and the speed of utterance, and the recognition of which vocabulary in the recognition dictionary the user uttered It is characterized by improving the recognition of which option has been selected and instructed.

【0019】更に具体的には、請求項1の発明において
は、発話する複数の単語とこれら複数の単語の発話順と
を規定するシナリオを記憶する対話シナリオ部と語彙情
報を記憶した認識辞書と対話シナリオ部のシナリオに従
って音声を発話する音声出力部とユーザによって発話さ
れた音声を入力する音声入力部とに接続可能な音声対話
システムにおいて、この音声出力部がシナリオのいずれ
の箇所を発話しているかを検知する出力情報管理部と、
この出力情報管理部でユーザが発話した際のシナリオ箇
所を検知し、検知したシナリオ箇所に基づいて、認識辞
書に記憶されている語彙情報に重み付けを行なう重み付
け算出部と、音声入力部に入力された音声を信号処理し
た音声情報と重み付けされた語彙情報とからユーザによ
って発話された音声が認識辞書に記憶されている語彙情
報のいずれであるかを選択する音声認識部とを有するこ
とを特徴とする音声対話システムを要旨とした。
More specifically, in the invention of claim 1, a dialogue scenario section for storing a scenario defining a plurality of words to be uttered and an utterance order of the plurality of words, and a recognition dictionary storing vocabulary information. In a voice dialogue system connectable to a voice output unit for uttering voice according to the scenario of the dialogue scenario unit and a voice input unit for inputting voice uttered by a user, this voice output unit utters any part of the scenario. An output information management unit that detects whether
The output information management unit detects a scenario portion when the user speaks, and based on the detected scenario portion, the weighting calculation unit that weights the vocabulary information stored in the recognition dictionary and the voice input unit are input. A voice recognition unit that selects which of the vocabulary information stored in the recognition dictionary the voice uttered by the user is based on, from the voice information obtained by signal processing the processed voice and the weighted vocabulary information, The main point is a spoken dialogue system.

【0020】この様に、ユーザ発話時点に対応するシス
テム発話を出力情報管理部で検知出来る様に構成したの
で、ユーザ発話に含まれる可能性の高い単語が、このユ
ーザ発話よりも以前にシステム発話された単語との対応
によって分かり、このシステム発話された単語や連続す
る単語に重み付けを高くすることにより、認識率を向上
させる。
In this way, the system utterance corresponding to the time of the user utterance can be detected by the output information management unit, so that a word that is highly likely to be included in the user utterance is detected before the user utterance. The recognition rate is improved by increasing the weighting of the words spoken by this system and the continuous words, which are found by the correspondence with the words that have been uttered.

【0021】尚、上記の単語とは、例えば「天気予報」
という言葉を1つの単語として扱っても良く、また「天
気」と「予報」という2つの単語として扱っても良い。
また更に、「天気の予報」の場合には、この「天気の予
報」を1つの単語として扱っても良く、「天気」、
「の」、「予報」や「天気の」、「の予報」などを各々
単語として扱っても良い。
The above-mentioned word is, for example, "weather forecast".
May be treated as one word, or may be treated as two words “weather” and “forecast”.
Furthermore, in the case of "weather forecast", this "weather forecast" may be treated as one word.
"No", "forecast", "weather", and "forecast" may be treated as words.

【0022】更に、この請求項1の発明においては、シ
ステム発話のシナリオや認識辞書、更には音声入力部や
音声出力部に接続可能な音声対話システムを構成したの
で、この音声対話システムを目的に応じたシナリオやそ
のシナリオに好適な認識辞書、更にはこの音声対話シス
テムが使用される環境に応じた好適な音声入力部および
音声出力部とを容易に使用し得る。
Further, according to the invention of claim 1, since a voice dialogue system connectable to a system utterance scenario, a recognition dictionary, and a voice input unit and a voice output unit is constructed, the purpose of this voice dialogue system is as follows. It is possible to easily use a corresponding scenario, a recognition dictionary suitable for the scenario, and a voice input unit and a voice output unit suitable for the environment in which the voice dialogue system is used.

【0023】また、請求項2の発明においては、発話す
る複数の単語とこれら複数の単語の発話順とを規定する
シナリオを記憶する対話シナリオ部と、語彙情報を記憶
した認識辞書と、ユーザによって発話された音声を入力
する音声入力部と、対話シナリオ部のシナリオに従って
音声を発話する音声出力部と、この音声出力部がシナリ
オのいずれの箇所を発話しているかを検知する出力情報
管理部と、ユーザが発話した際の出力情報管理部で検知
したシナリオ箇所に基づいて、認識辞書に記憶されてい
る語彙情報に重み付けを行なう重み付け算出部と、音声
入力部に入力された音声を信号処理した音声情報と重み
付けされた語彙情報とからユーザによって発話された音
声が認識辞書に記憶されている語彙情報のいずれである
かを選択する音声認識部とを有することを特徴とする音
声対話システムを要旨とした。
Further, in the invention of claim 2, a dialogue scenario section for storing a scenario defining a plurality of words to be uttered and an utterance order of the plurality of words, a recognition dictionary storing vocabulary information, and a user A voice input unit for inputting the spoken voice, a voice output unit for speaking the voice according to the scenario of the dialogue scenario unit, and an output information management unit for detecting which part of the scenario the voice output unit speaks. , A weighting calculation unit that weights vocabulary information stored in the recognition dictionary based on the scenario location detected by the output information management unit when the user speaks, and the voice input to the voice input unit is signal-processed. A voice for selecting which of the vocabulary information stored in the recognition dictionary is the voice uttered by the user, from the voice information and the weighted vocabulary information. The speech dialogue system and having a 識部 was gist.

【0024】この様に、音声対話システムを構成したの
で、請求項1の発明と同様に、ユーザ発話時点の対応す
るシステム発話を出力情報管理部で検知出来る様に構成
したので、ユーザ発話に含まれる可能性の高い単語また
は連続する単語が、このユーザ発話よりも以前にシステ
ム発話された単語や連続する単語との対応によって分か
り、このシステム発話された単語や連続する単語に重み
付けを高くすることにより、認識率を向上させる。
Since the voice dialogue system is configured in this manner, the system utterance corresponding to the user's utterance can be detected by the output information management unit as in the case of the invention of claim 1, so that the system is included in the user utterance. Highly probable words or consecutive words are identified by the correspondence with the system uttered words or consecutive words before this user utterance, and the system uttered words or consecutive words are weighted higher. This improves the recognition rate.

【0025】更に、請求項1または請求項2に記載の重
み付けを、ユーザが発話する音声の強さ及び/または速
さにも基づいて行なわれる構成としても良い。
Furthermore, the weighting described in claim 1 or 2 may be performed based on the strength and / or speed of the voice uttered by the user.

【0026】この様に構成することによって、ユーザが
発話する状況に応じて、認識辞書中の語彙の重み付けを
行なえる。
With this configuration, the vocabulary in the recognition dictionary can be weighted according to the situation in which the user speaks.

【0027】更に、請求項1または請求項2に記載の重
み付けを、ユーザの発話時刻とシナリオに含まれる単語
の発話予定時刻とに基づいて行なう構成としても良い。
Furthermore, the weighting according to claim 1 or 2 may be performed based on the utterance time of the user and the scheduled utterance time of the word included in the scenario.

【0028】この様に構成することによって、ユーザ発
話に含まれると予測される単語をより正確に予測でき、
認識辞書中の語彙の適切な重み付けを行なえる。
With this configuration, the word predicted to be included in the user's utterance can be predicted more accurately,
Appropriate weighting of vocabulary in the recognition dictionary can be performed.

【0029】更に、請求項1または請求項2に記載の重
み付けを、ユーザの発話時刻とシナリオに含まれる単語
の発話予定時刻とに基づいて行なう構成とし、重み付け
算出部は、ユーザの発話時刻とシナリオに含まれる単語
の発話予定時刻との差に基づき認識辞書に含まれる単語
に付加する重み付け係数または重み付けの割合を記憶す
る重み係数管理部に記憶された重み付け係数または重み
付けの割合に基づき、認識辞書に記憶されている語彙情
報に重み付けを行なうことを特徴とする音声対話システ
ム(音声対話システムAとする)を要旨としても良い。
Furthermore, the weighting according to claim 1 or 2 is configured to be performed based on the user's utterance time and the scheduled utterance time of the word included in the scenario, and the weighting calculation unit determines the user's utterance time. Recognition based on the difference between the words included in the scenario and the scheduled time of speech Recognition of the weighting coefficient or weighting ratio stored in the weighting coefficient management unit that stores the weighting coefficient or the weighting ratio added to the words included in the dictionary A voice dialogue system (called a voice dialogue system A) characterized by weighting the vocabulary information stored in the dictionary may be the gist.

【0030】この様に構成することによって、認識辞書
に記憶されている既にシステム発話された単語、更には
システム発話される予定の単語とユーザ発話時刻との時
間間隔が求められ、この時間間隔に基づいて、認識辞書
に記憶されている語彙情報に重み付けを行なえる。
With this configuration, the time interval between the system uttered word already stored in the recognition dictionary and the word to be system uttered and the user uttered time is obtained, and the time interval is set to this time interval. Based on this, the vocabulary information stored in the recognition dictionary can be weighted.

【0031】更に、請求項1または請求項2に記載の重
み付けを、ユーザの発話時刻とシナリオに含まれる単語
の発話予定時刻とに基づいて行なう構成とし、重み付け
算出部は、ユーザの発話時刻とシナリオに含まれる単語
の発話予定時刻との差に応じた、認識辞書に含まれる単
語に付加する重み付け係数または重み付けの割合を表す
テーブルを記憶する重みテーブル管理部に記憶された重
み付け係数または重み付けの割合に基づき、認識辞書に
記憶されている語彙情報に重み付けを行なうことを特徴
とする音声対話システム(音声対話システムBとする)
を要旨としても良い。
Furthermore, the weighting according to claim 1 or 2 is configured to be performed based on the utterance time of the user and the scheduled utterance time of the words included in the scenario, and the weighting calculation unit determines the utterance time of the user. A weighting coefficient or a weighting coefficient stored in a weight table management unit that stores a table showing a weighting coefficient or a weighting ratio to be added to the words included in the recognition dictionary according to the difference between the utterance scheduled time of the words included in the scenario Spoken dialogue system characterized by weighting the vocabulary information stored in the recognition dictionary based on the ratio (referred to as speech dialogue system B)
May be the gist.

【0032】この様に認識辞書に含まれる単語に付加す
る重み付け係数または重み付けの割合をテーブルで記憶
する様に構成したので、重み付けの処理が容易に行なえ
る。
Since the weighting coefficient or the weighting ratio to be added to the words included in the recognition dictionary is stored in the table as described above, the weighting process can be easily performed.

【0033】更に、上記の音声対話システムAまたは音
声対話システムBにおいて、前記重み付け係数管理部ま
たは前記重みテーブル管理部に記憶された重み付け係数
または重み付けの割合と音声認識部が選択した選択結果
との対応を示す履歴情報を記憶する履歴管理部を有し、
この履歴情報に基づき重み付け係数または前記重み付け
の割合を変更することを特徴とする音声対話システムを
構成しても良い。
Further, in the above-mentioned voice interaction system A or voice interaction system B, the weighting coefficient or the weighting ratio stored in the weighting coefficient management unit or the weight table management unit and the selection result selected by the voice recognition unit. It has a history management unit that stores history information indicating correspondence,
A voice dialogue system may be configured in which the weighting coefficient or the weighting ratio is changed based on the history information.

【0034】この様に構成したので、多数のユーザの応
答に基づく履歴情報に基づいて、重み付け係数または重
み付けの割合を変更出来るのでより認識率の良い重み付
けが行なえる。
With this configuration, since the weighting coefficient or the weighting ratio can be changed based on the history information based on the responses of a large number of users, weighting with a better recognition rate can be performed.

【0035】更に、請求項3の発明においては、発話す
る複数の単語とこれら複数の単語の発話順とを規定する
シナリオを記憶する対話シナリオ部と語彙情報を記憶し
た認識辞書と対話シナリオ部のシナリオに従って音声を
発話する音声出力部とユーザによって発話された音声を
入力する音声入力部とに接続可能な音声対話システムに
おいて、音声出力部がシナリオのいずれの箇所を発話し
ているかを検知する出力情報管理部と、音声入力部に入
力された音声を信号処理した音声情報と認識辞書に記憶
されている語彙情報とからユーザによって発話された音
声が認識辞書に記憶されている語彙情報のいずれである
かを選択し、選択された語彙情報が指示語である場合
に、指示語が発話された時刻に対応して、指示語を音声
出力部から発話された前記シナリオ箇所に含まれる単語
または連続する単語に対応付けする音声認識部とを有す
ることを特徴とする音声対話システムを要旨とした。
Further, in the invention of claim 3, a dialogue scenario part storing a plurality of words to be uttered and a scenario defining the utterance order of the plurality of words, a recognition dictionary storing vocabulary information, and a dialogue scenario part. An output that detects which part of the scenario the voice output unit is speaking in a voice interaction system that can be connected to a voice output unit that speaks a voice according to a scenario and a voice input unit that inputs a voice uttered by a user Either the information management unit or the vocabulary information stored in the recognition dictionary for the voice uttered by the user from the voice information obtained by signal processing the voice input to the voice input unit and the vocabulary information stored in the recognition dictionary. Select whether or not, and if the selected vocabulary information is a vocabulary, the vocabulary is uttered from the voice output unit at the time when the vocabulary is uttered. The speech dialogue system and having a voice recognition unit for association with the word words or continuous contained in the scenario portion was gist.

【0036】この様に構成したので、ユーザが指示語を
発話しても、その指示語が指示する可能性の高いそのユ
ーザ発話時刻、またはユーザ発話時刻前にシステム発話
されたシナリオに含まれる単語が分かるので、指示語に
よるバージインが可能になる。尚、ここで指示語には、
例えば、「これ」、「あれ」、「それ」、「これら」、
「それら」などの言葉が含まれる。
With this configuration, even if the user utters an instruction word, there is a high possibility that the instruction word indicates the user's utterance time, or a word included in the system uttered scenario before the user utterance time. Therefore, it is possible to perform barge-in using the directive. In addition, here the directive is
For example, "this", "that", "that", "these",
Includes words such as "these."

【0037】更に、請求項4の発明においては、発話す
る複数の単語とこれら複数の単語の発話順とを規定する
シナリオを記憶する対話シナリオ部と語彙情報を記憶し
た認識辞書と対話シナリオ部のシナリオに従って音声を
発話する音声出力部とユーザによって発話された音声を
入力する音声入力部とに接続可能な音声対話システムに
おいて、この音声出力部が発話する単語に対応する波形
データを記憶する音声出力データ格納部と、この音声入
力部に入力された音声を信号処理した音声情報と認識辞
書に記憶されている語彙情報とからユーザによって発話
された音声が認識辞書に記憶されている語彙情報のいず
れであるかを選択し、選択された語彙情報が指示語に対
応する場合に、指示語をこの指示語の発話に対応した音
声出力部から発話され音声出力データ格納部に記憶され
ている波形データに対応付けする音声認識部とを有する
ことを特徴とする音声対話システムを要旨とした。
Furthermore, in the invention of claim 4, a dialogue scenario part for storing a plurality of words to be uttered and a scenario defining the utterance order of the plurality of words, a recognition dictionary storing vocabulary information, and a dialogue scenario part. In a voice dialogue system connectable to a voice output unit for uttering voice according to a scenario and a voice input unit for inputting voice uttered by a user, a voice output for storing waveform data corresponding to a word uttered by the voice output unit One of the vocabulary information stored in the recognition dictionary, which is the voice uttered by the user, from the data storage unit, the voice information obtained by signal processing the voice input to the voice input unit, and the vocabulary information stored in the recognition dictionary. Is selected, and if the selected vocabulary information corresponds to a vocabulary, the vocabulary is uttered from the voice output unit corresponding to the utterance of this vocabulary. Re was summarized as speech dialogue system, characterized in that it comprises a voice recognition unit for association with the waveform data stored in the audio output data storage unit.

【0038】この様に構成したので、このユーザ発話の
時点またはユーザ発話直前のシステム発話に含まれる単
語に対応する波形データが音声出力データ格納部に記憶
されているので、ユーザが指示語でシステム発話に応答
しても、この指示語が指示するシステム発話に含まれる
単語または連続する単語を認識出来る。
With this configuration, since the waveform data corresponding to the word included in the system utterance at the time of the user's utterance or immediately before the user's utterance is stored in the voice output data storage unit, the user uses the instruction word as the system. Even if the user responds to the utterance, the word included in the system utterance designated by the directional word or the continuous word can be recognized.

【0039】更に、請求項5の発明においては、シナリ
オに基づき発話を行なうステップと、ユーザの発話を入
力するステップと、ユーザの発話に対応したシナリオの
箇所を検知するステップと、ユーザの発話に対応させシ
ナリオの箇所に含まれる単語または連続する単語に重み
付けを行なうステップと、入力されたユーザの発話と重
み付けされた単語または連続する単語との対応をとり、
単語または連続する単語のいずれかを選択するステップ
と、選択された単語または連続する単語に基づき、シナ
リオに基づいて次の処理を行なうステップとを含む音声
対話システムの音声対話方法を要旨とした。
Further, in the invention of claim 5, the step of uttering based on the scenario, the step of inputting the utterance of the user, the step of detecting the part of the scenario corresponding to the utterance of the user, and the step of uttering the user Correlate the step of weighting the words or consecutive words contained in the scenario, and the correspondence between the input user utterance and the weighted or consecutive words,
A speech dialogue method of a speech dialogue system including a step of selecting either a word or a continuous word and a step of performing next processing based on a scenario based on the selected word or the continuous word.

【0040】この様に音声対話方法を構成したので、ユ
ーザ発話時点に対応してシナリオに含まれる単語または
連続する単語に重み付けを行なえるので、音声対話シス
テムの認識率の向上が図れる。
Since the voice interaction method is configured as described above, the words included in the scenario or the continuous words can be weighted according to the time of the user's utterance, so that the recognition rate of the voice interaction system can be improved.

【0041】上記した様に、システム発話中のユーザ発
話(以下、この様なユーザ発話をバージイン発話と称す
る)が行なわれると、バージイン発話とシステム発話と
の時間情報に基づき、認識語彙の重みの変化を求め、認
識辞書に記憶されている単語情報の重みを変更する。こ
の変更された重み付けされた認識辞書に基づいて、ユー
ザ発話の認識を行うので、バージイン発話の発生時刻と
シナリオに基づくシステム発話とのタイミングが異なっ
ていても、適切な重みを付加された認識辞書を使用して
ユーザ発話を認識することが出来るので、ユーザ発話の
認識率を向上させる。
As described above, when the user utterance during the system utterance (hereinafter, such a user utterance is referred to as a barge-in utterance) is performed, the weight of the recognition vocabulary is determined based on the time information between the barge-in utterance and the system utterance. A change is obtained and the weight of the word information stored in the recognition dictionary is changed. Since the user's utterance is recognized based on this changed weighted recognition dictionary, even if the time of occurrence of the barge-in utterance and the timing of the system utterance based on the scenario are different, the recognition dictionary with appropriate weight is added. Since the user utterance can be recognized by using, the recognition rate of the user utterance is improved.

【0042】また、認識辞書に「それ」などの指示語に
対応する指示語情報を認識語彙として記憶させておき、
バージイン発話に指示語によって選択肢を示す発話が含
まれている場合には、出力情報管理部によって、その指
示語の発話直前の選択肢に対応する語彙情報に基づき、
その語彙を認識結果とすることにより、指示語による選
択肢の選択を可能とする。
Further, the vocabulary information corresponding to the demonstrative word such as "that" is stored in the recognition dictionary as the recognition vocabulary,
When the barge-in utterance includes an utterance indicating an option by the directive, the output information management unit uses the vocabulary information corresponding to the option immediately before the utterance of the directive,
By using the vocabulary as the recognition result, it is possible to select the option by the vocabulary.

【0043】更に、システム発話の波形データを音声出
力データ格納部に保存し、指示語によるバージイン発話
があった際に、このバージイン発話直前にシステム発話
された単語を検知出来、その単語を指示語によって選択
された選択肢と認識する。
Furthermore, the waveform data of the system utterance is saved in the voice output data storage unit, and when a barge-in utterance is made by the directive, the system uttered word immediately before the barge-in utterance can be detected, and that word is designated as the directive word. Recognize as the option selected by.

【0044】[0044]

【発明の実施の形態】(第1実施例)図1から図6迄を
参照して第1実施例を説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS (First Embodiment) A first embodiment will be described with reference to FIGS.

【0045】まず、本発明の第1実施例の構成例を示す
図1を参照して、音声対話システム10の概要を説明す
る。対話制御部14は、マイクロコンピュータや制御プ
ログラム等を格納したROM(Read Only M
emory)、処理データの格納等のためのRAM(R
andom Access Memory)、その他記
憶装置や処理回路等から構成され、音声対話システム1
0の主たる制御等を行なうものである。この対話制御部
14に接続された対話シナリオ部12には、この音声対
話システム10のシステム発話を記述するシナリオを記
憶した対話シナリオ部12が接続され、このシナリオに
基づいてユーザへのシステム発話が出力情報管理部16
を介して音声出力部18から出力される。この出力情報
管理部16は、音声出力部18からシステム発話される
音声出力がシナリオのいずれの箇所であるかを監視して
いる。
First, an outline of the voice dialogue system 10 will be described with reference to FIG. 1 showing an example of the configuration of the first embodiment of the present invention. The dialogue control unit 14 is a ROM (Read Only M) that stores a microcomputer, a control program, and the like.
memory), a RAM (R) for storing processed data, etc.
and voice access system 1 including other storage devices, processing circuits, and the like.
The main control of 0 is performed. The dialogue scenario unit 12 connected to the dialogue control unit 14 is connected to the dialogue scenario unit 12 that stores a scenario describing the system utterance of the voice dialogue system 10, and the system utterance to the user is generated based on this scenario. Output information management unit 16
Is output from the audio output unit 18 via. The output information management unit 16 monitors which part of the scenario is the voice output of the system output from the voice output unit 18.

【0046】音声対話システム10のユーザは、このシ
ステム発話に応答して、ユーザ発話し、発話された音声
は音声入力部20に入力され、A/D変換などの信号処
理を受けて、対話制御部14に送られ、本実施例では対
話制御部14において更に特徴抽出等の信号処理を受け
て音声情報となり、音声認識部21に送られる。この音
声認識部21において、音声情報は、重み算出部24に
よって重みを付加された認識辞書22に記憶されている
語彙情報と、パターンマッチング等の周知の手法によっ
て比較処理され、どの語彙に相当するか認識される。
In response to the system utterance, the user of the voice dialogue system 10 utters the user's voice, and the uttered voice is input to the voice input unit 20 and undergoes signal processing such as A / D conversion to control the dialogue. It is sent to the unit 14, and in the present embodiment, the dialogue control unit 14 further receives signal processing such as feature extraction to obtain voice information, which is sent to the voice recognition unit 21. In the voice recognition unit 21, the voice information is compared with the vocabulary information stored in the recognition dictionary 22 weighted by the weight calculation unit 24 by a known method such as pattern matching, and corresponds to which vocabulary. Is recognized.

【0047】尚、図1において、鎖線で囲った音声対話
システム基本部11は、本発明の主要部であり、音声対
話システム10の利用目的に応じた対話シナリオ部1
2、認識辞書22、音声出力部18、音声入力部20を
使用することによって、より目的に応じた音声対話シス
テムを構成出来る。
In FIG. 1, the voice dialogue system basic portion 11 enclosed by a chain line is the main portion of the present invention, and the dialogue scenario portion 1 according to the purpose of use of the voice dialogue system 10.
2. By using the recognition dictionary 22, the voice output unit 18, and the voice input unit 20, it is possible to configure a voice dialogue system more suited to the purpose.

【0048】つぎに、本発明の特徴であるユーザがバー
ジイン発話した場合のユーザ発話の認識について、詳し
く説明する。
Next, the recognition of the user's utterance when the user makes a barge-in utterance, which is a feature of the present invention, will be described in detail.

【0049】図2は、対話シナリオ部12に記憶されて
いる対話シナリオ30の例と、この対話シナリオ30を
システム発話として音声出力した場合に、シナリオ箇所
が音声出力される際の発話タイミングを示すシステム発
話40と、このシステム発話40に対応してユーザが選
択肢を選ぶために発話したタイミングを示すユーザ発話
45とを示した図である。
FIG. 2 shows an example of the dialogue scenario 30 stored in the dialogue scenario section 12 and the utterance timing when the scenario part is voice-outputted when the dialogue scenario 30 is voice-output as a system utterance. FIG. 4 is a diagram showing a system utterance 40 and a user utterance 45 indicating a timing at which the user uttered to select an option corresponding to the system utterance 40.

【0050】この対話シナリオ30の例では、「ご利用
になりたいサービスを選択して下さい。1天気予報、2
スポーツニュース、3今日の運勢。」というシナリオの
一部を示しており、選択肢となるキーワードの前後、例
えば「1天気予報」の前後に区切り記号36「/」を付
してキーワードであることを示している。
In the example of this dialogue scenario 30, "Please select the service you want to use. 1 weather forecast, 2
Sports news, fortunes today. , A part of the scenario, and before and after a keyword that is an option, for example, before and after “1 weather forecast”, a delimiter 36 “/” is added to indicate that the keyword is a keyword.

【0051】この対話シナリオ30は、対話制御部14
によって読みだされ、出力情報管理部16でシナリオの
いずれの箇所がシステム発話されたかが検出され、音声
出力部18からシステム発話40として発話される。
This dialogue scenario 30 includes the dialogue control unit 14
Then, the output information management unit 16 detects which part of the scenario has been uttered by the system, and the voice output unit 18 utters the system utterance 40.

【0052】図2の例では、対話シナリオ30を構成す
る「・・を選択して下さい。」31、「1 天気予報」
32、「2 スポーツニュース」33、「3 今日の運
勢」34の各々のシナリオ箇所が、矢印で示した様に各
々時間区間41、42、43、および44に対応して、
システム発話されることを示している。そして、システ
ム発話40の時間区間43で「2 スポーツニュース」
と発話した時に、ユーザは「スポーツニュース」とのユ
ーザ発話47をユーザ発話時点46を始点としてバージ
インしたことを示している。
In the example of FIG. 2, "Please select .." 31 and "1 weather forecast" that constitute the dialogue scenario 30.
32, "2 sports news" 33, "3 today's fortune" 34, respectively, correspond to the time sections 41, 42, 43, and 44, as indicated by the arrows.
It indicates that the system is spoken. Then, in the time section 43 of the system utterance 40, "2 sports news"
Indicates that the user has barged in the user utterance 47 “sports news” starting from the user utterance time point 46.

【0053】この図2に示したシステム発話40にユー
ザがユーザ発話45に示す様なバージインをして応答し
た場合に、音声対話システム10がユーザが選択した選
択肢を認識するための処理フローを図3および認識辞書
の語彙とその語彙の重みの対応例を示す図4、重みを変
更した認識辞書の例を示す図5、バージイン時刻に伴う
重みの変化例を示す図6を参照して説明する。
When the user responds to the system utterance 40 shown in FIG. 2 with a barge-in as shown by the user utterance 45, the voice interactive system 10 recognizes the processing flow for recognizing the option selected by the user. 3 and FIG. 4 showing an example of correspondence between the vocabulary of the recognition dictionary and the weight of the vocabulary, FIG. 5 showing an example of the recognition dictionary in which the weight is changed, and FIG. 6 showing an example of change of the weight with barge-in time. .

【0054】図3は、本発明の音声対話システム10の
処理フローの1例を示す図であり、図2に示す様に、ユ
ーザがバージイン発話で応答した際に、そのバージイン
のタイミングに応じたシナリオ箇所を出力情報管理部1
6で検知してユーザの応答に含まれる単語等を推測し、
認識辞書22に記憶されているその推測された単語等の
重み付けを変更して、認識率を向上させる処理を行なう
ものである。
FIG. 3 is a diagram showing an example of the processing flow of the voice dialogue system 10 of the present invention. As shown in FIG. 2, when the user responds with a barge-in utterance, the timing of the barge-in corresponds. Output scenario part Information management unit 1
Detected in 6, guess the word etc. contained in the user's response,
The weighting of the inferred word or the like stored in the recognition dictionary 22 is changed to perform the process of improving the recognition rate.

【0055】ステップ100で処理を開始する。対話シ
ナリオ部12に記憶されているシナリオの各キーワード
は、区切り記号36「/」で区切られて記述されており
(図2参照)、対話制御部14を介して出力情報管理部
16に順次キーワードが送信されると、この区切り記号
36が何番目の区切り記号36であるかが計数される。
従って、音声出力部18からのシステム発話は、何番目
の区切り記号36に対応するキーワードかが、出力情報
管理部16で監視されつつ実行される(ステップ10
2)。この初期の状態では、認識辞書22の語彙には図
4に示す様に、記憶されている各語彙には同じ重み(本
実施例では1.0)が付加されて記憶されている。
The process starts at step 100. Each keyword of the scenario stored in the dialogue scenario unit 12 is described by being separated by the delimiter 36 “/” (see FIG. 2), and the keywords are sequentially provided to the output information management unit 16 via the dialogue control unit 14. Is transmitted, the number of the delimiter 36 is counted.
Therefore, the system utterance from the voice output unit 18 is executed while the output information management unit 16 monitors the number of the delimiter symbol corresponding to the keyword (step 10).
2). In this initial state, the vocabulary of the recognition dictionary 22 is stored with the same weight (1.0 in this embodiment) added to each stored vocabulary, as shown in FIG.

【0056】上記のシステム発話中にユーザが選択肢の
一つを選ぶバージイン発話を始めると、このバージイン
されたユーザの音声は、音声入力部20に入力され、対
話制御部14を介してバージイン開始信号として出力情
報管理部16に送信される(ステップ104)。
When the user starts barge-in utterance to select one of the options during the above-mentioned system utterance, the barged-in user's voice is input to the voice input unit 20 and the barge-in start signal is input via the dialogue control unit 14. Is transmitted to the output information management unit 16 (step 104).

【0057】このバージイン開始信号に基づき、出力情
報管理部16はシステム発話を停止し、更にシナリオの
どの箇所をシステム発話していたかを検出する。例え
ば、図2に示す様に、シナリオ箇所33の「スポーツニ
ュース」をシステム発話するで示したシステム発話箇
所43中に、ユーザが▼印で示したバージイン発話開始
時点46でユーザ発話47「スポーツニュース」とバー
ジインを行なった場合に、このユーザのバージインは、
対話シナリオ30の区切り記号36−2と36−3の間
に発生したことが、出力情報管理部16によって検知さ
れる。ここで、対話シナリオのどの箇所でバージインさ
れたかをバージイン属性と称する。バージインが発生す
ると出力情報管理部16は、バージイン属性を対話制御
部14を介して、重み算出部24にそのバージイン属性
を送信する(図3のステップ106)。
Based on this barge-in start signal, the output information management unit 16 stops the system utterance and further detects which part of the scenario the system uttered. For example, as shown in FIG. 2, the user utterance 47 “Sports news” is displayed at the barge-in utterance start time point 46 indicated by the user in the system utterance portion 43 indicated by the system utterance of “sports news” in the scenario portion 33. If you do a barge-in with this user, the barge-in for this user is
The occurrence between the delimiters 36-2 and 36-3 of the dialogue scenario 30 is detected by the output information management unit 16. Here, where in the dialogue scenario the barge-in is performed is referred to as a barge-in attribute. When the barge-in occurs, the output information management unit 16 transmits the barge-in attribute to the weight calculation unit 24 via the dialogue control unit 14 (step 106 in FIG. 3).

【0058】重み算出部24では、受信したバージイン
属性からバージインされたシナリオ箇所およびこのバー
ジイン前後の各々のシナリオ箇所に含まれている各々の
キーワードが対話シナリオ30に基づき検出される。こ
の検出された各々のキーワードに対して、例えば、バー
ジインされたシナリオ箇所に含まれるキーワードには最
も大きな重みを、バージイン以前にシステム発話された
シナリオ箇所については、バージインされたシナリオ箇
所に近いシナリオ箇所に含まれるキーワード程、大きな
重みを付ける。そして、バージインされた時刻以降にシ
ステム発話される予定であったシナリオ箇所に含まれる
キーワードには、システム発話済のキーワードに付加さ
れる重みよりも小さな重みを付加する(図3のステップ
108)。
In the weight calculation section 24, the keyword part included in each of the scenario parts before and after the barge-in based on the received barge-in attribute and each scenario part before and after the barge-in is detected based on the dialogue scenario 30. For each of the detected keywords, for example, the keyword included in the barged-in scenario part is given the highest weight, and the scenario part uttered by the system before the barge-in is a scenario part close to the barge-in scenario part. The keywords included in are weighted more. Then, the keywords included in the scenario portion that was scheduled to be system uttered after the barge-in time are weighted smaller than the weights added to the system uttered keywords (step 108 in FIG. 3).

【0059】具体的な重み付けを、図2のユーザ発話時
点46でバージインされた場合のこの各キーワードに対
応付けられた重みを例として図5に示す。この図5で、
語彙61はシナリオ中のキーワードであり、この各々の
キーワードに対して重み62が対応付けられている。こ
の図5に示す様に、ユーザがバージインしたユーザ発話
時点46に対応するシステム発話43中に含まれるキー
ワード「スポーツニュース」に最も大きな重み1.5
が、システム発話済のキーワード「天気予報」には、重
み1.2が、そして未だシステム発話されていないキー
ワード「今日の運勢」には、最も小さな重み0.8が付
されている。
Specific weighting is shown in FIG. 5 as an example of weights associated with the respective keywords when barging in at the user utterance time point 46 in FIG. In this Figure 5,
The vocabulary 61 is a keyword in the scenario, and a weight 62 is associated with each keyword. As shown in FIG. 5, the largest weight 1.5 is given to the keyword “sports news” included in the system utterance 43 corresponding to the user utterance time point 46 when the user barges in.
However, the keyword "weather forecast" that has already been uttered by the system is given a weight of 1.2, and the keyword "today's fortune" that has not been uttered by the system is given a lowest weight of 0.8.

【0060】この様に、重み算出部24で算出されたキ
ーワード群に対する各々の重みを、認識辞書22に記憶
されている各キーワードに対応する語彙に付加し、認識
辞書22の語彙の重みを更新する(図3のステップ11
0)。
As described above, each weight for the keyword group calculated by the weight calculating section 24 is added to the vocabulary corresponding to each keyword stored in the recognition dictionary 22, and the vocabulary weight in the recognition dictionary 22 is updated. (Step 11 in FIG. 3)
0).

【0061】このステップ110によって、ユーザがバ
ージインした状況(この場合は対話シナリオに対するバ
ージン時刻)に応じて、ユーザ発話に含まれるであろう
語彙、更にこの語彙の中でもよりユーザの発話に含まれ
るで有ろう語彙により大きな重み付けをした。この重み
付けが更新された認識辞書22を使用して、ユーザ発話
を音声認識する(図3のステップ112)。ここで、音
声認識は、周知のダイナミックプログラミング・マッチ
ング法や隠れマルコフモデルによる方法やユーザ発話に
含まれる音声の特徴パラメータの特徴に基づく方法など
を用いることが可能である。
By this step 110, the vocabulary that may be included in the user's utterance, and further included in the user's utterance among this vocabulary, may be included depending on the situation in which the user virginized (in this case, the virgin time for the dialogue scenario). Greater weight was given to the likely vocabulary. The recognition dictionary 22 with the updated weighting is used to perform voice recognition of the user's utterance (step 112 in FIG. 3). Here, for the voice recognition, a well-known dynamic programming matching method, a method using a hidden Markov model, a method based on the characteristics of the characteristic parameters of the speech included in the user's utterance, or the like can be used.

【0062】ここで、この音声認識を簡明に説明するた
めに、ユーザ発話の音声から抽出された特徴パラメータ
Uと、予め記憶されている各々のキーワード(語彙)の
特徴パラメータK1、K2、・・・、Knとの比較を行
い、この|U−Kj|が最も小さなキーワードをユーザ
が発話したキーワードとする。ここで、上記した重みを
Wとすると、本実施例では、ユーザが発話したキーワー
ドは、|U−Kj|/Wの値が最も小さなものであると
認識する。
Here, in order to explain this speech recognition in a simple manner, the characteristic parameter U extracted from the speech of the user's speech and the characteristic parameters K1, K2, ... Of each keyword (vocabulary) stored in advance. , Kn is compared, and the keyword having the smallest | U−Kj | is set as the keyword uttered by the user. Here, assuming that the above-mentioned weight is W, in the present embodiment, the keyword uttered by the user is recognized to have the smallest value of | U−Kj | / W.

【0063】つぎに、対話シナリオ部12に記録されて
いる対話シナリオに次にユーザに提供すべき対話シナリ
オが有るか否かを対話制御部14によって判定し、続け
て提供する対話シナリオが有る場合(図3ステップ11
4でYESの場合)には、ユーザが選択したキーワー
ド、つまり、認識された結果に基づき、次の対話シナリ
オの発話の処理に移る(図3ステップ116)。
Next, the dialogue control unit 14 determines whether or not the dialogue scenario recorded in the dialogue scenario unit 12 has a dialogue scenario to be provided to the user next, and if there is a dialogue scenario to be provided subsequently. (Fig. 3, step 11
If YES in 4), based on the keyword selected by the user, that is, the recognized result, the process proceeds to the process of uttering the next dialogue scenario (step 116 in FIG. 3).

【0064】一方、次の対話シナリオが無い場合には
(図3のステップ114でNOの場合)、選択された選
択肢に応じた処理、例えば「スポーツニュース」が選択
されていた場合には、スポーツニュースなどのコンテン
ツが、図示しないコンテンツ提示装置を介して、例えば
音声出力部18などからユーザに提示される処理に引き
渡され、本処理フローは終了する(図3のステップ11
8)。
On the other hand, if there is no next dialogue scenario (NO in step 114 of FIG. 3), processing corresponding to the selected option, for example, if "sports news" has been selected, sports Content such as news is handed over to a process presented to the user from, for example, the audio output unit 18 via a content presentation device (not shown), and this process flow ends (step 11 in FIG. 3).
8).

【0065】尚、上記図3に示した処理フローでは、ユ
ーザからの応答に対して、確認処理、例えば、ユーザの
応答の後に、認識した単語に対応して「スポーツニュー
スをご希望ですね」とのシステム発話処理を挿入しても
良い。この様な、確認処理を行なう場合には、図3の処
理フロー中のステップ112の後に確認処理ステップを
挿入することが好ましい。
In the processing flow shown in FIG. 3, the response from the user is confirmed, for example, after the user's response, the word "sports news is desired" corresponding to the recognized word. The system utterance processing with may be inserted. When such confirmation processing is performed, it is preferable to insert a confirmation processing step after step 112 in the processing flow of FIG.

【0066】もし、この確認ステップでユーザの応答に
基づく判定処理も行い、確認結果がYESの場合には、
ステップ114へ、NOの場合には、「では、再度繰り
返しますので、ご希望の項目を選択願います」などのコ
メントをシステム発話した後に、ステップ102に戻
り、処理を続行することが好ましい。
In this confirmation step, the determination process based on the user's response is also performed, and if the confirmation result is YES,
In the case of NO in step 114, it is preferable to return to step 102 and continue the processing after uttering a comment such as "I will repeat again, so please select the desired item".

【0067】また、上記図5や図6の認識辞書中の語彙
として、「天気予報」、「スポーツニュース」、「今日
の運勢」などを各々登録しているが、これらの語彙を例
えば、「天気」、「予報」、「スポーツ」、「ニュー
ス」、「今日」、「運勢」などの様に、さらに細かく分
割して登録しても良い。この様に、細かく分割した場合
であっても、例えば、「天気」、「予報」には同じ重み
を付加することが好ましい。
Further, "weather forecast", "sports news", "today's fortune", etc. are respectively registered as the vocabulary in the recognition dictionary of FIG. 5 or FIG. It may be registered in more detail by dividing into “weather”, “forecast”, “sports”, “news”, “today”, “fortune” and the like. Even in the case of fine division, it is preferable to add the same weight to, for example, “weather” and “forecast”.

【0068】また、システム発話で「1 天気予報」な
どの様に、数字を平行してシステム発話する場合にも、
上記と同じように、「1」も登録しておき、天気」、
「予報」には同じ重みを付加することが好ましい。
When the system utters the system utterances with the numbers in parallel, such as "1 weather forecast",
In the same way as above, "1" is also registered, weather ",
It is preferable to add the same weight to the “forecast”.

【0069】上記した処理フローの説明から分かる様
に、ユーザがバージインした時刻によって、図5に示し
た各キーワードに付加される重み付けは、変化する。こ
の各キーワードに付される重みが変化する様子を示した
のが図6である。図6で72、73、74はバージイン
した時刻情報を示し、例えば記号で示した時刻情報7
2は、図2のシステム発話40中のシステム発話箇所4
2中にバージインされたことを示している。このタイミ
ングでバージインされた事は、「天気予報」とのシステ
ム発話中にバージインされた場合であり、このキーワー
ド「天気予報」の重みを1.5と最も大きくし、このキ
ーワード以降にシステム発話される予定であったキーワ
ード「スポーツニュース」、「今日の運勢」等には、小
さな重み0.8を付加している。また、時刻情報74の
場合には、システム発話が「今日の運勢」と発話された
際にバージインが有ったので、このキーワード「今日の
運勢」に最も大きな重み1.4を付加し、既に発話済の
キーワード「天気予報」、「スポーツニュース」には、
小さな重み1.0を付加している。ここで、時刻情報7
4の場合の重みを、「天気予報」0.9、「スポーツニ
ュース」1.0、「今日の運勢」1.5の様に、バージ
イン時点から時間経過の長いキーワードには、より小さ
な重みを付加する様にしても良い。
As can be seen from the above description of the processing flow, the weighting added to each keyword shown in FIG. 5 changes depending on the time when the user barges in. FIG. 6 shows how the weight assigned to each keyword changes. In FIG. 6, reference numerals 72, 73, and 74 denote time information when barge-in is performed, for example, time information 7 indicated by a symbol.
2 is a system utterance point 4 in the system utterance 40 of FIG.
It is shown that it was barge-in in 2nd. Barging in at this timing is when barging in during system utterance with "weather forecast". The keyword "weather forecast" has the largest weight of 1.5, and system utterance is made after this keyword. A small weight of 0.8 is added to the keywords "sports news", "fortune of today", etc. Further, in the case of the time information 74, since there was a barge-in when the system utterance "Today's fortune" was uttered, the keyword "Today's fortune" was added with the largest weight of 1.4, and In the spoken keywords "weather forecast" and "sports news",
A small weight of 1.0 is added. Here, time information 7
The weight in the case of 4 is set to a smaller weight for a keyword having a long time elapsed from the time of barge-in, such as "weather forecast" 0.9, "sports news" 1.0, "today's fortune" 1.5. It may be added.

【0070】上記した音声認識を行なう際の処理につい
て、バージインした際の時刻情報を基に、ユーザ発話に
含まれるキーワードを推定し、推定されたキーワードに
時刻情報と対応するシナリオ箇所との関係に基づき重み
を付加した。このバージインした際の時刻情報によって
重み付けを行なう以外に、バージインの状況を加味した
以下の様な重み付けも、ユーザ発話中のキーワードをよ
り正確に認識するために有効である。このバージインの
状況を加味した認識方法を図7、図8を参照して説明す
る。図7はユーザ発話の速さに基づく重み付けを示す図
であり、図8はユーザ発話の強さに基づく重み付けを示
す図である。
Regarding the above-described processing when performing voice recognition, the keyword included in the user's utterance is estimated based on the time information at the time of barge-in, and the relationship between the estimated keyword and the scenario information corresponding to the time information. Weight is added based on this. In addition to weighting by the time information at the time of barge-in, the following weighting in consideration of the status of barge-in is also effective for more accurately recognizing the keyword spoken by the user. A recognition method considering the situation of the barge-in will be described with reference to FIGS. 7 and 8. FIG. 7 is a diagram showing weighting based on the speed of the user utterance, and FIG. 8 is a diagram showing weighting based on the strength of the user utterance.

【0071】図7においてバージイン発話の時間波形8
0からバージイン発話継続時間Tを求める。このバージ
イン発話時点に対応する対話シナリオ箇所中に含まれる
キーワードについて、予め記憶されている発話時間To
とTとの比を求め、この速さ比R81に応じて、速さ比
と重み係数との対応82から係数を求め、重みの初期値
83にこの係数を掛けて変更後の重み84を求める。こ
れら一連の処理は対話制御部14、または重み算出部2
4で処理しても良く、または両方で分担処理しても良
い。
In FIG. 7, time waveform 8 of barge-in utterance
The barge-in utterance duration T is calculated from 0. The utterance time To stored in advance for the keyword included in the dialogue scenario portion corresponding to the time of the barge-in utterance
And T, the coefficient is obtained from the correspondence 82 between the speed ratio and the weighting coefficient in accordance with the speed ratio R81, and the initial weight value 83 is multiplied by this coefficient to obtain the changed weight 84. . These series of processes are performed by the dialogue control unit 14 or the weight calculation unit 2
4 may be performed, or both may be shared.

【0072】更に、速さ比と重み係数との対応82はテ
ーブルとして対話制御部14中または重み算出部24ま
たは認識辞書22中のいずれかに記憶されている。
Further, the correspondence 82 between the speed ratio and the weighting coefficient is stored as a table in either the dialogue control unit 14, the weighting calculation unit 24 or the recognition dictionary 22.

【0073】上記発話の速さの代わりに、図8ではユー
ザ発話の音響パワーを利用した場合であって、バージイ
ン発話の時間波形80から周波数解析して得られるバー
ジイン発話のスペクトラム91を求め、このスペクトラ
ム91からバージイン発話音声のパワーPを求める。そ
して、このバージイン発話時点に対応する対話シナリオ
箇所中に含まれるキーワードについて、予め記憶されて
いるパワーPoとPとの比を求め、このパワー比92に
応じて、パワー比と重み係数との対応93から係数を求
め、重みの初期値94にこの係数を掛けて変更後の重み
95を求める。これら一連の処理は対話制御部14、ま
たは重み算出部24で処理しても良く、または両方で分
担処理しても良い。更に、パワー比と重み係数との対応
93はテーブルとして対話制御部14中または重み算出
部24または認識辞書22中のいずれかに記憶されてい
る。
In place of the above-mentioned utterance speed, in FIG. 8, when the acoustic power of the user utterance is used, the spectrum 91 of the barge-in utterance obtained by frequency analysis is obtained from the time waveform 80 of the barge-in utterance. From the spectrum 91, the power P of the barge-in speech is obtained. Then, with respect to the keyword included in the dialogue scenario portion corresponding to this barge-in utterance time, the pre-stored ratio of power Po and P is obtained, and the correspondence between the power ratio and the weighting coefficient is obtained according to this power ratio 92. The coefficient is obtained from 93, and the initial value 94 of the weight is multiplied by this coefficient to obtain the changed weight 95. These series of processes may be processed by the dialogue control unit 14 or the weight calculation unit 24, or may be shared by both. Further, the correspondence 93 between the power ratio and the weight coefficient is stored as a table in either the dialogue control unit 14, the weight calculation unit 24, or the recognition dictionary 22.

【0074】(第2実施例)本発明の第2実施例を図9
を参照して、音声対話システム200を説明する。この
第2実施例を示す図9において、第1実施例の構成例を
示す図1中の構成部と同様の機能をもつものには、同じ
符号を付した。第1実施例の音声対話システム10と異
なり、この音声対話システム200では、重み算出部2
4−2に重み係数管理部201が接続され、重み算出部
24−2が認識辞書22に記憶されている語彙に付加す
る重み係数が、この重み係数管理部201に記憶されて
いる点である。
(Second Embodiment) FIG. 9 shows a second embodiment of the present invention.
The voice dialogue system 200 will be described with reference to FIG. In FIG. 9 showing the second embodiment, components having the same functions as those of the components in FIG. 1 showing the configuration example of the first embodiment are designated by the same reference numerals. Unlike the voice dialogue system 10 of the first embodiment, in the voice dialogue system 200, the weight calculation unit 2
The weighting factor management unit 201 is connected to 4-2, and the weighting factor added to the vocabulary stored in the recognition dictionary 22 by the weighting calculation unit 24-2 is stored in the weighting factor management unit 201. .

【0075】更に詳しくは、システム発話に対する応答
がユーザ発話されると、そのユーザ発話時点に対応し
て、対話シナリオの何れの箇所がシステム発話されたか
が、第1実施例と同様に出力情報管理部16によって検
出される。そして、このバージイン時点のシステム発話
箇所に含まれているキーワードには、最も大きな重み
が、既にシステム発話された箇所に含まれているキーワ
ードには、そのバージイン時点との時間経過が大きなシ
ステム発話箇所に含まれるキーワード程、小さな重み
を、そして未発話のシステム発話箇所に含まれるキーワ
ードには更に小さな重みを付加する。ここで、この各重
みの比率またはこの各重みが重み係数管理部201にテ
ーブルとして記憶されている。
More specifically, when the response to the system utterance is uttered by the user, which part of the dialogue scenario is uttered by the system corresponding to the user utterance time is output information management unit as in the first embodiment. Detected by 16. The keyword included in the system utterance at the time of this barge-in has the highest weight, and the keyword included in the system utterance at the time of the barge-in has a large time lapse with the barge-in time. The smaller the weight of the keyword included in the keyword, and the smaller the weight of the keyword included in the unspoken system utterance. Here, the ratio of each weight or each weight is stored as a table in the weight coefficient management unit 201.

【0076】この重み係数管理部201にテーブルとし
て記憶されている重み係数テーブル例を図10に示す。
この図10に示す例では、バージイン時点のシナリオ箇
所に含まれるキーワードには、最も大きな重み1.8を
付加し、その1つ前のシナリオ箇所に含まれるキーワー
ドには重み1.5、更に1つ前のシナリオ箇所に含まれ
るキーワードには1.4とした。即ち、既にシステム発
話されているシナリオ箇所に含まれるキーワードは、バ
ージイン時点から時間経過が長いシナリオ箇所に含まれ
るキーワード程、小さな重みを対応させている。また、
バージイン時点以降に発話される予定であったシナリオ
箇所に含まれるキーワードには、0.8と小さな重みを
対応させる。
FIG. 10 shows an example of a weighting coefficient table stored in the weighting coefficient management unit 201 as a table.
In the example shown in FIG. 10, the keyword included in the scenario portion at the time of barge-in is given the highest weight of 1.8, and the keyword included in the scenario portion immediately before the keyword has a weight of 1.5 and further 1. The keyword included in the previous scenario part was set to 1.4. That is, with respect to the keywords included in the scenario portion that has already been uttered by the system, the smaller weight is associated with the keyword included in the scenario portion whose time elapses from the time of barge-in. Also,
A small weight of 0.8 is associated with the keyword included in the scenario portion that was supposed to be uttered after the barge-in time.

【0077】この様に、バージイン時点を基点として、
時間経過やシステム発話されたか否かに基づいて、ユー
ザが発話すると推測されるキーワードに付加する重みを
重み係数管理部201に記憶させ、バージイン時点を検
出して、このバージイン時点とシナリオ発話箇所との対
応付けと、対応する重みをキーワードに付加する処理を
重み算出部24−2で行う。
Thus, with the barge-in time as the base point,
The weighting factor management unit 201 stores the weight to be added to the keyword estimated to be uttered by the user based on the elapsed time and whether or not the system uttered, detects the barge-in time, and detects the barge-in time and the scenario uttered portion. And the process of adding the corresponding weight to the keyword are performed by the weight calculation unit 24-2.

【0078】この様に、重みテーブルを構成したので、
キーワードに付加する重みの対応付けが簡単になり、処
理を迅速に行なうことが可能になる。
Since the weight table is constructed in this way,
The weights added to the keywords are easily associated with each other, and the processing can be performed quickly.

【0079】(第3実施例)次に、本発明の第3実施例
の構成例を示す図11を参照して第3実施例を説明す
る。この図11は、第3実施例の音声対話システム22
0の概要を示すものである。本図においても、第1、第
2の実施例と同様の機能を有する構成部には同じ符号を
付して、説明を省略する。
(Third Embodiment) Next, a third embodiment will be described with reference to FIG. 11 showing a configuration example of the third embodiment of the present invention. This FIG. 11 shows the voice dialogue system 22 of the third embodiment.
0 shows the outline of 0. Also in this figure, components having the same functions as those of the first and second embodiments are designated by the same reference numerals, and the description thereof will be omitted.

【0080】この第3実施例の特徴は、対話履歴管理部
224を設けた点にあり、この対話履歴管理部224に
ユーザ発話を音声対話システム220が認識した結果の
正当率を経歴として記憶し、この正当率に基づいて、キ
ーワードに付与する重みを更新する様に構成したことで
ある。
The feature of the third embodiment is that a dialogue history management unit 224 is provided, and the dialogue history management unit 224 stores the correct ratio of the result of recognition of the user utterance by the voice dialogue system 220 as a history. The weight given to the keyword is updated based on this correctness rate.

【0081】システム発話に応じて、ユーザ発話がバー
ジインされ、このバージイン時点に対応したシナリオ箇
所に含まれるキーワードに、重みテーブル管理部222
に記憶されている重みを重み算出部24−3で付与す
る。
The user utterance is barged in according to the system utterance, and the weight table management unit 222 is added to the keyword included in the scenario portion corresponding to the barge-in time.
The weight calculation unit 24-3 gives the weights stored in the table.

【0082】この重みテーブル管理部222に記憶され
ている重み係数のテーブルは、第2実施例の重み係数管
理部201に記憶されているテーブルと同様のものを使
用できる。
The weight coefficient table stored in the weight table management section 222 may be the same as the table stored in the weight coefficient management section 201 of the second embodiment.

【0083】次に、この重みテーブル管理部222に記
憶されている重みを対話履歴に基づいて、更新する処理
について以下に説明する。ユーザのバージイン発話があ
った場合に、そのバージイン時点に対応するシナリオ箇
所が出力情報管理部16によって検知され、そのシナリ
オ箇所、その前後のシナリオ箇所等に含まれるキーワー
ドが検出される。そして、第2実施例に示したと同様
に、この各キーワードには、バージイン時点に発話され
ていたシナリオ箇所に含まれるキーワードには、最も大
きな重みを、既にシステム発話されているシナリオ箇所
に含まれるキーワードについては、このバージイン時点
までの時間経過の長いシナリオ箇所に含まれているキー
ワード程、小さな重みを付加する。この様にキーワード
と重みを対応づけ、対話履歴管理部224に記憶されて
いる管理テーブルの例を図12に示す。
Next, a process for updating the weight stored in the weight table management unit 222 based on the dialogue history will be described below. When the user makes a barge-in utterance, the output information management unit 16 detects the scenario part corresponding to the barge-in time, and detects the keywords included in the scenario part, the scenario parts before and after the scenario part, and the like. Then, as in the case of the second embodiment, the keywords included in the scenario portion that was uttered at the time of barge-in includes the highest weight in the scenario portion that has already been uttered by the system. With respect to keywords, the smaller weight is added to the keywords included in the scenario portion whose time elapses up to the time of barge-in. An example of the management table stored in the dialogue history management unit 224 by associating the keywords with the weights in this way is shown in FIG.

【0084】この図12に示すテーブルは、対話シナリ
オに5つのキーワード、a、b、c、d、eが含まれて
いる場合を示し、バージイン時点に対応するシナリオ箇
所にはキーワードcが含まれている場合を示す。
The table shown in FIG. 12 shows a case where the dialogue scenario includes five keywords, a, b, c, d, and e, and the scenario portion corresponding to the time of barge-in includes the keyword c. Indicates the case.

【0085】バージイン時点のシナリオ箇所に含まれる
キーワードcには重み1.8、その1つ前のシナリオ箇
所に含まれるキーワードbには重み1.5、キーワード
aには1.4と言う様に、バージイン時点までの時間経
過が長いキーワード程、小さな重みが付加され、更に、
本例ではバージイン時点以降に発話される予定であった
キーワードd、cには重み0.8を付加することを示し
ている。そして、この様な重みを各キーワードに付加し
て、これらのキーワードと音声入力部20から入力され
たユーザ発話の音声との比較による音声認識が音声認識
部21−3で行なわれる。この音声認識を多数のユーザ
に対して行なった際に、それぞれの重みを付したキーワ
ードが正しく認識された比率である正当率228を認識
処理ごとに対話履歴として更新し、対話履歴管理部22
4に記憶されている。
The keyword c included in the scenario portion at the time of barge-in has a weight of 1.8, the keyword b included in the scenario portion immediately before that has a weight of 1.5, and the keyword a has a weight of 1.4. , The longer the time elapsed until the time of barge-in is, the smaller weight is added to the keyword.
In this example, a weight of 0.8 is added to the keywords d and c that were supposed to be uttered after the barge-in time. Then, such a weight is added to each keyword, and the voice recognition unit 21-3 performs voice recognition by comparing these keywords with the voice of the user utterance input from the voice input unit 20. When this speech recognition is performed on a large number of users, the correctness rate 228, which is the ratio of correctly recognizing the weighted keywords, is updated as a dialogue history for each recognition process, and the dialogue history management unit 22
It is stored in 4.

【0086】この比較によって、重みの大きなキーワー
ドが必ずしもユーザ発話に含まれるキーワードと認識さ
れない場合がある。例えば、図2で示したシステム発話
40では、「天気予報」、「スポーツニュース」、「今
日の運勢」と順次発話され、同図に示す様に、「スポー
ツニュース」とシステム発話があった時点でバージイン
発話があったとしても、もしユーザが、選択肢の選択に
迷ったり、また、高齢のユーザであったりした場合に
は、システム発話に対してユーザのバージイン発話はず
れることがあり得る。図12のキーワードbの正当率が
7%とになっているのは、この音声対話システム220
での多数回のユーザの応答の中には、ユーザのバージイ
ンのタイミングとシステム発話とが多少ずれる場合があ
ることを示している。
By this comparison, a keyword having a large weight may not always be recognized as a keyword included in the user's utterance. For example, in the system utterance 40 shown in FIG. 2, “weather forecast”, “sports news”, and “fortune of today” are sequentially uttered, and as shown in FIG. Even if there is a barge-in utterance, the user's barge-in utterance may deviate from the system utterance if the user is confused about the choice or is an elderly user. The valid rate of the keyword b in FIG. 12 is 7% because it is the voice dialogue system 220.
It is shown that the user's barge-in timing and the system utterance may be slightly deviated from the user's response in many times.

【0087】図13に示した対話履歴管理部の管理テー
ブルの例を示す図では、図12と同様に、5つのキーワ
ード(選択肢が5つ)の対話シナリオの場合で、初期の
重み234の付加の仕方も同様の例である。しかしなが
ら、多数回のユーザ応答の結果を示す正当率が、図12
とは異なっており、バージイン時点のシナリオ箇所に含
まれるキーワードに最も大きな重みを付けた場合であっ
ても、その1つ前のキーワードbの方が正答率236が
高くなっている例を示した。
In the diagram showing an example of the management table of the dialog history management unit shown in FIG. 13, as in FIG. 12, in the case of a dialog scenario of five keywords (five choices), an initial weight 234 is added. The method is also similar. However, the correct rate showing the result of a large number of user responses is shown in FIG.
In this example, the correct answer rate 236 is higher for the keyword b immediately before the keyword b even when the keyword included in the scenario portion at the time of barge-in is given the highest weight. .

【0088】例えば、キーワードbが比較的短い単語で
例えば名所案内を意図して「名所」とのみシステム発話
されたり、紛らわしい単語で例えば風光明媚な場所の案
内を意図して「景勝地」との単語を使用したり、また
は、周辺騒音のためにシステム発話が聞き取り難くバー
ジインのタイミングがずれたり、上記したユーザが選択
肢の選択に迷った場合に生じる可能性がある。
For example, if the keyword b is a relatively short word, the system utters only "famous place" for the purpose of, for example, sight-seeing, or if it is a confusing word, for example, "scenic spot" for the purpose of guiding a scenic place. This may occur when a word is used, or the system utterance is difficult to hear due to ambient noise and the barge-in timing is shifted, or when the above-mentioned user is lost in selecting an option.

【0089】この様に、初期の重みと正当率とが図12
の様には対応しない場合には、重みを変更して、変更後
の重み238に示す様に更新する。
As described above, the initial weight and the correct rate are shown in FIG.
If it does not correspond to, the weight is changed and updated as indicated by the changed weight 238.

【0090】この様にして、本実施例の音声対話システ
ム220では、キーワードに付加する重みを、対話経歴
に基づきより良い重みに変更出来るので音声認識率の向
上が可能になる。
In this way, in the voice dialogue system 220 of this embodiment, the weight added to the keyword can be changed to a better weight based on the dialogue history, so that the voice recognition rate can be improved.

【0091】(第4実施例)本発明の第4実施例の構成
例を示す図14および指示語を含む応答の処理フローの
1例を示す図15を参照して、ユーザ発話が「それ」な
どの指示語を含む応答をバージインした場合の音声対話
システム240を説明する。
(Fourth Embodiment) Referring to FIG. 14 showing an example of the configuration of the fourth embodiment of the present invention and FIG. 15 showing an example of the processing flow of a response including a directive, the user utterance is “that”. The voice interaction system 240 in the case of barging in the response including the directives such as

【0092】本実施例においても第1、2、3実施例と
同じ機能を有する構成部に対しては、同じ符号を付し、
説明を省略する。
Also in this embodiment, the same reference numerals are given to the components having the same functions as in the first, second and third embodiments,
The description is omitted.

【0093】本第4実施例と上記各実施例との主たる違
いは、音声入力部20からの「それ」などの指示語を含
むユーザ発話音声が入力されても、その指示語によって
どの選択肢が選択されたかが、認識出来る事に特徴があ
る。ここで、指示語がユーザ発話され、音声入力部20
を介して対話制御部14−4に入力されると、この指示
語の特徴抽出が行なわれ、この特徴と標準パターンとの
比較が音声認識部21−4において、行なわれ、指示語
が入力されたことが検知される。この各種の指示語の標
準パターン情報は、本実施例では認識辞書22に記憶さ
れている。
The main difference between the fourth embodiment and each of the above-described embodiments is that even if a user's uttered voice including an instruction word such as "that" is input from the voice input unit 20, which option is selected by the instruction word. The feature is that it can be recognized whether it is selected. Here, the instruction word is uttered by the user, and the voice input unit 20
When input to the dialogue control unit 14-4 via the, the feature extraction of this directive is performed, the feature is compared with the standard pattern in the voice recognition unit 21-4, and the directive is input. Is detected. The standard pattern information of these various directives is stored in the recognition dictionary 22 in this embodiment.

【0094】次に、この指示語を含むユーザ発話で選択
肢が選択される際の音声対話システム240の詳細の処
理フローを以下に説明する。
Next, a detailed processing flow of the voice interaction system 240 when an option is selected by the user's utterance including this directive is described below.

【0095】音声対話システム240が稼働可能となる
と図15のステップ300で処理を開始する。本実施例
においてもシステム発話は図2で示した対話シナリオを
使用するものとして説明する。
When the voice interactive system 240 becomes operable, the process starts in step 300 of FIG. Also in this embodiment, the system utterance will be described assuming that the dialogue scenario shown in FIG. 2 is used.

【0096】第1実施例と同様に、対話シナリオ部12
に記憶されている対話シナリオは、対話制御部14−4
を介して出力情報管理部16−4に順次キーワードが送
信されると、図2に示した区切り記号36が何番目の区
切り記号36であるかが計数される。従って、音声出力
部18からのシステム発話は、何番目の区切り記号36
に対応するキーワードかが、出力情報管理部16−4で
監視されつつ実行される(図15のステップ302)。
Similar to the first embodiment, the dialogue scenario section 12
The dialogue scenario stored in the dialogue control unit 14-4.
When the keywords are sequentially transmitted to the output information management unit 16-4 via the, the number of the delimiter 36 shown in FIG. 2 is counted. Therefore, the system utterance from the voice output unit 18 is the order of the delimiter 36.
The keyword corresponding to is executed while being monitored by the output information management unit 16-4 (step 302 in FIG. 15).

【0097】上記のシステム発話中に、図2のユーザ発
話時点46において、ユーザが選択肢の一つを選ぶ「そ
れ」と言う指示語をバージイン発話すると、このバージ
インされたユーザの音声は、音声入力部20に入力さ
れ、対話制御部14−4で特徴抽出が行なわれ、この抽
出された特徴情報は音声認識部21−4に入力され、予
め認識辞書22に記憶されている各指示語の標準パター
ンとの比較が行なわれる。ユーザ発話が指示語であるこ
とが音声認識部21−4で認識されると、この認識に基
づくバージイン信号が、選択指示語管理部242に送信
され、この選択指示語管理部242から指示語によるバ
ージインがなされたことを示す指示語バージイン信号が
対話制御部14−4を介して、出力情報管理部16−4
に送信される(図15のステップ304)。
During the above system utterance, at the user utterance time point 46 in FIG. 2, when the user utters a barge-in utterance indicating "it" to select one of the options, the barge-in user's voice is input by voice input. It is input to the unit 20, feature extraction is performed by the dialogue control unit 14-4, and the extracted feature information is input to the voice recognition unit 21-4 and is a standard of each directive stored in the recognition dictionary 22 in advance. The pattern is compared. When the voice recognition unit 21-4 recognizes that the user utterance is an instruction word, a barge-in signal based on this recognition is transmitted to the selection instruction word management unit 242, and the selection instruction word management unit 242 uses the instruction word. An instruction word barge-in signal indicating that the barge-in has been performed is output via the dialogue control unit 14-4 to the output information management unit 16-4.
(Step 304 in FIG. 15).

【0098】この指示語バージイン信号に基づき、出力
情報管理部16−4はシステム発話を停止し、更にシナ
リオのどの箇所をシステム発話していたかを検出する。
例えば、図2に示す様に、シナリオ箇所33の「スポー
ツニュース」をシステム発話するで示したシステム発
話箇所43中に、ユーザが▼印で示したバージイン発話
開始時点46でユーザ発話「それ」と指示語でバージイ
ンを行なったので、このユーザのバージインは、対話シ
ナリオ30の区切り記号36−2と36−3の間に発生
したこと(バージイン属性)が、出力情報管理部16−
4によって検知される(図15のステップ306)。
Based on this directive word barge-in signal, the output information management unit 16-4 stops the system utterance and further detects which part of the scenario the system uttered.
For example, as shown in FIG. 2, the user utters "that" at the barge-in utterance start time point 46 indicated by the user in the system utterance portion 43 indicated by the system utterance of "sports news" in the scenario point 33. Since the barge-in was performed with the directive, the fact that the barge-in of this user occurred between the delimiters 36-2 and 36-3 of the dialogue scenario 30 (barge-in attribute) is the output information management unit 16-.
4 (step 306 in FIG. 15).

【0099】そして、出力情報管理部16−4は、この
検出したバージイン属性には「スポーツニュース」とい
うキーワードが含まれているので、ユーザが指示語で選
択したキーワードは「スポーツニュース」であると判断
し(図15の308)、このキーワード「スポーツニュ
ース」に対応するキーワード情報を対話制御部14−4
を介して、選択指示語管理部242に送信する。
Since the detected barge-in attribute includes the keyword "sports news", the output information management unit 16-4 determines that the keyword selected by the user with the instruction word is "sports news". The determination is made (308 in FIG. 15), and the keyword information corresponding to this keyword “sports news” is set as the dialogue control unit 14-4.
Via the selected instruction word management unit 242.

【0100】選択指示語管理部242では、送信されて
来たキーワード「スポーツニュース」に対応するキーワ
ード情報に基づき、指示語「それ」は「スポーツニュー
ス」を指示するものと判定し(図15のステップ31
0)、ユーザの選択したキーワードは「スポーツニュー
ス」であるとの認識結果を対話制御部14−4に送信す
る。
The selection instruction word management unit 242 determines that the instruction word "that" indicates "sports news" based on the keyword information corresponding to the transmitted keyword "sports news" (see FIG. 15). Step 31
0), the result of recognition that the keyword selected by the user is “sports news” is transmitted to the dialogue control unit 14-4.

【0101】対話制御部14−4は、つぎに、対話シナ
リオ部12に記録されている対話シナリオにユーザに次
に提供すべき対話シナリオが有るか否かを判定し、続け
て提供する対話シナリオが有る場合(図15のステップ
312でYESの場合)には、ユーザが選択したキーワ
ード、つまり、認識された結果に基づき、次の対話シナ
リオの発話へ処理に移る(図15のステップ314)。
Next, the dialogue control unit 14-4 determines whether or not the dialogue scenario recorded in the dialogue scenario unit 12 includes a dialogue scenario to be provided to the user next, and the dialogue scenario to be provided subsequently. If there is any (YES in step 312 in FIG. 15), the process moves to the utterance of the next dialogue scenario based on the keyword selected by the user, that is, the recognized result (step 314 in FIG. 15).

【0102】一方、次の対話シナリオが無い場合には
(図15のステップ315でNOの場合)、選択された
選択肢に応じた処理、例えば「スポーツニュース」が選
択されていた場合には、スポーツニュースなどのコンテ
ンツが、図示しないコンテンツ提示装置を介して、例え
ば音声出力部18などからユーザに提示される処理に引
き渡され、本処理フローは終了する(ステップ31
6)。
On the other hand, if there is no next dialogue scenario (NO in step 315 of FIG. 15), processing corresponding to the selected option, for example, if “sports news” has been selected, sports The content such as news is delivered to the process presented to the user from, for example, the audio output unit 18 via the content presentation device (not shown), and the process flow ends (step 31).
6).

【0103】この様に、指示語でバージインして選択肢
を選択した場合であっても、ユーザ発話が指示語である
か否かを認識し、指示語である場合にバージインした時
点を検知し、このバージイン時点に対応するシナリオ箇
所に含まれるキーワードを検知する様に構成したので、
ユーザ発話が指示語であっても、ユーザの選択肢を認識
することが出来る。
As described above, even when the option is selected by barge-in with the directive word, it is recognized whether or not the user's utterance is the directive word, and when it is the directive word, the time when the barge-in is detected is detected. Since it is configured to detect the keywords included in the scenario part corresponding to this barge-in time,
Even if the user's utterance is an instruction word, the user's choice can be recognized.

【0104】(第5実施例)本発明の第5実施例の構成
例を示す図16および指示語を含む応答の処理フローの
他の例を示す図17を参照して、ユーザ発話が「それ」
などの指示語を含む応答をバージインした場合の音声対
話システム250を説明する。
(Fifth Embodiment) With reference to FIG. 16 showing a configuration example of a fifth embodiment of the present invention and FIG. 17 showing another example of the processing flow of a response including a directive, the user utterance is “that. "
The voice interaction system 250 in the case of barging in the response including the directives such as

【0105】本実施例においても第1、2、3、4実施
例と同じ機能を有する構成部に対しては、同じ符号を付
し、説明を省略する。
Also in the present embodiment, the constituents having the same functions as those in the first, second, third, and fourth embodiments are designated by the same reference numerals, and the description thereof will be omitted.

【0106】本実施例の主たる特徴は、対話シナリオの
構成に関し、この対話システムを選択肢を区別するため
の区切り記号等を使用することなく構成されたシナリオ
を使用可能とした点であり、録音音声などを対話シナリ
オとして使用出来る。即ち、上記第1から第4の実施例
では、対話シナリオはシナリオ箇所を特定する区切り記
号「/」でシナリオ箇所を特定したが、本実施例では、
シナリオ箇所を特定する情報をシナリオに含めることな
く、バージインしたユーザ発話からユーザが選択肢を指
示するキーワードを認識することを可能とする。
The main feature of the present embodiment is that, with regard to the construction of the dialogue scenario, the dialogue system can be used without using a delimiter or the like for distinguishing the choices. Can be used as a dialogue scenario. That is, in the first to fourth embodiments, the dialogue scenario specifies the scenario part with the delimiter "/" for specifying the scenario part. However, in the present embodiment,
It is possible to allow a user to recognize a keyword that indicates a choice from a uttered user uttered in a barge without including information for specifying a scenario part in the scenario.

【0107】本実施例と上記各実施例と主に異なる特徴
点の概要を述べる。図16の音声対話システム250に
おいて、本実施例の対話シナリオ部12−5には、例え
ば図2に示すような対話シナリオが録音記録されて収納
されており、この対話シナリオ部12−5に録音記録さ
れている対話シナリオが対話制御部14−5を介して音
声出力部18−5からシステム発話されるとともに、こ
の発話される音声波形データが、音声出力データ格納部
252に順次、記憶されて行く。
The outline of the characteristic points which are different from the present embodiment and the above-mentioned embodiments will be mainly described. In the voice dialogue system 250 of FIG. 16, the dialogue scenario section 12-5 of the present embodiment records and stores the dialogue scenario as shown in FIG. 2, for example. The dialogue scenario section 12-5 records the dialogue scenario. The recorded dialogue scenario is system-uttered from the voice output unit 18-5 via the dialogue control unit 14-5, and the uttered voice waveform data is sequentially stored in the voice output data storage unit 252. go.

【0108】次に、この様な特徴を有する音声対話シス
テム250が、システム発話によって複数の選択肢が発
話された際に、ユーザが選択肢中のいずれかを指示語に
よって選択の応答をする場合の処理フローを説明する。
Next, when the voice dialogue system 250 having such characteristics has a plurality of choices uttered by the system utterance, the user makes a response to the selection of one of the choices by the instruction word. The flow will be described.

【0109】音声対話システム250が稼働可能となる
と図17のステップ400で処理を開始する。本実施例
においてもシステム発話の内容は図2で示した「天気予
報」、「スポーツニュース」、「今日の運勢」などの3
つの選択肢からいずれかを選択する対話シナリオを使用
するものとして説明する。
When the voice interactive system 250 becomes operable, the process starts at step 400 in FIG. Also in this embodiment, the contents of the system utterance are 3 such as "weather forecast", "sports news", and "fortune of today" shown in FIG.
Described as using a dialogue scenario in which one of the two options is selected.

【0110】本実施例では、対話シナリオ部12−5に
記憶されている対話シナリオは、対話制御部14−5を
介して音声出力部18−5からシステム発話される一
方、この順次発話されるシステム発話の音声波形データ
が音声出力データ格納部252に記憶される(図17の
ステップ402)。
In this embodiment, the dialogue scenarios stored in the dialogue scenario section 12-5 are uttered by the system from the voice output section 18-5 via the dialogue control section 14-5, and are sequentially uttered. The voice waveform data of the system utterance is stored in the voice output data storage unit 252 (step 402 in FIG. 17).

【0111】上記のシステム発話中に、図2のユーザ発
話時点46において、ユーザが選択肢の一つを選ぶ「そ
れ」と言う指示語をバージイン発話すると、このバージ
インされたユーザの音声は、音声入力部20に入力さ
れ、対話制御部14−5で特徴抽出が行なわれ、この抽
出された特徴情報は音声認識部21−5に入力され、予
め認識辞書22に記憶されている各指示語の標準パター
ンとの比較が行なわれる。ユーザ発話が指示語であるこ
とが音声認識部21−5で認識されると、この認識に基
づくバージイン信号が、選択指示語管理部242−5に
送信され、この選択指示語管理部242−5から指示語
によるバージインがなされたことを示す指示語バージイ
ン信号が対話制御部14−5に送信され、音声出力部1
8−5からのシステム発話を停止する(図17のステッ
プ406)。
During the above-mentioned system utterance, at the user utterance time point 46 in FIG. 2, when the user barge-in utters an instruction word "that" to select one of the options, the barge-in user's voice is input by voice input. The dialogue control unit 14-5 inputs the feature information to the unit 20, and the extracted feature information is input to the voice recognition unit 21-5 and is a standard for each directive stored in the recognition dictionary 22 in advance. The pattern is compared. When the voice recognition unit 21-5 recognizes that the user utterance is an instruction word, a barge-in signal based on this recognition is transmitted to the selection instruction word management unit 242-5, and the selection instruction word management unit 242-5. From the instruction word barge-in signal indicating that the barge-in is performed by the instruction word from the dialogue control unit 14-5, and the voice output unit 1
The system utterance from 8-5 is stopped (step 406 in FIG. 17).

【0112】この指示語バージイン信号に基づき、対話
制御部14−5は、音声出力データ格納部252に記録
されているバージイン時点以前の所定時間間隔内の音声
波形データを読み取り、音声認識部21−5に送信す
る。この音声波形データと認識辞書22に記憶されてい
る音声波形データとがパターン比較などの手法により音
声認識部21−5で音声認識処理が行なわれる。(図1
7のステップ408)。
Based on this directive word barge-in signal, the dialogue control unit 14-5 reads the voice waveform data within the predetermined time interval before the barge-in time recorded in the voice output data storage unit 252, and the voice recognition unit 21- Send to 5. The voice recognition unit 21-5 performs voice recognition processing on the voice waveform data and the voice waveform data stored in the recognition dictionary 22 by a method such as pattern comparison. (Fig. 1
7 step 408).

【0113】ここで、図2を参照して具体例を示すと、
シナリオ箇所33の「スポーツニュース」をシステム発
話するで示したシステム発話箇所43中に、ユーザが
▼印で示したバージイン発話開始時点46でユーザ発話
「それ」と指示語でバージインを行なったとすれば、音
声認識部21−5において音声波形データの比較によっ
て「スポーツニュース」をユーザが選択したことが認識
される(図17のステップ408)。そしてこの認識結
果「スポーツニュース」を選択指示語管理部242−5
に送信される(図17のステップ410)。
Here, a specific example will be described with reference to FIG.
If the user performs a barge-in with the user utterance "that" at the barge-in utterance start point 46 indicated by a ▼ mark in the system utterance part 43 shown in System utterance of "sports news" of the scenario point 33 The voice recognition unit 21-5 recognizes that the user has selected "sports news" by comparing the voice waveform data (step 408 in FIG. 17). Then, the recognition result “sports news” is selected by the selection word management unit 242-5.
(Step 410 in FIG. 17).

【0114】そして、選択指示語管理部242−5は認
識結果「スポーツニュース」を対話制御部14−5に送
信し、次の対話シナリオが有るか否かを対話制御部14
−5で判定し、次のシナリオがある場合には(図17の
ステップ412でYESの場合)、ステップ414に進
み、認識結果に基づき次の対話シナリオへ進む。
Then, the selection instruction word management unit 242-5 transmits the recognition result "sports news" to the dialogue control unit 14-5, and the dialogue control unit 14-5 determines whether or not there is a next dialogue scenario.
If it is determined in -5 and there is a next scenario (YES in step 412 of FIG. 17), the process proceeds to step 414, and the next dialogue scenario is performed based on the recognition result.

【0115】一方、次の対話シナリオが無い場合には
(図17のステップ412でNOの場合)、選択された
選択肢に応じた処理、例えば「スポーツニュース」が選
択されていた場合には、スポーツニュースなどのコンテ
ンツが、図示しないコンテンツ提示装置を介して、例え
ば音声出力部18−5などからユーザに提示される処理
に引き渡され、本処理フローは終了する(図17のステ
ップ416)。
On the other hand, if there is no next dialogue scenario (NO in step 412 of FIG. 17), a process corresponding to the selected option, for example, if "sports news" has been selected, sports Content such as news is delivered to the processing presented to the user from, for example, the audio output unit 18-5 via the content presentation device (not shown), and the processing flow ends (step 416 in FIG. 17).

【0116】(第6実施例)本発明を適用した携帯電話
の概略を示す図18を参照して、第6実施例を説明す
る。この第6実施例の携帯電話500は、サービスプロ
バイダやサービス提供者(例えば、役所などの公共施
設)や商品販売会社などと通信を行い、ユーザが所望の
サービスを音声応答により受ける機能を有したものであ
る。この携帯電話500の本体510中に図1に示す音
声対話システム基本部11に対応する機能部が収納さ
れ、音声出力部であるスピーカ520、音声入力部であ
るマイク530は、キーボード530や表示パネル54
0を配置した携帯電話500の前面部に配置されてい
る。図1の対話シナリオ部12及び認識辞書22に相当
する機能は、アンテナ550を介して、上記サービスプ
ロバイダなどの情報提供側に設置してある。
(Sixth Embodiment) A sixth embodiment will be described with reference to FIG. 18 showing an outline of a portable telephone to which the present invention is applied. The mobile phone 500 of the sixth embodiment has a function of communicating with a service provider, a service provider (for example, a public facility such as a public office), a product sales company, etc., and receiving a desired service by a voice response from a user. It is a thing. A functional unit corresponding to the voice interaction system basic unit 11 shown in FIG. 1 is housed in the main body 510 of the mobile phone 500, and the speaker 520 as a voice output unit, the microphone 530 as a voice input unit, the keyboard 530 and the display panel. 54
0 is arranged on the front surface of the mobile phone 500. Functions corresponding to the dialogue scenario unit 12 and the recognition dictionary 22 in FIG. 1 are installed on the information providing side such as the service provider via the antenna 550.

【0117】この様に、通信端末である携帯電話500
に本発明を適用したので、ユーザは随時、所望のサービ
スを音声対話することによって享受できる効果がある。
In this way, the mobile phone 500 which is a communication terminal
Since the present invention is applied to the above, there is an effect that the user can enjoy a desired service by voice conversation at any time.

【0118】尚、上記携帯電話500と同様に、PDA
(Personal Digital Assista
nt)に当音声対話システムを搭載しても良い。
Note that, like the mobile phone 500, the PDA
(Personal Digital Assistant
nt) may be equipped with the voice dialogue system.

【0119】(付記1)発話する複数の単語と該複数の
単語の発話順とを規定するシナリオを記憶する対話シナ
リオ部と語彙情報を記憶した認識辞書と前記対話シナリ
オ部のシナリオに従って音声を発話する音声出力部とユ
ーザによって発話された音声を入力する音声入力部とに
接続可能な音声対話システムにおいて、前記音声出力部
が前記シナリオのいずれの箇所を発話しているかを検知
する出力情報管理部と、前記ユーザが発話した際の前記
出力情報管理部で検知したシナリオ箇所に基づいて、前
記認識辞書に記憶されている語彙情報に重み付けを行な
う重み付け算出部と、前記音声入力部に入力された音声
を信号処理した音声情報と前記重み付けされた語彙情報
とから前記ユーザによって発話された音声が前記認識辞
書に記憶されている語彙情報のいずれであるかを選択す
る音声認識部と、を有することを特徴とする音声対話シ
ステム。
(Supplementary Note 1) A dialogue scenario part for storing a plurality of words to be uttered and a scenario defining the utterance order of the plurality of words, a recognition dictionary for storing vocabulary information, and a voice utterance according to the scenario of the dialogue scenario part. In a voice dialogue system connectable to a voice output unit for inputting and a voice input unit for inputting a voice uttered by a user, an output information management unit for detecting which part of the scenario the voice output unit is speaking. And a weighting calculation unit for weighting the vocabulary information stored in the recognition dictionary based on the scenario location detected by the output information management unit when the user speaks, and the voice input unit. A voice uttered by the user is stored in the recognition dictionary based on the voice information obtained by signal processing the voice and the weighted vocabulary information. Speech dialogue system, characterized in that it comprises a voice recognition unit for selecting which of the lexical information.

【0120】(付記2)発話する複数の単語と該複数の
単語の発話順とを規定するシナリオを記憶する対話シナ
リオ部と、語彙情報を記憶した認識辞書と、ユーザによ
って発話された音声を入力する音声入力部と、前記対話
シナリオ部のシナリオに従って音声を発話する音声出力
部と、前記音声出力部が前記シナリオのいずれの箇所を
発話しているかを検知する出力情報管理部と、前記ユー
ザが発話した際の前記出力情報管理部で検知したシナリ
オ箇所に基づいて、前記認識辞書に記憶されている語彙
情報に重み付けを行なう重み付け算出部と、前記音声入
力部に入力された音声を信号処理した音声情報と前記重
み付けされた語彙情報とから前記ユーザによって発話さ
れた音声が前記認識辞書に記憶されている語彙情報のい
ずれであるかを選択する音声認識部と、を有することを
特徴とする音声対話システム。
(Supplementary Note 2) A dialogue scenario section that stores a plurality of words to be uttered and a scenario that defines the utterance order of the plurality of words, a recognition dictionary that stores vocabulary information, and a voice uttered by a user are input. A voice input unit, a voice output unit that speaks a voice according to the scenario of the dialogue scenario unit, an output information management unit that detects which part of the scenario the voice output unit is speaking, and the user Based on the scenario location detected by the output information management unit at the time of utterance, a weighting calculation unit for weighting the vocabulary information stored in the recognition dictionary, and signal processing of the voice input to the voice input unit. From the voice information and the weighted vocabulary information, it is selected whether the voice uttered by the user is the vocabulary information stored in the recognition dictionary. Speech dialogue system, characterized in that it comprises a voice recognition unit for, a.

【0121】(付記3)前記重み付けは、前記ユーザが
発話する音声の強さ及び/または速さにも基づいて行な
われることを特徴とする付記1または付記2に記載の音
声対話システム。
(Supplementary Note 3) The voice interaction system according to Supplementary Note 1 or Supplementary Note 2, wherein the weighting is performed based on the strength and / or speed of the voice uttered by the user.

【0122】(付記4)前記重み付けは、前記ユーザの
発話時刻と前記シナリオに含まれる単語の発話予定時刻
とに基づいて行なわれることを特徴とする付記1または
付記2に記載の音声対話システム。
(Supplementary note 4) The voice dialogue system according to Supplementary note 1 or Supplementary note 2, wherein the weighting is performed based on the speech time of the user and the scheduled speech time of the word included in the scenario.

【0123】(付記5)前記重み付け算出部は、前記ユ
ーザの発話時刻と前記シナリオに含まれる単語の発話予
定時刻との差に基づき前記認識辞書に含まれる単語に付
加する前記重み付け係数または前記重み付けの割合を記
憶する重み係数管理部に記憶された前記重み付け係数ま
たは前記重み付けの割合に基づき、前記認識辞書に記憶
されている語彙情報に重み付けを行なうことを特徴とす
る付記4に記載の音声対話システム。
(Supplementary Note 5) The weighting calculation unit adds the weighting coefficient or the weighting factor to the word included in the recognition dictionary based on the difference between the utterance time of the user and the utterance scheduled time of the word included in the scenario. The vocabulary information stored in the recognition dictionary is weighted on the basis of the weighting coefficient or the weighting ratio stored in the weighting coefficient management unit that stores the ratio. system.

【0124】(付記6)前記重み付け算出部は、前記ユ
ーザの発話時刻と前記シナリオに含まれる単語の発話予
定時刻との差に応じた、前記認識辞書に含まれる単語に
付加する前記重み付け係数または前記重み付けの割合を
表すテーブルを記憶する重みテーブル管理部に記憶され
た前記重み付け係数または前記重み付けの割合に基づ
き、前記認識辞書に記憶されている語彙情報に重み付け
を行なうことを特徴とする付記4に記載の音声対話シス
テム。
(Supplementary Note 6) The weighting calculation unit adds the weighting coefficient to the word included in the recognition dictionary according to the difference between the utterance time of the user and the scheduled utterance time of the word included in the scenario, or Note 4 is characterized in that the vocabulary information stored in the recognition dictionary is weighted based on the weighting coefficient or the weighting ratio stored in a weight table management unit that stores a table representing the weighting ratio. Spoken dialogue system described in.

【0125】(付記7)付記5または付記6に記載の音
声対話システムは、前記重み付け係数管理部または前記
重みテーブル管理部に記憶された前記重み付け係数また
は前記重み付けの割合と前記音声認識部が選択した選択
結果との対応を示す履歴情報を記憶する履歴管理部を有
し、前記履歴情報に基づき前記重み付け係数または前記
重み付けの割合を変更することを特徴とする音声対話シ
ステム。
(Supplementary Note 7) In the voice dialogue system according to Supplementary Note 5 or Supplementary Note 6, the weighting coefficient or the weighting ratio stored in the weighting coefficient management unit or the weight table management unit and the voice recognition unit are selected. A voice interaction system, comprising: a history management unit that stores history information indicating a correspondence with the selected result, and changing the weighting coefficient or the weighting ratio based on the history information.

【0126】(付記8)発話する複数の単語と該複数の
単語の発話順とを規定するシナリオを記憶する対話シナ
リオ部と語彙情報を記憶した認識辞書と前記対話シナリ
オ部のシナリオに従って音声を発話する音声出力部とユ
ーザによって発話された音声を入力する音声入力部とに
接続可能な音声対話システムにおいて、前記音声出力部
が前記シナリオのいずれの箇所を発話しているかを検知
する出力情報管理部と、前記音声入力部に入力された音
声を信号処理した音声情報と前記認識辞書に記憶されて
いる語彙情報とから前記ユーザによって発話された音声
が前記認識辞書に記憶されている語彙情報のいずれであ
るかを選択し、前記選択された語彙情報が指示語である
場合に、前記指示語は前記指示語が発話された時刻に対
応して、前記音声出力部から発話された前記シナリオ箇
所に含まれる前記単語または前記連続する単語に対応付
けする音声認識部と、を有することを特徴とする音声対
話システム。
(Supplementary Note 8) A dialogue scenario part for storing a plurality of words to be uttered and a scenario defining the utterance order of the plurality of words, a recognition dictionary storing vocabulary information, and a voice utterance according to the scenario of the dialogue scenario part. In a voice dialogue system connectable to a voice output unit for inputting and a voice input unit for inputting a voice uttered by a user, an output information management unit for detecting which part of the scenario the voice output unit is speaking. Of the vocabulary information stored in the recognition dictionary, the voice uttered by the user from the voice information obtained by signal processing the voice input to the voice input unit and the vocabulary information stored in the recognition dictionary. Is selected, and when the selected vocabulary information is a reference word, the reference word corresponds to the time when the reference word is uttered, and Speech dialogue system, characterized in that it comprises a voice recognition unit for association with words that the word or the continuous contained in the scenario locations uttered from the force unit.

【0127】(付記9)発話する複数の単語と該複数の
単語の発話順とを規定するシナリオを記憶する対話シナ
リオ部と語彙情報を記憶した認識辞書と前記対話シナリ
オ部のシナリオに従って音声を発話する音声出力部とユ
ーザによって発話された音声を入力する音声入力部とに
接続可能な音声対話システムにおいて、前記音声出力部
が発話する単語に対応する波形データを記憶する音声出
力データ格納部と、前記音声入力部に入力された音声を
信号処理した音声情報と前記認識辞書に記憶されている
語彙情報とから前記ユーザによって発話された音声が前
記認識辞書に記憶されている語彙情報のいずれであるか
を選択し、前記選択された語彙情報が指示語に対応する
場合に、前記指示語を前記指示語の発話に対応した前記
音声出力部から発話され前記音声出力データ格納部に記
憶されている波形データに対応付けする音声認識部と、
を有することを特徴とする音声対話システム。
(Supplementary Note 9) A dialogue scenario part for storing a plurality of words to be uttered and a scenario defining the utterance order of the plurality of words, a recognition dictionary storing vocabulary information, and a voice utterance according to the scenario of the dialogue scenario part. A voice output system and a voice input system for inputting a voice uttered by a user, in the voice dialogue system, a voice output data storage unit for storing waveform data corresponding to a word uttered by the voice output unit, The voice uttered by the user from the voice information obtained by signal-processing the voice input to the voice input unit and the vocabulary information stored in the recognition dictionary is any of the vocabulary information stored in the recognition dictionary. Is selected, and if the selected vocabulary information corresponds to a reference word, the reference word is output from the voice output unit corresponding to the utterance of the reference word. A voice recognition unit for association with the waveform data stored in the audio output data storage unit is,
A spoken dialogue system comprising:

【0128】(付記10)シナリオに基づき発話を行な
うステップと、ユーザの発話を入力するステップと、前
記ユーザの発話に対応した前記シナリオの箇所を検知す
るステップと、前記ユーザの発話に対応させ前記シナリ
オの箇所に含まれる単語または連続する単語に重み付け
を行なうステップと、前記入力されたユーザの発話と前
記重み付けされた単語または連続する単語との対応をと
り、前記単語または連続する単語のいずれかを選択する
ステップと、選択された単語または連続する単語に基づ
き、前記シナリオに基づいて次の処理を行なうステップ
とを含むことを特徴とする音声対話システムの音声対話
方法。
(Supplementary Note 10) A step of uttering based on a scenario, a step of inputting a utterance of a user, a step of detecting a part of the scenario corresponding to the utterance of the user, and a step of correlating with the utterance of the user A step of weighting a word included in a part of a scenario or a continuous word, and a correspondence between the input user's utterance and the weighted word or a continuous word, and either the word or the continuous word; And a step of performing the following processing based on the scenario based on the selected word or continuous words, a voice interaction method for a voice interaction system.

【0129】(付記11)発話する複数の単語と該複数
の単語の発話順とを規定するシナリオを記憶する対話シ
ナリオ部と語彙情報を記憶した認識辞書とを基地局を経
由して接続可能な通信端末装置であって、ユーザによっ
て発話された音声を入力する音声入力部と、前記対話シ
ナリオ部のシナリオに従って音声を発話する音声出力部
と、前記音声出力部が前記シナリオのいずれの箇所を発
話しているかを検知する出力情報管理部と、前記ユーザ
が発話した際の前記出力情報管理部で検知したシナリオ
箇所に基づいて、前記認識辞書に記憶されている語彙情
報に重み付けを行なう重み付け算出部と、前記音声入力
部に入力された音声を信号処理した音声情報と前記重み
付けされた語彙情報とから前記ユーザによって発話され
た音声が前記認識辞書に記憶されている語彙情報のいず
れであるかを選択する音声認識部と、を有することを特
徴とする音声対話システム。
(Supplementary Note 11) A dialogue scenario section that stores a plurality of words to be uttered and a scenario that defines the utterance order of the plurality of words and a recognition dictionary that stores vocabulary information can be connected via a base station. A communication terminal device, wherein a voice input unit for inputting a voice uttered by a user, a voice output unit for uttering voice according to the scenario of the dialogue scenario unit, and a voice output unit for uttering any part of the scenario An output information management unit that detects whether or not the vocabulary information is stored, and a weighting calculation unit that weights the vocabulary information stored in the recognition dictionary based on the scenario location detected by the output information management unit when the user speaks. And the voice uttered by the user is recognized from the voice information obtained by signal-processing the voice input to the voice input unit and the weighted vocabulary information. Speech dialogue system, characterized in that it comprises a voice recognition unit for selecting which of the lexical information stored in the book, the.

【0130】[0130]

【発明の効果】システム発話のシナリオを監視し、ユー
ザの発話があった時点でのシステム発話の箇所を検出す
ることによって、システム発話中に応答するユーザ発話
に含まれるキーワードを予測し、ユーザ発話時点と対応
するシステム発話との時間関係から予測されたキーワー
ドに重みを付けて、ユーザ発話中のキーワードを認識す
るので、ユーザ発話中のキーワードの認識をより正確に
行なえる。更に、指示語によるユーザの応答において
も、シナリオとの対応付けから指示語に対応するキーワ
ードを正確に認識出来る。
EFFECT OF THE INVENTION By monitoring the system utterance scenario and detecting the location of the system utterance at the time when the user utters, the keyword included in the user utterance responding during the system utterance is predicted, and the user utterance Since the keyword predicted from the time relationship between the time point and the corresponding system utterance is weighted to recognize the keyword being uttered by the user, the keyword being uttered by the user can be recognized more accurately. Furthermore, even in the response of the user by the directive, the keyword corresponding to the directive can be accurately recognized from the association with the scenario.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1実施例の構成例を示す図。FIG. 1 is a diagram showing a configuration example of a first embodiment of the present invention.

【図2】対話シナリオ、システム発話とユーザ発話との
関係を示す図。
FIG. 2 is a diagram showing a relationship between a dialogue scenario, a system utterance, and a user utterance.

【図3】音声対話システムの処理フローの1例を示す
図。
FIG. 3 is a diagram showing an example of a processing flow of a voice dialogue system.

【図4】認識辞書の語彙とその語彙の重みの対応例を示
す図。
FIG. 4 is a diagram showing an example of correspondence between a vocabulary of a recognition dictionary and a weight of the vocabulary.

【図5】重みを変更した認識辞書の例を示す図。FIG. 5 is a diagram showing an example of a recognition dictionary in which weights are changed.

【図6】時間経過に伴って重みを変える重みテーブルの
例を示す図。
FIG. 6 is a diagram showing an example of a weight table that changes weights over time.

【図7】ユーザ発話の速さに基づく重み付けを示す図。FIG. 7 is a diagram showing weighting based on the speed of user speech.

【図8】ユーザ発話の強さに基づく重み付けを示す図。FIG. 8 is a diagram showing weighting based on the strength of a user's utterance.

【図9】本発明の第2実施例の構成例を示す図。FIG. 9 is a diagram showing a configuration example of a second embodiment of the present invention.

【図10】重み係数テーブルの例を示す図。FIG. 10 is a diagram showing an example of a weighting coefficient table.

【図11】本発明の第3実施例の構成例を示す図。FIG. 11 is a diagram showing a configuration example of a third embodiment of the present invention.

【図12】対話履歴管理部の管理テーブルの例を示す
図。
FIG. 12 is a diagram showing an example of a management table of a dialogue history management unit.

【図13】対話履歴管理部の管理テーブルの例を示す
図。
FIG. 13 is a diagram showing an example of a management table of a dialogue history management unit.

【図14】本発明の第4実施例の構成例を示す図。FIG. 14 is a diagram showing a configuration example of a fourth embodiment of the present invention.

【図15】指示語を含む応答の処理フローの1例を示す
図。
FIG. 15 is a diagram showing an example of a processing flow of a response including a directive.

【図16】本発明の第5実施例の構成例を示す図。FIG. 16 is a diagram showing a configuration example of a fifth embodiment of the present invention.

【図17】指示語を含む応答の処理フローの他の例を示
す図。
FIG. 17 is a diagram showing another example of a processing flow of a response including a directive.

【図18】本発明を適用した携帯電話の概略を示す図。FIG. 18 is a diagram showing an outline of a mobile phone to which the present invention has been applied.

【符号の説明】[Explanation of symbols]

10 音声対話システム 11 音声対話システム基本部 12 対話シナリオ部 14 対話制御部 16 出力情報管理部 18 音声出力部 20 音声入力部 21 音声認識部 22 認識辞書 24 重み算出部 30 対話シナリオ 40 システム発話 45 ユーザ発話 200 音声対話システム 220 音声対話システム 222 重みテーブル管理部 224 対話履歴管理部 240 音声対話システム 242 選択指示語管理部 250 音声対話システム 252 音声出力データ格納部 500 携帯電話 10 Spoken dialogue system 11 Spoken dialogue system basics 12 Dialog scenario section 14 Dialog control unit 16 Output information management section 18 Audio output section 20 Voice input section 21 Speech recognition unit 22 Recognition dictionary 24 Weight calculator 30 Dialogue scenario 40 system utterance 45 User utterance 200 Spoken dialogue system 220 Spoken dialogue system 222 Weight table management unit 224 Dialog History Management Department 240 Spoken dialogue system 242 Selection Directive Management Section 250 Spoken dialogue system 252 voice output data storage 500 mobile phones

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 R (72)発明者 松本 達郎 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 山田 茂 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5D015 HH05 HH13 LL06 LL10 5D045 AB04 AB30 ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 7 Identification code FI Theme Coat (reference) G10L 3/00 R (72) Inventor Tatsuro Matsumoto 4-1, 1-1 Ueodachu, Nakahara-ku, Kawasaki-shi, Kanagawa Fujitsu Incorporated (72) Inventor Shigeru Yamada 4-1-1 Kamiodanaka, Nakahara-ku, Kawasaki-shi, Kanagawa F-term (reference) within Fujitsu Limited 5D015 HH05 HH13 LL06 LL10 5D045 AB04 AB30

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】発話する複数の単語と該複数の単語の発話
順とを規定するシナリオを記憶する対話シナリオ部と語
彙情報を記憶した認識辞書と前記対話シナリオ部のシナ
リオに従って音声を発話する音声出力部とユーザによっ
て発話された音声を入力する音声入力部とに接続可能な
音声対話システムにおいて、 前記音声出力部が前記シナリオのいずれの箇所を発話し
ているかを検知する出力情報管理部と、 前記ユーザが発話した際の前記出力情報管理部で検知し
たシナリオ箇所に基づいて、前記認識辞書に記憶されて
いる語彙情報に重み付けを行なう重み付け算出部と、 前記音声入力部に入力された音声を信号処理した音声情
報と前記重み付けされた語彙情報とから前記ユーザによ
って発話された音声が前記認識辞書に記憶されている語
彙情報のいずれであるかを選択する音声認識部と、 を有することを特徴とする音声対話システム。
1. A dialogue scenario section for storing a plurality of words to be uttered and a scenario defining a utterance order of the plurality of words, a recognition dictionary storing vocabulary information, and a voice for uttering a voice according to the scenario of the dialogue scenario section. In a voice dialogue system connectable to an output unit and a voice input unit for inputting a voice uttered by a user, an output information management unit that detects which part of the scenario the voice output unit is speaking, A weighting calculation unit for weighting the vocabulary information stored in the recognition dictionary based on a scenario location detected by the output information management unit when the user speaks; and a voice input to the voice input unit. The vocabulary information in which the speech uttered by the user is stored in the recognition dictionary from the signal-processed voice information and the weighted vocabulary information. Speech dialogue system and having a speech recognition unit for selecting which of.
【請求項2】発話する複数の単語と該複数の単語の発話
順とを規定するシナリオを記憶する対話シナリオ部と、 語彙情報を記憶した認識辞書と、 ユーザによって発話された音声を入力する音声入力部
と、 前記対話シナリオ部のシナリオに従って音声を発話する
音声出力部と、 前記音声出力部が前記シナリオのいずれの箇所を発話し
ているかを検知する出力情報管理部と、 前記ユーザが発話した際の前記出力情報管理部で検知し
たシナリオ箇所に基づいて、前記認識辞書に記憶されて
いる語彙情報に重み付けを行なう重み付け算出部と、前
記音声入力部に入力された音声を信号処理した音声情報
と前記重み付けされた語彙情報とから前記ユーザによっ
て発話された音声が前記認識辞書に記憶されている語彙
情報のいずれであるかを選択する音声認識部と、 を有することを特徴とする音声対話システム。
2. A dialogue scenario section for storing a plurality of words to be uttered and a scenario defining a utterance order of the plurality of words, a recognition dictionary for storing vocabulary information, and a voice for inputting a voice uttered by a user. An input unit, a voice output unit that speaks a voice according to the scenario of the dialogue scenario unit, an output information management unit that detects which part of the scenario the voice output unit is speaking, and the user speaks At this time, based on the scenario location detected by the output information management unit, a weighting calculation unit for weighting the vocabulary information stored in the recognition dictionary, and voice information obtained by signal processing the voice input to the voice input unit. And which of the vocabulary information stored in the recognition dictionary the voice uttered by the user is selected from and the weighted vocabulary information. Speech dialogue system and having a, a voice recognition unit.
【請求項3】発話する複数の単語と該複数の単語の発話
順とを規定するシナリオを記憶する対話シナリオ部と語
彙情報を記憶した認識辞書と前記対話シナリオ部のシナ
リオに従って音声を発話する音声出力部とユーザによっ
て発話された音声を入力する音声入力部とに接続可能な
音声対話システムにおいて、 前記音声出力部が前記シナリオのいずれの箇所を発話し
ているかを検知する出力情報管理部と、 前記音声入力部に入力された音声を信号処理した音声情
報と前記認識辞書に記憶されている語彙情報とから前記
ユーザによって発話された音声が前記認識辞書に記憶さ
れている語彙情報のいずれであるかを選択し、前記選択
された語彙情報が指示語である場合に、前記指示語は前
記指示語が発話された時刻に対応して、前記音声出力部
から発話された前記シナリオ箇所に含まれる前記単語ま
たは前記連続する単語に対応付けする音声認識部と、 を有することを特徴とする音声対話システム。
3. A dialogue scenario section for storing a scenario defining a plurality of words to be spoken and a speech order of the plurality of words, a recognition dictionary storing vocabulary information, and a voice for uttering a voice according to the scenario of the dialogue scenario section. In a voice dialogue system connectable to an output unit and a voice input unit for inputting a voice uttered by a user, an output information management unit that detects which part of the scenario the voice output unit is speaking, The voice uttered by the user from the voice information obtained by signal-processing the voice input to the voice input unit and the vocabulary information stored in the recognition dictionary is any of the vocabulary information stored in the recognition dictionary. And the selected vocabulary information is a directive word, the directive word corresponds to the time when the directive word is uttered by the voice output unit. Speech dialogue system, characterized in that it comprises a voice recognition unit for association with words that the word or the continuous contained in the scenario points that have been spoken, the.
【請求項4】発話する複数の単語と該複数の単語の発話
順とを規定するシナリオを記憶する対話シナリオ部と語
彙情報を記憶した認識辞書と前記対話シナリオ部のシナ
リオに従って音声を発話する音声出力部とユーザによっ
て発話された音声を入力する音声入力部とに接続可能な
音声対話システムにおいて、 前記音声出力部が発話する単語に対応する波形データを
記憶する音声出力データ格納部と、 前記音声入力部に入力された音声を信号処理した音声情
報と前記認識辞書に記憶されている語彙情報とから前記
ユーザによって発話された音声が前記認識辞書に記憶さ
れている語彙情報のいずれであるかを選択し、前記選択
された語彙情報が指示語に対応する場合に、前記指示語
を前記指示語の発話に対応した前記音声出力部から発話
され前記音声出力データ格納部に記憶されている波形デ
ータに対応付けする音声認識部と、 を有することを特徴とする音声対話システム。
4. A dialogue scenario section for storing a plurality of words to be uttered and a scenario defining a utterance order of the plurality of words, a recognition dictionary storing vocabulary information, and a voice for uttering a voice in accordance with the scenario of the dialogue scenario section. In a voice interaction system connectable to an output unit and a voice input unit for inputting a voice uttered by a user, a voice output data storage unit for storing waveform data corresponding to a word uttered by the voice output unit; Whether the voice uttered by the user is the vocabulary information stored in the recognition dictionary from the voice information obtained by signal-processing the voice input to the input unit and the vocabulary information stored in the recognition dictionary. If the selected vocabulary information corresponds to a vocabulary, the vocabulary is not uttered from the voice output unit corresponding to the utterance of the vocabulary. Speech dialogue system, characterized in that it comprises a voice recognition unit for association with the waveform data stored in the audio output data storage unit.
【請求項5】シナリオに基づき発話を行なうステップ
と、 ユーザの発話を受音するステップと、 前記ユーザの発話に対応した前記シナリオの箇所を検知
するステップと、 前記ユーザの発話に対応させ前記シナリオの箇所に含ま
れる単語または連続する単語に重み付けを行なうステッ
プと、 前記入力されたユーザの発話と前記重み付けされた単語
または連続する単語との対応をとり、前記単語または連
続する単語のいずれかを選択するステップと、 選択された単語または連続する単語に基づき、前記シナ
リオに基づいて次の処理を行なうステップとを含むこと
を特徴とする音声対話システムの音声対話方法。
5. A utterance based on a scenario, a step of receiving a utterance of a user, a step of detecting a portion of the scenario corresponding to the utterance of the user, and a step of correlating the utterance of the user with the utterance of the user. A step of weighting a word included in the place of or a continuous word, and the correspondence between the input user's utterance and the weighted word or a continuous word, and either the word or the continuous word A voice interaction method for a voice interaction system, comprising: a step of selecting; and a step of performing the following processing based on the scenario based on the selected word or continuous words.
JP2001377982A 2001-12-12 2001-12-12 Audio interactive system and its method Pending JP2003177788A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001377982A JP2003177788A (en) 2001-12-12 2001-12-12 Audio interactive system and its method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001377982A JP2003177788A (en) 2001-12-12 2001-12-12 Audio interactive system and its method

Publications (1)

Publication Number Publication Date
JP2003177788A true JP2003177788A (en) 2003-06-27

Family

ID=19185824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001377982A Pending JP2003177788A (en) 2001-12-12 2001-12-12 Audio interactive system and its method

Country Status (1)

Country Link
JP (1) JP2003177788A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006068123A1 (en) * 2004-12-21 2006-06-29 Matsushita Electric Industrial Co., Ltd. Device in which selection is activated by voice and method in which selection is activated by voice
JP2006189730A (en) * 2005-01-07 2006-07-20 Matsushita Electric Ind Co Ltd Speech interactive method and speech interactive device
JP2007017731A (en) * 2005-07-08 2007-01-25 Alpine Electronics Inc Speech recognition device, navigation device equipped with the same and speech recognition method of the same
WO2010073355A1 (en) * 2008-12-26 2010-07-01 富士通株式会社 Program data processing device, method, and program
WO2011016129A1 (en) * 2009-08-07 2011-02-10 パイオニア株式会社 Voice recognition device, voice recognition method, and voice recognition program
CN102708863A (en) * 2011-03-28 2012-10-03 德信互动科技(北京)有限公司 Voice dialogue equipment, system and voice dialogue implementation method
JP2016501391A (en) * 2012-12-20 2016-01-18 アマゾン テクノロジーズ インコーポレーテッド Identifying the utterance target

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698134B2 (en) 2004-12-21 2010-04-13 Panasonic Corporation Device in which selection is activated by voice and method in which selection is activated by voice
WO2006068123A1 (en) * 2004-12-21 2006-06-29 Matsushita Electric Industrial Co., Ltd. Device in which selection is activated by voice and method in which selection is activated by voice
JP4634156B2 (en) * 2005-01-07 2011-02-16 パナソニック株式会社 Voice dialogue method and voice dialogue apparatus
JP2006189730A (en) * 2005-01-07 2006-07-20 Matsushita Electric Ind Co Ltd Speech interactive method and speech interactive device
JP2007017731A (en) * 2005-07-08 2007-01-25 Alpine Electronics Inc Speech recognition device, navigation device equipped with the same and speech recognition method of the same
US8428951B2 (en) 2005-07-08 2013-04-23 Alpine Electronics, Inc. Speech recognition apparatus, navigation apparatus including a speech recognition apparatus, and a control screen aided speech recognition method
WO2010073355A1 (en) * 2008-12-26 2010-07-01 富士通株式会社 Program data processing device, method, and program
CN102265609A (en) * 2008-12-26 2011-11-30 富士通株式会社 Program data processing device, method, and program
JPWO2010073355A1 (en) * 2008-12-26 2012-05-31 富士通株式会社 Program data processing apparatus, method, and program
WO2011016129A1 (en) * 2009-08-07 2011-02-10 パイオニア株式会社 Voice recognition device, voice recognition method, and voice recognition program
JPWO2011016129A1 (en) * 2009-08-07 2013-01-10 パイオニア株式会社 Speech recognition apparatus, speech recognition method, and speech recognition program
CN102708863A (en) * 2011-03-28 2012-10-03 德信互动科技(北京)有限公司 Voice dialogue equipment, system and voice dialogue implementation method
JP2016501391A (en) * 2012-12-20 2016-01-18 アマゾン テクノロジーズ インコーポレーテッド Identifying the utterance target

Similar Documents

Publication Publication Date Title
Rabiner Applications of speech recognition in the area of telecommunications
US8694316B2 (en) Methods, apparatus and computer programs for automatic speech recognition
US6601029B1 (en) Voice processing apparatus
US6487530B1 (en) Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
JP4838351B2 (en) Keyword extractor
US6438520B1 (en) Apparatus, method and system for cross-speaker speech recognition for telecommunication applications
US20050043948A1 (en) Speech recognition method remote controller, information terminal, telephone communication terminal and speech recognizer
US20060215821A1 (en) Voice nametag audio feedback for dialing a telephone call
EP1739546A2 (en) Automobile interface
JP4246703B2 (en) Automatic speech recognition method
JPH096389A (en) Voice recognition interactive processing method and voice recognition interactive device
KR20080107376A (en) Communication device having speaker independent speech recognition
JPWO2020044543A1 (en) Information processing equipment, information processing methods and programs
US20010056345A1 (en) Method and system for speech recognition of the alphabet
US7110948B1 (en) Method and a system for voice dialling
JP3837061B2 (en) Sound signal recognition system, sound signal recognition method, dialogue control system and dialogue control method using the sound signal recognition system
JP2003177788A (en) Audio interactive system and its method
US20030040915A1 (en) Method for the voice-controlled initiation of actions by means of a limited circle of users, whereby said actions can be carried out in appliance
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2000338991A (en) Voice operation telephone device with recognition rate reliability display function and voice recognizing method thereof
JPH11352986A (en) Recognition error moderating method of device utilizing voice recognition
JP3285704B2 (en) Speech recognition method and apparatus for spoken dialogue
JP2003058184A (en) Equipment control system, device, method and program for recognizing voice
JP4408665B2 (en) Speech recognition apparatus for speech recognition, speech data collection method for speech recognition, and computer program
JP2006209077A (en) Voice interactive device and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040115

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040610

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060228