JP2001013992A - Voice understanding device - Google Patents

Voice understanding device

Info

Publication number
JP2001013992A
JP2001013992A JP11188480A JP18848099A JP2001013992A JP 2001013992 A JP2001013992 A JP 2001013992A JP 11188480 A JP11188480 A JP 11188480A JP 18848099 A JP18848099 A JP 18848099A JP 2001013992 A JP2001013992 A JP 2001013992A
Authority
JP
Japan
Prior art keywords
recognition
keyword
output
speech
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11188480A
Other languages
Japanese (ja)
Inventor
Atsushi Noguchi
淳 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11188480A priority Critical patent/JP2001013992A/en
Publication of JP2001013992A publication Critical patent/JP2001013992A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To obtain a voice understanding device, which obtains a correct key word even though a necessary key word exists not only in one recognition result candidate but also exists in plural recognition result candidates. SOLUTION: A voice recognition section 101 outputs plural recognition result candidate sentences obtained as a recognition result and scores of each word included in each candidate sentence. A meaning extracting section 104 discriminates whether the key word exists in the plural recognition result candidate sentences outputted from the section 101 or not based on the stored contents of a conversation control section 106 and a meaning expression storage section 107 and outputs the key words existent in these sentences to a meaning output section 105. The section 104 selects a best score outputted by the section 101 for each key word when plural key words, which should not simultaneously exist in one uttering, exist.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、入力された音声の
認識を行う音声認識装置に関し、特に入力音声の認識結
果よりからユーザーが意図した意味を出力する音声理解
装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus for recognizing an input speech, and more particularly to a speech understanding apparatus for outputting a meaning intended by a user based on a recognition result of an input speech.

【0002】[0002]

【従来の技術】連続発声された音声を認識あるいは理解
する装置のために用いられる音声認識方法として、例え
ば特開平8−248988号公報には、音響処理によっ
て得られた複数の認識結果候補から文法的あるいは意味
的に確率の高い認識結果を得ることにより、認識処理全
体として、高い認識率/意味理解率が得られる音声認識
方法が提案されている。
2. Description of the Related Art As a speech recognition method used for a device for recognizing or understanding continuously uttered speech, for example, Japanese Patent Laid-Open No. 8-248988 discloses a grammar from a plurality of recognition result candidates obtained by acoustic processing. A speech recognition method has been proposed in which a recognition result having a high probability in terms of meaning or meaning can be obtained, so that a high recognition rate / meaning understanding rate can be obtained as a whole recognition processing.

【0003】この従来の音声認識方法は、音響処理部が
上位複数個の認識結果候補を出力した後に、言語処理部
が、認識結果候補に対して文法的評価値を与え、音響処
理部によって与えられた音響的評価値と、文法的評価値
を適当な重み付けを行った線形和を、総合的な評価値と
し、総合的な評価値の最も高い候補を認識結果としてい
る。
In this conventional speech recognition method, after a sound processing section outputs a plurality of candidate recognition results, a language processing section gives a grammatical evaluation value to the recognition result candidates, and a grammatical evaluation value is given by the sound processing section. A linear sum obtained by appropriately weighting the obtained acoustic evaluation value and the grammatical evaluation value is defined as a comprehensive evaluation value, and the candidate having the highest overall evaluation value is determined as a recognition result.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上述し
た従来の方法は、下記記載の問題点を有している。
However, the above-mentioned conventional method has the following problems.

【0005】すなわち、複数の認識結果候補の中から1
つを選択するため、必要なキーワードが1つの認識結果
候補の中だけには存在せずに、複数個の認識結果候補の
中にそれぞれ存在した場合に、うまくキーワードを取り
出すことができない、ということである。
That is, one out of a plurality of recognition result candidates
In order to select one, if the required keyword does not exist only in one recognition result candidate, but exists in each of a plurality of recognition result candidates, the keyword cannot be extracted properly. It is.

【0006】例えばユーザーが「明日のA席のチケット
を2枚下さい」と発声し、音声理解装置の出力として望
まれるキーワードが、「明日」、「A席」、「2枚」で
あるものとする。この時、音響処理部における認識結果
は、図2に示す通りになったものとする。なお、図2に
おいて、()内の数字はスコアを表している。
For example, it is assumed that the user utters “Please give two tickets for tomorrow's A seat” and the keywords desired as output of the voice understanding device are “tomorrow”, “A seat”, and “two tickets”. I do. At this time, it is assumed that the recognition result in the sound processing unit is as shown in FIG. In FIG. 2, the numbers in parentheses indicate scores.

【0007】キーワード「明日」、「A席」は、第1位
の認識結果候補に含まれているが、キーワード「2枚」
は、第2位の認識結果候補にしか含まれていず、複数の
認識結果候補の中から1つを選択するためキーワード
「2枚」取り出すことができない。すなわち、必要なキ
ーワードが1つの認識結果候補の中だけには存在せずに
複数個の認識結果候補の中にそれぞれ存在した場合に、
うまく取り出すことができない。
The keywords "tomorrow" and "seat A" are included in the first-ranked recognition result candidates, but the keywords "two"
Is included only in the second-ranked recognition result candidate, and one of the plurality of recognition result candidates is selected, so that the keyword "2" cannot be extracted. That is, when the required keyword is not present only in one recognition result candidate but is present in each of a plurality of recognition result candidates,
Can not be taken out well.

【0008】したがって本発明は、上記問題点に鑑みて
なされたものであって、その目的は、数個の認識結果候
補文中にキーワードが存在する場合にも、必要なキーワ
ードを正しく出力することができる音声理解装置を提供
することにある。
[0008] Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to output a necessary keyword correctly even when a keyword exists in several recognition result candidate sentences. It is an object of the present invention to provide a voice comprehension device that can perform the same.

【0009】[0009]

【課題を解決するための手段】前記目的を達成する本発
明は、音声認識手段から出力された複数個の認識結果候
補中文から各文中に含まれるキーワードを該キーワード
に対応するスコアに基づき選択するキーワード選択手段
を備えている。
According to the present invention for achieving the above object, a keyword included in each sentence is selected from a plurality of candidate recognition result middle sentences output from a speech recognition means based on a score corresponding to the keyword. A keyword selecting means is provided.

【0010】かかる構成の本発明によれば、複数個の認
識結果候補文中にキーワードが存在する場合にも、正し
く必要なキーワードを出力することができる可能性が増
え、誤認識の修正や音声の再入力の手間などを削減す
る。
According to the present invention having such a configuration, even when a keyword is present in a plurality of recognition result candidate sentences, there is an increased possibility that a necessary keyword can be output correctly. Reduces re-entry effort.

【0011】[0011]

【発明の実施の形態】本発明の実施の形態について説明
する。本発明の音声理解装置は、その好ましい実施の形
態において、音声を認識し認識結果の候補として複数の
文章および前記認識結果候補の文章に含まれる各キーワ
ードに対応するスコアを出力する音声認識手段(10
1)と、音声認識手段(101)から出力された複数の
前記キーワードおよび該キーワードに対応する前記スコ
アに基づき、適切なキーワードを選択するキーワード選
択手段(104)と、を含む。
Embodiments of the present invention will be described. In a preferred embodiment, the speech understanding device of the present invention, in a preferred embodiment, recognizes speech and outputs a plurality of sentences as candidates for a recognition result and a score corresponding to each keyword included in the sentences of the recognition result candidates ( 10
1) and keyword selection means (104) for selecting an appropriate keyword based on the plurality of keywords output from the voice recognition means (101) and the score corresponding to the keywords.

【0012】キーワード選択手段は、一発声中に同時に
存在し得ないキーワードが複数個存在した場合には、音
声認識手段(101)から出力された各キーワードに対
するスコアを基に一つのキーワードを選択する。
When there are a plurality of keywords that cannot be present simultaneously in one utterance, the keyword selection means selects one keyword based on the score for each keyword output from the speech recognition means (101). .

【0013】また本発明は、その好ましい実施の形態に
おいて、あらかじめ用意された対話の流れを記憶し、次
のユーザからの音声入力にはどのようなキーワードが含
まれるかという情報を、キーワード選択手段に渡し、各
対話の状態毎に受け付けるキーワードを切り替える対話
管理手段(106)を備える。
According to a preferred embodiment of the present invention, a flow of a dialog prepared in advance is stored, and information on what keyword is included in a voice input from the next user is stored in a keyword selecting means. And a dialogue management means (106) for switching a keyword to be accepted for each state of each dialogue.

【0014】本発明は、入力された音声を認識して認識
結果よりからユーザが意図した意味を現わす複数のキー
ワードを出力する音声理解装置であって、音声認識に用
いる認識用の文法を記憶する認識用文法記憶部と、音声
認識に用いる認識辞書およびキーワードとなる単語であ
るかどうかの情報を記憶する認識用辞書記憶部と、各対
話の状態毎にユーザが入力し得るキーワードを記憶する
意味表現記憶部と、を備え、(a)ユーザが音声入力手
段から入力した音声に対して、前記認識用文法記憶部と
前記認識用辞書記憶部を参照して、音声認識を行い、認
識結果として得られた複数の認識結果候補文と該候補文
に含まれる各単語のスコアを出力する音声認識手段と、
(b)前記意味表現記憶部の記憶内容を基に、前記音声
認識手段から出力された複数の各認識結果候補文内にキ
ーワードがあるか否かを判定し、存在したキーワードを
出力し、その際、一つの発声中に同時に存在し得ないキ
ーワードが複数個存在した場合は、各キーワードに対す
る前記音声認識手段が出力したスコアの最も良いもの1
つを選択する意味抽出手段と、(c)前記意味抽出手段
より出力された情報を加工して意味表現を作成して出力
する意味出力手段と、の前記(a)乃至(c)の各手段
の処理は、前記音声理解装置を構成するコンピュータで
実行させることで実現するようにしてもよい。
The present invention is a speech comprehension apparatus for recognizing input speech and outputting a plurality of keywords representing the meaning intended by the user based on the recognition result, and stores a recognition grammar used for speech recognition. Grammar storage unit for recognition, a recognition dictionary used for speech recognition and a recognition dictionary storage unit for storing information as to whether or not the word is a keyword, and a keyword that can be input by the user for each state of each dialogue is stored. And (a) performing speech recognition on the speech input by the user from the speech input unit with reference to the recognition grammar storage unit and the recognition dictionary storage unit. Voice recognition means for outputting a plurality of recognition result candidate sentences obtained as and a score of each word included in the candidate sentences,
(B) Based on the storage contents of the semantic expression storage unit, it is determined whether or not there is a keyword in each of the plurality of recognition result candidate sentences output from the voice recognition unit, and the existing keyword is output. At this time, when there are a plurality of keywords that cannot be present simultaneously in one utterance, the one with the best score output by the voice recognition means for each keyword
(A) to (c), meaning extraction means for selecting one of the meanings, and (c) meaning output means for creating and outputting a meaning expression by processing the information output from the meaning extraction means. May be realized by being executed by a computer constituting the speech understanding device.

【0015】また本発明において、(d)前記意味出力
手段の出力結果の情報と受け取り、あらかじめ用意され
た対話の流れを記憶し、前記意味出力手段の出力に応じ
て、次の音声入力にはどのようなキーワードが含まれる
かという情報を前記意味抽出手段に渡す対話管理手段を
備え、前記意味抽出手段が、前記対話管理手段からの出
力及び前記意味表現記憶部の記憶内容を基に、前記音声
認識手段から出力された複数の各認識結果候補文内にキ
ーワードがあるか否かを判定し、存在したキーワードを
出力するように構成してもよい。前記(d)の手段の処
理は、前記音声理解装置を構成するコンピュータで実行
させることで実現するようにしてもよい。
Also, in the present invention, (d) receiving the information of the output result of the meaning output means, storing the flow of the dialog prepared in advance, and storing the next speech input in accordance with the output of the meaning output means A dialogue management unit that passes information about what keyword is included to the meaning extraction unit, wherein the meaning extraction unit is configured to output the information based on an output from the dialogue management unit and a storage content of the meaning expression storage unit. It may be configured to determine whether or not there is a keyword in each of the plurality of recognition result candidate sentences output from the voice recognition unit, and to output the existing keyword. The processing of the means (d) may be realized by being executed by a computer constituting the speech understanding device.

【0016】すなわち、上記プログラムを記録した記録
媒体、又は通信媒体から読み出したプログラムをコンピ
ュータに読み出して実行することで本発明を実施するこ
とができる。
That is, the present invention can be implemented by reading out a program read from a recording medium or a communication medium storing the above-mentioned program into a computer and executing the program.

【0017】[0017]

【実施例】本発明の実施例について図面を参照して詳細
に説明する。
Embodiments of the present invention will be described in detail with reference to the drawings.

【0018】図1は、本発明の一実施例の構成を示す図
である。図1を参照すると、本発明の一実施例に係る音
声理解装置は、ユーザが入力した音声を認識する音声認
識部101と、音声認識に用いる認識用の文法を記憶す
る認識用文法記憶部102と、音声認識に用いる認識辞
書およびキーワードとなる単語であるかどうかの情報を
記憶する認識用辞書記憶部103と、認識結果候補中か
ら含まれるキーワードを取り出す意味抽出部104と、
得られたキーワードを出力する意味出力部105と、ユ
ーザの対話の流れを管理する対話管理部106と、各対
話の状態毎にユーザが入力し得るキーワードを記憶する
意味表現記憶部107とを含む。
FIG. 1 is a diagram showing the configuration of one embodiment of the present invention. Referring to FIG. 1, a speech understanding apparatus according to an embodiment of the present invention includes a speech recognition unit 101 for recognizing speech input by a user, and a recognition grammar storage unit 102 for storing a recognition grammar used for speech recognition. A recognition dictionary storage unit 103 that stores a recognition dictionary used for speech recognition and information as to whether the word is a keyword, a meaning extraction unit 104 that extracts a keyword included in a recognition result candidate,
Includes a meaning output unit 105 that outputs the obtained keywords, a dialog management unit 106 that manages the flow of the user's dialogue, and a meaning expression storage unit 107 that stores a keyword that can be input by the user for each state of the dialogue. .

【0019】音声認識部101は、認識用文法記憶部1
02と認識用辞書記憶部103の記憶内容を基に、ユー
ザが不図示の音声入力手段から入力しディジタル信号に
変換された音声に対して音声認識処理を行い、認識結果
として得られた複数の認識結果候補文(テキスト情報)
と各候補文に含まれる各単語のスコアを意味抽出部10
4に出力する。
The speech recognition unit 101 includes a recognition grammar storage unit 1
02 and the contents stored in the recognition dictionary storage unit 103, the user performs a voice recognition process on the voice input from a voice input unit (not shown) and converted into a digital signal, and a plurality of voices obtained as a recognition result are obtained. Recognition result candidate sentence (text information)
And the score of each word included in each candidate sentence
4 is output.

【0020】この音声認識部101より出力されるスコ
アとしては、例えば認識処理の際の音響スコアや、認識
用文法記憶部102の記憶内容により作成した言語スコ
ア、もしくは、音響スコアと言語スコアの両方を考慮し
たものからなる。
The score output from the speech recognition unit 101 is, for example, an acoustic score at the time of recognition processing, a language score created by the storage contents of the recognition grammar storage unit 102, or both an acoustic score and a language score. Is considered.

【0021】認識用文法記憶部102には、音声認識処
理に用いられる例えばCFG(文脈自由文法)や、Bigr
am、Trigramのような統計言語モデルなどの文法が記憶
保持され、必要に応じて音声認識部101に記憶内容を
渡す。
The recognition grammar storage unit 102 stores, for example, CFG (context-free grammar) or Bigr
A grammar such as a statistical language model such as am and Trigram is stored and held, and the stored content is passed to the speech recognition unit 101 as necessary.

【0022】認識用辞書記憶部103には、音声認識に
用いる認識辞書が記憶保持されており、必要に応じて音
声認識部101に記憶内容を渡す。
The recognition dictionary storage unit 103 stores a recognition dictionary used for voice recognition, and transfers the stored contents to the voice recognition unit 101 as needed.

【0023】意味抽出部104は、対話管理部106、
意味表現記憶部107の記憶内容を基に、音声認識部1
01から出力された複数の各認識結果候補文内にキーワ
ードが存在するかどうかを判定し、検出されたキーワー
ドを意味出力部105に出力する。
The meaning extracting unit 104 includes a dialog managing unit 106,
Based on the contents stored in the semantic expression storage unit 107, the speech recognition unit 1
It is determined whether a keyword exists in each of the plurality of recognition result candidate sentences output from No. 01, and the detected keyword is output to the meaning output unit 105.

【0024】この際、一つの発声中に同時に存在し得な
いキーワードが複数個存在した場合は、各キーワードに
対する音声認識部101が出力したスコアの最も良いも
の1つを選択する。
At this time, when there are a plurality of keywords that cannot be present simultaneously in one utterance, one of the best scores output by the speech recognition unit 101 for each keyword is selected.

【0025】意味出力部105は、意味抽出部104よ
り渡された情報を加工して意味表現を作成し出力する。
さらに対話管理部106に、出力結果の情報を渡す。
The meaning output unit 105 processes the information passed from the meaning extraction unit 104 to create and output a meaning expression.
Further, the output result information is passed to the dialog management unit 106.

【0026】意味出力部105からの出力される意味表
現としては、例えばキーワード列、あらかじめ用意され
たフレーム中に得られたキーワードを入力したデータ等
がある。
The semantic expression output from the meaning output unit 105 includes, for example, a keyword string, data obtained by inputting a keyword obtained in a frame prepared in advance, and the like.

【0027】対話管理部106は、あらかじめ用意され
た対話の流れを記憶し、意味出力部105の出力に応じ
て、次のユーザーからの音声入力にはどのようなキーワ
ードが含まれるかという情報を、意味抽出部104に渡
す。
The dialogue management unit 106 stores a flow of the dialogue prepared in advance, and, in accordance with the output of the meaning output unit 105, information on what kind of keyword is included in the voice input from the next user. To the meaning extraction unit 104.

【0028】意味表現記憶部107は、各対話の状態毎
にユーザーが入力し得るキーワードを記憶し、記憶内容
を必要に応じて意味抽出部104に出力する。
The semantic expression storage unit 107 stores a keyword that can be input by the user for each state of each conversation, and outputs the stored contents to the meaning extracting unit 104 as needed.

【0029】次に、本発明の一実施例について、具体的
なデータに即して説明する。対話管理部106は、図3
に示すような処理フローでユーザの対話フローを管理す
るものとする。
Next, an embodiment of the present invention will be described with reference to specific data. The dialog management unit 106
The user interaction flow is managed by the processing flow shown in FIG.

【0030】ユーザは、まず、状態<予約入力>(20
1)にて、席の種類、日時、枚数を入力し、次に、状態
<認識結果確認>(202)にて、認識結果に問題が無
いか確認し、問題が無ければ終了し、問題があれば、状
態<予約入力>(201)にて再度入力する。
First, the user enters the state <reservation input> (20
In 1), enter the type of seat, date and time, and the number of seats. Then, in state <confirmation of recognition result> (202), check whether there is any problem in the recognition result. If there is no problem, the process ends. If there is, input again in the state <reservation input> (201).

【0031】また、意味表現記憶部107には、図4に
示すようなキーワードが登録されているものとする。
Also, it is assumed that keywords as shown in FIG. 4 are registered in the semantic expression storage unit 107.

【0032】状態<予約入力>では、「今日」、「明
日」、「あさって」、「A席」・・・をキーワードと
し、状態<認識結果確認>では、「はい」、「いいよ」
・・・をキーワードとする。
In the state <reservation input>, "today", "tomorrow", "tomorrow", "seat A"... Are used as keywords, and in the state <recognition result confirmation>, "yes" and "good"
... is a keyword.

【0033】図4にて、例えば「A席」、「B席」、
「S席」は同一の属性<席の種類>に属するものとし、
同一の属性のものは、一発声中には1回しか存在しない
ものとする。
In FIG. 4, for example, "A seat", "B seat",
"S seat" shall belong to the same attribute <seat type>
It is assumed that the attribute having the same attribute exists only once in one utterance.

【0034】ユーザが、「明日のA席のチケットを2枚
下さい」と音声入力したものとする。
It is assumed that the user voice-inputs "Please give two tickets for seat A tomorrow."

【0035】この時、音声認識部101における認識結
果は、図2に示す通りになり、意味抽出部104は、こ
の結果が渡されたものとする。
At this time, the recognition result in the voice recognition unit 101 is as shown in FIG. 2, and it is assumed that the result is passed to the meaning extraction unit 104.

【0036】図2において、()内の数字は音声認識部
101が出力したスコアを現わすものである。
In FIG. 2, the numbers in parentheses indicate the scores output by the voice recognition unit 101.

【0037】意味抽出部104は、対話管理部106、
意味表現記憶部107の記憶内容より、この認識結果候
補文内に存在するキーワードを調べる。
The meaning extracting unit 104 includes a dialog managing unit 106,
A keyword existing in the recognition result candidate sentence is checked from the storage contents of the semantic expression storage unit 107.

【0038】この時、状態が<予約確認>であるから、
「明日」、「A席」、「2枚」、「B席」、「5枚」が
認識結果候補文内に含まれるキーワードであることが分
かる。
At this time, since the state is <reservation confirmation>,
It can be seen that “tomorrow”, “A seat”, “2 seats”, “B seat”, and “5 seats” are keywords included in the recognition result candidate sentence.

【0039】ここで、意味抽出部104は、「A席」と
「B席」、「5枚」と「2枚」はそれぞれ同一の属性で
あるため、音声認識部101が出力したスコアが良い方
を選択し、「B席」、「5枚」を削除し、「明日」、
「A席」、「2枚」を意味表現として出力し、対話管理
部106に、この情報を送る。対話管理部106では送
られた情報を元に対話の状態を<認識結果確認>とす
る。
Here, since the meaning extraction unit 104 has the same attribute for "seat A" and "seat B" and "5 sheets" and "2 sheets", the score output by the speech recognition unit 101 is good. And delete "Seat B" and "5", "Tomorrow"
"Seat A" and "two sheets" are output as meaning expressions, and this information is sent to the dialog management unit 106. The dialog management unit 106 sets the state of the dialog as <confirmation of recognition result> based on the transmitted information.

【0040】[0040]

【発明の効果】以上説明したように、本発明によれば、
次のような効果を奏する。
As described above, according to the present invention,
The following effects are obtained.

【0041】第1の効果は、入力音声の理解性能を改善
する、ということにある。
The first effect is to improve the performance of understanding input speech.

【0042】第2の効果は、誤認識の修正や音声の再入
力の手間などを削減する、ということにある。
The second effect is to reduce the trouble of correcting erroneous recognition and re-inputting speech.

【0043】その理由は、第1位の認識結果候補だけで
なく、全ての認識結果候補文中から含まれているキーワ
ードを抽出するため、正しくキーワードが選択される可
能性が向上するためである。
The reason is that not only the first recognition result candidate but also the keywords included in all the recognition result candidate sentences are extracted, so that the possibility that the keyword is correctly selected is improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例の構成を示す図である。FIG. 1 is a diagram showing a configuration of an embodiment of the present invention.

【図2】本発明の一実施例における認識結果候補の一具
体例示す図である。
FIG. 2 is a diagram illustrating a specific example of a recognition result candidate according to an embodiment of the present invention.

【図3】本発明の一実施例における、対話フローの具体
例の一つを示す流れ図である。
FIG. 3 is a flowchart showing one specific example of a dialog flow in one embodiment of the present invention.

【図4】本発明の一実施例における、キーワード記憶内
容の一具体例を示す図である。
FIG. 4 is a diagram showing one specific example of keyword storage contents in one embodiment of the present invention.

【符号の説明】[Explanation of symbols]

101 音声認識部 102 認識用文法記憶部 103 認識用辞書記憶部 104 意味抽出部 105 意味出力部 106 対話管理部 107 意味表現記憶部 Reference Signs List 101 speech recognition unit 102 recognition grammar storage unit 103 recognition dictionary storage unit 104 meaning extraction unit 105 meaning output unit 106 dialog management unit 107 meaning expression storage unit

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】入力された音声を認識し認識結果からユー
ザが意図した意味を現わす複数のキーワードを出力する
音声理解装置であって、 前記入力された音声を認識し複数の認識候補文および前
記認識候補文に含まれる各キーワードに対応するスコア
を出力する音声認識手段と、 前記音声認識手段から出力された複数の前記キーワード
および前記キーワードに対応する前記スコアに基づき適
切なキーワードを選択するキーワード選択手段と、 を備えたことを特徴とする音声理解装置。
1. A speech understanding device for recognizing input speech and outputting a plurality of keywords representing a meaning intended by a user from a result of the recognition, comprising: A voice recognition unit that outputs a score corresponding to each keyword included in the recognition candidate sentence; a plurality of the keywords output from the voice recognition unit and a keyword that selects an appropriate keyword based on the score corresponding to the keyword A speech understanding device, comprising: selecting means.
【請求項2】前記キーワード選択手段が、一発声中に同
時に存在し得ないキーワードが複数個存在した場合に
は、前記音声認識手段から出力された各キーワードに対
するスコアを基に一つのキーワードを選択する、ことを
特徴とする請求項1記載の音声理解装置。
2. The method according to claim 1, wherein said keyword selecting means selects one keyword based on a score for each keyword output from said voice recognizing means when there are a plurality of keywords which cannot be present simultaneously in one utterance. The speech understanding device according to claim 1, wherein
【請求項3】各対話の状態毎に受け付けるキーワードを
切り替える対話管理手段をさらに備えたことを特徴とす
る請求項1又は2記載の音声理解装置。
3. The speech comprehension apparatus according to claim 1, further comprising dialogue management means for switching a keyword to be accepted for each dialogue state.
【請求項4】音声認識に用いる認識用の文法を記憶する
認識用文法記憶部と、 音声認識に用いる認識辞書およびキーワードとなる単語
であるかどうかの情報を記憶する認識用辞書記憶部と、 各対話の状態毎にユーザが入力し得るキーワードを属性
情報と対応させて記憶する意味表現記憶部と、 音声入力手段から入力された音声に対して、前記認識用
文法記憶部と前記認識用辞書記憶部とを参照して、音声
認識処理を行い、前記入力音声の認識結果として得られ
た複数の認識結果候補文と該候補文に含まれる各単語の
スコアを出力する音声認識手段と、 前記意味表現記憶部の記憶内容を基に、前記音声認識手
段から出力された複数の各認識結果候補文内にキーワー
ドがあるか否かを判定し、検出されたキーワードを出力
する意味抽出手段と、 前記意味抽出手段より出力された情報を加工して意味表
現を作成して出力する意味出力手段と、 を備えたことを特徴とする音声理解装置。
4. A recognition grammar storage unit for storing a recognition grammar used for speech recognition, a recognition dictionary storage unit for storing a recognition dictionary used for speech recognition and information as to whether or not the word is a keyword. A semantic expression storage unit for storing a keyword that can be input by the user in association with attribute information for each state of each dialogue; a recognition grammar storage unit and the recognition dictionary for a voice input from a voice input unit A voice recognition unit that performs a voice recognition process with reference to a storage unit and outputs a plurality of recognition result candidate sentences obtained as a recognition result of the input voice and a score of each word included in the candidate sentences; Based on the storage contents of the semantic expression storage unit, determine whether there is a keyword in each of the plurality of recognition result candidate sentences output from the speech recognition means, and output a detected keyword, a meaning extraction means, And a meaning output means for processing the information output from the meaning extraction means to create and output a meaning expression.
【請求項5】前記意味抽出手段が、前記認識結果候補文
中に、一つの発声中に同時に存在し得ないキーワードが
複数個存在した場合には、各キーワードに対する前記音
声認識手段が出力したスコアの最も良いものを1つ選択
する、ことを特徴とする請求項4記載の音声理解装置。
5. A method according to claim 1, wherein said semantic extraction means includes a plurality of keywords which cannot be present simultaneously in one utterance in said recognition result candidate sentence. 5. The speech understanding device according to claim 4, wherein one of the best ones is selected.
【請求項6】前記意味出力手段の出力結果の情報を受け
取り、あらかじめ用意された対話の流れを記憶し、前記
意味出力手段の出力に応じて、次の音声入力にはどのよ
うなキーワードが含まれるかという情報を前記意味抽出
手段に渡す対話管理手段を備え、 前記意味抽出手段は、前記対話管理手段からの出力及び
前記意味表現記憶部の記憶内容を基に、前記音声認識手
段から出力された複数の各認識結果候補文内にキーワー
ドがあるか否かを判定し、存在したキーワードを出力す
ることを特徴とする請求項4記載の音声理解装置。
6. Receiving information on the output result of said meaning output means, storing a flow of a dialog prepared in advance, and according to the output of said meaning output means, what keyword is included in the next voice input. Dialogue means for passing information to the meaning extraction means, the meaning extraction means being output from the speech recognition means based on the output from the dialogue management means and the contents stored in the meaning expression storage unit. 5. The speech understanding device according to claim 4, wherein it is determined whether or not there is a keyword in each of the plurality of recognition result candidate sentences, and the existing keyword is output.
【請求項7】入力された音声を認識して認識結果よりか
らユーザが意図した意味を現わす複数のキーワードを出
力する処理をコンピュータで行う音声理解装置であっ
て、 音声認識に用いる認識用の文法を記憶する認識用文法記
憶部と、 音声認識に用いる認識辞書およびキーワードとなる単語
であるかどうかの情報を記憶する認識用辞書記憶部と、 各対話の状態毎にユーザが入力し得るキーワードを記憶
する意味表現記憶部と、を備え、 (a)ユーザが音声入力手段から入力した音声に対し
て、前記認識用文法記憶部と前記認識用辞書記憶部を参
照して、音声認識を行い、前記入力音声の認識結果とし
て得られた複数の認識結果候補文と該候補文に含まれる
各単語のスコアを出力する音声認識処理と、 (b)前記意味表現記憶部の記憶内容を基に、前記音声
認識処理から出力された複数の各認識結果候補文内にキ
ーワードがあるか否かを判定し、検出されたキーワード
を出力し、その際、一つの発声中に同時に存在し得ない
キーワードが複数個存在した場合は、各キーワードに対
する前記音声認識処理が出力したスコアの最も良いもの
を1つ選択する意味抽出処理と、 (c)前記意味抽出処理より出力された情報を加工して
意味表現を作成して出力する意味出力処理と、 の前記(a)乃至(c)の各処理を前記コンピュータで
実行させるためのプログラムを記録した記録媒体。
7. A speech comprehension apparatus for performing, by a computer, a process of recognizing an input speech and outputting a plurality of keywords representing a meaning intended by a user based on a result of the recognition. A recognition grammar storage unit for storing grammar, a recognition dictionary for use in speech recognition and a recognition dictionary storage unit for storing information as to whether or not the word is a keyword, and a keyword that can be input by the user for each state of each dialogue And (a) performing voice recognition on the voice input by the user from the voice input unit with reference to the recognition grammar storage unit and the recognition dictionary storage unit. Voice recognition processing for outputting a plurality of recognition result candidate sentences obtained as a recognition result of the input speech and scores of each word included in the candidate sentences; and (b) storage contents of the semantic expression storage unit. Based on the above, it is determined whether or not there is a keyword in each of the plurality of recognition result candidate sentences output from the voice recognition process, and the detected keyword is output. At this time, the keyword may be present simultaneously in one utterance. If there are a plurality of missing keywords, a meaning extraction process for selecting one having the best score output by the voice recognition process for each keyword; and (c) processing information output from the meaning extraction process. A recording medium which stores a program for causing the computer to execute each of the above-described processes (a) to (c) of creating and outputting a semantic expression.
【請求項8】入力された音声を認識して認識結果よりか
らユーザが意図した意味を現わす複数のキーワードを出
力する処理をコンピュータで行う音声理解装置であっ
て、 音声認識に用いる認識用の文法を記憶する認識用文法記
憶部と、 音声認識に用いる認識辞書およびキーワードとなる単語
であるかどうかの情報を記憶する認識用辞書記憶部と、 各対話の状態毎にユーザが入力し得るキーワードを属性
情報と対応させて記憶する意味表現記憶部と、を備え、 (a)ユーザが音声入力手段から入力した音声に対し
て、前記認識用文法記憶部と前記認識用辞書記憶部を参
照して、音声認識を行い、前記入力音声の認識結果とし
て得られた複数の認識結果候補文と該候補文に含まれる
各単語のスコアを出力する音声認識処理と、 (b)前記意味表現記憶部の記憶内容を基に、前記音声
認識処理から出力された複数の各認識結果候補文内にキ
ーワードがあるか否かを判定し、検出されたキーワード
を出力し、その際、一つの発声中に同時に存在し得ない
キーワードが複数個存在した場合は、各キーワードに対
する前記音声認識処理が出力したスコアの最も良いもの
を1つ選択する意味抽出処理と、 (c)前記意味抽出処理より出力された情報を加工して
意味表現を作成して出力する意味出力処理と、 (d)前記意味出力処理の出力結果の情報と受け取り、
あらかじめ用意された対話の流れを記憶し、前記意味出
力手段の出力に応じて、次の音声入力にはどのようなキ
ーワードが含まれるかという情報を前記意味抽出処理に
渡す対話管理処理と、を備え、 前記意味抽出処理が、前記対話管理処理からの出力及び
前記意味表現記憶部の記憶内容を基に、前記音声認識手
段から出力された複数の各認識結果候補文内にキーワー
ドがあるか否かを判定し、検出されたキーワードを出力
し、 前記(a)乃至(d)の各処理を前記コンピュータで実
行させるためのプログラムを記録した記録媒体。
8. A speech comprehension apparatus for performing, by a computer, a process of recognizing input speech and outputting a plurality of keywords representing a meaning intended by a user based on a result of the recognition. A recognition grammar storage unit for storing grammar, a recognition dictionary for use in speech recognition and a recognition dictionary storage unit for storing information as to whether or not the word is a keyword, and a keyword that can be input by the user for each state of each dialogue (A) referring to the recognition grammar storage unit and the recognition dictionary storage unit for the voice input by the user from the voice input unit. Speech recognition processing for performing speech recognition and outputting a plurality of recognition result candidate sentences obtained as a result of recognition of the input speech and a score of each word included in the candidate sentences; Based on the content stored in the current storage unit, it is determined whether or not there is a keyword in each of the plurality of recognition result candidate sentences output from the voice recognition process, and the detected keyword is output. If there are a plurality of keywords that cannot be present at the same time during the utterance, a semantic extraction process of selecting one having the best score output by the speech recognition process for each keyword; and (c) a semantic extraction process. Processing the output information to create and output a semantic expression; and (d) receiving the output result information of the semantic output processing and receiving;
A dialog management process of storing a flow of a dialog prepared in advance, and passing information on what keyword is included in the next voice input to the meaning extraction process in accordance with the output of the meaning output means. The semantic extraction processing is based on the output from the dialog management processing and the storage contents of the semantic expression storage unit, and determines whether or not there is a keyword in each of the plurality of recognition result candidate sentences output from the speech recognition means. A storage medium for storing a program for outputting the detected keyword, and causing the computer to execute each of the processes (a) to (d).
JP11188480A 1999-07-02 1999-07-02 Voice understanding device Pending JP2001013992A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11188480A JP2001013992A (en) 1999-07-02 1999-07-02 Voice understanding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11188480A JP2001013992A (en) 1999-07-02 1999-07-02 Voice understanding device

Publications (1)

Publication Number Publication Date
JP2001013992A true JP2001013992A (en) 2001-01-19

Family

ID=16224478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11188480A Pending JP2001013992A (en) 1999-07-02 1999-07-02 Voice understanding device

Country Status (1)

Country Link
JP (1) JP2001013992A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325560A (en) * 2003-04-22 2004-11-18 Sony Corp Device and method for speech recognition, program, and recording medium
JP2005215689A (en) * 2004-02-02 2005-08-11 Fuji Xerox Co Ltd Method and system for recognizing information from information source
JP2008209717A (en) * 2007-02-27 2008-09-11 Toshiba Corp Device, method and program for processing inputted speech
CN111341317A (en) * 2020-02-19 2020-06-26 Oppo广东移动通信有限公司 Method and device for evaluating awakening audio data, electronic equipment and medium
CN111862980A (en) * 2020-08-07 2020-10-30 斑马网络技术有限公司 Incremental semantic processing method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325560A (en) * 2003-04-22 2004-11-18 Sony Corp Device and method for speech recognition, program, and recording medium
JP4587015B2 (en) * 2003-04-22 2010-11-24 ソニー株式会社 Voice recognition apparatus and method, program, and recording medium
JP2005215689A (en) * 2004-02-02 2005-08-11 Fuji Xerox Co Ltd Method and system for recognizing information from information source
JP4678193B2 (en) * 2004-02-02 2011-04-27 富士ゼロックス株式会社 Voice data recognition device, note display device, voice data recognition program, and note display program
JP2008209717A (en) * 2007-02-27 2008-09-11 Toshiba Corp Device, method and program for processing inputted speech
US8954333B2 (en) 2007-02-27 2015-02-10 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for processing input speech
CN111341317A (en) * 2020-02-19 2020-06-26 Oppo广东移动通信有限公司 Method and device for evaluating awakening audio data, electronic equipment and medium
CN111341317B (en) * 2020-02-19 2023-09-01 Oppo广东移动通信有限公司 Method, device, electronic equipment and medium for evaluating wake-up audio data
CN111862980A (en) * 2020-08-07 2020-10-30 斑马网络技术有限公司 Incremental semantic processing method

Similar Documents

Publication Publication Date Title
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
US7412387B2 (en) Automatic improvement of spoken language
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
JP4680714B2 (en) Speech recognition apparatus and speech recognition method
US20050187768A1 (en) Dynamic N-best algorithm to reduce recognition errors
JP2010048953A (en) Interaction sentence generating device
JP2004170765A (en) Apparatus and method for speech processing, recording medium, and program
JP2000200273A (en) Speaking intention recognizing device
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP2000172294A (en) Method of speech recognition, device thereof, and program recording medium thereof
JP3468572B2 (en) Dialogue processing device
US6772116B2 (en) Method of decoding telegraphic speech
JP2001013992A (en) Voice understanding device
US7206738B2 (en) Hybrid baseform generation
JP2871557B2 (en) Voice recognition device
JP3059413B2 (en) Natural language understanding device and natural language understanding system
JPH10171490A (en) Continuous speech recognition device
JP2003162524A (en) Language processor
JP3526549B2 (en) Speech recognition device, method and recording medium
JP2000330588A (en) Method and system for processing speech dialogue and storage medium where program is stored
JP3009654B1 (en) Machine translation processor
JPH08248979A (en) Speech rcognizer
JP3259734B2 (en) Voice recognition device
Ringger Correcting speech recognition errors

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20021112