JP3526063B2 - Voice recognition device - Google Patents
Voice recognition deviceInfo
- Publication number
- JP3526063B2 JP3526063B2 JP35395892A JP35395892A JP3526063B2 JP 3526063 B2 JP3526063 B2 JP 3526063B2 JP 35395892 A JP35395892 A JP 35395892A JP 35395892 A JP35395892 A JP 35395892A JP 3526063 B2 JP3526063 B2 JP 3526063B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- sentence template
- voice
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Document Processing Apparatus (AREA)
Description
【0001】本発明は、入力された音声を認識する音声
認識装置に関する。The present invention relates to a voice recognition device for recognizing input voice.
【0002】[0002]
【従来の技術】従来、音声認識において、ユーザが音声
入力する可能性のある言い回しや語順を予め用意してお
く必要がなく、しかもユーザの意図する事柄を多くの種
類の言い回しや語順で音声入力することを可能にするた
め、例えば、特開平4−167176号公報に開示の音
声認識装置が提案されている。2. Description of the Related Art Conventionally, in speech recognition, it is not necessary to prepare in advance a wording or word order in which a user may input a voice, and moreover, a user's intention can be input in many kinds of wording or word order. In order to make it possible, for example, a voice recognition device disclosed in Japanese Patent Laid-Open No. 4-167176 has been proposed.
【0003】図15はこの音声認識装置の構成例を示す
図である。この音声認識装置は、複数個の単語とこれら
の単語同士の意味関係とで表現される概念構造を複数個
記憶する概念構造記憶部51と、入力音声中の単語を検
出する単語検出部52と、概念構造毎に当該概念構造と
単語検出部52によって検出された単語との一致度を計
算する照合部53と、複数個の概念構造のうち一致度が
最大の概念構造を認識結果として出力する認識結果決定
部54とを有している。これにより、言い回しや語順が
異なる文であっても、文の意味が同じものを1つの概念
構造で表現することによって、種々の言い回しや語順を
予め用意しておかずとも、これを同じ意味の文として認
識することを意図している。FIG. 15 is a diagram showing a configuration example of this voice recognition device. This speech recognition device includes a conceptual structure storage unit 51 that stores a plurality of conceptual structures represented by a plurality of words and a semantic relationship between these words, and a word detection unit 52 that detects words in an input speech. , A matching unit 53 that calculates the degree of coincidence between the conceptual structure and the word detected by the word detecting unit 52 for each conceptual structure, and outputs the conceptual structure having the maximum degree of coincidence among the plurality of conceptual structures as a recognition result. The recognition result determination unit 54 is included. As a result, even if a sentence has a different wording or word order, it is possible to express a sentence having the same meaning by a single conceptual structure so that even if various words or word orders are not prepared in advance, the sentence having the same meaning can be used. Is intended to be recognized as.
【0004】さらに、この公報には、概念構造中の意味
関係で結ばれる単語同士の入力音声での出現順序の可能
性をも記憶しておき、この出現順序を考慮し、概念構造
と単語検出部によって検出された単語との一致度を計算
するような音声認識装置も開示されており、これによ
り、一致度の値をより正確に求め、正しい概念構造を認
識結果として選択することを意図している。Furthermore, this publication also stores the possibility of the order of appearance in the input voice of words that are connected by a semantic relationship in the conceptual structure, and considers the order of appearance to detect the conceptual structure and word detection. There is also disclosed a voice recognition device that calculates the degree of coincidence with the word detected by the section, which aims to more accurately obtain the value of the degree of coincidence and select the correct conceptual structure as the recognition result. ing.
【0005】[0005]
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声認識装置により、例えば、図16(a)の
文と図16(b)の文との認識を意味だけを用いて行な
う場合、両者とも、「来月」,「休み」,「打ち合わ
せ」の単語が認識結果として出力され、図16(a)の
文の意味と図16(b)の意味とが本来全く異なってい
るにもかかわらず、これらを同じ意味の文として誤認識
してしまうという問題があった。However, if the conventional speech recognition apparatus described above is used to recognize the sentence of FIG. 16A and the sentence of FIG. In addition, the words "next month", "rest", and "meeting" are output as the recognition results, and the meaning of the sentence in FIG. 16 (a) and the meaning in FIG. 16 (b) are originally completely different. However, there is a problem that these are erroneously recognized as sentences having the same meaning.
【0006】また、語順に制限を設けた場合にも意味構
造を構成する語だけを認識することにより、次のような
誤認識の問題があった。すなわち、例えば、「明日」と
いう語が後ろに位置する場合を考えて、構文ネットワー
ク上に図17(a)のように記述した場合に(図17
(a)において「#」は意味を表わす記号)、音声入力
が図17(b)のようなものであり、「がしたい(gasi
tai)」と「明日(asita)」に類似の音があったときに
は、「銀座」,「外出」,「明日」というように、単語
列が誤検出されることがあった。Further, even when the word order is limited, there is a problem of the following erroneous recognition by recognizing only the words constituting the semantic structure. That is, for example, in the case where the word "tomorrow" is located at the back, when the description is made on the syntax network as shown in FIG.
In (a), “#” is a symbol indicating meaning, and the voice input is as shown in FIG. 17B, and “gaishai (gasi
When there was a sound similar to "tai)" and "tomorrow (asita)", the word strings were sometimes falsely detected, such as "Ginza", "going out", and "tomorrow".
【0007】また、語順を記述する単位についても問題
があった。すなわち、日本語について動詞は格要素より
も後ろに出現するといった性質があり、上述した従来の
音声認識装置では、これをもとに意味構造を構成する語
の出現順序を記述する方法をとっている。しかしなが
ら、例えば、図18(a),(b)に示すような文にお
いて、「外出」は両者とも意味的な述部であるが、図1
8(b)の文では構文的(語順)には述部ではない(後
ろに「明日」が位置している)。このことから、文の語
順を考えた場合、最後に位置するのは概念構造を構成す
る意味的な動詞ではなく、構文的な動詞であるというこ
とがわかる。つまり、語順についての記述の単位とし
て、概念構造に現われる意味的な要素は不適当であり、
構文的な要素でなければ、正しい記述ができない。There is also a problem with the unit for describing the word order. That is, in Japanese, verbs have the property that they appear after case elements, and in the above-described conventional speech recognition device, a method of describing the appearance order of words that make up the semantic structure is used based on this. There is. However, for example, in the sentences shown in FIGS. 18 (a) and 18 (b), “going out” is a semantic predicate.
In the sentence of 8 (b), it is not a predicate syntactically (word order) (the "tomorrow" is located behind it). From this, it can be seen that, when considering the word order of sentences, it is the syntactic verb that is positioned last, not the semantic verb that constitutes the conceptual structure. In other words, the semantic elements appearing in the conceptual structure are inappropriate as a unit for describing the word order,
If it is not a syntactic element, the correct description cannot be made.
【0008】本発明は、このような従来の欠点を改善し
たものであり、語順など自由度の高い表現を精度良く認
識することの可能な音声認識装置を提供することを目的
としている。An object of the present invention is to improve the above-mentioned conventional drawbacks, and an object thereof is to provide a voice recognition apparatus capable of accurately recognizing expressions having a high degree of freedom such as word order.
【0009】[0009]
【課題を解決するための手段および作用】上記目的を達
成するために、請求項1記載の発明は、音声を入力する
音声入力手段と、認識すべき語,語の意味が入力音声中
の出現順序に従って記述されている文テンプレートと語
の意味が記述されている単語辞書とを参照して前記音声
入力手段からの入力音声から単語を検出する単語検出手
段と、単語検出手段において検出された単語列に基づき
入力音声に対する認識結果を得る認識手段とを有し、文
テンプレートは、前記単語検出手段が意味構造を構成す
る単語以外の語をも認識するように構成され、前記文テ
ンプレートには、入力音声中に出現する語と語との間の
時間的間隔が記述されており、前記単語検出手段は、文
テンプレートに記述された語間の時間的間隔を参照し
て、意味構造を構成する語とそれ以外の語とを認識し、
単語の検出を行なうようになっていることを特徴として
いる。意味構造を構成する語とそれ以外の語を認識する
ことによって、より正しい意味理解ができ、高精度の認
識結果を得ることができる。 In order to achieve the above object, the invention according to claim 1 has a voice input means for inputting a voice, a word to be recognized, and the meaning of the word appearing in the input voice. A word detecting means for detecting a word from the input voice from the voice input means by referring to a sentence template described in order and a word dictionary in which the meaning of the word is described, and a word detected by the word detecting means. have a recognition means for obtaining a recognition result for the input speech based on the column, the statement template is also configured to recognize a word other than the word to said word detecting means constituting the semantic structure, the Bunte
The template includes the words between the words that appear in the input voice.
The time interval is described, and the word detecting means
Refer to the time interval between words described in the template
Recognize the words that make up the semantic structure and the other words,
The feature is that it is designed to detect words . Recognize the words that make up the semantic structure and other words
By doing so, it is possible to understand the meaning more accurately and to recognize with high accuracy.
You can get insight.
【0010】[0010]
【0011】また、請求項2記載の発明は、文テンプレ
ートに、共起する複数の語または語の意味が記述されて
おり、単語検出手段は、文テンプレートに記述された共
起関係を使用することで、単語を限定して検出するよう
になっていることを特徴としている。共起関係を使用す
ることで、検索すべき単語を限定でき、効率的な認識が
可能になる。特に呼応など共起出現する割合の高い表現
について有効である。According to the second aspect of the present invention, a sentence template describes a plurality of co-occurring words or meanings of the words, and the word detecting means uses the co-occurrence relation described in the sentence template. Therefore, the feature is that the word is limitedly detected. By using the co-occurrence relation, the words to be searched can be limited and efficient recognition can be performed. It is especially effective for expressions with a high rate of co-occurrence, such as response.
【0012】また、請求項3記載の発明は、文テンプレ
ートに、特定の語と共起する性質をもつ語には、語や語
の意味だけでなく、共起情報をもつ語であることも記述
されており、単語検出手段は、共起情報をもつ語につい
ては、共起情報をも参照して、単語検出を行なうように
なっていることを特徴としている。文テンプレートに、
共起情報をもつ語であることを記述することで、文テン
プレートの記述量を減らし、意味的な性質と構文的な性
質を切り分けてより正確なデ−タを作成することができ
る。According to the third aspect of the invention, in the sentence template, a word having a property of co-occurring with a specific word is not only the word or the meaning of the word but also a word having co-occurrence information. It is described that the word detecting means is configured to detect a word having co-occurrence information by also referring to the co-occurrence information. In the sentence template,
By describing that the word has co-occurrence information, it is possible to reduce the description amount of the sentence template and separate the semantic property and the syntactic property to create more accurate data.
【0013】また、請求項4記載の発明は、文テンプレ
ートに、語の繰り返しが記述されており、単語検出手段
は、ある単語が検出された場合に、文テンプレート中に
語の繰り返しが記述されているときには、この単語の検
出位置よりも時間的に後ろに同じ性質の語を検出しにい
くようになっていることを特徴としている。これによ
り、格パタンを埋める名詞句のように複数個が並び、か
つその順番がかなり自由であるものについて処理,デー
タ作成を効率的に行なうことができ、格パタンなどの意
味的な性質と語順などの構文的な性質とを切り分けて記
述することができる。In the invention according to claim 4 , the word template describes the word repetition, and the word detecting means describes the word repetition in the sentence template when a certain word is detected. In this case, it is characterized in that a word having the same property is detected later in time than the detection position of this word. As a result, it is possible to efficiently process and create data such as a noun phrase that fills a case pattern and in which the order is quite free. It can be described separately from the syntactic properties such as.
【0014】また、請求項5記載の発明は、文テンプレ
ートに、語,語の意味だけでなく、品詞などの構文的性
質が記述されており、単語検出手段は、文テンプレート
に記述された構文的性質をも考慮して単語の検出を行な
うようになっていることを特徴としている。文テンプレ
ートに、意味だけでなく、品詞などの構文的な性質によ
る注釈をつけることで、検出する単語を文法的に正しい
文だけに絞り、認識精度,効率を向上させることができ
る。また、意味的な性質と構文的な性質を切り分けてよ
り正確なデータを作成することができる。According to the invention of claim 5 , the sentence template describes not only the word and the meaning of the word but also syntactic properties such as a part of speech, and the word detecting means is the syntax described in the sentence template. The feature is that the word is detected in consideration of the physical property. By adding annotations not only to meaning but also to syntactic properties such as part-of-speech to sentence templates, it is possible to narrow down the detected words to only grammatically correct sentences and improve recognition accuracy and efficiency. In addition, more accurate data can be created by separating the semantic and syntactic properties.
【0015】また、請求項6記載の発明は、文テンプレ
ートに、入力音声中で語が省略可能か否かの情報が記述
されており、単語検出手段は、ある語が入力音声中に検
出されない場合にも、文テンプレートに基づきこの語が
省略可能である場合には、この語に関して文全体の認識
に影響を及ぼさないような処理を行なうことを特徴とし
ている。これにより、基本となるデータだけを作成すれ
ば良く、文テンプレートの記述量を減らすことができ
る。Further, in the invention according to claim 6 , the sentence template describes information on whether or not a word can be omitted in the input voice, and the word detecting means does not detect a word in the input voice. Also in this case, if this word can be omitted based on the sentence template, the processing is performed so as not to affect the recognition of the entire sentence with respect to this word. As a result, only basic data needs to be created, and the description amount of the sentence template can be reduced.
【0016】[0016]
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る音声認識装置の構成例を示す
図である。図1を参照すると、この音声認識装置は、音
声を入力する音声入力部1と、認識すべき語,語の意
味,語のグループが入力音声中の出現順序に従って記述
された文テンプレートを記憶する文テンプレート格納部
2と、語の意味,語のグループが記述されている単語辞
書3と、文テンプレート,単語辞書3を参照して音声入
力部1からの入力音声から単語を検出する単語検出部4
と、単語検出部4において検出された単語列に基づき入
力音声に対する認識結果を得る認識部5とを有してい
る。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram showing a configuration example of a voice recognition device according to the present invention. Referring to FIG. 1, this speech recognition apparatus stores a speech input unit 1 for inputting speech, and a sentence template in which a word to be recognized, a meaning of the word, and a group of words are described in the order of appearance in the input speech. A sentence template storage unit 2, a word dictionary 3 in which word meanings and word groups are described, and a word detection unit that refers to the sentence template and word dictionary 3 to detect a word from an input voice from the voice input unit 1. Four
And a recognition unit 5 that obtains a recognition result for the input voice based on the word string detected by the word detection unit 4.
【0017】このような構成の音声認識装置では、音声
入力部1から入力された入力音声は、単語検出部4にお
いて、特徴抽出処理がなされ、予め記憶されている標準
パターンを用いて、スポッティングにより単語の検出が
なされる。すなわち、単語検出部4では、入力音声中に
含まれている単語の検出を行なう際に、文テンプレート
格納部2の文テンプレートを参照し、各文テンプレート
の各項の条件の単語を入力音声中から検出する。そし
て、文テンプレートの項が語の意味や語のグループ名で
ある場合には、単語辞書3を検索して認識すべき単語,
およびその位置,スコア(標準パターンとの一致度)を
得る。このようにして、単語検出部4で単語列,および
その位置,スコアが検出されると、認識部5では、検出
された単語列のスコアのうち高い最もスコアをもつ単語
列を認識結果として出力する。In the voice recognition apparatus having such a configuration, the input voice input from the voice input unit 1 is subjected to feature extraction processing in the word detection unit 4 and spotted by using a standard pattern stored in advance. Words are detected. That is, the word detection unit 4 refers to the sentence template of the sentence template storage unit 2 when detecting a word included in the input voice, and refers to the word of the condition of each item of each sentence template in the input voice. To detect from. Then, when the term of the sentence template is the meaning of a word or the group name of the word, the word to be recognized by searching the word dictionary 3,
And its position and score (degree of coincidence with standard pattern). In this way, when the word detection unit 4 detects a word string, its position, and a score, the recognition unit 5 outputs the word string having the highest score among the detected word string scores as a recognition result. To do.
【0018】ところで、本発明の第1の実施例は、単語
検出部4が、意味構造を構成する単語以外の語をも認識
するようになっている。図2,図3は単語検出部4が意
味構造を構成する単語以外の語をも認識するようになっ
ている場合の文テンプレート,単語辞書の一例をそれぞ
れ示す図である。なお、図2において、「#」は単語の
意味を表わす記号であり、それ以外は単語表記そのもの
である。文テンプレート格納部2に図2に示すような2
種類の文テンプレート,「#場所 外出 #日付 した
い」,「#場所 外出 したい」が格納されている場合
に、例えば「銀座に外出がしたい」というような音声入
力があると、単語検出部4は、文テンプレート格納部2
の各文テンプレートを順次にその第1項目から調べる。By the way, in the first embodiment of the present invention, the word detecting unit 4 is adapted to recognize words other than the words constituting the semantic structure. 2 and 3 are diagrams showing an example of a sentence template and a word dictionary, respectively, when the word detection unit 4 is adapted to recognize words other than words constituting a semantic structure. In addition, in FIG. 2, “#” is a symbol representing the meaning of a word, and the rest is the word notation itself. 2 as shown in FIG.
When the type of sentence template, “#place go out #I want to go out date”, and “#place go out” is stored and there is a voice input such as “I want to go out in Ginza”, the word detection unit 4 , Sentence template storage 2
Each sentence template of is sequentially examined from the first item.
【0019】具体的には、先ず、第1番目の文テンプレ
ート「#場所 外出 #日付 したい」の第1項を調
べ、この第1項が「#場所」であるので、意味が場所で
ある単語を図3の単語辞書3から抽出し、各単語が入力
音声中にあるか否かを調べる。いまの場合、図3の単語
辞書3からは、「銀座」,「六本木」,「赤坂」が抽出
され、これらの単語が上記入力音声中にあるか否かが調
べられる。この結果、「銀座」という語が検出され、さ
らに、この語の入力音声中での位置(いまの場合、先頭
位置)と、スコア(標準パターンとの一致度)とが得ら
れる。次いで、第1番目の文テンプレートの第2項を調
べ、この第2項が「外出」であるので、入力音声中に
「外出」という単語が「銀座」という単語よりも時間的
に後ろにあるか否か,すなわち「外出」よりも後ろの位
置にあるか否かを調べる。この結果、「銀座」のすぐ後
ろの位置に、「外出」が検出され、この語の位置とスコ
アとが得られる。次いで、第1番目の文テンプレートの
第3項を調べ、この第3項が「#日付」であるので、意
味が日付である単語を図3の単語辞書3から抽出する。
いまの場合、「明日」,「7月7日」,「9月5日」,
…が辞書3から抽出され、これらの単語が入力音声中に
おいて「外出」よりも後ろの位置にあるか否かを調べ
る。上記入力音声において、「がしたい」(gasitai)
は「明日」(asita)と似た個所があるために、いまの
場合、「明日」が検出される。次いで、第1番目の文テ
ンプレートの第4項を調べ、この第4項が「したい」で
あるので、第4項の「したい」を「明日」の位置より後
ろに探しにくいが、すでに検出されている「明日」が音
声区間中の最後部分に位置しているので、第4項の「し
たい」は、検出されないかスコアが非常に低い値とな
る。Specifically, first, the first term of the first sentence template "# place out # want to date" is checked, and since this first term is "# place", a word whose meaning is a place. Is extracted from the word dictionary 3 in FIG. 3, and it is checked whether or not each word is in the input voice. In the present case, "Ginza", "Roppongi", and "Akasaka" are extracted from the word dictionary 3 in FIG. 3, and it is checked whether or not these words are in the input voice. As a result, the word "Ginza" is detected, and the position of the word in the input voice (in this case, the head position) and the score (degree of coincidence with the standard pattern) are obtained. Next, the second term of the first sentence template is examined. Since this second term is "going out", the word "going out" is behind the word "Ginza" in the input voice. Check whether or not, that is, whether or not the position is behind "going out". As a result, "going out" is detected immediately after "Ginza", and the position and score of this word are obtained. Next, the third term of the first sentence template is examined, and the word having the meaning of date is extracted from the word dictionary 3 of FIG. 3 because the third term is “#date”.
In the present case, "Tomorrow", "July 7th", "September 5th",
... are extracted from the dictionary 3 and it is checked whether or not these words are in a position after "going out" in the input voice. In the above input voice, "I want to do it" (gasitai)
Since there is a part similar to "tomorrow" (asita), "tomorrow" is detected in this case. Next, examine the fourth term of the first sentence template, and because this fourth term is "I want to", it is difficult to find "I want" in the fourth term after the position of "tomorrow", but it has already been detected. Since "Tomorrow" is located at the end of the voice section, "I want to" in the fourth term is either not detected or has a very low score.
【0020】このようにして、第1番目の文テンプレー
トの各項に対応した単語の検出,並びにその位置および
スコアを得た後、第2番目の文テンプレート「#場所
外出したい」について、同様の検出処理を行なう。この
結果、「銀座」,「外出」,「したい」の語が検出さ
れ、また、これらの語の位置とスコアとが得られる。In this way, after detecting the word corresponding to each term of the first sentence template, and obtaining its position and score, the second sentence template "#place" is obtained.
Similar detection processing is performed for "I want to go out". As a result, the words “Ginza”, “go out”, and “want to” are detected, and the positions and scores of these words are obtained.
【0021】認識部5では、各文テンプレートについ
て、その文テンプレートの各項のスコアの総計を入力音
声とこの文テンプレートとの類似度として認識を行な
う。いまの場合、第1番目の文テンプレートの各項のス
コアの総計が、入力音声と第1番目の文テンプレートと
の類似度となり、また、第2番目の文テンプレートの各
項のスコアの総計が、入力音声と第2番目の文テンプレ
ートとの類似度となり、この2つの類似度のうち、より
大きな類似度を与えた文テンプレートに対応する単語列
が認識結果として出力される。上記例では、第2番目の
文テンプレートとの類似度が最も高く、従って、単語列
「銀座」,「外出」,「したい」が認識結果として得ら
れる。The recognizing unit 5 recognizes, for each sentence template, the total score of each term of the sentence template as the degree of similarity between the input voice and this sentence template. In this case, the total score of each term of the first sentence template is the similarity between the input speech and the first sentence template, and the total score of each term of the second sentence template is , The similarity between the input speech and the second sentence template, and of these two similarities, the word string corresponding to the sentence template having the greater similarity is output as the recognition result. In the above example, the degree of similarity with the second sentence template is the highest, and therefore the word strings “Ginza”, “go out”, and “want” are obtained as recognition results.
【0022】このように、第1の実施例では、意味構造
を構成する単語以外の語をも認識することで、より精度
のよい認識結果を得ることができる。As described above, in the first embodiment, by recognizing words other than the words forming the semantic structure, a more accurate recognition result can be obtained.
【0023】また、本発明の第2の実施例は、文テンプ
レートに、語の時間的間隔,すなわち入力音声中に出現
する語と語との間の時間的間隔についての情報を記憶さ
せ、これにより、意味構造を構成する語とそれ以外の語
とを認識させるようになっている。In a second embodiment of the present invention, the sentence template stores information about the time interval between words, that is, the time interval between words that appear in the input speech. Thus, the words that make up the semantic structure and the other words are recognized.
【0024】図4はこの第2の実施例における文テンプ
レートの一例を示す図である。この文テンプレートは、
出現する単語の意味,表記と各単語間の間隔を記述した
ものであり、図4において、「+」は、直前の語と時間
的間隔のあかない付属語に付与されるフラグである。す
なわち、この第2の実施例では、例えば、自立語に続く
助詞との間には不要語などは一般に入らないが自立語間
には入りうるというように、語の性質によって語と語の
時間的間隔が違うので、これらの情報をも文テンプレー
トに記述するようになっている。FIG. 4 is a diagram showing an example of a sentence template in the second embodiment. This sentence template
It describes the meaning and notation of the words that appear and the interval between each word. In FIG. 4, "+" is a flag that is added to the annex that has no time interval from the immediately preceding word. That is, in the second embodiment, for example, unnecessary words and the like do not generally enter between the independent particle and the particle that follows the independent word, but can enter between independent words. Since the target interval is different, this information is also described in the sentence template.
【0025】また、この場合、単語検出部4は、文テン
プレートによる単語検出の際に、自立語だけでなく、自
立語に付属語をつなげた単位の語も認識候補として単語
検出を行なうようになっている。Further, in this case, the word detection unit 4 detects not only the independent word but also the word of the unit in which the auxiliary word is connected to the independent word as the recognition candidate when the word is detected by the sentence template. Has become.
【0026】文テンプレート格納部2に図4に示すよう
な2種類の文テンプレート「#日付+に #人名 #チ
ケット #買う」,「#日付+の #人名 #チケット
#買う」が格納されている場合に、例えば、「7月7
日に、えーブレッカーのコンサートのチケットを買いた
い」というような音声入力があると、単語検出部4は、
文テンプレート格納部2に格納されている各文テンプレ
ートを順次に、その第1項目から調べる。The sentence template storage unit 2 stores two kinds of sentence templates "# date + # person name # ticket # buy" and "# date + # person name # ticket # buy" as shown in FIG. In this case, for example, "July 7
On the day, when there is a voice input such as "I want to buy a ticket for an erbrecker concert," the word detection unit 4
Each sentence template stored in the sentence template storage unit 2 is sequentially checked from the first item.
【0027】具体的には、先ず、第1番目の文テンプレ
ートの第1項について、直後の項(第2項)に「+」が
あるかを調べる。「+」があれば、第2項は第1項とは
時間的な間隔がないので、検出すべき単語を第1項と、
第1項と第2項を接続した語の2語とする。すなわち、
「7月7日」,「7月7日に」の2語を音声入力中から
検出する。Specifically, first, with respect to the first term of the first sentence template, it is checked whether or not there is "+" in the immediately following term (second term). If there is "+", the second term has no time interval from the first term, so the word to be detected is the first term,
It is assumed that the first term and the second term are two connected words. That is,
Two words "July 7th" and "July 7th" are detected from the voice input.
【0028】次に第3項の「#人名」について、直後の
項に「+」がないので、この項だけについて認識する。
すなわち、単語辞書3から意味が人名の単語を抽出し、
入力音声中で先の単語よりも後ろの位置に抽出した単語
を検出しにいく。この結果、「ブレッカー」を入力音声
中から検出する。続いて同様の仕方で、「チケット」,
「買いたい」を検出することができる。Next, regarding "#personal name" in the third term, since there is no "+" in the immediately following term, only this term will be recognized.
That is, words whose meaning is a person's name are extracted from the word dictionary 3,
The words extracted at the position behind the preceding word in the input voice are detected. As a result, "Breaker" is detected in the input voice. Then, in the same way, "ticket",
"I want to buy" can be detected.
【0029】このようにして、第1番目の文テンプレー
トの各項に対応した単語の検出,並びにその位置および
スコアを得た後、第2番目の文テンプレートについても
同様の処理を行ない各文テンプレートごとにスコアの総
計を求める。いまの例の場合、第1番目のスコアの総計
が最も高く、「7月7日に」,「ブレッカー」,「チケ
ット」,「買いたい」が認識結果として得られる。In this way, after detecting the word corresponding to each term of the first sentence template and obtaining the position and score thereof, the same processing is performed for the second sentence template. Calculate the total score for each. In the case of the present example, the total of the first score is the highest, and “on July 7”, “Breaker”, “ticket”, and “want to buy” are obtained as recognition results.
【0030】このように、この第2の実施例では、認識
すべき単語間の時間的間隔を規定することにより、意味
構造を構成する語とそれ以外の語を認識できるので、よ
り正しい意味理解ができる。As described above, in the second embodiment, the words constituting the semantic structure and the other words can be recognized by defining the time interval between the words to be recognized, so that the meaning can be understood more correctly. You can
【0031】また、本発明の第3の実施例は、文テンプ
レートに、共起する複数の語または語の意味を記憶さ
せ、共起関係を使用することで、検索すべき単語を限定
して認識させるようになっている。Further, in the third embodiment of the present invention, a sentence template stores a plurality of co-occurring words or meanings of the words and the co-occurrence relation is used to limit the words to be searched. It is designed to be recognized.
【0032】図5はこの第3の実施例における文テンプ
レートの一例を示す図である。この文テンプレートは、
語または語の意味を、音声入力中に出現する順番に並べ
たものであり、共起する語にフラグ「@」とフラグ「@
@」が付与されている。特に意味的に中心になる方に
「@」が設定されている。また、この場合、単語検出部
4は、文テンプレート中の共起しあう語についてその全
ての語が検出された時だけ入力音声と文テンプレートと
が一致したと判断し、いずれか一方が検出されない場合
には不一致と判断するようになっている。FIG. 5 is a diagram showing an example of a sentence template in the third embodiment. This sentence template
The words or the meanings of the words are arranged in the order in which they appear during voice input. The co-occurring words have a flag "@" and a flag "@".
"@" Is added. In particular, "@" is set for the person who is the center of the meaning. Further, in this case, the word detecting unit 4 determines that the input voice and the sentence template match only when all the co-occurring words in the sentence template are detected, and one of them is not detected. In some cases, it is determined that they do not match.
【0033】文テンプレート格納部2に図5に示すよう
な2種類の文テンプレート「@いつ#外出 @@します
か」,「#日付 #外出 します」が格納されている場
合に、例えば「いつ外出しますか」というような音声入
力があると、単語検出部4は、文テンプレート格納部2
の文テンプレートを順に調べる。When two types of sentence templates "@ when # go out @@ do you want to go?" And "# date # go out?" Are stored in the sentence template storage 2 as shown in FIG. When there is a voice input such as "When do you want to go out?"
Examine each sentence template in turn.
【0034】具体的には、第1番目の文テンプレート中
の項で「@」のある語「いつ」をまず検出し、その位
置,スコアを得る。スコアが予め決めた値より高けれ
ば、次にそれと共起するフラグ「@@」の語「ますか」
を「いつ」よりも時間的に後ろに検出しにいく。検出で
きれば、残りの項「#外出」について単語辞書をひき、
意味が外出である語を「いつ」,「ますか」との時間的
に間の位置に検出する。共起関係の指定のある文テンプ
レートについては共起関係のある項全てが認識された場
合にのみ一致と判断する。Specifically, the word "when" having "@" in the item in the first sentence template is first detected, and its position and score are obtained. If the score is higher than a predetermined value, the word "Masuka" of the flag "@@" that co-occurs with it next
To detect later than "when". If it can be detected, draw the word dictionary for the remaining term "#outgoing",
The word whose meaning is out is detected at a position between “when” and “masu”. Regarding the sentence template with the co-occurrence relation specified, it is judged as coincident only when all the terms with the co-occurrence relation are recognized.
【0035】図5に示す2種類の文テンプレートでは、
第1番目の文テンプレートが最もスコアの総計が高く、
認識結果として、単語列「いつ」,「外出」,「します
か」を得ることができる。In the two types of sentence templates shown in FIG. 5,
The first sentence template has the highest total score,
As a recognition result, the word strings “when”, “go out”, and “do you do” can be obtained.
【0036】また、音声入力が例えば「9月5日に外出
します」の場合は、「いつ」と「いつか」に似た音であ
るが、「ますか」が認識されないので、第1番目の文テ
ンプレート「@いつ #外出 @@ますか」とは一致せ
ず、第2番目の文テンプレート「#日付 #外出 しま
す」と一致し、認識結果として、単語列「9月5日」,
「外出」,「します」を得ることができる。When the voice input is, for example, "I'm going out on September 5th", the sounds are similar to "When" and "When", but "Masuka" is not recognized. It does not match the sentence template "@ when # go out @ @ masashi", but does match the second sentence template "# date # go out." As a recognition result, the word string "September 5",
You can get "go out" and "do you".
【0037】このように、この第3の実施例では、共起
関係を使用することで、検索すべき単語を限定でき、効
率的な認識が可能になる。特に呼応など共起出現する割
合の高い表現について有効である。As described above, in the third embodiment, by using the co-occurrence relation, the words to be searched can be limited and efficient recognition can be realized. It is especially effective for expressions with a high rate of co-occurrence, such as response.
【0038】また、本発明の第4の実施例では、上記第
3の実施例の文テンプレートにおいて、さらに、特定の
語と共起する性質をもつ語には、語や語の意味だけでな
く、共起情報をもつ語であることをも記述させ、単語検
出を行なわせるようになっている。なお、この第4の実
施例では、図1の構成を図6に示すように変形し、共起
情報をもつ語については図6の語共起情報格納部6にこ
の共起情報が格納されるようになっている。図7は語共
起情報格納部6に格納されている語共起情報の一例を示
す図である。この語共起情報は、共起する語または意味
の対になっており、図7の例では、格関係のある語につ
いて格パタンをもつ語または語の意味とその格を埋める
語の意味が記述されている。Further, in the fourth embodiment of the present invention, in the sentence template of the third embodiment, a word having the property of co-occurring with a specific word is not limited to the word and the meaning of the word. , A word with co-occurrence information is also described so that the word can be detected. In the fourth embodiment, the configuration of FIG. 1 is modified as shown in FIG. 6, and for words having co-occurrence information, this co-occurrence information is stored in the word co-occurrence information storage unit 6 of FIG. It has become so. FIG. 7 is a diagram showing an example of the word co-occurrence information stored in the word co-occurrence information storage unit 6. This word co-occurrence information is a pair of co-occurring words or meanings. In the example of FIG. 7, the meanings of words or words having a case pattern and the meanings of words filling the case are related to the words having a case relationship. It has been described.
【0039】また、図8はこの第4の実施例における文
テンプレートの一例を示す図である。この文テンプレー
トも、図5に示した文テンプレートと同様に、語または
語の意味を音声の出現する順番に並べたものであるが、
図8の文テンプレートでは語共起情報格納部6に情報を
もつ語のフラグ「&」とこれと共起する語には、フラグ
「&&」が付与されている。特に格パタンをもつ語や意
味的に中心になる語(動詞など)には、「&」が設定さ
れている。また、この場合、単語検出部4は、共起情報
をもつ語については語共起情報格納部6の共起情報をも
参照して単語検出を行なうようになっている。FIG. 8 is a diagram showing an example of the sentence template in the fourth embodiment. Similarly to the sentence template shown in FIG. 5, this sentence template also has the words or the meanings of the words arranged in the order in which the voice appears.
In the sentence template of FIG. 8, a flag “&” of a word having information in the word co-occurrence information storage unit 6 and a flag “&&” are attached to a word co-occurring with the flag. In particular, "&" is set for words that have a case pattern or words that are semantically central (such as verbs). Further, in this case, the word detection unit 4 also detects the word having the co-occurrence information by also referring to the co-occurrence information in the word co-occurrence information storage unit 6.
【0040】例えば「明日外出する」というような音声
入力があると、単語検出部4は、文テンプレート格納部
2の文テンプレートを順に調べる。いま、文テンプレー
ト格納部2に図8に示すような文テンプレート「&&項
&外出」が格納されている場合に、単語検出部4は、
文テンプレート中の項でフラグ「&」のある語(「外
出」)を入力音声中から先に検出する。語があるスコア
以上で検出されれば、語共起情報格納部6において「外
出」と共起する語(語の意味)を検索する。語共起情報
格納部6に図7に示すような語共起情報が格納されてい
る場合、語共起情報として、「外出 #日付 #場所」
が検索される。次にこの「外出」と共起する「&&」フ
ラグの項を検出する。「&&」フラグの項は「項」なの
で(「&&項」は格パタンの項の意味である)、「外
出」より時間的に前に位置し、意味が日付,場所である
ものを検出する。「#日付」に該当する「明日」が「外
出」より前に検出される。これにより、単語列「明
日」,「外出」が認識される。例えばここで語共起情報
をもつ語(フラグ「&」の語)のスコアが予め設定した
値よりも低い場合は該文テンプレートは一致しないと判
断し、共起する語を検出せずに次の文テンプレートを処
理する。For example, when there is a voice input such as "go out tomorrow", the word detection unit 4 sequentially checks the sentence templates in the sentence template storage unit 2. Now, when the sentence template storage unit 2 stores a sentence template “&& item & out” as shown in FIG.
A word (“going out”) having a flag “&” in the item in the sentence template is detected first in the input voice. When a word is detected with a score equal to or higher than a certain score, the word co-occurrence information storage unit 6 is searched for a word (meaning) that co-occurs with “going out”. When the word co-occurrence information storage unit 6 stores the word co-occurrence information as shown in FIG. 7, the word co-occurrence information is “outgoing # date # place”.
Will be searched. Next, the term of the "&&" flag that co-occurs with this "going out" is detected. Since the term of "&&" flag is "term"("&&term" is the meaning of the term of case pattern), it detects the one that is located in time before "going out" and the meaning is date and place. . "Tomorrow" corresponding to "#date" is detected before "going out". As a result, the word strings “tomorrow” and “going out” are recognized. For example, if the score of the word having the word co-occurrence information (the word with the flag “&”) is lower than a preset value, it is determined that the sentence templates do not match, and the co-occurring word is not detected and the next Process sentence templates.
【0041】このように、共起関係を使うことで効率的
な単語検出ができる。また、従来はある特定単語に共起
する(例えば格スロット)語については文テンプレート
や構文ネットワーク上に単語の意味を直接書いていたた
め、共起する意味のパタン分だけ、文テンプレートやネ
ットワークを用意する必要があったが、この第4の実施
例によれば、共起情報をもつ語であることを記述するこ
とで、文テンプレートの記述量を減らし、意味的な性質
と構文的な性質を切り分けてより正確なデ−タを作成す
ることができる。As described above, efficient word detection can be performed by using the co-occurrence relation. In the past, for a word that co-occurs with a specific word (for example, case slot), the meaning of the word was written directly on the sentence template or syntactic network, so sentence templates and networks are prepared for the patterns of the co-occurring meaning. However, according to the fourth embodiment, by describing that the word has co-occurrence information, the description amount of the sentence template is reduced and the semantic property and the syntactic property are reduced. More accurate data can be created by cutting.
【0042】また、本発明の第5の実施例は、文テンプ
レートに語の繰り返しを記憶させ、認識を行なうように
なっている。すなわち、同じ性質の語が複数並びうる場
合には、その情報を文テンプレートに記述させ、単語検
出を行なうようになっている。In addition, the fifth embodiment of the present invention is designed to store word repetitions in a sentence template for recognition. That is, when a plurality of words having the same property can be arranged, the information is described in the sentence template and word detection is performed.
【0043】図9はこの第5の実施例における文テンプ
レートの一例を示す図である。この文テンプレートは、
語または語の意味を時間的に出現する順序に並べたもの
であり、同じ性質の語が繰り返し出現するフラグとして
「*」が付与されている。この場合、単語検出部4は、
単語が検出された場合、文テンプレート中に複数並びう
る情報が記述されていれば、検出された位置より時間的
に後ろに同じ性質の語を検出しにいくようになってい
る。なお、この第5の実施例では、音声認識装置の構成
としては、図1,図6のいずれのものでも良いが、特
に、図6のように、語共起情報格納部6を設けること
で、特に格関係にある語についての検出が簡便になる。
すなわち、単語検出部4において、検出すべき単語を特
定の単語に共起する語だけに絞って繰り返し検出するこ
とが可能となる。FIG. 9 is a diagram showing an example of a sentence template in the fifth embodiment. This sentence template
The words or the meanings of the words are arranged in the order in which they appear in time, and “*” is given as a flag for repeatedly appearing words of the same nature. In this case, the word detector 4
When a word is detected, if a plurality of pieces of information that can be arranged are described in the sentence template, the word having the same property is detected later in time than the detected position. In addition, in the fifth embodiment, the structure of the voice recognition device may be any one of FIG. 1 and FIG. 6, but in particular, by providing the word co-occurrence information storage unit 6 as shown in FIG. , It becomes easy to detect words that have a case relationship.
In other words, the word detection unit 4 can repeatedly detect the words to be detected by narrowing down to words that co-occur with a specific word.
【0044】例えば「銀座に明日外出する」というよう
な音声入力があると、単語検出部4は、先ず、文テンプ
レート格納部2の文テンプレートを順に調べる。音声認
識装置が図6に示すような構成になっており、文テンプ
レート格納部2に図9に示すような文テンプレート「*
&&項 &外出」が格納されている場合には、単語検出
部4は、語共起情報格納部6に情報のある「外出」が入
力音声中にあるか否かを調べる。この結果、「外出」を
検出できれば、語共起情報格納部6において、「外出」
と共起する語を検索する。語共起情報格納部6に図7に
示すような語共起情報が格納されている場合、語共起情
報として、「外出 #日付 #場所」を検索することが
できる。次いで、単語検出部4は、文テンプレートから
この「外出」と共起する語「&&項」を検出する。すな
わち、「外出」と共起する「#日付」,「#場所」が音
声入力先頭から「外出」の検出された位置より前にある
かどうか調べる。この結果、「#場所」に該当する「銀
座」が「外出」より前に検出される。処理中の「&&
項」には、同じ性質の語が繰り返し出現するフラグ
「*」があるので、検出された位置「銀座」より後ろで
「外出」の位置より前に残りの共起単語「#日付」があ
るかどうかを調べる。この結果、「明日」という単語が
検出される。これにより、単語列「銀座」,「明日」,
「外出」を認識することができる。なお、他の文テンプ
レートに語順が全く同じである「#場所 #日付 #外
出」があればスコアの総計が同じになるが、名詞句は日
付,場所という順に並ぶのが一般的であるため、図10
に示すような文テンプレートを用意することが多い。し
かしながら、図10に示すような文テンプレートでは、
上記入力音声と「#場所」,「#日付」の語順が違うた
めにスコアの総計が低くなり上記入力音声を認識しにく
い。これに対し、この第5の実施例では、語順が違って
いても正しく認識を行なうことが可能となる。For example, when there is a voice input such as "go out to Ginza tomorrow", the word detection unit 4 first checks the sentence templates in the sentence template storage unit 2 in order. The voice recognition device is configured as shown in FIG. 6, and the sentence template storage unit 2 stores the sentence template “*” as shown in FIG.
In the case where “&& item & go out” is stored, the word detection unit 4 checks whether “go out” having information in the word co-occurrence information storage unit 6 is included in the input voice. As a result, if “going out” can be detected, “going out” is detected in the word co-occurrence information storage unit 6.
Search for words that co-occur with. When the word co-occurrence information storage unit 6 stores the word co-occurrence information as shown in FIG. 7, it is possible to search “go out #date #place” as the word co-occurrence information. Next, the word detection unit 4 detects the word “&& term” that co-occurs with “going out” from the sentence template. That is, it is checked whether "#date" and "#place" that co-occur with "going out" are before the position where "going out" is detected from the beginning of voice input. As a result, “Ginza” corresponding to “#place” is detected before “going out”. "&& In process
In the “term”, there is a flag “*” in which words of the same nature appear repeatedly, so there is the remaining co-occurrence word “#date” after the detected position “Ginza” and before the “going out” position. Find out if As a result, the word "tomorrow" is detected. As a result, the word strings "Ginza", "tomorrow",
Can recognize "going out". If other sentence templates have the same word order, such as "# place # date # outgoing", the total score will be the same, but since noun phrases are generally arranged in the order of date and place, Figure 10
Often prepare a sentence template as shown in. However, with the sentence template as shown in FIG.
Since the word order of "# place" and "# date" is different from that of the input voice, the total score is low and it is difficult to recognize the input voice. On the other hand, in the fifth embodiment, it is possible to correctly recognize even if the word order is different.
【0045】このように、第5の実施例では、格パタン
を埋める名詞句のように複数個が並び、かつその順番が
かなり自由であるものについて処理,データ作成を効率
的に行なうことができ、格パタンなどの意味的な性質と
語順などの構文的な性質とを切り分けて記述することが
できる。As described above, in the fifth embodiment, it is possible to efficiently perform processing and data creation for a plurality of noun phrases that line up the case pattern and whose order is considerably free. , It is possible to separate and describe semantic properties such as case patterns and syntactic properties such as word order.
【0046】また、本発明の第6の実施例は、同じ意味
を有する語であっても発話上に現われる形は、その意味
的な性質ではなく、構文的な性質による場合が多いとい
うことに着目し、文テンプレートに、語,語の意味だけ
でなく、そこに現われる品詞などの構文的性質をも記憶
させ、検出する単語を文法的に正しい文だけに絞るよう
になっている。In addition, in the sixth embodiment of the present invention, even if words having the same meaning, the form appearing on the utterance is often due to the syntactical property rather than the semantic property. Focusing attention, the sentence template stores not only the words and the meanings of the words but also the syntactic properties such as the part of speech appearing therein, so that the detected words are limited to only the grammatically correct sentences.
【0047】図11はこの第6の実施例における文テン
プレートの一例を示す図である。この文テンプレート
は、語,語の意味だけでなく、そこに現われる品詞など
の構文的性質を記述したものであり、図11の例では、
「:」の後に品詞などの構文的性質が記述されている。
また、この場合、単語辞書3は、例えば図12に示すよ
うに、語の表記と意味と品詞とからなっている。FIG. 11 is a diagram showing an example of a sentence template in the sixth embodiment. This sentence template describes not only the word and the meaning of the word but also syntactic properties such as a part of speech that appears therein. In the example of FIG.
After ":", syntactic properties such as a part of speech are described.
In this case, the word dictionary 3 is composed of word notations, meanings, and parts of speech, as shown in FIG. 12, for example.
【0048】文テンプレート格納部2に図11に示すよ
うな3種類の文テンプレート「#用件 :サ変名詞 #
日付 したい」,「#日付 #用件 :サ変名詞 した
い」,「#日付 #用件 :動詞」が格納されている場
合に、例えば「明日出かける」というような音声入力が
あると、単語検出部4は、文テンプレート格納部2に格
納されている文テンプレートを順に、その1項目から調
べる。In the sentence template storage unit 2, three types of sentence templates shown in FIG.
When "I want to date", "# date # requirement: sahenon", and "# date # requirement: verb" are stored, if there is a voice input such as "go tomorrow", the word detection unit 4 sequentially examines the sentence templates stored in the sentence template storage unit 2 from the first item.
【0049】具体的には、先ず、第1番目の文テンプレ
ートの第1項目から調べる。いまの場合、第1番目の文
テンプレートの第1項目が「#用件」で、その品詞はサ
変名詞であるので、意味が用件で、品詞がサ変名詞であ
る語を単語辞書3から抽出する。いまの場合、「外出」
が辞書3から抽出され、この単語「外出」が入力音声中
にあるか否かを調べ、入力音声中に「外出」という単語
が検出されると、その位置,スコアを得る。このように
して、各文テンプレートの各項を順に単語検出部4で検
出し、検出単語,スコア,検出位置を得る。上記例で
は、3番目の文テンプレート「#日付 #用件 :動
詞」が最も一致し、これにより、認識結果として、「明
日」,「出かける」を得ることができる。Specifically, first, the first item of the first sentence template is examined. In this case, the first item of the first sentence template is "# requirement", and its part of speech is Sahen noun, so the word whose meaning is the subject and whose part of speech is Sahen noun is extracted from the word dictionary 3. To do. In the present case, "go out"
Is extracted from the dictionary 3, and it is checked whether or not this word “going out” is present in the input voice. When the word “going out” is detected in the input voice, the position and the score are obtained. In this way, each item of each sentence template is sequentially detected by the word detection unit 4, and the detected word, score, and detection position are obtained. In the above example, the third sentence template “# Date # Message: Verb” best matches, and as a result, “Tomorrow” and “Go out” can be obtained.
【0050】このように、この第6の実施例では、意味
だけでなく、品詞などの構文的な性質による注釈をつけ
ることで、検出する単語を文法的に正しい文だけに絞
り、認識精度,効率を向上させることができる。また、
意味的な性質と構文的な性質を切り分けてより正確なデ
ータを作成することができる。As described above, in the sixth embodiment, not only the meaning but also the annotation based on the syntactic property such as the part of speech is added to narrow down the detected words to only the grammatically correct sentences, thereby improving the recognition accuracy, The efficiency can be improved. Also,
More accurate data can be created by separating the semantic and syntactic properties.
【0051】また、本発明の第7の実施例は、文テンプ
レートに、入力音声中で語が省略可能か否かの情報を記
述させ、格要素,付属語などの省略されやすい語につい
ても認識可能にすることを意図している。In the seventh embodiment of the present invention, a sentence template is written with information as to whether or not a word can be omitted in the input voice, and a word such as a case element or an adjunct word is easily recognized. Intended to be possible.
【0052】図13はこの第7の実施例における文テン
プレートの一例を示す図である。この文テンプレート
は、各項が音声入力中で検出すべき単語,または単語の
意味,単語のグループであり、省略可能な項については
フラグ「%」が付与されている。この場合、単語検出部
4は、文テンプレートの各項の条件を満たす単語,位
置,スコアを入力音声中で検出するが、文テンプレート
に省略可能の記号がある場合には、その単語が検出され
ないときにもスコアを悪化させることのないようになっ
ている。FIG. 13 is a diagram showing an example of a sentence template in the seventh embodiment. In this sentence template, each term is a word to be detected during voice input, or a meaning of the word, a group of words, and a flag "%" is attached to an optional term. In this case, the word detection unit 4 detects a word, a position, and a score that satisfy the conditions of each term of the sentence template in the input voice, but if the sentence template has an optional symbol, the word is not detected. Sometimes the score doesn't get worse.
【0053】文テンプレート格納部2に図13に示すよ
うな文テンプレート「%#場所 外出 したい」
(「%」は単語の意味。それ以外はこの表記そのもの)
が格納されている場合に、例えば「外出したい」という
ような音声入力があると、単語検出部4は、文テンプレ
ート格納部2に格納されている文テンプレートを順に、
その1項目から調べる。図13の文テンプレートにおい
て、その第1項が「#場所」であるので、意味が場所で
ある単語を単語辞書3から抽出し、各単語が音声入力中
にあるかを調べる。単語辞書3が図3のようになってい
る場合、場所である単語は検出されないが、フラグ
「%」があり、省略可能なので、スコアには一致しなか
ったときのスコア,認識に影響を及ぼさないスコア,例
えば「−0.5」ではなく、認識に影響を及ぼさないス
コア,例えば「0」が設定される。A sentence template "% # want to go out of place" as shown in FIG. 13 is stored in the sentence template storage unit 2.
("%" Is the meaning of the word; otherwise, this notation itself)
If there is a voice input such as “I want to go out” when is stored, the word detection unit 4 sequentially selects the sentence templates stored in the sentence template storage unit 2.
Check from that one item. In the sentence template of FIG. 13, since the first term is “#place”, words whose meaning is place are extracted from the word dictionary 3 and it is checked whether or not each word is being input by voice. If the word dictionary 3 is as shown in FIG. 3, the word that is the place is not detected, but since there is a flag “%” and it can be omitted, it affects the score and recognition when the scores do not match. A score that does not affect the recognition, for example, "0" is set, instead of a non-existent score, for example, "-0.5".
【0054】次に、文テンプレートの第2項「外出」に
対応する単語を入力音声中で調べ、「外出」を検出する
ことができる。次に、文テンプレートの第3項が「した
い」であるので、入力音声中でこれに対応する単語を
「外出」よりも後ろの位置に検出しにいく。このような
処理の結果、図14に示すような結果が得られ、単語列
「外出」,「したい」が認識結果として得られる。Next, the word corresponding to the second item "going out" of the sentence template can be examined in the input voice to detect "going out". Next, since the third term of the sentence template is "I want to", the corresponding word in the input voice is detected at a position after "going out". As a result of such processing, the result as shown in FIG. 14 is obtained, and the word strings “go out” and “want to” are obtained as recognition results.
【0055】このように、第7の実施例では、省略され
やすい語、表現を含む文テンプレートにより、これらの
語が未検出であってもスコアを著しく低下させないよう
になっているので、格要素,付属語など省略されやすい
語についての認識が可能となる。また、従来では省略さ
れた場合と省略されない場合とで少なくとも2通りのデ
ータを作成する必要があったが、この第7の実施例によ
れば、基本となるデータだけを作成すれば良く、文テン
プレートの記述量を減らすことができる。As described above, in the seventh embodiment, the sentence template including the words and expressions that are easily omitted does not significantly reduce the score even if these words are not detected. , It becomes possible to recognize words that are easily omitted such as attached words. Further, conventionally, it was necessary to create at least two kinds of data depending on whether the data was omitted or not. According to the seventh embodiment, only basic data needs to be created. The amount of template description can be reduced.
【0056】[0056]
【発明の効果】以上に説明したように、本発明によれ
ば、音声入力の意味構造を構成する単語とそれ以外の単
語とを、音声入力に出現する順序に基づき記述し、発話
に現われる際の性質を意味的なものと構文的なものとに
分けて扱うようにしているので、語順など自由度の高い
表現を精度よく認識することができる。また、本発明に
よれば、意味構造を構成する単語以外の語をも認識する
ことで、より精度のよい認識結果を得ることができる。
特に、本発明によれば、文テンプレートには、入力音声
中に出現する語と語との間の時間的間隔が記述されてお
り、単語検出手段は、文テンプレートに記述された語間
の時間的間隔を参照して、意味構造を構成する語とそれ
以外の語とを認識し、単語の検出を行なうようになって
いるので、正しい意味理解ができる。 As described above, according to the present invention, when words that make up the semantic structure of voice input and other words are described based on the order in which they appear in voice input, and appear in utterances. Since the properties of are treated separately as semantic and syntactic, expressions with a high degree of freedom such as word order can be accurately recognized. In addition, in the present invention
According to this, we recognize words other than the words that make up the semantic structure
As a result, a more accurate recognition result can be obtained.
In particular, according to the invention, the sentence template contains the input speech
It describes the time intervals between words that appear in
The word detection means
And the words that make up the semantic structure with reference to the time intervals of
It recognizes words other than and detects words.
Therefore, I can understand the correct meaning.
【0057】[0057]
【0058】また、請求項2記載の発明によれば、文テ
ンプレートには、共起する複数の語または語の意味が記
述されており、単語検出手段は、文テンプレートに記述
された共起関係を使用することで、単語を限定して検出
するようになっているので、効率的な認識が可能にな
り、特に呼応など共起出現する割合の高い表現について
有効である。According to the second aspect of the present invention, the sentence template describes a plurality of co-occurring words or meanings of the words, and the word detecting means includes the co-occurrence relation described in the sentence template. By using, the words can be detected in a limited manner, which enables efficient recognition, and is particularly effective for expressions such as co-occurrence that have a high co-occurrence ratio.
【0059】また、請求項3記載の発明によれば、文テ
ンプレートには、特定の語と共起する性質をもつ語に
は、語や語の意味だけでなく、共起情報をもつ語である
ことも記述されており、単語検出手段は、共起情報をも
つ語については、共起情報をも参照して、単語検出を行
なうようになっているので、文テンプレートの記述量を
減らし、意味的な性質と構文的な性質を切り分けてより
正確なデ−タを作成することができる。According to the third aspect of the invention, the sentence template includes not only the word or the meaning of the word but also the word having the co-occurrence information as the word having the property of co-occurring with the specific word. It is also described that the word detection means performs word detection for a word having co-occurrence information by also referring to the co-occurrence information. More accurate data can be created by separating the semantic and syntactic properties.
【0060】また、請求項4記載の発明によれば、文テ
ンプレートには、語の繰り返しが記述されており、単語
検出手段は、ある単語が検出された場合に、文テンプレ
ート中に語の繰り返しが記述されているときには、前記
単語の検出位置よりも時間的に後ろに同じ性質の語を検
出しにいくようになっているので、格パタンを埋める名
詞句のように複数個が並び、かつその順番がかなり自由
であるものについて処理,データ作成を効率的に行なう
ことができ、格パタンなどの意味的な性質と語順などの
構文的な性質とを切り分けて記述することができる。Further, according to the invention described in claim 4 , the sentence template describes repetition of words, and the word detecting means repeats the words in the sentence template when a certain word is detected. Is described, since it is designed to detect a word of the same property temporally after the detection position of the word, a plurality of words are arranged like a noun phrase that fills a case pattern, and It is possible to efficiently process and create data whose order is fairly free, and to describe the semantic properties such as case pattern and the syntactic properties such as word order separately.
【0061】また、請求項5記載の発明によれば、文テ
ンプレートには、語,語の意味だけでなく、品詞などの
構文的性質が記述されており、単語検出手段は、文テン
プレートに記述された構文的性質をも考慮して単語の検
出を行なうようになっているので、検出する単語を文法
的に正しい文だけに絞り、認識精度,効率を向上させる
ことができる。また、意味的な性質と構文的な性質を切
り分けてより正確なデータを作成することができる。According to the fifth aspect of the invention, the sentence template describes not only the word and the meaning of the word but also syntactic properties such as a part of speech, and the word detecting means is described in the sentence template. Since the words are detected in consideration of the syntactic properties that have been obtained, it is possible to improve the recognition accuracy and efficiency by limiting the detected words to only the grammatically correct sentences. In addition, more accurate data can be created by separating the semantic and syntactic properties.
【0062】また、請求項6記載の発明によれば、文テ
ンプレートには、入力音声中で語が省略可能か否かの情
報が記述されており、単語検出手段は、ある語が入力音
声中に検出されない場合にも、文テンプレートに基づき
この語が省略可能である場合には、この語に関して文全
体の認識に影響を及ぼさないような処理を行なうので、
利用者は、基本となるデータだけを作成すれば良く、文
テンプレートの記述量を減らすことができる。Further, according to the invention of claim 6 , the sentence template describes information as to whether or not a word can be omitted in the input voice, and the word detecting means detects a word in the input voice. Even if it is not detected in, if this word can be omitted based on the sentence template, processing that does not affect the recognition of the entire sentence with respect to this word is performed.
The user only needs to create the basic data and can reduce the description amount of the sentence template.
【図1】本発明に係る音声認識装置の構成例を示す図で
ある。FIG. 1 is a diagram showing a configuration example of a voice recognition device according to the present invention.
【図2】文テンプレートの一例を示す図である。FIG. 2 is a diagram showing an example of a sentence template.
【図3】単語辞書の一例を示す図である。FIG. 3 is a diagram showing an example of a word dictionary.
【図4】文テンプレートの一例を示す図である。FIG. 4 is a diagram showing an example of a sentence template.
【図5】文テンプレートの一例を示す図である。FIG. 5 is a diagram showing an example of a sentence template.
【図6】本発明に係る音声認識装置の他の構成例を示す
図である。FIG. 6 is a diagram showing another configuration example of the voice recognition device according to the present invention.
【図7】語共起情報の一例を示す図である。FIG. 7 is a diagram showing an example of word co-occurrence information.
【図8】文テンプレートの一例を示す図である。FIG. 8 is a diagram showing an example of a sentence template.
【図9】文テンプレートの一例を示す図である。FIG. 9 is a diagram showing an example of a sentence template.
【図10】文テンプレートの一例を示す図である。FIG. 10 is a diagram showing an example of a sentence template.
【図11】文テンプレートの一例を示す図である。FIG. 11 is a diagram showing an example of a sentence template.
【図12】単語辞書の一例を示す図である。FIG. 12 is a diagram showing an example of a word dictionary.
【図13】文テンプレートの一例を示す図である。FIG. 13 is a diagram showing an example of a sentence template.
【図14】単語検出処理の具体例を示す図である。FIG. 14 is a diagram showing a specific example of word detection processing.
【図15】従来の音声認識装置の構成図である。FIG. 15 is a configuration diagram of a conventional voice recognition device.
【図16】認識されるべき文の例を示す図である。FIG. 16 is a diagram showing an example of a sentence to be recognized.
【図17】従来の音声認識装置において誤認識がなされ
る場合の例を説明するための図である。FIG. 17 is a diagram for explaining an example of a case where an erroneous recognition is made in a conventional voice recognition device.
【図18】従来の音声認識装置において誤認識がなされ
る場合の例を説明するための図である。FIG. 18 is a diagram for explaining an example of a case where an erroneous recognition is made in a conventional voice recognition device.
1 音声入力部 2 文テンポレート格納部 3 単語辞書 4 単語検出部 5 認識部 6 語共起情報格納部 1 Voice input section 2 sentence tempo rate storage 3 word dictionary 4 Word detector 5 Recognition section 6-word co-occurrence information storage
フロントページの続き (56)参考文献 特開 平4−167176(JP,A) 特開 平4−195100(JP,A) 特開 昭64−56498(JP,A) 特開 平4−253099(JP,A) 特開 平1−217399(JP,A) 特開 平4−289899(JP,A) 特開 昭64−55596(JP,A) 特開 昭63−64599(JP,A) 特開 平3−273298(JP,A) 特開 平2−201643(JP,A) 特開 平2−214930(JP,A) 特開 昭63−83799(JP,A) 特開 平3−123969(JP,A) 特開 平6−95689(JP,A) 特開 昭64−23297(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 JICSTファイル(JOIS)Continuation of the front page (56) Reference JP-A-4-167176 (JP, A) JP-A-4-195100 (JP, A) JP-A-64-56498 (JP, A) JP-A-4-253099 (JP , A) JP 1-217399 (JP, A) JP 4-289899 (JP, A) JP 64-55596 (JP, A) JP 63-64599 (JP, A) JP 3-273298 (JP, A) JP-A-2-201643 (JP, A) JP-A-2-214930 (JP, A) JP-A 63-83799 (JP, A) JP-A 3-123969 (JP, A) Japanese Patent Laid-Open No. 6-95689 (JP, A) Japanese Patent Laid-Open No. 64-23297 (JP, A) (58) Fields investigated (Int.Cl. 7 , DB name) G10L 15/18 JISST file (JOIS)
Claims (6)
べき語,語の意味が入力音声中の出現順序に従って記述
されている文テンプレートと語の意味が記述されている
単語辞書とを参照して前記音声入力手段からの入力音声
から単語を検出する単語検出手段と、単語検出手段にお
いて検出された単語列に基づき入力音声に対する認識結
果を得る認識手段とを有し、文テンプレートは、前記単
語検出手段が意味構造を構成する単語以外の語をも認識
するように構成され、前記文テンプレートには、入力音
声中に出現する語と語との間の時間的間隔が記述されて
おり、前記単語検出手段は、文テンプレートに記述され
た語間の時間的間隔を参照して、意味構造を構成する語
とそれ以外の語とを認識し、単語の検出を行なうように
なっていることを特徴とする音声認識装置。1. A voice input means for inputting voice, a sentence template in which a word to be recognized and the meaning of the word are described in the order of appearance in the input voice, and a word dictionary in which the meaning of the word is described. and a word detector for detecting a word from the input speech from said speech input means, have a recognition means for obtaining a recognition result for the input speech based on the detected word string in the word detecting means, the sentence template, the The word detecting means is configured to recognize words other than the words forming the semantic structure, and the sentence template includes input sound
It describes the time intervals between words that appear in the voice.
The word detecting means is described in the sentence template.
The words that make up the semantic structure with reference to the time intervals between the words
To recognize words and other words and detect words
Speech recognition apparatus characterized by being made by.
前記文テンプレートには、共起する複数の語または語の
意味が記述されており、前記単語検出手段は、文テンプ
レートに記述された共起関係を使用することで、単語を
限定して検出するようになっていることを特徴とする音
声認識装置。2. The voice recognition device according to claim 1, wherein
In the sentence template, a plurality of co-occurring words or meanings of the words are described, and the word detecting means detects the words by using the co-occurrence relation described in the sentence template. A voice recognition device characterized in that
前記文テンプレートには、特定の語と共起する性質をも
つ語には、語や語の意味だけでなく、共起情報をもつ語
であることも記述されており、前記単語検出手段は、共
起情報をもつ語については、共起情報をも参照して、単
語検出を行なうようになっていることを特徴とする音声
認識装置。3. The voice recognition device according to claim 2 ,
In the sentence template, it is described that a word having a property of co-occurring with a specific word is not only a word or a meaning of a word, but also a word having co-occurrence information. A speech recognition apparatus characterized in that a word having co-occurrence information is also detected by referring to the co-occurrence information.
前記文テンプレートには、語の繰り返しが記述されてお
り、前記単語検出手段は、ある単語が検出された場合
に、文テンプレート中に語の繰り返しが記述されている
ときには、前記単語の検出位置よりも時間的に後ろに同
じ性質の語を検出しにいくようになっていることを特徴
とする音声認識装置。4. The voice recognition device according to claim 1,
In the sentence template, word repetition is described, and when a certain word is detected, the word detection means detects a word repetition from the detection position of the word when the word repetition is described in the sentence template. A voice recognition device characterized in that it is designed to detect words of the same nature later in time.
前記文テンプレートには、語,語の意味だけでなく、品
詞などの構文的性質が記述されており、前記単語検出手
段は、文テンプレートに記述された構文的性質をも考慮
して単語の検出を行なうようになっていることを特徴と
する音声認識装置。5. The voice recognition device according to claim 1,
The sentence template describes not only words and meanings of words, but also syntactic properties such as part of speech. The word detecting means detects a word in consideration of the syntactic properties described in the sentence template. A voice recognition device characterized by being adapted to perform.
前記文テンプレートには、入力音声中で語が省略可能か
否かの情報が記述されており、前記単語検出手段は、あ
る語が入力音声中に検出されない場合にも、文テンプレ
ートに基づきこの語が省略可能である場合には、この語
に関して文全体の認識に影響を及ぼさないような処理を
行なうことを特徴とする音声認識装置。6. The voice recognition device according to claim 1, wherein
The sentence template describes information on whether or not a word can be omitted in the input voice, and the word detecting means uses the word template based on the sentence template even when a word is not detected in the input voice. A voice recognition device characterized by performing a process that does not affect the recognition of the entire sentence for this word when can be omitted.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35395892A JP3526063B2 (en) | 1992-12-15 | 1992-12-15 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35395892A JP3526063B2 (en) | 1992-12-15 | 1992-12-15 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06186994A JPH06186994A (en) | 1994-07-08 |
JP3526063B2 true JP3526063B2 (en) | 2004-05-10 |
Family
ID=18434365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35395892A Expired - Fee Related JP3526063B2 (en) | 1992-12-15 | 1992-12-15 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3526063B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3526095B2 (en) * | 1995-01-09 | 2004-05-10 | 株式会社リコー | Rule generator |
JPH11311995A (en) * | 1998-04-30 | 1999-11-09 | Toshiba Tec Corp | Speech recognition device |
KR20040051349A (en) * | 2002-12-12 | 2004-06-18 | 한국전자통신연구원 | Method for speech recognition using information of forbidden word sequences |
JP7178890B2 (en) * | 2018-12-11 | 2022-11-28 | 菱洋エレクトロ株式会社 | Speech recognition system and speech recognition device |
KR102389602B1 (en) * | 2020-08-20 | 2022-04-22 | 장금숙 | Terminal devices running voice recognition-based AI agent programs and how they work |
-
1992
- 1992-12-15 JP JP35395892A patent/JP3526063B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH06186994A (en) | 1994-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gaizauskas et al. | University of Sheffield: Description of the LaSIE system as used for MUC-6 | |
US6278968B1 (en) | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system | |
US6282507B1 (en) | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection | |
US6243669B1 (en) | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation | |
US6442524B1 (en) | Analyzing inflectional morphology in a spoken language translation system | |
US6356865B1 (en) | Method and apparatus for performing spoken language translation | |
US6266642B1 (en) | Method and portable apparatus for performing spoken language translation | |
Liu et al. | Comparing HMM, maximum entropy, and conditional random fields for disfluency detection. | |
Sproat et al. | A corpus-based synthesizer. | |
US5642520A (en) | Method and apparatus for recognizing topic structure of language data | |
US20040167771A1 (en) | Method and system for reducing lexical ambiguity | |
Alghamdi et al. | Automatic restoration of arabic diacritics: a simple, purely statistical approach | |
Kirchhoff et al. | Novel speech recognition models for Arabic | |
JP3526063B2 (en) | Voice recognition device | |
JP3309174B2 (en) | Character recognition method and device | |
KR100202292B1 (en) | Text analyzer | |
JP3009636B2 (en) | Spoken language analyzer | |
JP3518340B2 (en) | Reading prosody information setting method and apparatus, and storage medium storing reading prosody information setting program | |
JPH0693221B2 (en) | Voice input device | |
Azimizadeh et al. | Persian part of speech tagger based on Hidden Markov Model | |
Okhovvat et al. | An Accurate Persian Part-of-Speech Tagger. | |
Navas et al. | Assigning phrase breaks using CARTs for Basque TTS | |
JPH11338863A (en) | Automatic collection and qualification device for unknown noun and flickering katakana word and storage medium recording processing procedure of the device | |
Zhang et al. | Exploring features for identifying edited regions in disfluent sentences | |
JP3526095B2 (en) | Rule generator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040212 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090227 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |