JP2817406B2 - Continuous speech recognition method - Google Patents

Continuous speech recognition method

Info

Publication number
JP2817406B2
JP2817406B2 JP3010234A JP1023491A JP2817406B2 JP 2817406 B2 JP2817406 B2 JP 2817406B2 JP 3010234 A JP3010234 A JP 3010234A JP 1023491 A JP1023491 A JP 1023491A JP 2817406 B2 JP2817406 B2 JP 2817406B2
Authority
JP
Japan
Prior art keywords
network
word
speech recognition
continuous speech
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3010234A
Other languages
Japanese (ja)
Other versions
JPH04253099A (en
Inventor
淳 野口
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3010234A priority Critical patent/JP2817406B2/en
Publication of JPH04253099A publication Critical patent/JPH04253099A/en
Application granted granted Critical
Publication of JP2817406B2 publication Critical patent/JP2817406B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は自動通訳システム,音声
質問応答(QA)システム等において連続的に発声した
音声を認識する連続音声認識方式に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a continuous speech recognition system for recognizing continuously uttered speech in an automatic interpretation system, a voice question answering (QA) system, and the like.

【0002】[0002]

【従来の技術】音声を用いたマンマシンインターフェー
スは、キーボードのような訓練が必要ないため使いやす
くまた自然であるので実用化が強く望まれている。また
音声も単語単位で発話されたものだけでなく、会話文の
ような連続音声を取り扱える方がより使いやすく自然な
ので望まれている。
2. Description of the Related Art A man-machine interface using voice is easy to use and natural because training such as a keyboard is not required. In addition, it is desired to handle not only speech uttered in units of words but also continuous speech such as conversational sentences because it is easier to use and more natural.

【0003】このような、音声を用いたインターフェー
スを自動通訳システム,音声QAシステム等に使用する
場合は入力音声の一言一句を明らかにするのが主な目的
ではなく、入力音声の意味を取り出すこと、すなわち入
力音声の意味の理解が必要である。
When such an interface using voice is used in an automatic interpreting system, a voice QA system, or the like, the main purpose is not to clarify each word of the input voice, but to extract the meaning of the input voice. That is, it is necessary to understand the meaning of the input voice.

【0004】なぜならば、質問応答システムではユーザ
ーの質問に対して適切に返答するために質問の意味を知
る必要があるし、自動通訳システムでは音声入力に用い
られた言語を英語等の他の言語に適切に変換するために
入力文の意味を明確にする必要があるからである。
[0004] Because the question answering system needs to know the meaning of the question in order to properly answer the user's question, the automatic interpreting system uses the language used for voice input in another language such as English. This is because it is necessary to clarify the meaning of the input sentence in order to convert the input sentence appropriately.

【0005】入力音声の認識結果に対して改めて構文解
析,意味解析を行なうことなく、入力音声の自然言語と
しての意味を抽出する音声認識方式としては特願平2−
72889号記載の「連続音声認識方式」(以下文献1
と称す)がある。文献1では音声認識用のオートマトン
で受理される単語列中の単語と単語の意味的な関係を、
その単語列がオートマトンに受理されたときにそれぞれ
の単語が対応する状態遷移列どうしの意味関係としてあ
らかじめ記憶しておくことにより入力音声の音声認識結
果に対して構文解析,意味解析を改めて行なうことなく
入力音声の自然言語としての意味を抽出する音声認識方
式を提案している。
As a speech recognition method for extracting the meaning of an input speech as a natural language without re-analyzing the syntax and semantic analysis of the recognition result of the input speech, Japanese Patent Application No. Hei.
No. 72889, “Continuous speech recognition method” (hereinafter referred to as Document 1)
There is). In Document 1, the semantic relation between words in a word string received by an automaton for speech recognition and words is described.
When the word sequence is accepted by the automaton, the syntactic analysis and semantic analysis are performed again on the speech recognition result of the input speech by storing in advance the semantic relationship between the corresponding state transition sequences for each word. We propose a speech recognition method that extracts the meaning of input speech as a natural language.

【0006】[0006]

【発明が解決しようとする課題】しかしながら文献1の
音声認識方式では、例えば、その認識された文の時制や
丁寧文,疑問文等の文の種類を中間表現中に表すことに
ついては考察されていなかった。
However, in the speech recognition method of Document 1, for example, the representation of the tense of the recognized sentence and the type of sentence such as a polite sentence or a question sentence in an intermediate expression is considered. Did not.

【0007】また、有限オートマトンを用いた方法と同
等の処理量で文脈自由文法を扱うことができる音声認識
方式として、1989年電子情報通信学会春季全国大会
「拡張遷移網を用いた連続音声認識の一方式」(以下文
献2と称す)(吉田和永、渡辺隆夫)がある。拡張遷移
網(以下ATNと記す)を用いた音声認識は、 (1)サブネットワークの呼び出しにより文脈自由文法
が扱える。 (2)レジスタとそのレジスタをテストする機構より履
歴を考慮した処理を行ない、語順自由,共起関係,係受
けを扱うことができる。 等の自然言語を記述するための高い能力を有している。
As a speech recognition method capable of handling a context-free grammar with the same processing amount as a method using a finite automaton, the 1989 Spring Meeting of the Institute of Electronics, Information and Communication Engineers, "Continuous Speech Recognition Using Extended Transition Networks" On the other hand, there is a formula (hereinafter referred to as Reference 2) (Kazuya Yoshida, Takao Watanabe). Speech recognition using an extended transition network (hereinafter referred to as ATN) is as follows: (1) Context-free grammar can be handled by calling a sub-network. (2) A process considering the history is performed by a register and a mechanism for testing the register, and word order freedom, co-occurrence relation, and dependency can be handled. Have a high ability to describe natural languages such as

【0008】しかしながら、文献1の音声認識方法で
は、文献2のように認識用ネットワークがサブネットを
持つ場合についての考察がなされていなかった。
[0008] However, in the speech recognition method of Reference 1, the case where the recognition network has a subnet as in Reference 2 has not been considered.

【0009】また、例えば日本語による音声対話におい
て“(あなたは)学校にいくの?”“(わたしは)バー
シアのコンサートのチケットが欲しい。”のように良く
主語が省略されるので中間表現を作成する際に省略され
た要素を補わなくてはならないが、文献1の音声認識方
法ではその考察がなされていない。
Also, in a spoken dialogue in Japanese, the subject is often omitted, such as "(you) go to school?" Or "(I) want a ticket for a concert in Basia." Although the omitted elements must be supplemented in the creation, the speech recognition method of Reference 1 does not consider such elements.

【0010】本発明の目的は、このような欠点を克服し
て、音声認識の際により自然で多様な文を認識し、かつ
その意味表現を出力することができる連続音声認識方式
を提供することにある。
An object of the present invention is to provide a continuous speech recognition system which can overcome such drawbacks and recognize more natural and various sentences in speech recognition and can output a semantic expression thereof. It is in.

【0011】[0011]

【課題を解決するための手段】本発明による連続音声認
識方式は、連続音声認識対象の文法を表現する単語に関
するネットワークを記憶する第1の記憶手段と、単語の
標準パターンを前記ネットワークにしたがって結合して
連続音声を認識する連続音声認識手段と、前記ネットワ
ークにおけるある単語と他の単語の間の意味的な関係及
び各単語に対する素性情報を記憶する第2の記憶手段
と、前記連続音声認識手段から生じる認識結果及び前記
第2の記憶手段からその中間表現を出力する出力手段と
を備えることを特徴とする。
According to the continuous speech recognition method of the present invention, a first storage means for storing a network relating to words expressing a grammar to be subjected to continuous speech recognition is combined with a standard pattern of words according to the network. Continuous speech recognition means for recognizing continuous speech, second storage means for storing a semantic relationship between a certain word and another word in the network and feature information for each word, and the continuous speech recognition means And an output unit for outputting a recognition result generated from the above and an intermediate expression from the second storage unit.

【0012】そして、前記連続音声認識手段はあらかじ
め定められた認識単位の標準パターンを前記ネットワー
ク及び各ネットワークから呼ばれるサブネットワークに
したがって結合して連続音声を認識し、前記第1の記憶
手段は連続音声認識対象の文法を表現するネットワーク
及び各ネットワークから呼ばれるサブネットワークを記
憶し、前記出力手段は前記連続音声認識手段から生じる
認識結果及び前記第2の記憶手段のある単語と他の単語
の間の意味的な関係及び前記ネットワーク及びサブネッ
トワーク内の各単語に対する素性情報からその中間表現
を出力することを特徴とする。
The continuous speech recognition means recognizes continuous speech by combining a predetermined standard pattern of a recognition unit in accordance with the network and a sub-network called from each network. A network expressing a grammar to be recognized and a sub-network called from each network are stored, and the output unit outputs a recognition result generated from the continuous speech recognition unit and a meaning between a certain word and another word in the second storage unit. And outputting an intermediate expression of the words based on the basic relation and the feature information for each word in the network and the sub-network.

【0013】また、ある単語が認識された時に、他の単
語に付与する素性情報を記憶する前記第2の記憶手段
と、前記情報を前記中間表現に付与する付与手段とを備
えることを特徴とする。
[0013] The present invention further comprises: a second storage unit for storing feature information to be added to another word when a certain word is recognized; and an adding unit for adding the information to the intermediate expression. I do.

【0014】さらに、ある単語が認識された時に、その
単語に付与する素性情報を単語辞書記憶部から取り出
し、前記付与手段は前記情報を前記中間表現に付与する
ことを特徴とする。
Further, when a certain word is recognized, feature information to be added to the word is extracted from the word dictionary storage unit, and the adding means adds the information to the intermediate expression.

【0015】そして、前記単語辞書記憶部は連続音声認
識対象の文法を表現するネットワーク内に存在しないが
中間表現を作成するために必ず必要な単語を記憶し、前
記出力手段は前記情報をもとに中間表現を作成して出力
することを特徴とする。
The word dictionary storage unit stores words that do not exist in the network expressing the grammar to be subjected to continuous speech recognition but are always necessary to create an intermediate expression, and the output unit stores the words based on the information. In which an intermediate expression is created and output.

【0016】また、前記単語辞書記憶部は連続音声認識
対象の文法を表現するネットワーク内のある特定の単語
が認識された際に補う単語を記憶し、前記出力手段は前
記情報をもとに中間表現を作成して出力することを特徴
とする。
Further, the word dictionary storage unit stores a word that is supplemented when a specific word in a network expressing a grammar to be subjected to continuous speech recognition is recognized, and the output unit stores an intermediate word based on the information. It is characterized by creating and outputting an expression.

【0017】さらに、前記単語辞書記憶部は連続音声認
識対象の文法を表現するネットワーク内のある特定の単
語が認識された際に削除すべき連続音声認識対象の文法
を表現するネットワーク中の特定の単語を記憶し、前記
出力手段は前記情報をもとに中間表現を作成して出力す
ることを特徴とする。
Further, the word dictionary storage unit stores a specific grammar of the continuous speech recognition target grammar to be deleted when a specific word in the network representing the grammar of the continuous voice recognition target is recognized. A word is stored, and the output unit creates and outputs an intermediate expression based on the information.

【0018】[0018]

【作用】次に、本発明の作用について説明する。Next, the operation of the present invention will be described.

【0019】図3は本発明の一実施例における意味関係
記憶部の一例を示す図、図4は音声認識用ネットワーク
の第1の例を示す図、図5は図4におけるメインネット
ワーク用の意味関係記憶部の内容の一例を示す図、図6
は図4におけるサブネットワーク用の意味関係記憶部の
内容の一例を示す図、図7は音声認識用ネットワークの
第2の例を示す図、図8は図7におけるネットワークの
中間表現の例を示す図、図9は図7におけるネットワー
ク用の意味関係記憶部の内容の一例を示す図、図10は
音声認識用ネットワークの第3の例を示す図、図11は
図10におけるネットワーク用の意味関係記憶部の内容
の一例を示す図、図12は音声認識用ネットワークの第
4の例を示す図、図13は図12におけるネットワーク
の中間表現の例を示す図、図15は音声認識用ネットワ
ークの第5の例を示す図、図16は音声認識用ネットワ
ークの第6の例を示す図、図17は図16におけるネッ
トワークの中間表現の例を示す図である。
FIG. 3 is a diagram showing an example of a semantic relation storage unit in one embodiment of the present invention, FIG. 4 is a diagram showing a first example of a voice recognition network, and FIG. 5 is a meaning for a main network in FIG. FIG. 6 shows an example of the contents of the relation storage unit.
FIG. 7 shows an example of the contents of the semantic relationship storage unit for the sub-network in FIG. 4, FIG. 7 shows a second example of the speech recognition network, and FIG. 8 shows an example of an intermediate representation of the network in FIG. FIG. 9 is a diagram showing an example of the contents of the semantic relationship storage unit for the network in FIG. 7, FIG. 10 is a diagram showing a third example of the network for speech recognition, and FIG. 11 is a semantic relationship for the network in FIG. FIG. 12 is a diagram showing an example of the contents of the storage unit, FIG. 12 is a diagram showing a fourth example of the voice recognition network, FIG. 13 is a diagram showing an example of an intermediate representation of the network in FIG. 12, and FIG. FIG. 16 is a diagram showing a fifth example, FIG. 16 is a diagram showing a sixth example of a voice recognition network, and FIG. 17 is a diagram showing an example of an intermediate representation of the network in FIG.

【0020】例えば今、図16のような音声認識用ネッ
トワークにおいて“私はあさってのバーシアのコンサー
トのチケットが欲しい”という音声が認識されたものと
する。ここで図16において“私は”,“切符”のよう
な各ノードに付してある番号をID番号と呼ぶ。この
“私はあさってのバーシアのコンサートのチケットが欲
しい”という文の中間表現は図17のようになる。図1
7の“欲しい”,“あさって”のような各音声認識用ネ
ットワーク中の単語に対応する中間表現内の表記をCP
と呼ぶ。また“受益”、“対象”のように各単語間の関
係を表している表記をCASEと呼ぶ。図17で#文
体,#名詞意味素性のように各CPの横に付与されてい
る情報を素性情報と呼ぶ。#文体は文型を、#時制は時
間を、#動詞意味分類は動詞の意味分類を、#名詞意味
素性は名詞の意味素性を、#数量は単数・複数を、#て
いねいさは文が丁寧文であることを表す。またそれぞれ
の{}内の文字・数字は各素性情報の値を示す。本発明
では、例えば図3において、ネットワークにおけるある
単語と他の単語の間の意味的な関係と、ネットワークに
おける各単語に対する素性情報を記憶することにより音
声認識の結果から図17のような中間表現を作成するよ
うにしている。この結果、認識された文の時制や丁寧
文,疑問文等の文の種類を中間表現中に表すこができる
ようになる。
For example, it is assumed that a voice "I want a ticket for a concert in Bercia over the years" is recognized in the voice recognition network shown in FIG. Here, in FIG. 16, the numbers assigned to each node such as “I am” and “ticket” are called ID numbers. The intermediate expression of this sentence "I want a ticket for a Berthia concert in the future" is as shown in FIG. FIG.
7, the notation in the intermediate expression corresponding to the word in each speech recognition network such as "want"
Call. A notation expressing the relationship between words such as “benefit” and “object” is called CASE. In FIG. 17, information given beside each CP, such as #style and #noun semantic features, is referred to as feature information. #Sentence style is sentence pattern, #tense is time, #verb semantic classification is verb semantic classification, #noun semantic feature is noun semantic feature, #quantity is singular / plural, #goodness is sentence polite sentence It represents that. In addition, the characters and numerals in each of the triangles indicate the value of each feature information. In the present invention, for example, in FIG. 3, the semantic relationship between a certain word and another word in the network and the feature information for each word in the network are stored, and the intermediate expression as shown in FIG. Is to be created. As a result, the type of sentence such as the tense, the polite sentence, and the question sentence of the recognized sentence can be represented in the intermediate expression.

【0021】また、文献2のようにATNのような音声
認識用ネットワークを用いる場合について考える。今、
図4のようなメインネットワーク及びサブネットワーク
を用いて認識するとする。図4(a)のメインネットに
おいて例えば“sub日時”というところで図4(b)
で示したサブネットワークに跳んでいる。このとき請求
項2の発明では、例えば図4(a)のネットワークに対
して図5に示すテーブルを、図4(b),(c),
(d)のネットワークに対してそれぞれ図6(a),
(b),(c)に示すテーブルを用意する。図5のテー
ブル中のCPの欄でサブネットを指定することによりサ
ブネット用のテーブルを参照する。この結果、例えばA
TNのようにメインネットワーク及びそこから呼ばれる
サブネットワークがあるようなネットワークを用いた音
声認識結果からも図17のような中間表現を作成するこ
とができる。
Consider a case where a speech recognition network such as ATN is used as in Reference 2. now,
Assume that recognition is performed using a main network and a sub-network as shown in FIG. In the main network of FIG. 4 (a), for example, at “sub date and time”, FIG.
Jumps to the sub-network indicated by. At this time, according to the invention of claim 2, for example, the table shown in FIG. 5 for the network of FIG.
6 (a) and 6 (d) for the network of FIG.
The tables shown in (b) and (c) are prepared. The subnet table is referred to by designating the subnet in the column of CP in the table of FIG. As a result, for example, A
An intermediate representation as shown in FIG. 17 can also be created from a speech recognition result using a network such as a TN having a main network and a subnetwork called therefrom.

【0022】また、図7のような音声認識ネットワーク
において例えば入力音声が“私はチケットを1枚欲し
い”であるときこの中間表現は図8(a)のようにな
り、チケットは1枚なのでCP“チケット”の素性情報
のうち#数量の値は単数をあらわすSINとなる。しか
し、もし入力音声が“私はチケットを2枚欲しい”であ
るときこの中間表現は図8(b)のようになり、チケッ
トは2枚なのでCP“チケット”の素性情報のうち#数
量の値は複数をあらわすPLとなる。
In the voice recognition network shown in FIG. 7, for example, when the input voice is "I want one ticket", the intermediate expression is as shown in FIG. The value of #quantity in the feature information of the “ticket” is a SIN representing a single number. However, if the input voice is “I want two tickets”, this intermediate expression is as shown in FIG. 8B, and since there are two tickets, the value of the # quantity in the feature information of the CP “ticket” Is a PL representing a plurality.

【0023】このとき請求項3の発明では、“1枚”や
“2枚”のようなCPの情報がその親のCP“チケッ
ト”の素性情報を決定するので、図9の“親付与情報”
の欄のようにその親のCPの素性情報に付与する情報を
記憶する。この結果、ある単語が認識されたときに他の
単語に素性情報を付与するような場合でも図7のような
ネットワークの中間表現を作成することができるように
なる。
At this time, in the invention of claim 3, since the CP information such as "one sheet" or "two sheets" determines the feature information of the parent CP "ticket", the "parent assignment information" of FIG. "
, Information to be added to the feature information of the parent CP is stored. As a result, it is possible to create an intermediate representation of a network as shown in FIG. 7 even when feature information is added to another word when a certain word is recognized.

【0024】ところで、例えば図3の素性情報の欄の記
述のうち#名詞意味素性や#動詞意味分類の値は“私”
や“チケット”のような単語に固有な情報である。した
がって、請求項4の発明では、辞書中にそれぞれの素性
情報を記述しておきこの辞書を参照して#名詞意味素性
や#動詞意味分類のような情報を補う。この結果テーブ
ルの記述が簡素化し、テーブルの記憶容量も削減できる
ようになる。
By the way, for example, in the description of the feature information column in FIG. 3, the value of #noun semantic feature or #verb meaning classification is "I".
And information unique to words such as "tickets". Therefore, in the invention of claim 4, each feature information is described in a dictionary, and information such as #noun meaning semantic features and #verb meaning classification is supplemented by referring to the dictionary. As a result, the description of the table is simplified, and the storage capacity of the table can be reduced.

【0025】また、例えば日本語の場合、文の主語が省
かれることが多い。図10のネットワークの認識結果の
一つである“あさってのバーシアのコンサートのチケッ
トが欲しい”という音声が入力されたものとする。この
中間表現は図17と同じにならなければならないがCP
“私”に相当する単語が認識結果に存在しない。このと
き請求項5の発明では、音声中では省略されているが中
間表現中に必要なCPを補わなければならないので、例
えば図11のようにID番号の欄がDであるものをディ
フォルトで補うものとする。この結果、音声認識結果に
は存在しないが中間表現作成に必ず必要な単語を補い、
図17のような中間表現が作成できるようになる。
In the case of Japanese, for example, the subject of a sentence is often omitted. It is assumed that a voice, "I want a ticket for a concert in Bercia to come", which is one of the recognition results of the network in FIG. 10, is input. This intermediate representation must be the same as in FIG.
There is no word corresponding to “I” in the recognition result. At this time, in the invention of claim 5, although omitted in the voice, the necessary CP must be supplemented in the intermediate expression, so that, for example, the one in which the ID number column is D as shown in FIG. 11 is supplemented by default. Shall be. As a result, words that do not exist in the speech recognition result but are always necessary for creating the intermediate expression are supplemented,
An intermediate representation as shown in FIG. 17 can be created.

【0026】また、例えば図12のような音声認識用ネ
ットワークがあるとする。今、入力文が例えば“私はバ
ーシアのチケットが欲しい”の場合について考える。こ
の場合意味的には“私はバーシアのコサートのチケット
が欲しい”といっており。“コンサート”という単語が
省略されている。このとき中間表現は図13(a)のよ
うになる。
Assume that there is a voice recognition network as shown in FIG. Now, consider a case where the input sentence is, for example, "I want a Bercia ticket". In this case, semantically, "I want a ticket for the Bersia cosert." The word "concert" has been omitted. At this time, the intermediate representation is as shown in FIG.

【0027】また、入力文が例えば“私は夢の遊眠社の
チケットが欲しい”であるとする。この場合意味的には
“私は夢の遊眠社の演劇のチケットが欲しい”といって
おり、“演劇”という単語が省略されている。このとき
中間表現は図13(b)のようになる。このとき請求項
6の発明では、ある特定の単語が認識されたときにその
単語ごとに異なった意味を補うものとする。この結果、
ある特定の単語が認識された際に適切な単語を補い正し
い中間表現を作成することができるようになる。
It is also assumed that the input sentence is, for example, "I want a ticket for Yume no Yuminsha." In this case, semantically, "I want a ticket for Yume no Yuminsha theater", and the word "drama" is omitted. At this time, the intermediate representation is as shown in FIG. At this time, according to the invention of claim 6, when a certain word is recognized, a different meaning is supplemented for each word. As a result,
When a certain word is recognized, an appropriate word can be supplemented to create a correct intermediate expression.

【0028】また、図15のような音声認識用ネットワ
ークがある場合について考える。このネットワークは例
えば“私はバーシアのコンサートのチケットが欲しい”
という入力文も、“バーシアのコンサートのチケットが
欲しい”という“私は”という単語が省略された入力文
も受けつける。この中間表現はいずれも図13(a)の
ようになる。
Consider a case where there is a voice recognition network as shown in FIG. This network is, for example, "I want a ticket for a concert in Basia"
The input sentence "I want a ticket for a concert in Barcia" is also omitted. Each of the intermediate expressions is as shown in FIG.

【0029】このとき請求項5の発明を用いて“私”と
いうCPをディフォルトで補うと音声認識結果中に“私
は”が省略された場合は問題ないが、音声認識結果中に
“私は”が存在する場合に、“欲しい”と’私”の関係
が受益であることを示す木を2本持った誤った中間表現
を作成してしまう。
At this time, if the "I" CP is supplemented by default using the invention of claim 5, there is no problem if "I am" is omitted in the speech recognition result, but "I am" in the speech recognition result. When "" exists, an erroneous intermediate expression having two trees indicating that the relationship between "want" and "I" is beneficiary is created.

【0030】したがって請求項7の発明では、ある特定
の単語が認識された場合に中間表現の一部を削除して意
味表現作成するものとする。この結果、音声認識結果中
である単語が現われる場合と省略される場合の両方があ
る場合も正しい中間表現を作成することができるように
なる。
Therefore, in the invention of claim 7, when a specific word is recognized, a part of the intermediate expression is deleted to create a semantic expression. As a result, a correct intermediate expression can be created in both cases where a word appears in the speech recognition result and where it is omitted.

【0031】[0031]

【実施例】次に、本発明による連続音声認識方式の実施
例について図面を参照して説明する。
Next, an embodiment of a continuous speech recognition system according to the present invention will be described with reference to the drawings.

【0032】まず、請求項1の発明の一実施例について
説明する。図1は本発明の一実施例を示す構成図であ
る。図1において、音声入力部101は入力音声をデジ
タル信号にして分析を行ない、特徴ベクトルの時系列を
求めて連続音声認識部104にその結果を出力する。ネ
ットワーク記憶部102は音声認識の際に認識対象とな
る文または単語列を記憶する。ネットワーク中に付され
た番号はネットワーク中の各単語を表すアークのID番
号である。図16は図1におけるネットワーク記憶部1
02に記憶される認識用ネットワークの一例を示すもの
である。このようなネットワークを始端から終端までた
どることができた時、入力音声はこのネットワークにて
受理されたとする。例えば図16の場合は“私はあすの
バーシアのライブの切符が欲しい”、“私はしあさって
のバンヘーレンのコンサートの切符がいい”などの入力
音声を受理することができる。単語標準パターン記憶部
は認識対象の単語の音声の標準パターンをあらかじめ記
憶しており、単語標準パターン記憶部103には、ネッ
トワーク中の単語の標準パターンを記憶している。この
標準パターンは例えば音節のようなより小さな単位を連
結したものでも良い。
First, an embodiment of the present invention will be described. FIG. 1 is a configuration diagram showing one embodiment of the present invention. In FIG. 1, a voice input unit 101 converts an input voice into a digital signal, performs analysis, obtains a time series of feature vectors, and outputs the result to a continuous voice recognition unit 104. The network storage unit 102 stores a sentence or a word string to be recognized in speech recognition. The number given in the network is the ID number of the arc representing each word in the network. FIG. 16 shows the network storage unit 1 in FIG.
2 shows an example of a recognition network stored in the storage device 02. When it is possible to trace such a network from the beginning to the end, it is assumed that the input voice has been received by this network. For example, in the case of FIG. 16, it is possible to receive input voices such as "I want a ticket for a live tomorrow's Basia" and "I like a ticket for a concert in Van Hereen tomorrow". The word standard pattern storage unit stores in advance the voice standard pattern of the word to be recognized, and the word standard pattern storage unit 103 stores the standard pattern of words in the network. The standard pattern may be a combination of smaller units such as syllables, for example.

【0033】連続音声認識部104は上記のネットワー
クをたどることにより生成される単語列に従い単語標準
パターン記憶部103に記憶されている標準パターンを
連結し、音声入力部101から受けとった入力音声の特
徴ベクトルの時系列とのパターンマッチングを行なうこ
とにより入力音声と最も音響的類似性の高い単語列を選
択する。連続音声認識部104はこの単語列を表す各単
語のアークのIDの列を認識結果として中間表現生成部
106に出力する。中間表現生成部106に入力された
アークのID列と意味関係記憶部105の記憶内容より
中間表現を作成して出力する。
The continuous speech recognition unit 104 connects the standard patterns stored in the word standard pattern storage unit 103 in accordance with the word string generated by following the above-described network, and features the input speech received from the speech input unit 101. By performing pattern matching with a vector time series, a word string having the highest acoustic similarity to the input speech is selected. The continuous speech recognition unit 104 outputs an arc ID sequence of each word representing this word sequence to the intermediate expression generation unit 106 as a recognition result. An intermediate expression is created and output from the arc ID sequence input to the intermediate expression generation unit 106 and the storage contents of the semantic relationship storage unit 105.

【0034】次に、中間表現生成部106の処理につい
て説明する。今、入力音声が“私はあさってのバーシア
のコンサートのチケットが欲しい”であるとする。この
とき図16に示したアークのID番号より音声認識結果
として“1,3,5,6,10,11,13,15,1
6,17”というアークIDの列が中間表現生成部10
6に渡される。中間表現生成部106では図3の情報と
アークのID列より中間表現を作成する。まずアークI
D番号の列の先頭の1に対して図3のテーブルを検索す
ると、ID番号1の欄の親ID番号が17,18,19
である。この中でアークのID列中にあるのは17番な
ので、中間表現の親は“欲しい”で、またCASEの欄
から“受益”の関係であることが分かる。また、素性情
報の欄から“#名詞意味素性,111”という素性がこ
の文の中間表現中の“私”のところに付与される。以上
のような処理を繰り返すことにより図17のような中間
表現が得られる。
Next, the processing of the intermediate expression generation unit 106 will be described. Suppose now that the input voice is "I want a ticket for a concert in Bahia for the moment." At this time, “1,3,5,6,10,11,13,15,1” are obtained as the speech recognition results from the arc ID numbers shown in FIG.
The sequence of the arc ID of 6, 17 "is
Passed to 6. The intermediate expression generation unit 106 generates an intermediate expression from the information in FIG. 3 and the ID string of the arc. First, Arc I
When the table of FIG. 3 is searched for the first one in the column of the D number, the parent ID number in the column of ID number 1 is 17, 18, 19
It is. Among them, the number 17 is in the arc ID string, so the parent of the intermediate expression is “want”, and it can be seen from the CASE column that the relation is “benefit”. Also, a feature “#noun semantic feature, 111” is added to “I” in the intermediate expression of this sentence from the feature information column. By repeating the above processing, an intermediate representation as shown in FIG. 17 is obtained.

【0035】次に請求項2の発明の一実施例について説
明する。請求項2の発明の一実施例は図1における意味
関係記憶部105中に音声認識用のネットワーク及び各
ネットワークから呼ばれるサブネットワーク中の単語の
意味情報,素性情報を記憶して中間表現を作成する。図
4(a)は音声認識に用いるメインネットワークで、図
4(b),図4(c),図4(d)がメインネットワー
クから呼ばれるサブネットワークである。例えば図4
(b)はサブネット“日時”でメインネット中のアーク
ID番号2のところで呼ばれる。
Next, one embodiment of the second aspect of the present invention will be described. In one embodiment of the present invention, an intermediate expression is created by storing semantic information and feature information of words in a network for speech recognition and a sub-network called from each network in the semantic relation storage unit 105 in FIG. . FIG. 4A shows a main network used for speech recognition, and FIGS. 4B, 4C, and 4D show sub-networks called by the main network. For example, FIG.
(B) is a subnet “date and time” which is called at arc ID number 2 in the main net.

【0036】今、入力文が“私はあさってのバーシアの
コンサートのチケットが欲しい”であるとする。すると
音声認識結果のアーク番号の列は図4(a)〜(d)に
よって“1,2(2),3,4(1),5,6,8,1
0,11,12(1)”となる。ここで例えば“4
(1)”とあるのは、メインネットの4番のアークから
サブネットの1番のアークが呼ばれるという意味であ
る。この場合図5のID番号4の行のサブの欄からアー
チスト名のサブネットが呼ばれていることが分かり、図
6(b)の内容からCPが“バーシア”で素性情報が#
名詞意味素性,111であることが分かる。また、図5
のID番号4の行で親ID番号に11,12とあり、認
識結果のID列中に“12(1)”があるので、図6
(c)からCP“欲しい”を指し、CASEの欄から
“バーシア”と“欲しい”は所有の関係であることが分
かる。以上のような処理を繰り返すことにより図17の
ような中間表現が得られる。この他の処理は請求項1の
発明の一実施例と全く同じである。この結果、ネットワ
ーク及びネットワークから呼ばれるサブネットワークを
用いた音声認識の結果から中間表現を作成することがで
きる。
Now, it is assumed that the input sentence is "I want a ticket for a concert in Bercia that has just been done". Then, the arc number sequence of the speech recognition result is "1,2 (2), 3,4 (1), 5,6,8,1" according to FIGS.
0, 11, 12 (1) ". Here, for example," 4
“(1)” means that the first arc of the subnet is called from the fourth arc of the main net. In this case, the subnet of the artist name is determined from the sub-column of the row of ID number 4 in FIG. 6 (b), the CP is "Vasia" and the feature information is #
It can be seen that the noun semantic feature is 111. FIG.
Since the parent ID numbers are 11 and 12 in the row with the ID number 4 of “1” and “12 (1)” is in the ID column of the recognition result, FIG.
From (c), it indicates that the CP “wants” is indicated, and from the CASE column, “Basia” and “wants” are owned. By repeating the above processing, an intermediate representation as shown in FIG. 17 is obtained. Other processes are exactly the same as those of the first embodiment of the present invention. As a result, an intermediate expression can be created from the result of speech recognition using a network and a subnetwork called from the network.

【0037】次に請求項3の発明の一実施例について説
明する。請求項3の発明の一実施例は図1における意味
関係記憶部105中に他の単語に付与する素性情報も記
憶しこの情報も用いて中間表現を作成する。
Next, an embodiment of the third aspect of the present invention will be described. In one embodiment of the present invention, feature information to be added to another word is also stored in the semantic relationship storage unit 105 in FIG. 1, and an intermediate expression is created using this information.

【0038】例えば、入力音声が“私はチケットを1枚
欲しい”であったとする。すると音声認識結果のアーク
のID列は図7において“1,2,4,5,8”とな
る。このとき、アーク番号5のものは図9のID番号5
の行からCPが“1枚”であり、その親はアークID列
中に“2”があるため“チケット”であることが分か
る。また、親付与情報の欄から親CPとなる“チケッ
ト”に素性情報“#NUMBER,{SIN}”を付与
することが分かる。このような処理の結果、図8(a)
のような中間表現を作成することができる。この他の処
理は請求項1の発明の一実施例と全く同じである。
For example, assume that the input voice is "I want one ticket". Then, the arc ID sequence of the voice recognition result is “1, 2, 4, 5, 8” in FIG. At this time, arc number 5 corresponds to ID number 5 in FIG.
From the row, it can be seen that the CP is “1” and its parent is “ticket” because “2” is in the arc ID column. In addition, it can be seen from the parent assignment information column that the feature information “#NUMBER, {SIN}” is added to the “ticket” to be the parent CP. As a result of such processing, FIG.
Can be created. Other processes are exactly the same as those of the first embodiment of the present invention.

【0039】次に請求項4の発明の一実施例について説
明する。図2は本発明の他の実施例を示す構成図であ
る。本実施例では、素性情報を意味関係記憶部205か
らだけでなく、単語辞書記憶部207の内容も用いて各
単語に付与することにより中間表現を作成する。例え
ば、#名詞意味素性,#動詞意味分類等の素性情報は単
語ごとに常に同じであるので、意味関係記憶部205中
に記述しなくても単語辞書記憶部207の情報を用いる
ことで単語の素性情報として付与する。この他の処理は
請求項1の発明の一実施例と全く同じである。
Next, an embodiment of the present invention will be described. FIG. 2 is a configuration diagram showing another embodiment of the present invention. In the present embodiment, an intermediate expression is created by adding feature information to each word using not only the semantic relationship storage unit 205 but also the contents of the word dictionary storage unit 207. For example, since the feature information such as #noun semantic feature and #verb meaning classification is always the same for each word, the information of the word dictionary storage unit 207 can be used by using the information of the word dictionary storage unit 207 without describing in the semantic relationship storage unit 205. Assigned as feature information. Other processes are exactly the same as those of the first embodiment of the present invention.

【0040】次に請求項5の発明の一実施例について説
明する。
Next, an embodiment of the present invention will be described.

【0041】例えば図10のようなネットワークにおい
て入力文が“あさってのバーシアのコンサートのチケッ
トが欲しい”であるとする。するとアークID番号の列
は“2,4,5,9,10,12,14,15,16”
となる。また、意味関係記憶部の内容が図11に示した
ものであるとする。ここでID番号の値がDとなってい
る行は音声認識の結果に関わらず無条件で中間表現作成
に用いるとする。今“私”というCPがある行のID番
号の欄が“D”なので、この行の内容も中間表現作成に
使用する。その結果図17に示したような正しい中間表
現を作成することができる。この他の処理は請求項1の
発明の一実施例と全く同じである。
For example, suppose that the input sentence is "I want a ticket for a concert of the upcoming Basia" in the network shown in FIG. Then, the column of arc ID numbers is “2, 4, 5, 9, 10, 12, 14, 15, 16”
Becomes It is also assumed that the contents of the semantic relationship storage unit are as shown in FIG. Here, it is assumed that the row whose ID number is D is used unconditionally for creating an intermediate expression regardless of the result of speech recognition. Since the ID number column of the line where the CP “I” is located is “D”, the contents of this line are also used for creating the intermediate expression. As a result, a correct intermediate representation as shown in FIG. 17 can be created. Other processes are exactly the same as those of the first embodiment of the present invention.

【0042】次に請求項6の発明の一実施例について説
明する。
Next, an embodiment of the present invention will be described.

【0043】例えば図12のようなネットワークにおい
て入力文が“私はバーシアのチケットが欲しい”である
とする。するとアークID番号の列は“1,2,4,
5,7,8”となる。また意味関係記憶部の内容が図1
4に示したものであるとする。ここでオンノードという
欄は、この欄の中に記述した番号のアークが音声認識結
果にあるとき、この行の内容を中間表現作成に用いると
する。このときアークID番号列中に“2”があるの
で、ID番号が“onl”である行の内容も中間表現作
成に使用し、その結果、図13(a)に示したような正
しい中間表現を作成することができる。この他の処理は
請求項1の発明の一実施例と全く同じである。
For example, in the network shown in FIG. 12, the input sentence is "I want a ticket for Basia." Then, the column of arc ID numbers is “1, 2, 4,
5, 7, 8 ". The contents of the semantic relationship storage unit are shown in FIG.
4 is assumed. Here, in the column called on-node, when the arc having the number described in this column is present in the speech recognition result, the contents of this line are used for creating an intermediate expression. At this time, since there is "2" in the arc ID number sequence, the contents of the line having the ID number "onl" are also used for creating the intermediate expression, and as a result, the correct intermediate expression as shown in FIG. Can be created. Other processes are exactly the same as those of the first embodiment of the present invention.

【0044】次に請求項7の発明の一実施例について説
明する。図18は図15におけるネットワーク用の意味
関係記憶部の内容の一例を示す図、図19は図15にお
けるネットワークの中間表現の例を示す図である。
Next, an embodiment of the present invention will be described. 18 is a diagram illustrating an example of the contents of the semantic relationship storage unit for the network in FIG. 15, and FIG. 19 is a diagram illustrating an example of an intermediate representation of the network in FIG.

【0045】例えば図15のようなネットワークにおい
て入力文が“私はバーシアのコンサートのチケットが欲
しい”であるとする。するとアークID番号の列は
“1,2,4,5,7,8,10,11”となる。また
意味関係記憶部が図18に示したものであるとする。こ
こでオフノードという欄は、この欄の中に記述した番号
のアークが音声認識結果にあるとき、たとえ同じ行内の
ID番号が“D”となっていてもこの行の内容を中間表
現作成に用いないものとする。今、図18の1番上の行
はID番号が“D”となっているがオフノードの欄に
“1”とあり、音声認識結果のアークID番号列中に
“1”があるのでこの行の情報は使用しない。その結
果、図19のような中間表現が得られる。
For example, in the network shown in FIG. 15, the input sentence is "I want a ticket for a concert in Basia". Then, the sequence of the arc ID numbers becomes “1, 2, 4, 5, 7, 8, 10, 11”. It is also assumed that the semantic relationship storage unit is as shown in FIG. Here, the off-node column is used for creating an intermediate expression when the arc of the number described in this column is present in the speech recognition result, even if the ID number in the same line is "D". Shall not be present. Now, the top row in FIG. 18 has the ID number "D", but has "1" in the off-node column, and has "1" in the arc ID number column of the speech recognition result. Information is not used. As a result, an intermediate representation as shown in FIG. 19 is obtained.

【0046】また入力文が“バーシアのコンサートのチ
ケットが欲しい”であるとする。するとアークID番号
の列は図15において“2,4,5,7,8,10,1
1”となる。今、図18の1番上の行はID番号が
“D”となっているためこの行の内容も使用し、その結
果、図19のような中間表現が得られる。このように本
実施例では、ネットワーク内にて省略したりしなかった
りする要素がある場合も正しく中間表現を作成すること
ができる。この他の処理は請求項1の発明の一実施例と
全く同じである。
It is also assumed that the input sentence is "I want a ticket for a concert in Basia". Then, the column of arc ID numbers is "2, 4, 5, 7, 8, 10, 1" in FIG.
Since the ID number of the top row in FIG. 18 is “D”, the contents of this row are also used, and as a result, an intermediate representation as shown in FIG. 19 is obtained. As described above, in the present embodiment, an intermediate representation can be correctly created even when there are elements which are omitted or not in the network. It is.

【0047】[0047]

【発明の効果】以上述べたように本発明の連続音声認識
方式によれば、音声認識の際により自然で多様な文を認
識し、かつその意味表現を出力することができるという
効果が得られる。
As described above, according to the continuous speech recognition method of the present invention, it is possible to recognize more natural and diverse sentences at the time of speech recognition and output the meaning expression. .

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例を示す構成図である。FIG. 1 is a configuration diagram showing one embodiment of the present invention.

【図2】本発明の他の実施例を示す構成図である。FIG. 2 is a configuration diagram showing another embodiment of the present invention.

【図3】図1における意味関係記憶部の内容の一例を示
す図である。
FIG. 3 is a diagram showing an example of contents of a semantic relationship storage unit in FIG. 1;

【図4】音声認識用ネットワークの第1の例を示す図で
ある。
FIG. 4 is a diagram illustrating a first example of a voice recognition network.

【図5】図4におけるメインネットワーク用の意味関係
記憶部の内容の一例を示す図である。
FIG. 5 is a diagram showing an example of contents of a semantic relationship storage unit for a main network in FIG. 4;

【図6】図4におけるサブネットワーク用の意味関係記
憶部の内容の一例を示す図である。
FIG. 6 is a diagram showing an example of contents of a semantic relationship storage unit for a sub-network in FIG. 4;

【図7】音声認識用ネットワークの第2の例を示す図で
ある。
FIG. 7 is a diagram showing a second example of the voice recognition network.

【図8】図7におけるネットワークの中間表現の例を示
す図である。
FIG. 8 is a diagram showing an example of an intermediate representation of the network in FIG. 7;

【図9】図7におけるネットワーク用の意味関係記憶部
の内容の一例を示す図である。
9 is a diagram showing an example of the contents of a semantic relationship storage unit for a network in FIG. 7;

【図10】音声認識用ネットワークの第3の例を示す図
である。
FIG. 10 is a diagram showing a third example of the voice recognition network.

【図11】図10におけるネットワーク用の意味関係記
憶部の内容の一例を示す図である。
FIG. 11 is a diagram showing an example of the contents of a semantic relationship storage unit for a network in FIG. 10;

【図12】音声認識用ネットワークの第4の例示す図で
ある。
FIG. 12 is a diagram illustrating a fourth example of the voice recognition network.

【図13】図12におけるネットワークの中間表現の例
を示す図である。
13 is a diagram showing an example of an intermediate representation of the network in FIG.

【図14】図12におけるネットワーク用の意味関係記
憶部の内容の一例を示す図である。
FIG. 14 is a diagram showing an example of the contents of a semantic relationship storage unit for a network in FIG. 12;

【図15】音声認識用ネットワークの第5の例を示す図
である。
FIG. 15 is a diagram illustrating a fifth example of the voice recognition network.

【図16】音声認識用ネットワークの第6の例を示す図
である。
FIG. 16 is a diagram illustrating a sixth example of the voice recognition network.

【図17】図16におけるネットワークの中間表現の例
を示す図である。
FIG. 17 is a diagram illustrating an example of an intermediate representation of the network in FIG. 16;

【図18】図15におけるネットワーク用の意味関係記
憶部の内容の一例を示す図である。
18 is a diagram showing an example of the contents of a semantic relationship storage unit for a network in FIG.

【図19】図15におけるネットワークの中間表現の例
を示す図である。
19 is a diagram illustrating an example of an intermediate representation of the network in FIG.

【符号の説明】[Explanation of symbols]

101,201 音声入力部 102,202 ネットワーク記憶部 103,203 単語標準パターン記憶部 104,204 連続音声認識部 105,205 意味関係記憶部 106,206 中間表現生成部 207 単語辞書記憶部 101, 201 voice input unit 102, 202 network storage unit 103, 203 word standard pattern storage unit 104, 204 continuous speech recognition unit 105, 205 semantic relationship storage unit 106, 206 intermediate expression generation unit 207 word dictionary storage unit

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−214930(JP,A) 特開 平1−245297(JP,A) 特開 昭62−293472(JP,A) 電子情報通信学会技術研究報告[音声 ]SP88−17(昭和63年6月)P.45〜 52 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 561 G10L 3/00 551 G06F 15/38 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-2-214930 (JP, A) JP-A-1-245297 (JP, A) JP-A-62-293472 (JP, A) Technology of IEICE Research report [voice] SP88-17 (June 1988) 45-52 (58) Field surveyed (Int. Cl. 6 , DB name) G10L 3/00 561 G10L 3/00 551 G06F 15/38 JICST file (JOIS)

Claims (7)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 連続音声認識対象の文法を表現する単語
に関するネットワークを記憶する第1の記憶手段と、単
語の標準パターンを前記ネットワークにしたがって結合
して連続音声を認識する連続音声認識手段と、前記ネッ
トワークにおけるある単語と他の単語の間の意味的な関
係及び各単語に対する素性情報を記憶する第2の記憶手
段と、前記連続音声認識手段から生じる認識結果及び前
記第2の記憶手段からその中間表現を出力する出力手段
とを備えることを特徴とする連続音声認識方式。
1. A first storage means for storing a network relating to words representing a grammar to be subjected to continuous speech recognition, a continuous speech recognition means for recognizing continuous speech by combining standard patterns of words according to the network, A second storage unit for storing a semantic relationship between a certain word and another word in the network and feature information for each word; and a recognition result generated from the continuous speech recognition unit and the second storage unit. Output means for outputting an intermediate expression.
【請求項2】 前記連続音声認識手段はあらかじめ定め
られた認識単位の標準パターンを前記ネットワーク及び
各ネットワークから呼ばれるサブネットワークにしたが
って結合して連続音声を認識し、前記第1の記憶手段は
連続音声認識対象の文法を表現するネットワーク及び各
ネットワークから呼ばれるサブネットワークを記憶し、
前記出力手段は前記連続音声認識手段から生じる認識結
果及び前記第2の記憶手段のある単語と他の単語の間の
意味的な関係及び前記ネットワーク及びサブネットワー
ク内の各単語に対する素性情報からその中間表現を出力
することを特徴とする請求項1記載の連続音声認識方
式。
2. The continuous speech recognition means recognizes continuous speech by combining a predetermined standard pattern of a recognition unit according to the network and a sub-network called from each network. Memorize networks expressing the grammar to be recognized and sub-networks called from each network,
The output unit is configured to determine the intermediate between the recognition result generated from the continuous speech recognition unit, the semantic relation between a certain word and another word in the second storage unit, and the feature information for each word in the network and the sub-network. 2. The continuous speech recognition method according to claim 1, wherein an expression is output.
【請求項3】 ある単語が認識された時に、他の単語に
付与する素性情報を記憶する前記第2の記憶手段と、前
記情報を前記中間表現に付与する付与手段とを備えるこ
とを特徴とする請求項1または2記載の連続音声認識方
式。
3. The apparatus according to claim 2, further comprising: a second storage unit that stores feature information to be added to another word when a certain word is recognized; and an adding unit that adds the information to the intermediate expression. 3. The continuous speech recognition method according to claim 1, wherein
【請求項4】 ある単語が認識された時に、その単語に
付与する素性情報を単語辞書記憶部から取り出し、前記
付与手段は前記情報を前記中間表現に付与することを特
徴とする請求項1または2もしくは3記載の連続音声認
識方式。
4. The method according to claim 1, wherein when a certain word is recognized, feature information to be added to the word is extracted from a word dictionary storage unit, and the adding unit adds the information to the intermediate expression. 2. The continuous speech recognition method according to 2 or 3.
【請求項5】 前記単語辞書記憶部は連続音声認識対象
の文法を表現するネットワーク内に存在しないが中間表
現を作成するために必ず必要な単語を記憶し、前記出力
手段は前記情報をもとに中間表現を作成して出力するこ
とを特徴とする請求項1乃至4のいずれかに記載の連続
音声認識方式。
5. The word dictionary storage unit stores words that do not exist in a network expressing a grammar to be subjected to continuous speech recognition but are always necessary to create an intermediate expression, and the output unit uses the information based on the information. 5. The continuous speech recognition method according to claim 1, wherein an intermediate expression is created and output.
【請求項6】 前記単語辞書記憶部は連続音声認識対象
の文法を表現するネットワーク内のある特定の単語が認
識された際に補う単語を記憶し、前記出力手段は前記情
報をもとに中間表現を作成して出力することを特徴とす
る請求項1乃至5のいずれかに記載の連続音声認識方
式。
6. The word dictionary storage unit stores words to be supplemented when a specific word in a network expressing a grammar to be subjected to continuous speech recognition is recognized, and the output unit stores an intermediate word based on the information. 6. The continuous speech recognition method according to claim 1, wherein the expression is created and output.
【請求項7】 前記単語辞書記憶部は連続音声認識対象
の文法を表現するネットワーク内のある特定の単語が認
識された際に削除すべき連続音声認識対象の文法を表現
するネットワーク中の特定の単語を記憶し、前記出力手
段は前記情報をもとに中間表現を作成して出力すること
を特徴とする請求項1乃至6のいずれかに記載の連続音
声認識方式。
7. The word dictionary storage unit stores a specific grammar of a continuous speech recognition target grammar to be deleted when a specific word in the network representing a grammar of the continuous voice recognition target is recognized. 7. The continuous speech recognition method according to claim 1, wherein a word is stored, and said output means creates and outputs an intermediate expression based on said information.
JP3010234A 1991-01-30 1991-01-30 Continuous speech recognition method Expired - Fee Related JP2817406B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3010234A JP2817406B2 (en) 1991-01-30 1991-01-30 Continuous speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3010234A JP2817406B2 (en) 1991-01-30 1991-01-30 Continuous speech recognition method

Publications (2)

Publication Number Publication Date
JPH04253099A JPH04253099A (en) 1992-09-08
JP2817406B2 true JP2817406B2 (en) 1998-10-30

Family

ID=11744610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3010234A Expired - Fee Related JP2817406B2 (en) 1991-01-30 1991-01-30 Continuous speech recognition method

Country Status (1)

Country Link
JP (1) JP2817406B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4579585B2 (en) * 2004-06-08 2010-11-10 キヤノン株式会社 Speech recognition grammar creation device, speech recognition grammar creation method, program, and storage medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会技術研究報告[音声]SP88−17(昭和63年6月)P.45〜52

Also Published As

Publication number Publication date
JPH04253099A (en) 1992-09-08

Similar Documents

Publication Publication Date Title
US5832428A (en) Search engine for phrase recognition based on prefix/body/suffix architecture
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6801897B2 (en) Method of providing concise forms of natural commands
JP2848458B2 (en) Language translation system
US6937983B2 (en) Method and system for semantic speech recognition
US6501833B2 (en) Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5937385A (en) Method and apparatus for creating speech recognition grammars constrained by counter examples
EP1089193A2 (en) Translating apparatus and method, and recording medium used therewith
JP2000353161A (en) Method and device for controlling style in generation of natural language
KR20000028832A (en) Web-based platform for interactive voice response(ivr)
KR20060043825A (en) Generating large units of graphonemes with mutual information criterion for letter to sound conversion
JPH0916602A (en) Translation system and its method
JP4740837B2 (en) Statistical language modeling method, system and recording medium for speech recognition
US20060129393A1 (en) System and method for synthesizing dialog-style speech using speech-act information
JP2000200273A (en) Speaking intention recognizing device
US7302381B2 (en) Specifying arbitrary words in rule-based grammars
KR20090063546A (en) Apparatus and method of human speech recognition
JP3059398B2 (en) Automatic interpreter
JP2817406B2 (en) Continuous speech recognition method
US6772116B2 (en) Method of decoding telegraphic speech
JP2758851B2 (en) Automatic translation device and automatic translation device
JP2003162524A (en) Language processor
JP3518340B2 (en) Reading prosody information setting method and apparatus, and storage medium storing reading prosody information setting program
KR101543024B1 (en) Method and Apparatus for Translating Word based on Pronunciation
JP2001013992A (en) Voice understanding device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980721

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070821

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080821

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080821

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090821

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees