JP2950823B1 - Speech recognition error correction device - Google Patents

Speech recognition error correction device

Info

Publication number
JP2950823B1
JP2950823B1 JP10275323A JP27532398A JP2950823B1 JP 2950823 B1 JP2950823 B1 JP 2950823B1 JP 10275323 A JP10275323 A JP 10275323A JP 27532398 A JP27532398 A JP 27532398A JP 2950823 B1 JP2950823 B1 JP 2950823B1
Authority
JP
Japan
Prior art keywords
input
subtree
tree
error correction
parse tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10275323A
Other languages
Japanese (ja)
Other versions
JP2000105597A (en
Inventor
開 石川
英一郎 隅田
仁 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP10275323A priority Critical patent/JP2950823B1/en
Application granted granted Critical
Publication of JP2950823B1 publication Critical patent/JP2950823B1/en
Publication of JP2000105597A publication Critical patent/JP2000105597A/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【要約】 【課題】 従来例に比較して大局的な音声認識結果の妥
当性を判断することができ、誤り訂正処理を行うことが
できる音声認識誤り訂正装置を提供する。 【解決手段】 構造解析処理部(2)は音声認識結果に
対して構造解析処理を行って入力解析木を生成し、誤り
訂正処理手段(3,7,8,9,4)は入力解析木と用
例解析木とに基づいて各入力部分木と各用例部分木との
間で音韻的に近接する部分木対を検索して、入力解析木
と用例解析木との間の互換可能な構造に基づいて誤り訂
正処理を行う。意味的距離計算処理及び出力手段(5,
6)は誤り訂正結果を含む発声音声文全体に対して、単
語間の類語の概念階層における位置関係に依存して計算
される意味的距離を計算することにより文全体の大局的
な妥当性を判断し、計算された意味的距離が所定のしき
い値以下のときに誤り訂正結果を含む発声音声文の解析
木を出力する。
A speech recognition error correction device capable of determining the validity of a global speech recognition result as compared with a conventional example and performing error correction processing. SOLUTION: A structure analysis processing unit (2) performs a structure analysis process on a speech recognition result to generate an input analysis tree, and an error correction processing unit (3, 7, 8, 9, 4) uses an input analysis tree. A subtree pair that is phonologically close between each input subtree and each example subtree based on the input parse tree and the example parse tree to obtain a compatible structure between the input parse tree and the example parse tree Error correction is performed based on the error correction. Semantic distance calculation processing and output means (5,
6) calculates the global validity of the entire sentence by calculating the semantic distance calculated for the entire uttered speech sentence including the error correction result depending on the positional relationship of synonyms between words in the concept hierarchy. Judgment is performed, and when the calculated semantic distance is equal to or smaller than a predetermined threshold, an analytic tree of the uttered speech sentence including the error correction result is output.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、発声音声文の音声
信号を音声認識し、その音声認識結果に対して誤り訂正
処理を行う音声認識誤り訂正装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition error correction device for recognizing a speech signal of an uttered speech sentence and performing an error correction process on the speech recognition result.

【0002】[0002]

【従来の技術】例えば、音声翻訳装置では、翻訳モジュ
ールは音声認識工程に帰因するエラーを含む発話を受け
入れる必要がある。従って、強力なエラー処理のフレー
ムワークの開発が、音声翻訳システムの性能を向上させ
る上で極めて重要である。
2. Description of the Related Art For example, in a speech translation apparatus, a translation module needs to accept an utterance containing an error attributed to a speech recognition process. Therefore, the development of a strong error handling framework is extremely important in improving the performance of a speech translation system.

【0003】例えば、従来技術文献1「H.Saito
et al.,”ParsingNoisy Sen
tences”,Proceedings of CO
LING’88,pp.561−566,1988年」
においては、音素列に対して誤り部分の正解仮説を生成
し、構文解析結果に基づく仮説の検証を行なうが、訂正
可能な領域が局所的であるという問題点があった。
[0003] For example, in the prior art document 1 "H. Saito
et al. , "ParsingNoisy Sen
tences ", Proceedings of CO
LING '88, pp. 561-566, 1988 "
In, a correct hypothesis of an erroneous part is generated for a phoneme string, and the hypothesis is verified based on a result of the syntax analysis, but there is a problem that a correctable region is local.

【0004】この問題点を解決するために、従来技術文
献2「脇田由実ほか,”意味的類似性を用いた後処理的
な音声認識正解部分特定法と音声翻訳手法への導入”,
人工知能学会音声言語情報処理研究会,17−4,19
97年7月18日」において、話し言葉を音声認識した
場合の誤り文の解析を目的として、音声認識処理後の結
果文から正解部分のみを特定する方法が提案されてい
る。この方法では、話し言葉の文法記述が困難であるこ
とと、音声認識用の言語処理が文の局所的な部分のみ制
約をかけていることを考慮し、用例に依存した単語間の
意味的距離と意味的距離の近さから決定された単語間の
依存関係とを用いて、音声認識の際の言語的な制約範囲
と比べてより大局的な範囲での表現の自然性を判断する
ことにより正解部分を特定している。この方法では、特
開平6−274192号公報において開示された言語構
成素境界パーザ(Constituent Bound
ary parser;以下、CBパーザという。)を
用いて各局部的な部分木について計算されたその意味的
距離に従って判断された発話中の高信頼部分のみを翻訳
するものである。
[0004] In order to solve this problem, prior art document 2, "Yumi Wakita et al.," Introduction to post-processing correct part recognition method for speech recognition using semantic similarity and speech translation method ",
Technical Committee on Spoken Language Information Processing, Japan Society for Artificial Intelligence, 17-4, 19
On July 18, 1997, a method for identifying only a correct answer part from a result sentence after the speech recognition processing for the purpose of analyzing an erroneous sentence when the spoken word is speech-recognized has been proposed. This method considers that the grammatical description of spoken words is difficult and that the language processing for speech recognition restricts only the local part of the sentence. Using the dependencies between words determined from the closeness of the semantic distance, the correct answer is obtained by judging the naturalness of the expression in a broader range compared to the linguistic constraint range in speech recognition Identify the part. In this method, a language constituent boundary parser (Constituent Bound) disclosed in JP-A-6-274192 is disclosed.
ary parser; hereinafter, referred to as CB parser. ) Is used to translate only the reliable parts in the utterance determined according to the semantic distance calculated for each local subtree.

【0005】[0005]

【発明が解決しようとする課題】しかしながらこの方法
では、発話全体に対する翻訳部分の再現率が低く、また
翻訳が出力されない場合がある。また、意味的距離を用
いて正解部分の特定を行なうが、認識誤りを訂正する枠
組がないという問題点があった。
However, in this method, the recall rate of the translated portion with respect to the entire utterance is low, and the translation may not be output. In addition, although the correct part is specified using the semantic distance, there is a problem that there is no framework for correcting the recognition error.

【0006】本発明の目的は以上の問題点を解決し、従
来例に比較して大局的な音声認識結果の妥当性を判断す
ることができ、誤り訂正処理を行うことができる音声認
識誤り訂正装置を提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems, to make it possible to judge the validity of a general speech recognition result as compared with the conventional example, and to carry out an error correction process. It is to provide a device.

【0007】[0007]

【課題を解決するための手段】本発明に係る請求項1記
載の音声認識誤り訂正装置は、発声音声文の音声信号を
音声認識し、その音声認識結果に対して誤り訂正処理を
行う音声認識誤り訂正装置において、所定の用例文に対
して所定の構造解析処理を行って得られた用例解析木を
格納する記憶手段(22)と、上記音声認識結果に対し
て所定の構造解析処理を行って入力解析木を生成して出
力する構造解析処理手段(2)と、上記構造解析処理手
段(2)から出力される入力解析木と、上記記憶手段
(22)に格納された用例解析木とに基づいて、入力解
析木の部分木である各入力部分木と、用例解析木の部分
木である各用例部分木との間で音韻的に近接する部分木
対を検索して、入力解析木と用例解析木との間の互換可
能な構造に基づいて誤り訂正処理を行って入力解析木の
誤り訂正結果を出力する誤り訂正処理手段(3,7,
8,9,4)と、上記誤り訂正処理手段(3,7,8,
9,4)から出力される誤り訂正結果を含む発声音声文
全体に対して、単語間の類語の概念階層における位置関
係に依存して計算される意味的距離を計算することによ
り文全体の大局的な妥当性を判断し、計算された意味的
距離が所定のしきい値以下のときに誤り訂正結果を含む
発声音声文の解析木を出力する意味的距離計算処理及び
出力手段(5,6)とを備えたことを特徴とする。
According to a first aspect of the present invention, there is provided a speech recognition error correction apparatus for performing a speech recognition of a speech signal of an uttered speech sentence and performing an error correction process on the speech recognition result. In the error correction device, a storage means (22) for storing an example parse tree obtained by performing a predetermined structure analysis process on a predetermined example sentence, and performing a predetermined structure analysis process on the speech recognition result. (2) for generating and outputting an input parse tree by means of an input parse tree, an input parse tree output from the structural analytic process means (2), and an example parse tree stored in the storage means (22). Based on the input parse tree, a subtree pair that is phonologically close between each input subtree that is a subtree of the input analytic tree and each example subtree that is a subtree of the example analytic tree is searched. Based on the interchangeable structure between the tree and the example parse tree Error correction processing means (3, 7 outputs an error correction result of correction processing performed input parse tree Ri,
8, 9, 4) and the error correction processing means (3, 7, 8,
For the entire utterance sentence including the error correction result output from (9, 4), the semantic distance calculated depending on the positional relationship of the synonyms between words in the concept hierarchy is calculated, so that the overall sentence overall is calculated. Semantic distance calculation processing and output means (5, 6) for determining an appropriate validity and outputting a parse tree of an uttered speech sentence including an error correction result when the calculated semantic distance is equal to or less than a predetermined threshold value. ).

【0008】また、請求項2記載の音声認識誤り訂正装
置は、請求項1記載の音声認識誤り訂正装置において、
上記誤り訂正処理手段(3,7,8,9,4)は、上記
構造解析処理手段(2)から出力される入力解析木に対
して意味的距離を計算し、計算された意味的距離が上記
しきい値を超えるときに、入力解析木を修復すべきであ
ると判断する入力解析木修復判断手段(3)と、上記入
力解析木修復判断手段(3)によって修復すべきと判断
された入力解析木と、上記記憶手段に格納された用例解
析木とに基づいて、各入力部分木と各用例部分木との間
で音韻的に近接する部分木対を検索して、それぞれの部
分木の組み合わせの対を生成して出力する入力部分木及
び用例部分木照合処理部(7)と、上記入力部分木及び
用例部分木照合処理部(7)から出力される入力部分木
と用例部分木との組み合わせの対を,所定の単語音素変
換辞書を参照して、それぞれ音素列に変換して出力する
部分木音素列変換処理部(8)と、上記部分木音素列変
換処理部(8)から出力される入力部分木の音素列と用
例部分木の音素列との間の音韻的距離を計算して、上記
計算された音韻的距離が所定の別のしきい値以下の入力
部分木と用例部分木との対を出力する音韻的距離計算処
理部(9)と、上記入力解析木修復判断手段(3)によ
って修復すべきと判断された入力解析木に対して、上記
音韻的距離計算処理部(9)から出力される入力部分木
と用例部分木との対を用いて、入力解析木の修復を行う
ことにより誤り訂正処理を行って入力解析木の誤り訂正
結果を出力する解析木修復処理部(4)とを備えたこと
を特徴とする。
Further, the speech recognition error correction device according to the second aspect is the speech recognition error correction device according to the first aspect,
The error correction processing means (3, 7, 8, 9, 4) calculates a semantic distance for the input parse tree output from the structural analysis processing means (2), and calculates the calculated semantic distance. When the threshold value is exceeded, the input parse tree repair determining means (3) for determining that the input parse tree should be repaired and the input parse tree repair determining means (3) determine that the input parse tree should be repaired. Based on the input parse tree and the example parse tree stored in the storage means, a subtree pair that is phonologically close between each input subtree and each example subtree is searched, and each subtree is searched. An input subtree and an example subtree matching processing unit (7) for generating and outputting a pair of combinations of the above, and an input subtree and an example subtree output from the input subtree and example subtree matching processing unit (7) With reference to a predetermined word-phoneme conversion dictionary A subtree phoneme string conversion processing unit (8) that converts each of them into a phoneme string and outputs them; a phoneme string of the input subtree and a phoneme string of the example subtree output from the subtree phoneme string conversion processing unit (8) And a phonological distance calculation processing unit (9) for calculating a phonological distance between the input subtrees and outputting a pair of an input subtree and an example subtree in which the calculated phonological distance is equal to or smaller than another predetermined threshold value. For the input parse tree determined to be repaired by the input parse tree repair determining means (3), the input subtree output from the phonological distance calculation processing unit (9) and the example subtree are compared. An analysis tree restoration processing unit (4) that performs an error correction process by performing restoration of the input analysis tree using the pair and outputs an error correction result of the input analysis tree.

【0009】[0009]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0010】図1は、本発明に係る一実施形態である音
声認識誤り訂正装置の構成を示すブロック図である。本
実施形態の音声認識誤り訂正装置は、(a)音声認識処
理部1と、(b)構造解析処理部2と、(c)入力解析
木修復判断部3と、(d)解析木修復処理部4と、
(e)意味的距離計算処理部5と、(f)訂正解析木出
力部6と、(g)入力部分木及び用例部分木照合処理部
7と、(h)部分木音素列変換処理部8と、(i)音韻
的距離計算処理部9と、(j)構造解析処理部10と、
を備えたことを特徴としている。
FIG. 1 is a block diagram showing the configuration of a speech recognition error correction apparatus according to an embodiment of the present invention. The speech recognition error correction device according to the present embodiment includes (a) a speech recognition processing unit 1, (b) a structural analysis processing unit 2, (c) an input parse tree repair determination unit 3, and (d) a parse tree repair process. Part 4,
(E) a semantic distance calculation processing unit 5, (f) a correction analysis tree output unit 6, (g) an input subtree and example subtree collation processing unit 7, and (h) a subtree phoneme string conversion processing unit 8 (I) a phonological distance calculation processing unit 9, (j) a structure analysis processing unit 10,
It is characterized by having.

【0011】図1において、音声認識及び誤り訂正すべ
き発声音声(日本語又は英語などの自然言語文からな
る)はマイクロホン30に入力されて、音声信号に変換
された後、音声認識処理部1に入力される。音声認識処
理部1は、例えば特開平9−134192号公報で開示
されたような公知の音声認識装置であって、入力される
音声信号をA/D変換した後LPC分析を行って音響的
特徴パラメータを抽出した後、音素隠れマルコフモデル
を用いて音素列を特定し、かつ所定の統計的言語モデル
を用いて単語列からなる自然言語文の音声認識結果を得
て構造解析処理部2に出力する。
In FIG. 1, an uttered voice (consisting of a natural language sentence such as Japanese or English) to be subjected to voice recognition and error correction is input to a microphone 30 and converted into a voice signal. Is input to The speech recognition processing unit 1 is a known speech recognition device as disclosed in, for example, Japanese Patent Application Laid-Open No. 9-134192, and performs A / D conversion on an input speech signal, performs LPC analysis, and performs acoustic feature analysis. After extracting the parameters, a phoneme sequence is specified using a phoneme hidden Markov model, and a speech recognition result of a natural language sentence composed of a word sequence is obtained using a predetermined statistical language model, and output to the structure analysis processing unit 2. I do.

【0012】構造解析処理部2は、図2に示す構成を有
し、音声認識処理部1から出力される音声認識結果の単
語列からなる自然言語文に対して、その文中の各単語の
係り受け構造を解析する。ここで、入力文のすべての部
分に対して言語パターンを照合し、照合した言語パター
ンの組合わせ結果を入力文の構造候補と決定する。この
ように選択された構造候補の中から、入力文の各単語と
言語パターンの用例単語との間の意味的距離を求め、最
も上記意味的距離の小さいものを最適の構造と決定して
出力する。この意味的距離の計算方法としては、詳細後
述する方法を用いる。
The structure analysis processing unit 2 has a configuration shown in FIG. 2, and relates a relation between each word in the sentence to a natural language sentence composed of a word string of a speech recognition result output from the speech recognition processing unit 1. Analyze the receiving structure. Here, the language pattern is collated with respect to all parts of the input sentence, and the combination result of the collated language patterns is determined as a structure candidate of the input sentence. From the structure candidates selected in this way, the semantic distance between each word of the input sentence and the example word of the language pattern is determined, and the one having the smallest semantic distance is determined as the optimal structure and output. I do. As a method of calculating the semantic distance, a method described later in detail is used.

【0013】図2において、音声認識処理部1によって
音声認識された、日本語や英語などの所定の言語の文字
列からなり複数の単語からなる自然言語文が、構造解析
処理部2内の形態素解析部101に入力され、形態素解
析部101は、入力された自然言語文(以下、入力文と
いう。)の各単語の出現形に対して、形態素解析辞書メ
モリ111内に記憶された形態素解析辞書を参照して、
上記自然言語文を複数の単語に分割するとともに、上記
各出現形に対して品詞、標準形又は標準表現形、活用
形、及び類語コードなどの情報を付与して品詞バイグラ
ム挿入部102に出力する。表1に英語用形態素解析辞
書の具体例を示し、表2に日本語用形態素解析辞書の具
体例を示す。
In FIG. 2, a natural language sentence composed of a character string of a predetermined language such as Japanese or English and composed of a plurality of words, which is speech-recognized by the speech recognition processing unit 1, is converted into a morpheme in the structure analysis processing unit 2. The morphological analysis unit 101 inputs the appearance form of each word of the input natural language sentence (hereinafter referred to as an input sentence) to the morphological analysis dictionary stored in the morphological analysis dictionary memory 111. See
The natural language sentence is divided into a plurality of words, and information such as a part of speech, a standard form or a standard expression form, an inflected form, and a synonym code is added to each of the appearance forms, and the information is output to the part of speech bigram insertion unit 102. . Table 1 shows a specific example of an English morphological analysis dictionary, and Table 2 shows a specific example of a Japanese morphological analysis dictionary.

【0014】[0014]

【表1】 英語用形態素解析辞書の具体例 ―――――――――――――――――――――――――――――――――― 出現形 標準形 品詞 活用形 類語コード ―――――――――――――――――――――――――――――――――― the the 冠詞 bus bus 普通名詞 123 leaves leave 動詞 現在形 234 Kyoto Kyoto 固有名詞 333 at at 前置詞 eleven eleven 数詞 400 a.m a.m. 接尾語 555 ――――――――――――――――――――――――――――――――――[Table 1] Example of English morphological analysis dictionary ―――――――――――――――――――――――――――――――― Appearance form Standard form Part-of-speech inflected form synonym code ―――――――――――――――――――――――――――――――――― the the article bus bus ordinary noun 123 leaves leave verb Present tense 234 Kyoto Kyoto Proper noun 333 at at Preposition eleven eleven number 400 a. ma. m. Suffix 555 ――――――――――――――――――――――――――――――――

【0015】[0015]

【表2】 日本語用形態素解析辞書の具体例 ―――――――――――――――――――――――――――― 出現形 標準形 品詞 活用形 類語コード ―――――――――――――――――――――――――――― こちら こちら 代名詞 007 は は 助詞 事務局 事務局 普通名詞 700 です です 助動詞 終止形 ――――――――――――――――――――――――――――[Table 2] Specific examples of Japanese morphological analysis dictionary ―――――――――――――――――――――――――――― Appearance type Standard part of speech Participatory utilization Synonym code ―――――――――――――――――――――――――――― This is the pronoun 007 is a particle post office secretariat The secretariat is a common noun 700 Auxiliary verb final form ――― ―――――――――――――――――――――――――――

【0016】次いで、品詞バイグラム挿入部102は、
形態素解析部101より得られた入力文の単語の品詞情
報に基づいて、品詞バイグラム辞書メモリ112に記憶
された品詞バイグラム辞書を参照して、言語構成素境界
としての品詞バイグラムを入力文に挿入して、上記入力
文とともに言語パターン検索部103に出力する。ここ
で、品詞バイグラムとは、入力文において隣接する可能
性がある2つの単語の品詞の組み合わせをいう。表3に
英語用品詞バイグラム辞書の具体例を示し、表4に日本
語用品詞バイグラム辞書の具体例を示す。また、品詞バ
イグラム挿入部102においては、挿入される品詞バイ
グラムA−Bの、品詞Aと品詞Bには表5に示す制限条
件を設け、品詞Aと品詞Bが同一の言語構成素に属さな
いようにして品詞バイグラムを挿入する。なお、品詞バ
イグラム辞書メモリ112内に記憶される品詞バイグラ
ム辞書において、表5に示す制限条件で品詞バイグラム
を記憶し、品詞Aと品詞Bが同一の言語構成素に属さな
いように制限してもよい。
Next, the part-of-speech bigram insertion unit 102
Based on the part-of-speech information of the words of the input sentence obtained from the morphological analysis unit 101, the part-of-speech bigram as a language constituent boundary is inserted into the input sentence with reference to the part-of-speech bigram dictionary stored in the part-of-speech bigram dictionary memory 112. Then, it is output to the language pattern search unit 103 together with the input sentence. Here, the part-of-speech bigram refers to a combination of parts of speech of two words that may be adjacent in the input sentence. Table 3 shows a specific example of an English part-of-speech bigram dictionary, and Table 4 shows a specific example of a Japanese part-of-speech bigram dictionary. In the part-of-speech bigram insertion unit 102, the restrictive conditions shown in Table 5 are provided for the part-of-speech A and part-of-speech B of the part-of-speech bigram AB to be inserted, and the part of speech A and the part of speech B do not belong to the same language constituent. To insert a part-of-speech bigram. In the part-of-speech bigram dictionary stored in the part-of-speech bigram dictionary memory 112, the part-of-speech bigram may be stored under the restrictive conditions shown in Table 5 so that the part-of-speech A and the part-of-speech B are restricted so as not to belong to the same language constituent. Good.

【0017】[0017]

【表3】 英語用品詞バイグラム辞書 (英語で言語構成素境界となりうる品詞バイグラムのリスト)の具体例 ―――――――――――――――――――――――――――――――――― noun−verb noun−auxv propn−verb verb−propn ………………… ………………… ――――――――――――――――――――――――――――――――――[Table 3] Specific examples of English part-of-speech bigram dictionaries (list of part-of-speech bigrams that can be language constituent boundaries in English) ―――――――――――――――――――――――― ―――――――――― noun-verb noun-auxv propn-verb verb-propn ………………………………… ―――――――――――――――― ――――――――――――――――――――

【0018】上記表3において、noun、verb、
propn、auxvはそれぞれ、普通名詞、動詞、固
有名詞、助動詞を表わす記号である。
In Table 3 above, noun, verb,
propn and auxv are symbols representing common nouns, verbs, proper nouns, and auxiliary verbs, respectively.

【0019】[0019]

【表4】 日本語品詞バイグラム辞書 (日本語で言語構成素境界となりうる品詞バイグラムのリスト)の具体例 ―――――――――――――――――――――――――――――――――― pron−noun noun−verb ………………… ………………… ――――――――――――――――――――――――――――――――――[Table 4] Specific examples of Japanese part-of-speech bigram dictionaries (lists of part-of-speech bigrams that can become language constituent boundaries in Japanese) ――――――――――――――――――――――― ――――――――――― pron-noun noun-verb ……………………………………………… ―――――――――――――――

【0020】上記表4において、pron、noun、
verbはそれぞれ、代名詞、普通名詞、動詞を表わす
記号である。
In Table 4 above, pron, noun,
verb is a symbol representing a pronoun, a common noun, and a verb, respectively.

【0021】[0021]

【表5】 品詞バイグラムA−BにおけるAとBに対する制限条件 ―――――――――――――――――――――――――――――――――― (C1)前後の言語構成素を関係づける前置詞、助詞、接続詞などは、 AにもBにもなれない。 ―――――――――――――――――――――――――――――――――― (C2)後の言語構成素を修飾する冠詞、連体詞、接頭語、英語の助動詞 などは、Aになれない。 ―――――――――――――――――――――――――――――――――― (C3)前の言語構成素を修飾する接尾語、日本語の助動詞などは、 Bになれない。 ――――――――――――――――――――――――――――――――――[Table 5] Restrictions on A and B in part-of-speech bigram AB ―――――――――――――――――――――――――――――――――― (C1) Neither A nor B can be used as a preposition, particle, conjunction, etc. that associates the preceding and following language constituents. ―――――――――――――――――――――――――――――――――― (C2) Articles, adnominals, and prefixes that modify the language constituents after Words and English auxiliary verbs cannot be A. ―――――――――――――――――――――――――――――――― (C3) Suffix to modify the previous language constituent, Japanese The auxiliary verb cannot be B. ――――――――――――――――――――――――――――――――――

【0022】この品詞バイグラム挿入部102におい
て、例えば、英語表現”the bus”における”t
he”(冠詞)と”bus”の間には、上記(C2)の
制限条件により、品詞バイグラムを挿入しない。
In the part-of-speech bigram insertion unit 102, for example, "t" in the English expression "the bus"
No part-of-speech bigram is inserted between "he" (article) and "bus" due to the restriction condition of (C2) above.

【0023】次いで、言語パターン検索部103は、言
語パターンメモリ113に記憶され入力単語と照合可能
な言語パターンの関係を記述した言語パターン検索テー
ブルを参照して、入力文の各単語及び言語構成素境界と
して挿入された品詞バイグラムから、当該入力文に照合
可能な言語パターンを検索して検索された言語パターン
を入力文とともに、言語パターン照合部104に出力す
る。表6に英語用言語パターン検索テーブルの具体例を
示し、表7に日本語用言語パターン検索テーブルの具体
例を示す。
Next, the language pattern search unit 103 refers to the language pattern search table, which is stored in the language pattern memory 113 and describes the relationship between the input word and the collatable language pattern, and refers to each word of the input sentence and the language constituents. From the part-of-speech bigram inserted as a boundary, a language pattern that can be matched with the input sentence is searched, and the searched language pattern is output to the language pattern matching unit 104 together with the input sentence. Table 6 shows a specific example of the language pattern search table for English, and Table 7 shows a specific example of the language pattern search table for Japanese.

【0024】[0024]

【表6】 英語用言語パターン検索テーブル ―――――――――――――――――――――――――――――――――― 単語 言語パターン(言語的単位) ―――――――――――――――――――――――――――――――――― the the X(複合語) noun−verb X noun−verb Y(単文) verb−propn X verb−propn Y(動詞句) at X at Y(動詞句、名詞句) a.m. X a.m.(複合語) of X of Y(動詞句、名詞句) ……… ………… ――――――――――――――――――――――――――――――――――[Table 6] English language pattern search table ―――――――――――――――――――――――――――――――――― Word Language pattern (linguistic Unit) ―――――――――――――――――――――――――――――――― the the X (compound) noun-verb X noun-verb Y (single sentence) verb-propn X verb-propn Y (verb phrase) at X at Y (verb phrase, noun phrase) a. m. X a. m. (Compound words) of X of Y (verb phrase, noun phrase) ……… ………… ―――――――――――――――――――――――――――― ――――――

【0025】[0025]

【表7】 日本語用言語パターン検索テーブル ―――――――――――――――――――――――――――――――――― 単語 言語パターン(言語的単位) ―――――――――――――――――――――――――――――――――― は X は Y(動詞句) pron−noun X pron−noun Y(動詞句) です X です(単文) の XのY(名詞句) ……… ……… ――――――――――――――――――――――――――――――――――[Table 7] Language pattern search table for Japanese ―――――――――――――――――――――――――――――――――― Word Language pattern (language Unit) ―――――――――――――――――――――――――――――――― where X is Y (verb phrase) pron-noun X pron -Noun Y (verb phrase) It is X (single sentence) X of Y (noun phrase) ……… ……… ――――――――――――――――――――――― ―――――――――――

【0026】言語パターン検索部103は、例えば、英
語単語”of”からは言語パターン”X of Y”を
検索し、日本語単語「の」からは言語パターン「Xの
Y」を検索して出力する。
The language pattern search unit 103 searches for the language pattern “X of Y” from the English word “of”, and searches and outputs the language pattern “X of Y” from the Japanese word “no”, for example. I do.

【0027】さらに、言語パターン照合部104は、上
記言語パターン検索部103によって検索された複数の
言語パターンと上記入力文に含まれる表層語句とを、言
語的単位の比較的大きなものから比較的小さいものへの
順序で組み合わせ、その組み合わせたものと入力文とを
照合して一致した組み合わせに基づいて、当該入力文に
対する言語パターンと表層語句の組み合わせよりなる構
造候補を効率的に決定して最尤構造決定部105に出力
する。
Further, the language pattern matching unit 104 converts the plurality of language patterns retrieved by the language pattern retrieval unit 103 and the surface words contained in the input sentence from those having a relatively large linguistic unit to a relatively small one. Based on the combination that matches and matches the input sentence with the input sentence, and efficiently determines a structure candidate consisting of a combination of a language pattern and a surface phrase for the input sentence, and determines the maximum likelihood. Output to the structure determination unit 105.

【0028】言語パターン照合部104による言語パタ
ーン照合処理は、最も大きな言語的単位のものをから小
さな言語的単位のものへと言語パターンを入力文に照合
していくことを特徴としている。入力文のすべての部分
について照合が成功すれば、照合した言語パターンの組
み合わせ結果を入力文の構造候補と決定する。例えば、
日本語文「案内書を送ってください」の場合、照合可能
な言語パターンの中で最も言語的単位が大きな、単文単
位の言語パターン「X てください」をまず入力文全体
に照合する。次に、「X てください」の変項Xを具体
化する「案内書を送っ」に格関係単位の言語パターン
「XをY」を照合する。さらに、「XをY」の変項X、
Yにそれぞれ「案内書」「送っ」という表層語句が照合
して一致し、これによって、入力文が言語パターンの組
み合わせと完全に照合したことになる。その結果、入力
文に対する構造候補として「(((案内書)を(送
っ))てください)」が得られる。
The language pattern matching processing by the language pattern matching unit 104 is characterized in that a language pattern is matched with an input sentence from the largest linguistic unit to the smallest linguistic unit. If the matching is successful for all parts of the input sentence, the combination result of the checked language patterns is determined as a structure candidate of the input sentence. For example,
In the case of the Japanese sentence "Please send the guidebook", the single sentence-based language pattern "X te please" having the largest linguistic unit among the collatable language patterns is first collated with the entire input sentence. Next, the language pattern "X to Y" of the case relation unit is collated with "send a guidebook" which embodies the variable X of "X please". Further, a variable X of "X to Y",
The surface words “guide book” and “send” are matched and matched with Y, respectively, which means that the input sentence is completely matched with the combination of language patterns. As a result, "(((Guide) (send))") is obtained as a structure candidate for the input sentence.

【0029】さらに、最尤構造決定部105は、言語パ
ターン照合部104で得られた構造候補の中から、入力
文の各単語と言語パターンの用例単語との間の意味的距
離を求め、最も上記意味的距離の総和が小さいものを最
適の最尤構造と決定して出力する。この意味的距離の計
算方法としては、以下のように、公知の方法を用いる。
Further, the maximum likelihood structure determining unit 105 obtains a semantic distance between each word of the input sentence and the example word of the language pattern from among the structure candidates obtained by the language pattern matching unit 104, A structure having a small sum of the semantic distances is determined as an optimal maximum likelihood structure and output. As a method of calculating the semantic distance, a known method is used as follows.

【0030】言語パターンに関する意味的距離は、言語
パターンの各変項について、入力単語と用例単語の意味
的距離を計算し、計算された単語間の意味的距離に重み
を乗じて累積した値である。単語間の意味的距離は、単
語間の類語の概念階層における位置関係に依存して0か
ら1までの値を与える。2つの単語が全く同じ概念に属
していれば意味的距離は0であり、全く関係のない概念
であれば1となる。単語間の意味的距離は概念階層にお
ける位置を示した類語コードに基づいて計算される。こ
の類語コードは上述のように、形態素解析部101によ
って付加される。
The semantic distance related to the language pattern is a value obtained by calculating the semantic distance between the input word and the example word for each variable of the language pattern, and multiplying the calculated semantic distance between words by a weight. . The semantic distance between words gives a value from 0 to 1 depending on the positional relationship of synonyms between words in the concept hierarchy. If two words belong to exactly the same concept, the semantic distance is 0, and if the concept is completely unrelated, it is 1. The semantic distance between words is calculated based on a synonym code indicating a position in the concept hierarchy. This synonym code is added by the morphological analysis unit 101 as described above.

【0031】以下、単語間の意味的距離の計算方法の具
体例について説明する。言語パターンにおける入力単語
と用例単語との意味的距離計算は、変項を具体化する中
心単語について行う。言語パターン”X at Y”
(動詞句)は”leavesverb−propn K
yoto at eleven a.m.”と照合する
場合、変項X、Yを具体化する文字列は、それぞれ、”
leaves verb−propn Kyoto”
と”eleven a.m.”である。各言語パターン
には中心語句となるべき部分が指定されており、例え
ば、”X verb−propn Y”ではX、”X
a.m.”では”a.m.”と指定されている。従っ
て、”leaves verb−propn Kyot
o”と”eleven a.m.”の中心単語は”le
aves”と”a.m.”であり、”Xat Y”にお
ける意味的距離計算の入力となる。
Hereinafter, a specific example of a method of calculating the semantic distance between words will be described. The calculation of the semantic distance between the input word and the example word in the language pattern is performed for the central word that embodies the variable. Language pattern "X at Y"
(Verb phrase) is "leavesverb-propn K
yoto at eleven a. m. When matching with ", the character strings that embody the variables X and Y are
leaves verb-propn Kyoto ”
And "eleven am." In each language pattern, a part to be a central phrase is specified. For example, in "X verb-propn Y", X, "X
a. m. "In" a. m. Therefore, "leaves verb-propn Kyot
o "and" eleven a. m. The central word of "" is "le
aves "and" a. m. ", Which is an input for calculating the semantic distance in" Xat Y ".

【0032】言語パターン”X at Y”(動詞句)
は、変項X、Yを具体化する用例として、「X=pre
sent,Y=conference,」、「X=ar
rive,Y=p.m.」などを、例えば言語パターン
検索テーブルに予め記憶されていたとする。このとき、
入力単語(X=leaves Y=a.m.)と用例単
語(X=arrive Y=p.m.,)の距離は、変
項Xに関するleavesとarriveの距離を0.
33とし、変項Yに関するa.m.とp.m.の距離を
0.00とすれば、変項XとYの重みを一律に0.5と
すれば入力とこの用例の距離は0.33×0.5+0.
00×0.5=0.17と計算することができる。ここ
で、言語パターンの用例単語のすべてについて入力単語
との距離を計算し、最小の距離を、入力単語と用例単語
との距離とする。
Language pattern "X at Y" (verb phrase)
Is an example of embodying the variable terms X and Y as "X = pre
sent, Y = conference, "and" X = ar
live, Y = p. m. "Are stored in advance in, for example, a language pattern search table. At this time,
The distance between the input word (X = leaves Y = am.) And the example word (X = arrive Y = pm.) Is determined by setting the distance between leaves and arrive regarding the variable X to 0.
33, and a. m. And p. m. Assuming that the distance between the input and the variable is 0.00, the distance between the input and this example is 0.33 × 0.5 + 0.
00 × 0.5 = 0.17 can be calculated. Here, the distance between the input word and all the example words of the language pattern is calculated, and the minimum distance is set as the distance between the input word and the example word.

【0033】構造解析処理部2の解析の結果得られた最
尤構造を以降の処理における入力解析木とする。解析木
は、入力文の単語列に対して、構造解析の際に照合され
た言語パターン及びその属性値、計算された意味的距離
が添付され、言語パターンによる係り受けをノードと
し、単語を終端記号に持つ木構造を有する。
The maximum likelihood structure obtained as a result of the analysis by the structural analysis processing unit 2 is used as an input analysis tree in the subsequent processing. The parse tree is attached to the word sequence of the input sentence, with the language pattern matched at the time of the structural analysis, its attribute value, and the calculated semantic distance attached. The dependency by the language pattern is set as a node, and the word ends. It has a tree structure for symbols.

【0034】入力解析木修復判断部3は、構造解析処理
部2より得られた入力解析木データに対して、解析木修
復処理を適用するかどうかを判断する。具体的には、入
力解析木の意味的距離の総和に対して所定のしきい値を
予め設定し、このしきい値よりも意味的距離の総和が大
きい(すなわち、意味的に離れている)入力解析木に対
して解析木修復処理が必要と判断し、意味的距離の総和
が小さい(すなわち、意味的に近接している)入力解析
木に対しては不要と判断する。ここで、解析木修復処理
が必要と判断した場合、入力解析木は解析木修復処理部
4及び入力部分木及び用例部分木照合処理部7に出力さ
れ、不要と判断した場合、当該音声認識誤り訂正装置の
全処理を終了し、入力解析木をそのまま最終的な出力と
して出力する。
The input parse tree restoration judging section 3 judges whether or not to apply the analytic tree restoration process to the input parse tree data obtained from the structural analysis processing section 2. Specifically, a predetermined threshold value is set in advance for the sum of the semantic distances of the input parse tree, and the sum of the semantic distances is larger than this threshold value (that is, the sum is semantically distant). The analytic tree restoration process is determined to be necessary for the input parse tree, and the analytic tree restoration process is determined to be unnecessary for the input parse tree whose sum of semantic distances is small (ie, semantically close). Here, when it is determined that the parse tree restoration process is necessary, the input parse tree is output to the parse tree restoration processor 4 and the input subtree and example subtree collation processor 7, and when it is determined that the parse tree is unnecessary, the speech recognition error is determined. The entire processing of the correction device is completed, and the input parse tree is output as it is as a final output.

【0035】一方、用例文データメモリ21は、音声認
識誤りを含まない、入力文の言語と同じ所定の言語の自
然言語文集合(テキストデータ)を用例文集合として格
納する。構造解析処理部10は、構造解析処理部2と同
様の図2の構成を有し、図2の構造解析処理により、用
例文データメモリ21内の用例文データ中の各用例文に
対して構造解析処理を行い、その解析の結果得られた最
尤構造を以降の処理における用例解析木とする。この用
例解析木は、入力解析木と同様に、入力文の単語列に対
して、構造解析の際に照合された言語パターン及びその
属性値、計算された意味的距離が添付され、言語パター
ンによる係り受けをノードとし、単語を終端記号に持つ
木構造を有する。すなわち、構造解析処理部10から用
例解析木が出力されて用例解析木データメモリ22に格
納される。
On the other hand, the example sentence data memory 21 stores, as an example sentence set, a natural language sentence set (text data) of a predetermined language that is the same as the language of the input sentence and does not include a speech recognition error. The structure analysis processing unit 10 has the same configuration as that of the structure analysis processing unit 2 in FIG. 2, and performs a structure for each example sentence in the example sentence data in the example sentence data memory 21 by the structure analysis processing in FIG. The analysis processing is performed, and the maximum likelihood structure obtained as a result of the analysis is used as an example analysis tree in the subsequent processing. This example parse tree, like the input parse tree, attaches to the word string of the input sentence the language pattern matched at the time of structural analysis, its attribute value, and the calculated semantic distance, and It has a tree structure with dependency as nodes and words as terminal symbols. That is, the example analysis tree is output from the structural analysis processing unit 10 and stored in the example analysis tree data memory 22.

【0036】入力部分木及び用例部分木照合処理部7に
は、上述のように、入力解析木修復判断部3において解
析木修復処理が必要と判断した場合に入力解析木が入力
される。ここで、解析木は、文の単語列に対して、構造
解析の際に照合された言語パターン及びその属性値、計
算された意味的距離が添付され、言語パターンによる係
り受けをノードとし、単語を終端記号に持つ木構造をな
す。解析木には、解析木中の各ノードを頂点とし、終端
記号を下位構造(底辺)に持つような部分構造、すまわ
ち閉じた部分木が含まれる。従って、解析木がそれ自身
の頂点を含めてN個のノードを持つ場合、解析木に含ま
れる閉じた部分木の数もNである。ここで部分木には解
析木全体自身も含まれる。入力部分木及び用例部分木照
合処理部7は、このように定義される部分木を、入力解
析木と、用例解析木データメモリ22中の用例解析木と
からそれぞれマッチングするものを取り出し、入力解析
木の部分木と用例解析木の部分木とのすべての可能な組
み合わせを生成して、これを入力部分木と用例部分木と
の対として部分木音素列変換処理部8に出力する。ここ
で、マッチングする部分木を取り出すためには、例え
ば、音韻的距離が所定のしきい値以下のものを検索して
抽出する。
As described above, the input parse tree is input to the input subtree and example subtree collation processing unit 7 when the input parse tree restoration determination unit 3 determines that the parse tree restoration process is necessary. Here, the parse tree is attached to the word string of the sentence, with the language pattern collated at the time of the structural analysis, its attribute value, and the calculated semantic distance. Has a terminal structure of a tree structure. The analytic tree includes a substructure in which each node in the analytic tree is a vertex and has a terminal symbol in a lower structure (base), that is, a closed subtree. Therefore, if the parse tree has N nodes including its own vertices, the number of closed subtrees included in the parse tree is also N. Here, the partial tree includes the entire parse tree itself. The input subtree and example subtree matching processing unit 7 fetches, from the input parse tree and the example parse tree in the example parse tree data memory 22, matching subtrees defined in this way, and performs input analysis. All possible combinations of the tree subtree and the example analysis tree subtree are generated and output to the subtree phoneme sequence conversion processing unit 8 as pairs of the input subtree and the example subtree. Here, in order to extract a matching subtree, for example, a subtree whose phonological distance is equal to or smaller than a predetermined threshold is searched for and extracted.

【0037】部分木音素列変換処理部8には単語音素変
換辞書メモリ23が接続され、単語音素変換辞書メモリ
23は、単語列から音素列に変換するためのそれらの対
の複数のデータが格納される。部分木音素列変換処理部
8は、入力部分木及び用例部分木照合処理部7から出力
された入力部分木と用例部分木との対から、単語音素変
換辞書メモリ23内の単語音素変換辞書を参照して、対
応する音素列の対を生成する。ここで、各部分木に対す
る音素列は、部分木から終端記号の単語列を取り出し、
単語列を単語音素変換辞書メモリ23を用いて音素列に
変換することにより得られる。この方法により、部分木
対をなしている入力解析木と用例解析木のそれぞれの部
分木の組み合わせに対する音素列を求め、それらの組を
入力部分木と用例部分木の音素列の対として音韻的距離
計算処理部9に出力する。本実施形態では、入力解析木
の部分木を入力部分木といい、用例解析木の部分木を用
例部分木という。
A word phoneme conversion dictionary memory 23 is connected to the partial tree phoneme string conversion processing section 8, and the word phoneme conversion dictionary memory 23 stores a plurality of data of those pairs for converting a word string into a phoneme string. Is done. The subtree phoneme string conversion processing unit 8 converts the word phoneme conversion dictionary in the word phoneme conversion dictionary memory 23 from the pair of the input subtree and the example subtree output from the input subtree and the example subtree matching processing unit 7. By reference, a corresponding pair of phoneme strings is generated. Here, the phoneme sequence for each subtree is obtained by extracting the word sequence of the terminal symbol from the subtree,
It is obtained by converting a word string into a phoneme string using the word phoneme conversion dictionary memory 23. According to this method, a phoneme sequence for each combination of subtrees of an input parse tree and an example analytic tree forming a subtree pair is obtained, and the pair is phonologically defined as a pair of a phoneme sequence of the input subtree and the example subtree. Output to the distance calculation processing unit 9. In the present embodiment, a subtree of the input parse tree is called an input subtree, and a subtree of the example analytic tree is called an example subtree.

【0038】音韻的距離計算処理部9では、部分木音素
列変換処理部8より得られた入力部分木と用例部分木の
音素列の対に対して、用例部分木の音素列の、入力部分
木の音素列に対する音韻的距離を計算し、音韻的距離が
所定のしきい値以下(すなわち、音韻的に近接又は類似
している。)の入力部分木と用例部分木との対とその音
韻的距離を音韻的類似部分木バッファメモリ24に出力
する。ここで、音韻的類似部分木バッファメモリ24で
は、音韻的距離計算処理部9より得られた入力部分木と
用例部分木との対にその音韻的距離を付与して格納す
る。
The phonological distance calculation processing unit 9 compares a pair of the input subtree and the example subtree obtained by the subtree phoneme string conversion processing unit 8 with the input part of the phoneme sequence of the example subtree. A phonological distance to a phoneme sequence of the tree is calculated, and a pair of an input subtree and an example subtree whose phonological distance is equal to or less than a predetermined threshold value (that is, phonologically close or similar), and the phonology thereof. The target distance is output to the phonologically similar subtree buffer memory 24. Here, in the phonologically similar subtree buffer memory 24, the phonological distance is given to a pair of the input subtree and the example subtree obtained by the phonological distance calculation processing unit 9 and stored.

【0039】解析木修復処理部4には、上述のように、
入力解析木修復判断部3において解析木修復処理が必要
と判断した場合に入力解析木が入力される。解析木修復
処理部4は、音韻的類似部分木バッファメモリ24中の
各入力部分木と用例部分木との対に対して入力解析木の
修復を行う。ここで、まず、入力部分木を入力解析木に
照合し、その部分木の頂点ノードと一致する入力解析木
のノードを特定し、つづいてこのノードの下位構造すべ
てを用例部分木に置換することにより、入力部分木と用
例部分木との対に対する修復解析木を得る。ここで、入
力文に対して音韻的類似部分木バッファメモリ24中に
入力部分木と用例部分木との対が存在しない場合は、入
力解析木修復判断部3において、解析木修復処理が不要
と判断された場合と同様に、当該音声認識誤り訂正装置
の全処理を終了し、入力解析木をそのまま最終的な出力
として出力する。
As described above, the analytic tree restoration processing unit 4
When the input parse tree restoration determining unit 3 determines that the parse tree restoration process is necessary, the input parse tree is input. The parse tree restoration processing unit 4 restores the input parse tree for each pair of the input subtree and the example subtree in the phonologically similar subtree buffer memory 24. Here, first, the input subtree is compared with the input parse tree, the node of the input parse tree that matches the vertex node of the subtree is identified, and then all substructures of this node are replaced with the example subtree. As a result, a restoration analysis tree for the pair of the input subtree and the example subtree is obtained. If there is no pair of the input subtree and the example subtree in the phonologically similar subtree buffer memory 24 for the input sentence, the input parse tree repair determination unit 3 determines that the parse tree repair processing is unnecessary. As in the case where it is determined, the entire process of the speech recognition error correction device is terminated, and the input parse tree is output as it is as a final output.

【0040】意味的距離計算処理部5は、解析木修復処
理部4より得られる各修復解析木に対して意味的距離の
再計算を行う。ここで、意味的距離が再計算された修復
解析木に対して、意味的距離の総和が所定のしきい値以
下の修復解析木のみを訂正解析木として出力する。ここ
で、しきい値としては、入力解析木修復判断部3におい
て解析木修復処理の必要性を判断するのに用いたしきい
値と同じ値を用いる。さらに、訂正解析木出力部6は、
意味的距離計算処理部5より得られる訂正解析木のう
ち、音韻的距離が最小の訂正解析木を出力解析木として
音声認識結果とともに出力する。
The semantic distance calculation processing unit 5 recalculates the semantic distance for each repair parse tree obtained from the analytic tree repair processing unit 4. Here, for the repair analytic tree whose semantic distance has been recalculated, only the repair analytic tree whose sum of the semantic distances is equal to or less than a predetermined threshold is output as a correction analytic tree. Here, as the threshold value, the same value as the threshold value used for determining the necessity of the parse tree restoration process in the input parse tree restoration determination unit 3 is used. Further, the correction parse tree output unit 6
Among the correction analysis trees obtained from the semantic distance calculation processing unit 5, the correction analysis tree having the minimum phonological distance is output as an output analysis tree together with the speech recognition result.

【0041】図3は、図1における音声認識誤り訂正処
理の全体の処理の流れを示すフローチャートである。
FIG. 3 is a flowchart showing the overall processing flow of the speech recognition error correction processing in FIG.

【0042】図3において、まず、ステップS1で音声
入力文の音声認識処理を行った後、ステップS2で音声
認識結果の構造解析を行って入力解析木を出力する。次
いで、ステップS3で入力解析木の意味的距離の値をし
きい値と比較し、ステップS4で意味的距離がしきい値
よりも大きな値であるか否かが判断され、NOのときは
ステップS11に進んで入力文の解析木を出力する一
方、YESのときはステップS5で入力部分木と用例部
分木との照合及び音韻的距離の計算を行い、しきい値以
下の距離を有する音韻的類似部分木を出力して、ステッ
プS6で音韻的類似部分木の候補が得られたか否かが判
断され、NOのときはステップS11に進む一方、YE
SのときはステップS7に進む。
In FIG. 3, first, in step S1, speech recognition processing of a speech input sentence is performed, and then in step S2, the structure of the speech recognition result is analyzed, and an input analysis tree is output. Next, in step S3, the value of the semantic distance of the input parse tree is compared with a threshold value. In step S4, it is determined whether or not the semantic distance is a value larger than the threshold value. Proceeding to S11, the parse tree of the input sentence is output. On the other hand, if YES, the matching between the input subtree and the example subtree and the calculation of the phonological distance are performed in step S5, and the phonological distance having a distance equal to or smaller than the threshold value is calculated. A similar subtree is output, and it is determined in step S6 whether a phonologically similar subtree candidate has been obtained. If NO, the process proceeds to step S11, while the YE
In the case of S, the process proceeds to step S7.

【0043】ステップS7では、入力解析木の音韻的類
似部分木の部分を用例部分木に置換し、入力解析木の修
復を行う。次いで、修復した入力解析木の意味的距離を
再計算し、しきい値以下の意味的距離を有する解析木の
みを訂正解析木として出力する。ステップS9で訂正解
析木の候補が得られたか否かが判断され、NOのときは
ステップS11に進む一方、YESのときはステップS
10では、訂正解析木の候補のうち、音韻的距離が最小
の解析木を出力して、当該音声認識誤り訂正処理を終了
する。
In step S7, the phonologically similar subtree of the input parse tree is replaced with an example subtree, and the input parse tree is restored. Next, the semantic distance of the restored input analytic tree is recalculated, and only the analytic tree having the semantic distance equal to or less than the threshold is output as the corrected analytic tree. It is determined in step S9 whether a candidate for a correction analysis tree has been obtained. If NO, the process proceeds to step S11. If YES, the process proceeds to step S11.
In step 10, among the candidates for the correction analysis tree, the analysis tree having the minimum phonological distance is output, and the speech recognition error correction processing ends.

【0044】次いで、構造解析処理と意味的距離につい
て説明する。本実施形態では、構造解析処理部2,10
として、上述の従来技術のCBパーザを用いている。C
Bパーザは、入力文に対して依存関係を適用し、ボトム
アップに解析木を作成する。解析木の意味的距離は、用
例解析木と入力解析木との間の意味的な近さから計算さ
れる。意味的距離の値が小さければ依存関係の妥当性の
信頼性が高いと見なせる。図1の入力解析木修復判断部
3による訂正必要性判断と、意味的距離計算処理部5に
よる訂正による構造回復判断において意味的距離に対す
る共通のしきい値を設定し、解析木の意味的距離に基づ
いて入力の訂正必要性や訂正の妥当性を判断する。
Next, the structure analysis processing and the semantic distance will be described. In the present embodiment, the structural analysis processing units 2 and 10
Uses the above-mentioned conventional CB parser. C
The B parser applies a dependency relationship to an input sentence and creates a parse tree from the bottom up. The semantic distance of the parse tree is calculated from the semantic closeness between the example parse tree and the input parse tree. The smaller the value of the semantic distance, the higher the reliability of the validity of the dependency. A common threshold value for the semantic distance is set in the correction necessity determination by the input parse tree repair determination unit 3 and the structural recovery determination by the correction by the semantic distance calculation processing unit 5 in FIG. The necessity of input correction and the validity of correction are determined based on the information.

【0045】さらに、検索処理と音韻的距離について説
明する。入力部分木及び用例部分木照合処理部7による
構造検索処理では、入力の解析木の各部分木に対し音韻
的に近い形態素列を持つ部分木を検索する。そして、部
分木音素列変換処理部8において、入力解析木の部分構
造とデータベース中の用例の部分木の形態素列をそれぞ
れ音素列に変換し、次いで、音韻的距離計算処理部9に
おいて、用例の音素列の入力音素列に対する編集距離を
音韻的距離として計算し、続く検索処理では、この音韻
的距離に対してしきい値を設定し、これより小さな音韻
的距離を持つ部分木を検索する。ここで、編集距離と
は、公知の通り、入力音素列に対して、用例の音素列を
得るために、音素を削除、挿入又は置換する操作を行う
ときの処理操作の数の和をいう。また、訂正解析木出力
部6における出力では、音韻的距離が最小の訂正候補を
訂正結果として出力する。
Further, the search processing and the phonological distance will be described. In the structure search processing by the input subtree and example subtree matching processing unit 7, a subtree having a morphological sequence phonetically close to each subtree of the input parse tree is searched. Then, the subtree phoneme sequence conversion processing unit 8 converts the partial structure of the input analytic tree and the morphological sequence of the subtree of the example in the database into phoneme sequences, respectively. The edit distance of the phoneme sequence with respect to the input phoneme sequence is calculated as a phonological distance, and in the subsequent search processing, a threshold value is set for the phonological distance, and a subtree having a smaller phonological distance is searched. Here, as is well known, the edit distance refers to the sum of the number of processing operations when deleting, inserting, or replacing phonemes in order to obtain an example phoneme sequence for an input phoneme sequence. In the output of the correction parse tree output unit 6, a correction candidate having the minimum phonological distance is output as a correction result.

【0046】以上の実施形態において、音声認識処理部
1と、構造解析処理部2と、入力解析木修復判断部3
と、解析木修復処理部4と、意味的距離計算処理部5
と、訂正解析木出力部6と、入力部分木及び用例部分木
照合処理部7と、部分木音素列変換処理部8と、音韻的
距離計算処理部9と、構造解析処理部10とは、例えば
デジタル計算機などの中央演算処理装置で構成され、ま
た、用例解析木データメモリ21と、用例解析木データ
メモリ22と、単語音素変換辞書メモリ23と、音韻的
類似部分木バッファメモリ24とは、例えば、ハードデ
ィスクメモリなどの記憶装置で構成される。
In the above embodiment, the speech recognition processing unit 1, the structure analysis processing unit 2, and the input parse tree restoration determination unit 3
Analytic tree restoration processing unit 4 and semantic distance calculation processing unit 5
A correction parse tree output unit 6, an input subtree and example subtree collation processing unit 7, a subtree phoneme sequence conversion processing unit 8, a phonological distance calculation processing unit 9, and a structural analysis processing unit 10. The example analysis tree data memory 21, the example analysis tree data memory 22, the word phoneme conversion dictionary memory 23, and the phonologically similar subtree buffer memory 24 are configured by a central processing unit such as a digital computer. For example, it is configured by a storage device such as a hard disk memory.

【0047】以上の実施形態において、形態素解析辞書
メモリ111に類語コードの情報を含ませているが、本
発明はこれに限らず、最尤構造決定部105に接続され
るメモリに、入力された単語と類語コードとの間の関係
を記述した類語情報を記憶するように構成してもよい。
In the above embodiment, the morphological analysis dictionary memory 111 includes synonym code information. However, the present invention is not limited to this. It may be configured to store synonym information describing a relationship between a word and a synonym code.

【0048】以上の実施形態においては、日本語と英語
に関する処理を例示しているが、本発明はこれらの言語
に限らず、他の種々の自然言語に適用することができ
る。
In the above embodiment, processing relating to Japanese and English is illustrated, but the present invention is not limited to these languages, and can be applied to various other natural languages.

【0049】[0049]

【実施例】以下、図1を参照して、本実施例の音声認識
誤り訂正装置の各部の処理の一例について説明する。ま
ず、自然言語文の発声音声がマイクロホン30によって
音声信号に変換された後、音声認識処理部1に入力さ
れ、音声認識処理部1は入力された自然言語文の音声信
号を単語の出現形によって音声認識する。ここで、単語
の出現形とは、ある自然言語文に対して、単語の分割を
した際に得られる、単語の活用による語尾変化や表記の
ゆれなどを含んだ単語の形態である。これに対して、構
造解析処理部2は、入力文に対して一旦出現形から活用
による語尾変化や表記のゆれなどを含まない標準形に変
換し、その後言語パターンの照合を行う。表8に音声認
識処理部1の出力の具体例を示す。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, an example of processing of each section of the speech recognition error correction apparatus according to the present embodiment will be described with reference to FIG. First, after the uttered voice of a natural language sentence is converted into a voice signal by the microphone 30, the voice signal is input to the voice recognition processing unit 1, and the voice recognition processing unit 1 converts the input voice signal of the natural language sentence into an appearance form of a word. Recognize voice. Here, the appearance form of a word is a form of a word that is obtained when a certain natural language sentence is divided into words and that includes an inflection and a sway in notation due to the use of words. On the other hand, the structural analysis processing unit 2 once converts the input sentence from the appearance form to a standard form that does not include the inflection or the sway of the notation due to the use, and then compares the language pattern. Table 8 shows a specific example of the output of the speech recognition processing unit 1.

【0050】[0050]

【表8】 ―――――――――――――――――――――――――――――――――― ORDER=1 ―――――――――――――――――――――――――――――――――― WORDS=UTT−START/そうですねー/六+時/ぐらい/が/到着/ できる/と+思い+ます/UTT−END ―――――――――――――――――――――――――――――――――― wordids=5/20061/10046+10203/10344/10 104/10053/10589/10009+10090+10011/6 ―――――――――――――――――――――――――――――――――― vars=1/1/1/1/1/1/1/1/1 ―――――――――――――――――――――――――――――――――― divs=−/s+o+o+d+e+s+u+n+e+e+−/r+o+k+u +zh+i/g+u+r+a+i/g+a+−/t+o+o+ch+j+a+k +u/d+e+k+i+r+u/t+o+o+m+o+i+m+a+s+u+− /− ―――――――――――――――――――――――――――――――――― times=0.000000/0.190000/2.280000/2.7 00000/3.080000/3.560000/3.910000/4.2 00000/5.210000 ―――――――――――――――――――――――――――――――――― score=−11889182.000000 ―――――――――――――――――――――――――――――――――― acoustic=−6576182.000000 ―――――――――――――――――――――――――――――――――― ngram=−5313000.000000 ――――――――――――――――――――――――――――――――――[Table 8] ―――――――――――――――――――――――――――――――― ORDER = 1 ――――――――― ――――――――――――――――――――――――― WORDS = UTT-START / That ’s right / Six + hours / About / Arrive / Available / I think + Masu / UTT-END ―――――――――――――――――――――――――――――――― wordsids = 5/20061/10046 + 10203/10344 / 10 104/10053/10589/10009 + 10090 + 10011/6 ―――――――――――――――――――――――――――――――― vars = 1/1 / 1/1/1/1/1/1/1 ―――――――――――――――――――――――――――――――――― ivs =-/ s + o + o + d + e + s + u + n + e + e +-/ r + o + k + u + zh + i / g + u + r + a + i / g + a +-/ t + o + o + ch + j + a + k + u / d + e + k + i + r + u + t--o + o + m ―――――――― times = 0.000000 / 0.190000 / 2.2800000 / 2.700000 / 3.0800000 / 3.5600000 / 3.910000 / 4.2.200000 / 5.2100000 ――― ――――――――――――――――――――――――――――――― score = -11881822.000000 ―――――――――――――― ――――――――――――――――――――― acoustic =- 65761822.0000000 ―――――――――――――――――――――――――――――― ngram = −533000.000000 ―――――――― ―――――――――――――――――――――――――――

【0051】次に、構文解析処理部2では、音声認識処
理部1の出力に対して上述のCBパーザを用いて、その
言語の依存構造の解析結果を解析木データとして出力す
る。表9に構文解析処理部2の出力結果を示す。
Next, the syntax analysis processing unit 2 outputs the analysis result of the language dependent structure to the output of the speech recognition processing unit 1 as parse tree data using the above-mentioned CB parser. Table 9 shows the output result of the syntax analysis processing unit 2.

【0052】[0052]

【表9】 ―――――――――――――――――――――――――――――――――― UTTERANCE=62 ―――――――――――――――――――――――――――――――――― (:S−SENT 62 ”和室の方ですと一万八千円いずれの戦サービス料 は別になります” :TAGGED−LIST (”和室|ワシツ|和室|普通名詞||” ” の |ノ|の|連体助詞||” ”方|ホウ|方|普通名詞||” ”です|デス| で す|判定詞|特殊サ|基本” ”と|ト|と|接続助詞||” ”一|イチ |一|数詞||” ”万|マン|万|数詞||” ”八|ハッ|八|数詞||” ”千|セン|千|数詞||” ”円|エン|円|普通名詞||” ”いずれ| イズレ|いずれ|代名詞||” ”の|ノ|の|連体助詞||” ”戦|セン| 戦|普通名詞||” ”サービス料|サービスリョウ|サービス料|普通名詞| |” ”は|ハ|は|係助詞||” ” 別|ベツ|別|形容名詞||” ”に |ニ|に|格助詞||” ”なり|ナリ|なる| 本動詞|五段ラ|連用” ” ます|マス|ます|助動詞|特殊サ|基本”)) ―――――――――――――――――――――――――――――――――― (:S−TREE 62 (((0 16) (:PATTERN MARKE R−CN−PRON−SS :FORM (?X <CN−PRON> ?Y) :HEAD ((:WORD ”別” :REG−EXP ”別” :POS 形容名詞 :ATTRIBUTE NIL :SEM−CODE (415 182 101) :COMPOUND NIL) (:WORD ”になる” :REG−EXP ”になる” :POS 助動詞 :ATTRIBUTE ((:CONJ−FORM . 連用)) :SEM−CODE NIL :C OMPOUND NIL)) :DISTANCE 0.0 :TOTAL−D ISTANCE 1.3000233 :SUBSTRUCTURES ((? X (:PATTERN CONJ−DESUTO−NP :FORM (?X ”です” ”と” ?Y) :HEAD ((:WORD ”18000円” :REG−EXP ”N円” :POS 普通名詞 :ATTRIBUTE NIL :SEM−CODE (828 121) :COMPOUND (( :WORD ”18000” :REG−EXP ”00” :POS 数詞 :ATTRIBUTE NIL :SEM−CODE (120) :COM POUND NIL) (:WORD ”円” :REG−EXP ”円” : POS 普通名詞 :ATTRIBUTE NIL :SEM−CODE NI L :COMPOUND NIL)))) :DISTANCE 0.0 :T OTAL−DISTANCE 0.0 :SUBSTRUCTURES ((? X (:PATTERN SETSUBI−NOHOU−KANJI :FOR M (?X ”の” ”方”) :HEAD ((:WORD ”和室” :R EG−TE NIL :SEM−CODE (941) :COMPOUND NIL)) :DISTANCE 0.0 :TOTAL−DISTANCE 0.0 :SUBSTR ―――――――――――――――――――――――――――――――――― <以下省略> ――――――――――――――――――――――――――――――――――[Table 9] ―――――――――――――――――――――――――――――――――― UTTERANCE = 62 ――――――――― ――――――――――――――――――――――――― (: S-SENT 62 ”If you are in a Japanese room, the service fee of 188,000 yen will be different : ”: TAGGED-LIST (“ Japanese-style room | Washitsu | Japanese-style room | Normal noun || ”” | No || Conjunctive particle || ”” Ho | Ho | | Judgment | special | basic "" and | g | and | connected particle || "" one | ichi | one | numeral || "" million | man | million | numeral || "" 8 | ”| Thousand | sen | thousand | number | |“ ”circle | en | yen | common noun | |“ ”any | islet | any | pronoun | | "War | | war | ordinary noun || ”” service charge | service fee | service charge | ordinary noun | | ”| ha | is | adjunctive ||” ”another | betsu | another | adjective | Ni | ni | case particle | | "” nar | nari | nar | main verb | five-stage la | continuous use ”mas | mass | mas | auxiliary verb | special sa | basic”)) ――――――――― ――――――――――――――――――――――――― (: S-TREE 62 (((0 16) (: PATTERN MARKER R-CN-PRON-SS: FORM) (? X <CN-PRON>? Y): HEAD ((: WORD "different": REG-EXP "different": POS adjective noun: ATTRIBUTE NIL: SEM-CODE (415 182 101): COMPOUND NIL) (: WORD "Becomes": REG-EX "Become": POS auxiliary verb: ATTRIBUTE ((: CONJ-FORM. Continuous use)): SEM-CODE NIL: COMPOUND NIL): DISTANCE 0.0: TOTAL-D ISTANCE 1.30000233: SUBSTRACT (SSUBSTRACTX) : PATTERN CONJ-DESUTO-NP: FORM (? X "is" and "? Y): HEAD ((: WORD" 18000 yen ": REG-EXP" N yen ": POS Common noun: ATTRIBUTE NIL: SEM-CODE (828 121): COMPOUND ((: WORD "18000": REG-EXP "00": POS Numeral: ATTRIBUTE NIL: SEM-CODE (120): COM POUND NIL) (: W RD "circle": REG-EXP "circle": POS common noun: ATTRIBUTE NIL: SEM-CODE NI L: COMPOUND NIL)))): DISTANCE 0.0: T OTAL-DISTANCE 0.0: SUBSTRUCTURES ((? X (: PATTERN SETSUBI-NOHOU-KANJI: FORM ("" "of? X")): HEAD ((: WORD "Japanese-style room": REG-TENIL: SEM-CODE (941): COMPOUND NIL)): DISTANCE 0.0: TOTAL-DISTANCE 0.0: SUBSTR ―――――――――――――――――――――――――――――――――― > ――――――――――――――――――――――――――――――――――

【0053】この入力の解析木データは入力解析木修復
判断部3に出力される。ここで、入力の解析木の意味的
距離の値がしきい値より小さい場合、以降の訂正処理を
中断して入力の解析木をそのまま出力し、処理を終了す
る。意味的距離の値がしきい値より大きい場合、入力部
分木及び用例部分木照合処理部7において、入力解析木
と用例解析木の部分木に関する照合を行なう。
The input parse tree data is output to the input parse tree restoration determining unit 3. Here, if the value of the semantic distance of the input parse tree is smaller than the threshold, the subsequent correction processing is interrupted, the input parse tree is output as it is, and the processing is terminated. If the value of the semantic distance is larger than the threshold value, the input subtree / example subtree matching processing unit 7 performs collation on the input analysis tree and the example analysis tree subtree.

【0054】表9の例では、意味的距離の値が1.30
00233であるため、ここでしきい値を0.3とする
と部分木照合を行うということになる。ここで、用例解
析木データメモリ22は、予め用例文データメモリ21
中の用例文から、構文解析処理部10を用いて生成され
たものである。表10に用例文データメモリ21中のデ
ータ例を示す。
In the example of Table 9, the value of the semantic distance is 1.30.
Since it is 00233, if the threshold is set to 0.3 here, it means that subtree matching is performed. Here, the example parse tree data memory 22 stores the example sentence data memory 21 in advance.
It is generated from the example sentence inside using the syntax analysis processing unit 10. Table 10 shows data examples in the example sentence data memory 21.

【0055】[0055]

【表10】 ―――――――――――――――――――――――――――――――――― 140|0150|630|1790|どちら|ドチラ|どちら|代名詞||| | ―――――――――――――――――――――――――――――――――― 140|0150|630|1800|も|モ|も|係助詞|||| ―――――――――――――――――――――――――――――――――― 140|0150|640|1810|税|ゼイ|税|普通名詞|||| ―――――――――――――――――――――――――――――――――― 140|0150|650|1820|サービス料|サービスリョウ|サービス 料|普通名詞|||| ―――――――――――――――――――――――――――――――――― 140|0150|650|1830|は|ハ|は|係助詞|||| ―――――――――――――――――――――――――――――――――― 140|0150|660|1840|別途|ベット|別途|副詞|||| ―――――――――――――――――――――――――――――――――― 140|0150|670|1850|ちょうだい|チョウダイ|ちょうだい| サ変名詞|||| ―――――――――――――――――――――――――――――――――― 140|0150|670|1860|いたし|イタシ|いたす|補助動詞|五 段サ|連用|| ―――――――――――――――――――――――――――――――――― 140|0150|670|1870|ます|マス|ます|助動詞|特殊サ|基 本|| ―――――――――――――――――――――――――――――――――― 140|0150|670|1880|。||。|記号|||| ――――――――――――――――――――――――――――――――――[Table 10] ―――――――――――――――――――――――――――――――― 140 | 0150 | 630 | 1790 | Which | Both | Pronouns | | | | ―――――――――――――――――――――――――――――――――― 140 | 0150 | 630 | 1800 | | Mo | mo | particles |||| ―――――――――――――――――――――――――――――――――― 140 | 0150 | 640 | 1810 | Tax | Zee | Tax | Normal noun |||| ―――――――――――――――――――――――――――――――――― 140 | 0150 | 650 | 1820 | Service charge | Service charge | Service charge | Common noun |||| ―――――――――――――――――――――――――――― ―――――― 140 | 015 | 650 | 1830 | is | c | is | particle || | | ----------------------------------------------------------------------------------------- ― 140 | 0150 | 660 | 1840 | Separate | Bet | Separate | Adverb |||| ―――――――――――――――――――――――――――――― ―――― 140 | 0150 | 670 | 1850 | Give me | Butterfly | Give me | Sa noun |||| ―――――――――――――――――――――――――― ―――――――― 140 | 0150 | 670 | 1860 | Ishii | Itashi | Auxiliary verb | Five-dan | Continuous || ―――――――――――――――――― ―――――――――――――――― 140 | 0150 | 670 | 1870 | Mas | Mas | Mas | Auxiliary verb | Special | Basic || ――――――――― ------------------------ 140 | 0150 | 670 | 1880 |. || │symbol |||| ――――――――――――――――――――――――――――――――――

【0056】また、用例解析木データメモリ22中のデ
ータは、音声認識処理部1の出力の依存構造解析に用い
られた構文解析処理部2と全く同じ構造解析処理を用い
ているため、その結果得られる解析木データは表9と同
じフォーマットになっている。表11に用例解析木デー
タメモリ22中のデータ例を示す。
The data in the example parse tree data memory 22 uses exactly the same structure analysis processing as the syntax analysis processing unit 2 used for the dependency structure analysis of the output of the speech recognition processing unit 1. The obtained parse tree data has the same format as in Table 9. Table 11 shows an example of data in the example analysis tree data memory 22.

【0057】[0057]

【表11】 ―――――――――――――――――――――――――――――――――― (:S−SENT 1 ”ありがとうございますニューヨークシティホテルでご ざいます”) ―――――――――――――――――――――――――――――――――― (:S−TREE 1 (((0 4) (:PATTERN MARKER− INTERJ−IS :FORM (?X <INTERJ−> ?Y) :H EAD ((:WORD ”ニューヨークシティホテル” :REG−EXP ”ニューヨークシテ ーホテル” :POS 普通名詞 :ATTRIBUTE NIL :SEM−CODE (729) :COMPOUND NIL)) :DISTANCE 1.0e−5 :TOTAL−DISTANCE 1. 0e−5 :SUBSTRUCTURES ((?X (:PATTERN : STRING :FORM ((:WORD ”ありがとうございます” :R EG−EXP ”ありがとうござい ます” :POS 感動詞 :ATTRI BUTE NIL :SEM−CODE (696 476) :COMPOU ND NIL)) :HEAD (:WORD ”ありがとうございます” : REG−EXP ”ありがとうございます” :POS 感動詞 :ATTRI BUTE NIL :SEM−CODE (696 476) :COMPOU ND NIL) :DISTANCE 0.0 :TOTAL−DISTANC E 0.0 :SUBSTRUCTURES NIL)) (?Y (:PAT TERN DEGOZAIMASU :FORM (?X ” でございます” ) :HEAD ((:WORD ”ニューヨークシティホテル” :REG− EXP ”ニューヨークシティーホテル” :POS 普通名詞 :ATTRI BUTE NIL :SEM−CODE (729) :COMPOUND N IL)) :DISTANCE 0.0 :TOTAL−DISTANCE 0 .0 :SUBSTRUCTURES ((?X (:PATTERN :ST RING :FORM ((:WORD ”ニューヨークシティホテル” :R EG−EXP ”ニューヨークシティーホテル” :POS 普通名詞 :AT TRIBUTE NIL :SEM−CODE (729) :COMPOUN D NIL)) :HEAD (:WORD ”ニューヨークシティホテ ル” :REG−EXP ”ニューヨークシティーホテル” :POS 普通名詞 :ATTRIBUTE NIL :SEM−CODE (729) :COMP OUND NIL) :DISTANCE 0.0 :TOTAL−DISTA NCE 0.0 :SUBSTRUCTURES NIL)))))))))) ――――――――――――――――――――――――――――――――――[Table 11] ―――――――――――――――――――――――――――――――― (: S-SENT 1 ”Thank you New York Cityホ テ ル で ホ テ ル ―――――――――――――――――――――――――――――――――― (: S-TREE 1 (((0 4) (: PATTERN MARKER- INTERJ-IS: FORM (? X <INTERJ->? Y): H EAD ((: WORD "New York City Hotel": REG-EXP "New York City Hotel": POS Common noun: ATTRIBUTENIL : SEM-CODE (729): COMPOUND NIL)): DISTANCE 1.0e-5: TOTAL-DISTANCE 1.0e-5: SUBSTRUCTURES (? X (: PATTERN: STRING: FORM ((: WORD "Thank you"): REG-EXP "Thank you": POS Inspirational verb: ATTRI BUTE NIL: SEM-CODE (696 476): COMPU ND NIL ): HEAD (: WORD "Thank you"): REG-EXP "Thank you": POS Inflection: ATTRI BUTE NIL: SEM-CODE (696 476): COMPOUN ND NIL): DISTANCE 0.0: TOTAL-DISTANCE E 0.0: SUBSTRUCTURES NIL)) (? Y (: PAT TERN DEGOZAIMASU: FORM (? X "is")): HEAD ((: WORD "Newyo City Hotel ": REG-EXP" New York City Hotel ": POS Common Noun: ATTRI BUTE NIL: SEM-CODE (729): COMPOUND N IL): DISTANCE 0.0: TOTAL-DISTANCE 0 0.0: SUBSTRUT? X (: PATTERN: ST RING: FORM ((: WORD "New York City Hotel": REG-EXP "New York City Hotel"): POS Common Noun: AT TRIBUTE NIL: SEM-CODE (729): COMPOUND DNIL): HEAD (: WORD “New York City Hotel”: REG-EXP “New York City Hotel”: POS Common Noun: ATTRIBUTE NIL: SEM- ODE (729): COMP OUND NIL): DISTANCE 0.0: TOTAL-DISTANCE NCE 0.0: SUBSTRUCTURES NIL)))))))))))))) ―――――――――――――――――――

【0058】図4及び図5は、図1の音声認識誤り訂正
装置における一実施例の処理結果の一例を示す図であ
る。ここで、解析木は、構造解析処理部2及び10によ
って、入力文に対する言語パターンと表層語句の組合わ
せよりなる構造として得られる。図4及び図5中の解析
木のうち、実線は特定の言語単位を意味しない変項への
参照、点線は言語構成素境界への参照を表わす。例え
ば、図4中の入力解析木の”和室_の_方”に関し
て、”和室”と”方”は実線でノードにつながってい
る。これらはパターン”X の Y”の変項X,Yにそ
れぞれ表層語句”和室”、”方”が組み合わさることで
構造ができていることを表わしている。また、点線でノ
ードにつながっている”の”は、同パターンの言語構成
素境界が”の”であることを表わしている。
FIGS. 4 and 5 are diagrams showing an example of the processing results of the embodiment in the speech recognition error correction device of FIG. Here, the parse tree is obtained by the structure analysis processing units 2 and 10 as a structure including a combination of a language pattern and a surface phrase for an input sentence. In the parse trees in FIGS. 4 and 5, a solid line indicates a reference to a variable that does not mean a specific linguistic unit, and a dotted line indicates a reference to a linguistic component boundary. For example, as for “_________________________” of the input analysis tree in FIG. These indicate that the structure is made by combining the variable words X and Y of the pattern “X Y” with the surface words “Japanese room” and “kata”, respectively. Further, "" connected to the node by a dotted line indicates that the language component boundary of the pattern is "".

【0059】図4中の入力解析木は表9と同じもので、
説明のために概念的に表現したものである。例えば、意
味的距離のしきい値が0.3、音韻的距離のしきい値が
0.3のとき、入力解析木の意味的距離の値は1.30
0であるため、入力解析木修復判断部において、修復処
理が必要と判断される。ここで、用例文データメモリ2
1に、用例文”いずれも税サービス料は別になりますの
で”が含まれていたとすると、用例解析木データメモリ
22には、”いずれ_も_税_サービス料_は_別_に
なる_ます_ので”が含まれる。ここで、入力部分木及
び用例部分木照合処理部において、入力部分木と用例部
分木として、それぞれ入力解析木、用例解析木の、黒丸
でしめしたノードを頂点に持つ部分木(入力部分木”い
ずれ_の_戦_サービス料_は_別_になる_ます”
と、用例部分木”いずれ_も_税_サービス料_は_別
_になる_ます”)に関する照合を行った場合、それら
の部分木間の音韻的距離は図5に示すように0.078
の値となる。この値は音韻的距離に対するしきい値0.
3より小さい値であるため、ここで照合された入力部分
木と用例部分木との対は音韻的類似部分木バッファメモ
リ24に格納される。さらに、解析木修復処理部4にお
いて、入力解析木の黒丸で示したノードを頂点に持つ部
分木(下位構造)を用例部分木に差し替え修復した解析
木を得る。この解析木の意味的距離の値は、意味的距離
計算処理部5において再計算され、0.0の値を得る。
この修正した解析木の意味的距離の値は、しきい値0.
3より小さいので、訂正解析出力部6に出力される。こ
こで、音韻的距離がすべての候補中で最小である場合、
最終的な出力となる。表12に音韻的距離計算処理部9
の出力の例(図4及び図5の例とは異なる用例を用いた
とき)を示す。
The input parse tree in FIG. 4 is the same as in Table 9;
This is conceptually represented for explanation. For example, when the threshold of the semantic distance is 0.3 and the threshold of the phonological distance is 0.3, the value of the semantic distance of the input parse tree is 1.30.
Since it is 0, the input parse tree repair determination unit determines that a repair process is necessary. Here, the example sentence data memory 2
Assuming that the example sentence “Every one is different from the tax service charge” is included, the example parse tree data memory 22 stores “any_tax_service_charge becomes different_” Is included. Here, in the input subtree and the example subtree matching processing unit, as an input subtree and an example subtree, a subtree having an apex of a node indicated by a black circle (input subtree) as an input analysis tree and an example analysis tree, respectively. Eventually _ war _ service fee _ will be _ another _ _
And the example subtrees “all_tax_service_charges_are_different_”), the phonological distance between the subtrees is set to 0, as shown in FIG. 078
Value. This value is a threshold value for the phonological distance of 0.
Since the value is smaller than 3, the pair of the input subtree and the example subtree collated here is stored in the phonologically similar subtree buffer memory 24. Further, the analytic tree restoration processing unit 4 replaces the subtree (substructure) having the node indicated by the black circle of the input analytic tree at the apex with an example subtree to obtain an analytic tree that has been repaired. The value of the semantic distance of the analytic tree is recalculated in the semantic distance calculation processing unit 5 to obtain a value of 0.0.
The value of the semantic distance of the modified parse tree is equal to the threshold value of 0.
Since it is smaller than 3, it is output to the correction analysis output unit 6. Here, if the phonological distance is the smallest of all candidates,
The final output. Table 12 shows the phonological distance calculation processing unit 9
Is shown (when an example different from the examples of FIGS. 4 and 5 is used).

【0060】[0060]

【表12】 ―――――――――――――――――――――――――――――――――― 入力部分木= ((((”和室”) ”の” ”方”) ”です” ”と” ( ”18000円”)) <CN−PRON> ((((”いずれ”) ”の” ((”戦”) <CN−CN> (”サービス料”))) ”は” ((”別” ) ”になる”)) ”ます”)) ―――――――――――――――――――――――――――――――――― 用例部分木= ((((”和室”) ”か” <SUBP−> ((”ツインル ーム”) ”の” (((” 一人”) ”様”) <PERSONPNOM− SN> (”使用”)))) ”でし” ”たら” ((”お取り”) ”でき る”)) ”ます”) ―――――――――――――――――――――――――――――――――― 用例文= (:S−SENT 1900 ”和室かツインルームのお一人様使用 でしたらお取りできますが”) ―――――――――――――――――――――――――――――――――― 入力部分木単語列= 和室, の, 方, です, と, 18000円, い ずれ, の, 戦, サービス 料, は, 別, になる, ます ―――――――――――――――――――――――――――――――――― 用例部分木単語列= 和室, か, ツインルーム, の, お一人, 様, 使用, でし, た ら, お取り, できる, ます ―――――――――――――――――――――――――――――――――― 入力部分木音素列=w a sh i ts u n o k a t a d e s u t o 18000 e ng i z u r e n o s e ng s a a b i s u r j o o w a b e ts u n i − n a r u m a s u ―――――――――――――――――――――――――――――――――― 用例部分木音素列=w a sh i ts u k a ts u i ng r u u m u n o o h i t o r i s a m a sh i j o o d e sh i t a r a o − t o r i d e k i r u m a s u ―――――――――――――――――――――――――――――――――― 音韻的距離=0.46551724137931 ――――――――――――――――――――――――――――――――――[Table 12] ―――――――――――――――――――――――――――――――― Input partial tree = (((((“Japanese-style room”)) "" "" "" "" "" "" "" "" "" "" "" "" ("" ")" <">" "(" "") Fee “)))” becomes “((“ different ”)” ”))” masu ”)) ――――――――――――――――――――――――― ――――――――― Example partial tree = ((((“Japanese room”) ”or“ <SUBP-> ((“Twin room”) ”” of “(((“ one person ”)“ like ”)) <PERSONPNOM-SN> ("Use")))) "" "" "" "" ("" "" "" "" "" "" "" "" "" ")" --- " --------------------- for Sentence = (: S-SENT 1900 "Can be taken by a single person in a Japanese-style room or a twin room.") ――――――――――――――――――――――― ――――――――――― Input subtree word string = Japanese-style room,,,, 18,000 yen,,, battle, service charge, is different,, ―――――――――――――――――――――――――――――――― Example subtree word sequence = Japanese-style room, or twin room, one person, Sama, use, desu, if you can, take it, you can ―――――――――――――――――――――――――――――――――― Input subtree phoneme sequence = washitsunokasadastuto18000english wabsununi-narumasusu ―――――――――――――――――――――――――――――――――― -Example partial tree phoneme sequence = wasitsukatsutsuuingruumuooohonorisamasashiodaisitaitai o-toridoekirumamasu ―――――――――――――――――――――――――――――――― Phonological distance = 0.65551724137931 ――――――――――――――――――――――――――――――――――

【0061】表13に意味的距離計算処理部5の出力の
例を示す。この解析木は、解析木修復処理部4におい
て、入力解析木の入力部分木の構造を用例部分木に置換
し、意味的距離計算処理部5において、意味的距離の再
計算を行なった結果である。ここで計算の結果、意味的
距離の値は0.0となっている。
Table 13 shows an example of the output of the semantic distance calculation processing section 5. This parse tree is obtained by replacing the structure of the input subtree with the example subtree in the analytic tree restoration processing unit 4 and recalculating the semantic distance in the semantic distance calculation processing unit 5. is there. Here, as a result of the calculation, the value of the semantic distance is 0.0.

【0062】[0062]

【表13】 ―――――――――――――――――――――――――――――――――― (:S−SENT 62 ”和室の方ですと一万八千円いずれの戦サービス料 は別になります”) ―――――――――――――――――――――――――――――――――― (:S−TREE 62 (((0 16) (:PATTERN MASU :FORM (?X ”ます”) :HEAD ((:WORD ”お取 ” :REG−EXP ”取る” :POS 本動詞 :ATTRIBUTE (( :CONJ−FORM . 連用)) :SEM−CODE (413 390 383 379 373 372 305 225) :COMPOUND ((:WORD ”お” :REG−EXP ”お” :POS 接頭辞 : ATTRIBUTE NIL :SEM−CODE NIL :COMPOUN D NIL) (:WORD ”取り” :REG−EXP ”取る” :PO S 本動詞 :ATTRIBUTE ((:CONJ−FORM . 連用)) :SEM−CODE NIL :COMPOUND NIL)))) :DI STANCE 0.0 :TOTAL−DISTANCE 0.0 :SUBS TRUCTURES ((?X (:PATTERN CONJ−DESHIT ARA−NP :FORM (?X ”でし” ”たら” ?Y) :HEAD ((:WORD ”お取り” :REG−EXP ”取る” :POS 本動 詞 :ATTRIBUTE ((:CONJ−FORM . 連用)) :SE M−CODE (413 390 383 379 373 372 305 225) :COMPOUND ((:WORD ”お” :REG−EXP ”お” :POS 接頭辞 :ATTRIBUTE NIL :SEM−COD E NIL :COMPOUND NIL) (:WORD ”取り” :RE G−EXP ”取る” :POS 本動詞 :ATTRIBUTE ((:C ONJ−FORM . 連用)) :SEM−CODE NIL :COMPO UND NIL)))) :DISTANCE 0.0 :TOTAL−DIS TANCE 0.0 :SUBSTRUCTURES ((?X (:PATT ERN KA−SUBP−S+N :FORM (?X ”か” <SUBP− > ?Y) :HEAD ((:WORD ”使用” :REG−EXP ”使 用” :POS サ変名詞 :ATTRIBUTE NIL :SEM−COD E (381 363) :COMPOUND NIL)) :DISTANC E 0.0 :TOTAL−DISTANCE 0.0 :SUBSTRUCT URES ((?X (:PATTERN :STRING :FORM (( :WORD ”和室” :REG−EXP ”和室” :POS 普通名詞 : ATTRIBUTE NIL :SEM−CODE (941) :COMPO UND NIL)) :HEAD (:WORD ”和室” :REG−EXP ”和室” :POS 普通名詞 :ATTRIBUTE NIL :SEM− CODE (941) :COMPOUND NIL) :DISTANCE 0.0 :TOTAL−DISTANCE 0.0 :SUBSTRUCTUR ES NIL)) (?Y (:PATTERN KAKUJO−NO−N+N :FORM (?X ”の” ?Y) :HEAD ((:WORD ”使用 ” :REG−EXP ”使用” :POS サ ―――――――――――――――――――――――――――――――――― <以下省略> ――――――――――――――――――――――――――――――――――[Table 13] ―――――――――――――――――――――――――――――――― (: S-SENT 62 ” The service fee for every 188,000 yen will be different. ”) ―――――――――――――――――――――――――――――――――― (: S-TREE 62 (((0 16) (: PATTERN MASU: FORM (? X "Masu")): HEAD ((: WORD "Otori": REG-EXP "Take": POS Main verb: ATTRIBUTE (( : CONJ-FORM. Continuous use)): SEM-CODE (413 390 383 379 373 372 305 225): COMPOUND ((: WORD "O": REG-EXP "O": POS Prefix: ATTRIBUN NEL DENIL) : COMPOUND D NIL) (: WORD "take": REG-EXP "take"): POS Main verb: ATTRIBUTE ((:: CONJ-FORM. Continuous use)): SEM-CODE NIL: COMPOUND NIL))): DISTAN 0.0: TOTAL-DISTANCE 0.0: SUBS TRUCTURES ((? X (: PATTERN CONJ-DESHIT ARA-NP: FORM (? X ")"? ""? Y): HEAD ((: WORD " ": REG-EXP" "take": POS main verb: ATTRIBUTE ((: CONJ-FORM. Continuous use)): SEM-CODE (413 390 383 379 373 373 372 305 225): COMPOUND ((: WORD "O" REG-E XP "O": POS Prefix: ATTRIBUTE NIL: SEM-CODE NIL: COMPOUND NIL) (: WORD "take": RE G-EXP "take": POS Main verb: ATTRIBUTE ((: CONJ-FOR )): SEM-CODE NIL: COMPO UND NIL)))): DISTANCE 0.0: TOTAL-DIS TANCE 0.0: SUBSTRUCTURES ((? X (: PATT ERN KA-SUBP-S + N:? X ?? "<SUBP->? Y): HEAD ((: WORD "Use": REG-EXP "Use"): POS suffix noun: ATTRIBUTE NIL: SEM-CODE (381 363): COMPOUND NIL): DISTANCE E0.0: TOTAL-DI 0.0: SUBSTRUCT URES ((? X (: PATTERN: STRING: FORM ((: WORD "Japanese-style room"): REG-EXP "Japanese-style room": POS Common noun: ATTRIBUTE NIL: SEM-CODE (941) UPON ): HEAD (: WORD "Japanese-style room": REG-EXP "Japanese-style room": POS Common noun: ATTRIBUTE NIL: SEM-CODE (941): COMPOUND NIL): DISTANCE 0.0: TO AL-DISTANCE 0.0: SUBSTRUCTURE ES NIL)) (? Y (: PATTERN KAKUJO-NO-N + N: FORM (? X's ?? Y)): HEAD ((: WORD "Use": REG-EXP "Use") : POS service ―――――――――――――――――――――――――――――――― ―――――――――――――――――――――――――――

【0063】表14に単語音素変換辞書メモリ23のデ
ータ例を示す。左側の単語の表現形に対する音素列が、
右側に記述されている。
Table 14 shows an example of data in the word phoneme conversion dictionary memory 23. The phoneme sequence for the word expression on the left is
It is described on the right.

【0064】[0064]

【表14】 ―――――――――――――――――――――――――――――――――― 10340 [そして] s o sh i t e {|−} # そして|ソシテ|そして|接続詞|||| ―――――――――――――――――――――――――――――――――― 10341 [両日] r j o o zh i ts u {|−} # 両日|リョウジツ|両日|普通名詞|||| ―――――――――――――――――――――――――――――――――― 10342 [とも] t o m o {|−} # とも|トモ| とも|普通名詞|||| ―――――――――――――――――――――――――――――――――― 10343 [てくださっ] t e k u d a s a q # てくださっ|テクダサッ|てくださる|助動詞|特殊ラ|た|| ―――――――――――――――――――――――――――――――――― 10344 [ぐらい] g u r a i {|−} # ぐらい |グライ|ぐらい|副助詞|||| ―――――――――――――――――――――――――――――――――― 10345 [参り] m a i r i {|−} # 参り|マ イリ|参る|本動詞|五段ラ|連用|| ―――――――――――――――――――――――――――――――――― 10346 [京都観光ホテル] k j o o t o k a ng k o o h o t e r u {|−} # 京都観光 ホテル |キョウトカンコウホテル|京都観光ホテル|普通名詞|||| ―――――――――――――――――――――――――――――――――― 10347 [フロント] h u r o ng t o {|−} # フロント|フロント|フロント|普通名詞|||| ―――――――――――――――――――――――――――――――――― 10348 [日曜日] n i ch i j o o b i {|−} # 日曜日|ニチヨウビ|日曜日|普通名詞||||<一部> ――――――――――――――――――――――――――――――――――[Table 14] ―――――――――――――――――――――――――――――――― 10340 [And] so shiite @ | −} # And | Society | And | Connective |||| ―――――――――――――――――――――――――――――――― 10341 [ Both days] rjoozhitsu {|-} # Both days | Ryojitsu | Both days | Ordinary noun ||| | ――――――――――――――――――――――― ――――――――――― 10342 [Tomo] tomo {| −} # Both | Tomo | Both | Common nouns |||| ―――――――――――――――― ―――――――――――――――――――― 10343 [Please] tekudasaq # please | techdasasa | please | auxiliary verb | special ra | | ―――― ―――――――――――――――――――――――――――――― 10344 [about] g urai |-{# about | gray | about | Adjunct |||| ―――――――――――――――――――――――――――――――― 10345 [Written] m a r i { | −} # worship | miri | worship | main verb | five steps | continuous use || ――――――――――――――――――――――――――――― ――――― 10346 [Kyoto Kanko Hotel] kjo ootka kang kohohoteru |-} # Kyoto Kanko Hotel | Kyoto Kanko Hotel | Kyoto Kanko Hotel | Kyoto Noun | | │ | ―――――――――――――――――――――――――――――――― 10347 [Front] hur ng to o {|- } # Flow To | front | front | common noun | | | | ―――――――――――――――――――――――――――――――――― 10348 [Sunday] nichijoobobi {|-} # Sunday | Nichijobi | Sunday | Ordinary noun | | | | <partial> ―――――――――――――――――――― ――――――――――――――

【0065】<評価実験>本発明者は、以上のように構
成された図1の音声認識誤り訂正装置を用いて評価実験
を以下のように行った。構造解析で学習済みの旅行会話
データ310発話(日本語)を入力とした。用例解析木
22内の用例解析木データベースは、入力の310発話
を含む誤りなしの14,111発話から構築した。表1
5に示すように、訂正必要性判断処理において、147
発話が訂正対象と判断された。
<Evaluation Experiment> The present inventor conducted an evaluation experiment as follows using the speech recognition error correction apparatus of FIG. 1 configured as described above. Travel utterance data 310 utterances (Japanese) learned by the structural analysis were input. The example parse tree database in the example parse tree 22 was constructed from error-free 14,111 utterances including the input 310 utterances. Table 1
As shown in FIG. 5, in the correction necessity determination process, 147
The utterance was determined to be corrected.

【0066】[0066]

【表15】 訂正必要判断(全310発話) ―――――――――――――――――――――――――――――――――― 訂正判断 誤り発話 正解発話 ―――――――――――――――――――――――――――――――――― 必要147(γsem≦Γsem) 141 6 不要163(γsem>Γsem) 71 92 ――――――――――――――――――――――――――――――――――[Table 15] Judgment necessary for correction (310 utterances) ―――――――――――――――――――――――――――――――― Correction judgment Error utterance Correct utterance ―――――――――――――――――――――――――――――――― Required 147 (γ sem ≤ Γ sem ) 141 6 Not required 163 ( γ sem > Γ sem ) 71 92 ――――――――――――――――――――――――――――――――――

【0067】ここで、γsemは入力解析木に対する意味
的距離であり、Γsemはそのしきい値である。ここで、
意味的距離のしきい値Γsemとして0.3を用いた。訂
正結果に対して、発話単位での意味的な回復を評価する
ために、表16に示した評価基準を用いた。
Here, γ sem is the semantic distance to the input parse tree, and Γ sem is its threshold. here,
0.3 was used as the threshold Γ sem of the semantic distance. The evaluation criterion shown in Table 16 was used to evaluate the semantic recovery of the correction result in units of speech.

【0068】[0068]

【表16】 評価基準 ―――――――――――――――――――――――――――――――――― Level5:正解に完全に一致(完全正解)。 Level4:正解と意味的にほぼ等価。 Level3:部分的な回復、正解とやや異なる。 Level2:回復なし、誤り部分の不適当な訂正。 Level1:正しい認識部分の不適当な訂正。 ――――――――――――――――――――――――――――――――――[Table 16] Evaluation criteria ―――――――――――――――――――――――――――――――― Level 5: Completely agree with the correct answer (complete correct answer) ). Level 4: Semantically almost equivalent to the correct answer. Level 3: Partial recovery, slightly different from the correct answer. Level 2: no recovery, improper correction of error part. Level 1: improper correction of the correct recognition part. ――――――――――――――――――――――――――――――――――

【0069】次いで、訂正対象に対する評価結果を、表
17に示す。
Next, Table 17 shows the evaluation results for the correction target.

【0070】[0070]

【表17】 訂正による意味的な回復(全147発話) ―――――――――――――――――――――――――――――――――― 用例 区別なし 完全正解のみ 完全正解以外 ―――――――――――――――――――――――――――――――――― Level5 43%(63) 33%(49) 14%(20) Level4 5%(8) 0%(0) 6%(9) Level3 3%(4) 1%(1) 4%(6) Level2 1%(2) 0%(0) 2%(3) Level1 0%(0) 0%(0) 0%(0) ―――――――――――――――――――――――――――――――――― NIL 48%(70) 66%(97) 74%(109) ――――――――――――――――――――――――――――――――――[Table 17] Semantic recovery by correction (147 utterances) ―――――――――――――――――――――――――――――――― No distinction Only perfect answer Other than perfect answer ―――――――――――――――――――――――――――――――― Level5 43% (63) 33% (49) 14% (20) Level4 5% (8) 0% (0) 6% (9) Level3 3% (4) 1% (1) 4% (6) Level2 1% (2) 0% (0) 2% (3) Level1 0% (0) 0% (0) 0% (0) ―――――――――――――――――――――――――――― ―――――― NIL 48% (70) 66% (97) 74% (109) ―――――――――――――――――――――――――――― ――――――

【0071】用例解析木データメモリ22内のデータベ
ースの中に入力の正解文(完全正解)が含まれているた
め、正解文を含んだ全用例による訂正(区別なし)、正
解文のみによる訂正(完全正解のみ)、正解文以外によ
る訂正(完全正解以外)、に分けて評価した。ここで、
音韻的距離のしきい値は0.3を用いた。また、各発話
に対して音韻的距離が最小の訂正候補を訂正結果とし
た。
Since the input correct sentence (complete correct answer) is included in the database in the example analysis tree data memory 22, the correction is made by all the examples including the correct answer (no distinction), and the correction is made only by the correct answer ( Only the correct answer) and corrections other than the correct sentence (other than the correct answer) were evaluated separately. here,
The threshold for the phonological distance was 0.3. In addition, a correction candidate having the minimum phonological distance for each utterance was determined as a correction result.

【0072】以上説明したように、評価実験から、入力
の誤訂正が少ない高精度な訂正手法であることが示さ
れ、また、入力の正解文以外の用例からも、有効な訂正
が可能であることが明らかになった。
As described above, the evaluation experiments show that the method is a high-precision correction method with few erroneous corrections of the input, and effective correction is possible from examples other than the correct sentence of the input. It became clear.

【0073】<実施形態の効果>以上説明したように、
本実施形態によれば、入力文と音韻的特徴の近い用例を
選択するため、誤訂正が減少する。また、訂正結果は、
意味的距離に基づいて妥当性の判断を行って出力してい
るので、その妥当性が保証されているために、誤訂正が
減少する。ここで、入力文全体に対して意味的距離に基
づいて妥当性の判断を行っているので、大局的な音声認
識結果の妥当性を判断することができる。従って、従来
例に比較して高精度な誤り訂正処理を行うことができ
る。
<Effects of Embodiment> As described above,
According to the present embodiment, an example in which the input sentence and the phonological feature are close to each other is selected, so that erroneous correction is reduced. The correction result is
Since the validity is determined and output based on the semantic distance, the erroneous correction is reduced because the validity is guaranteed. Here, since the validity of the entire input sentence is determined based on the semantic distance, the validity of the global speech recognition result can be determined. Therefore, a more accurate error correction process can be performed as compared with the conventional example.

【0074】[0074]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識誤り訂正装置によれば、発声音声文の
音声信号を音声認識し、その音声認識結果に対して誤り
訂正処理を行う音声認識誤り訂正装置において、所定の
用例文に対して所定の構造解析処理を行って得られた用
例解析木を格納する記憶手段(22)と、上記音声認識
結果に対して所定の構造解析処理を行って入力解析木を
生成して出力する構造解析処理手段(2)と、上記構造
解析処理手段(2)から出力される入力解析木と、上記
記憶手段(22)に格納された用例解析木とに基づい
て、入力解析木の部分木である各入力部分木と、用例解
析木の部分木である各用例部分木との間で音韻的に近接
する部分木対を検索して、入力解析木と用例解析木との
間の互換可能な構造に基づいて誤り訂正処理を行って入
力解析木の誤り訂正結果を出力する誤り訂正処理手段
(3,7,8,9,4)と、上記誤り訂正処理手段
(3,7,8,9,4)から出力される誤り訂正結果を
含む発声音声文全体に対して、単語間の類語の概念階層
における位置関係に依存して計算される意味的距離を計
算することにより文全体の大局的な妥当性を判断し、計
算された意味的距離が所定のしきい値以下のときに誤り
訂正結果を含む発声音声文の解析木を出力する意味的距
離計算処理及び出力手段(5,6)とを備える。従っ
て、本発明によれば、入力文と音韻的特徴の近い用例を
選択するため、誤訂正が減少する。また、訂正結果は、
意味的距離に基づいて妥当性の判断を行って出力してい
るので、その妥当性が保証されているために、誤訂正が
減少する。ここで、入力文全体に対して意味的距離に基
づいて妥当性の判断を行っているので、大局的な音声認
識結果の妥当性を判断することができる。それ故、従来
例に比較して高精度な誤り訂正処理を行うことができ
る。
As described above in detail, according to the speech recognition error correction apparatus of the first aspect of the present invention, the speech signal of the uttered speech sentence is recognized, and the speech recognition result is subjected to error correction processing. A speech recognition error correction device for performing a predetermined structure analysis process on a predetermined example sentence, a storage unit (22) for storing an example parse tree, and a predetermined structure for the voice recognition result. Structural analysis processing means (2) for performing analysis processing to generate and output an input analytic tree, input analytic tree output from the structural analytic processing means (2), and stored in the storage means (22) Based on the example parse tree, a subtree pair that is phonologically close is searched between each input subtree that is a subtree of the input parse tree and each example subtree that is a subtree of the example analytic tree. , Interchangeable structure between input parse tree and example parse tree Error correction processing means (3, 7, 8, 9, 4) for performing error correction processing based on the error and outputting an error correction result of the input parse tree, and error correction processing means (3, 7, 8, 9, 9, 4) ), The overall validity of the entire sentence is calculated by calculating the semantic distance calculated depending on the positional relationship in the concept hierarchy of synonyms between words for the entire uttered speech sentence including the error correction result output from The semantic distance calculation processing and output means (5, 6) for outputting a parse tree of an uttered speech sentence including an error correction result when the calculated semantic distance is equal to or less than a predetermined threshold value. Prepare. Therefore, according to the present invention, since an example whose input sentence is close to the phonological feature is selected, erroneous correction is reduced. The correction result is
Since the validity is determined and output based on the semantic distance, the erroneous correction is reduced because the validity is guaranteed. Here, since the validity of the entire input sentence is determined based on the semantic distance, the validity of the global speech recognition result can be determined. Therefore, it is possible to perform a more accurate error correction process than in the conventional example.

【0075】また、請求項2記載の音声認識誤り訂正装
置によれば、請求項1記載の音声認識誤り訂正装置にお
いて、上記誤り訂正処理手段(3,7,8,9,4)
は、上記構造解析処理手段(2)から出力される入力解
析木に対して意味的距離を計算し、計算された意味的距
離が上記しきい値を超えるときに、入力解析木を修復す
べきであると判断する入力解析木修復判断手段(3)
と、上記入力解析木修復判断手段(3)によって修復す
べきと判断された入力解析木と、上記記憶手段に格納さ
れた用例解析木とに基づいて、各入力部分木と各用例部
分木との間で音韻的に近接する部分木対を検索して、そ
れぞれの部分木の組み合わせの対を生成して出力する入
力部分木及び用例部分木照合処理部(7)と、上記入力
部分木及び用例部分木照合処理部(7)から出力される
入力部分木と用例部分木との組み合わせの対を,所定の
単語音素変換辞書を参照して、それぞれ音素列に変換し
て出力する部分木音素列変換処理部(8)と、上記部分
木音素列変換処理部(8)から出力される入力部分木の
音素列と用例部分木の音素列との間の音韻的距離を計算
して、上記計算された音韻的距離が所定の別のしきい値
以下の入力部分木と用例部分木との対を出力する音韻的
距離計算処理部(9)と、上記入力解析木修復判断手段
(3)によって修復すべきと判断された入力解析木に対
して、上記音韻的距離計算処理部(9)から出力される
入力部分木と用例部分木との対を用いて、入力解析木の
修復を行うことにより誤り訂正処理を行って入力解析木
の誤り訂正結果を出力する解析木修復処理部(4)とを
備える。従って、本発明によれば、入力文と音韻的特徴
の近い用例を選択するため、誤訂正が減少する。また、
訂正結果は、意味的距離に基づいて妥当性の判断を行っ
て出力しているので、その妥当性が保証されているため
に、誤訂正が減少する。ここで、入力文全体に対して意
味的距離に基づいて妥当性の判断を行っているので、大
局的な音声認識結果の妥当性を判断することができる。
それ故、従来例に比較して高精度な誤り訂正処理を行う
ことができる。
According to the second aspect of the present invention, in the first aspect of the present invention, the error correction processing means (3,7,8,9,4).
Calculates the semantic distance for the input parse tree output from the structural analysis processing means (2), and restores the input parse tree when the calculated semantic distance exceeds the threshold. Input parse tree restoration determination means (3)
Based on the input parse tree determined to be repaired by the input parse tree repair determination means (3) and the example parse tree stored in the storage means, And an input subtree and example subtree matching processing unit (7) for generating and outputting pairs of combinations of subtrees that are phonologically close to each other. A subtree phoneme that converts a pair of a combination of an input subtree and an example subtree output from the example subtree matching processing unit (7) into a phoneme sequence with reference to a predetermined word phoneme conversion dictionary and outputs the phoneme sequence Calculating a phoneme distance between a phoneme sequence of the input subtree and a phoneme sequence of the example subtree output from the sequence conversion processing unit (8) and the subtree phoneme sequence conversion processing unit (8); An input subtree whose calculated phonological distance is less than or equal to another predetermined threshold A phonological distance calculation processing unit (9) for outputting a pair with the example subtree, and the phonological distance calculation for the input parse tree determined to be repaired by the input parse tree repair determination means (3). An analysis tree that outputs an error correction result by performing an error correction process by repairing an input analysis tree using a pair of an input subtree and an example subtree output from the processing unit (9). A restoration processing unit (4). Therefore, according to the present invention, since an example whose input sentence is close to the phonological feature is selected, erroneous correction is reduced. Also,
Correction results are output based on the determination of validity based on the semantic distance. Therefore, since the validity is guaranteed, erroneous corrections are reduced. Here, since the validity of the entire input sentence is determined based on the semantic distance, the validity of the global speech recognition result can be determined.
Therefore, it is possible to perform a more accurate error correction process than in the conventional example.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る一実施形態である音声認識誤り
訂正装置の構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a speech recognition error correction device according to an embodiment of the present invention.

【図2】 図1の構造解析処理部2,13の構成を示す
ブロック図である。
FIG. 2 is a block diagram showing a configuration of structural analysis processing units 2 and 13 of FIG.

【図3】 図1における音声認識誤り訂正処理の全体の
処理の流れを示すフローチャートである。
FIG. 3 is a flowchart showing the flow of the entire speech recognition error correction process in FIG. 1;

【図4】 図1の音声認識誤り訂正装置における一実施
例の処理結果の第1の部分を示す図であり、(a)は音
声認識結果を示し、(b)は入力解析木を示し、(c)
は入力部分木を示し、(d)は用例文を示し、(e)は
用例解析木を示し、(f)は用例部分木を示す。
FIGS. 4A and 4B are diagrams showing a first part of a processing result of the embodiment in the speech recognition error correction device of FIG. 1, wherein FIG. 4A shows a speech recognition result, FIG. (C)
Shows an input subtree, (d) shows an example sentence, (e) shows an example parse tree, and (f) shows an example subtree.

【図5】 図1の音声認識誤り訂正装置における一実施
例の処理結果の第2の部分を示す図であり、(g)は部
分木間の音韻的距離の計算を示し、(h)は入力部分木
に対する形態素列とその音素列を示し、(i)は用例部
分木に対する形態素列とその音素列を示し、(j)は修
復し意味距離の再計算がなされた入力解析木に対する修
復した解析木を示す。
5 is a diagram showing a second part of the processing result of the embodiment in the speech recognition error correction device of FIG. 1, (g) shows the calculation of the phonological distance between the subtrees, and (h) shows A morpheme sequence for the input subtree and its phoneme sequence are shown, (i) shows a morpheme sequence for the example subtree and its phoneme sequence, and (j) is a repaired input parse tree for which the recalculation of the semantic distance has been performed. 3 shows a parse tree.

【符号の説明】[Explanation of symbols]

1…音声認識処理部、 2…構造解析処理部、 3…入力解析木修復判断部、 4…解析木修復処理部、 5…意味的距離計算処理部、 6…訂正解析木出力部、 7…入力部分木及び用例部分木照合処理部、 8…部分木音素列変換処理部、 9…音韻的距離計算処理部、 10…構造解析処理部、 21…用例文データメモリ、 22…用例解析木データメモリ、 23…単語音素変換辞書メモリ、 24…音韻的類似部分木バッファメモリ、 30…マイクロホン、 101…形態素解析部、 102…品詞バイグラム挿入部、 103…言語パターン検索部、 104…言語パターン照合部、 105…最尤構造決定部、 111…形態素解析辞書メモリ、 112…品詞バイグラム辞書メモリ、 113…言語パターンメモリ。 DESCRIPTION OF SYMBOLS 1 ... Voice recognition processing part, 2 ... Structural analysis processing part, 3 ... Input analytic tree restoration determination part, 4 ... Analysis tree restoration processing part, 5 ... Semantic distance calculation processing part, 6 ... Correction analytic tree output part, 7 ... Input subtree and example subtree matching processing unit, 8: partial tree phoneme sequence conversion processing unit, 9: phonological distance calculation processing unit, 10: structural analysis processing unit, 21: example sentence data memory, 22: example analysis tree data Memory 23: Word phoneme conversion dictionary memory 24: Phonemic similar partial tree buffer memory 30: Microphone 101: Morphological analysis unit 102: Part of speech bigram insertion unit 103: Language pattern search unit 104: Language pattern matching unit Reference numeral 105: Maximum likelihood structure determination unit 111: Morphological analysis dictionary memory 112: Part-of-speech bigram dictionary memory 113: Language pattern memory

───────────────────────────────────────────────────── フロントページの続き (72)発明者 飯田 仁 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 特開 平2−214990(JP,A) 特開 平6−274192(JP,A) 特開 平10−232693(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/20 G06F 15/38 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Jin Iida Kyoto, Soraku-gun, Seika-cho, 5th, Inaniya, 5th, Sanpira-ya ATI Ron Co., Ltd. Voice Translation and Communication Research Laboratories (56) References JP-A-2-2 214990 (JP, A) JP-A-6-274192 (JP, A) JP-A-10-232693 (JP, A) (58) Fields investigated (Int. Cl. 6 , DB name) G10L 3 / 00-9 / 20 G06F 15/38 JICST file (JOIS)

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 発声音声文の音声信号を音声認識し、そ
の音声認識結果に対して誤り訂正処理を行う音声認識誤
り訂正装置において、 所定の用例文に対して所定の構造解析処理を行って得ら
れた用例解析木を格納する記憶手段(22)と、 上記音声認識結果に対して所定の構造解析処理を行って
入力解析木を生成して出力する構造解析処理手段(2)
と、 上記構造解析処理手段(2)から出力される入力解析木
と、上記記憶手段(22)に格納された用例解析木とに
基づいて、入力解析木の部分木である各入力部分木と、
用例解析木の部分木である各用例部分木との間で音韻的
に近接する部分木対を検索して、入力解析木と用例解析
木との間の互換可能な構造に基づいて誤り訂正処理を行
って入力解析木の誤り訂正結果を出力する誤り訂正処理
手段(3,7,8,9,4)と、 上記誤り訂正処理手段(3,7,8,9,4)から出力
される誤り訂正結果を含む発声音声文全体に対して、単
語間の類語の概念階層における位置関係に依存して計算
される意味的距離を計算することにより文全体の大局的
な妥当性を判断し、計算された意味的距離が所定のしき
い値以下のときに誤り訂正結果を含む発声音声文の解析
木を出力する意味的距離計算処理及び出力手段(5,
6)とを備えたことを特徴とする音声認識誤り訂正装
置。
1. A speech recognition error correction device for recognizing a speech signal of an uttered speech sentence and performing an error correction process on the speech recognition result, wherein a predetermined structural analysis process is performed on a predetermined example sentence. Storage means (22) for storing the obtained example analysis tree; and structural analysis processing means (2) for performing a predetermined structural analysis process on the speech recognition result to generate and output an input analysis tree.
Based on the input parse tree output from the structural analysis processing means (2) and the example parse tree stored in the storage means (22), ,
A subtree pair that is phonologically close to each example subtree, which is a subtree of the example analysis tree, is searched, and error correction processing is performed based on a compatible structure between the input analysis tree and the example analysis tree. Error correction processing means (3, 7, 8, 9, 4) for performing error correction and output of error correction results of the input parse tree, and output from the error correction processing means (3, 7, 8, 9, 4) For the entire vocal sentence including the error correction result, the overall validity of the entire sentence is determined by calculating the semantic distance calculated depending on the positional relationship in the concept hierarchy of synonyms between words, A semantic distance calculation process and an output means for outputting a parse tree of an uttered speech sentence including an error correction result when the calculated semantic distance is equal to or smaller than a predetermined threshold value;
6) A speech recognition error correction device characterized by comprising:
【請求項2】 請求項1記載の音声認識誤り訂正装置に
おいて、 上記誤り訂正処理手段(3,7,8,9,4)は、 上記構造解析処理手段(2)から出力される入力解析木
に対して意味的距離を計算し、計算された意味的距離が
上記しきい値を超えるときに、入力解析木を修復すべき
であると判断する入力解析木修復判断手段(3)と、 上記入力解析木修復判断手段(3)によって修復すべき
と判断された入力解析木と、上記記憶手段に格納された
用例解析木とに基づいて、各入力部分木と各用例部分木
との間で音韻的に近接する部分木対を検索して、それぞ
れの部分木の組み合わせの対を生成して出力する入力部
分木及び用例部分木照合処理部(7)と、 上記入力部分木及び用例部分木照合処理部(7)から出
力される入力部分木と用例部分木との組み合わせの対
を,所定の単語音素変換辞書を参照して、それぞれ音素
列に変換して出力する部分木音素列変換処理部(8)
と、 上記部分木音素列変換処理部(8)から出力される入力
部分木の音素列と用例部分木の音素列との間の音韻的距
離を計算して、上記計算された音韻的距離が所定の別の
しきい値以下の入力部分木と用例部分木との対を出力す
る音韻的距離計算処理部(9)と、 上記入力解析木修復判断手段(3)によって修復すべき
と判断された入力解析木に対して、上記音韻的距離計算
処理部(9)から出力される入力部分木と用例部分木と
の対を用いて、入力解析木の修復を行うことにより誤り
訂正処理を行って入力解析木の誤り訂正結果を出力する
解析木修復処理部(4)とを備えたことを特徴とする音
声認識誤り訂正装置。
2. The speech recognition error correction device according to claim 1, wherein said error correction processing means (3, 7, 8, 9, 4) includes an input analysis tree output from said structure analysis processing means (2). Input parse tree restoration determining means (3) for calculating a semantic distance for the input parse tree and determining that the input parse tree should be repaired when the calculated semantic distance exceeds the threshold value; Based on the input parse tree determined to be repaired by the input parse tree repair determining means (3) and the example parse tree stored in the storage means, a difference between each input subtree and each example subtree is determined. An input subtree and an example subtree matching processing unit (7) for searching for subtree pairs that are phonologically close to each other and generating and outputting pairs of combinations of the subtrees; Input subtree output from the matching processing unit (7) and examples Pairs of combination of partial tree by referring to the predetermined word phoneme conversion dictionary, each subtree phoneme string conversion processing unit for converting the phoneme string (8)
And calculating a phonological distance between the phoneme sequence of the input subtree output from the subtree phoneme sequence conversion processing unit (8) and the phoneme sequence of the example subtree, and calculating the calculated phonological distance. A phonological distance calculation processing unit (9) that outputs a pair of an input subtree and an example subtree that is equal to or smaller than another predetermined threshold value, and the input analytic tree restoration determination unit (3) determines that restoration is to be performed. Error correction processing is performed on the input parse tree by repairing the input parse tree using the pair of the input subtree and the example subtree output from the phonological distance calculation processing unit (9). And a parse tree repair processing unit (4) for outputting an error correction result of the input parse tree.
JP10275323A 1998-09-29 1998-09-29 Speech recognition error correction device Expired - Fee Related JP2950823B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10275323A JP2950823B1 (en) 1998-09-29 1998-09-29 Speech recognition error correction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10275323A JP2950823B1 (en) 1998-09-29 1998-09-29 Speech recognition error correction device

Publications (2)

Publication Number Publication Date
JP2950823B1 true JP2950823B1 (en) 1999-09-20
JP2000105597A JP2000105597A (en) 2000-04-11

Family

ID=17553862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10275323A Expired - Fee Related JP2950823B1 (en) 1998-09-29 1998-09-29 Speech recognition error correction device

Country Status (1)

Country Link
JP (1) JP2950823B1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10229207B3 (en) * 2002-06-28 2004-02-05 T-Mobile Deutschland Gmbh Process for natural speech recognition based on a generative transformation / phrase structure grammar
KR100492089B1 (en) * 2003-02-12 2005-06-02 (주)스피치사운드넷 Method for reducing compute quantity amount uttrrance verification using anti-phoneme model
US10395645B2 (en) 2014-04-22 2019-08-27 Naver Corporation Method, apparatus, and computer-readable recording medium for improving at least one semantic unit set
KR102217292B1 (en) 2015-02-26 2021-02-18 네이버 주식회사 Method, apparatus and computer-readable recording medium for improving a set of at least one semantic units by using phonetic sound
JP6389795B2 (en) * 2015-04-24 2018-09-12 日本電信電話株式会社 Speech recognition result shaping apparatus, method and program

Also Published As

Publication number Publication date
JP2000105597A (en) 2000-04-11

Similar Documents

Publication Publication Date Title
US6349282B1 (en) Compound words in speech recognition systems
Lee Voice dictation of mandarin chinese
US20070219777A1 (en) Identifying language origin of words
EP1623412B1 (en) Method for statistical language modeling in speech recognition
JPH08278794A (en) Speech recognition device and its method and phonetic translation device
Sak et al. Morpholexical and discriminative language models for Turkish automatic speech recognition
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
JP2002149643A (en) Method for predicting reading of japanese ideogram
JP2999768B1 (en) Speech recognition error correction device
Ananthakrishnan et al. Automatic diacritization of Arabic transcripts for automatic speech recognition
JP2950823B1 (en) Speech recognition error correction device
Palmer et al. Improving out-of-vocabulary name resolution
Wang et al. RNN-based prosodic modeling for mandarin speech and its application to speech-to-text conversion
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Szarvas et al. Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR
JP3441400B2 (en) Language conversion rule creation device and program recording medium
Vu et al. Vietnamese automatic speech recognition: The flavor approach
Heemskerk A probabilistic context-free grammar for disambiguation in morphological parsing
JP3027557B2 (en) Voice recognition method and apparatus, and recording medium storing voice recognition processing program
JP2006343405A (en) Speech-understanding device, speech-understanding method, method for preparing word/semantic expression merge database, its program and storage medium
Choueiter Linguistically-motivated sub-word modeling with applications to speech recognition
Lin et al. A hierarchical tag-graph search scheme with layered grammar rules for spontaneous speech understanding
Angkawattanawit et al. Thai Q-Cor: integrating word approximation and soundex for Thai query correction
Bentum et al. A speech recognizer for subtitling Frisian/Dutch council meetings
JP3001334B2 (en) Language processor for recognition

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110709

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120709

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120709

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees