JP4756499B2 - Voice recognition result inspection apparatus and computer program - Google Patents
Voice recognition result inspection apparatus and computer program Download PDFInfo
- Publication number
- JP4756499B2 JP4756499B2 JP2005238236A JP2005238236A JP4756499B2 JP 4756499 B2 JP4756499 B2 JP 4756499B2 JP 2005238236 A JP2005238236 A JP 2005238236A JP 2005238236 A JP2005238236 A JP 2005238236A JP 4756499 B2 JP4756499 B2 JP 4756499B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech recognition
- recognition result
- phrase
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、音声認識結果の単語列を構成する単語を後続する処理の対象として受理すべきか否かを検査する装置に関し、特に、音声翻訳処理のための音声認識処理による結果の信頼度をもとに、後続する翻訳処理への適合性を考慮して検査を行なう装置に関する。 The present invention relates to an apparatus for inspecting whether or not a word constituting a word string of a speech recognition result should be accepted as a target of subsequent processing, and in particular, has a reliability of a result of speech recognition processing for speech translation processing. In particular, the present invention relates to an apparatus for performing inspection in consideration of suitability for subsequent translation processing.
音声翻訳は、ある言語の音声を受けて、その発話内容を別の言語に翻訳して出力する処理である。音声翻訳を自動化・高性能化する技術は、音声言語処理技術の目標の一つといえる。音声翻訳は、一般的に次の二つの技術によって実現される。すなわち、発話音声から発話された単語又は文章を同定するための音声認識と、同定された単語又は文章を、別の言語の単語又は文章に変換するための機械翻訳とである。 Speech translation is a process of receiving speech in a certain language, translating the utterance content into another language and outputting it. The technology to automate and improve the performance of speech translation is one of the goals of spoken language processing technology. Speech translation is generally realized by the following two technologies. That is, voice recognition for identifying a word or sentence uttered from an uttered voice and machine translation for converting the identified word or sentence into a word or sentence in another language.
音声翻訳性能を向上させるためには、音声認識と機械翻訳との連携を緊密にすることが必要となる。そのための種々の技術が提案されている。例えば、非特許文献1には、音声認識と機械翻訳とに、統合された一つの統計モデルを用いる技術が開示されている。非特許文献2には、音声認識結果として複数の候補を生成し、それぞれの候補について機械翻訳を行なって、複数の翻訳結果の中から最適な候補を選択する技術が開示されている。
In order to improve speech translation performance, it is necessary to closely link speech recognition and machine translation. Various techniques for this have been proposed. For example, Non-Patent
高性能な音声翻訳を実現するためには、音声認識性能と機械翻訳性能とをそれぞれ向上させることも必要となる。機械翻訳性能を向上させるための技術として、統計翻訳(Statistical Machine Translation:SMT)において、翻訳処理の単位を長くする技術が提案されている。例えば、非特許文献3には、単語又は連接した複数の単語によって構成される「フレーズ」を処理の単位とした、フレーズベースでの統計翻訳技術が開示されている。この技術では、バイリンガルコーパスから統計翻訳用の統計モデル(以下、翻訳モデル)を学習する過程で、バイリンガルコーパスから自動的に抽出されるフレーズを、翻訳の単位として利用する。翻訳の処理の単位をフレーズにすることにより、単語を単位として翻訳を行なう場合より、単語同士が自然に連接する自然な翻訳結果を得ることができる。
In order to realize high-performance speech translation, it is necessary to improve both speech recognition performance and machine translation performance. As a technique for improving machine translation performance, a technique for prolonging the unit of translation processing has been proposed in statistical machine translation (SMT). For example, Non-Patent
近年の研究の進展とコンピュータの性能の向上とにより、かなりの精度での音声認識が実現されるようになった。しかし、雑音、話者の変化、非文法的な発話等、音声認識の障害となる要因が多数あり、十分な音声認識の性能を達成することが難しい。そのため、音声認識結果を翻訳処理する前に、音声認識処理での音声認識誤りを的確に検出し訂正することが重要である。そのための技術として、音声認識結果として得られる単語列(又はそれを構成する単語)が信頼のおけるものであるか否かを評価する技術が開発されている。例えば、非特許文献4では、音声認識の結果として出力される単語グラフと、単語ごとに付与された単語事後確率とをもとに、一般化された単語事後確率(Generalized Word Posterior Probability:GWPP)を算出し、音声認識結果の各単語に関する評価に、GWPPを使用している。 Recent progress in research and improvements in computer performance have enabled speech recognition with considerable accuracy. However, there are many factors that hinder speech recognition, such as noise, speaker changes, and non-grammatical speech, making it difficult to achieve sufficient speech recognition performance. Therefore, it is important to accurately detect and correct a speech recognition error in the speech recognition process before the speech recognition result is translated. As a technique for that purpose, a technique for evaluating whether or not a word string (or a word constituting the word string) obtained as a speech recognition result is reliable has been developed. For example, in Non-Patent Document 4, a generalized word posterior probability (GWPP) based on a word graph output as a result of speech recognition and a word posterior probability assigned to each word. GWPP is used to evaluate each word of the speech recognition result.
非特許文献1に記載の技術では、音声認識と機械翻訳とに、統合された一つの統計モデルを用いている。しかしこの統合された統計モデルが、音声認識及び機械翻訳の両方に対して最適なモデルであるとは限らない。そのため、音声認識と機械翻訳とのいずれかの性能が犠牲になる恐れがある。実際、機械翻訳においては、非特許文献3に記載の技術のように、フレーズ等の長い単語列を処理単位として処理が可能であるのに対し、音声認識において、そのような長い処理単位での処理を行なうと、かえって認識性能を低下させるおそれがある。非特許文献2に記載の技術では、機械翻訳の処理を複数の候補について行なうことが必要になる。その分処理の量が増大する。
In the technique described in Non-Patent
そのため、音声認識と機械翻訳との連携を緊密なものにするためには、音声認識結果が機械翻訳に適したものであるか否かという観点から、音声認識結果を検証する必要がある。しかしながら、非特許文献1〜3には、このような評価を行なうための技術について、具体的な記載はない。
Therefore, in order to make the cooperation between speech recognition and machine translation closer, it is necessary to verify the speech recognition result from the viewpoint of whether or not the speech recognition result is suitable for machine translation. However,
非特許文献4に記載の技術では、音声認識結果の各単語が認識結果として信頼のおけるものであるか否かについて評価が行なわれる。しかしながら、この技術では、「音声認識結果が機械翻訳に適しているか」という観点で評価が行なわれるものではない。そのためこの技術で高く評価された音声認識結果であっても、機械翻訳に全く適さない場合がある。 In the technique described in Non-Patent Document 4, evaluation is performed as to whether each word of the speech recognition result is reliable as the recognition result. However, this technique does not evaluate from the viewpoint of “whether the speech recognition result is suitable for machine translation”. Therefore, even a speech recognition result highly appreciated by this technique may not be suitable for machine translation at all.
こうした問題は、音声認識と機械翻訳という組合せに限らず、音声認識とその結果を利用する自然言語処理全般との組合せの間にも生じうる。 Such a problem may occur not only in the combination of speech recognition and machine translation, but also in the combination of speech recognition and general natural language processing using the result.
それゆえに、本発明の目的は、音声認識結果の信頼度をもとに、後続する自然言語処理に適したものであるか否かという観点を導入して音声認識結果を検査できる、音声認識結果の検査装置を提供することである。 Therefore, it is an object of the present invention to introduce a viewpoint of whether or not the speech recognition result is suitable for subsequent natural language processing based on the reliability of the speech recognition result. It is to provide an inspection apparatus.
また、本発明の別の目的は、音声認識の性能及び機械翻訳の性能をそれぞれ高く保ちつつ、両者の処理の連携を緊密なものにするための音声認識結果の検査装置を提供することである。 Another object of the present invention is to provide an apparatus for inspecting a speech recognition result for maintaining a high level of speech recognition performance and machine translation performance, and making the processing of both processes closer. .
本発明の第1の局面に係る音声認識結果の検査装置は、音声認識処理により所定の入力音声から生成される音声認識結果の単語列を受けて、音声認識処理に後続する所定のフレーズベースの自然言語処理の対象として、音声認識結果の単語列を構成する単語を受理すべきか否かを検査するための装置である。音声認識結果の検査装置は、自然言語処理のためのコーパスから所定の抽出方法で抽出されたフレーズの集合とともに用いられる。音声認識結果の単語列を構成する単語にはそれぞれ音声認識処理により予め信頼度が付与される。音声認識結果の検査装置は、音声認識結果の単語列を構成する各単語に対し、その単語を含む単語列であって音声認識結果の部分単語列をなす単語列のうちフレーズの集合内に一致するフレーズを持つ単語列の集合の関数として、自然言語処理に対する適合度を付与するための適合度付与手段と、音声認識結果の単語列を構成する単語ごとに、適合度付与手段により当該単語に付与された適合度に応じて定められたしきい値と当該単語に付与された信頼度との比較により、当該単語を受理すべきか否かを決定するための決定手段とを含む。 The speech recognition result inspection apparatus according to the first aspect of the present invention receives a word string of a speech recognition result generated from a predetermined input speech by speech recognition processing, and is based on a predetermined phrase base following the speech recognition processing. This is an apparatus for examining whether or not a word constituting a word string of a speech recognition result should be accepted as a target of natural language processing. The speech recognition result inspection apparatus is used together with a set of phrases extracted by a predetermined extraction method from a corpus for natural language processing. Each word constituting the word string of the speech recognition result is given reliability in advance by the speech recognition process. The speech recognition result inspection device matches, for each word constituting the word sequence of the speech recognition result, a word sequence that includes the word and within a set of phrases in a word sequence that forms a partial word sequence of the speech recognition result As a function of a set of word strings having a phrase to be matched, a fitness level giving means for giving a fitness level for natural language processing, and for each word constituting the word string of the speech recognition result, the fitness level giving means assigns the word to the word. Determining means for determining whether or not to accept the word by comparing the threshold value determined according to the given degree of matching with the confidence level given to the word;
音声認識結果の単語列を構成する単語にはまず、適合度付与手段により適合度が付与される。適合度は、その単語を含む音声認識結果の部分単語列をなす単語列のうち、コーパスから抽出されたフレーズの集合内に一致するフレーズを持つものの集合の関数として与えられる。音声認識結果の単語列の中に、フレーズの集合内に一致するフレーズを持つ部分単語列があれば、その部分単語列にはコーパスとの適合性があると考えられる。すなわち、コーパスを利用して行なわれる後続の自然言語処理にその部分単語列が適していると考えられる。決定手段は、各単語を受理すべきか否かを、適合度に応じて定められたしきい値と信頼度との比較によって決定する。したがって、信頼度に基づく各単語の検査に、「コーパスを利用した自然言語処理に適しているか否か」という観点を導入することができ、音声認識の性能及び機械翻訳の性能を低下させることなく、音声認識と自然言語処理との連携を強化できる。 First, the degree of conformity is given to the words constituting the word string of the speech recognition result by the degree-of-fit provision unit. The goodness-of-fit is given as a function of a set of words having a matching phrase in a set of phrases extracted from the corpus among word strings forming a partial word string of the speech recognition result including the word. If there is a partial word string having a matching phrase in the phrase set in the word string of the speech recognition result, it is considered that the partial word string is compatible with the corpus. That is, the partial word string is considered suitable for subsequent natural language processing performed using a corpus. The determining means determines whether or not each word should be accepted by comparing the threshold value determined according to the degree of matching with the reliability. Therefore, it is possible to introduce the viewpoint of “whether it is suitable for natural language processing using a corpus” in the inspection of each word based on reliability, without reducing the performance of speech recognition and machine translation. , Can strengthen the linkage between speech recognition and natural language processing.
好ましくは、適合度付与手段は、フレーズの集合と、音声認識結果の部分単語列をなす単語列とを照合することにより、フレーズの集合内に一致するフレーズを持つ単語列を検出するための照合手段と、音声認識結果の単語列を構成する各単語に対し、照合手段により検出された単語列のうちその単語を含む単語列からなる集合をもとに、所定の基準にしたがい適合度を付与するための手段とを含む。 Preferably, the matching degree assigning unit collates the phrase set with a word string forming a partial word string of the speech recognition result, thereby detecting a word string having a matching phrase in the phrase set. A degree of conformity is given to each word constituting the word sequence of the speech recognition result and the means according to a predetermined criterion based on a set of word sequences including the word among the word sequences detected by the matching unit Means.
照合手段が音声認識結果の部分単語列をなす単語列とフレーズの集合とを照合することによって、フレーズの集合内に一致するフレーズを持つ単語列が検出される。付与するための手段が、音声認識結果の単語列を構成する各単語に対し、検出された単語列のうちその単語を含む単語列の集合をもとに、適合度を付与する。こうすることにより、一致するフレーズを持つ単語列の検出と、各単語への適合度の付与とを効率的に行なうことができる。 The collation means collates the word string forming the partial word string of the speech recognition result with the phrase set, thereby detecting a word string having a matching phrase in the phrase set. The assigning means assigns a fitness level to each word constituting the word string of the speech recognition result based on a set of word strings including the word among the detected word strings. By doing so, it is possible to efficiently detect a word string having a matching phrase and give a matching degree to each word.
好ましくは、適合度付与手段は、音声認識結果の単語列を構成する各単語に対し、その単語に対する単語列の集合に含まれる単語列の長さの関数として、自然言語処理に対する適合度を付与するための手段を含む。 Preferably, the fitness level assigning unit gives the fitness level for natural language processing to each word constituting the word sequence of the speech recognition result as a function of the length of the word sequence included in the set of word sequences for the word. Means for doing so.
音声認識結果の単語列を構成する単語ごとに、その単語を含みフレーズの集合内に一致するフレーズをもつ部分単語列の長さの関数として、適合度を付与する。したがってこの適合度により、一致したフレーズが存在する部分の長さにより処理性能が変化するような自然言語処理に、認識結果が適しているか否かを評価できる。 For each word constituting the word string of the speech recognition result, the degree of fitness is given as a function of the length of the partial word string that includes the word and has a matching phrase in the phrase set. Therefore, it is possible to evaluate whether or not the recognition result is suitable for natural language processing in which the processing performance varies depending on the length of the portion where the matched phrase exists based on the degree of matching.
付与するための手段は、音声認識結果の単語列を構成する各単語に対し、その単語に対する単語列の集合に含まれる単語列のうち、その単語列を構成する単語数が最大のものの単語数を、適合度として付与してもよい。 The means for giving is, for each word constituting the word string of the speech recognition result, out of the word strings included in the set of word strings for the word, the number of words having the maximum number of words constituting the word string May be given as the fitness.
一致したフレーズの長さが長いほど処理性能が向上するような自然言語処理との適合性を、この適合度によって表すことできる。 The suitability with natural language processing in which the processing performance improves as the length of the matched phrase is longer can be expressed by this suitability.
自然言語処理は、入力音声の言語と所定のターゲット言語とのフレーズベースの統計翻訳処理を含んでもよい。フレーズの集合は、入力音声の言語と所定のターゲット言語とのバイリンガルコーパスから、統計翻訳処理のための翻訳モデルを学習する過程で抽出されたフレーズの集合を含む。適合度付与手段は、音声認識結果の単語列を構成する各単語に対し、その単語に対する単語列の集合の関数として、自然言語処理に対する適合度を付与するための手段を含む。 The natural language process may include a phrase-based statistical translation process between the language of the input speech and a predetermined target language. The set of phrases includes a set of phrases extracted in the process of learning a translation model for statistical translation processing from a bilingual corpus of the input speech language and a predetermined target language. The fitness level assigning means includes means for giving a fitness level for natural language processing as a function of a set of word strings for each word constituting the word sequence of the speech recognition result.
検出されたフレーズをもとに付与される適合度は、バイリンガルコーパス及び当該コーパスから学習された翻訳モデルとの適合性を表すものとなる。したがって、音声認識結果の検査に、その音声認識結果の各単語がフレーズベースの統計翻訳に適しているかという観点を導入することができ、音声認識と統計翻訳との連携を強化できる。 The degree of matching given based on the detected phrase represents the matching between the bilingual corpus and the translation model learned from the corpus. Therefore, the viewpoint of whether each word of the speech recognition result is suitable for phrase-based statistical translation can be introduced into the speech recognition result inspection, and the cooperation between speech recognition and statistical translation can be strengthened.
決定手段は、適合度としきい値とを対応付けて保持するための手段と、音声認識結果の単語列を構成する単語ごとに、その単語に付与された適合度をもとに、保持するための手段により保持された適合度としきい値とにしたがって、その単語に対するしきい値を設定するための手段と、音声認識結果の単語列を構成する単語ごとに、設定するための手段により設定されたしきい値と単語に付与された信頼度との比較によって、その単語を受理すべきか否かを決定するための比較手段とを含んでもよい。 The determining means is for holding the matching level and the threshold in association with each other and for each word constituting the word string of the speech recognition result based on the matching level given to the word Is set by means for setting a threshold for the word according to the fitness and the threshold held by the means, and for each word constituting the word string of the speech recognition result. And comparing means for determining whether or not to accept the word by comparing the threshold value and the reliability assigned to the word.
単語ごとに、その単語の適合度に応じて設定されたしきい値とその単語の信頼度とを比較してその単語を受理すべきか否かを決定することにより、音声認識結果を構成する各単語をコーパスとの適合性を考慮して検査できる。 For each word, each of the constituents of the speech recognition result is determined by comparing whether the word should be accepted by comparing the threshold set according to the degree of fitness of the word and the reliability of the word. Words can be inspected for compatibility with the corpus.
保持するための手段が保持するしきい値は、適合度が高くなるにしたがい低くなるよう選ばれてもよい。 The threshold value held by the means for holding may be selected such that the threshold value decreases as the fitness level increases.
このようなしきい値が選ばれることにより、低い信頼度の単語でも、その単語を含む部分単語列が、後続の自然言語処理に適していれば受理されるようになる。部分単語列が後続のフレーズベースの自然言語処理に適していれば、その部分に対する自然言語処理に失敗する確率は低くなる。そのため結果として、音声認識処理とその結果を用いて行なわれるフレーズベースの自然言語処理とからなる一連の処理の性能が向上する。 By selecting such a threshold value, even a word with low reliability can be accepted if a partial word string including the word is suitable for subsequent natural language processing. If the partial word string is suitable for the subsequent phrase-based natural language processing, the probability that the natural language processing for the portion will fail is low. Therefore, as a result, the performance of a series of processes including a speech recognition process and a phrase-based natural language process performed using the result is improved.
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの音声認識結果の検査装置として動作させる。したがって、上記した音声認識結果の検査装置と同様の効果を得ることができる。 When the computer program according to the second aspect of the present invention is executed by a computer, it causes the computer to operate as any of the speech recognition result inspection apparatuses described above. Therefore, it is possible to obtain the same effects as those of the voice recognition result inspection apparatus described above.
以下、図面を参照しつつ、本発明の一実施の形態について説明する。なお、以下の説明に用いる図面では、同一の物に同一の符号を付してある。それらの名称及び機能も同一である。したがって、それらについての説明は繰返さない。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the drawings used in the following description, the same reference numerals are assigned to the same items. Their names and functions are also the same. Therefore, description thereof will not be repeated.
[概要]
本実施の形態では、音声認識と自然言語処理の一種であるフレーズベースの統計翻訳との組合せによる音声翻訳において、音声認識結果の各単語について、後続の翻訳処理の対象として受理すべきか否かを検査する。この検査においては、各単語について、その単語の信頼性を表す値(以下、この値を「信頼度」と呼ぶ。)としきい値との比較によって、当該各単語の処理対象としての合否を決める。本実施の形態では、信頼度としきい値との比較によって各単語を検査する問題に、音声認識結果の翻訳処理に対する適合性という観点での評価を導入する。すなわち、音声認識結果が翻訳に適しているかを評価し、この評価の結果に応じて単語ごとにしきい値を変化させる。以下、適合性の指標を「適合度」と呼ぶ。
[Overview]
In the present embodiment, whether or not each word of a speech recognition result should be accepted as a target for subsequent translation processing in speech translation by a combination of speech recognition and phrase-based statistical translation which is a kind of natural language processing. inspect. In this inspection, for each word, pass / fail as a processing target of each word is determined by comparing a value representing the reliability of the word (hereinafter, this value is referred to as “reliability”) with a threshold value. . In the present embodiment, evaluation from the viewpoint of suitability of speech recognition results for translation processing is introduced to the problem of checking each word by comparing the reliability with a threshold value. That is, it is evaluated whether the speech recognition result is suitable for translation, and the threshold value is changed for each word according to the result of the evaluation. Hereinafter, the fitness index is referred to as “fitness”.
本実施の形態では、フレーズベースの統計翻訳で使用される翻訳モデルの学習過程で生成されるフレーズを、適合度を得るために利用する。ソース言語及びターゲット言語の多数の対訳文からなるバイリンガルコーパスから翻訳モデルを学習する際には、副産物として多数のフレーズが抽出される。それらは一つのフレーズの集合を形成する。この集合の要素であるフレーズは、バイリンガルコーパスにある文の一部であり、バイリンガルコーパスにより規定されるドメインに頻出するフレーズであるといえる。そのため、音声認識結果にこのようなフレーズと一致する部分があれば、その部分はドメインとの間に適合性があると考えることができる。さらに、その部分が長ければ長いほど、その部分の適合性は高いと考えられる。そこで、本実施の形態では、音声認識結果に含まれる各単語の適合性に関する評価の尺度として、バイリンガルコーパスから抽出されるフレーズに一致する部分の長さを用いる。また、長さの尺度として単語数を用いる。すなわち、音声認識結果の各単語について、当該単語を含む音声認識結果の部分単語列であって、上記したフレーズの集合中に一致するフレーズを持つものからなる集合を考え、この集合に含まれる部分単語列の長さの最大値によって、当該単語の適合度を定める。なお、以下の説明では、上記フレーズの長さを、「フレーズ長」と呼ぶ。部分単語列もまた一つのフレーズであると考えられるから、部分単語列の長さも同じく「フレーズ長」と呼ぶ。音声認識結果内の、上記フレーズ集合内のフレーズのいずれかに一致する部分単語列を「一致部分」と呼ぶ。ある単語を含む全ての一致部分からなる集合のうち、フレーズ長が最大のもののフレーズ長を、「(その単語の)最大一致長」と呼び、「Lmax」で表す。 In the present embodiment, a phrase generated in the learning process of a translation model used in phrase-based statistical translation is used to obtain a goodness of fit. When learning a translation model from a bilingual corpus composed of a large number of parallel translations of a source language and a target language, a large number of phrases are extracted as by-products. They form a set of phrases. The phrase that is an element of this set is a part of a sentence in the bilingual corpus and can be said to be a phrase that frequently appears in the domain defined by the bilingual corpus. Therefore, if there is a part that matches such a phrase in the speech recognition result, it can be considered that the part is compatible with the domain. Furthermore, the longer the part, the higher the suitability of that part. Therefore, in the present embodiment, the length of the portion that matches the phrase extracted from the bilingual corpus is used as a measure for evaluating the suitability of each word included in the speech recognition result. The number of words is used as a measure of length. That is, for each word of the speech recognition result, a partial word string of the speech recognition result including the word, and considering a set having a matching phrase in the set of phrases described above, a portion included in this set The degree of suitability of the word is determined by the maximum length of the word string. In the following description, the length of the phrase is referred to as “phrase length”. Since the partial word string is also considered as one phrase, the length of the partial word string is also called “phrase length”. A partial word string that matches one of the phrases in the phrase set in the speech recognition result is referred to as a “matching portion”. Of the set of all matching parts including a word, the phrase length with the longest phrase length is called “maximum matching length (of the word)” and is represented by “Lmax”.
[構成]
(音声翻訳システムの全体構成)
図1に、本実施の形態に係る音声翻訳システム30の構成をブロック図で示す。図1を参照して、音声翻訳システム30は、所定のバイリンガルコーパス34から翻訳モデルを学習するための翻訳モデル学習装置54と、翻訳モデル学習装置54により学習された翻訳モデルを保持するための翻訳モデル部52とを含む。翻訳モデル学習装置54は、翻訳モデルの学習の過程で、バイリンガルコーパス34からフレーズを抽出する機能を持つ。音声翻訳システム30はさらに、翻訳モデル学習装置54により抽出されるフレーズを蓄積するためのフレーズデータベース56を含む。
[Constitution]
(Overall structure of speech translation system)
FIG. 1 is a block diagram showing the configuration of a
音声翻訳システム30はさらに、音声翻訳と上述したしきい値の学習処理とからいずれかを選択する操作入力42に応じて、翻訳用音声32と学習のために予め用意された学習用音声38A,…,38Pとから処理の対象となる音声46を選択するためのセレクタ44と、セレクタ44により選択された音声46について音声認識処理を行ない、音声認識された単語列と当該単語列の各単語の信頼度とからなる音声認識結果50を出力するための音声認識装置48と、音声認識結果50の各単語の検査を、フレーズデータベース56内のフレーズに対するその単語の最大一致長Lmaxに応じて定められるしきい値とその単語の信頼度とをもとに行ない、音声認識結果50と各単語の最大一致長Lmax及び合否の情報とからなる検査結果76を生成し出力するための検査装置60と、第1及び第2の出力を持ち、セレクタ44に連動し、検査結果76を操作入力42に応じて第1又は第2の出力に対して出力するためのスイッチ78とを含む。
The
音声翻訳システム30はさらに、スイッチ78の第1の出力に接続されて、スイッチ78から検査結果76が与えられると、当該検査結果76に含まれる音声認識結果50に対し各単語の合否に応じた所定の前処理を施すための前処理装置64と、翻訳モデル部52を用いたフレーズベースの統計翻訳により、前処理装置64による前処理済の音声認識結果66から翻訳結果36への翻訳を行なうための翻訳装置68とを含む。本実施の形態では、前処理装置64は、検査結果76をもとに音声認識結果50の単語列から不合格の単語を除去して、前処理済の音声認識結果66を生成して出力する。
The
音声翻訳システム30はさらに、スイッチ78の第2の出力に接続され、スイッチ78から学習用音声38A,…,38Pについての検査結果76が与えられると、当該検査結果76と学習用音声38A,…,38Pについて予め用意された検査結果の正解(以下、「正解検査結果」と呼ぶ。)40A,…,40Pとから、最大一致長Lmaxごとにしきい値を学習するためのしきい値学習部84と、しきい値学習部84による学習により得られた最大一致長Lmaxごとのしきい値からなるしきい値テーブルを保持するためのしきい値テーブル部82とを含む。スイッチ78はセレクタ44と連動している。すなわち、操作入力42に応じてセレクタ44が翻訳用音声32を選択しているときには、検査結果76を前処理装置64に出力し、セレクタ44が学習用音声38A,…,38Pを選択しているときには、検査結果76をしきい値学習部84に出力する。
The
検査装置60は、フレーズデータベース56のフレーズに対する音声認識結果50の各単語の最大一致長Lmaxを求め、音声認識結果50及び各単語の最大一致長Lmaxからなる適合度の評価結果72を生成し出力するための適合度評価部70と、適合度の評価結果72に含まれる音声認識結果50の各単語の合否を、その単語の信頼度及び最大一致長Lmaxとしきい値テーブル部82内のしきい値テーブルとを用いて決定し、適合度の評価結果72と各単語の合否とからなる検査結果76を生成し出力するための合否決定部74とを含む。
The
(音声認識装置48による音声認識結果50)
図2に、音声認識装置48が行なう音声認識処理の概要と、その結果音声認識装置48により出力される音声認識結果50の構成とを模式的に示す。図2を参照して、音声認識装置48は、まず与えられた音声46の音声認識処理100を行ない、音声46を出力しうる発話内容を単語の組合せで表現した単語グラフ102を生成する。単語グラフ102は、単語に対応するパスからなる経路網で構成されたグラフであり、その各パスには音声認識装置48にて付与されたスコアが格納されている。この経路網を通って始点から終点まで進んだ場合の経路が、音声46を出力する単語列に対応する。またこの経路網をもとに各単語の事後確率とGWPPとが算出される。そこで音声認識装置48は、単語グラフ102の経路網から、各単語のスコアに基づいて、経路を選択する処理104を行なう。この処理104により選択された経路が本実施の形態に係る音声認識結果50となる。
(
FIG. 2 schematically shows the outline of the speech recognition processing performed by the
音声認識結果50は、単語グラフ102から選択された経路の単語W1〜WNからなる単語列106と、単語W1〜WNの各々について単語グラフ102から算出される前述のGWPP(GWPP1〜GWPPN)からなる系列108とを含む。本実施の形態に係る音声翻訳システム30では、各単語について算出されるGWPPを、音声認識結果50における当該単語の信頼度として使用する。
The
(フレーズデータベース56)
図3に、フレーズデータベース56(図1参照)のデータ構成を模式的に示す。図3を参照して、フレーズデータベース56には、ソース言語(図3に示す例では日本語)の1又は複数の単語からなるフレーズ120A,…,120Qと、それらのフレーズに対応するターゲット言語のフレーズ122A,…,122Qとを含む。フレーズ120A,…,120Q及び122A,…,122Qはいずれも、ソース言語又はターゲット言語の文法とは無関係にセグメンテーションされた単語列である。そのため、これらのフレーズは、文節等の文法的な単位との間に関連性を持たない。またそのフレーズ長は、フレーズによって異なる。これらのフレーズはいずれも、バイリンガルコーパス34内の文を所定の統計的手法でセグメンテーションすることにより得られるものである。そのためこれらのフレーズはいずれも、バイリンガルコーパス34が規定するドメインに頻出するフレーズといえる。
(Phrase database 56)
FIG. 3 schematically shows the data structure of the phrase database 56 (see FIG. 1). Referring to FIG. 3,
(適合度の評価結果72及び検査結果76)
検査装置60による適合度の評価と信頼度を用いた検査とは、単語単位で行なわれる。図4(A)及び図4(B)にそれぞれ、適合度の評価結果72及び検査結果76のデータ構成を示す。図4(A)を参照して、適合度の評価結果72は、図2に示す音声認識結果50と、音声認識結果50における単語W1〜WNの最大一致長Lmaxからなる系列140とを含む。なお、本実施の形態においては、当該単語を含む一致部分からなる集合の要素数が0である場合、その単語の最大一致長Lmaxを0とする。図4(B)を参照して、検査結果76は、適合度の評価結果72と、単語W1〜WNの合否を表す検査結果列144とを含む。なお図4(B)では、検査結果列144において、単語W1〜WNの合否を「OK(1)」と「NG(0)」とによって表している。
(
The evaluation of the fitness by the
(しきい値テーブル部82の構成)
図5に、しきい値テーブル部82に保持されるしきい値テーブルの構成を示す。図5を参照して、しきい値テーブル160は、それぞれLmax=0、Lmax=1、Lmax=2、Lmax=3、及びLmax>3に対応する5種類のしきい値T0、T1、T2、T3、及びT4を含む。しきい値T0、T1、T2、T3、及びT4はそれぞれ、図1に示すしきい値学習部84による学習によって調整される。
(Configuration of threshold value table unit 82)
FIG. 5 shows the configuration of the threshold value table held in the threshold
(適合度評価部70の構成)
図6に、適合度評価部70の機能的構成をブロック図で示す。図6を参照して、適合度評価部70は、入力された音声認識結果50を記憶するための認識結果記憶部180と、認識結果記憶部180に格納された音声認識結果50中の部分的な単語列(以下、「部分文」と呼ぶ。)とフレーズデータベース56内のフレーズ120A,…,120Q(図3参照)とを照合して、フレーズデータベース56内に一致するフレーズを持つ部分文を検出するための照合部182と、音声認識結果50の各単語について、照合部182による検出結果をもとに最大一致長Lmaxを算出するためのLmax算出部184と、Lmax算出部184により算出された各単語の最大一致長Lmaxを、音声認識結果50の当該単語についての適合度として付与し、認識結果記憶部180内に適合度の評価結果72を形成するための適合度付与部185と、適合度の評価結果72が形成されると認識結果記憶部180からこれを読出して出力するための出力部186とを含む。
(Configuration of conformity evaluation unit 70)
FIG. 6 is a block diagram showing a functional configuration of the
照合部182は、音声認識結果50の単語列106から全ての部分文とその部分文の単語列106内での位置を表す位置標識とを生成するための部分文生成部190と、生成された部分文及びその位置標識を記憶するための部分文記憶部192と、部分文記憶部192内の部分文に一致するフレーズをフレーズデータベース56内で探索し、一致するフレーズがあればその部分文の位置標識を一致部分の位置標識として出力するための探索部194と、探索部194から出力される位置標識を記憶するための一致部分記憶部196とを含む。一致部分記憶部196には、探索部194から出力された全ての位置標識が格納される。すなわち、一致部分記憶部196には、全ての一致部分の位置標識が格納される。
The
Lmax算出部184は、一致部分記憶部196内の位置標識をもとに、認識結果記憶部180内の単語列106の各単語について、当該単語を含む一致部分の集合を求める。Lmax算出部184はさらに、当該集合に含まれる一致部分の各々のフレーズ長を求め、そのフレーズ長から、当該単語についての最大一致長Lmaxを求めて、適合度付与部185に対し出力する。ここでは、ある単語について一致部分の集合が求められれば、当該単語に対する最大一致長が求められるという関数関係が存在する。
Based on the position indicator in the matching
(合否決定部74の構成)
図7に、合否決定部74(図1参照)の機能的構成をブロック図で示す。図7を参照して、合否決定部74は、適合度評価部70から出力された適合度の評価結果72を記憶するための記憶部260と、記憶部260内の適合度の評価結果72から処理対象の単語を順次選択し、当該単語のGWPP及び最大一致長Lmaxを順次出力するための単語選択部270と、単語選択部270から出力された最大一致長Lmaxに応じたしきい値をしきい値テーブル160(図5参照)から選択して出力するためのしきい値設定部272と、GWPPとしきい値設定部272の出力するしきい値とを比較し、その結果を順次出力するための比較部274とを含む。合否決定部74はさらに、比較部274により出力された単語W1〜WNに関する比較の結果を、単語W1〜WNについての検査結果として記憶部260内の適合度の評価結果72に付与することにより、検査結果76を生成するための検査結果付与部264と、検査結果付与部264が検査結果76を生成すると、当該検査結果76を記憶部260から読出して出力するための出力部268とを含む。
(Configuration of the pass / fail determination unit 74)
FIG. 7 is a block diagram showing a functional configuration of the pass / fail determination unit 74 (see FIG. 1). With reference to FIG. 7, the pass /
(しきい値学習部84の構成)
図8に、図1に示すしきい値学習部84の機能的構成をブロック図で示す。図8を参照して、しきい値学習部84は、スイッチ78(図1参照)からしきい値学習部84に与えられる検査結果76に、対応する正解検査結果40A,…,40Pを付与して正解付の学習用検査結果282を生成するための正解付与部280と、生成された正解付の学習用検査結果282を記憶するための学習用検査結果記憶部284と、学習用検査結果記憶部284に格納された正解付の学習用検査結果282から、各単語の検査結果の正誤を正解検査結果に基づいて判定してその結果288を出力するための正誤判定部286と、正誤判定の結果288を記憶するための正誤記憶部290とを含む。
(Configuration of threshold learning unit 84)
FIG. 8 is a block diagram showing a functional configuration of the
しきい値学習部84はさらに、正誤判定部286による正誤の判定が完了すると、正誤記憶部290に格納された正誤判定の結果288をもとに、合否決定部74(図1参照)による検査の性能を評価し、その結果に応じて、正誤記憶部290内の情報を用いてしきい値テーブル160(図5参照)内のしきい値T0〜T4の値を調整するためのしきい値調整部294と、しきい値が調整されると、調整後のしきい値をもとに学習用検査結果記憶部284内の学習用検査結果282について検査を再実施するための再検査部296とを含む。
Further, when the correctness determination by the
学習用検査結果記憶部284に格納される学習用検査結果282は、学習用音声38A,…,38Pの各々に関する検査結果76と、学習用音声38A,…,38Pに対応して予め用意された正解検査結果40A,…,40Pのうち、当該検査結果に対応するものとの組からなる。正解検査結果は、各単語の各検査結果に対応する正解を含む。正誤判定部286は、学習用検査結果記憶部284内の情報に変化が生じると、それに応答して正誤判定を開始する機能を持つ。この判定により生成される正誤判定の結果288は、正解検査結果の単語列に対応するGWPPの系列108(図2参照)及び最大一致長Lmaxの系列140(図4参照)と、検査結果列144により表される各単語の検査結果の正誤を表す正誤標識からなる正誤標識列とを含む。正誤標識はそれぞれ、対応の単語についての検査結果が正解と一致したか否か、一致しなかった場合正解は何であったかを表す。すなわち、検査結果と正解とが一致したことを表す値と、合格(OK)にすべき単語を不合格(NG)にしていることを表す値と、不合格(NG)にすべき単語を合格(OK)にしていることを表す値とである。しきい値調整部294は、最大一致長Lmax別に、合否決定部74(図1参照)による検査の性能を、次に示す信頼度の判定誤り率(Confidence Error Rate:CER)によって評価する機能を持つ。
The
[動作]
本実施の形態の音声翻訳システム30は、以下のように動作する。
[Operation]
The
(翻訳モデルの学習及びフレーズデータの抽出)
図1を参照して、音声翻訳システム30は、翻訳又はしきい値の学習を行なう前に、予め翻訳モデルの学習を行なう。すなわち、翻訳モデル学習装置54は、バイリンガルコーパス34に格納されている対訳文から翻訳モデルの学習を行ない、得られた翻訳モデルを翻訳モデル部52に格納する。翻訳モデル学習装置54はこの学習過程において、バイリンガルコーパス34内に含まれる文から、ソース言語のフレーズ120A,…,120Q及びターゲット言語のフレーズ122A,…,122Q(図3参照)を生成する。生成されたフレーズの各々は、フレーズデータベース56に格納される。
(Learning translation models and extracting phrase data)
Referring to FIG. 1,
(しきい値の学習)
以下、しきい値学習部84がしきい値を学習する動作について説明する。図1を参照して、しきい値の学習が選択され、その選択に対応する操作入力42が音声翻訳システム30に与えられると、セレクタ44が、処理対象の音声46として学習用音声38A,…,38Pを選択する。選択された音声46は、音声認識装置48により音声認識結果50に変換される。さらに検査装置60により音声認識結果50に対する検査が実行され、検査結果76(図4(B)参照)が検査装置60より出力される。しきい値を学習する場合、スイッチ78は、検査結果76をしきい値学習部84に出力する。なお、音声認識装置48及び検査装置60の動作の詳細については、後述する。
(Learning threshold)
Hereinafter, an operation in which the
図8を参照して、しきい値学習部84の正解付与部280に検査結果76が与えられると、正解付与部280は、与えられた検査結果76に、正解検査結果40A,…,40Pから、この検査結果76に対応するものを付与する。その結果、正解付の学習用検査結果282が生成される。生成された正解付の学習用検査結果282は、学習用検査結果記憶部284に格納される。
Referring to FIG. 8, when test result 76 is given to correct
学習用検査結果記憶部284に正解付の学習用検査結果282が格納されると、正誤判定部286は、検査結果列144と対応の正解検査結果との比較により、各単語についての検査結果の正誤を判定し、正誤標識列を生成する。そして正誤判定部286は、正誤標識列と、学習用検査結果282内のGWPPの系列108及び最大一致長Lmaxの系列140とから、正誤判定の結果288を形成し、正誤記憶部290に格納する。
When the
正誤判定部286が、学習用検査結果記憶部284内にある正解付の学習用検査結果282に対する以上の処理を終了すると、しきい値調整部294に対して終了信号を与える。しきい値調整部294は、正誤記憶部290内にある正誤判定の結果288をもとに、適合度ごとにCERを算出し、適合度ごとのCERがそれぞれ最小になるように、しきい値テーブル160内のしきい値T0〜T4を調整する。
When the correctness /
しきい値テーブル160内のしきい値が変更されると、再検査部296は、変更後のしきい値をもとに、学習用検査結果記憶部284に格納された学習用の検査結果に関する再検査を実施して、学習用検査結果記憶部284内に格納された検査結果を変更する。正誤判定部286は、学習用検査結果記憶部284内の情報に変化が生じると、再度正誤判定を行なう。以上のような動作を繰返し、CERが最小化していれば、しきい値の調整を終了する。このような一連の動作により、しきい値テーブル160内のしきい値T0〜T4は、対応する適合度の単語について検査を行なった場合の検査誤りの最も少ないしきい値となる。
When the threshold value in the threshold value table 160 is changed, the
(音声認識)
再び図1を参照して、翻訳用音声32に対する音声翻訳に対応する操作入力42が音声翻訳システム30に与えられると、音声翻訳システム30は、音声翻訳を行なうための一連の動作を開始する。この場合、セレクタ44は、処理対象の音声46として翻訳用音声32を選択する。
(voice recognition)
Referring to FIG. 1 again, when
セレクタ44から音声認識装置48に音声46が与えられると、音声認識装置48は図2を用いて前述した一連の処理を実行する。すなわち、図2を参照して、音声認識装置48はまず、与えられた音声46の音声認識処理100を行なって、単語グラフ102を生成する。音声認識装置48はさらに、単語グラフ102の経路網を構成する各単語について、事後確率を算出し、さらにGWPPを算出する。続いて音声認識装置48は、経路選択104を行なって単語列106を生成すると共に、当該単語列106に対応するGWPPの系列108を生成する。音声認識装置48は、生成された単語列106及び対応するGWPPの系列108の組を音声認識結果50として出力する。
When the
(適合度の評価)
以下に、検査装置60の適合度評価部70(図1参照)が、音声認識結果50から適合度の評価結果72(図4(A)参照)を生成する動作について説明する。図6を参照して、適合度評価部70に音声認識結果50が入力されると、当該音声認識結果50は、認識結果記憶部180に格納される。部分文生成部190は、認識結果記憶部180内の音声認識結果50の単語列106(図2参照)から、部分的な単語列とその位置標識とからなる部分文を生成し、部分文記憶部192に格納する。部分文記憶部192に全ての部分文が格納されると、探索部194は、部分文の各々について次の処理により、各部分文に一致するフレーズの探索を行なう。すなわち、探索部194はまず、処理対象の部分文を選択し、当該部分文と同じフレーズをフレーズデータベース56で探索する。同じフレーズが存在すれば、この部分的な単語列は一致部分の一つとなる。この場合、探索部194は、処理対象の部分文の位置標識を一致部分記憶部196に格納する。同じフレーズがなければ、別の部分文を選択する。探索部194による探索が完了すると、一致部分記憶部196には、一致部分の各々の単語列106内での位置が、格納された位置標識により特定できるようになる。
(Evaluation of conformity)
Hereinafter, an operation in which the fitness evaluation unit 70 (see FIG. 1) of the
全ての一致部分の位置標識が一致部分記憶部196に格納されると、Lmax算出部184は、認識結果記憶部180内の音声認識結果50における単語列106中の単語W1〜WNについて次の処理を行ない、各単語の適合度を決定する。すなわちまず、処理対象の単語Wnを選び、単語Wnの位置を特定する。単語Wnの位置が含まれる全ての位置標識を一致部分記憶部196の中で選ぶ。この結果、実質的に単語Wnに関する一致部分の集合が作成される。選ばれた位置標識をもとに、単語Wnを含む全ての一致部分についてフレーズ長を求める。すなわち、単語Wnに関する一致部分の集合の要素の全てについてフレーズ長を求める。求められたフレーズ長のうち最大のものを探すことにより最大一致長Lmaxを求めて、適合度付与部185に出力する。
When the position markers of all the matching parts are stored in the matching
以上の処理により決定された各単語の適合度は、図6に示す適合度付与部185に与えられる。適合度付与部185は、認識結果記憶部180内の単語W1〜WNにその単語の最大一致長Lmaxを適合度として付与する。これにより認識結果記憶部180内に、図4(A)に示す適合度の評価結果72が形成される。適合度付与部185は、単語W1〜WNについてこの処理が完了すると、終了信号を出力部186に与える。出力部186は、これに応答して、認識結果記憶部180内の情報を読出して出力する。その結果、適合度の評価結果72が出力されることになる。
The fitness level of each word determined by the above processing is given to the fitness
(合否の決定)
以下に、合否決定部74(図1参照)が、適合度の評価結果72と信頼度とをもとに各単語を検査する動作について説明する。図7を参照して、合否決定部74に適合度の評価結果72が入力されると、当該適合度の評価結果72は、記憶部260に記憶される。単語選択部270は、適合度の評価結果72における単語W1〜WNの中から処理対象の単語Wnを順次選択し、当該単語Wnの適合度とGWPPとをそれぞれ、しきい値設定部272と比較部274とに与える。
(Decision of pass / fail)
Below, the operation | movement which the pass / fail determination part 74 (refer FIG. 1) test | inspects each word based on the
単語Wnの適合度が与えられると、しきい値設定部272は、しきい値テーブル160(図5参照)から、その適合度に対応するしきい値を読出して、比較部274に与える。例えば、図4(B)に示すn番目の単語Wnの最大一致長Lmaxは1である。図5に示すしきい値テーブル160において、Lmax=1の単語に関するしきい値はT1である。したがって、しきい値設定部272は、しきい値T1を比較部274に与える。比較部274は、単語WnのGWPPとしきい値とを比較する。単語WnのGWPPがしきい値T1以上であれば、合格(OK)を表す第1の値を出力する。さもなければ不合格(NG)を表す第2の値を出力する。
When the fitness level of word W n is given, threshold
以上のようにして比較部274から出力される値が、順次図7に示す検査結果付与部264に与えられると、検査結果付与部264は、その値をもとに検査結果列144(図4(B)参照)を形成して、記憶部260内の適合度の評価結果72に付与する。これにより記憶部260内に、図4(B)に示す検査結果76が形成される。検査結果付与部264は、この処理が完了すると、終了信号266を出力部268に与える。出力部268は、これに応答して記憶部260内の情報を読出して出力する。その結果、検査結果76が図1に示すスイッチ78に出力される。スイッチ78は、検査結果76の入力を受けると、その時点で選択されている処理に対応する出力に対して、当該検査結果76を出力する。この場合スイッチ78は、検査結果76を前処理装置64に対して出力する。
When the values output from the
(前処理及び翻訳)
図1に示す前処理装置64は、スイッチ78から検査結果76の入力を受けると、検査結果76をもとに、前処理を行なう。本実施の形態では、検査結果が不合格(NG)の単語を、音声認識結果の単語列W1〜WNから除去して、翻訳用の音声認識結果を生成する。翻訳装置68は、翻訳モデル部52に記憶されているフレーズベースの翻訳モデルを用いた統計翻訳により、翻訳結果36を生成する。
(Pre-processing and translation)
When the
[実験]
本実施の形態に係る音声翻訳システム30における単語の検査性能を評価するために、しきい値の学習実験と、当該学習実験により得られたフレーズテーブルを用いての音声認識結果の検査実験とを行なった。
[Experiment]
In order to evaluate the word inspection performance in the
学習実験及び検査実験では、出願人により作成された旅行会話基本表現コーパス(Basic Travel Expression Corpus:BTEC)を使用して、学習実験用のデータセット及び検査実験用のデータセットを作成した。以下、これらをそれぞれ「学習セット」及び「テストセット」と呼ぶ。学習セットは、BTECの1016種類の発声からなり、当該データセット全体での単語数は延べ7215単語である。テストセットは、BTECの3060種類の発声からなり、当該データセット全体での単語数は延べ21005単語である。 In the learning experiment and the examination experiment, a data set for the learning experiment and a data set for the examination experiment were created by using the travel conversation basic expression corpus (Basic Travel Expression Corpus: BTEC) created by the applicant. These are hereinafter referred to as “learning set” and “test set”, respectively. The learning set is composed of 1016 kinds of BTEC utterances, and the total number of words in the entire data set is 7215 words. The test set consists of 3060 utterances of BTEC, and the total number of words in the entire data set is 21005 words.
本実験では、音声認識装置48として、出願人において開発されたものを使用した。本実験では、フレーズデータベース56もまた、出願人により予め作成されたものを用いた。このフレーズデータベース56に格納されたフレーズは異なり数約80万フレーズであった。フレーズ長L別の異なり数の内訳を、次のテーブル1に示す。
In this experiment, the
学習実験ではまず、学習セットに含まれる各発声に対する音声認識を行ない、各音声認識結果について単語ごとにLmaxを算出し、さらに検査結果の正解を付与した。そして、正解に対する検査結果のCERが最小となるよう、Lmaxごとにしきい値の学習を行なった。この学習実験の結果得られたしきい値テーブルを次のテーブル2に示す。 In the learning experiment, speech recognition was first performed for each utterance included in the learning set, Lmax was calculated for each word for each speech recognition result, and a correct answer of the test result was given. Then, the threshold value is learned for each Lmax so that the CER of the inspection result for the correct answer is minimized. The threshold value table obtained as a result of this learning experiment is shown in the following table 2.
検査実験では、テストセットに含まれる各発話に対する音声認識を行ない、各音声認識結果について、予め単語ごとに検査結果の正解とを付与した。この検査実験では、比較のため、次の2種類の方法で検査を行なった。すなわち一方は、本実施の形態の検査方法であり、テーブル2に示すしきい値テーブルを使用した検査である。他方は、Lmaxに関係なく全単語共通のしきい値を用いた検査である。以下、これらの検査方法をそれぞれ、単に「検査1」、「検査2」と呼ぶ。なお検査2では、全単語共通のしきい値を0.62に設定した。この値は、Lmaxによらずにしきい値固定とし、CERが最小となるように調整されたしきい値である。2種類の検査方法による検査結果についてそれぞれ、Lmax別にCERを求めた。また、テストセット全体のCERも求めた。テストセットに占める単語の割合と、2種類の検査方法による検査結果の各々についてのCERとを、次のテーブル3においてLmax別に示す。
In the test experiment, speech recognition was performed for each utterance included in the test set, and a correct answer of the test result was assigned to each word in advance for each speech recognition result. In this inspection experiment, the following two kinds of methods were used for comparison. That is, one is the inspection method of the present embodiment, which is an inspection using the threshold value table shown in Table 2. The other is a test using a threshold common to all words regardless of Lmax. Hereinafter, these inspection methods are simply referred to as “
検査1及び検査2の検査結果についてのCERを比較すると、Lmax>3、Lmax=1、及びLmax=0の単語について、検査1の検査結果に対するCERは、検査2の結果に対するCERより比べて低下した。テストセット全体についてのCERを比較すると、検査1及び検査2に対するCERはそれぞれ、4.3(%)及び4.5(%)であった。したがって、GWPPを評価尺度とする検査において、各単語の合否の判定基準として最適なしきい値は、Lmaxに応じて変化することが明らかとなった。さらに、学習により最適化されたしきい値を合否の判定基準として使用することにより、Lmaxが大きな単語及びLmaxが小さな単語の両方、並びに検査対象の単語全体において、検査性能に改善が見られることが明らかとなった。このようにして性能の改善された検査方法で音声認識結果を検査し前処理を行なうことにより、音声認識と統計翻訳との連携が強化されるため、音声翻訳の処理の全体的な性能の向上が期待できる。
Comparing the CER for the examination results of
[コンピュータによる実現]
本実施の形態の音声翻訳システム30は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図9はこのコンピュータシステム330の外観を示し、図10はコンピュータシステム330の内部構成を示す。
[Realization by computer]
The
図9を参照して、このコンピュータシステム330は、コンピュータ340と、モニタ342と、キーボード346と、マウス348と、マイクロフォン370と、スピーカ372とを含む。コンピュータ340は、CD−ROM(コンパクトディスク読出専用メモリ)ドライブ350及びFD(フレキシブルディスク)ドライブ352を有する。
With reference to FIG. 9, the
図10を参照して、コンピュータ340は、CD−ROMドライブ350及びFDドライブ352に加えて、ハードディスク354と、CPU(中央処理装置)356と、FDドライブ352、CD−ROMドライブ350、ハードディスク354、及びCPU356に接続されたバス366と、バス366に接続され、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータ340はさらに、バス366、マイクロフォン370、及びスピーカ372とに接続されたサウンドボード368を含む。ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
10, in addition to the CD-
コンピュータシステム330に音声翻訳システム30としての動作を行なわせるためのプログラムは、CD−ROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。プログラムは、CD−ROM362から、FD364から、又はネットワークを介して、直接にRAM360にロードしてもよい。なお、バイリンガルコーパス34(図1参照)は例えばハードディスク354に記憶され、翻訳モデル部52の学習時にその必要部分が適宜RAM360に読込まれる。学習により得られる翻訳モデル及びその過程で抽出されるフレーズもまた、例えばハードディスク354に記憶され、必要に応じて必要部分が適宜RAM360に読込まれる。
A program for causing the
上記プログラムは、コンピュータ340を本実施の形態の音声翻訳システム30として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又はコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムは本実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した音声翻訳システム30としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
The program includes a plurality of instructions that cause the
上記実施の形態では、各単語についての信頼度としてGWPPを用いた。しかし、検査装置による検査に用いることのできる信頼度は、GWPPには限定されない。音声認識結果の単語列中の各単語に、所定の評価尺度で信頼度が付与されていれば、当該付与されている信頼度を用いて各単語を検査することができる。ただし、その場合、当該付与されている信頼度を用いて検査を行なうために、予めしきい値の学習をLmax別に行なっておくことが必要である。又は何らかの学習によりLmax別に決定されたしきい値をしきい値テーブルとして設定しておくことが必要となる。 In the above embodiment, GWPP is used as the reliability for each word. However, the reliability that can be used for inspection by the inspection apparatus is not limited to GWPP. If each word in the word string of the speech recognition result is given a reliability with a predetermined evaluation scale, each word can be inspected using the given reliability. However, in that case, in order to perform the inspection using the assigned reliability, it is necessary to perform threshold value learning in advance for each Lmax. Alternatively, it is necessary to set a threshold value table determined for each Lmax by some learning as a threshold value table.
また、フレーズデータベースには、ソース言語及びターゲット言語のフレーズの対が格納されていた。しかし、本発明はこのような実施の形態には限定されない。検査装置60は、ソース言語のフレーズを用いて適合性の評価を行なう。そのため、予めソース言語のフレーズのみを格納したデータベースを用意しておき、当該データベースを用いて適合性の評価を行なうようにしてもよい。
The phrase database stores pairs of phrases in the source language and the target language. However, the present invention is not limited to such an embodiment. The
本実施の形態では、フレーズとの照合の対象として、音声認識結果から全ての組合せで部分文を作成した。しかし、本発明はこのような実施の形態には限定されない。例えば、フレーズデータベースにおいて、各フレーズの出現頻度等の確率情報が得られるならば、当該確率情報に基づき、音声認識結果にフレーズ単位のセグメンテーションを行なってもよい。このようにすることにより、フレーズのオーバーラップを回避して、効率的にLmaxを求めることができる。また、本実施の形態では、適合度としてLmaxを用いたが、さらに、上記確率情報を加味して、適合度を求めるようにしてもよい。 In the present embodiment, partial sentences are created with all combinations from the speech recognition result as the target of collation with the phrase. However, the present invention is not limited to such an embodiment. For example, if probability information such as the appearance frequency of each phrase can be obtained in the phrase database, segmentation in units of phrases may be performed on the speech recognition result based on the probability information. By doing so, it is possible to efficiently obtain Lmax while avoiding phrase overlap. In this embodiment, Lmax is used as the fitness level. However, the fitness level may be obtained in consideration of the probability information.
なお、上記した実施の形態では、音声認識結果の各単語について、一致部分の集合を求め、集合に含まれる一致部分のフレーズ長の最大値(最大一致長Lmax)に基づいて適合度を定めている。しかし、音声認識結果の各単語と、後続するフレーズベースの自然言語処理との適合度を定める方法はこれには限定されない。あるフレーズの集合が与えられた場合、音声認識結果のある単語を含む部分単語列であって、当該フレーズの集合に含まれるものからなる集合を求めれば、当該集合の関数として適合度を定めることができる。 In the embodiment described above, a set of matching parts is obtained for each word of the speech recognition result, and the fitness is determined based on the maximum phrase length (maximum matching length L max ) of the matching parts included in the set. ing. However, the method for determining the degree of matching between each word of the speech recognition result and the subsequent phrase-based natural language processing is not limited to this. When a set of phrases is given, if a set of partial words that include a word with a speech recognition result and is included in the set of phrases is determined, the fitness is determined as a function of the set. Can do.
上記実施の形態では、この関数は「集合を構成する一致部分のうち、フレーズ長が最大のもののフレーズ長」であった。それ以外にも、例えば、部分単語列の集合の要素数、平均のフレーズ長、各要素のフレーズ長の和、等に基づいて適合度の算出を行なうことができる。 In the above embodiment, this function is “the phrase length having the largest phrase length among the matching portions constituting the set”. In addition, the fitness can be calculated based on, for example, the number of elements in the set of partial word strings, the average phrase length, the sum of the phrase lengths of each element, and the like.
上記実施の形態では、前処理装置64は、検査結果をもとに不合格の単語を音声認識結果の単語列から排除することにより、翻訳用の単語列を生成した。しかし、本実施の形態の検査装置60による検査結果を用いた前処理は、このようなものには限定されない。例えば、検査結果が不合格の単語が一つでも存在すれば、音声認識結果そのものを棄却するようにしてもよい。この場合、音声認識結果の棄却に応答して所定のエラー信号を発行するようにすると便利である。また例えば、音声認識装置がN−ベストの音声認識結果を出力するようにし、前処理装置がN−ベストの音声認識結果の各々に対する検査結果に基づき、翻訳に最適な音声認識結果を選択するようにしてもよい。逆に、翻訳に使用される翻訳モデル及びその学習に用いられるバイリンガルコーパスのドメインが、認識すべき音声の言語及びドメインに適合しているかを評価することも可能である。さらに、その評価をもとに、適切なバイリンガルコーパス及び翻訳モデルを選ぶことにより、認識すべき音声に対する音声翻訳の性能の向上が期待できる。
In the above-described embodiment, the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 音声翻訳システム
34 バイリンガルコーパス
44 セレクタ
48 音声認識装置
52 翻訳モデル部
54 翻訳モデル学習装置
56 フレーズデータベース
60 検査装置
64 前処理装置
68 翻訳装置
70 適合度評価部
74 合否決定部
78 スイッチ
82 しきい値テーブル部
84 しきい値学習部
160 しきい値テーブル
180 認識結果記憶部
182 照合部
184 Lmax算出部
185 適合度付与部
186,268 出力部
190 部分文生成部
192 部分文記憶部
194 探索部
196 一致部分記憶部
260 記憶部
264 検査結果付与部
270 単語選択部
272 しきい値設定部
274 比較部
280 正解付与部
284 学習用検査結果記憶部
286 正誤判定部
290 正誤記憶部
294 しきい値調整部
296 再検査部
DESCRIPTION OF
Claims (4)
前記音声認識結果の検査装置は、前記自然言語処理において使用される統計的モデルの学習用のためのコーパスから所定の抽出方法で抽出されたフレーズの集合とともに用いられ、
前記音声認識結果の単語列を構成する単語にはそれぞれ前記音声認識処理により予め信頼度が付与され、
前記音声認識結果の検査装置は、
前記音声認識結果の単語列を構成する各単語に対し、当該単語を含む単語列であって前記音声認識結果の部分単語列をなす単語列のうち前記フレーズの集合内に一致するフレーズを持つ単語列の集合の関数として、前記自然言語処理に対する適合度を付与するための適合度付与手段と、
前記音声認識結果の単語列を構成する単語ごとに、前記適合度付与手段により当該単語に付与された適合度に応じて定められたしきい値と当該単語に付与された前記信頼度との比較により、当該単語を受理すべきか否かを決定するための決定手段とを含み、
前記適合度付与手段は、
前記フレーズの集合と、前記音声認識結果の部分単語列をなす単語列とを照合することにより、前記フレーズの集合内に一致するフレーズを持つ単語列を検出するための照合手段と、
前記音声認識結果の単語列を構成する各単語に対し、前記照合手段により検出された単語列のうち当該単語を含む単語列からなる集合をもとに、前記集合内に含まれる単語列のフレーズ長の最大値、平均値、若しくは和、又は、前記集合に含まれる要素の数に基づき、前記適合度を付与するための手段とを含む、音声認識結果の検査装置。 A word sequence of a speech recognition result generated from a predetermined input speech by speech recognition processing, and a word sequence of the speech recognition result as a target of a predetermined phrase-based statistical natural language processing subsequent to the speech recognition processing A speech recognition result inspection device for inspecting whether or not the words constituting the word should be accepted,
The speech recognition result inspection device is used together with a set of phrases extracted by a predetermined extraction method from a corpus for statistical model learning used in the natural language processing,
Each word constituting the word sequence of the speech recognition result is given a reliability in advance by the speech recognition process,
The voice recognition result inspection apparatus comprises:
For each word constituting the word string of the speech recognition result, a word having a phrase that matches the phrase set in the word string that includes the word and forms a partial word string of the voice recognition result A fitness level giving means for giving a fitness level to the natural language processing as a function of a set of columns;
For each word constituting the word string of the speech recognition result, a comparison is made between the threshold value determined according to the fitness level given to the word by the fitness level giving means and the reliability level given to the word Accordingly, it viewed including a determination means for determining whether or not to accept the word,
The fitness level giving means is
Collating means for detecting a word string having a matching phrase in the phrase set by comparing the phrase set and a word string forming a partial word string of the speech recognition result;
For each word constituting the word string of the speech recognition result, a phrase of the word string included in the set based on a set of word strings including the word among the word strings detected by the matching unit A speech recognition result inspection apparatus comprising: a maximum value, an average value, or a sum of lengths, or means for giving the fitness based on the number of elements included in the set .
前記フレーズの集合は、前記入力音声の言語と前記所定のターゲット言語とのバイリンガルコーパスから、前記統計翻訳処理のための翻訳モデルを学習する過程で抽出されたフレーズの集合を含む、請求項1に記載の音声認識結果の検査装置。 The natural language process includes a phrase-based statistical translation process between the language of the input speech and a predetermined target language,
The set of phrases includes a set of phrases extracted in a process of learning a translation model for the statistical translation process from a bilingual corpus of a language of the input speech and the predetermined target language. Inspection device for the voice recognition result described.
前記適合度と前記しきい値とを対応付けて保持するための手段と、
前記音声認識結果の単語列を構成する単語ごとに、当該単語に付与された適合度をもとに、前記保持するための手段により保持された適合度としきい値とにしたがって、当該単語に対する前記しきい値を設定するための手段と、
前記音声認識結果の単語列を構成する単語ごとに、前記設定するための手段により設定された前記しきい値と当該単語に付与された前記信頼度との比較によって、当該単語を受理すべきか否かを決定するための比較手段とを含む、請求項1又は請求項2に記載の音声認識結果の検査装置。 The determining means includes
Means for associating and holding the fitness and the threshold;
For each word constituting the word string of the speech recognition result, based on the fitness given to the word, the fitness for the word according to the fitness and the threshold held by the means for holding Means for setting a threshold;
Whether to accept the word by comparing the threshold value set by the setting means and the reliability assigned to the word for each word constituting the word string of the speech recognition result The voice recognition result inspection apparatus according to claim 1, further comprising: a comparison unit for determining whether or not .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005238236A JP4756499B2 (en) | 2005-08-19 | 2005-08-19 | Voice recognition result inspection apparatus and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005238236A JP4756499B2 (en) | 2005-08-19 | 2005-08-19 | Voice recognition result inspection apparatus and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007052307A JP2007052307A (en) | 2007-03-01 |
JP4756499B2 true JP4756499B2 (en) | 2011-08-24 |
Family
ID=37916792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005238236A Expired - Fee Related JP4756499B2 (en) | 2005-08-19 | 2005-08-19 | Voice recognition result inspection apparatus and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4756499B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247711A (en) * | 2017-06-28 | 2017-10-13 | 努比亚技术有限公司 | A kind of two-way translation method, mobile terminal and computer-readable recording medium |
US10867136B2 (en) | 2016-07-07 | 2020-12-15 | Samsung Electronics Co., Ltd. | Automatic interpretation method and apparatus |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8422787B2 (en) | 2007-12-27 | 2013-04-16 | Nec Corporation | Apparatus, method and program for text segmentation |
EP3511931A4 (en) * | 2016-09-09 | 2019-08-21 | Sony Corporation | Speech processing device, information processing device, speech processing method, and information processing method |
CN107818086B (en) * | 2016-09-13 | 2021-08-10 | 株式会社东芝 | Machine translation method and device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148757A (en) * | 1998-11-05 | 2000-05-30 | Matsushita Electric Ind Co Ltd | Language converting method |
JP3822990B2 (en) * | 1999-01-07 | 2006-09-20 | 株式会社日立製作所 | Translation device, recording medium |
JP2000214881A (en) * | 1999-01-27 | 2000-08-04 | Sony Corp | Apparatus and method for sound recognition linguistic model generation |
JP2004355226A (en) * | 2003-05-28 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | Inter-different language dialog equipment and method |
JP2007514992A (en) * | 2003-11-10 | 2007-06-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Audio dialogue system and voice browsing method |
-
2005
- 2005-08-19 JP JP2005238236A patent/JP4756499B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867136B2 (en) | 2016-07-07 | 2020-12-15 | Samsung Electronics Co., Ltd. | Automatic interpretation method and apparatus |
CN107247711A (en) * | 2017-06-28 | 2017-10-13 | 努比亚技术有限公司 | A kind of two-way translation method, mobile terminal and computer-readable recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP2007052307A (en) | 2007-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9190054B1 (en) | Natural language refinement of voice and text entry | |
KR101262812B1 (en) | Methods and system for grammar fitness evaluation as speech recognition error predictor | |
US20090083036A1 (en) | Unnatural prosody detection in speech synthesis | |
JP4680714B2 (en) | Speech recognition apparatus and speech recognition method | |
US6763331B2 (en) | Sentence recognition apparatus, sentence recognition method, program, and medium | |
KR100853173B1 (en) | Automatic speech interpretation system based on statistical automatic translation mode, translation processing method and training method thereof | |
JP4756499B2 (en) | Voice recognition result inspection apparatus and computer program | |
US11556722B1 (en) | System and method for editing transcriptions with improved readability and correctness | |
Korzekwa et al. | Weakly-supervised word-level pronunciation error detection in non-native English speech | |
Zhang et al. | A novel decision function and the associated decision-feedback learning for speech translation | |
KR20150092879A (en) | Language Correction Apparatus and Method based on n-gram data and linguistic analysis | |
US20040148169A1 (en) | Speech recognition with shadow modeling | |
JP5099367B2 (en) | Request content identification system, request content identification method and program in natural language | |
CN117292680A (en) | Voice recognition method for power transmission operation detection based on small sample synthesis | |
KR20130126570A (en) | Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof | |
López-Cózar et al. | ASR post-correction for spoken dialogue systems based on semantic, syntactic, lexical and contextual information | |
Wieling et al. | Inducing phonetic distances from dialect variation | |
Tjalve et al. | Pronunciation variation modelling using accent features | |
Yoon et al. | Predicting word accuracy for the automatic speech recognition of non-native speech. | |
KR102374405B1 (en) | Apparatus and method for post-processing speech recognition in artificial intelligence interview | |
JP2003308094A (en) | Method for correcting recognition error place in speech recognition | |
JP2006018354A (en) | Text division device and natural language processor | |
AT&T | ||
JP4478925B2 (en) | Speech recognition result reliability verification apparatus, computer program, and computer | |
KR20090006903A (en) | Method and apparatus for auto translation using speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110524 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4756499 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140610 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |