JP2000222406A - Voice recognition and translation device and its method - Google Patents

Voice recognition and translation device and its method

Info

Publication number
JP2000222406A
JP2000222406A JP11018744A JP1874499A JP2000222406A JP 2000222406 A JP2000222406 A JP 2000222406A JP 11018744 A JP11018744 A JP 11018744A JP 1874499 A JP1874499 A JP 1874499A JP 2000222406 A JP2000222406 A JP 2000222406A
Authority
JP
Japan
Prior art keywords
translation
score
processing
speech recognition
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11018744A
Other languages
Japanese (ja)
Inventor
Hideki Shimomura
秀樹 下村
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11018744A priority Critical patent/JP2000222406A/en
Publication of JP2000222406A publication Critical patent/JP2000222406A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the accuracy of processing by using scores in voice recognition processing and translation processing and to speed up the voice recognition and translation processing by reducing unnecessary processing. SOLUTION: The voice recognition and translation device is provided with a voice recognition means for executing voice recognition processing by applying an acoustic model and a recognition language model to an inputted voice, a voice recognition score generation means for generating a voice recognition score indicating the processing accuracy of voice recognition processing based on a voice recognition result and a translation means for executing translation processing for translating the language of the inputted voice to a different language by using the voice recognition result. The device is also provided with a translation score generation means for generating a translation score indicating the processing accuracy of translation processing, a synthetic score generation means for generating a synthetic score indicating the processing accuracy of voice recognition processing and translation processing by using the voice recognition score outputted from the voice recognition score generation means and the translation score outputted from the translation score generation means and an evaluation means for evaluating the translation result outputted from the translation means.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声で入力された
自然言語を別の自然言語に翻訳する音声認識翻訳装置及
び方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition translation apparatus and method for translating a natural language input by speech into another natural language.

【0002】[0002]

【従来の技術】音声で入力した自然言語(原言語)を別
の自然言語(目的言語)に翻訳して音声、文字列等で出
力する音声認識翻訳装置は、一般に音声認識処理、翻訳
処理の2段階の処理が結合されてなるものである。この
音声認識翻訳装置は、入力された言語を検出した音声信
号について音響モデルを参照して分析することで音響的
に分析を行うことより、音声信号を単語毎に認識する。
そして、音声認識翻訳装置は、音声信号と単語の品詞等
の意味情報との関係を記述した単語辞書情報を用いて各
単語を照合する処理を行うことで複数の単語が接続され
てなる単語列候補を生成する。このとき、音声認識翻訳
装置は、音響モデルとの一致度に基づいて生成した上記
単語列候補についての言語学的な出現確率を示す音声認
識スコアを付加する。
2. Description of the Related Art In general, a speech recognition and translation apparatus that translates a natural language (source language) input by speech into another natural language (target language) and outputs the speech and character strings, etc. The two-stage processing is combined. This speech recognition and translation device recognizes a speech signal for each word by performing acoustic analysis by referring to an acoustic model and analyzing a speech signal in which an input language is detected.
Then, the speech recognition and translation device performs a process of collating each word using word dictionary information that describes the relationship between the speech signal and semantic information such as the part of speech of the word, thereby forming a word string formed by connecting a plurality of words. Generate candidates. At this time, the speech recognition translation apparatus adds a speech recognition score indicating the linguistic appearance probability of the word string candidate generated based on the degree of coincidence with the acoustic model.

【0003】しかし、上述の音声認識翻訳装置におい
て、音響モデルによる音声認識処理を行うことで、少な
い候補で高い認識精度を達成することが難しい。そこ
で、音声認識翻訳装置では、音声認識処理において、言
語的な情報を用いた単語(又は単語列)についての音声
認識スコアの補正、候補の絞り込みを行うことが多い。
[0003] However, in the above-described speech recognition and translation apparatus, it is difficult to achieve high recognition accuracy with a small number of candidates by performing speech recognition processing using an acoustic model. Therefore, in the speech recognition translation apparatus, in the speech recognition processing, correction of the speech recognition score for words (or word strings) using linguistic information and narrowing of candidates are often performed.

【0004】この音声認識処理で用いる各単語の接続関
係を示す認識言語モデルは、音響モデルとの融合のしや
すさから、統計言語モデル、特に大量のサンプル文を示
すコーパス情報から作成した単語の連鎖確率が用いられ
ることが多い。処理形態としても、音響モデルによる単
語列検索処理でのスコア計算に、統計言語モデルのスコ
アも含めて扱うことで、処理の効率を向上させることが
行われている。
[0004] A recognition language model indicating the connection relation of each word used in the speech recognition processing is a statistical language model, particularly a word model of a word created from corpus information indicating a large number of sample sentences, because of easy integration with an acoustic model. Chain probability is often used. As for the processing form, the efficiency of the processing is improved by treating the score calculation in the word string search processing using the acoustic model including the score of the statistical language model.

【0005】一方、上記翻訳処理は、音声認識処理によ
り生成された単語列候補を用いて翻訳処理を行う。この
音声認識翻訳装置で行う翻訳処理の方式としては、抽象
的な言語規則に基づいて原言語の解析を行って翻訳処理
するルールベースの翻訳処理方式、原言語から目的言語
への大量の対訳コーパスを集め、それに基づいて翻訳処
理を行う用例ベースの翻訳処理方式等がある。
On the other hand, the translation process performs a translation process using a word string candidate generated by the speech recognition process. The speech recognition translation apparatus performs a translation process by analyzing a source language based on abstract language rules and performing a translation process, and a large amount of bilingual corpus from a source language to a target language. There is an example-based translation processing method for collecting translations and performing translation processing based thereon.

【0006】上記ルールベースの翻訳処理方式は、少な
い言語規則の記述で大きなカバレッジを得られるという
利点がある。これに対して、上記用例ベースの翻訳処理
方式は、個別の用例に依存した適切な翻訳結果が得られ
るという利点がある。
The above-described rule-based translation processing method has an advantage that a large coverage can be obtained by describing a small number of language rules. On the other hand, the example-based translation processing method has an advantage that an appropriate translation result depending on an individual example can be obtained.

【0007】そして、この音声認識翻訳装置において
は、入力した音声を翻訳した翻訳結果について翻訳処理
における言語的な尺度でスコアを付加し、翻訳結果に付
加されたスコアに基づいて翻訳結果の選別、優先順位付
けがなされる。
In this speech recognition and translation apparatus, a score is added to the translation result obtained by translating the input speech on a linguistic scale in the translation processing, and the translation result is selected based on the score added to the translation result. Prioritization is done.

【0008】[0008]

【発明が解決しようとする課題】上述の音声認識翻訳装
置においては、上記音声認識処理におけるスコア、翻訳
処理におけるスコアをそれぞれ別個に生成して、各処理
における処理精度を評価することで処理の信頼性を向上
させていた。すなわち、上述の音声認識翻訳装置におい
ては、入力した音声に対して得られる翻訳処理による翻
訳結果の評価に際し、音声認識処理におけるスコアが最
終的な翻訳結果のスコアに反映されていないことが多
い。したがって、上述の音声認識翻訳装置においては、
音声認識処理のスコアと翻訳処理のスコアとの相関を用
いて、最終的な翻訳結果の精度を高めることが困難であ
った。
In the above-described speech recognition and translation apparatus, the score in the speech recognition process and the score in the translation process are separately generated, and the accuracy of the process is evaluated by evaluating the processing accuracy in each process. Was improved. That is, in the above-described speech recognition and translation device, when evaluating the translation result obtained by the translation process obtained for the input speech, the score in the speech recognition process is often not reflected in the score of the final translation result. Therefore, in the above-described speech recognition translator,
It has been difficult to improve the accuracy of the final translation result using the correlation between the score of the speech recognition process and the score of the translation process.

【0009】また、音声認識翻訳装置においては、翻訳
処理中に正解である可能性が低い単語列候補に対する解
析処理の中止等の制御を行う際、音声認識処理のスコア
まで含めて解析処理の中止等の判断を行っていないこと
が多い。このような言語的なスコア付けだけからの判断
では、本来正解である単語列候補の解析を中止する危険
を低くするために処理を中止する基準を緩和せざるを得
ず、本来正解でない単語列候補についてまで翻訳処理に
よる翻訳結果を生成するという処理の無駄が生じてい
た。したがって、このような音声認識翻訳装置では、翻
訳処理における処理量を低減することができないという
問題が生じていた。
Further, in the speech recognition and translation device, when performing control such as stopping the analysis process for a word string candidate that is unlikely to be a correct answer during the translation process, the analysis process is suspended including the score of the speech recognition process. In many cases, such decisions have not been made. Judgment based solely on such linguistic scoring has to relax the criteria for stopping the processing in order to reduce the risk of stopping the analysis of a word string candidate that is originally a correct answer. There is a waste of processing of generating a translation result by translation processing up to the candidate. Therefore, in such a speech recognition and translation device, there has been a problem that the processing amount in the translation process cannot be reduced.

【0010】そこで、本発明は、上述したような実情に
鑑みて提案されたものであり、音声認識処理及び翻訳処
理におけるスコアを用いて処理精度を向上させるととも
に、不要な処理を削減することで音声認識翻訳処理の高
速化を実現することができる音声認識翻訳装置及び方法
を提供することを目的とする。
Accordingly, the present invention has been proposed in view of the above-described circumstances, and improves the processing accuracy by using the scores in the speech recognition processing and the translation processing, and reduces unnecessary processing. An object of the present invention is to provide a speech recognition translation apparatus and method capable of realizing high-speed speech recognition translation processing.

【0011】[0011]

【課題を解決するための手段】上述の課題を解決する本
発明に係る音声認識翻訳装置及び方法は、入力された音
声について、音声信号の波形形状を音声として認識する
ために参照される音響モデル及び文を構成する各単語の
接続関係を示す認識言語モデルを適用する音声認識を
し、音声認識結果について音声認識の処理精度を示す音
声認識スコアを生成し、上記音声認識結果を用いて、入
力された音声とは異なる言語に翻訳し、翻訳結果につい
て、翻訳処理の処理精度を示す翻訳スコアを生成し、音
声認識スコアと翻訳スコアとを用いて、音声認識処理及
び翻訳処理の処理精度を示す合成スコアを生成し、合成
スコアを用いて出力する翻訳結果を評価することを特徴
とする。
According to the present invention, there is provided a speech recognition translating apparatus and method for solving the above-mentioned problem, wherein an acoustic model referred to for recognizing a waveform shape of a speech signal as speech for an inputted speech. And performing a speech recognition applying a recognition language model indicating a connection relationship between words constituting the sentence, generating a speech recognition score indicating a processing accuracy of the speech recognition for the speech recognition result, and inputting the speech using the speech recognition result. Translated into a language different from the input speech, generate a translation score indicating the translation processing accuracy of the translation result, and indicate the processing accuracy of the speech recognition process and the translation process using the speech recognition score and the translation score. It is characterized in that a combined score is generated, and a translation result to be output is evaluated using the combined score.

【0012】このような音声認識翻訳装置及び方法によ
れば、音声認識スコアと翻訳スコアとを用いて生成した
合成スコアを用いて出力する翻訳結果を評価する。
According to such a speech recognition translation apparatus and method, a translation result to be output is evaluated using a synthesized score generated using the speech recognition score and the translation score.

【0013】[0013]

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0014】本発明は、例えば図1に示すように構成さ
れた音声認識翻訳装置1に適用される。この音声認識翻
訳装置1は、音声認識処理及び翻訳処理の対象となる外
部からの音声が入力される音声認識部2を備える。この
音声認識部2は、例えば音声を検出するマイクロホン等
からなる図示しない音響電気変換機構で生成された音声
を検出することで得た音声信号を検出する。音声認識部
2は、入力された音声信号について、音響モデル記憶部
3に格納された音響モデル情報及び認識言語モデル記憶
部4に格納された認識言語モデル情報を用いて音声認識
処理を施す。
The present invention is applied to, for example, a speech recognition and translation device 1 configured as shown in FIG. The speech recognition and translation device 1 includes a speech recognition unit 2 to which external speech to be subjected to speech recognition processing and translation processing is input. The voice recognition unit 2 detects a voice signal obtained by detecting a voice generated by an acoustoelectric conversion mechanism (not shown) including, for example, a microphone for detecting a voice. The speech recognition unit 2 performs a speech recognition process on the input speech signal using the acoustic model information stored in the acoustic model storage unit 3 and the recognition language model information stored in the recognition language model storage unit 4.

【0015】上記音響モデル記憶部3は、音声認識部2
によりその内容が読み込まれることで、格納されている
音響モデル情報が音声認識部2に出力される。この音響
モデル記憶部3に格納された音響モデル情報は、音声信
号の波形形状を音声として認識するために参照される情
報である。具体的には音響モデル情報は、図2に示すよ
うに例えば「watashi」という音声が入力された
ときには「私」という単語として認識させるための情報
である。
The acoustic model storage unit 3 includes a speech recognition unit 2
By reading the contents, the stored acoustic model information is output to the speech recognition unit 2. The acoustic model information stored in the acoustic model storage unit 3 is information referred to for recognizing a waveform shape of an audio signal as audio. Specifically, as shown in FIG. 2, the acoustic model information is information for recognizing a word “I” when a voice “watashi” is input, for example.

【0016】また、音響モデル記憶部3には、文を構成
する各単語の意味的な情報を示す単語辞書情報が格納さ
れている。この単語辞書情報は、意味的な情報として例
えば各単語についての品詞を示す情報であり、図2に示
すように「私」という単語が「代名詞」と認識するため
の情報である。
The acoustic model storage unit 3 stores word dictionary information indicating semantic information of each word constituting a sentence. The word dictionary information is, for example, information indicating the part of speech of each word as semantic information, and is information for recognizing the word "I" as a "pronoun" as shown in FIG.

【0017】上記認識言語モデル記憶部4は、音声認識
部2によりその内容が読み込まれることで、格納されて
いる認識言語モデル情報が音声認識部2に出力される。
この認識言語モデル記憶部4には、各単語の接続関係を
記述した認識言語モデル情報が格納されている。この認
識言語モデル情報としては、例えば図3に示すように、
3つの単語を接続するための情報(単語3連鎖)が格納
されており、各情報に対応して各単語の出現確率に基づ
くスコアが付加されている。
When the contents of the recognition language model storage unit 4 are read by the speech recognition unit 2, the stored recognition language model information is output to the speech recognition unit 2.
The recognition language model storage unit 4 stores recognition language model information describing the connection relation of each word. As the recognition language model information, for example, as shown in FIG.
Information for connecting three words (three chains of words) is stored, and a score based on the appearance probability of each word is added to each piece of information.

【0018】音声認識部2は、入力された音声による原
言語の発話の音声信号について、上記音響モデル記憶部
3に格納された音響モデル情報及び上記認識言語モデル
記憶部4に格納された認識言語モデル情報の音声認識に
必要な情報を参照し、原言語を単語列として認識するこ
とで音声認識処理を行う。この音声認識部2による音声
認識結果は、上記単語列候補として翻訳部5に出力され
る。
The speech recognition unit 2 is configured to determine the acoustic model information stored in the acoustic model storage unit 3 and the recognition language stored in the recognition language model storage unit 4 with respect to the speech signal of the utterance of the original language by the input speech. The speech recognition processing is performed by referring to information necessary for speech recognition of the model information and recognizing the source language as a word string. The result of speech recognition by the speech recognition unit 2 is output to the translation unit 5 as the word string candidate.

【0019】このとき、音声認識部2は、生成した単語
列に音声認識スコアを付加して単語列候補を生成する。
この音声認識部2は、音声認識結果としての単語列候補
を図4に示すようなグラフ構造で表現して出力しても良
い。
At this time, the voice recognition unit 2 generates a word string candidate by adding a voice recognition score to the generated word string.
The speech recognition unit 2 may express the word string candidate as a speech recognition result in a graph structure as shown in FIG.

【0020】この音声認識部2により単語列候補に付加
される上記音声認識スコアは、音声信号を検出するとき
音響モデル情報を用いて音声認識処理がなされるときの
単語毎のスコアと、認識言語モデル情報により各単語を
接続して単語列候補を生成したときの制約によるスコア
からなる。
The speech recognition score added to the word string candidate by the speech recognition unit 2 includes a score for each word when speech recognition processing is performed using acoustic model information when a speech signal is detected, and a recognition language. Each word is connected by the model information to generate a word string candidate.

【0021】この音声認識部2は、音響モデル情報を用
いたときのスコアを例えばHMMを用いて生成するとと
もに、認識言語モデル情報を用いたときの上記音声認識
スコアを単語の連鎖確率等の一般的に用いられている技
術を用いることで生成する。また、この音声認識部2
は、例えば文献「中川 聖一著 ”確率モデルによる音声
認識” 社団法人 電子情報通信学会 コロナ社」に記述
されてる確率的文音声認識アルゴリズムを用いた処理を
行うことにより音声認識スコアを生成する。
The speech recognition unit 2 generates a score when using the acoustic model information using, for example, an HMM, and generates the above-mentioned speech recognition score when using the recognition language model information, such as a word chain probability. It is generated by using commonly used technology. Also, this voice recognition unit 2
Generates a speech recognition score by performing processing using a probabilistic sentence speech recognition algorithm described in, for example, a document “Seiichi Nakagawa,“ Speech Recognition by Probabilistic Model ”, The Institute of Electronics, Information and Communication Engineers, Corona”.

【0022】上記翻訳部5は、音声認識部2からの単語
列候補について翻訳言語規則記憶部6に格納された翻訳
言語規則情報を用い、音声認識部2からの単語列候補を
言語的に解析する言語解析処理を行うとともに目的言語
を生成する目的言語生成処理を行う翻訳処理を行う。こ
こで、翻訳部5は、例えば内部のメモリに格納された翻
訳処理アルゴリズムを実行することで上記翻訳処理を行
う。これにより、翻訳部5は、音声認識部2に入力され
た原言語の音声に対し、目的言語への翻訳が行われた文
字データ又は音声合成処理を行うことにより音声として
出力する。また、この翻訳部5は、翻訳処理結果の各候
補についての翻訳スコアを生成して、合成スコア計算部
7に出力する。
The translation unit 5 linguistically analyzes the word sequence candidates from the speech recognition unit 2 using the translation language rule information stored in the translation language rule storage unit 6 for the word sequence candidates from the speech recognition unit 2. And a translation process for performing a target language generation process for generating a target language. Here, the translation unit 5 performs the translation processing by executing, for example, a translation processing algorithm stored in an internal memory. Thus, the translation unit 5 outputs the speech of the source language input to the speech recognition unit 2 by performing character data translated into the target language or speech synthesis processing. The translation unit 5 generates a translation score for each candidate of the translation processing result, and outputs the translation score to the composite score calculation unit 7.

【0023】この翻訳部5は、言語解析用ルールの確
率、生成用文法の確率、生成された単語の目的言語での
表層の単語連鎖確率等、様々な視点からのコスト付けを
用いて上記翻訳スコアを生成する。なお、この翻訳部5
で翻訳スコアを生成する処理は、一般には上述の確率モ
デルを用いる処理のみならず、例えばユーザによりその
内容を調整しても良い。
The translation unit 5 performs the above-mentioned translation using various costs, such as the probability of a rule for language analysis, the probability of a grammar for generation, and the word chain probability of a surface of a generated word in a target language. Generate a score. This translation unit 5
The process of generating the translation score by using not only the process using the above-described probability model but also the content may be adjusted by a user, for example.

【0024】上記翻訳言語規則記憶部6は、翻訳部5に
よりその内容が読み込まれることで、格納されている翻
訳言語規則情報を翻訳部5に出力させる。この翻訳言語
規則情報は、各単語の品詞を認識して、複数の単語が接
続されてなる文及び句を生成するための情報である。こ
の翻訳言語規則情報としては、例えば「形容詞と名詞と
を接続して名詞句を生成する」という形式の規則を示す
情報と、各単語の意味的な情報を示す単語辞書情報とが
ある。更に、この翻訳言語規則情報は、図5に示すよう
に、例えば「文→名詞句’です’」と記述され「文」が
「名詞句」と「です」とからなることを示し、「名詞句
→名詞句’は’名詞句」と記述され「名詞句」が「名詞
句」、「は」、「名詞句」からなること等を示してい
る。すなわち、この翻訳言語規則情報は、文を構成する
ための句や品詞の接続関係、句を構成するための句又は
品詞の接続関係が記述されている。
The translation language rule storage unit 6 causes the translation unit 5 to output the stored translation language rule information by reading the contents of the translation language rule. This translation language rule information is information for recognizing the part of speech of each word and generating a sentence and a phrase formed by connecting a plurality of words. The translation language rule information includes, for example, information indicating a rule in a form of “generating a noun phrase by connecting an adjective and a noun”, and word dictionary information indicating semantic information of each word. Further, as shown in FIG. 5, this translation language rule information describes, for example, "sentence → noun phrase 'is'" and indicates that the "sentence" is composed of "noun phrase" and "is", and "noun phrase" The phrase "noun phrase" is described as "noun phrase", and indicates that "noun phrase" is composed of "noun phrase", "ha", "noun phrase", and the like. In other words, the translation language rule information describes the connection relation of phrases and parts of speech for forming sentences, and the connection relation of phrases or parts of speech for forming phrases.

【0025】そして、この図5に示した翻訳言語規則情
報を用いて、翻訳部5は、上述の図4に示したグラフ構
造で表現された単語列候補を図6に示すように構文木を
作成するように処理して翻訳処理を行う。
Using the translation language rule information shown in FIG. 5, the translation unit 5 converts the word string candidate represented by the graph structure shown in FIG. 4 into a syntax tree as shown in FIG. The translation process is performed by creating it.

【0026】合成スコア計算部7は、音声認識部2から
の音響スコア及び翻訳部5からの翻訳スコアを用いて計
算を行うことで、入力した音声を翻訳して翻訳部5から
出力する翻訳処理結果についての合成スコアを生成す
る。このとき、合成スコア計算部7は、音響スコア及び
翻訳スコアが厳密に上記確率モデルに従って計算されて
いる場合、音響スコアと翻訳スコアとの積或いは対数の
和を取る計算を行うことで上記合成スコアを生成する処
理を行う。そして、この合成スコア計算部7は、生成し
た合成スコアを複数の翻訳処理結果のそれぞれに付加し
て出力する。
The synthetic score calculation unit 7 performs a calculation using the acoustic score from the speech recognition unit 2 and the translation score from the translation unit 5, thereby translating the input speech and outputting the translation from the translation unit 5. Generate a composite score for the result. At this time, when the acoustic score and the translation score are strictly calculated according to the above-mentioned probability model, the synthetic score calculating unit 7 performs the calculation of taking the sum of the product or the logarithm of the acoustic score and the translation score, thereby obtaining the synthetic score. Is performed. Then, the composite score calculation unit 7 adds the generated composite score to each of the plurality of translation processing results and outputs the result.

【0027】更に、合成スコア計算部7は、上記合成ス
コアの値に応じて翻訳処理結果を出力するか否かを判定
する処理を行う。この合成スコア計算部7は、例えば合
成スコアが所定の値以上と判定したときには翻訳処理結
果を出力する処理を行わず、所定の値以下と判定したと
きには合成スコアを付加した翻訳処理結果を出力する処
理を行う。更に、この合成スコア計算部7は、生成した
合成スコアに応じて、合成スコアの高い翻訳処理結果か
ら順次出力する処理を行っても良い。
Further, the composite score calculation section 7 performs a process of determining whether or not to output a translation processing result according to the value of the composite score. For example, when the combined score is determined to be equal to or more than the predetermined value, the combined score calculation unit 7 does not perform the process of outputting the translation processing result, and when the combined score is determined to be equal to or less than the predetermined value, outputs the translated processing result to which the combined score is added. Perform processing. Further, the composite score calculation unit 7 may perform a process of sequentially outputting the translation processing results having higher composite scores in accordance with the generated composite score.

【0028】これにより、合成スコア計算部7は、確率
モデルに従った合成スコアを生成し、原言語の音声から
目的言語の文字列を生成するまでの音声認識部2及び翻
訳部5における処理を経た翻訳処理結果を、採用した確
率モデルに基づいて生成した合成スコアの高い順に出力
する。
Thus, the synthetic score calculation section 7 generates a synthetic score according to the probability model, and performs processing in the voice recognition section 2 and the translation section 5 from generation of a source language voice to a target language character string. The translation processing results that have been passed are output in descending order of the composite score generated based on the adopted probability model.

【0029】このように構成された音声認識翻訳装置1
は、上述したように翻訳処理における翻訳スコアのみな
らず、音声認識処理における音声認識スコアを用いて合
成スコアを生成する合成スコア計算部7を備えているの
で、翻訳部5から出力する翻訳処理結果について音声認
識処理を考慮したスコアを付加して出力することができ
る。したがって、この音声認識翻訳装置1によれば、音
声認識処理を考慮した合成スコアを付加して出力するの
で、入力した音声に対する翻訳処理結果の精度を高める
ことができる。
The speech recognition / translation apparatus 1 configured as described above
Has a synthesized score calculation unit 7 that generates a synthesized score using the speech recognition score in the speech recognition process as well as the translation score in the translation process as described above. Can be output after adding a score in consideration of voice recognition processing. Therefore, according to the speech recognition and translation device 1, since the synthesis score considering the speech recognition process is added and output, the accuracy of the translation process result for the input speech can be improved.

【0030】なお、上記合成スコア計算部7は、音声認
識部2の音声認識処理における音声認識スコアと、翻訳
部5の翻訳処理における翻訳スコアとに重み付け処理を
施すことにより合成スコアを生成しても良い。すなわ
ち、この合成スコア計算部7は、音声認識スコアをXと
し、翻訳スコアをYとし、それぞれにおける重み付け係
数をA,Bとしたとき、AX+BYで表現される評価関
数とする。そして、合成スコア計算部7は、重み付け係
数A,Bを設定し、上記評価関数を適用することで、音
声認識スコア及び翻訳スコアを反映した合成スコアを生
成する。
The composite score calculation unit 7 generates a composite score by weighting the speech recognition score in the speech recognition process of the speech recognition unit 2 and the translation score in the translation process of the translation unit 5. Is also good. That is, when the speech recognition score is X, the translation score is Y, and the weighting factors for each are A and B, the synthetic score calculation unit 7 sets the evaluation function as AX + BY. Then, the synthesis score calculation unit 7 sets the weighting coefficients A and B and applies the above evaluation function to generate a synthesis score reflecting the speech recognition score and the translation score.

【0031】これにより、合成スコア計算部7は、例え
ば合成スコアが厳密な確率モデルではないときや音声認
識処理と翻訳処理の精度が同じでないときにおいて、音
声認識処理又は翻訳処理におけるスコアを優先して合成
スコアを生成する処理を行い、処理精度を向上させる。
Thus, when the synthetic score is not a strict probability model, or when the accuracy of the speech recognition process and the translation process are not the same, the synthetic score calculation unit 7 gives priority to the score in the speech recognition process or the translation process. A process for generating a composite score is performed to improve the processing accuracy.

【0032】なお、上記評価関数は、上述した一例に限
られず、他の式であっても良いことは勿論である。すな
わち、この合成スコア計算部7は、翻訳処理結果につい
ての合成スコアに、音声認識処理における音声認識スコ
アを適切に反映させる評価関数を適用することで、複数
の単語列からなる翻訳処理結果のうちから正しい翻訳処
理結果を選択させる可能性を高くすることができる。
It should be noted that the evaluation function is not limited to the above example, but may be another expression. That is, the synthetic score calculation unit 7 applies the evaluation function that appropriately reflects the voice recognition score in the voice recognition process to the synthetic score for the translation process result, thereby obtaining the translation process result including the plurality of word strings. , It is possible to increase the possibility of selecting a correct translation processing result.

【0033】また、本発明は、例えば図7に示した構成
を有する音声認識翻訳装置10にも適用することができ
る。なお、上述の図1に示した音声認識翻訳装置1と同
一部分については同一符号を付することによりその詳細
な説明を省略する。
The present invention can also be applied to a speech recognition and translation device 10 having, for example, the configuration shown in FIG. The same parts as those of the speech recognition and translation device 1 shown in FIG. 1 are denoted by the same reference numerals, and detailed description thereof will be omitted.

【0034】音声認識翻訳装置10は、音声認識部2か
ら音声認識結果が入力される言語解析生成部11と、言
語解析生成部11からの言語解析結果を用いて合成スコ
アを計算することで生成する合成スコア計算部12とか
らなる翻訳部13を備えている。
The speech recognition translator 10 is generated by calculating a synthetic score using the linguistic analysis generation unit 11 to which the speech recognition result is input from the speech recognition unit 2 and the linguistic analysis result from the linguistic analysis generation unit 11. And a translating unit 13 comprising a synthetic score calculating unit 12 for performing the translation.

【0035】言語解析生成部11は、翻訳言語規則記憶
部6と接続され、当該翻訳言語規則記憶部6から翻訳言
語規則情報を読み込んで翻訳処理アルゴリズムを適用す
ることで、音声認識部2からの音声認識結果を上述の図
6に示したような構文木を作成する言語解析処理と目的
言語の生成処理とからなる翻訳処理を行う。そして、こ
の言語解析生成部11は、生成した目的言語で表現され
た翻訳処理結果を合成スコア計算部12を介して出力す
る。
The language analysis generation unit 11 is connected to the translation language rule storage unit 6, reads the translation language rule information from the translation language rule storage unit 6, and applies the translation processing algorithm to the language analysis generation unit 11. The speech recognition result is subjected to a translation process including a language analysis process for creating a syntax tree as shown in FIG. 6 and a target language generation process. Then, the linguistic analysis generation unit 11 outputs the translation processing result expressed in the generated target language via the synthesis score calculation unit 12.

【0036】また、この言語解析生成部11は、上述の
翻訳処理アルゴリズムを実行することにより、言語解析
処理における途中結果を示す途中処理情報を合成スコア
計算部12に出力する。また、この言語解析生成部11
は、途中処理情報についての途中処理スコアを生成して
途中処理情報に付加して合成スコア計算部12に出力す
る。
Further, the linguistic analysis generation unit 11 outputs to the synthesis score calculation unit 12 intermediate processing information indicating an intermediate result in the linguistic analysis processing by executing the above-described translation processing algorithm. In addition, the language analysis generation unit 11
Generates an intermediate processing score for the intermediate processing information, adds the generated intermediate processing information to the intermediate processing information, and outputs it to the composite score calculation unit 12.

【0037】合成スコア計算部12には、言語解析生成
部11から途中処理情報及び翻訳処理結果とともに、音
声認識部2から音声認識スコアが入力される。この合成
スコア計算部12は、言語解析生成部11から翻訳処理
結果が入力されたときには当該翻訳処理結果に付加され
た翻訳スコア及び音声認識スコアを用いて合成スコアを
生成する。そして合成スコア計算部12は、上述した翻
訳部5と同様に、翻訳スコア及び音声認識スコアを用い
て合成スコアを生成する処理を行うとともに、当該合成
スコアの値に応じて翻訳処理結果を出力するか否かを判
定する処理を行う。
The speech recognition score is input from the speech recognition unit 2 to the synthesis score calculation unit 12 together with the intermediate processing information and the translation processing result from the language analysis generation unit 11. When the translation processing result is input from the language analysis generation unit 11, the synthesis score calculation unit 12 generates a synthesis score using the translation score and the speech recognition score added to the translation processing result. Then, similarly to the translation unit 5 described above, the synthesis score calculation unit 12 performs a process of generating a synthesis score using the translation score and the speech recognition score, and outputs a translation processing result according to the value of the synthesis score. A process is performed to determine whether or not this is the case.

【0038】また、この合成スコア計算部12は、途中
処理情報が入力されたときには当該途中処理情報に付加
された途中処理スコア及び音声認識スコアを用いて、翻
訳処理結果に付加する合成スコアを予測して予測スコア
を生成するスコア予測処理を行う。そして、この合成ス
コア計算部12は、スコア予測処理を行うことにより得
た予測スコアを言語解析生成部11に出力する。
When the intermediate processing information is input, the synthetic score calculating unit 12 predicts a synthetic score to be added to the translation processing result using the intermediate processing score and the speech recognition score added to the intermediate processing information. And performs a score prediction process of generating a prediction score. Then, the composite score calculation unit 12 outputs the prediction score obtained by performing the score prediction process to the language analysis generation unit 11.

【0039】このような翻訳部13の言語解析生成部1
1は、合成スコア計算部12から予測スコアが入力され
たときには、当該予測スコアに応じて翻訳処理を中止す
るか否かを判定する。
The language analysis generation unit 1 of the translation unit 13
When the prediction score is input from the synthetic score calculation unit 12, 1 determines whether to stop the translation process according to the prediction score.

【0040】例えば音声認識部2からの音声認識結果に
ついて翻訳処理を行っているとき、言語解析において非
常に発生しにくい構文規則の適用が連続する途中処理情
報についての予測スコアは非常に低いものとなる。すな
わち、このような途中処理情報より、言語解析生成部1
1で翻訳処理を行っても、正しい翻訳処理結果を得る可
能性は低いことになる。
For example, when a translation process is performed on the speech recognition result from the speech recognition unit 2, the prediction score for the in-process information in which the application of the syntax rule that is very unlikely to occur in the language analysis is continuous is extremely low. Become. That is, based on such intermediate processing information, the language analysis generation unit 1
Even if the translation processing is performed in step 1, it is unlikely that a correct translation processing result is obtained.

【0041】このとき、上述した翻訳部13を備えた音
声認識翻訳装置10によれば、言語解析生成部11で途
中処理スコア及び音声認識スコアを用いて合成スコア計
算部12により予測スコアを生成することで、言語解析
生成部11により予測スコアを参照して翻訳処理アルゴ
リズムによる翻訳処理を中止する処理又は別の単語列候
補についての言語解析処理を行うことができる。また、
この音声認識翻訳装置10によれば、合成スコア計算部
12により途中処理スコアのみならず音声認識スコアも
用いて予測スコアを生成して、言語解析生成部11によ
り翻訳処理を中止する処理を行うので、言語解析生成部
11で翻訳処理を中止するか否かの判定をより的確なも
のとすることができる。
At this time, according to the speech recognition and translation device 10 including the above-described translation unit 13, the linguistic analysis generation unit 11 generates the prediction score by the synthesis score calculation unit 12 using the intermediate processing score and the speech recognition score. Thus, the language analysis generation unit 11 can perform a process of referring to the prediction score to stop the translation process by the translation process algorithm or a language analysis process for another word string candidate. Also,
According to the speech recognition / translation device 10, the synthetic score calculation unit 12 generates a prediction score using not only the midway processing score but also the speech recognition score, and the language analysis generation unit 11 performs a process of stopping the translation process. In addition, it is possible to more accurately determine whether to stop the translation process in the linguistic analysis generation unit 11.

【0042】具体的には、言語解析生成部11は、例え
ば音声認識部2に「私の名前は山田です」という音声が
入力され「My name is yamada」と翻訳して出力する場
合において、例えば翻訳処理アルゴリズムにより図6中
の「私 の 名前」からなる名詞句について言語解析処理
を行った後の途中処理結果及び当該途中処理結果につい
ての途中処理スコアを計算する処理を行う。そして、合
成スコア計算部12は、途中処理結果、途中処理スコ
ア、上記名詞句についての単語列候補の音声認識スコア
を用いて予測スコアを生成する処理を行い言語解析生成
部11に出力する。これにより、言語解析生成部11
は、合成スコア計算部12からの予測スコアが一定値以
下であれば処理を終了するように判定し、予測スコアが
一定値以上であれば処理を継続して行うように判定す
る。
More specifically, the linguistic analysis generation unit 11 outputs, for example, when a voice saying “My name is Yamada” is input to the voice recognition unit 2 and is translated and output as “My name is yamada”. The intermediate processing result after performing the language analysis processing on the noun phrase composed of “my name” in FIG. 6 and the intermediate processing score for the intermediate processing result are calculated by the translation processing algorithm. Then, the synthetic score calculation unit 12 performs a process of generating a prediction score using the intermediate processing result, the intermediate processing score, and the speech recognition score of the word string candidate for the noun phrase, and outputs the predicted score to the language analysis generation unit 11. Thereby, the language analysis generation unit 11
Determines that the process is terminated if the predicted score from the combined score calculation unit 12 is equal to or less than a certain value, and determines that the process is to be continued if the predicted score is equal to or more than a certain value.

【0043】また、上述の音声認識翻訳装置10におい
て、言語解析生成部11は、言語解析処理における途中
処理結果及び途中処理スコアを合成スコア計算部12出
力する処理の一例に限られず、例えば目的言語の生成処
理における途中処理結果及び当該途中処理結果について
の途中処理スコアを生成しても良い。例えば使用される
翻訳言語規則情報の出現確率(スコア)が非常に低いと
き、表層的に現れる目的言語の単語列の出現確率が低い
ときであって当該部分に該当する原言語の音声認識処理
についての音声認識スコアが低いとき、その単語列候補
についての翻訳処理を中止しても良い。
Further, in the above-described speech recognition and translation apparatus 10, the language analysis generation unit 11 is not limited to an example of the processing for outputting the intermediate processing result and the intermediate processing score in the language analysis processing to the synthesis score calculation unit 12, and may include, for example, a target language. May be generated and the intermediate processing score for the intermediate processing result may be generated. For example, when the appearance probability (score) of the used translation language rule information is very low, and when the appearance probability of the word string of the target language appearing on the surface is low, and the speech recognition processing of the source language corresponding to the part concerned, When the voice recognition score is low, the translation process for the word string candidate may be stopped.

【0044】なお、この音声認識翻訳装置10におい
て、翻訳処理で1単語が複数単語になったり語順が大き
く変更することにより、目的言語の単語(単語列)と原
言語音声の単語(単語列)の明確な対応がとれない場合
もある。しかし、名詞など比較的容易に対応がつく場合
も多いので、音声認識スコアと認識スコアを用いて合成
スコアを生成することは翻訳処理結果の処理精度の向上
に有効と考えられる。
In the speech recognition and translation apparatus 10, a word in the target language (word string) and a word in the source language (word string) are obtained by translating one word into a plurality of words or changing the word order greatly. In some cases, a clear response cannot be taken. However, there are many cases where correspondence can be relatively easily made between nouns and the like, and it is considered that generating a synthetic score using the speech recognition score and the recognition score is effective for improving the processing accuracy of the translation processing result.

【0045】なお、音声認識翻訳装置10において、言
語解析生成部11における翻訳処理を中止する処理は、
途中処理スコアのみを用いて処理を行って良いのは勿論
である。
In the speech recognition / translation apparatus 10, the processing for stopping the translation processing in the language analysis generation unit 11 is as follows.
Of course, the processing may be performed using only the intermediate processing score.

【0046】つぎに、上述の図7を用いて説明した音声
認識翻訳装置10における翻訳部13で翻訳処理アルゴ
リズムにより翻訳処理を行うことで、途中処理結果に応
じて翻訳処理を中止するときの一例について図8に示す
フローチャートを参照して説明する。なお、上述の言語
解析処理部11は上記言語解析処理と目的言語生成処理
とを行うことで翻訳処理を行うが、以下の図8のフロー
チャートの説明においては音声認識部2から入力された
ある単語列候補についての翻訳処理が完了又は予測スコ
アにより処理を中止すると判定するまで翻訳処理を実行
するものの一例について説明する。
Next, an example in which the translation unit 13 of the speech recognition translation apparatus 10 described with reference to FIG. 7 performs a translation process according to a translation algorithm, thereby stopping the translation process according to the intermediate processing result. Will be described with reference to the flowchart shown in FIG. The language analysis processing unit 11 performs the translation process by performing the language analysis process and the target language generation process. In the following description of the flowchart of FIG. 8, a certain word input from the speech recognition unit 2 is used. An example in which the translation process is executed until the completion of the translation process for the column candidates or until it is determined that the process is stopped based on the prediction score will be described.

【0047】この図8によれば、先ず、ステップS1に
おいて、言語解析処理部11は、翻訳部13により上記
言語解析処理及び目的言語生成処理を行うことで、翻訳
処理結果を外部に出力して翻訳処理を完了したか否かを
判定する。そして、言語解析処理部11は、翻訳処理を
終了したと判定したときには処理を終了し、翻訳処理を
終了したと判定したときにはステップS2に進む。
According to FIG. 8, first, in step S1, the language analysis processing section 11 outputs the translation processing result to the outside by performing the above-described language analysis processing and target language generation processing by the translation section 13. It is determined whether the translation process has been completed. Then, when the language analysis processing unit 11 determines that the translation process has been completed, the process ends, and when it determines that the translation process has been completed, the process proceeds to step S2.

【0048】次のステップS2において、言語解析生成
部11は、1ステップ分の言語解析処理を行う。ここ
で、1ステップ分の言語解析処理とは、例えば言語解析
を行うときに用いる翻訳言語規則情報を音声認識部2か
らの単語列候補について1回だけ適用する処理をいう。
In the next step S2, the linguistic analysis generation unit 11 performs linguistic analysis processing for one step. Here, the linguistic analysis processing for one step refers to, for example, processing of applying the translation linguistic rule information used when performing linguistic analysis to the word string candidate from the speech recognition unit 2 only once.

【0049】次のステップS3において、言語解析生成
部11は、上記翻訳処理アルゴリズムにおいて上述のス
テップS2に示す処理を行った後における途中処理結果
について上記処理継続チェックを行うか否かを判定す
る。すなわち、この言語解析生成部11は、途中処理結
果についての途中処理スコアに応じて処理を中止する判
定を行うか否かを判定する。そして、言語解析生成部1
1は、処理継続チェックを行うときにはステップS4に
進み、処理継続チェックを行わないときにはステップS
1に戻る。すなわち、この言語解析生成部11は、ステ
ップS3において処理継続チェックを行うと判定される
処理段階まで途中結果の如何に関わらずステップS1〜
ステップS2を繰り返すことで上記翻訳処理アルゴリズ
ムに従って翻訳処理を継続して行う。
In the next step S3, the linguistic analysis generation unit 11 determines whether or not to perform the above-mentioned processing continuation check on the intermediate processing result after performing the above-mentioned processing in step S2 in the above-mentioned translation processing algorithm. That is, the linguistic analysis generation unit 11 determines whether or not to perform the determination to stop the processing according to the intermediate processing score for the intermediate processing result. Then, the language analysis generation unit 1
1 proceeds to step S4 when performing the processing continuation check, and proceeds to step S4 when not performing the processing continuation check.
Return to 1. That is, the linguistic analysis generation unit 11 performs the processing in steps S1 to S1 regardless of the intermediate result until the processing stage in which it is determined in step S3 to perform the processing continuation check.
By repeating step S2, the translation process is continuously performed according to the above translation algorithm.

【0050】次のステップS4において、言語解析生成
部11は、構文木を作成するときに用いた翻訳言語規則
情報と当該翻訳言語規則情報のスコア、翻訳処理の対象
となっている単語列候補についての音響スコアから算出
した途中処理スコアを生成し、当該途中処理スコアとと
もに言語解析処理における途中処理結果を合成スコア計
算部12に出力する。そして、合成スコア計算部12
は、言語解析生成部11からの途中処理スコア及び翻訳
処理の対象となっている音響スコアを用いて、予測スコ
アを計算し、言語解析生成部11に出力する。
In the next step S4, the linguistic analysis and generation unit 11 converts the translated language rule information used for creating the syntax tree, the score of the translated language rule information, and the word string candidate to be translated. The intermediate processing score calculated from the acoustic score is generated, and the intermediate processing result in the linguistic analysis processing is output to the synthetic score calculation unit 12 together with the intermediate processing score. Then, the composite score calculation unit 12
Calculates a prediction score using the intermediate processing score from the language analysis generation unit 11 and the acoustic score to be translated, and outputs the prediction score to the language analysis generation unit 11.

【0051】次のステップS5において、言語解析生成
部11は、合成スコア計算部12から予測スコアが入力
されたときには、当該予測スコアに応じて翻訳処理を継
続するか否かを判定する。そして、この言語解析生成部
11は、翻訳処理を継続しないと判定したときには処理
を終了し、翻訳処理を継続すると判定したときにはステ
ップS1に戻る。すなわち、この言語解析生成部11
は、ステップS1〜ステップS5を繰り返すことで、予
測スコアにより処理を中止するまで翻訳処理を実行する
ことになる。
In the next step S5, when the predicted score is input from the synthesized score calculation unit 12, the language analysis generation unit 11 determines whether or not to continue the translation process according to the predicted score. Then, when the linguistic analysis generation unit 11 determines that the translation process is not to be continued, the process ends, and when it determines that the translation process is to be continued, the process returns to step S1. That is, the language analysis generation unit 11
Means that by repeating steps S1 to S5, the translation process is executed until the process is stopped based on the prediction score.

【0052】このような処理を行う翻訳部13を備えた
音声認識翻訳装置10は、翻訳処理を行っているとき、
所定のステップ毎における途中処理結果についての途中
処理スコア等を用いて合成スコア計算部12により予測
スコアを生成して処理継続チェックを行うので、言語解
析処理中において途中処理結果より翻訳処理結果につい
ての合成スコアが低くなる単語列候補については処理を
終了させることができる。したがって、この音声認識翻
訳装置10によれば、翻訳処理を行う必要がない単語列
候補についての処理を削減することができ、入力された
音声に対する翻訳処理の処理量を低減させて高速な翻訳
処理を行うことができる。
The speech recognition and translation device 10 provided with the translation unit 13 for performing such a process, when performing the translation process,
Since the combined score calculation unit 12 generates a prediction score and performs a processing continuation check using the intermediate processing score and the like for the intermediate processing result at each predetermined step, the translation processing result is compared with the intermediate processing result during the language analysis processing. The processing can be terminated for the word string candidate having a low combined score. Therefore, according to the speech recognition / translation apparatus 10, it is possible to reduce the processing for word string candidates that do not need to be translated, and to reduce the processing amount of the translation processing for the input speech, thereby achieving high-speed translation processing. It can be performed.

【0053】なお、上述のステップS2における1ステ
ップ分の処理とは、上記翻訳処理アルゴリズムに応じて
異なり、この図8における翻訳処理アルゴリズムでは翻
訳処理における言語解析処理中において任意に決定され
る処理段階を経た後に処理継続チェックを行う処理単位
を1ステップとしている。
The processing for one step in step S2 described above differs depending on the translation processing algorithm. The translation processing algorithm in FIG. 8 is a processing step arbitrarily determined during the language analysis processing in the translation processing. The processing unit for performing the processing continuation check after passing through is one step.

【0054】[0054]

【発明の効果】以上詳細に説明したように、本発明に係
る音声認識翻訳装置及び方法によれば、音声認識スコア
と翻訳スコアとを用いて、音声認識処理及び翻訳処理の
処理精度を示す合成スコアを生成し、合成スコアを用い
て出力する翻訳結果を評価するので、翻訳結果に対する
評価の精度を高めることができる。したがって、本発明
に係る音声認識翻訳装置及び方法によれば、音声認識処
理及び翻訳処理におけるそれぞれのスコアを用いて処理
精度を向上させることができる。また、この音声認識翻
訳装置及び方法によれば、音声認識処理についての音声
認識スコアを用いて翻訳結果についてのスコアを生成す
るので、例えば翻訳処理スコアを翻訳処理途中において
算出して合成スコアを生成し、当該合成スコアに応じて
翻訳処理を途中で中止することもでき、翻訳処理におけ
る不要な処理を削減することができ、翻訳処理の高速化
を実現することができる。
As described above in detail, according to the apparatus and method for speech recognition and translation according to the present invention, the synthesis which indicates the processing accuracy of the speech recognition and translation using the speech recognition score and the translation score. Since the score is generated and the translation result to be output is evaluated using the composite score, the accuracy of evaluation of the translation result can be improved. Therefore, according to the apparatus and method for speech recognition and translation according to the present invention, it is possible to improve the processing accuracy by using the respective scores in the speech recognition processing and the translation processing. According to the speech recognition translation apparatus and method, a score for a translation result is generated using a speech recognition score for speech recognition processing. For example, a translation processing score is calculated during the translation processing to generate a synthetic score. However, the translation process can be stopped halfway according to the synthesis score, unnecessary processes in the translation process can be reduced, and the speed of the translation process can be increased.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用した音声認識翻訳装置の構成を示
すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a speech recognition and translation device to which the present invention has been applied.

【図2】音響モデル情報及び単語辞書情報について説明
するための図である。
FIG. 2 is a diagram for describing acoustic model information and word dictionary information.

【図3】認識言語モデル情報について説明するための図
である。
FIG. 3 is a diagram for describing recognition language model information.

【図4】音声認識部から出力されるグラフ構造の出力結
果について説明するための図である。
FIG. 4 is a diagram for describing an output result of a graph structure output from a speech recognition unit.

【図5】翻訳言語規則情報について説明するための図で
ある。
FIG. 5 is a diagram for explaining translation language rule information.

【図6】翻訳部により構文木を作成することで翻訳処理
を行うことを説明するための図である。
FIG. 6 is a diagram illustrating that a translation unit performs a translation process by creating a syntax tree.

【図7】本発明を適用した他の音声認識翻訳装置の構成
を示すブロック図である。
FIG. 7 is a block diagram showing a configuration of another speech recognition and translation apparatus to which the present invention has been applied.

【図8】翻訳部で翻訳処理アルゴリズムにより翻訳処理
を行うことで、途中処理結果に応じて翻訳処理を中止す
る処理を行うときのフローチャートである。
FIG. 8 is a flowchart illustrating a process in which a translation unit performs a translation process according to a translation algorithm, and performs a process of stopping the translation process in accordance with a result of the intermediate process.

【符号の説明】[Explanation of symbols]

1 音声認識翻訳装置、2 音声認識部、5 翻訳部、
7 合成スコア計算部、11 言語解析生成部、12
合成スコア計算部、13 翻訳部
1 speech recognition and translation device, 2 speech recognition unit, 5 translation unit,
7 Composite score calculation unit, 11 Language analysis generation unit, 12
Composite score calculation unit, 13 translation unit

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 入力された音声について、音声信号の波
形形状を音声として認識するために参照される音響モデ
ル及び文を構成する各単語の接続関係を示す認識言語モ
デルを適用することで音声認識処理を行う音声認識手段
と、 上記音声認識手段からの音声認識結果について、上記音
声認識処理の処理精度を示す音声認識スコアを生成する
音声認識スコア生成手段と、 上記音声認識手段からの音声認識結果を用いて入力され
た音声とは異なる言語に翻訳する翻訳処理を行う翻訳手
段と、 上記翻訳手段からの翻訳結果について、上記翻訳処理の
処理精度を示す翻訳スコアを生成する翻訳スコア生成手
段と、 上記音声認識スコア生成手段からの音声認識スコアと上
記翻訳スコア生成手段からの翻訳スコアとを用いて、上
記音声認識処理及び翻訳処理の処理精度を示す合成スコ
アを生成する合成スコア生成手段と、 上記合成スコア生成手段からの合成スコアを用いて、上
記翻訳手段から出力する翻訳結果を評価する評価手段と
を備えることを特徴とする音声認識翻訳装置。
1. Speech recognition by applying, to an inputted speech, an acoustic model referred to for recognizing a waveform shape of a speech signal as speech and a recognition language model indicating a connection relation of each word constituting a sentence. Voice recognition means for performing processing; voice recognition score generation means for generating a voice recognition score indicating processing accuracy of the voice recognition processing with respect to the voice recognition result from the voice recognition means; voice recognition result from the voice recognition means A translation unit that performs a translation process for translating into a language different from the voice input using, a translation score generation unit that generates a translation score indicating the processing accuracy of the translation process for a translation result from the translation unit, Using the voice recognition score from the voice recognition score generating means and the translation score from the translation score generating means, the voice recognition processing and translation A synthetic score generating means for generating a synthetic score indicating processing accuracy of the processing, and an evaluating means for evaluating a translation result output from the translating means by using the synthetic score from the synthetic score generating means. Speech recognition translator.
【請求項2】 上記翻訳手段は、音声認識手段からの音
声認識結果について言語解析を行う言語解析手段と、前
記言語解析手段からの言語解析結果により入力された音
声とは異なる言語を構成する言語生成手段とを備え、 上記翻訳スコア生成手段は、上記言語解析手段からの言
語解析結果についてのスコア及び上記言語生成手段によ
り構成された言語についてのスコアを生成して、翻訳ス
コアを生成することを特徴とする請求項1記載の音声認
識翻訳装置。
2. The translation means according to claim 1, wherein said translation means performs a language analysis on a speech recognition result from the speech recognition means, and a language constituting a language different from the speech input by the language analysis result from said language analysis means. Generating a translation score by generating a score for the linguistic analysis result from the linguistic analysis unit and a score for the language configured by the linguistic generation unit. The speech recognition and translation device according to claim 1, wherein:
【請求項3】 上記翻訳手段における翻訳処理の途中処
理結果について途中処理スコアを生成する途中処理スコ
ア生成手段と、 上記途中スコア生成手段からの途中処理スコアに基づい
て翻訳処理を継続するか否かを判定する途中処理スコア
判定手段とを備えることを特徴とする請求項1記載の音
声認識翻訳装置。
3. An intermediate processing score generating means for generating an intermediate processing score for the intermediate processing result of the translation processing in the translation means, and whether or not to continue the translation processing based on the intermediate processing score from the intermediate score generating means. 2. The speech recognition and translation device according to claim 1, further comprising: an intermediate processing score determination unit that determines the score.
【請求項4】 上記途中処理スコア生成手段からの途中
処理スコアと、上記翻訳手段において翻訳処理の対象と
なっている音声認識結果についての音声認識スコアとを
用いて、翻訳結果についての翻訳スコアを予測して得た
予測スコアを生成する予測スコア生成手段と、 上記予測スコア生成手段からの予測スコアに基づいて翻
訳処理を継続するか否かを判定する予測スコア判定手段
とを備えることを特徴とする請求項3記載の音声認識翻
訳装置。
4. Using the intermediate processing score from the intermediate processing score generating means and a speech recognition score for a speech recognition result to be translated by the translating means, a translation score for the translation result is calculated. A prediction score generation unit that generates a prediction score obtained by prediction; and a prediction score determination unit that determines whether to continue the translation process based on the prediction score from the prediction score generation unit. The speech recognition translator according to claim 3.
【請求項5】 入力された音声について、音声信号の波
形形状を音声として認識するために参照される音響モデ
ル及び文を構成する各単語の接続関係を示す認識言語モ
デルを適用する音声認識処理と、 上記音声認識処理による音声認識結果について、上記音
声認識処理の処理精度を示す音声認識スコアを生成する
音声認識スコア生成処理と、 上記音声認識結果を用いて、入力された音声とは異なる
言語に翻訳する翻訳処理と、 上記翻訳処理による翻訳結果について、上記翻訳処理の
処理精度を示す翻訳スコアを生成する翻訳スコア生成処
理と、 上記音声認識スコアと上記翻訳スコアとを用いて、上記
音声認識処理及び翻訳処理の処理精度を示す合成スコア
を生成する合成スコア生成処理と、 上記合成スコアを用いて、出力する翻訳結果を評価する
評価処理とを有することを特徴とする音声認識翻訳方
法。
5. A speech recognition process for applying, to an inputted speech, an acoustic model referred to for recognizing a waveform shape of a speech signal as a speech and a recognition language model indicating a connection relationship between words constituting a sentence. A voice recognition score generation process for generating a voice recognition score indicating the processing accuracy of the voice recognition process for the voice recognition result obtained by the voice recognition process; and using the voice recognition result to a language different from the input voice. A translation process for translating; a translation score generation process for generating a translation score indicating a processing accuracy of the translation process for a translation result by the translation process; and a speech recognition process using the speech recognition score and the translation score. And a synthetic score generating process for generating a synthetic score indicating the processing accuracy of the translation process, and evaluating the output translation result using the synthetic score. Speech recognition translation method and having an evaluation process for.
【請求項6】 上記翻訳処理は、上記音声認識結果につ
いて言語解析を行う言語解析処理と、言語解析結果によ
り入力された音声とは異なる言語を構成する言語生成処
理とを有し、 上記翻訳スコア生成処理は、上記言語解析結果について
のスコア及び上記言語生成処理により構成された言語に
ついてのスコアを生成して、翻訳スコアを生成すること
を特徴とする請求項5記載の音声認識翻訳方法。
6. The translation process includes a language analysis process for performing a language analysis on the speech recognition result, and a language generation process for configuring a language different from the speech input based on the language analysis result. 6. The speech recognition translation method according to claim 5, wherein in the generation process, a translation score is generated by generating a score for the language analysis result and a score for the language configured by the language generation process.
【請求項7】 上記翻訳処理の途中処理結果について途
中処理スコアを生成する途中処理スコア生成処理と、 上記途中処理スコアに基づいて翻訳処理を継続するか否
かを判定する途中処理スコア判定処理とを有することを
特徴とする請求項5記載の音声認識翻訳方法。
7. An intermediate process score generating process for generating an intermediate process score for the intermediate process result of the translation process, and an intermediate process score determining process for determining whether to continue the translation process based on the intermediate process score. 6. The speech recognition translation method according to claim 5, comprising:
【請求項8】 上記途中処理スコアと、上記翻訳処理の
対象となっている音声認識結果についての音声認識スコ
アとを用いて、翻訳結果についての翻訳スコアを予測し
て得た予測スコアを生成する予測スコア生成処理と、 上記予測スコアに基づいて翻訳処理を継続するか否かを
判定する予測スコア判定処理とを有することを特徴とす
る請求項7記載の音声認識翻訳方法。
8. A prediction score obtained by predicting a translation score for a translation result using the intermediate processing score and a speech recognition score for a speech recognition result to be subjected to the translation process. The speech recognition translation method according to claim 7, further comprising: a prediction score generation process; and a prediction score determination process for determining whether to continue the translation process based on the prediction score.
JP11018744A 1999-01-27 1999-01-27 Voice recognition and translation device and its method Withdrawn JP2000222406A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11018744A JP2000222406A (en) 1999-01-27 1999-01-27 Voice recognition and translation device and its method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11018744A JP2000222406A (en) 1999-01-27 1999-01-27 Voice recognition and translation device and its method

Publications (1)

Publication Number Publication Date
JP2000222406A true JP2000222406A (en) 2000-08-11

Family

ID=11980178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11018744A Withdrawn JP2000222406A (en) 1999-01-27 1999-01-27 Voice recognition and translation device and its method

Country Status (1)

Country Link
JP (1) JP2000222406A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013014877A1 (en) * 2011-07-28 2013-01-31 日本電気株式会社 Reliability calculation device, method for using translation reliability calculation, and program for translation engine
WO2017191711A1 (en) * 2016-05-02 2017-11-09 ソニー株式会社 Control device, control method, and computer program
JP2019003433A (en) * 2017-06-15 2019-01-10 株式会社リクルートライフスタイル Program, display method, and information processing device
CN110148413A (en) * 2019-05-21 2019-08-20 科大讯飞股份有限公司 Speech evaluating method and relevant apparatus
CN112262430A (en) * 2018-08-23 2021-01-22 谷歌有限责任公司 Automatically determining language for speech recognition of a spoken utterance received via an automated assistant interface
CN112652311A (en) * 2020-12-01 2021-04-13 北京百度网讯科技有限公司 Chinese and English mixed speech recognition method and device, electronic equipment and storage medium
WO2021138898A1 (en) * 2020-01-10 2021-07-15 深圳市欢太科技有限公司 Speech recognition result detection method and apparatus, and storage medium

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013014877A1 (en) * 2011-07-28 2013-01-31 日本電気株式会社 Reliability calculation device, method for using translation reliability calculation, and program for translation engine
JPWO2013014877A1 (en) * 2011-07-28 2015-02-23 日本電気株式会社 Reliability calculation device, translation reliability calculation utilization method, and translation engine program
WO2017191711A1 (en) * 2016-05-02 2017-11-09 ソニー株式会社 Control device, control method, and computer program
US11170180B2 (en) 2016-05-02 2021-11-09 Sony Corporation Control device and control method
JP2019003433A (en) * 2017-06-15 2019-01-10 株式会社リクルートライフスタイル Program, display method, and information processing device
CN112262430A (en) * 2018-08-23 2021-01-22 谷歌有限责任公司 Automatically determining language for speech recognition of a spoken utterance received via an automated assistant interface
CN110148413A (en) * 2019-05-21 2019-08-20 科大讯飞股份有限公司 Speech evaluating method and relevant apparatus
CN110148413B (en) * 2019-05-21 2021-10-08 科大讯飞股份有限公司 Voice evaluation method and related device
WO2021138898A1 (en) * 2020-01-10 2021-07-15 深圳市欢太科技有限公司 Speech recognition result detection method and apparatus, and storage medium
CN112652311A (en) * 2020-12-01 2021-04-13 北京百度网讯科技有限公司 Chinese and English mixed speech recognition method and device, electronic equipment and storage medium
CN112652311B (en) * 2020-12-01 2021-09-03 北京百度网讯科技有限公司 Chinese and English mixed speech recognition method and device, electronic equipment and storage medium
US11893977B2 (en) 2020-12-01 2024-02-06 Beijing Baidu Netcom Science Technology Co., Ltd. Method for recognizing Chinese-English mixed speech, electronic device, and storage medium

Similar Documents

Publication Publication Date Title
US10176802B1 (en) Lattice encoding using recurrent neural networks
JP6493866B2 (en) Information processing apparatus, information processing method, and program
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
JP3741156B2 (en) Speech recognition apparatus, speech recognition method, and speech translation apparatus
EP0527650B1 (en) Speech recognition apparatus
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
JP3716870B2 (en) Speech recognition apparatus and speech recognition method
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6374224B1 (en) Method and apparatus for style control in natural language generation
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
JPH0320800A (en) Method and device for recognizing voice
US20090083036A1 (en) Unnatural prosody detection in speech synthesis
US20020095289A1 (en) Method and apparatus for identifying prosodic word boundaries
JP2009139390A (en) Information processing system, processing method and program
KR20080069077A (en) Automatic speech interpretation system based on statistical automatic translation mode, translation processing method and training method thereof
KR101424193B1 (en) System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition
US11783824B1 (en) Cross-assistant command processing
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2000222406A (en) Voice recognition and translation device and its method
JP2006012179A (en) Natural language processor and natural language processing method
JP5243325B2 (en) Terminal, method and program using kana-kanji conversion system for speech recognition
JP3441400B2 (en) Language conversion rule creation device and program recording medium
JP3088364B2 (en) Spoken language understanding device and spoken language understanding system
JP2004271895A (en) Multilingual speech recognition system and pronunciation learning system

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060404