JP2000222406A - 音声認識翻訳装置及び方法 - Google Patents
音声認識翻訳装置及び方法Info
- Publication number
- JP2000222406A JP2000222406A JP11018744A JP1874499A JP2000222406A JP 2000222406 A JP2000222406 A JP 2000222406A JP 11018744 A JP11018744 A JP 11018744A JP 1874499 A JP1874499 A JP 1874499A JP 2000222406 A JP2000222406 A JP 2000222406A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- score
- processing
- speech recognition
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 音声認識処理及び翻訳処理におけるスコアを
用いて処理精度を向上させるとともに、不要な処理を削
減することで音声認識翻訳処理の高速化を図る。 【解決手段】 入力された音声について、音響モデル及
び認識言語モデルを適用することで音声認識処理を行う
音声認識手段と、音声認識結果について、音声認識処理
の処理精度を示す音声認識スコアを生成する音声認識ス
コア生成手段と、音声認識結果を用いて入力された音声
とは異なる言語に翻訳する翻訳処理を行う翻訳手段と、
翻訳処理の処理精度を示す翻訳スコアを生成する翻訳ス
コア生成手段と、音声認識スコア生成手段からの音声認
識スコアと翻訳スコア生成手段からの翻訳スコアとを用
いて、音声認識処理及び翻訳処理の処理精度を示す合成
スコアを生成する合成スコア生成手段と、合成スコアを
用いて、翻訳手段から出力する翻訳結果を評価する評価
手段とを備える。
用いて処理精度を向上させるとともに、不要な処理を削
減することで音声認識翻訳処理の高速化を図る。 【解決手段】 入力された音声について、音響モデル及
び認識言語モデルを適用することで音声認識処理を行う
音声認識手段と、音声認識結果について、音声認識処理
の処理精度を示す音声認識スコアを生成する音声認識ス
コア生成手段と、音声認識結果を用いて入力された音声
とは異なる言語に翻訳する翻訳処理を行う翻訳手段と、
翻訳処理の処理精度を示す翻訳スコアを生成する翻訳ス
コア生成手段と、音声認識スコア生成手段からの音声認
識スコアと翻訳スコア生成手段からの翻訳スコアとを用
いて、音声認識処理及び翻訳処理の処理精度を示す合成
スコアを生成する合成スコア生成手段と、合成スコアを
用いて、翻訳手段から出力する翻訳結果を評価する評価
手段とを備える。
Description
【0001】
【発明の属する技術分野】本発明は、音声で入力された
自然言語を別の自然言語に翻訳する音声認識翻訳装置及
び方法に関する。
自然言語を別の自然言語に翻訳する音声認識翻訳装置及
び方法に関する。
【0002】
【従来の技術】音声で入力した自然言語(原言語)を別
の自然言語(目的言語)に翻訳して音声、文字列等で出
力する音声認識翻訳装置は、一般に音声認識処理、翻訳
処理の2段階の処理が結合されてなるものである。この
音声認識翻訳装置は、入力された言語を検出した音声信
号について音響モデルを参照して分析することで音響的
に分析を行うことより、音声信号を単語毎に認識する。
そして、音声認識翻訳装置は、音声信号と単語の品詞等
の意味情報との関係を記述した単語辞書情報を用いて各
単語を照合する処理を行うことで複数の単語が接続され
てなる単語列候補を生成する。このとき、音声認識翻訳
装置は、音響モデルとの一致度に基づいて生成した上記
単語列候補についての言語学的な出現確率を示す音声認
識スコアを付加する。
の自然言語(目的言語)に翻訳して音声、文字列等で出
力する音声認識翻訳装置は、一般に音声認識処理、翻訳
処理の2段階の処理が結合されてなるものである。この
音声認識翻訳装置は、入力された言語を検出した音声信
号について音響モデルを参照して分析することで音響的
に分析を行うことより、音声信号を単語毎に認識する。
そして、音声認識翻訳装置は、音声信号と単語の品詞等
の意味情報との関係を記述した単語辞書情報を用いて各
単語を照合する処理を行うことで複数の単語が接続され
てなる単語列候補を生成する。このとき、音声認識翻訳
装置は、音響モデルとの一致度に基づいて生成した上記
単語列候補についての言語学的な出現確率を示す音声認
識スコアを付加する。
【0003】しかし、上述の音声認識翻訳装置におい
て、音響モデルによる音声認識処理を行うことで、少な
い候補で高い認識精度を達成することが難しい。そこ
で、音声認識翻訳装置では、音声認識処理において、言
語的な情報を用いた単語(又は単語列)についての音声
認識スコアの補正、候補の絞り込みを行うことが多い。
て、音響モデルによる音声認識処理を行うことで、少な
い候補で高い認識精度を達成することが難しい。そこ
で、音声認識翻訳装置では、音声認識処理において、言
語的な情報を用いた単語(又は単語列)についての音声
認識スコアの補正、候補の絞り込みを行うことが多い。
【0004】この音声認識処理で用いる各単語の接続関
係を示す認識言語モデルは、音響モデルとの融合のしや
すさから、統計言語モデル、特に大量のサンプル文を示
すコーパス情報から作成した単語の連鎖確率が用いられ
ることが多い。処理形態としても、音響モデルによる単
語列検索処理でのスコア計算に、統計言語モデルのスコ
アも含めて扱うことで、処理の効率を向上させることが
行われている。
係を示す認識言語モデルは、音響モデルとの融合のしや
すさから、統計言語モデル、特に大量のサンプル文を示
すコーパス情報から作成した単語の連鎖確率が用いられ
ることが多い。処理形態としても、音響モデルによる単
語列検索処理でのスコア計算に、統計言語モデルのスコ
アも含めて扱うことで、処理の効率を向上させることが
行われている。
【0005】一方、上記翻訳処理は、音声認識処理によ
り生成された単語列候補を用いて翻訳処理を行う。この
音声認識翻訳装置で行う翻訳処理の方式としては、抽象
的な言語規則に基づいて原言語の解析を行って翻訳処理
するルールベースの翻訳処理方式、原言語から目的言語
への大量の対訳コーパスを集め、それに基づいて翻訳処
理を行う用例ベースの翻訳処理方式等がある。
り生成された単語列候補を用いて翻訳処理を行う。この
音声認識翻訳装置で行う翻訳処理の方式としては、抽象
的な言語規則に基づいて原言語の解析を行って翻訳処理
するルールベースの翻訳処理方式、原言語から目的言語
への大量の対訳コーパスを集め、それに基づいて翻訳処
理を行う用例ベースの翻訳処理方式等がある。
【0006】上記ルールベースの翻訳処理方式は、少な
い言語規則の記述で大きなカバレッジを得られるという
利点がある。これに対して、上記用例ベースの翻訳処理
方式は、個別の用例に依存した適切な翻訳結果が得られ
るという利点がある。
い言語規則の記述で大きなカバレッジを得られるという
利点がある。これに対して、上記用例ベースの翻訳処理
方式は、個別の用例に依存した適切な翻訳結果が得られ
るという利点がある。
【0007】そして、この音声認識翻訳装置において
は、入力した音声を翻訳した翻訳結果について翻訳処理
における言語的な尺度でスコアを付加し、翻訳結果に付
加されたスコアに基づいて翻訳結果の選別、優先順位付
けがなされる。
は、入力した音声を翻訳した翻訳結果について翻訳処理
における言語的な尺度でスコアを付加し、翻訳結果に付
加されたスコアに基づいて翻訳結果の選別、優先順位付
けがなされる。
【0008】
【発明が解決しようとする課題】上述の音声認識翻訳装
置においては、上記音声認識処理におけるスコア、翻訳
処理におけるスコアをそれぞれ別個に生成して、各処理
における処理精度を評価することで処理の信頼性を向上
させていた。すなわち、上述の音声認識翻訳装置におい
ては、入力した音声に対して得られる翻訳処理による翻
訳結果の評価に際し、音声認識処理におけるスコアが最
終的な翻訳結果のスコアに反映されていないことが多
い。したがって、上述の音声認識翻訳装置においては、
音声認識処理のスコアと翻訳処理のスコアとの相関を用
いて、最終的な翻訳結果の精度を高めることが困難であ
った。
置においては、上記音声認識処理におけるスコア、翻訳
処理におけるスコアをそれぞれ別個に生成して、各処理
における処理精度を評価することで処理の信頼性を向上
させていた。すなわち、上述の音声認識翻訳装置におい
ては、入力した音声に対して得られる翻訳処理による翻
訳結果の評価に際し、音声認識処理におけるスコアが最
終的な翻訳結果のスコアに反映されていないことが多
い。したがって、上述の音声認識翻訳装置においては、
音声認識処理のスコアと翻訳処理のスコアとの相関を用
いて、最終的な翻訳結果の精度を高めることが困難であ
った。
【0009】また、音声認識翻訳装置においては、翻訳
処理中に正解である可能性が低い単語列候補に対する解
析処理の中止等の制御を行う際、音声認識処理のスコア
まで含めて解析処理の中止等の判断を行っていないこと
が多い。このような言語的なスコア付けだけからの判断
では、本来正解である単語列候補の解析を中止する危険
を低くするために処理を中止する基準を緩和せざるを得
ず、本来正解でない単語列候補についてまで翻訳処理に
よる翻訳結果を生成するという処理の無駄が生じてい
た。したがって、このような音声認識翻訳装置では、翻
訳処理における処理量を低減することができないという
問題が生じていた。
処理中に正解である可能性が低い単語列候補に対する解
析処理の中止等の制御を行う際、音声認識処理のスコア
まで含めて解析処理の中止等の判断を行っていないこと
が多い。このような言語的なスコア付けだけからの判断
では、本来正解である単語列候補の解析を中止する危険
を低くするために処理を中止する基準を緩和せざるを得
ず、本来正解でない単語列候補についてまで翻訳処理に
よる翻訳結果を生成するという処理の無駄が生じてい
た。したがって、このような音声認識翻訳装置では、翻
訳処理における処理量を低減することができないという
問題が生じていた。
【0010】そこで、本発明は、上述したような実情に
鑑みて提案されたものであり、音声認識処理及び翻訳処
理におけるスコアを用いて処理精度を向上させるととも
に、不要な処理を削減することで音声認識翻訳処理の高
速化を実現することができる音声認識翻訳装置及び方法
を提供することを目的とする。
鑑みて提案されたものであり、音声認識処理及び翻訳処
理におけるスコアを用いて処理精度を向上させるととも
に、不要な処理を削減することで音声認識翻訳処理の高
速化を実現することができる音声認識翻訳装置及び方法
を提供することを目的とする。
【0011】
【課題を解決するための手段】上述の課題を解決する本
発明に係る音声認識翻訳装置及び方法は、入力された音
声について、音声信号の波形形状を音声として認識する
ために参照される音響モデル及び文を構成する各単語の
接続関係を示す認識言語モデルを適用する音声認識を
し、音声認識結果について音声認識の処理精度を示す音
声認識スコアを生成し、上記音声認識結果を用いて、入
力された音声とは異なる言語に翻訳し、翻訳結果につい
て、翻訳処理の処理精度を示す翻訳スコアを生成し、音
声認識スコアと翻訳スコアとを用いて、音声認識処理及
び翻訳処理の処理精度を示す合成スコアを生成し、合成
スコアを用いて出力する翻訳結果を評価することを特徴
とする。
発明に係る音声認識翻訳装置及び方法は、入力された音
声について、音声信号の波形形状を音声として認識する
ために参照される音響モデル及び文を構成する各単語の
接続関係を示す認識言語モデルを適用する音声認識を
し、音声認識結果について音声認識の処理精度を示す音
声認識スコアを生成し、上記音声認識結果を用いて、入
力された音声とは異なる言語に翻訳し、翻訳結果につい
て、翻訳処理の処理精度を示す翻訳スコアを生成し、音
声認識スコアと翻訳スコアとを用いて、音声認識処理及
び翻訳処理の処理精度を示す合成スコアを生成し、合成
スコアを用いて出力する翻訳結果を評価することを特徴
とする。
【0012】このような音声認識翻訳装置及び方法によ
れば、音声認識スコアと翻訳スコアとを用いて生成した
合成スコアを用いて出力する翻訳結果を評価する。
れば、音声認識スコアと翻訳スコアとを用いて生成した
合成スコアを用いて出力する翻訳結果を評価する。
【0013】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら詳細に説明する。
て図面を参照しながら詳細に説明する。
【0014】本発明は、例えば図1に示すように構成さ
れた音声認識翻訳装置1に適用される。この音声認識翻
訳装置1は、音声認識処理及び翻訳処理の対象となる外
部からの音声が入力される音声認識部2を備える。この
音声認識部2は、例えば音声を検出するマイクロホン等
からなる図示しない音響電気変換機構で生成された音声
を検出することで得た音声信号を検出する。音声認識部
2は、入力された音声信号について、音響モデル記憶部
3に格納された音響モデル情報及び認識言語モデル記憶
部4に格納された認識言語モデル情報を用いて音声認識
処理を施す。
れた音声認識翻訳装置1に適用される。この音声認識翻
訳装置1は、音声認識処理及び翻訳処理の対象となる外
部からの音声が入力される音声認識部2を備える。この
音声認識部2は、例えば音声を検出するマイクロホン等
からなる図示しない音響電気変換機構で生成された音声
を検出することで得た音声信号を検出する。音声認識部
2は、入力された音声信号について、音響モデル記憶部
3に格納された音響モデル情報及び認識言語モデル記憶
部4に格納された認識言語モデル情報を用いて音声認識
処理を施す。
【0015】上記音響モデル記憶部3は、音声認識部2
によりその内容が読み込まれることで、格納されている
音響モデル情報が音声認識部2に出力される。この音響
モデル記憶部3に格納された音響モデル情報は、音声信
号の波形形状を音声として認識するために参照される情
報である。具体的には音響モデル情報は、図2に示すよ
うに例えば「watashi」という音声が入力された
ときには「私」という単語として認識させるための情報
である。
によりその内容が読み込まれることで、格納されている
音響モデル情報が音声認識部2に出力される。この音響
モデル記憶部3に格納された音響モデル情報は、音声信
号の波形形状を音声として認識するために参照される情
報である。具体的には音響モデル情報は、図2に示すよ
うに例えば「watashi」という音声が入力された
ときには「私」という単語として認識させるための情報
である。
【0016】また、音響モデル記憶部3には、文を構成
する各単語の意味的な情報を示す単語辞書情報が格納さ
れている。この単語辞書情報は、意味的な情報として例
えば各単語についての品詞を示す情報であり、図2に示
すように「私」という単語が「代名詞」と認識するため
の情報である。
する各単語の意味的な情報を示す単語辞書情報が格納さ
れている。この単語辞書情報は、意味的な情報として例
えば各単語についての品詞を示す情報であり、図2に示
すように「私」という単語が「代名詞」と認識するため
の情報である。
【0017】上記認識言語モデル記憶部4は、音声認識
部2によりその内容が読み込まれることで、格納されて
いる認識言語モデル情報が音声認識部2に出力される。
この認識言語モデル記憶部4には、各単語の接続関係を
記述した認識言語モデル情報が格納されている。この認
識言語モデル情報としては、例えば図3に示すように、
3つの単語を接続するための情報(単語3連鎖)が格納
されており、各情報に対応して各単語の出現確率に基づ
くスコアが付加されている。
部2によりその内容が読み込まれることで、格納されて
いる認識言語モデル情報が音声認識部2に出力される。
この認識言語モデル記憶部4には、各単語の接続関係を
記述した認識言語モデル情報が格納されている。この認
識言語モデル情報としては、例えば図3に示すように、
3つの単語を接続するための情報(単語3連鎖)が格納
されており、各情報に対応して各単語の出現確率に基づ
くスコアが付加されている。
【0018】音声認識部2は、入力された音声による原
言語の発話の音声信号について、上記音響モデル記憶部
3に格納された音響モデル情報及び上記認識言語モデル
記憶部4に格納された認識言語モデル情報の音声認識に
必要な情報を参照し、原言語を単語列として認識するこ
とで音声認識処理を行う。この音声認識部2による音声
認識結果は、上記単語列候補として翻訳部5に出力され
る。
言語の発話の音声信号について、上記音響モデル記憶部
3に格納された音響モデル情報及び上記認識言語モデル
記憶部4に格納された認識言語モデル情報の音声認識に
必要な情報を参照し、原言語を単語列として認識するこ
とで音声認識処理を行う。この音声認識部2による音声
認識結果は、上記単語列候補として翻訳部5に出力され
る。
【0019】このとき、音声認識部2は、生成した単語
列に音声認識スコアを付加して単語列候補を生成する。
この音声認識部2は、音声認識結果としての単語列候補
を図4に示すようなグラフ構造で表現して出力しても良
い。
列に音声認識スコアを付加して単語列候補を生成する。
この音声認識部2は、音声認識結果としての単語列候補
を図4に示すようなグラフ構造で表現して出力しても良
い。
【0020】この音声認識部2により単語列候補に付加
される上記音声認識スコアは、音声信号を検出するとき
音響モデル情報を用いて音声認識処理がなされるときの
単語毎のスコアと、認識言語モデル情報により各単語を
接続して単語列候補を生成したときの制約によるスコア
からなる。
される上記音声認識スコアは、音声信号を検出するとき
音響モデル情報を用いて音声認識処理がなされるときの
単語毎のスコアと、認識言語モデル情報により各単語を
接続して単語列候補を生成したときの制約によるスコア
からなる。
【0021】この音声認識部2は、音響モデル情報を用
いたときのスコアを例えばHMMを用いて生成するとと
もに、認識言語モデル情報を用いたときの上記音声認識
スコアを単語の連鎖確率等の一般的に用いられている技
術を用いることで生成する。また、この音声認識部2
は、例えば文献「中川 聖一著 ”確率モデルによる音声
認識” 社団法人 電子情報通信学会 コロナ社」に記述
されてる確率的文音声認識アルゴリズムを用いた処理を
行うことにより音声認識スコアを生成する。
いたときのスコアを例えばHMMを用いて生成するとと
もに、認識言語モデル情報を用いたときの上記音声認識
スコアを単語の連鎖確率等の一般的に用いられている技
術を用いることで生成する。また、この音声認識部2
は、例えば文献「中川 聖一著 ”確率モデルによる音声
認識” 社団法人 電子情報通信学会 コロナ社」に記述
されてる確率的文音声認識アルゴリズムを用いた処理を
行うことにより音声認識スコアを生成する。
【0022】上記翻訳部5は、音声認識部2からの単語
列候補について翻訳言語規則記憶部6に格納された翻訳
言語規則情報を用い、音声認識部2からの単語列候補を
言語的に解析する言語解析処理を行うとともに目的言語
を生成する目的言語生成処理を行う翻訳処理を行う。こ
こで、翻訳部5は、例えば内部のメモリに格納された翻
訳処理アルゴリズムを実行することで上記翻訳処理を行
う。これにより、翻訳部5は、音声認識部2に入力され
た原言語の音声に対し、目的言語への翻訳が行われた文
字データ又は音声合成処理を行うことにより音声として
出力する。また、この翻訳部5は、翻訳処理結果の各候
補についての翻訳スコアを生成して、合成スコア計算部
7に出力する。
列候補について翻訳言語規則記憶部6に格納された翻訳
言語規則情報を用い、音声認識部2からの単語列候補を
言語的に解析する言語解析処理を行うとともに目的言語
を生成する目的言語生成処理を行う翻訳処理を行う。こ
こで、翻訳部5は、例えば内部のメモリに格納された翻
訳処理アルゴリズムを実行することで上記翻訳処理を行
う。これにより、翻訳部5は、音声認識部2に入力され
た原言語の音声に対し、目的言語への翻訳が行われた文
字データ又は音声合成処理を行うことにより音声として
出力する。また、この翻訳部5は、翻訳処理結果の各候
補についての翻訳スコアを生成して、合成スコア計算部
7に出力する。
【0023】この翻訳部5は、言語解析用ルールの確
率、生成用文法の確率、生成された単語の目的言語での
表層の単語連鎖確率等、様々な視点からのコスト付けを
用いて上記翻訳スコアを生成する。なお、この翻訳部5
で翻訳スコアを生成する処理は、一般には上述の確率モ
デルを用いる処理のみならず、例えばユーザによりその
内容を調整しても良い。
率、生成用文法の確率、生成された単語の目的言語での
表層の単語連鎖確率等、様々な視点からのコスト付けを
用いて上記翻訳スコアを生成する。なお、この翻訳部5
で翻訳スコアを生成する処理は、一般には上述の確率モ
デルを用いる処理のみならず、例えばユーザによりその
内容を調整しても良い。
【0024】上記翻訳言語規則記憶部6は、翻訳部5に
よりその内容が読み込まれることで、格納されている翻
訳言語規則情報を翻訳部5に出力させる。この翻訳言語
規則情報は、各単語の品詞を認識して、複数の単語が接
続されてなる文及び句を生成するための情報である。こ
の翻訳言語規則情報としては、例えば「形容詞と名詞と
を接続して名詞句を生成する」という形式の規則を示す
情報と、各単語の意味的な情報を示す単語辞書情報とが
ある。更に、この翻訳言語規則情報は、図5に示すよう
に、例えば「文→名詞句’です’」と記述され「文」が
「名詞句」と「です」とからなることを示し、「名詞句
→名詞句’は’名詞句」と記述され「名詞句」が「名詞
句」、「は」、「名詞句」からなること等を示してい
る。すなわち、この翻訳言語規則情報は、文を構成する
ための句や品詞の接続関係、句を構成するための句又は
品詞の接続関係が記述されている。
よりその内容が読み込まれることで、格納されている翻
訳言語規則情報を翻訳部5に出力させる。この翻訳言語
規則情報は、各単語の品詞を認識して、複数の単語が接
続されてなる文及び句を生成するための情報である。こ
の翻訳言語規則情報としては、例えば「形容詞と名詞と
を接続して名詞句を生成する」という形式の規則を示す
情報と、各単語の意味的な情報を示す単語辞書情報とが
ある。更に、この翻訳言語規則情報は、図5に示すよう
に、例えば「文→名詞句’です’」と記述され「文」が
「名詞句」と「です」とからなることを示し、「名詞句
→名詞句’は’名詞句」と記述され「名詞句」が「名詞
句」、「は」、「名詞句」からなること等を示してい
る。すなわち、この翻訳言語規則情報は、文を構成する
ための句や品詞の接続関係、句を構成するための句又は
品詞の接続関係が記述されている。
【0025】そして、この図5に示した翻訳言語規則情
報を用いて、翻訳部5は、上述の図4に示したグラフ構
造で表現された単語列候補を図6に示すように構文木を
作成するように処理して翻訳処理を行う。
報を用いて、翻訳部5は、上述の図4に示したグラフ構
造で表現された単語列候補を図6に示すように構文木を
作成するように処理して翻訳処理を行う。
【0026】合成スコア計算部7は、音声認識部2から
の音響スコア及び翻訳部5からの翻訳スコアを用いて計
算を行うことで、入力した音声を翻訳して翻訳部5から
出力する翻訳処理結果についての合成スコアを生成す
る。このとき、合成スコア計算部7は、音響スコア及び
翻訳スコアが厳密に上記確率モデルに従って計算されて
いる場合、音響スコアと翻訳スコアとの積或いは対数の
和を取る計算を行うことで上記合成スコアを生成する処
理を行う。そして、この合成スコア計算部7は、生成し
た合成スコアを複数の翻訳処理結果のそれぞれに付加し
て出力する。
の音響スコア及び翻訳部5からの翻訳スコアを用いて計
算を行うことで、入力した音声を翻訳して翻訳部5から
出力する翻訳処理結果についての合成スコアを生成す
る。このとき、合成スコア計算部7は、音響スコア及び
翻訳スコアが厳密に上記確率モデルに従って計算されて
いる場合、音響スコアと翻訳スコアとの積或いは対数の
和を取る計算を行うことで上記合成スコアを生成する処
理を行う。そして、この合成スコア計算部7は、生成し
た合成スコアを複数の翻訳処理結果のそれぞれに付加し
て出力する。
【0027】更に、合成スコア計算部7は、上記合成ス
コアの値に応じて翻訳処理結果を出力するか否かを判定
する処理を行う。この合成スコア計算部7は、例えば合
成スコアが所定の値以上と判定したときには翻訳処理結
果を出力する処理を行わず、所定の値以下と判定したと
きには合成スコアを付加した翻訳処理結果を出力する処
理を行う。更に、この合成スコア計算部7は、生成した
合成スコアに応じて、合成スコアの高い翻訳処理結果か
ら順次出力する処理を行っても良い。
コアの値に応じて翻訳処理結果を出力するか否かを判定
する処理を行う。この合成スコア計算部7は、例えば合
成スコアが所定の値以上と判定したときには翻訳処理結
果を出力する処理を行わず、所定の値以下と判定したと
きには合成スコアを付加した翻訳処理結果を出力する処
理を行う。更に、この合成スコア計算部7は、生成した
合成スコアに応じて、合成スコアの高い翻訳処理結果か
ら順次出力する処理を行っても良い。
【0028】これにより、合成スコア計算部7は、確率
モデルに従った合成スコアを生成し、原言語の音声から
目的言語の文字列を生成するまでの音声認識部2及び翻
訳部5における処理を経た翻訳処理結果を、採用した確
率モデルに基づいて生成した合成スコアの高い順に出力
する。
モデルに従った合成スコアを生成し、原言語の音声から
目的言語の文字列を生成するまでの音声認識部2及び翻
訳部5における処理を経た翻訳処理結果を、採用した確
率モデルに基づいて生成した合成スコアの高い順に出力
する。
【0029】このように構成された音声認識翻訳装置1
は、上述したように翻訳処理における翻訳スコアのみな
らず、音声認識処理における音声認識スコアを用いて合
成スコアを生成する合成スコア計算部7を備えているの
で、翻訳部5から出力する翻訳処理結果について音声認
識処理を考慮したスコアを付加して出力することができ
る。したがって、この音声認識翻訳装置1によれば、音
声認識処理を考慮した合成スコアを付加して出力するの
で、入力した音声に対する翻訳処理結果の精度を高める
ことができる。
は、上述したように翻訳処理における翻訳スコアのみな
らず、音声認識処理における音声認識スコアを用いて合
成スコアを生成する合成スコア計算部7を備えているの
で、翻訳部5から出力する翻訳処理結果について音声認
識処理を考慮したスコアを付加して出力することができ
る。したがって、この音声認識翻訳装置1によれば、音
声認識処理を考慮した合成スコアを付加して出力するの
で、入力した音声に対する翻訳処理結果の精度を高める
ことができる。
【0030】なお、上記合成スコア計算部7は、音声認
識部2の音声認識処理における音声認識スコアと、翻訳
部5の翻訳処理における翻訳スコアとに重み付け処理を
施すことにより合成スコアを生成しても良い。すなわ
ち、この合成スコア計算部7は、音声認識スコアをXと
し、翻訳スコアをYとし、それぞれにおける重み付け係
数をA,Bとしたとき、AX+BYで表現される評価関
数とする。そして、合成スコア計算部7は、重み付け係
数A,Bを設定し、上記評価関数を適用することで、音
声認識スコア及び翻訳スコアを反映した合成スコアを生
成する。
識部2の音声認識処理における音声認識スコアと、翻訳
部5の翻訳処理における翻訳スコアとに重み付け処理を
施すことにより合成スコアを生成しても良い。すなわ
ち、この合成スコア計算部7は、音声認識スコアをXと
し、翻訳スコアをYとし、それぞれにおける重み付け係
数をA,Bとしたとき、AX+BYで表現される評価関
数とする。そして、合成スコア計算部7は、重み付け係
数A,Bを設定し、上記評価関数を適用することで、音
声認識スコア及び翻訳スコアを反映した合成スコアを生
成する。
【0031】これにより、合成スコア計算部7は、例え
ば合成スコアが厳密な確率モデルではないときや音声認
識処理と翻訳処理の精度が同じでないときにおいて、音
声認識処理又は翻訳処理におけるスコアを優先して合成
スコアを生成する処理を行い、処理精度を向上させる。
ば合成スコアが厳密な確率モデルではないときや音声認
識処理と翻訳処理の精度が同じでないときにおいて、音
声認識処理又は翻訳処理におけるスコアを優先して合成
スコアを生成する処理を行い、処理精度を向上させる。
【0032】なお、上記評価関数は、上述した一例に限
られず、他の式であっても良いことは勿論である。すな
わち、この合成スコア計算部7は、翻訳処理結果につい
ての合成スコアに、音声認識処理における音声認識スコ
アを適切に反映させる評価関数を適用することで、複数
の単語列からなる翻訳処理結果のうちから正しい翻訳処
理結果を選択させる可能性を高くすることができる。
られず、他の式であっても良いことは勿論である。すな
わち、この合成スコア計算部7は、翻訳処理結果につい
ての合成スコアに、音声認識処理における音声認識スコ
アを適切に反映させる評価関数を適用することで、複数
の単語列からなる翻訳処理結果のうちから正しい翻訳処
理結果を選択させる可能性を高くすることができる。
【0033】また、本発明は、例えば図7に示した構成
を有する音声認識翻訳装置10にも適用することができ
る。なお、上述の図1に示した音声認識翻訳装置1と同
一部分については同一符号を付することによりその詳細
な説明を省略する。
を有する音声認識翻訳装置10にも適用することができ
る。なお、上述の図1に示した音声認識翻訳装置1と同
一部分については同一符号を付することによりその詳細
な説明を省略する。
【0034】音声認識翻訳装置10は、音声認識部2か
ら音声認識結果が入力される言語解析生成部11と、言
語解析生成部11からの言語解析結果を用いて合成スコ
アを計算することで生成する合成スコア計算部12とか
らなる翻訳部13を備えている。
ら音声認識結果が入力される言語解析生成部11と、言
語解析生成部11からの言語解析結果を用いて合成スコ
アを計算することで生成する合成スコア計算部12とか
らなる翻訳部13を備えている。
【0035】言語解析生成部11は、翻訳言語規則記憶
部6と接続され、当該翻訳言語規則記憶部6から翻訳言
語規則情報を読み込んで翻訳処理アルゴリズムを適用す
ることで、音声認識部2からの音声認識結果を上述の図
6に示したような構文木を作成する言語解析処理と目的
言語の生成処理とからなる翻訳処理を行う。そして、こ
の言語解析生成部11は、生成した目的言語で表現され
た翻訳処理結果を合成スコア計算部12を介して出力す
る。
部6と接続され、当該翻訳言語規則記憶部6から翻訳言
語規則情報を読み込んで翻訳処理アルゴリズムを適用す
ることで、音声認識部2からの音声認識結果を上述の図
6に示したような構文木を作成する言語解析処理と目的
言語の生成処理とからなる翻訳処理を行う。そして、こ
の言語解析生成部11は、生成した目的言語で表現され
た翻訳処理結果を合成スコア計算部12を介して出力す
る。
【0036】また、この言語解析生成部11は、上述の
翻訳処理アルゴリズムを実行することにより、言語解析
処理における途中結果を示す途中処理情報を合成スコア
計算部12に出力する。また、この言語解析生成部11
は、途中処理情報についての途中処理スコアを生成して
途中処理情報に付加して合成スコア計算部12に出力す
る。
翻訳処理アルゴリズムを実行することにより、言語解析
処理における途中結果を示す途中処理情報を合成スコア
計算部12に出力する。また、この言語解析生成部11
は、途中処理情報についての途中処理スコアを生成して
途中処理情報に付加して合成スコア計算部12に出力す
る。
【0037】合成スコア計算部12には、言語解析生成
部11から途中処理情報及び翻訳処理結果とともに、音
声認識部2から音声認識スコアが入力される。この合成
スコア計算部12は、言語解析生成部11から翻訳処理
結果が入力されたときには当該翻訳処理結果に付加され
た翻訳スコア及び音声認識スコアを用いて合成スコアを
生成する。そして合成スコア計算部12は、上述した翻
訳部5と同様に、翻訳スコア及び音声認識スコアを用い
て合成スコアを生成する処理を行うとともに、当該合成
スコアの値に応じて翻訳処理結果を出力するか否かを判
定する処理を行う。
部11から途中処理情報及び翻訳処理結果とともに、音
声認識部2から音声認識スコアが入力される。この合成
スコア計算部12は、言語解析生成部11から翻訳処理
結果が入力されたときには当該翻訳処理結果に付加され
た翻訳スコア及び音声認識スコアを用いて合成スコアを
生成する。そして合成スコア計算部12は、上述した翻
訳部5と同様に、翻訳スコア及び音声認識スコアを用い
て合成スコアを生成する処理を行うとともに、当該合成
スコアの値に応じて翻訳処理結果を出力するか否かを判
定する処理を行う。
【0038】また、この合成スコア計算部12は、途中
処理情報が入力されたときには当該途中処理情報に付加
された途中処理スコア及び音声認識スコアを用いて、翻
訳処理結果に付加する合成スコアを予測して予測スコア
を生成するスコア予測処理を行う。そして、この合成ス
コア計算部12は、スコア予測処理を行うことにより得
た予測スコアを言語解析生成部11に出力する。
処理情報が入力されたときには当該途中処理情報に付加
された途中処理スコア及び音声認識スコアを用いて、翻
訳処理結果に付加する合成スコアを予測して予測スコア
を生成するスコア予測処理を行う。そして、この合成ス
コア計算部12は、スコア予測処理を行うことにより得
た予測スコアを言語解析生成部11に出力する。
【0039】このような翻訳部13の言語解析生成部1
1は、合成スコア計算部12から予測スコアが入力され
たときには、当該予測スコアに応じて翻訳処理を中止す
るか否かを判定する。
1は、合成スコア計算部12から予測スコアが入力され
たときには、当該予測スコアに応じて翻訳処理を中止す
るか否かを判定する。
【0040】例えば音声認識部2からの音声認識結果に
ついて翻訳処理を行っているとき、言語解析において非
常に発生しにくい構文規則の適用が連続する途中処理情
報についての予測スコアは非常に低いものとなる。すな
わち、このような途中処理情報より、言語解析生成部1
1で翻訳処理を行っても、正しい翻訳処理結果を得る可
能性は低いことになる。
ついて翻訳処理を行っているとき、言語解析において非
常に発生しにくい構文規則の適用が連続する途中処理情
報についての予測スコアは非常に低いものとなる。すな
わち、このような途中処理情報より、言語解析生成部1
1で翻訳処理を行っても、正しい翻訳処理結果を得る可
能性は低いことになる。
【0041】このとき、上述した翻訳部13を備えた音
声認識翻訳装置10によれば、言語解析生成部11で途
中処理スコア及び音声認識スコアを用いて合成スコア計
算部12により予測スコアを生成することで、言語解析
生成部11により予測スコアを参照して翻訳処理アルゴ
リズムによる翻訳処理を中止する処理又は別の単語列候
補についての言語解析処理を行うことができる。また、
この音声認識翻訳装置10によれば、合成スコア計算部
12により途中処理スコアのみならず音声認識スコアも
用いて予測スコアを生成して、言語解析生成部11によ
り翻訳処理を中止する処理を行うので、言語解析生成部
11で翻訳処理を中止するか否かの判定をより的確なも
のとすることができる。
声認識翻訳装置10によれば、言語解析生成部11で途
中処理スコア及び音声認識スコアを用いて合成スコア計
算部12により予測スコアを生成することで、言語解析
生成部11により予測スコアを参照して翻訳処理アルゴ
リズムによる翻訳処理を中止する処理又は別の単語列候
補についての言語解析処理を行うことができる。また、
この音声認識翻訳装置10によれば、合成スコア計算部
12により途中処理スコアのみならず音声認識スコアも
用いて予測スコアを生成して、言語解析生成部11によ
り翻訳処理を中止する処理を行うので、言語解析生成部
11で翻訳処理を中止するか否かの判定をより的確なも
のとすることができる。
【0042】具体的には、言語解析生成部11は、例え
ば音声認識部2に「私の名前は山田です」という音声が
入力され「My name is yamada」と翻訳して出力する場
合において、例えば翻訳処理アルゴリズムにより図6中
の「私 の 名前」からなる名詞句について言語解析処理
を行った後の途中処理結果及び当該途中処理結果につい
ての途中処理スコアを計算する処理を行う。そして、合
成スコア計算部12は、途中処理結果、途中処理スコ
ア、上記名詞句についての単語列候補の音声認識スコア
を用いて予測スコアを生成する処理を行い言語解析生成
部11に出力する。これにより、言語解析生成部11
は、合成スコア計算部12からの予測スコアが一定値以
下であれば処理を終了するように判定し、予測スコアが
一定値以上であれば処理を継続して行うように判定す
る。
ば音声認識部2に「私の名前は山田です」という音声が
入力され「My name is yamada」と翻訳して出力する場
合において、例えば翻訳処理アルゴリズムにより図6中
の「私 の 名前」からなる名詞句について言語解析処理
を行った後の途中処理結果及び当該途中処理結果につい
ての途中処理スコアを計算する処理を行う。そして、合
成スコア計算部12は、途中処理結果、途中処理スコ
ア、上記名詞句についての単語列候補の音声認識スコア
を用いて予測スコアを生成する処理を行い言語解析生成
部11に出力する。これにより、言語解析生成部11
は、合成スコア計算部12からの予測スコアが一定値以
下であれば処理を終了するように判定し、予測スコアが
一定値以上であれば処理を継続して行うように判定す
る。
【0043】また、上述の音声認識翻訳装置10におい
て、言語解析生成部11は、言語解析処理における途中
処理結果及び途中処理スコアを合成スコア計算部12出
力する処理の一例に限られず、例えば目的言語の生成処
理における途中処理結果及び当該途中処理結果について
の途中処理スコアを生成しても良い。例えば使用される
翻訳言語規則情報の出現確率(スコア)が非常に低いと
き、表層的に現れる目的言語の単語列の出現確率が低い
ときであって当該部分に該当する原言語の音声認識処理
についての音声認識スコアが低いとき、その単語列候補
についての翻訳処理を中止しても良い。
て、言語解析生成部11は、言語解析処理における途中
処理結果及び途中処理スコアを合成スコア計算部12出
力する処理の一例に限られず、例えば目的言語の生成処
理における途中処理結果及び当該途中処理結果について
の途中処理スコアを生成しても良い。例えば使用される
翻訳言語規則情報の出現確率(スコア)が非常に低いと
き、表層的に現れる目的言語の単語列の出現確率が低い
ときであって当該部分に該当する原言語の音声認識処理
についての音声認識スコアが低いとき、その単語列候補
についての翻訳処理を中止しても良い。
【0044】なお、この音声認識翻訳装置10におい
て、翻訳処理で1単語が複数単語になったり語順が大き
く変更することにより、目的言語の単語(単語列)と原
言語音声の単語(単語列)の明確な対応がとれない場合
もある。しかし、名詞など比較的容易に対応がつく場合
も多いので、音声認識スコアと認識スコアを用いて合成
スコアを生成することは翻訳処理結果の処理精度の向上
に有効と考えられる。
て、翻訳処理で1単語が複数単語になったり語順が大き
く変更することにより、目的言語の単語(単語列)と原
言語音声の単語(単語列)の明確な対応がとれない場合
もある。しかし、名詞など比較的容易に対応がつく場合
も多いので、音声認識スコアと認識スコアを用いて合成
スコアを生成することは翻訳処理結果の処理精度の向上
に有効と考えられる。
【0045】なお、音声認識翻訳装置10において、言
語解析生成部11における翻訳処理を中止する処理は、
途中処理スコアのみを用いて処理を行って良いのは勿論
である。
語解析生成部11における翻訳処理を中止する処理は、
途中処理スコアのみを用いて処理を行って良いのは勿論
である。
【0046】つぎに、上述の図7を用いて説明した音声
認識翻訳装置10における翻訳部13で翻訳処理アルゴ
リズムにより翻訳処理を行うことで、途中処理結果に応
じて翻訳処理を中止するときの一例について図8に示す
フローチャートを参照して説明する。なお、上述の言語
解析処理部11は上記言語解析処理と目的言語生成処理
とを行うことで翻訳処理を行うが、以下の図8のフロー
チャートの説明においては音声認識部2から入力された
ある単語列候補についての翻訳処理が完了又は予測スコ
アにより処理を中止すると判定するまで翻訳処理を実行
するものの一例について説明する。
認識翻訳装置10における翻訳部13で翻訳処理アルゴ
リズムにより翻訳処理を行うことで、途中処理結果に応
じて翻訳処理を中止するときの一例について図8に示す
フローチャートを参照して説明する。なお、上述の言語
解析処理部11は上記言語解析処理と目的言語生成処理
とを行うことで翻訳処理を行うが、以下の図8のフロー
チャートの説明においては音声認識部2から入力された
ある単語列候補についての翻訳処理が完了又は予測スコ
アにより処理を中止すると判定するまで翻訳処理を実行
するものの一例について説明する。
【0047】この図8によれば、先ず、ステップS1に
おいて、言語解析処理部11は、翻訳部13により上記
言語解析処理及び目的言語生成処理を行うことで、翻訳
処理結果を外部に出力して翻訳処理を完了したか否かを
判定する。そして、言語解析処理部11は、翻訳処理を
終了したと判定したときには処理を終了し、翻訳処理を
終了したと判定したときにはステップS2に進む。
おいて、言語解析処理部11は、翻訳部13により上記
言語解析処理及び目的言語生成処理を行うことで、翻訳
処理結果を外部に出力して翻訳処理を完了したか否かを
判定する。そして、言語解析処理部11は、翻訳処理を
終了したと判定したときには処理を終了し、翻訳処理を
終了したと判定したときにはステップS2に進む。
【0048】次のステップS2において、言語解析生成
部11は、1ステップ分の言語解析処理を行う。ここ
で、1ステップ分の言語解析処理とは、例えば言語解析
を行うときに用いる翻訳言語規則情報を音声認識部2か
らの単語列候補について1回だけ適用する処理をいう。
部11は、1ステップ分の言語解析処理を行う。ここ
で、1ステップ分の言語解析処理とは、例えば言語解析
を行うときに用いる翻訳言語規則情報を音声認識部2か
らの単語列候補について1回だけ適用する処理をいう。
【0049】次のステップS3において、言語解析生成
部11は、上記翻訳処理アルゴリズムにおいて上述のス
テップS2に示す処理を行った後における途中処理結果
について上記処理継続チェックを行うか否かを判定す
る。すなわち、この言語解析生成部11は、途中処理結
果についての途中処理スコアに応じて処理を中止する判
定を行うか否かを判定する。そして、言語解析生成部1
1は、処理継続チェックを行うときにはステップS4に
進み、処理継続チェックを行わないときにはステップS
1に戻る。すなわち、この言語解析生成部11は、ステ
ップS3において処理継続チェックを行うと判定される
処理段階まで途中結果の如何に関わらずステップS1〜
ステップS2を繰り返すことで上記翻訳処理アルゴリズ
ムに従って翻訳処理を継続して行う。
部11は、上記翻訳処理アルゴリズムにおいて上述のス
テップS2に示す処理を行った後における途中処理結果
について上記処理継続チェックを行うか否かを判定す
る。すなわち、この言語解析生成部11は、途中処理結
果についての途中処理スコアに応じて処理を中止する判
定を行うか否かを判定する。そして、言語解析生成部1
1は、処理継続チェックを行うときにはステップS4に
進み、処理継続チェックを行わないときにはステップS
1に戻る。すなわち、この言語解析生成部11は、ステ
ップS3において処理継続チェックを行うと判定される
処理段階まで途中結果の如何に関わらずステップS1〜
ステップS2を繰り返すことで上記翻訳処理アルゴリズ
ムに従って翻訳処理を継続して行う。
【0050】次のステップS4において、言語解析生成
部11は、構文木を作成するときに用いた翻訳言語規則
情報と当該翻訳言語規則情報のスコア、翻訳処理の対象
となっている単語列候補についての音響スコアから算出
した途中処理スコアを生成し、当該途中処理スコアとと
もに言語解析処理における途中処理結果を合成スコア計
算部12に出力する。そして、合成スコア計算部12
は、言語解析生成部11からの途中処理スコア及び翻訳
処理の対象となっている音響スコアを用いて、予測スコ
アを計算し、言語解析生成部11に出力する。
部11は、構文木を作成するときに用いた翻訳言語規則
情報と当該翻訳言語規則情報のスコア、翻訳処理の対象
となっている単語列候補についての音響スコアから算出
した途中処理スコアを生成し、当該途中処理スコアとと
もに言語解析処理における途中処理結果を合成スコア計
算部12に出力する。そして、合成スコア計算部12
は、言語解析生成部11からの途中処理スコア及び翻訳
処理の対象となっている音響スコアを用いて、予測スコ
アを計算し、言語解析生成部11に出力する。
【0051】次のステップS5において、言語解析生成
部11は、合成スコア計算部12から予測スコアが入力
されたときには、当該予測スコアに応じて翻訳処理を継
続するか否かを判定する。そして、この言語解析生成部
11は、翻訳処理を継続しないと判定したときには処理
を終了し、翻訳処理を継続すると判定したときにはステ
ップS1に戻る。すなわち、この言語解析生成部11
は、ステップS1〜ステップS5を繰り返すことで、予
測スコアにより処理を中止するまで翻訳処理を実行する
ことになる。
部11は、合成スコア計算部12から予測スコアが入力
されたときには、当該予測スコアに応じて翻訳処理を継
続するか否かを判定する。そして、この言語解析生成部
11は、翻訳処理を継続しないと判定したときには処理
を終了し、翻訳処理を継続すると判定したときにはステ
ップS1に戻る。すなわち、この言語解析生成部11
は、ステップS1〜ステップS5を繰り返すことで、予
測スコアにより処理を中止するまで翻訳処理を実行する
ことになる。
【0052】このような処理を行う翻訳部13を備えた
音声認識翻訳装置10は、翻訳処理を行っているとき、
所定のステップ毎における途中処理結果についての途中
処理スコア等を用いて合成スコア計算部12により予測
スコアを生成して処理継続チェックを行うので、言語解
析処理中において途中処理結果より翻訳処理結果につい
ての合成スコアが低くなる単語列候補については処理を
終了させることができる。したがって、この音声認識翻
訳装置10によれば、翻訳処理を行う必要がない単語列
候補についての処理を削減することができ、入力された
音声に対する翻訳処理の処理量を低減させて高速な翻訳
処理を行うことができる。
音声認識翻訳装置10は、翻訳処理を行っているとき、
所定のステップ毎における途中処理結果についての途中
処理スコア等を用いて合成スコア計算部12により予測
スコアを生成して処理継続チェックを行うので、言語解
析処理中において途中処理結果より翻訳処理結果につい
ての合成スコアが低くなる単語列候補については処理を
終了させることができる。したがって、この音声認識翻
訳装置10によれば、翻訳処理を行う必要がない単語列
候補についての処理を削減することができ、入力された
音声に対する翻訳処理の処理量を低減させて高速な翻訳
処理を行うことができる。
【0053】なお、上述のステップS2における1ステ
ップ分の処理とは、上記翻訳処理アルゴリズムに応じて
異なり、この図8における翻訳処理アルゴリズムでは翻
訳処理における言語解析処理中において任意に決定され
る処理段階を経た後に処理継続チェックを行う処理単位
を1ステップとしている。
ップ分の処理とは、上記翻訳処理アルゴリズムに応じて
異なり、この図8における翻訳処理アルゴリズムでは翻
訳処理における言語解析処理中において任意に決定され
る処理段階を経た後に処理継続チェックを行う処理単位
を1ステップとしている。
【0054】
【発明の効果】以上詳細に説明したように、本発明に係
る音声認識翻訳装置及び方法によれば、音声認識スコア
と翻訳スコアとを用いて、音声認識処理及び翻訳処理の
処理精度を示す合成スコアを生成し、合成スコアを用い
て出力する翻訳結果を評価するので、翻訳結果に対する
評価の精度を高めることができる。したがって、本発明
に係る音声認識翻訳装置及び方法によれば、音声認識処
理及び翻訳処理におけるそれぞれのスコアを用いて処理
精度を向上させることができる。また、この音声認識翻
訳装置及び方法によれば、音声認識処理についての音声
認識スコアを用いて翻訳結果についてのスコアを生成す
るので、例えば翻訳処理スコアを翻訳処理途中において
算出して合成スコアを生成し、当該合成スコアに応じて
翻訳処理を途中で中止することもでき、翻訳処理におけ
る不要な処理を削減することができ、翻訳処理の高速化
を実現することができる。
る音声認識翻訳装置及び方法によれば、音声認識スコア
と翻訳スコアとを用いて、音声認識処理及び翻訳処理の
処理精度を示す合成スコアを生成し、合成スコアを用い
て出力する翻訳結果を評価するので、翻訳結果に対する
評価の精度を高めることができる。したがって、本発明
に係る音声認識翻訳装置及び方法によれば、音声認識処
理及び翻訳処理におけるそれぞれのスコアを用いて処理
精度を向上させることができる。また、この音声認識翻
訳装置及び方法によれば、音声認識処理についての音声
認識スコアを用いて翻訳結果についてのスコアを生成す
るので、例えば翻訳処理スコアを翻訳処理途中において
算出して合成スコアを生成し、当該合成スコアに応じて
翻訳処理を途中で中止することもでき、翻訳処理におけ
る不要な処理を削減することができ、翻訳処理の高速化
を実現することができる。
【図1】本発明を適用した音声認識翻訳装置の構成を示
すブロック図である。
すブロック図である。
【図2】音響モデル情報及び単語辞書情報について説明
するための図である。
するための図である。
【図3】認識言語モデル情報について説明するための図
である。
である。
【図4】音声認識部から出力されるグラフ構造の出力結
果について説明するための図である。
果について説明するための図である。
【図5】翻訳言語規則情報について説明するための図で
ある。
ある。
【図6】翻訳部により構文木を作成することで翻訳処理
を行うことを説明するための図である。
を行うことを説明するための図である。
【図7】本発明を適用した他の音声認識翻訳装置の構成
を示すブロック図である。
を示すブロック図である。
【図8】翻訳部で翻訳処理アルゴリズムにより翻訳処理
を行うことで、途中処理結果に応じて翻訳処理を中止す
る処理を行うときのフローチャートである。
を行うことで、途中処理結果に応じて翻訳処理を中止す
る処理を行うときのフローチャートである。
1 音声認識翻訳装置、2 音声認識部、5 翻訳部、
7 合成スコア計算部、11 言語解析生成部、12
合成スコア計算部、13 翻訳部
7 合成スコア計算部、11 言語解析生成部、12
合成スコア計算部、13 翻訳部
Claims (8)
- 【請求項1】 入力された音声について、音声信号の波
形形状を音声として認識するために参照される音響モデ
ル及び文を構成する各単語の接続関係を示す認識言語モ
デルを適用することで音声認識処理を行う音声認識手段
と、 上記音声認識手段からの音声認識結果について、上記音
声認識処理の処理精度を示す音声認識スコアを生成する
音声認識スコア生成手段と、 上記音声認識手段からの音声認識結果を用いて入力され
た音声とは異なる言語に翻訳する翻訳処理を行う翻訳手
段と、 上記翻訳手段からの翻訳結果について、上記翻訳処理の
処理精度を示す翻訳スコアを生成する翻訳スコア生成手
段と、 上記音声認識スコア生成手段からの音声認識スコアと上
記翻訳スコア生成手段からの翻訳スコアとを用いて、上
記音声認識処理及び翻訳処理の処理精度を示す合成スコ
アを生成する合成スコア生成手段と、 上記合成スコア生成手段からの合成スコアを用いて、上
記翻訳手段から出力する翻訳結果を評価する評価手段と
を備えることを特徴とする音声認識翻訳装置。 - 【請求項2】 上記翻訳手段は、音声認識手段からの音
声認識結果について言語解析を行う言語解析手段と、前
記言語解析手段からの言語解析結果により入力された音
声とは異なる言語を構成する言語生成手段とを備え、 上記翻訳スコア生成手段は、上記言語解析手段からの言
語解析結果についてのスコア及び上記言語生成手段によ
り構成された言語についてのスコアを生成して、翻訳ス
コアを生成することを特徴とする請求項1記載の音声認
識翻訳装置。 - 【請求項3】 上記翻訳手段における翻訳処理の途中処
理結果について途中処理スコアを生成する途中処理スコ
ア生成手段と、 上記途中スコア生成手段からの途中処理スコアに基づい
て翻訳処理を継続するか否かを判定する途中処理スコア
判定手段とを備えることを特徴とする請求項1記載の音
声認識翻訳装置。 - 【請求項4】 上記途中処理スコア生成手段からの途中
処理スコアと、上記翻訳手段において翻訳処理の対象と
なっている音声認識結果についての音声認識スコアとを
用いて、翻訳結果についての翻訳スコアを予測して得た
予測スコアを生成する予測スコア生成手段と、 上記予測スコア生成手段からの予測スコアに基づいて翻
訳処理を継続するか否かを判定する予測スコア判定手段
とを備えることを特徴とする請求項3記載の音声認識翻
訳装置。 - 【請求項5】 入力された音声について、音声信号の波
形形状を音声として認識するために参照される音響モデ
ル及び文を構成する各単語の接続関係を示す認識言語モ
デルを適用する音声認識処理と、 上記音声認識処理による音声認識結果について、上記音
声認識処理の処理精度を示す音声認識スコアを生成する
音声認識スコア生成処理と、 上記音声認識結果を用いて、入力された音声とは異なる
言語に翻訳する翻訳処理と、 上記翻訳処理による翻訳結果について、上記翻訳処理の
処理精度を示す翻訳スコアを生成する翻訳スコア生成処
理と、 上記音声認識スコアと上記翻訳スコアとを用いて、上記
音声認識処理及び翻訳処理の処理精度を示す合成スコア
を生成する合成スコア生成処理と、 上記合成スコアを用いて、出力する翻訳結果を評価する
評価処理とを有することを特徴とする音声認識翻訳方
法。 - 【請求項6】 上記翻訳処理は、上記音声認識結果につ
いて言語解析を行う言語解析処理と、言語解析結果によ
り入力された音声とは異なる言語を構成する言語生成処
理とを有し、 上記翻訳スコア生成処理は、上記言語解析結果について
のスコア及び上記言語生成処理により構成された言語に
ついてのスコアを生成して、翻訳スコアを生成すること
を特徴とする請求項5記載の音声認識翻訳方法。 - 【請求項7】 上記翻訳処理の途中処理結果について途
中処理スコアを生成する途中処理スコア生成処理と、 上記途中処理スコアに基づいて翻訳処理を継続するか否
かを判定する途中処理スコア判定処理とを有することを
特徴とする請求項5記載の音声認識翻訳方法。 - 【請求項8】 上記途中処理スコアと、上記翻訳処理の
対象となっている音声認識結果についての音声認識スコ
アとを用いて、翻訳結果についての翻訳スコアを予測し
て得た予測スコアを生成する予測スコア生成処理と、 上記予測スコアに基づいて翻訳処理を継続するか否かを
判定する予測スコア判定処理とを有することを特徴とす
る請求項7記載の音声認識翻訳方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11018744A JP2000222406A (ja) | 1999-01-27 | 1999-01-27 | 音声認識翻訳装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11018744A JP2000222406A (ja) | 1999-01-27 | 1999-01-27 | 音声認識翻訳装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000222406A true JP2000222406A (ja) | 2000-08-11 |
Family
ID=11980178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11018744A Withdrawn JP2000222406A (ja) | 1999-01-27 | 1999-01-27 | 音声認識翻訳装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000222406A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013014877A1 (ja) * | 2011-07-28 | 2013-01-31 | 日本電気株式会社 | 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム |
WO2017191711A1 (ja) * | 2016-05-02 | 2017-11-09 | ソニー株式会社 | 制御装置、制御方法およびコンピュータプログラム |
JP2019003433A (ja) * | 2017-06-15 | 2019-01-10 | 株式会社リクルートライフスタイル | プログラム、表示方法及び情報処理装置 |
CN110148413A (zh) * | 2019-05-21 | 2019-08-20 | 科大讯飞股份有限公司 | 语音评测方法及相关装置 |
CN112262430A (zh) * | 2018-08-23 | 2021-01-22 | 谷歌有限责任公司 | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 |
CN112652311A (zh) * | 2020-12-01 | 2021-04-13 | 北京百度网讯科技有限公司 | 中英文混合语音识别方法、装置、电子设备和存储介质 |
WO2021138898A1 (zh) * | 2020-01-10 | 2021-07-15 | 深圳市欢太科技有限公司 | 语音识别结果检测方法及装置、存储介质 |
-
1999
- 1999-01-27 JP JP11018744A patent/JP2000222406A/ja not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013014877A1 (ja) * | 2011-07-28 | 2013-01-31 | 日本電気株式会社 | 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム |
JPWO2013014877A1 (ja) * | 2011-07-28 | 2015-02-23 | 日本電気株式会社 | 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム |
WO2017191711A1 (ja) * | 2016-05-02 | 2017-11-09 | ソニー株式会社 | 制御装置、制御方法およびコンピュータプログラム |
US11170180B2 (en) | 2016-05-02 | 2021-11-09 | Sony Corporation | Control device and control method |
JP2019003433A (ja) * | 2017-06-15 | 2019-01-10 | 株式会社リクルートライフスタイル | プログラム、表示方法及び情報処理装置 |
CN112262430A (zh) * | 2018-08-23 | 2021-01-22 | 谷歌有限责任公司 | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 |
CN110148413A (zh) * | 2019-05-21 | 2019-08-20 | 科大讯飞股份有限公司 | 语音评测方法及相关装置 |
CN110148413B (zh) * | 2019-05-21 | 2021-10-08 | 科大讯飞股份有限公司 | 语音评测方法及相关装置 |
WO2021138898A1 (zh) * | 2020-01-10 | 2021-07-15 | 深圳市欢太科技有限公司 | 语音识别结果检测方法及装置、存储介质 |
CN112652311A (zh) * | 2020-12-01 | 2021-04-13 | 北京百度网讯科技有限公司 | 中英文混合语音识别方法、装置、电子设备和存储介质 |
CN112652311B (zh) * | 2020-12-01 | 2021-09-03 | 北京百度网讯科技有限公司 | 中英文混合语音识别方法、装置、电子设备和存储介质 |
US11893977B2 (en) | 2020-12-01 | 2024-02-06 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for recognizing Chinese-English mixed speech, electronic device, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176802B1 (en) | Lattice encoding using recurrent neural networks | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US6278968B1 (en) | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system | |
JP3741156B2 (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
EP0527650B1 (en) | Speech recognition apparatus | |
US6223150B1 (en) | Method and apparatus for parsing in a spoken language translation system | |
JP3716870B2 (ja) | 音声認識装置および音声認識方法 | |
EP1447792B1 (en) | Method and apparatus for modeling a speech recognition system and for predicting word error rates from text | |
JPH0320800A (ja) | 音声認識方法および装置 | |
US20090083036A1 (en) | Unnatural prosody detection in speech synthesis | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
JP2009139390A (ja) | 情報処理システム、処理方法及びプログラム | |
US11783824B1 (en) | Cross-assistant command processing | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
KR20080069077A (ko) | 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2000222406A (ja) | 音声認識翻訳装置及び方法 | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
JP5243325B2 (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
JP3441400B2 (ja) | 言語変換規則作成装置、及びプログラム記録媒体 | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
JP3088364B2 (ja) | 音声言語理解装置及び音声言語理解システム | |
Kitano | ΦDmDialog: A speech-to-speech dialogue translation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060404 |