JP2008032834A

JP2008032834A - 音声翻訳装置及びその方法

Info

Publication number: JP2008032834A
Application number: JP2006203597A
Authority: JP
Inventors: Toshiyuki Koga; 敏之古賀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-07-26
Filing date: 2006-07-26
Publication date: 2008-02-14
Also published as: CN101114447A; US20080027705A1

Abstract

【課題】音声認識や機械翻訳の失敗の可能性があることを利用者にわかるように翻訳結果を音声で出力できる音声翻訳装置を提供する。
【解決手段】音声翻訳装置１０は、音声入力部１１、音声認識部１２、機械翻訳部１３、パラメータ設定部１４、音声合成部１５、音声出力部１６からなり、音声認識・機械翻訳によって得られる複数の尤度から出力する音声データの音声ボリューム値を決定し、尤度の低い語彙に関してユーザに対して音声ボリューム値を小さくして伝わりにくくし、逆に尤度の高い語彙に関してユーザに対して音声ボリューム値を大きくして、特に強調されて伝えられるようにする。
【選択図】図２

Description

音声認識技術と機械翻訳技術と音声合成技術に関するから音声翻訳装置及びその方法に関する。

音声認識方法において、音声認識した返答メッセージの中で音声認識結果に自信が持てない部分をゆっくりと復唱するという方法が提案されている（例えば、特許文献１参照）。

この方法は、人との対話中に発話している音声の内容に不備があった場合、バージインによって人がその場で訂正を加えることを可能にしたものである。このときに、音声認識装置側で発話内容を生成したとき確証の置けない部分をわざとゆっくりと発話することにより、人に対してそこが不備がありそうな部分であることを示すと同時に、バージインによって訂正を加える時間を大きく取ることができる。
特開２００３−２０８１９６公報

音声翻訳装置においては、音声認識に加えて、機械翻訳を行う必要がある。しかし、音声認識と機械翻訳においてデータ変換を行う際、少なからず変換の失敗が生じる。この変換の失敗は音声認識のみより可能性が高くなる。

そのため、音声認識であれば誤認識、認識結果なし、機械翻訳であれば翻訳誤り、翻訳結果なしが得られる。この変換の失敗を含めて、音声認識、機械翻訳で算出される尤度に応じて得られる順位で第一位の変換結果が採用されて、最後に音声出力によってユーザに提示される。この時に尤度の値が低くても第一位となれば、例え変換誤りであってもその結果が出力されてしまう。

そこで、本発明は、上記問題点に関して、音声認識や機械翻訳の失敗の可能性があることを利用者にわかるように翻訳結果を音声で出力できる音声翻訳装置及びその方法を提供する。

本発明は、任意の言語からなる音声データを取得する音声入力部と、前記任意の言語の音声データを認識処理して認識データを求めると共に、前記認識データのセグメント毎の尤度を求める音声認識部と、前記認識データを前記任意の言語以外の他の言語の翻訳データに翻訳すると共に、前記翻訳データのセグメント毎の尤度を求める翻訳部と、前記認識データの各セグメントの尤度と前記翻訳データの各セグメントの尤度を用いて、前記翻訳データから音声合成するために必要なパラメータを設定するパラメータ設定部と、前記セグメント毎のパラメータを用いて前記翻訳データを、前記他の言語で発話するための音声データへ変換する音声合成部と、前記他の言語の音声データから音声を出力する音声出力部と、を有することを特徴とする音声翻訳装置である。

本発明によれば、音声認識や機械翻訳の失敗の可能性があることを利用者にわかるように翻訳結果を音声で出力できる。

以下、本発明の一実施形態の音声翻訳装置１０について図１から図１４に基づいて説明する。

（１）音声翻訳装置１０の概要
本実施形態の音声翻訳装置１０では、音声出力時の音声ボリューム値に着目し、音声認識・機械翻訳によって得られる複数の尤度から出力する音声データの音声ボリューム値を決定する。この処理によって、尤度の低い語彙に関してユーザに対して音声ボリューム値を小さくして伝わりにくくし、逆に尤度の高い語彙に関してユーザに対して音声ボリューム値を大きくして、特に強調されて伝えられるようにする。

ユーザは、音声ボリューム値によって強調された部分（すなわち処理結果として確からしい情報）を元にその伝えようとする意図を理解できる。

参照する尤度としては、音声認識における、音素毎の比較による類似度、トレリス計算による語彙のスコア、ラティス構造から算出されるフレーズ・文のスコア、機械翻訳における、訳語の尤度スコア、形態素解析結果、用例との類似度スコアなどがある。これらを用いて図１のように算出した、単語単位の尤度の値を音声ボリューム値や基底周波数、音色、イントネーション、速度などの音声生成時のパラメータに反映させて用いる。

人の聴力に関わらず、音量の小さい語より音量の大きい語の方が明瞭に聞こえやすい。この音量の差を音声翻訳処理の尤度によって決めることによって、音声出力されるデータを受け取るユーザはより確からしい語彙（尤度が高く算出された語彙）をより明瞭に聞き取ることができる。また人間は断片的な情報からでもある程度確かな情報を得ることができる。これは断片的な情報から類推することによって、伝えられようとしている情報を推測する人間の技術である。この２つの点によって間違った語彙を提示して誤った情報が伝わってしまうことが少なくなり、ユーザは正しい情報を得ることができる。

また、図１に示すように、翻訳の結果として``行き／まし／た"が``went"に翻訳されるなど、音声出力すべき語彙に影響を及ぼす範囲としては、翻訳後の語彙だけではなく翻訳前の語彙または句であることから、特許文献１における算出処理と異なる。また、音声認識した結果を全て伝えることを目的としている特許文献１と比較して、本実施形態は全ての音声認識結果データを伝えなくても概略が伝えられれば良いという点が異なる。

（２）音声翻訳装置１０の構成
音声翻訳装置１０の構成について図２〜図５に示す。

図２は、音声翻訳装置１０の構成を示すブロック図である。音声翻訳装置１０は、音声入力部１１、音声認識部１２、機械翻訳部１３、パラメータ設定部１４、音声合成部１５、音声出力部１６からなる。

各部１２〜１５の各機能は、コンピュータに記憶されたプログラムによっても実現できる。

（２−１）音声入力部１１
音声入力部１１は、例えばマイクロホンなど外界の音響データを取得する音響センサである。ここで挙げる音響データとは、音声、環境雑音、器械音などから成る外界で発生する音波をデジタルデータとして取得したときの値となる。通常、設定されたサンプリング周波数における音圧値の時間列として得られる。

音声入力部１１では、人の音声を対象としている為に、取得するデータは「音声データ」と呼称する。ここでこの音声データには、後述する音声認識処理で認識対象となる人の音声に関するデータの他に、その発声者の周囲で発生している環境雑音（背景雑音）も含まれている。

（２−２）音声認識部１２
音声認識部１２の処理について図３に基づいて説明する。

音声入力部１１で得られた音声データ中に含まれる人の音声の区間を切出す（ステップ１２１）。

音素データとその前後関係から生成されたＨＭＭ（Hidden Markov Model）のデータベース１２４を予め用意しておき、これを用いて音声データとこのデータベース１２４のＨＭＭを照合させ文字列を得る（ステップ１２２）。

この算出された文字列を認識結果として出力する（ステップ１２３）。

（２−３）機械翻訳部１３
機械翻訳部１３の処理について図４に基づいて説明する。

音声認識部１２によって得られた認識結果の文字列の構文を解析する（ステップ１３１）。

得られた構文木を翻訳対象の構文木へ変換する（ステップ１３２）。

その変換元と変換先の対応関係から訳語を選択して訳文を生成する（ステップ１３３）。

（２−４）パラメータ設定部１４
パラメータ設定部１４は、音声認識部１２における処理内で、認識処理結果における認識文中の各単語毎の尤度を表す値を取得する。

また、機械翻訳部１３における処理内で、翻訳処理結果における訳文中の各単語の尤度を表す値を取得する。

このように得られた訳文中の一つの単語に対する複数の尤度から、その単語の尤度を算出する。この単語の尤度を用いて音声合成部１５における音声生成処理で用いられるパラメータに算出し設定する。

このパラメータ設定部１４の詳細については、後述する。

（２−５）音声合成部１５
音声合成部１５の処理について図５に基づいて説明する。

音声合成部１５は、パラメータ設定部１４において設定された音声生成パラメータを用いて音声合成処理を行う。

手順としては、訳文の構文を解析し（ステップ１５１）、これを元に音声データを生成する（ステップ１５２）。

（２−６）音声出力部１６
音声出力部１６は、例えばスピーカなどであり、音声合成部１５において生成された音声データから音声を出力する。

（３）尤度の内容
パラメータ設定部１４において、その入力として音声認識部１２から取得する尤度ＳＲｊ（ｉ＝１，２，・・・）、機械翻訳部１３から取得する尤度ＳＴｊ（ｊ＝１，２，・・・）は、以下のような値が挙げられる。最終的に音声生成のパラメータに反映するとき、より強調されてユーザに提示することを考える為、``より確からしい結果はより強調する"、``重要な結果はより強調する"ということを目標として、尤度を選出する。前者としては類似度や確率値、後者としては語の質・重み付けを選出することとする。

（３−１）尤度ＳＲ１
尤度ＳＲ１は、音声認識部１２において音声データと音素データとを比較したときに算出される類似度である。

音声認識部１２において認識処理を行うとき、取得して音声区間として切出した音声データの音素と既存の音素データベース１２４に格納されている音素を比較することで、比較している音声データの音素が``a"であるのか、``ｉ"であるのかを判定する。

例えば``ａ"であるとした場合、``ａ"と似ている程度と``ｉ"と似ている程度では、``a"と似ている程度が大きいためそのように判断したのであり、その``程度"をある一つのパラメータとして算出している（図６）。この``程度"は実際の音声認識処理でも尤度ＳＲ１として用いられているのであるが、つまるところ「その音素が``ａ"である確からしさ」である。

（３−２）尤度ＳＲ２
尤度ＳＲ２は、音声認識部１２においてトレリス計算によって算出された単語または文の出力確率値である。

通常、音声認識処理を行うにあたり、音声データをテキスト化する内部処理においてＨＭＭ（Hidden Markov Model、隠れマルコフモデル）を用いた確率計算を行っている。

例えば``とけい（時計）"を認識する場合、ＨＭＭは図７のようになる。初期状態として、初めに状態はＳ０に停留している。音声入力があった時Ｓ１に移り、以降Ｓ２,Ｓ３・・・と遷移し、音声終了時にはＳ６へ遷移している。

このそれぞれの状態Ｓｉにおいて、例えばＳ１では／ｔ／を出力する確率が高いなどの、音素の出力信号の種類とその信号が出力される確率が設定されている。これは予め多量の音声データを用いて学習させておき、各単語毎に辞書としてＨＭＭを蓄えておく。

このときあるＨＭＭ（例えば図７に示すＨＭＭ）において、時系列の軸も考えた場合その状態遷移を取りうる経路のパターンとしては、図８に示すような経路（１２６通りの経路）をたどることが考えられる。

横軸が時刻、縦軸がＨＭＭの状態である。但し、各時刻ｔｉ（ｉ＝０，１，・・・，１１）において出力される信号の系列Ｏがあり、これを出力されることがＨＭＭに対して求められる。この１２６通りの経路のそれぞれに対して信号系列Ｏを出力する確率が算出される。

これらの確率に対して、和を取ることでＨＭＭが信号系列Ｏを出力する確率を算出するアルゴリズムを前向きアルゴリズムと呼び、一方でそれらの経路のうちで信号系列Ｏを出力する確率が最も高い経路（最尤パス）を求めるアルゴリズムをビタビアルゴリズムと呼ぶ。計算量などの観点から主に後者が用いられ、これは文解析（単語間の連結の解析）にも用いられる。

ビタビアルゴリズムにおいて最尤パスを求めるとき、以下の式（１）（２）によってその最尤パスの尤度が求められる。これは最尤パスにおいて信号系列Ｏを出力する確率Ｐｒ（Ｏ）であり、通常認識処理を行う上で求められているものである。

ここで、α（ｔ，ｊ）は時刻ｔ（ｔ＝０，１，・・・，Ｔ）において、それまでの信号系列を出力して状態へ移行するという経路のうちの最大確率である。また、ａｋｊは状態Ｓｋから状態Ｓｊへ遷移する確率であり、ｂｊ（ｘ）は状態Ｓｊにおいて信号ｘを出力する確率である。

この結果を受けて音声認識処理の結果が、各ＨＭＭの最尤パスの出力確率値のうち最も高い値を出したＨＭＭの示す単語・文となる。つまるところ、ここで言う最尤パスの出力確率値ＳＲ２が「入力音声がその単語・文である確からしさ」である。

（３−３）尤度ＳＴ１
尤度ＳＴ１は、機械翻訳部１３における形態素解析結果である。

文章は全て、形態素という意味を持つ最小単位で構成されている。つまり文章の各語を品詞で分けてその文構造を得るものである。この形態素解析の結果を利用することによって、機械翻訳においてはその文章の構成木が得られ、この構成木を対訳の文章の構成木へと変換できる（図９）。このとき前者で文章から構成木を得る過程において、複数の構成が考えられうる。それは、助詞の扱いの違いであったり、純粋に区分けの違いによって得られる複数の解釈であったり、さまざまである。

例えば、図１０に示すように、``あしたはしらない"という音声認識結果において``明日走らない"、``明日、柱、無い"、``明日は知らない"などのパターンが考えられうる。``明日、柱、無い"に関しては、通常使われることは少ないが、``明日走らない"と``明日は知らない"の２つにおいてはそのときの状況によって使われる可能性がある。

これらに関して、ある単語の前後関係や現在話している分野の語彙であるかどうかなどによって、その構成の確からしさが考えられる。実際、処理においてはこのような尤度を比較することによって、最も確からしい構成を決定するのであるが、この時に用いる尤度が入力として使えると考えられる。つまり「文章の構成の確からしさ」を表すスコアである。このとき文章のうちでも、ある部分に関してはこの語句しか入らないとか、ある部分に関して２通りの形態素の組合せがあるがどちらも意味が通りやすいとか、部分部分によってその尤度が異なる。

そこで、文章全体に関する尤度だけではなく、各語彙の尤度に関しても入力として用いることができる。

（３−４）尤度ＳＴ２
尤度ＳＴ２は、機械翻訳部１３において形態素解析によって分類された品詞に対応する重み値である。

この尤度ＳＴ２は他のスコアと性質が異なるが、形態素解析によって得られた結果によって、伝える重要度の判断を下すことができる。

つまり、品詞のうち、自立語に関してはその語彙だけである程度の意味を伝えることができるが、付属語に関しては``は"とか``へ"とかの意味だけでは具体的な意味までは表すことができない。人に伝えるシチュエーションにおいて、付属語より自立語をより重点的に伝えてほしいという点がある。

人はある程度断片的な情報であっても大まかの意味を得ることができ、いくつかの自立語が伝達できればそれで十分である場合が多い。このことから、ここで得られる形態素の結果、つまりそれぞれの形態素の品詞のデータから、品詞毎の意味に関する重要度の値を設定することができる。この値をスコアとして、最終的な出力音声のパラメータに反映させる。

この尤度ＳＴ２は音声認識部１２、音声合成部１５でも行われており、それぞれの処理に特化した形態素解析を行っており、またそれらの品詞情報からも重み値を求め、最終的な出力音声のパラメータに反映させることができる。

（３−５）尤度ＳＴ３
尤度ＳＴ３は、機械翻訳部１３においてある語彙に対する訳語を算出したときの確からしさである。

機械翻訳の本分と言うべき機能であるが、１３３において訳文の構文木を生成した後、変換前の構文木と照らし合わせて訳文中の語を訳語で埋めていく。このとき対訳辞書を参照するが、辞書の内でも訳がいくつか分かれる場合がある。

例えば、日英翻訳を考えた場合、``切る"の英訳として、ナイフなどで物を切断する場面では``cut"を、スイッチを切るという場面では``turn off ／ cut off"を、職を失うという首を切るという場面では``fire"を用いるなど、様々考えられる（図１１）。

また``cut"の意味における``切る"であっても、その切り方（``薄く"、``はさみでチョキンと"、``のこぎりで"など）によって別の単語を用いる場合もある。

この中から適切な語を選ぶときに、選択の基準としては、``このような文の中ではこの語を用いる"というような経験的な用例から求めることが多い。また、訳語としては同じながら意味が微妙に異なる場合において``この場で用いる語はどちらか"を選択する際に、基準となる値を設定しておく。

このような選択に使われる値はその語の尤度ＳＴ３であるため、ここで挙げることができる。

（４）パラメータ設定部１４の算出方法
前述で挙げた、音声認識部１２と機械翻訳部１３から得られる各種尤度を用いて、文の形態素毎にその強調の程度、その語彙の尤度を算出する。これには重み付け平均や積算値が用いられる。

例えば、図１２、図１３において``私は昨日渋谷に買い物に行きました。"を``I went shopping to Shibuya yesterday."に日英翻訳を行う場合を考える。

音声認識部１２において求められる各種尤度をＳＲ１，ＳＲ２，・・・、機械翻訳部１３において求められる各種尤度をＳＴ１，ＳＴ２，・・・とした。このとき尤度算出に用いる式をｆ（）とした場合、求める尤度Ｃは、式（３）の通りとなる。

ここで、ＳＲ１，ＳＲ２，・・・，ＳＴ１，ＳＴ２，・・・に関して、正規化を行ったり、尤度値として確率のような［０，１］の範囲の値を用いたりするなどの処置を適宜行う。

また、尤度Ｃは単語毎に求めるが、その翻訳前後における単語の関連情報を、機械翻訳部１３において求め、表として記録しておく。例えば図１４の表に示す。この表より翻訳後の各単語における音声合成用パラメータに対して、翻訳前のどの単語が影響を及ぼすかを表すことができる。この表は図８における処理で利用されている。

例えば、ここで``shopping"に関して尤度Ｃ（``shopping"）を求めることを考えた場合（図７）、その訳語を遡って``買い物"に関する尤度を引用する。ゆえに

Ｃ（``shopping"）＝ｆ（ＳＲ１（``買い物"），ＳＲ２（``買い物"），・・・，ＳＴ１（``shopping"），ＳＴ２（``shopping"）・・・）（４）

と算出される。ここで括弧つきの尤度ＳＲｉ，ＳＴｊ，Ｃは、括弧内の語に対する尤度であることを示す。

また、``went"に関して尤度Ｃ（``went"）を求めることを考えた場合（図８）に訳語を遡ると、``行き／まし／た"に関する尤度を引用することとなる。この場合、``行き"は``go"の意味であり、``た"は過去時制を指し、``まし"は丁寧語であることを指す。よって``went"はこれら３つの形態素から影響を受ける為、尤度Ｃ（``went"）の算出は以下の通りに行う。

Ｃ（``went"）＝ｆ（ＳＲ１（``行き"），ＳＲ１（``まし"），ＳＲ１（``た"），ＳＲ２（``行き"），ＳＲ２（``まし"），ＳＲ２（``た"），・・・，ＳＴ１（``went"），ＳＴ２（``went"）・・・）（５）

このようにすることで、翻訳前後の尤度が全て``went"に影響を及ぼすようにできる。

またこのとき、図１４の表を参照して、``行き"の意味と``た"の過去時制から訳語が``went"であることが言えるため、これらに関して``went"への影響度を大きくする。また、``まし"という丁寧語に関しては``went"に構造的に含まれるものの特に反映されていない為、影響度は小さくする。そこで各単語を重み付けで``行きました"としての尤度を算出し、これを尤度Ｃ（``went"）の算出に用いることも考えられる。つまり、以下の式（６）（７）の計算を行うということである。

ＳＲｉ（``行きました"）＝ｗ（``行き"）ＳＲｉ（``行き"）＋ｗ（``まし"）ＳＲｉ（``まし"）＋ｗ（``た"）ＳＲｉ（``た"）（６）

Ｃ（``went"）＝ｆ（ＳＲ１（``行きました"），ＳＲ１（``行きました"），・・・，ＳＴ１（``went"），ＳＴ２（``went"）・・・）（７）

このようにすれば、ｗ（``行き"），ｗ（``た"）を大きく、ｗ（``まし"）を小さく設定することによって、影響度を設定することが可能となる。

（５）音声合成部１５でのパラメータ設定
パラメータ設定部１４において、音声認識部１２と機械翻訳部１３から得られる各種尤度を用いて求められた各単語の尤度を用いて、音声合成部１５における音声生成処理を行う。

（５−１）パラメータの種類
ここで各セグメントの尤度を反映させるパラメータとしては、音声ボリューム値、ピッチ、音色などがある。尤度が高い単語に関してはより明瞭に、尤度が低い単語に関してはより曖昧に、音声で表現するために、上記パラメータを調整する。ピッチは声の高さを示し、値を大きくすることによってより高い声となる。音声ボリューム値やピッチによる文音声の音の強弱・高低パターンは文音声のアクセントとなり、上記２つのパラメータを調節することはアクセントの制御とも言える。但し、アクセントは文全体を見たときのバランスも考慮することとなる。

また、音色（声の種類）は、様々な周波数の音波の合成波である音声において、共鳴などによって強く検出された周波数（フォルマント）の組合せから違いが生じる。フォルマントは音声認識において音声の特徴として用いられるものであり、これらの組合せパターンをコントロールすることによってさまざまな種類の音声を生成することができる。この合成手法はフォルマント合成と呼ばれ、明瞭な音声を生成しやすい音声合成方法である。これは、通常の音声データベースから音声を生成する音声合成装置では単語間を連結した場合の加工により音の欠損が起こり不明瞭になる一方、その様な音の欠損を起こすことなく明瞭な音声を生成することができる。この部分のコントロールによっても明瞭さを調整することができる。つまりここでは、音色と音の質のコントロールを行うこととなる。

但し、この手法では自然な音声を得ることが難しくロボット的な音声となる。

さらに、発声速度を変化させて、不明瞭な箇所はゆっくり発声させてもよい。

（５−２）音声ボリューム値の調節
音声ボリューム値を調節する場合を考えると、より大きな音声ボリューム値ほどユーザに対して明瞭に情報を伝えることができる。逆に小さくするほどユーザは聞き取りづらくなる。ゆえに、単語毎の尤度Ｃを音声ボリューム値Ｖへと反映させる場合、元の音声ボリューム値をＶｏｒｉとした場合、

Ｖ=ｆ（Ｃ，Ｖｏｒｉ）（８）

がＣに関して単調増加関数であれば良い。例えば、ＣとＶｏｒｉの積によってＶを算出したり、

Ｖ＝Ｃ・Ｖｏｒｉ（９）

Ｃがある程度大きくないとその信頼性が確約されないことを考えた場合に、Ｃを閾値処理して

として、尤度が低い場合には出力自体をしないとしたりすることができる。

また、同様の考え方で、変換関数を

Ｖ＝Ｖｏｒｉ・ｅｘｐ（Ｃ）（１１）

と設定することも考えられる。これによって、より高い尤度Ｃでは大きい値Ｖを出力することとなる。

（５−３）ピッチの調整
また、ピッチを調節する場合を考えた場合、基底周波数をより高くほど音声として高い声となる。総じて男声より女声の方が基底周波数が高い。この基底周波数を高くすることにより、より鮮明に声を伝えることができる。よってこの基底周波数ｆ０と単語毎の尤度Ｃとを単調増加関数とした場合に、この調整手段が可能となる。

ｆ０=ｆ（Ｃ，ｆ０，ｏｒｉ）（１２）

このようにして得られた音声生成パラメータを用いて、音声合成部１５において音声合成１５２を行う。出力される音声は、この単語毎に尤度を反映したものであり、より尤度の高いものほどユーザに伝わりやすくなっている。

但し、音声生成を行う際、単語間の切れ目で不自然な不連続が生じる場合や全体的に尤度が低く設定されている場合などが考えられる。

前者に関しては、切れ目において連続的に連結したり、尤度が低い単語が尤度が高い単語につられて尤度が少し高くなるようにしたりすることを対処として行う。

後者に関しては、全体の平均値を上げて算出することや、文章全体に対して正規化を行う対処や、全体的に尤度が低いならばその文章自体をリジェクトしてしまうということなどが考えられる。また、文全体を考慮したアクセント制御を行う必要がある。

（７）変更例
なお、本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。

例えば、尤度を求める単位としては、上記実施形態の内容に限らず、セグメント毎に求めればよい。

なお、「セグメント」とは、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり（Ｖは母音、Ｃは子音を表す）、これらが混在しているなど可変長であってもよい。

本発明の一実施形態の音声翻訳処理結果スコアの音声への反映を示す図である。音声翻訳装置１０の処理全体のフローチャートである。音声認識部１２のフローチャートである。機械翻訳部１３のフローチャートである。音声合成部１５のフローチャートである。取得した音声データと音素データベースとの類似度計算の図である。ＨＭＭの図である。状態Ｓ０から状態Ｓ６へ至る経路である。構文木を用いた日英、英日の翻訳を説明する図である。形態素解析における文構成の複数の可能性と尤度を説明する図である。訳語における複数の可能性を説明する図である。 ``shopping"に関して音声翻訳処理結果スコアの音声への反映を示す図である。 ``went"に関して音声翻訳処理結果スコアの音声への反映を示す図である。翻訳前後における単語の関連情報を、機械翻訳部１３において求めた表である。

符号の説明

１０音声翻訳装置
１１音声入力部
１２音声認識部
１３機械翻訳部
１４パラメータ設定部
１５音声合成部
１６音声出力部

Claims

任意の言語からなる音声データを取得する音声入力部と、
前記任意の言語の音声データを認識処理して認識データを求めると共に、前記認識データのセグメント毎の尤度を求める音声認識部と、
前記認識データを前記任意の言語以外の他の言語の翻訳データに翻訳すると共に、前記翻訳データのセグメント毎の尤度を求める翻訳部と、
前記認識データの各セグメントの尤度と前記翻訳データの各セグメントの尤度を用いて、前記翻訳データから音声合成するために必要なパラメータを設定するパラメータ設定部と、
前記セグメント毎のパラメータを用いて前記翻訳データを、前記他の言語で発話するための音声データへ変換する音声合成部と、
前記他の言語の音声データから音声を出力する音声出力部と、
を有する
ことを特徴とする音声翻訳装置。
前記パラメータ設定部は、前記音声認識部において、前記任意の言語の語彙毎に求められた１つまたは複数の尤度と、前記翻訳部において、前記他の言語の語彙毎に求められた１つまたは複数の尤度とを用いて、前記パラメータを設定する
ことを特徴とする請求項１記載の音声翻訳装置。
前記パラメータ設定部は、前記パラメータとして音声ボリューム値を設定する
ことを特徴とする請求項１記載の音声翻訳装置。
前記パラメータ設定部は、前記尤度が高いほど前記音声ボリューム値を大きくする
ことを特徴とする請求項３記載の音声翻訳装置。
前記パラメータ設定部は、前記パラメータとしてピッチ、音色、または、発話速度を設定する
ことを特徴とする請求項１記載の音声翻訳装置。
前記音声認識部で求められた尤度は、前記任意の言語の音声データと予め記憶した音素データとを比較したときに算出される類似度、または、トレリス計算によって算出された単語または文の出力確率値である
ことを特徴とする請求項１記載の音声翻訳装置。
前記翻訳部で求められた尤度は、前記翻訳部における形態素解析の結果、当該形態素解析によって分
類された品詞に対応する重み値、または、ある語彙に対する訳語を算出したときの確からしさである
ことを特徴とする請求項１記載の音声翻訳装置。
前記パラメータ設定部は、前記任意の言語のセグメント毎、または、前記他の言語のセグメント毎に、前記各尤度の重み付け平均や前記各尤度の積算値を用いて前記パラメータを設定する
ことを特徴とする請求項１記載の音声翻訳装置。
前記セグメントは、文、形態素、語彙、または、単語である
ことを特徴とする請求項１記載の音声翻訳装置。
前記翻訳部は、前記任意の言語のセグメントと前記他の言語のセグメントの対応関係を記憶し、前記対応関係に基づいて翻訳を行う
ことを特徴とする請求項１記載の音声翻訳装置。
任意の言語からなる音声データを取得し、
前記任意の言語の音声データを認識処理して認識データを求めると共に、前記認識データのセグメント毎の尤度を求め、
前記認識データを前記任意の言語以外の他の言語の翻訳データに翻訳すると共に、前記翻訳データのセグメント毎の尤度を求め、
前記認識データの各セグメントの尤度と前記翻訳データの各セグメントの尤度を用いて、前記翻訳データから音声合成するために必要なパラメータを設定し、
前記セグメント毎のパラメータを用いて前記翻訳データを、前記他の言語で発話するための音声データへ変換し、
前記他の言語の音声データから音声を出力する
ことを特徴とする音声翻訳方法。
任意の言語からなる音声データを取得する音声入力機能と、
前記任意の言語の音声データを認識処理して認識データを求めると共に、前記認識データのセグメント毎の尤度を求める音声認識機能と、
前記認識データを前記任意の言語以外の他の言語の翻訳データに翻訳すると共に、前記翻訳データのセグメント毎の尤度を求める翻訳機能と、
前記認識データの各セグメントの尤度と前記翻訳データの各セグメントの尤度を用いて、前記翻訳データから音声合成するために必要なパラメータを設定するパラメータ設定機能と、
前記セグメント毎のパラメータを用いて前記翻訳データを、前記他の言語で発話するための音声データへ変換する音声合成機能と、
前記他の言語の音声データから音声を出力する音声出力機能と、
をコンピュータによって実現する
ことを特徴とする音声翻訳プログラム。