JP2008032834A - 音声翻訳装置及びその方法 - Google Patents
音声翻訳装置及びその方法 Download PDFInfo
- Publication number
- JP2008032834A JP2008032834A JP2006203597A JP2006203597A JP2008032834A JP 2008032834 A JP2008032834 A JP 2008032834A JP 2006203597 A JP2006203597 A JP 2006203597A JP 2006203597 A JP2006203597 A JP 2006203597A JP 2008032834 A JP2008032834 A JP 2008032834A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- translation
- data
- likelihood
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000877 morphologic effect Effects 0.000 claims description 8
- 238000012905 input function Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 70
- 238000012545 processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 108010076504 Protein Sorting Signals Proteins 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 241001122315 Polites Species 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
【課題】音声認識や機械翻訳の失敗の可能性があることを利用者にわかるように翻訳結果を音声で出力できる音声翻訳装置を提供する。
【解決手段】音声翻訳装置10は、音声入力部11、音声認識部12、機械翻訳部13、パラメータ設定部14、音声合成部15、音声出力部16からなり、音声認識・機械翻訳によって得られる複数の尤度から出力する音声データの音声ボリューム値を決定し、尤度の低い語彙に関してユーザに対して音声ボリューム値を小さくして伝わりにくくし、逆に尤度の高い語彙に関してユーザに対して音声ボリューム値を大きくして、特に強調されて伝えられるようにする。
【選択図】 図2
【解決手段】音声翻訳装置10は、音声入力部11、音声認識部12、機械翻訳部13、パラメータ設定部14、音声合成部15、音声出力部16からなり、音声認識・機械翻訳によって得られる複数の尤度から出力する音声データの音声ボリューム値を決定し、尤度の低い語彙に関してユーザに対して音声ボリューム値を小さくして伝わりにくくし、逆に尤度の高い語彙に関してユーザに対して音声ボリューム値を大きくして、特に強調されて伝えられるようにする。
【選択図】 図2
Description
音声認識技術と機械翻訳技術と音声合成技術に関するから音声翻訳装置及びその方法に関する。
音声認識方法において、音声認識した返答メッセージの中で音声認識結果に自信が持てない部分をゆっくりと復唱するという方法が提案されている(例えば、特許文献1参照)。
この方法は、人との対話中に発話している音声の内容に不備があった場合、バージインによって人がその場で訂正を加えることを可能にしたものである。このときに、音声認識装置側で発話内容を生成したとき確証の置けない部分をわざとゆっくりと発話することにより、人に対してそこが不備がありそうな部分であることを示すと同時に、バージインによって訂正を加える時間を大きく取ることができる。
特開2003−208196公報
音声翻訳装置においては、音声認識に加えて、機械翻訳を行う必要がある。しかし、音声認識と機械翻訳においてデータ変換を行う際、少なからず変換の失敗が生じる。この変換の失敗は音声認識のみより可能性が高くなる。
そのため、音声認識であれば誤認識、認識結果なし、機械翻訳であれば翻訳誤り、翻訳結果なしが得られる。この変換の失敗を含めて、音声認識、機械翻訳で算出される尤度に応じて得られる順位で第一位の変換結果が採用されて、最後に音声出力によってユーザに提示される。この時に尤度の値が低くても第一位となれば、例え変換誤りであってもその結果が出力されてしまう。
そこで、本発明は、上記問題点に関して、音声認識や機械翻訳の失敗の可能性があることを利用者にわかるように翻訳結果を音声で出力できる音声翻訳装置及びその方法を提供する。
本発明は、任意の言語からなる音声データを取得する音声入力部と、前記任意の言語の音声データを認識処理して認識データを求めると共に、前記認識データのセグメント毎の尤度を求める音声認識部と、前記認識データを前記任意の言語以外の他の言語の翻訳データに翻訳すると共に、前記翻訳データのセグメント毎の尤度を求める翻訳部と、前記認識データの各セグメントの尤度と前記翻訳データの各セグメントの尤度を用いて、前記翻訳データから音声合成するために必要なパラメータを設定するパラメータ設定部と、前記セグメント毎のパラメータを用いて前記翻訳データを、前記他の言語で発話するための音声データへ変換する音声合成部と、前記他の言語の音声データから音声を出力する音声出力部と、を有することを特徴とする音声翻訳装置である。
本発明によれば、音声認識や機械翻訳の失敗の可能性があることを利用者にわかるように翻訳結果を音声で出力できる。
以下、本発明の一実施形態の音声翻訳装置10について図1から図14に基づいて説明する。
(1)音声翻訳装置10の概要
本実施形態の音声翻訳装置10では、音声出力時の音声ボリューム値に着目し、音声認識・機械翻訳によって得られる複数の尤度から出力する音声データの音声ボリューム値を決定する。この処理によって、尤度の低い語彙に関してユーザに対して音声ボリューム値を小さくして伝わりにくくし、逆に尤度の高い語彙に関してユーザに対して音声ボリューム値を大きくして、特に強調されて伝えられるようにする。
本実施形態の音声翻訳装置10では、音声出力時の音声ボリューム値に着目し、音声認識・機械翻訳によって得られる複数の尤度から出力する音声データの音声ボリューム値を決定する。この処理によって、尤度の低い語彙に関してユーザに対して音声ボリューム値を小さくして伝わりにくくし、逆に尤度の高い語彙に関してユーザに対して音声ボリューム値を大きくして、特に強調されて伝えられるようにする。
ユーザは、音声ボリューム値によって強調された部分(すなわち処理結果として確からしい情報)を元にその伝えようとする意図を理解できる。
参照する尤度としては、音声認識における、音素毎の比較による類似度、トレリス計算による語彙のスコア、ラティス構造から算出されるフレーズ・文のスコア、機械翻訳における、訳語の尤度スコア、形態素解析結果、用例との類似度スコアなどがある。これらを用いて図1のように算出した、単語単位の尤度の値を音声ボリューム値や基底周波数、音色、イントネーション、速度などの音声生成時のパラメータに反映させて用いる。
人の聴力に関わらず、音量の小さい語より音量の大きい語の方が明瞭に聞こえやすい。この音量の差を音声翻訳処理の尤度によって決めることによって、音声出力されるデータを受け取るユーザはより確からしい語彙(尤度が高く算出された語彙)をより明瞭に聞き取ることができる。また人間は断片的な情報からでもある程度確かな情報を得ることができる。これは断片的な情報から類推することによって、伝えられようとしている情報を推測する人間の技術である。この2つの点によって間違った語彙を提示して誤った情報が伝わってしまうことが少なくなり、ユーザは正しい情報を得ることができる。
また、図1に示すように、翻訳の結果として``行き/まし/た"が``went"に翻訳されるなど、音声出力すべき語彙に影響を及ぼす範囲としては、翻訳後の語彙だけではなく翻訳前の語彙または句であることから、特許文献1における算出処理と異なる。また、音声認識した結果を全て伝えることを目的としている特許文献1と比較して、本実施形態は全ての音声認識結果データを伝えなくても概略が伝えられれば良いという点が異なる。
(2)音声翻訳装置10の構成
音声翻訳装置10の構成について図2〜図5に示す。
音声翻訳装置10の構成について図2〜図5に示す。
図2は、音声翻訳装置10の構成を示すブロック図である。音声翻訳装置10は、音声入力部11、音声認識部12、機械翻訳部13、パラメータ設定部14、音声合成部15、音声出力部16からなる。
各部12〜15の各機能は、コンピュータに記憶されたプログラムによっても実現できる。
(2−1)音声入力部11
音声入力部11は、例えばマイクロホンなど外界の音響データを取得する音響センサである。ここで挙げる音響データとは、音声、環境雑音、器械音などから成る外界で発生する音波をデジタルデータとして取得したときの値となる。通常、設定されたサンプリング周波数における音圧値の時間列として得られる。
音声入力部11は、例えばマイクロホンなど外界の音響データを取得する音響センサである。ここで挙げる音響データとは、音声、環境雑音、器械音などから成る外界で発生する音波をデジタルデータとして取得したときの値となる。通常、設定されたサンプリング周波数における音圧値の時間列として得られる。
音声入力部11では、人の音声を対象としている為に、取得するデータは「音声データ」と呼称する。ここでこの音声データには、後述する音声認識処理で認識対象となる人の音声に関するデータの他に、その発声者の周囲で発生している環境雑音(背景雑音)も含まれている。
(2−2)音声認識部12
音声認識部12の処理について図3に基づいて説明する。
音声認識部12の処理について図3に基づいて説明する。
音声入力部11で得られた音声データ中に含まれる人の音声の区間を切出す(ステップ121)。
音素データとその前後関係から生成されたHMM(Hidden Markov Model)のデータベース124を予め用意しておき、これを用いて音声データとこのデータベース124のHMMを照合させ文字列を得る(ステップ122)。
この算出された文字列を認識結果として出力する(ステップ123)。
(2−3)機械翻訳部13
機械翻訳部13の処理について図4に基づいて説明する。
機械翻訳部13の処理について図4に基づいて説明する。
音声認識部12によって得られた認識結果の文字列の構文を解析する(ステップ131)。
得られた構文木を翻訳対象の構文木へ変換する(ステップ132)。
その変換元と変換先の対応関係から訳語を選択して訳文を生成する(ステップ133)。
(2−4)パラメータ設定部14
パラメータ設定部14は、音声認識部12における処理内で、認識処理結果における認識文中の各単語毎の尤度を表す値を取得する。
パラメータ設定部14は、音声認識部12における処理内で、認識処理結果における認識文中の各単語毎の尤度を表す値を取得する。
また、機械翻訳部13における処理内で、翻訳処理結果における訳文中の各単語の尤度を表す値を取得する。
このように得られた訳文中の一つの単語に対する複数の尤度から、その単語の尤度を算出する。この単語の尤度を用いて音声合成部15における音声生成処理で用いられるパラメータに算出し設定する。
このパラメータ設定部14の詳細については、後述する。
(2−5)音声合成部15
音声合成部15の処理について図5に基づいて説明する。
音声合成部15の処理について図5に基づいて説明する。
音声合成部15は、パラメータ設定部14において設定された音声生成パラメータを用いて音声合成処理を行う。
手順としては、訳文の構文を解析し(ステップ151)、これを元に音声データを生成する(ステップ152)。
(2−6)音声出力部16
音声出力部16は、例えばスピーカなどであり、音声合成部15において生成された音声データから音声を出力する。
音声出力部16は、例えばスピーカなどであり、音声合成部15において生成された音声データから音声を出力する。
(3)尤度の内容
パラメータ設定部14において、その入力として音声認識部12から取得する尤度SRj(i=1,2,・・・)、機械翻訳部13から取得する尤度STj(j=1,2,・・・)は、以下のような値が挙げられる。最終的に音声生成のパラメータに反映するとき、より強調されてユーザに提示することを考える為、``より確からしい結果はより強調する"、``重要な結果はより強調する"ということを目標として、尤度を選出する。前者としては類似度や確率値、後者としては語の質・重み付けを選出することとする。
パラメータ設定部14において、その入力として音声認識部12から取得する尤度SRj(i=1,2,・・・)、機械翻訳部13から取得する尤度STj(j=1,2,・・・)は、以下のような値が挙げられる。最終的に音声生成のパラメータに反映するとき、より強調されてユーザに提示することを考える為、``より確からしい結果はより強調する"、``重要な結果はより強調する"ということを目標として、尤度を選出する。前者としては類似度や確率値、後者としては語の質・重み付けを選出することとする。
(3−1)尤度SR1
尤度SR1は、音声認識部12において音声データと音素データとを比較したときに算出される類似度である。
尤度SR1は、音声認識部12において音声データと音素データとを比較したときに算出される類似度である。
音声認識部12において認識処理を行うとき、取得して音声区間として切出した音声データの音素と既存の音素データベース124に格納されている音素を比較することで、比較している音声データの音素が``a"であるのか、``i"であるのかを判定する。
例えば``a"であるとした場合、``a"と似ている程度と``i"と似ている程度では、``a"と似ている程度が大きいためそのように判断したのであり、その``程度"をある一つのパラメータとして算出している(図6)。この``程度"は実際の音声認識処理でも尤度SR1として用いられているのであるが、つまるところ「その音素が``a"である確からしさ」である。
(3−2)尤度SR2
尤度SR2は、音声認識部12においてトレリス計算によって算出された単語または文の出力確率値である。
尤度SR2は、音声認識部12においてトレリス計算によって算出された単語または文の出力確率値である。
通常、音声認識処理を行うにあたり、音声データをテキスト化する内部処理においてHMM(Hidden Markov Model、隠れマルコフモデル)を用いた確率計算を行っている。
例えば``とけい(時計)"を認識する場合、HMMは図7のようになる。初期状態として、初めに状態はS0に停留している。音声入力があった時S1に移り、以降S2,S3・・・と遷移し、音声終了時にはS6へ遷移している。
このそれぞれの状態Siにおいて、例えばS1では/t/を出力する確率が高いなどの、音素の出力信号の種類とその信号が出力される確率が設定されている。これは予め多量の音声データを用いて学習させておき、各単語毎に辞書としてHMMを蓄えておく。
このときあるHMM(例えば図7に示すHMM)において、時系列の軸も考えた場合その状態遷移を取りうる経路のパターンとしては、図8に示すような経路(126通りの経路)をたどることが考えられる。
横軸が時刻、縦軸がHMMの状態である。但し、各時刻ti(i=0,1,・・・,11)において出力される信号の系列Oがあり、これを出力されることがHMMに対して求められる。この126通りの経路のそれぞれに対して信号系列Oを出力する確率が算出される。
これらの確率に対して、和を取ることでHMMが信号系列Oを出力する確率を算出するアルゴリズムを前向きアルゴリズムと呼び、一方でそれらの経路のうちで信号系列Oを出力する確率が最も高い経路(最尤パス)を求めるアルゴリズムをビタビアルゴリズムと呼ぶ。計算量などの観点から主に後者が用いられ、これは文解析(単語間の連結の解析)にも用いられる。
ビタビアルゴリズムにおいて最尤パスを求めるとき、以下の式(1)(2)によってその最尤パスの尤度が求められる。これは最尤パスにおいて信号系列Oを出力する確率Pr(O)であり、通常認識処理を行う上で求められているものである。
ここで、α(t,j)は時刻t(t=0,1,・・・,T)において、それまでの信号系列を出力して状態へ移行するという経路のうちの最大確率である。また、akjは状態Skから状態Sjへ遷移する確率であり、bj(x)は状態Sjにおいて信号xを出力する確率である。
この結果を受けて音声認識処理の結果が、各HMMの最尤パスの出力確率値のうち最も高い値を出したHMMの示す単語・文となる。つまるところ、ここで言う最尤パスの出力確率値SR2が「入力音声がその単語・文である確からしさ」である。
(3−3)尤度ST1
尤度ST1は、機械翻訳部13における形態素解析結果である。
尤度ST1は、機械翻訳部13における形態素解析結果である。
文章は全て、形態素という意味を持つ最小単位で構成されている。つまり文章の各語を品詞で分けてその文構造を得るものである。この形態素解析の結果を利用することによって、機械翻訳においてはその文章の構成木が得られ、この構成木を対訳の文章の構成木へと変換できる(図9)。このとき前者で文章から構成木を得る過程において、複数の構成が考えられうる。それは、助詞の扱いの違いであったり、純粋に区分けの違いによって得られる複数の解釈であったり、さまざまである。
例えば、図10に示すように、``あしたはしらない"という音声認識結果において``明日走らない"、``明日、柱、無い"、``明日は知らない"などのパターンが考えられうる。``明日、柱、無い"に関しては、通常使われることは少ないが、``明日走らない"と``明日は知らない"の2つにおいてはそのときの状況によって使われる可能性がある。
これらに関して、ある単語の前後関係や現在話している分野の語彙であるかどうかなどによって、その構成の確からしさが考えられる。実際、処理においてはこのような尤度を比較することによって、最も確からしい構成を決定するのであるが、この時に用いる尤度が入力として使えると考えられる。つまり「文章の構成の確からしさ」を表すスコアである。このとき文章のうちでも、ある部分に関してはこの語句しか入らないとか、ある部分に関して2通りの形態素の組合せがあるがどちらも意味が通りやすいとか、部分部分によってその尤度が異なる。
そこで、文章全体に関する尤度だけではなく、各語彙の尤度に関しても入力として用いることができる。
(3−4)尤度ST2
尤度ST2は、機械翻訳部13において形態素解析によって分類された品詞に対応する重み値である。
尤度ST2は、機械翻訳部13において形態素解析によって分類された品詞に対応する重み値である。
この尤度ST2は他のスコアと性質が異なるが、形態素解析によって得られた結果によって、伝える重要度の判断を下すことができる。
つまり、品詞のうち、自立語に関してはその語彙だけである程度の意味を伝えることができるが、付属語に関しては``は"とか``へ"とかの意味だけでは具体的な意味までは表すことができない。人に伝えるシチュエーションにおいて、付属語より自立語をより重点的に伝えてほしいという点がある。
人はある程度断片的な情報であっても大まかの意味を得ることができ、いくつかの自立語が伝達できればそれで十分である場合が多い。このことから、ここで得られる形態素の結果、つまりそれぞれの形態素の品詞のデータから、品詞毎の意味に関する重要度の値を設定することができる。この値をスコアとして、最終的な出力音声のパラメータに反映させる。
この尤度ST2は音声認識部12、音声合成部15でも行われており、それぞれの処理に特化した形態素解析を行っており、またそれらの品詞情報からも重み値を求め、最終的な出力音声のパラメータに反映させることができる。
(3−5)尤度ST3
尤度ST3は、機械翻訳部13においてある語彙に対する訳語を算出したときの確からしさである。
尤度ST3は、機械翻訳部13においてある語彙に対する訳語を算出したときの確からしさである。
機械翻訳の本分と言うべき機能であるが、133において訳文の構文木を生成した後、変換前の構文木と照らし合わせて訳文中の語を訳語で埋めていく。このとき対訳辞書を参照するが、辞書の内でも訳がいくつか分かれる場合がある。
例えば、日英翻訳を考えた場合、``切る"の英訳として、ナイフなどで物を切断する場面では``cut"を、スイッチを切るという場面では``turn off / cut off"を、職を失うという首を切るという場面では``fire"を用いるなど、様々考えられる(図11)。
また``cut"の意味における``切る"であっても、その切り方(``薄く"、``はさみでチョキンと"、``のこぎりで"など)によって別の単語を用いる場合もある。
この中から適切な語を選ぶときに、選択の基準としては、``このような文の中ではこの語を用いる"というような経験的な用例から求めることが多い。また、訳語としては同じながら意味が微妙に異なる場合において``この場で用いる語はどちらか"を選択する際に、基準となる値を設定しておく。
このような選択に使われる値はその語の尤度ST3であるため、ここで挙げることができる。
(4)パラメータ設定部14の算出方法
前述で挙げた、音声認識部12と機械翻訳部13から得られる各種尤度を用いて、文の形態素毎にその強調の程度、その語彙の尤度を算出する。これには重み付け平均や積算値が用いられる。
前述で挙げた、音声認識部12と機械翻訳部13から得られる各種尤度を用いて、文の形態素毎にその強調の程度、その語彙の尤度を算出する。これには重み付け平均や積算値が用いられる。
例えば、図12、図13において``私は昨日渋谷に買い物に行きました。"を``I went shopping to Shibuya yesterday."に日英翻訳を行う場合を考える。
音声認識部12において求められる各種尤度をSR1,SR2,・・・、機械翻訳部13において求められる各種尤度をST1,ST2,・・・とした。このとき尤度算出に用いる式をf()とした場合、求める尤度Cは、式(3)の通りとなる。
ここで、SR1,SR2,・・・,ST1,ST2,・・・に関して、正規化を行ったり、尤度値として確率のような[0,1]の範囲の値を用いたりするなどの処置を適宜行う。
また、尤度Cは単語毎に求めるが、その翻訳前後における単語の関連情報を、機械翻訳部13において求め、表として記録しておく。例えば図14の表に示す。この表より翻訳後の各単語における音声合成用パラメータに対して、翻訳前のどの単語が影響を及ぼすかを表すことができる。この表は図8における処理で利用されている。
例えば、ここで``shopping"に関して尤度C(``shopping")を求めることを考えた場合(図7)、その訳語を遡って``買い物"に関する尤度を引用する。ゆえに
C(``shopping")=f(SR1(``買い物"),SR2(``買い物"),・・・,ST1(``shopping"),ST2(``shopping")・・・) (4)
と算出される。ここで括弧つきの尤度SRi,STj,Cは、括弧内の語に対する尤度であることを示す。
C(``shopping")=f(SR1(``買い物"),SR2(``買い物"),・・・,ST1(``shopping"),ST2(``shopping")・・・) (4)
と算出される。ここで括弧つきの尤度SRi,STj,Cは、括弧内の語に対する尤度であることを示す。
また、``went"に関して尤度C(``went")を求めることを考えた場合(図8)に訳語を遡ると、``行き/まし/た"に関する尤度を引用することとなる。この場合、``行き"は``go"の意味であり、``た"は過去時制を指し、``まし"は丁寧語であることを指す。よって``went"はこれら3つの形態素から影響を受ける為、尤度C(``went")の算出は以下の通りに行う。
C(``went")=f(SR1(``行き"),SR1(``まし"),SR1(``た"),SR2(``行き"),SR2(``まし"),SR2(``た"),・・・,ST1(``went"),ST2(``went")・・・) (5)
このようにすることで、翻訳前後の尤度が全て``went"に影響を及ぼすようにできる。
またこのとき、図14の表を参照して、``行き"の意味と``た"の過去時制から訳語が``went"であることが言えるため、これらに関して``went"への影響度を大きくする。また、``まし"という丁寧語に関しては``went"に構造的に含まれるものの特に反映されていない為、影響度は小さくする。そこで各単語を重み付けで``行きました"としての尤度を算出し、これを尤度C(``went")の算出に用いることも考えられる。つまり、以下の式(6)(7)の計算を行うということである。
SRi(``行きました")=w(``行き")SRi(``行き")+w(``まし")SRi(``まし")+w(``た")SRi(``た") (6)
C(``went")=f(SR1(``行きました"),SR1(``行きました"),・・・,ST1(``went"),ST2(``went")・・・) (7)
このようにすれば、w(``行き"),w(``た")を大きく、w(``まし")を小さく設定することによって、影響度を設定することが可能となる。
(5)音声合成部15でのパラメータ設定
パラメータ設定部14において、音声認識部12と機械翻訳部13から得られる各種尤度を用いて求められた各単語の尤度を用いて、音声合成部15における音声生成処理を行う。
パラメータ設定部14において、音声認識部12と機械翻訳部13から得られる各種尤度を用いて求められた各単語の尤度を用いて、音声合成部15における音声生成処理を行う。
(5−1)パラメータの種類
ここで各セグメントの尤度を反映させるパラメータとしては、音声ボリューム値、ピッチ、音色などがある。尤度が高い単語に関してはより明瞭に、尤度が低い単語に関してはより曖昧に、音声で表現するために、上記パラメータを調整する。ピッチは声の高さを示し、値を大きくすることによってより高い声となる。音声ボリューム値やピッチによる文音声の音の強弱・高低パターンは文音声のアクセントとなり、上記2つのパラメータを調節することはアクセントの制御とも言える。但し、アクセントは文全体を見たときのバランスも考慮することとなる。
ここで各セグメントの尤度を反映させるパラメータとしては、音声ボリューム値、ピッチ、音色などがある。尤度が高い単語に関してはより明瞭に、尤度が低い単語に関してはより曖昧に、音声で表現するために、上記パラメータを調整する。ピッチは声の高さを示し、値を大きくすることによってより高い声となる。音声ボリューム値やピッチによる文音声の音の強弱・高低パターンは文音声のアクセントとなり、上記2つのパラメータを調節することはアクセントの制御とも言える。但し、アクセントは文全体を見たときのバランスも考慮することとなる。
また、音色(声の種類)は、様々な周波数の音波の合成波である音声において、共鳴などによって強く検出された周波数(フォルマント)の組合せから違いが生じる。フォルマントは音声認識において音声の特徴として用いられるものであり、これらの組合せパターンをコントロールすることによってさまざまな種類の音声を生成することができる。この合成手法はフォルマント合成と呼ばれ、明瞭な音声を生成しやすい音声合成方法である。これは、通常の音声データベースから音声を生成する音声合成装置では単語間を連結した場合の加工により音の欠損が起こり不明瞭になる一方、その様な音の欠損を起こすことなく明瞭な音声を生成することができる。この部分のコントロールによっても明瞭さを調整することができる。つまりここでは、音色と音の質のコントロールを行うこととなる。
但し、この手法では自然な音声を得ることが難しくロボット的な音声となる。
さらに、発声速度を変化させて、不明瞭な箇所はゆっくり発声させてもよい。
(5−2)音声ボリューム値の調節
音声ボリューム値を調節する場合を考えると、より大きな音声ボリューム値ほどユーザに対して明瞭に情報を伝えることができる。逆に小さくするほどユーザは聞き取りづらくなる。ゆえに、単語毎の尤度Cを音声ボリューム値Vへと反映させる場合、元の音声ボリューム値をVoriとした場合、
V=f(C,Vori) (8)
がCに関して単調増加関数であれば良い。例えば、CとVoriの積によってVを算出したり、
V=C・Vori (9)
Cがある程度大きくないとその信頼性が確約されないことを考えた場合に、Cを閾値処理して
音声ボリューム値を調節する場合を考えると、より大きな音声ボリューム値ほどユーザに対して明瞭に情報を伝えることができる。逆に小さくするほどユーザは聞き取りづらくなる。ゆえに、単語毎の尤度Cを音声ボリューム値Vへと反映させる場合、元の音声ボリューム値をVoriとした場合、
V=f(C,Vori) (8)
がCに関して単調増加関数であれば良い。例えば、CとVoriの積によってVを算出したり、
V=C・Vori (9)
Cがある程度大きくないとその信頼性が確約されないことを考えた場合に、Cを閾値処理して
として、尤度が低い場合には出力自体をしないとしたりすることができる。
また、同様の考え方で、変換関数を
V=Vori・exp(C) (11)
と設定することも考えられる。これによって、より高い尤度Cでは大きい値Vを出力することとなる。
V=Vori・exp(C) (11)
と設定することも考えられる。これによって、より高い尤度Cでは大きい値Vを出力することとなる。
(5−3)ピッチの調整
また、ピッチを調節する場合を考えた場合、基底周波数をより高くほど音声として高い声となる。総じて男声より女声の方が基底周波数が高い。この基底周波数を高くすることにより、より鮮明に声を伝えることができる。よってこの基底周波数f0と単語毎の尤度Cとを単調増加関数とした場合に、この調整手段が可能となる。
また、ピッチを調節する場合を考えた場合、基底周波数をより高くほど音声として高い声となる。総じて男声より女声の方が基底周波数が高い。この基底周波数を高くすることにより、より鮮明に声を伝えることができる。よってこの基底周波数f0と単語毎の尤度Cとを単調増加関数とした場合に、この調整手段が可能となる。
f0=f(C,f0,ori) (12)
このようにして得られた音声生成パラメータを用いて、音声合成部15において音声合成152を行う。出力される音声は、この単語毎に尤度を反映したものであり、より尤度の高いものほどユーザに伝わりやすくなっている。
但し、音声生成を行う際、単語間の切れ目で不自然な不連続が生じる場合や全体的に尤度が低く設定されている場合などが考えられる。
前者に関しては、切れ目において連続的に連結したり、尤度が低い単語が尤度が高い単語につられて尤度が少し高くなるようにしたりすることを対処として行う。
後者に関しては、全体の平均値を上げて算出することや、文章全体に対して正規化を行う対処や、全体的に尤度が低いならばその文章自体をリジェクトしてしまうということなどが考えられる。また、文全体を考慮したアクセント制御を行う必要がある。
(7)変更例
なお、本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
なお、本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
例えば、尤度を求める単位としては、上記実施形態の内容に限らず、セグメント毎に求めればよい。
なお、「セグメント」とは、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(Vは母音、Cは子音を表す)、これらが混在しているなど可変長であってもよい。
10 音声翻訳装置
11 音声入力部
12 音声認識部
13 機械翻訳部
14 パラメータ設定部
15 音声合成部
16 音声出力部
11 音声入力部
12 音声認識部
13 機械翻訳部
14 パラメータ設定部
15 音声合成部
16 音声出力部
Claims (12)
- 任意の言語からなる音声データを取得する音声入力部と、
前記任意の言語の音声データを認識処理して認識データを求めると共に、前記認識データのセグメント毎の尤度を求める音声認識部と、
前記認識データを前記任意の言語以外の他の言語の翻訳データに翻訳すると共に、前記翻訳データのセグメント毎の尤度を求める翻訳部と、
前記認識データの各セグメントの尤度と前記翻訳データの各セグメントの尤度を用いて、前記翻訳データから音声合成するために必要なパラメータを設定するパラメータ設定部と、
前記セグメント毎のパラメータを用いて前記翻訳データを、前記他の言語で発話するための音声データへ変換する音声合成部と、
前記他の言語の音声データから音声を出力する音声出力部と、
を有する
ことを特徴とする音声翻訳装置。 - 前記パラメータ設定部は、前記音声認識部において、前記任意の言語の語彙毎に求められた1つまたは複数の尤度と、前記翻訳部において、前記他の言語の語彙毎に求められた1つまたは複数の尤度とを用いて、前記パラメータを設定する
ことを特徴とする請求項1記載の音声翻訳装置。 - 前記パラメータ設定部は、前記パラメータとして音声ボリューム値を設定する
ことを特徴とする請求項1記載の音声翻訳装置。 - 前記パラメータ設定部は、前記尤度が高いほど前記音声ボリューム値を大きくする
ことを特徴とする請求項3記載の音声翻訳装置。 - 前記パラメータ設定部は、前記パラメータとしてピッチ、音色、または、発話速度を設定する
ことを特徴とする請求項1記載の音声翻訳装置。 - 前記音声認識部で求められた尤度は、前記任意の言語の音声データと予め記憶した音素データとを比較したときに算出される類似度、または、トレリス計算によって算出された単語または文の出力確率値である
ことを特徴とする請求項1記載の音声翻訳装置。 - 前記翻訳部で求められた尤度は、前記翻訳部における形態素解析の結果、当該形態素解析によって分
類された品詞に対応する重み値、または、ある語彙に対する訳語を算出したときの確からしさである
ことを特徴とする請求項1記載の音声翻訳装置。 - 前記パラメータ設定部は、前記任意の言語のセグメント毎、または、前記他の言語のセグメント毎に、前記各尤度の重み付け平均や前記各尤度の積算値を用いて前記パラメータを設定する
ことを特徴とする請求項1記載の音声翻訳装置。 - 前記セグメントは、文、形態素、語彙、または、単語である
ことを特徴とする請求項1記載の音声翻訳装置。 - 前記翻訳部は、前記任意の言語のセグメントと前記他の言語のセグメントの対応関係を記憶し、前記対応関係に基づいて翻訳を行う
ことを特徴とする請求項1記載の音声翻訳装置。 - 任意の言語からなる音声データを取得し、
前記任意の言語の音声データを認識処理して認識データを求めると共に、前記認識データのセグメント毎の尤度を求め、
前記認識データを前記任意の言語以外の他の言語の翻訳データに翻訳すると共に、前記翻訳データのセグメント毎の尤度を求め、
前記認識データの各セグメントの尤度と前記翻訳データの各セグメントの尤度を用いて、前記翻訳データから音声合成するために必要なパラメータを設定し、
前記セグメント毎のパラメータを用いて前記翻訳データを、前記他の言語で発話するための音声データへ変換し、
前記他の言語の音声データから音声を出力する
ことを特徴とする音声翻訳方法。 - 任意の言語からなる音声データを取得する音声入力機能と、
前記任意の言語の音声データを認識処理して認識データを求めると共に、前記認識データのセグメント毎の尤度を求める音声認識機能と、
前記認識データを前記任意の言語以外の他の言語の翻訳データに翻訳すると共に、前記翻訳データのセグメント毎の尤度を求める翻訳機能と、
前記認識データの各セグメントの尤度と前記翻訳データの各セグメントの尤度を用いて、前記翻訳データから音声合成するために必要なパラメータを設定するパラメータ設定機能と、
前記セグメント毎のパラメータを用いて前記翻訳データを、前記他の言語で発話するための音声データへ変換する音声合成機能と、
前記他の言語の音声データから音声を出力する音声出力機能と、
をコンピュータによって実現する
ことを特徴とする音声翻訳プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006203597A JP2008032834A (ja) | 2006-07-26 | 2006-07-26 | 音声翻訳装置及びその方法 |
US11/727,161 US20080027705A1 (en) | 2006-07-26 | 2007-03-23 | Speech translation device and method |
CNA2007101390194A CN101114447A (zh) | 2006-07-26 | 2007-07-23 | 语音翻译装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006203597A JP2008032834A (ja) | 2006-07-26 | 2006-07-26 | 音声翻訳装置及びその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008032834A true JP2008032834A (ja) | 2008-02-14 |
Family
ID=38987453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006203597A Pending JP2008032834A (ja) | 2006-07-26 | 2006-07-26 | 音声翻訳装置及びその方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20080027705A1 (ja) |
JP (1) | JP2008032834A (ja) |
CN (1) | CN101114447A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011518520A (ja) * | 2008-04-18 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 |
US8401844B2 (en) | 2006-06-02 | 2013-03-19 | Nec Corporation | Gain control system, gain control method, and gain control program |
JP2015007683A (ja) * | 2013-06-25 | 2015-01-15 | 日本電気株式会社 | 音声処理器具、音声処理方法 |
US9280539B2 (en) | 2013-09-19 | 2016-03-08 | Kabushiki Kaisha Toshiba | System and method for translating speech, and non-transitory computer readable medium thereof |
JP2018200386A (ja) * | 2017-05-26 | 2018-12-20 | トヨタ自動車株式会社 | 音声対話装置 |
WO2019234952A1 (ja) * | 2018-06-08 | 2019-12-12 | パナソニックIpマネジメント株式会社 | 音声処理装置および翻訳装置 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008111048A2 (en) * | 2007-03-09 | 2008-09-18 | Ghost, Inc. | System and method for browser within a web site and proxy server |
GB2467769B (en) * | 2009-02-13 | 2011-04-13 | Amdocs Software Systems Ltd | Method and system for specifying planned changes to a communications network |
US20110313762A1 (en) * | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
US8554558B2 (en) * | 2010-07-12 | 2013-10-08 | Nuance Communications, Inc. | Visualizing automatic speech recognition and machine translation output |
CN103179481A (zh) * | 2013-01-12 | 2013-06-26 | 德州学院 | 可提高英语听力的耳机 |
CN103198722A (zh) * | 2013-03-15 | 2013-07-10 | 肖云飞 | 英语培训方法及装置 |
US9678953B2 (en) | 2013-06-11 | 2017-06-13 | Facebook, Inc. | Translation and integration of presentation materials with cross-lingual multi-media support |
US20140365203A1 (en) * | 2013-06-11 | 2014-12-11 | Facebook, Inc. | Translation and integration of presentation materials in cross-lingual lecture support |
US9892115B2 (en) | 2013-06-11 | 2018-02-13 | Facebook, Inc. | Translation training with cross-lingual multi-media support |
WO2015151157A1 (ja) * | 2014-03-31 | 2015-10-08 | 三菱電機株式会社 | 意図理解装置および方法 |
US10350863B2 (en) * | 2014-07-30 | 2019-07-16 | The Boeing Company | Methods and systems for damping a cabin air compressor inlet |
USD741283S1 (en) | 2015-03-12 | 2015-10-20 | Maria C. Semana | Universal language translator |
KR102565274B1 (ko) | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 |
WO2018061824A1 (ja) * | 2016-09-29 | 2018-04-05 | 日本電気株式会社 | 情報処理装置、情報処理方法およびプログラム記録媒体 |
CN106782572B (zh) * | 2017-01-22 | 2020-04-07 | 清华大学 | 语音密码的认证方法及系统 |
CN107945806B (zh) * | 2017-11-10 | 2022-03-08 | 北京小米移动软件有限公司 | 基于声音特征的用户识别方法及装置 |
CN108447486B (zh) * | 2018-02-28 | 2021-12-03 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
EP3900195A1 (en) | 2018-12-18 | 2021-10-27 | Snap Inc. | Adaptive eyewear antenna |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6115686A (en) * | 1998-04-02 | 2000-09-05 | Industrial Technology Research Institute | Hyper text mark up language document to speech converter |
CN1652107A (zh) * | 1998-06-04 | 2005-08-10 | 松下电器产业株式会社 | 语言变换规则产生装置、语言变换装置及程序记录媒体 |
ATE306116T1 (de) * | 1999-07-08 | 2005-10-15 | Koninkl Philips Electronics Nv | Spracherkennungseinrichtung mit transfermitteln |
US6397186B1 (en) * | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US7260534B2 (en) * | 2002-07-16 | 2007-08-21 | International Business Machines Corporation | Graphical user interface for determining speech recognition accuracy |
US7181392B2 (en) * | 2002-07-16 | 2007-02-20 | International Business Machines Corporation | Determining speech recognition accuracy |
JP3984207B2 (ja) * | 2003-09-04 | 2007-10-03 | 株式会社東芝 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
US7809569B2 (en) * | 2004-12-22 | 2010-10-05 | Enterprise Integration Group, Inc. | Turn-taking confidence |
JP4843987B2 (ja) * | 2005-04-05 | 2011-12-21 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US20080004858A1 (en) * | 2006-06-29 | 2008-01-03 | International Business Machines Corporation | Apparatus and method for integrated phrase-based and free-form speech-to-speech translation |
-
2006
- 2006-07-26 JP JP2006203597A patent/JP2008032834A/ja active Pending
-
2007
- 2007-03-23 US US11/727,161 patent/US20080027705A1/en not_active Abandoned
- 2007-07-23 CN CNA2007101390194A patent/CN101114447A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8401844B2 (en) | 2006-06-02 | 2013-03-19 | Nec Corporation | Gain control system, gain control method, and gain control program |
JP5262713B2 (ja) * | 2006-06-02 | 2013-08-14 | 日本電気株式会社 | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
JP2011518520A (ja) * | 2008-04-18 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 |
JP2015007683A (ja) * | 2013-06-25 | 2015-01-15 | 日本電気株式会社 | 音声処理器具、音声処理方法 |
US9280539B2 (en) | 2013-09-19 | 2016-03-08 | Kabushiki Kaisha Toshiba | System and method for translating speech, and non-transitory computer readable medium thereof |
JP2018200386A (ja) * | 2017-05-26 | 2018-12-20 | トヨタ自動車株式会社 | 音声対話装置 |
WO2019234952A1 (ja) * | 2018-06-08 | 2019-12-12 | パナソニックIpマネジメント株式会社 | 音声処理装置および翻訳装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101114447A (zh) | 2008-01-30 |
US20080027705A1 (en) | 2008-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008032834A (ja) | 音声翻訳装置及びその方法 | |
JP7500020B2 (ja) | 多言語テキスト音声合成方法 | |
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
KR102525209B1 (ko) | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US8635070B2 (en) | Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types | |
US20160379638A1 (en) | Input speech quality matching | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
WO2021061484A1 (en) | Text-to-speech processing | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
JP4129989B2 (ja) | テキスト音声合成を支援するシステム | |
US20200365137A1 (en) | Text-to-speech (tts) processing | |
JPH0922297A (ja) | 音声‐テキスト変換のための方法および装置 | |
JP2009048003A (ja) | 音声翻訳装置及び方法 | |
JP2007155833A (ja) | 音響モデル開発装置及びコンピュータプログラム | |
US9484014B1 (en) | Hybrid unit selection / parametric TTS system | |
TWI467566B (zh) | 多語言語音合成方法 | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
US11282495B2 (en) | Speech processing using embedding data | |
KR20150014235A (ko) | 자동 통역 장치 및 방법 | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection | |
WO2023154427A1 (en) | Voice adaptation using synthetic speech processing | |
JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
JP7406418B2 (ja) | 声質変換システムおよび声質変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081125 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090428 |