JP2009140503A - 音声翻訳方法及び装置 - Google Patents
音声翻訳方法及び装置 Download PDFInfo
- Publication number
- JP2009140503A JP2009140503A JP2008312308A JP2008312308A JP2009140503A JP 2009140503 A JP2009140503 A JP 2009140503A JP 2008312308 A JP2008312308 A JP 2008312308A JP 2008312308 A JP2008312308 A JP 2008312308A JP 2009140503 A JP2009140503 A JP 2009140503A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- division
- speech
- speech translation
- dividing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
【課題】音声翻訳の質を向上することができる音声翻訳方法及び装置を提供する。
【解決手段】入力音声を音声認識した結果得られるテキスト中の長文を、複数のn−グラムとそのそれぞれの確率とを含む分割モデルを用いて、1組の主部と述部からなる単文単位に分割し、各単文をターゲット言語の文に翻訳する。長文の中の分割位置が修正された場合には、修正後の新たな分割位置で該長文を単文単位に分割する。
【選択図】 図1
【解決手段】入力音声を音声認識した結果得られるテキスト中の長文を、複数のn−グラムとそのそれぞれの確率とを含む分割モデルを用いて、1組の主部と述部からなる単文単位に分割し、各単文をターゲット言語の文に翻訳する。長文の中の分割位置が修正された場合には、修正後の新たな分割位置で該長文を単文単位に分割する。
【選択図】 図1
Description
本発明は、情報処理技術に関し、特に、音声を翻訳する技術に関する。
一般に、音声を翻訳するとき、まず、音声を音声認識技術を用いてテキストに変換する必要があり、その後、このテキストを機械翻訳を用いて翻訳する。
音声認識技術の詳細な説明は、非特許文献1に記載されている。
機械翻訳技術は、ルールに基づく翻訳、用例に基づく翻訳、統計的翻訳の3つのクラスに分類することができる。これら技術はテキスト文の翻訳に成功している。
機械翻訳技術の詳細な説明は、非参照文献2に記載されている。
一般に、自然音声(話し言葉)は、テキスト文ほど流ちょうでない。ところどころに、一時停止、繰り返し、言い直しなどのようないくつかの発話現象が起きている。この場合、音声認識モジュールは、1組の主部と述部とからなる単純な文(単文)を認識することはできず、音声認識モジュールは、複数の単文またはユーザの文の断片を混ぜ合わせて、1つの長文として認識して、この長文を機械翻訳モジュールへ出力する。音声認識モジュールにより出力されたこの長文は、複数の単文を含み、機械翻訳モジュールがこれを翻訳するのは困難である。
そこで、音声認識モジュールにより認識された長文を複数の単文に分割する方法が要求されている。
"Fundamentals of Speech Recognition" written by L. Rabiner and Biing-Hwang Juang, Prentice Hall, 1993 "Retrospect and prospect in computer-based translation" written by Hutchins, John, 1999, In Proc. of Machine Translation Summit VII, pages 30-34
"Fundamentals of Speech Recognition" written by L. Rabiner and Biing-Hwang Juang, Prentice Hall, 1993 "Retrospect and prospect in computer-based translation" written by Hutchins, John, 1999, In Proc. of Machine Translation Summit VII, pages 30-34
さらに、従来技術には、長文を自動的に分割する方法がいくつか提案されている。しかし、従来技術の自動分割モジュールは予めトレーニングされて、ユーザにより使用されている間にユーザからの実際の要求に従って自動的に更新することはできなかった。従って、分割誤りのような現象が頻繁に発生するため、分割誤りを効率よく低減し、ユーザの要求に適合させるための方法が必要であった。
以上説明したように、従来は、音声翻訳の質を容易に向上することができないといという問題点があった。
そこで、従来技術の上記問題点を解決するために、本発明は、音声翻訳の質を向上することができる音声翻訳方法及び装置を提供することを目的とする。
本発明の第1の側面に係る音声翻訳方法は、入力音声を音声認識することにより、複数の単文を含む少なくとも1つの長文を含むテキストを得、前記長文を複数の単文に分割し、分割した結果得られた前記複数の単文のそれぞれをターゲット言語の文に翻訳する。
本発明の第2の側面に係る音声翻訳装置は、入力音声を音声認識することにより、複数の単文を含む少なくとも1つの長文を含むテキストを得る音声認識手段と、前記長文を複数の単文に分割する分割手段と、前記分割手段で分割した結果得られた前記複数の単文のそれぞれをターゲット言語の文に翻訳する翻訳手段と、を含む。
音声翻訳の質を向上することができる。
以下、本発明の実施形態について図面を参照して説明する。
(音声翻訳方法)
図1は、本実施形態に係る音声翻訳方法を説明するためのフローチャートである。図1のステップS100において、ユーザが話す話し言葉の音声が入力されると、ステップS101では、この入力音声に対し音声認識を行うことにより、入力音声のテキストを得る。本実施形態では、例えば非特許文献1に記載されていような当業者には既に公知のまたは将来開発され得るどの音声認識技術を用いてもよく、また、入力された音声をテキストに変換することができるのであれば、これらに限定するものでもない。
図1は、本実施形態に係る音声翻訳方法を説明するためのフローチャートである。図1のステップS100において、ユーザが話す話し言葉の音声が入力されると、ステップS101では、この入力音声に対し音声認識を行うことにより、入力音声のテキストを得る。本実施形態では、例えば非特許文献1に記載されていような当業者には既に公知のまたは将来開発され得るどの音声認識技術を用いてもよく、また、入力された音声をテキストに変換することができるのであれば、これらに限定するものでもない。
ステップS101で得られたテキストは複数の単文を含む1または複数の長文を含む。各長文には、次に示すように、1組の主部(または主語)と述部(または述語)からなる単純な文(以下、単文とよぶ)が複数個含まれている。
That's very kind of you but I don't think I will I'm driving.
この長文は、次の3つの単文を含む。
この長文は、次の3つの単文を含む。
That's very kind of you.
But I don't think I will.
I'm driving.
次に、ステップS105へ進み、ステップS101で音声認識した結果得られたテキスト中の1または複数の長文はそれぞれ、複数の単文に分割される。このステップS105の処理の詳細について、図2を参照して説明する。なお、図2において、図1と同一部分には同一符号を付している。
But I don't think I will.
I'm driving.
次に、ステップS105へ進み、ステップS101で音声認識した結果得られたテキスト中の1または複数の長文はそれぞれ、複数の単文に分割される。このステップS105の処理の詳細について、図2を参照して説明する。なお、図2において、図1と同一部分には同一符号を付している。
図2のステップS105では、ステップS101で得られた入力音声のテキスト中の長文を、分割モデルM1を用いて複数の単文に分割する。分割モデルM1について、図3を参照して説明する。
図3は、分割モデルのトレーニング処理を説明するためのものである。本実施形態では、分割モデルM1は分割コーパスM2を用いてトレーニングされる。図3に示すように、分割コーパスM2は、正確に単文に分割されているテキストを含む。分割モデルM1は、文の境界を表す記号“||”がモデル内の共通語として扱われている点を除き、n−グラム言語モデルに類似する。トレーニングされた分割モデルM1には、複数のn−グラムと低次グラムとこれらの確率とを含む。さらに、分割モデルM1のトレーニングプロセスはn−グラム言語モデルのトレーニングプロセスと類似する。本実施形態で用いる分割モデルM1は、当業者には既に公知のまたは将来開発され得るどの分割モデルを用いてもよく、また、ステップS101で得られたテキスト中の長文が分割モデルを用いて複数の単文に分割することができるのであれば、これらに限定するものでもない。
分割モデルM1を用いて長文を分割する、ステップS105の処理を図4を参照して説明する。
図4は、最適分割パスを探索する処理を説明するための図である。まず、長文に対し分割格子が構築される。分割格子では、分割される当該長文中の各単語が1つのノードとして登録される。さらに、単語間の境界は、文の境界位置として可能性のあるとみなされる。全ての単語ノードと、ゼロまたは少なくとも1つの複数の文境界の候補ノードとからなる分割パスは、分割パス候補とみなされる。例えば、次のような長文:
That's very kind of you but I don't think I will I'm driving.
に対し、次のような分割パス候補が得られる。
That's very kind of you but I don't think I will I'm driving.
に対し、次のような分割パス候補が得られる。
That's very kind of you || but I don't think I will I'm driving. ||
That's || very kind of you but I don't think I will || I'm driving.
That's very kind of you but || I don't think || I will I'm driving. ||
…
そして、効率よい探索アルゴリズムを用いて最適分割パスが探索される。探索処理において、各分割パス候補のスコアが計算される。この処理は中国語の分割処理に類似する。特に、例えば、最適分割パスはビタビアルゴリズムを用いて探索される。ビタビアルゴリズムの詳細は、非特許文献3(“Error Bounds for Convolutional Codes and An Asymptotically Optimum Decoding Algorithm” written by A. J. Viterbi, 1967, IEEE Trans. On Information Theory, 13(2), p. 260-269)に記載されている。
That's || very kind of you but I don't think I will || I'm driving.
That's very kind of you but || I don't think || I will I'm driving. ||
…
そして、効率よい探索アルゴリズムを用いて最適分割パスが探索される。探索処理において、各分割パス候補のスコアが計算される。この処理は中国語の分割処理に類似する。特に、例えば、最適分割パスはビタビアルゴリズムを用いて探索される。ビタビアルゴリズムの詳細は、非特許文献3(“Error Bounds for Convolutional Codes and An Asymptotically Optimum Decoding Algorithm” written by A. J. Viterbi, 1967, IEEE Trans. On Information Theory, 13(2), p. 260-269)に記載されている。
最後に、最もスコアの高い分割候補パスが、最適分割パスとして選択される。図4に示すように、次に示すような分割パスが最適分割パスとして選択される。
That's very kind of you || but I don't think I will I'm driving. ||
図1の説明に戻り、ステップS101で得られたテキスト中の長文がステップS105で複数の単文に分割された後、該複数の単文のそれぞれは、ターゲット言語の文に翻訳される。例えば、上記文の場合、次のような2つの文がそれぞれターゲット言語に翻訳されることになる。
図1の説明に戻り、ステップS101で得られたテキスト中の長文がステップS105で複数の単文に分割された後、該複数の単文のそれぞれは、ターゲット言語の文に翻訳される。例えば、上記文の場合、次のような2つの文がそれぞれターゲット言語に翻訳されることになる。
That's very kind of you||
But I don't think I will I'm driving. ||
本実施形態では、上記単文を翻訳するために、ルールに基づく翻訳、用例に基づく翻訳、統計的翻訳など、どの機械翻訳技術も用いることができる。特に、例えば、非特許文献2記載の機械翻訳技術が、上記2つの単文の翻訳に用いることもできる。しかし、本発明は、長文を分割した結果得られた複数の単文をターゲット言語に翻訳することができるのであれば、これらに限定するものではない。
But I don't think I will I'm driving. ||
本実施形態では、上記単文を翻訳するために、ルールに基づく翻訳、用例に基づく翻訳、統計的翻訳など、どの機械翻訳技術も用いることができる。特に、例えば、非特許文献2記載の機械翻訳技術が、上記2つの単文の翻訳に用いることもできる。しかし、本発明は、長文を分割した結果得られた複数の単文をターゲット言語に翻訳することができるのであれば、これらに限定するものではない。
さらに、図2に示すように、ステップS101で得られたテキスト中の長文を、ステップS105で複数の単文に分割した後に、選択的に、ステップS106において、ユーザは、ステップS105の分割結果を修正するようにしてもよい。次に、本実施形態のこのような変形例を図5を参照して説明する。
図5は、分割モデルの修正処理及び更新処理を説明するための図である。図5に示すように、ステップS106の分割結果がユーザに(例えばディスプレイに)提示される。この分割結果には、長文中の単文と単文との間を区切る分割位置(文境界)を示す記号(例えば“||”)が含まれている。この分割結果の分割位置に誤りがあると、ユーザは、その誤りを例えばクリック等の指示入力を行うことで修正することができる。例えば、次に示すような文において、その末尾が文境界であると認識された分割結果には誤りがある。
But I don't think I will I'm driving. ||
この文は正確には、次のような2つの単文からなる。
この文は正確には、次のような2つの単文からなる。
But I don't think I will.
I'm driving.
従って、分割位置が認識されなかった場合には、ステップS106において、ユーザは正しい分割位置、すなわち、“will”と“I’m”との間をクリックする。ユーザによりクリックされた位置は(ユーザに提示された)文境界ではないので、このクリックされた位置を、文を分割する文境界として用いる。さらに、分割位置が誤っている場合に、ユーザが、この誤った分割位置をクリックすると、このクリックされた位置は(ユーザに提示された)文境界であるので、この文境界を削除する。例えば、次に示すような自動分割結果において、
We also serve ||
Tsing Tao Beer here
不必要な文境界(“server”と“Tsing”との間の文境界)が存在する。従って、この分割結果には誤りがある。この場合、ユーザは、この不必要な文境界をクリックすることで、これを削除することができる。
I'm driving.
従って、分割位置が認識されなかった場合には、ステップS106において、ユーザは正しい分割位置、すなわち、“will”と“I’m”との間をクリックする。ユーザによりクリックされた位置は(ユーザに提示された)文境界ではないので、このクリックされた位置を、文を分割する文境界として用いる。さらに、分割位置が誤っている場合に、ユーザが、この誤った分割位置をクリックすると、このクリックされた位置は(ユーザに提示された)文境界であるので、この文境界を削除する。例えば、次に示すような自動分割結果において、
We also serve ||
Tsing Tao Beer here
不必要な文境界(“server”と“Tsing”との間の文境界)が存在する。従って、この分割結果には誤りがある。この場合、ユーザは、この不必要な文境界をクリックすることで、これを削除することができる。
ステップS106の分割位置の修正により、ユーザは、ステップS105で得られた分割結果を容易に修正することができる。
さらに、ステップS106で修正した後、ステップS107において、ステップS106で実施された修正を分割モデルM1を更新するためのガイド情報として用いることができる。
図5に示すように、ステップS106において、ユーザにより、文境界“||”が“will”と“I’m”の間に追加された場合、ステップS107では、この文境界の追加された位置に文境界“||”を含むn個の単語列(n−グラム)の確率を増加し、該文境界の追加された位置に文境界を含まないn−グラムの確率を減少する。なお、文境界の追加された位置に文境界を含むn−グラムが存在しない場合には、このようなn−グラムを新たに生成した後、その確率を予め定められた値だけ増加する。
例えば、図5において、ステップS106で、文境界“||”が“will”と“I’m”の間に追加された場合、ステップS107では、この文境界の追加された位置に文境界を含む次に示すような(既存のまたは新たに生成された)n−グラムの確率を増加する。
Pr(|| | will, I) + = δ、 すなわち、“I will”の後で文を区切る確率(“I will”の後に文境界“||”が生起する確率)を予め定められた値δだけ増加する。
Pr(I'm | ||, will) + = δ、 すなわち、“will”と“I’m”との間で文を区切る確率(“will”と“I’m”との間に文境界“||”が生起する確率)を予め定められた値δだけ増加する。
Pr(driving | I'm, ||) + = δ、 すなわち、“I’m driving”の前で文を区切る確率(“I’m driving”の前に文境界“||”が生起する確率)を予め定められた値δだけ増加する。
一方、ステップS107において、ユーザによる修正により文境界“||”の追加された位置に文境界を含まない、次に示すような既存のn−グラムの確率を減少する。
Pr(I'm | will, I) - = δ、 すなわち、“I will”の後に“I’m”が続く確率を予め定められた値δだけ減少する。
Pr(driving | I'm, will) - = δ, すなわち、“will”と“I’m”の後に“driving”が続く確率を予め定められた値δだけ減少する。
さらに、ステップS106で、“serve”と“Tsing”の間の文境界“||”が削除された場合、ステップS107において、ユーザによる修正により文境界の削除された位置に文境界を含まない、次に示すような(既存のまたは新たなに生成された)n−グラムの確率を増加する。
Pr(Tsing | serve, also) + = δ、 すなわち、“also server”の後に“Tsing”が続く確率を予め定められた値δだけ増加する。
Pr(Tao | Tsing, serve) + = δ、 すなわち、“server”と“Tsing”の後に“Tao”が続く確率を予め定められた値δだけ増加する。
一方、ステップS107において、ユーザによる修正により文境界の削除された位置に文境界を含む、次に示すようなn−グラムの確率を減少する。
Pr(|| | serve, also) - = δ、 すなわち、“also server”の後で文を区切る確率(“also server”の後に文境界“||”が生起する確率)を予め定められた値δだけ減少する。
Pr(Tsing | ||, serve) - = δ、 すなわち、“serve”と“Tsing”との間で文を区切る確率(“serve”と“Tsing”との間に文境界“||”が生起する確率)を予め定められた値δだけ減少する。
Pr(Tao | Tsing, ||) - = δ、 すなわち、“Tsing Tao”の前で文を区切る確率(“Tsing Tao”の前に文境界“||”が生起する確率)を予め定められた値δだけ減少する。
上述したように、本実施形態に係る音声翻訳方法では、長文を分割するステップは、音声認識と機械翻訳との間に挿入されて、音声認識により得られたテキスト中の長文はいくつかの単文(主部と述部とからなる単純な文)に区切ることができる。この単文を翻訳することで、翻訳の困難さが軽減され、翻訳の質が向上する。
さらに、自動分割結果の誤りを避けるために、この音声翻訳方法におけるユーザインターフェースを提供する。このユーザインターフェースを設けることにより、ユーザは、分割結果を容易に修正することができる。同時に、ユーザによる修正結果は分割モデルを更新するために記憶され、ユーザの個人的な要求に適合させる。自動分割の質は、この音声翻訳方法を長時間使用することで徐徐に向上させることができる。自動分割における誤り発生確率は減少し、ユーザが介入する必要も少なくなっていく。
(音声翻訳装置)
次に、上述の音声翻訳方法を用いた音声翻訳装置について説明する。図6は、本実施形態に係る音声翻訳装置の構成例を示したものである。以下、図6を参照して、この実施形態を説明するが、上述の実施形態と同様の部分は、適切に省略している。
次に、上述の音声翻訳方法を用いた音声翻訳装置について説明する。図6は、本実施形態に係る音声翻訳装置の構成例を示したものである。以下、図6を参照して、この実施形態を説明するが、上述の実施形態と同様の部分は、適切に省略している。
図6に示す音声翻訳装置600は、音声を音声認識して、複数の単文を含む少なくとも1つの長文を有するテキストを得る音声認識部601と、該長文を複数の単文に分割する分割部605と、長文を分割することにより得られた複数の単文のそれぞれをターゲット言語に翻訳する翻訳部610と、を含む。図6の音声翻訳装置600は、図1のフローチャートに従って動作する。
本実施形態では、音声認識部601に、例えば非特許文献1に記載されていような当業者には既に公知のまたは将来開発され得るどの音声認識技術を用いてもよく、また、入力された音声をテキストに変換することができるのであれば、これらに限定するものでもない。
音声認識部601で認識されたテキストには、複数の単文を含む1または複数の長文を含む。各長文には、次に示すように、1組の主部(または主語)と述部(または述語)からなる単純な文(以下、単文とよぶ)が複数個含まれている。
That's very kind of you but I don't think I will I'm driving.
この長文は、次の3つの単文を含む。
この長文は、次の3つの単文を含む。
That's very kind of you.
But I don't think I will.
I'm driving.
音声認識した結果得られたテキスト中の1または複数の長文はそれぞれは、分割部605で複数の単文に分割される。分割部605で長文を複数の単文に分割する処理の詳細について、以下説明する。
But I don't think I will.
I'm driving.
音声認識した結果得られたテキスト中の1または複数の長文はそれぞれは、分割部605で複数の単文に分割される。分割部605で長文を複数の単文に分割する処理の詳細について、以下説明する。
分割部605は、記憶手段に記憶されている分割モデルM1を用いて、音声認識部601で認識されたテキスト中の長文を複数の単文に分割する。分割モデルM1について、図3を参照して説明する。
図3は、分割モデルのトレーニング処理を説明するためのものである。本実施形態では、分割モデルM1は分割コーパスM2を用いてトレーニングされる。図3に示すように、分割コーパスM2は、正確に単文に分割されているテキストを含む。
分割モデルM1は、文の境界を表す記号“||”がモデル内の共通語として扱われている点を除き、n−グラム言語モデルに類似する。トレーニングされた分割モデルM1には、複数のn−グラムと低次グラムとこれらの確率とを含む。さらに、分割モデルM1のトレーニングプロセスはn−グラム言語モデルのトレーニングプロセスと類似する。本実施形態で用いる分割モデルM1は、当業者には既に公知のまたは将来開発され得るどの分割モデルを用いてもよく、また、音声認識部601で認識されたテキスト中の長文が分割モデルを用いて複数の単文に分割することができるのであれば、これらに限定するものでもない。
分割モデルM1を用いて長文を分割する、分割部605の処理を図4を参照して説明する。図4は、最適分割パスを探索する処理を説明するための図である。
本実施形態では、分割部605は、前記少なくとも1つの長文から複数の分割パス候補を生成する分割パス候補生成部を含む。まず、入力文に対し分割格子が構築される。分割格子では、分割される当該長文中の各単語が1つのノードとして登録される。さらに、単語間の境界は、文の境界位置として可能性のあるとみなされる。全ての単語ノードと、ゼロまたは少なくとも1つの複数の文境界の候補ノードとからなる分割パスは、分割パス候補とみなされる。例えば、次のような長文:
That's very kind of you but I don't think I will I'm driving.
に対し、次のような分割パス候補が得られる。
That's very kind of you but I don't think I will I'm driving.
に対し、次のような分割パス候補が得られる。
That's very kind of you || but I don't think I will I'm driving. ||
That's || very kind of you but I don't think I will || I'm driving.
That's very kind of you but || I don't think || I will I'm driving. ||
…
本実施形態では、分割部605は、さらに、分割モデルを用いて複数の分割パス候補のそれぞれに対しスコアを計算するスコア計算部を含む。ここで、効率よい探索アルゴリズムを用いて最適分割パスが探索される。探索処理において、各分割パス候補のスコアが計算される。この処理は中国語の分割処理に類似する。特に、例えば、最適分割パスはビタビアルゴリズムを用いて探索される。ビタビアルゴリズムの詳細は、非特許文献3に記載されている。
That's || very kind of you but I don't think I will || I'm driving.
That's very kind of you but || I don't think || I will I'm driving. ||
…
本実施形態では、分割部605は、さらに、分割モデルを用いて複数の分割パス候補のそれぞれに対しスコアを計算するスコア計算部を含む。ここで、効率よい探索アルゴリズムを用いて最適分割パスが探索される。探索処理において、各分割パス候補のスコアが計算される。この処理は中国語の分割処理に類似する。特に、例えば、最適分割パスはビタビアルゴリズムを用いて探索される。ビタビアルゴリズムの詳細は、非特許文献3に記載されている。
分割部605は、さらに、最もスコアの高い分割候補パスを最適分割パスとして選択する最適分割パス選択部を含む。図4に示すように、次に示すような分割パスが最適分割パスとして選択される。
That's very kind of you || but I don't think I will I'm driving. ||
図6の説明に戻り、音声認識部601で得られたテキスト中の長文が分割部605で複数の単文に分割された後、該複数の単文のそれぞれは、翻訳部610でターゲット言語の文に翻訳される。例えば、上記文の場合、次のような2つの文がそれぞれターゲット言語に翻訳されることになる。
図6の説明に戻り、音声認識部601で得られたテキスト中の長文が分割部605で複数の単文に分割された後、該複数の単文のそれぞれは、翻訳部610でターゲット言語の文に翻訳される。例えば、上記文の場合、次のような2つの文がそれぞれターゲット言語に翻訳されることになる。
That's very kind of you||
But I don't think I will I'm driving. ||
本実施形態では、上記単文を翻訳する翻訳部610に、ルールに基づく翻訳、用例に基づく翻訳、統計的翻訳など、どの機械翻訳技術も用いることができる。特に、例えば、非特許文献2記載の機械翻訳技術が、翻訳部610で上記2つの単文を翻訳する際に用いることもできる。しかし、本発明は、長文を分割した結果得られた複数の単文をターゲット言語に翻訳することができるのであれば、これらに限定するものではない。
But I don't think I will I'm driving. ||
本実施形態では、上記単文を翻訳する翻訳部610に、ルールに基づく翻訳、用例に基づく翻訳、統計的翻訳など、どの機械翻訳技術も用いることができる。特に、例えば、非特許文献2記載の機械翻訳技術が、翻訳部610で上記2つの単文を翻訳する際に用いることもできる。しかし、本発明は、長文を分割した結果得られた複数の単文をターゲット言語に翻訳することができるのであれば、これらに限定するものではない。
さらに、音声翻訳装置600は、音声認識部601で得られたテキスト中の長文を、分割部605で複数の単文に分割した後に、この分割結果をユーザが修正できるようにする修正部607が選択的に含まれていてもよい。この場合、音声翻訳装置600は、図2のフローチャートに従って動作する。
修正部607の修正処理について、図5を参照して説明する。
図5は、修正部607の修正処理を説明するための図である。図5に示すように、分割部605の分割結果の分割位置に誤りがあると、ユーザは、修正部607を用いて、その誤りを例えばクリック等の指示入力を行うことで修正することができる。例えば、次に示すような文において、その末尾が文境界であると認識された分割結果には誤りがある。
But I don't think I will I'm driving. ||
この文は正確には、次のような2つの単文からなる。
この文は正確には、次のような2つの単文からなる。
But I don't think I will.
I'm driving.
従って、分割位置として認識されなかったところを、修正部607を用いて、ユーザは正しい分割位置、すなわち、“will”と“I’m”との間をクリックする。ユーザによりクリックされた位置は(ユーザに提示された)文境界ではないので、このクリックされた位置を、文を分割する文境界として用いる。さらに、分割位置が誤っている場合に、ユーザが、この誤った分割位置をクリックすると、このクリックされた位置は(ユーザに提示された)文境界であるので、この文境界を削除する。例えば、次に示すような自動分割結果において、
We also serve ||
Tsing Tao Beer here
不必要な文境界(“server”と“Tsing”との間の文境界)が存在する。従って、この分割結果には誤りがある。この場合、ユーザは、この不必要な文境界をクリックすることで、これを削除することができる。
I'm driving.
従って、分割位置として認識されなかったところを、修正部607を用いて、ユーザは正しい分割位置、すなわち、“will”と“I’m”との間をクリックする。ユーザによりクリックされた位置は(ユーザに提示された)文境界ではないので、このクリックされた位置を、文を分割する文境界として用いる。さらに、分割位置が誤っている場合に、ユーザが、この誤った分割位置をクリックすると、このクリックされた位置は(ユーザに提示された)文境界であるので、この文境界を削除する。例えば、次に示すような自動分割結果において、
We also serve ||
Tsing Tao Beer here
不必要な文境界(“server”と“Tsing”との間の文境界)が存在する。従って、この分割結果には誤りがある。この場合、ユーザは、この不必要な文境界をクリックすることで、これを削除することができる。
修正部607の分割位置の修正により、ユーザは、分割部605で得られた分割結果を容易に修正することができる。
さらに、音声翻訳装置600には、修正部607で実施された修正を分割モデルM1を更新するためのガイド情報として用いて、分割モデルM1を更新する分割モデル更新部が含まれていてもよい。
具体的には、図5に示すように、修正部607で、ユーザにより、文境界“||”が“will”と“I’m”の間に追加された場合、分割モデル更新部は、この文境界の追加された位置に文境界“||”を含むn個の単語列(n−グラム)の確率を増加し、該文境界の追加された位置に文境界を含まないn−グラムの確率を減少する。
例えば、図5において、修正部607により、文境界“||”が“will”と“I’m”の間に追加された場合、分割モデル更新部は、この文境界の追加された位置に文境界を含む次に示すような(既存のまたは新たに生成された)n−グラムの確率を増加する。
Pr(|| | will, I) + = δ、 すなわち、“I will”の後で文を区切る確率(“I will”の後に文境界“||”が生起する確率)を予め定められた値δだけ増加する。
Pr(I'm | ||, will) + = δ、 すなわち、“will”と“I’m”との間で文を区切る確率(“will”と“I’m”との間に文境界“||”が生起する確率)を予め定められた値δだけ増加する。
Pr(driving | I'm, ||) + = δ、 すなわち、“I’m driving”の前で文を区切る確率(“I’m driving”の前に文境界“||”が生起する確率)を予め定められた値δだけ増加する。
一方、分割モデル更新部は、ユーザによる修正により文境界“||”の追加された位置に文境界を含まない、次に示すような既存のn−グラムの確率を減少する。
Pr(I'm | will, I) - = δ、 すなわち、“I will”の後に“I’m”が続く確率を予め定められた値δだけ減少する。
Pr(driving | I'm, will) - = δ, すなわち、“will”と“I’m”の後に“driving”が続く確率を予め定められた値δだけ減少する。
さらに、修正部607で、“serve”と“Tsing”の間の文境界“||”が削除された場合、分割モデル更新部は、ユーザによる修正により文境界の削除された位置に文境界を含まない、次に示すような(既存のまたは新たなに生成された)n−グラムの確率を増加する。
Pr(Tsing | serve, also) + = δ、 すなわち、“also server”の後に“Tsing”が続く確率を予め定められた値δだけ増加する。
Pr(Tao | Tsing, serve) + = δ、 すなわち、“server”と“Tsing”の後に“Tao”が続く確率を予め定められた値δだけ増加する。
一方、分割モデル更新部は、ユーザによる修正により文境界の削除された位置に文境界を含む、次に示すようなn−グラムの確率を減少する。
Pr(|| | serve, also) - = δ、 すなわち、“also server”の後で文を区切る確率(“also server”の後に文境界“||”が生起する確率)を予め定められた値δだけ減少する。
Pr(Tsing | ||, serve) - = δ、 すなわち、“serve”と“Tsing”との間で文を区切る確率(“serve”と“Tsing”との間に文境界“||”が生起する確率)を予め定められた値δだけ減少する。
Pr(Tao | Tsing, ||) - = δ、 すなわち、“Tsing Tao”の前で文を区切る確率(“Tsing Tao”の前に文境界“||”が生起する確率)を予め定められた値δだけ減少する。
上述したように、本実施形態に係る音声翻訳装置600では、長文を分割する分割部は、音声認識部と機械翻訳部との間に挿入されて、音声認識により得られたテキスト中の長文はいくつかの単文(主部と述部とからなる単純な文)に区切ることができる。この単文を翻訳することで、翻訳の困難さが軽減され、翻訳の質が向上する。
さらに、自動分割結果の誤りを避けるために、この音声翻訳装置600におけるユーザインターフェースを提供する。このユーザインターフェースを設けることにより、ユーザは、分割結果を容易に修正することができる。同時に、ユーザによる修正結果は分割モデルを更新するために記憶され、ユーザの個人的な要求に適合させる。自動分割の質は、この音声翻訳装置600を長時間使用することで徐徐に向上させることができる。自動分割における誤り発生確率は減少し、ユーザが介入する必要も少なくなっていく。
いくつかの実施例を用いて、音声翻訳方法及び装置について説明したが、本発明は、上述の実施形態そのままに限定されるものではない。当業者であれば、本発明の要旨を逸脱しない範囲で構成要素を変形して具体化できる。従って、本発明は、これら実施形態に限定されるものではなく、むしろ、本発明の要旨は特許請求の範囲に記載される。
600…音声翻訳装置
601…音声認識部
605…分割部
607…修正部
610…翻訳部
601…音声認識部
605…分割部
607…修正部
610…翻訳部
Claims (18)
- 入力音声を音声認識することにより、複数の単文を含む少なくとも1つの長文を含むテキストを得る音声認識ステップと、
前記長文を複数の単文に分割する分割ステップと、
前記長文を分割した結果得られた各単文をターゲット言語の文に翻訳する翻訳ステップと、
を含む音声翻訳方法。 - 前記分割ステップは、分割モデルを用いて前記長文を複数の単文に分割する請求項1記載の音声翻訳方法。
- 前記分割ステップは、
前記長文に対し、複数の分割パス候補を生成するステップと、
前記分割モデルを用いて、各分割パス候補に対しスコアを計算するステップと、
前記複数の分割パス候補のうち、前記スコアが最も高い分割候補パスを最適候補パスとして選択するステップと、
を含む請求項2記載の音声翻訳方法。 - 前記分割モデルは、複数のn−グラム及びそのそれぞれの確率を含む請求項2記載の音声翻訳方法。
- 前記分割ステップで得られた前記長文中の分割位置を修正する修正ステップをさらに含み、
前記翻訳ステップは、前記修正ステップで分割位置を修正した結果得られた複数の単文のそれぞれを前記ターゲット言語に翻訳する請求項1記載の音声翻訳方法。 - 前記修正ステップは、前記長文中の分割位置を追加または削除する請求項5記載の音声翻訳方法。
- 修正された分割位置に基づき、前記分割モデルを更新する更新ステップをさらに含む請求項5記載の音声翻訳方法。
- 前記更新ステップは、前記修正ステップで追加された分割位置に文境界を含むn−グラムの確率を増加する請求項7記載の音声翻訳方法。
- 前記更新ステップは、前記修正ステップで削除された分割位置に文境界を含むn−グラムの確率を減少する請求項7記載の音声翻訳方法。
- 入力音声を音声認識することにより、複数の単文を含む少なくとも1つの長文を含むテキストを得る音声認識手段と、
前記長文を複数の単文に分割する分割手段と、
前記長文を分割した結果得られた各単文をターゲット言語の文に翻訳する翻訳手段と、
を含む音声翻訳装置。 - 前記分割手段は、分割モデルを用いて前記長文を複数の単文に分割する請求項10記載の音声翻訳装置。
- 前記分割手段は、
前記長文に対し、複数の分割パス候補を生成する手段と、
前記分割モデルを用いて、各分割パス候補に対しスコアを計算する手段と、
前記複数の分割パス候補のうち、前記スコアが最も高い分割候補パスを最適候補パスとして選択する手段と、
を含む請求項11記載の音声翻訳装置。 - 前記分割モデルは、複数のn−グラム及びそのそれぞれの確率を含む請求項11記載の音声翻訳装置。
- 前記分割手段で得られた前記長文中の分割位置を修正する修正手段をさらに含み、
前記翻訳手段は、前記修正手段で分割位置を修正した結果得られた複数の単文のそれぞれを前記ターゲット言語に翻訳する請求項10記載の音声翻訳装置。 - 前記修正手段は、前記長文中の分割位置を追加または削除する請求項14記載の音声翻訳装置。
- 修正された分割位置に基づき、前記分割モデルを更新する更新手段をさらに含む請求項14記載の音声翻訳装置。
- 前記更新手段は、前記修正手段で追加された分割位置に文境界を含むn−グラムの確率を増加する増加する請求項16記載の音声翻訳装置。
- 前記更新手段は、前記修正ステップで追加された分割位置に文境界を含むn−グラムの確率を減少する請求項16記載の音声翻訳装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200710193374XA CN101458681A (zh) | 2007-12-10 | 2007-12-10 | 语音翻译方法和语音翻译装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009140503A true JP2009140503A (ja) | 2009-06-25 |
Family
ID=40722525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008312308A Abandoned JP2009140503A (ja) | 2007-12-10 | 2008-12-08 | 音声翻訳方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090150139A1 (ja) |
JP (1) | JP2009140503A (ja) |
CN (1) | CN101458681A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011040056A1 (ja) | 2009-10-02 | 2011-04-07 | 独立行政法人情報通信研究機構 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
WO2011048826A1 (ja) | 2009-10-21 | 2011-04-28 | 独立行政法人情報通信研究機構 | 音声翻訳システム、制御装置、および制御方法 |
KR20120040190A (ko) | 2009-07-16 | 2012-04-26 | 독립행정법인정보통신연구기구 | 음성번역시스템, 사전서버장치, 및 프로그램 |
JP2012234512A (ja) * | 2011-05-06 | 2012-11-29 | King Abdulaziz City For Science & Technology (Kacst) | テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム |
CN106297797A (zh) * | 2016-07-26 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201145230A (en) * | 2010-06-02 | 2011-12-16 | Prime View Int Co Ltd | Electronic reading device |
CN102411563B (zh) | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
CN103165129B (zh) * | 2011-12-13 | 2015-07-01 | 北京百度网讯科技有限公司 | 一种优化语音识别声学模型的方法及系统 |
US10339452B2 (en) | 2013-02-06 | 2019-07-02 | Verint Systems Ltd. | Automated ontology development |
US9355094B2 (en) * | 2013-08-14 | 2016-05-31 | Google Inc. | Motion responsive user interface for realtime language translation |
US20150066506A1 (en) * | 2013-08-30 | 2015-03-05 | Verint Systems Ltd. | System and Method of Text Zoning |
JP5907393B2 (ja) * | 2013-12-20 | 2016-04-26 | 国立研究開発法人情報通信研究機構 | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム |
JP5904559B2 (ja) | 2013-12-20 | 2016-04-13 | 国立研究開発法人情報通信研究機構 | シナリオ生成装置、及びそのためのコンピュータプログラム |
US10255346B2 (en) | 2014-01-31 | 2019-04-09 | Verint Systems Ltd. | Tagging relations with N-best |
US9977830B2 (en) | 2014-01-31 | 2018-05-22 | Verint Systems Ltd. | Call summary |
US11030406B2 (en) | 2015-01-27 | 2021-06-08 | Verint Systems Ltd. | Ontology expansion using entity-association rules and abstract relations |
CN105786797B (zh) * | 2016-02-23 | 2018-09-14 | 北京云知声信息技术有限公司 | 一种基于语音输入的信息处理方法及装置 |
US10403275B1 (en) * | 2016-07-28 | 2019-09-03 | Josh.ai LLC | Speech control for complex commands |
CN108628819B (zh) * | 2017-03-16 | 2022-09-20 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN107291704B (zh) * | 2017-05-26 | 2020-12-11 | 北京搜狗科技发展有限公司 | 处理方法和装置、用于处理的装置 |
CN107632982B (zh) * | 2017-09-12 | 2021-11-16 | 郑州科技学院 | 语音控制外语翻译设备用的方法和装置 |
CN107886940B (zh) * | 2017-11-10 | 2021-10-08 | 科大讯飞股份有限公司 | 语音翻译处理方法及装置 |
CN108090051A (zh) * | 2017-12-20 | 2018-05-29 | 深圳市沃特沃德股份有限公司 | 连续长语音文件的翻译方法与翻译机 |
CN108460027A (zh) * | 2018-02-14 | 2018-08-28 | 广东外语外贸大学 | 一种口语即时翻译方法及系统 |
CN110444196B (zh) * | 2018-05-10 | 2023-04-07 | 腾讯科技(北京)有限公司 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
CA3117323A1 (en) | 2018-10-22 | 2020-04-30 | William D. Carlson | Therapeutic combinations of tdfrps and additional agents and methods of use |
CN109408833A (zh) * | 2018-10-30 | 2019-03-01 | 科大讯飞股份有限公司 | 一种翻译方法、装置、设备及可读存储介质 |
CN109657244B (zh) * | 2018-12-18 | 2023-04-18 | 语联网(武汉)信息技术有限公司 | 一种英文长句自动切分方法及系统 |
CN110047488B (zh) * | 2019-03-01 | 2022-04-12 | 北京彩云环太平洋科技有限公司 | 语音翻译方法、装置、设备及控制设备 |
US11769012B2 (en) | 2019-03-27 | 2023-09-26 | Verint Americas Inc. | Automated system and method to prioritize language model and ontology expansion and pruning |
CN110211570B (zh) * | 2019-05-20 | 2021-06-25 | 北京百度网讯科技有限公司 | 同声传译处理方法、装置及设备 |
CN110263313B (zh) * | 2019-06-19 | 2021-08-24 | 安徽声讯信息技术有限公司 | 一种用于会议速记的人机协同编辑方法 |
CN111312207B (zh) * | 2020-02-10 | 2023-04-28 | 广州酷狗计算机科技有限公司 | 文本转音频方法、装置、计算机设备及存储介质 |
CN111611811B (zh) * | 2020-05-25 | 2023-01-13 | 腾讯科技(深圳)有限公司 | 翻译方法、装置、电子设备及计算机可读存储介质 |
CN113380225B (zh) * | 2021-06-18 | 2024-05-17 | 广州虎牙科技有限公司 | 语言模型的训练方法、语音识别方法及相关装置 |
-
2007
- 2007-12-10 CN CNA200710193374XA patent/CN101458681A/zh active Pending
-
2008
- 2008-12-08 JP JP2008312308A patent/JP2009140503A/ja not_active Abandoned
- 2008-12-09 US US12/330,715 patent/US20090150139A1/en not_active Abandoned
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120040190A (ko) | 2009-07-16 | 2012-04-26 | 독립행정법인정보통신연구기구 | 음성번역시스템, 사전서버장치, 및 프로그램 |
US9442920B2 (en) | 2009-07-16 | 2016-09-13 | National Institute Of Information And Communications Technology | Speech translation system, dictionary server, and program |
WO2011040056A1 (ja) | 2009-10-02 | 2011-04-07 | 独立行政法人情報通信研究機構 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
KR20120086287A (ko) | 2009-10-02 | 2012-08-02 | 독립행정법인정보통신연구기구 | 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치 |
US8862478B2 (en) | 2009-10-02 | 2014-10-14 | National Institute Of Information And Communications Technology | Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server |
WO2011048826A1 (ja) | 2009-10-21 | 2011-04-28 | 独立行政法人情報通信研究機構 | 音声翻訳システム、制御装置、および制御方法 |
US8954335B2 (en) | 2009-10-21 | 2015-02-10 | National Institute Of Information And Communications Technology | Speech translation system, control device, and control method |
JP2012234512A (ja) * | 2011-05-06 | 2012-11-29 | King Abdulaziz City For Science & Technology (Kacst) | テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム |
CN106297797A (zh) * | 2016-07-26 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN106297797B (zh) * | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101458681A (zh) | 2009-06-17 |
US20090150139A1 (en) | 2009-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009140503A (ja) | 音声翻訳方法及び装置 | |
US10089303B2 (en) | Customizable and low-latency interactive computer-aided translation | |
US10346548B1 (en) | Apparatus and method for prefix-constrained decoding in a neural machine translation system | |
Mairesse et al. | Phrase-based statistical language generation using graphical models and active learning | |
US6879951B1 (en) | Chinese word segmentation apparatus | |
US9176936B2 (en) | Transliteration pair matching | |
KR101623891B1 (ko) | 기계 번역을 위한 파라미터들의 최적화 | |
US8849665B2 (en) | System and method of providing machine translation from a source language to a target language | |
Jiampojamarn et al. | Joint processing and discriminative training for letter-to-phoneme conversion | |
US20120246133A1 (en) | Online spelling correction/phrase completion system | |
CN1387650A (zh) | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 | |
JP2008216341A (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
US11423237B2 (en) | Sequence transduction neural networks | |
CN104462072A (zh) | 面向计算机辅助翻译的输入方法与装置 | |
CN115293138B (zh) | 一种文本纠错方法及计算机设备 | |
US10055404B2 (en) | Translation apparatus | |
Laurent et al. | Computer-assisted transcription of speech based on confusion network reordering | |
JP6478382B2 (ja) | 翻訳装置 | |
Calvo et al. | Exploiting multiple hypotheses for multilingual spoken language understanding | |
JP2005025474A (ja) | 機械翻訳装置、コンピュータプログラム及びコンピュータ | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
JP2007004446A (ja) | 機械翻訳装置、その方法およびプログラム | |
JP2006127405A (ja) | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム | |
JP6482073B2 (ja) | 情報処理方法、装置、及びプログラム | |
CN116013278B (zh) | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20110523 |