JP2009140503A

JP2009140503A - 音声翻訳方法及び装置

Info

Publication number: JP2009140503A
Application number: JP2008312308A
Authority: JP
Inventors: Li Jianfeng; リー・ジャンフェン; Haifen Wan; ワン・ハイフェン; Hua Wu; ウー・ファ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-12-10
Filing date: 2008-12-08
Publication date: 2009-06-25
Also published as: CN101458681A; US20090150139A1

Abstract

【課題】音声翻訳の質を向上することができる音声翻訳方法及び装置を提供する。
【解決手段】入力音声を音声認識した結果得られるテキスト中の長文を、複数のｎ−グラムとそのそれぞれの確率とを含む分割モデルを用いて、１組の主部と述部からなる単文単位に分割し、各単文をターゲット言語の文に翻訳する。長文の中の分割位置が修正された場合には、修正後の新たな分割位置で該長文を単文単位に分割する。
【選択図】図１

Description

本発明は、情報処理技術に関し、特に、音声を翻訳する技術に関する。

一般に、音声を翻訳するとき、まず、音声を音声認識技術を用いてテキストに変換する必要があり、その後、このテキストを機械翻訳を用いて翻訳する。

音声認識技術の詳細な説明は、非特許文献１に記載されている。

機械翻訳技術は、ルールに基づく翻訳、用例に基づく翻訳、統計的翻訳の３つのクラスに分類することができる。これら技術はテキスト文の翻訳に成功している。

機械翻訳技術の詳細な説明は、非参照文献２に記載されている。

一般に、自然音声（話し言葉）は、テキスト文ほど流ちょうでない。ところどころに、一時停止、繰り返し、言い直しなどのようないくつかの発話現象が起きている。この場合、音声認識モジュールは、１組の主部と述部とからなる単純な文（単文）を認識することはできず、音声認識モジュールは、複数の単文またはユーザの文の断片を混ぜ合わせて、１つの長文として認識して、この長文を機械翻訳モジュールへ出力する。音声認識モジュールにより出力されたこの長文は、複数の単文を含み、機械翻訳モジュールがこれを翻訳するのは困難である。

そこで、音声認識モジュールにより認識された長文を複数の単文に分割する方法が要求されている。
"Fundamentals of Speech Recognition" written by L. Rabiner and Biing-Hwang Juang, Prentice Hall, 1993 "Retrospect and prospect in computer-based translation" written by Hutchins, John, 1999, In Proc. of Machine Translation Summit VII, pages 30-34

さらに、従来技術には、長文を自動的に分割する方法がいくつか提案されている。しかし、従来技術の自動分割モジュールは予めトレーニングされて、ユーザにより使用されている間にユーザからの実際の要求に従って自動的に更新することはできなかった。従って、分割誤りのような現象が頻繁に発生するため、分割誤りを効率よく低減し、ユーザの要求に適合させるための方法が必要であった。

以上説明したように、従来は、音声翻訳の質を容易に向上することができないといという問題点があった。

そこで、従来技術の上記問題点を解決するために、本発明は、音声翻訳の質を向上することができる音声翻訳方法及び装置を提供することを目的とする。

本発明の第１の側面に係る音声翻訳方法は、入力音声を音声認識することにより、複数の単文を含む少なくとも１つの長文を含むテキストを得、前記長文を複数の単文に分割し、分割した結果得られた前記複数の単文のそれぞれをターゲット言語の文に翻訳する。

本発明の第２の側面に係る音声翻訳装置は、入力音声を音声認識することにより、複数の単文を含む少なくとも１つの長文を含むテキストを得る音声認識手段と、前記長文を複数の単文に分割する分割手段と、前記分割手段で分割した結果得られた前記複数の単文のそれぞれをターゲット言語の文に翻訳する翻訳手段と、を含む。

音声翻訳の質を向上することができる。

以下、本発明の実施形態について図面を参照して説明する。

（音声翻訳方法）
図１は、本実施形態に係る音声翻訳方法を説明するためのフローチャートである。図１のステップＳ１００において、ユーザが話す話し言葉の音声が入力されると、ステップＳ１０１では、この入力音声に対し音声認識を行うことにより、入力音声のテキストを得る。本実施形態では、例えば非特許文献１に記載されていような当業者には既に公知のまたは将来開発され得るどの音声認識技術を用いてもよく、また、入力された音声をテキストに変換することができるのであれば、これらに限定するものでもない。

ステップＳ１０１で得られたテキストは複数の単文を含む１または複数の長文を含む。各長文には、次に示すように、１組の主部（または主語）と述部（または述語）からなる単純な文（以下、単文とよぶ）が複数個含まれている。

That's very kind of you but I don't think I will I'm driving.
この長文は、次の３つの単文を含む。

That's very kind of you.
But I don't think I will.
I'm driving.
次に、ステップＳ１０５へ進み、ステップＳ１０１で音声認識した結果得られたテキスト中の１または複数の長文はそれぞれ、複数の単文に分割される。このステップＳ１０５の処理の詳細について、図２を参照して説明する。なお、図２において、図１と同一部分には同一符号を付している。

図２のステップＳ１０５では、ステップＳ１０１で得られた入力音声のテキスト中の長文を、分割モデルＭ１を用いて複数の単文に分割する。分割モデルＭ１について、図３を参照して説明する。

図３は、分割モデルのトレーニング処理を説明するためのものである。本実施形態では、分割モデルＭ１は分割コーパスＭ２を用いてトレーニングされる。図３に示すように、分割コーパスＭ２は、正確に単文に分割されているテキストを含む。分割モデルＭ１は、文の境界を表す記号“||”がモデル内の共通語として扱われている点を除き、ｎ−グラム言語モデルに類似する。トレーニングされた分割モデルＭ１には、複数のｎ−グラムと低次グラムとこれらの確率とを含む。さらに、分割モデルＭ１のトレーニングプロセスはｎ−グラム言語モデルのトレーニングプロセスと類似する。本実施形態で用いる分割モデルＭ１は、当業者には既に公知のまたは将来開発され得るどの分割モデルを用いてもよく、また、ステップＳ１０１で得られたテキスト中の長文が分割モデルを用いて複数の単文に分割することができるのであれば、これらに限定するものでもない。

分割モデルＭ１を用いて長文を分割する、ステップＳ１０５の処理を図４を参照して説明する。

図４は、最適分割パスを探索する処理を説明するための図である。まず、長文に対し分割格子が構築される。分割格子では、分割される当該長文中の各単語が１つのノードとして登録される。さらに、単語間の境界は、文の境界位置として可能性のあるとみなされる。全ての単語ノードと、ゼロまたは少なくとも１つの複数の文境界の候補ノードとからなる分割パスは、分割パス候補とみなされる。例えば、次のような長文：
That's very kind of you but I don't think I will I'm driving.
に対し、次のような分割パス候補が得られる。

That's very kind of you || but I don't think I will I'm driving. ||
That's || very kind of you but I don't think I will || I'm driving.
That's very kind of you but || I don't think || I will I'm driving. ||
…
そして、効率よい探索アルゴリズムを用いて最適分割パスが探索される。探索処理において、各分割パス候補のスコアが計算される。この処理は中国語の分割処理に類似する。特に、例えば、最適分割パスはビタビアルゴリズムを用いて探索される。ビタビアルゴリズムの詳細は、非特許文献３（“Error Bounds for Convolutional Codes and An Asymptotically Optimum Decoding Algorithm” written by A. J. Viterbi, 1967, IEEE Trans. On Information Theory, 13(2), p. 260-269）に記載されている。

最後に、最もスコアの高い分割候補パスが、最適分割パスとして選択される。図４に示すように、次に示すような分割パスが最適分割パスとして選択される。

That's very kind of you || but I don't think I will I'm driving. ||
図１の説明に戻り、ステップＳ１０１で得られたテキスト中の長文がステップＳ１０５で複数の単文に分割された後、該複数の単文のそれぞれは、ターゲット言語の文に翻訳される。例えば、上記文の場合、次のような２つの文がそれぞれターゲット言語に翻訳されることになる。

That's very kind of you||
But I don't think I will I'm driving. ||
本実施形態では、上記単文を翻訳するために、ルールに基づく翻訳、用例に基づく翻訳、統計的翻訳など、どの機械翻訳技術も用いることができる。特に、例えば、非特許文献２記載の機械翻訳技術が、上記２つの単文の翻訳に用いることもできる。しかし、本発明は、長文を分割した結果得られた複数の単文をターゲット言語に翻訳することができるのであれば、これらに限定するものではない。

さらに、図２に示すように、ステップＳ１０１で得られたテキスト中の長文を、ステップＳ１０５で複数の単文に分割した後に、選択的に、ステップＳ１０６において、ユーザは、ステップＳ１０５の分割結果を修正するようにしてもよい。次に、本実施形態のこのような変形例を図５を参照して説明する。

図５は、分割モデルの修正処理及び更新処理を説明するための図である。図５に示すように、ステップＳ１０６の分割結果がユーザに（例えばディスプレイに）提示される。この分割結果には、長文中の単文と単文との間を区切る分割位置（文境界）を示す記号（例えば“||”）が含まれている。この分割結果の分割位置に誤りがあると、ユーザは、その誤りを例えばクリック等の指示入力を行うことで修正することができる。例えば、次に示すような文において、その末尾が文境界であると認識された分割結果には誤りがある。

But I don't think I will I'm driving. ||
この文は正確には、次のような２つの単文からなる。

But I don't think I will.
I'm driving.
従って、分割位置が認識されなかった場合には、ステップＳ１０６において、ユーザは正しい分割位置、すなわち、“will”と“Ｉ’m”との間をクリックする。ユーザによりクリックされた位置は（ユーザに提示された）文境界ではないので、このクリックされた位置を、文を分割する文境界として用いる。さらに、分割位置が誤っている場合に、ユーザが、この誤った分割位置をクリックすると、このクリックされた位置は（ユーザに提示された）文境界であるので、この文境界を削除する。例えば、次に示すような自動分割結果において、
We also serve ||
Tsing Tao Beer here
不必要な文境界（“server”と“Tsing”との間の文境界）が存在する。従って、この分割結果には誤りがある。この場合、ユーザは、この不必要な文境界をクリックすることで、これを削除することができる。

ステップＳ１０６の分割位置の修正により、ユーザは、ステップＳ１０５で得られた分割結果を容易に修正することができる。

さらに、ステップＳ１０６で修正した後、ステップＳ１０７において、ステップＳ１０６で実施された修正を分割モデルＭ１を更新するためのガイド情報として用いることができる。

図５に示すように、ステップＳ１０６において、ユーザにより、文境界“||”が“will”と“I’m”の間に追加された場合、ステップＳ１０７では、この文境界の追加された位置に文境界“||”を含むｎ個の単語列（ｎ−グラム）の確率を増加し、該文境界の追加された位置に文境界を含まないｎ−グラムの確率を減少する。なお、文境界の追加された位置に文境界を含むｎ−グラムが存在しない場合には、このようなｎ−グラムを新たに生成した後、その確率を予め定められた値だけ増加する。

例えば、図５において、ステップＳ１０６で、文境界“||”が“will”と“I’m”の間に追加された場合、ステップＳ１０７では、この文境界の追加された位置に文境界を含む次に示すような（既存のまたは新たに生成された）ｎ−グラムの確率を増加する。

Pr(|| | will, I) + = δ、すなわち、“I will”の後で文を区切る確率（“I will”の後に文境界“||”が生起する確率）を予め定められた値δだけ増加する。

Pr(I'm | ||, will) + = δ、すなわち、“will”と“I’m”との間で文を区切る確率（“will”と“I’m”との間に文境界“||”が生起する確率）を予め定められた値δだけ増加する。

Pr(driving | I'm, ||) + = δ、すなわち、“I’m driving”の前で文を区切る確率（“I’m driving”の前に文境界“||”が生起する確率）を予め定められた値δだけ増加する。

一方、ステップＳ１０７において、ユーザによる修正により文境界“||”の追加された位置に文境界を含まない、次に示すような既存のｎ−グラムの確率を減少する。

Pr(I'm | will, I) - = δ、すなわち、“I will”の後に“I’m”が続く確率を予め定められた値δだけ減少する。

Pr(driving | I'm, will) - = δ, すなわち、“will”と“I’m”の後に“driving”が続く確率を予め定められた値δだけ減少する。

さらに、ステップＳ１０６で、“serve”と“Tsing”の間の文境界“||”が削除された場合、ステップＳ１０７において、ユーザによる修正により文境界の削除された位置に文境界を含まない、次に示すような（既存のまたは新たなに生成された）ｎ−グラムの確率を増加する。

Pr(Tsing | serve, also) + = δ、すなわち、“also server”の後に“Tsing”が続く確率を予め定められた値δだけ増加する。

Pr(Tao | Tsing, serve) + = δ、すなわち、“server”と“Tsing”の後に“Tao”が続く確率を予め定められた値δだけ増加する。

一方、ステップＳ１０７において、ユーザによる修正により文境界の削除された位置に文境界を含む、次に示すようなｎ−グラムの確率を減少する。

Pr(|| | serve, also) - = δ、すなわち、“also server”の後で文を区切る確率（“also server”の後に文境界“||”が生起する確率）を予め定められた値δだけ減少する。

Pr(Tsing | ||, serve) - = δ、すなわち、“serve”と“Tsing”との間で文を区切る確率（“serve”と“Tsing”との間に文境界“||”が生起する確率）を予め定められた値δだけ減少する。

Pr(Tao | Tsing, ||) - = δ、すなわち、“Tsing Tao”の前で文を区切る確率（“Tsing Tao”の前に文境界“||”が生起する確率）を予め定められた値δだけ減少する。

上述したように、本実施形態に係る音声翻訳方法では、長文を分割するステップは、音声認識と機械翻訳との間に挿入されて、音声認識により得られたテキスト中の長文はいくつかの単文（主部と述部とからなる単純な文）に区切ることができる。この単文を翻訳することで、翻訳の困難さが軽減され、翻訳の質が向上する。

さらに、自動分割結果の誤りを避けるために、この音声翻訳方法におけるユーザインターフェースを提供する。このユーザインターフェースを設けることにより、ユーザは、分割結果を容易に修正することができる。同時に、ユーザによる修正結果は分割モデルを更新するために記憶され、ユーザの個人的な要求に適合させる。自動分割の質は、この音声翻訳方法を長時間使用することで徐徐に向上させることができる。自動分割における誤り発生確率は減少し、ユーザが介入する必要も少なくなっていく。

（音声翻訳装置）
次に、上述の音声翻訳方法を用いた音声翻訳装置について説明する。図６は、本実施形態に係る音声翻訳装置の構成例を示したものである。以下、図６を参照して、この実施形態を説明するが、上述の実施形態と同様の部分は、適切に省略している。

図６に示す音声翻訳装置６００は、音声を音声認識して、複数の単文を含む少なくとも１つの長文を有するテキストを得る音声認識部６０１と、該長文を複数の単文に分割する分割部６０５と、長文を分割することにより得られた複数の単文のそれぞれをターゲット言語に翻訳する翻訳部６１０と、を含む。図６の音声翻訳装置６００は、図１のフローチャートに従って動作する。

本実施形態では、音声認識部６０１に、例えば非特許文献１に記載されていような当業者には既に公知のまたは将来開発され得るどの音声認識技術を用いてもよく、また、入力された音声をテキストに変換することができるのであれば、これらに限定するものでもない。

音声認識部６０１で認識されたテキストには、複数の単文を含む１または複数の長文を含む。各長文には、次に示すように、１組の主部（または主語）と述部（または述語）からなる単純な文（以下、単文とよぶ）が複数個含まれている。

That's very kind of you.
But I don't think I will.
I'm driving.
音声認識した結果得られたテキスト中の１または複数の長文はそれぞれは、分割部６０５で複数の単文に分割される。分割部６０５で長文を複数の単文に分割する処理の詳細について、以下説明する。

分割部６０５は、記憶手段に記憶されている分割モデルＭ１を用いて、音声認識部６０１で認識されたテキスト中の長文を複数の単文に分割する。分割モデルＭ１について、図３を参照して説明する。

図３は、分割モデルのトレーニング処理を説明するためのものである。本実施形態では、分割モデルＭ１は分割コーパスＭ２を用いてトレーニングされる。図３に示すように、分割コーパスＭ２は、正確に単文に分割されているテキストを含む。

分割モデルＭ１は、文の境界を表す記号“||”がモデル内の共通語として扱われている点を除き、ｎ−グラム言語モデルに類似する。トレーニングされた分割モデルＭ１には、複数のｎ−グラムと低次グラムとこれらの確率とを含む。さらに、分割モデルＭ１のトレーニングプロセスはｎ−グラム言語モデルのトレーニングプロセスと類似する。本実施形態で用いる分割モデルＭ１は、当業者には既に公知のまたは将来開発され得るどの分割モデルを用いてもよく、また、音声認識部６０１で認識されたテキスト中の長文が分割モデルを用いて複数の単文に分割することができるのであれば、これらに限定するものでもない。

分割モデルＭ１を用いて長文を分割する、分割部６０５の処理を図４を参照して説明する。図４は、最適分割パスを探索する処理を説明するための図である。

本実施形態では、分割部６０５は、前記少なくとも１つの長文から複数の分割パス候補を生成する分割パス候補生成部を含む。まず、入力文に対し分割格子が構築される。分割格子では、分割される当該長文中の各単語が１つのノードとして登録される。さらに、単語間の境界は、文の境界位置として可能性のあるとみなされる。全ての単語ノードと、ゼロまたは少なくとも１つの複数の文境界の候補ノードとからなる分割パスは、分割パス候補とみなされる。例えば、次のような長文：
That's very kind of you but I don't think I will I'm driving.
に対し、次のような分割パス候補が得られる。

That's very kind of you || but I don't think I will I'm driving. ||
That's || very kind of you but I don't think I will || I'm driving.
That's very kind of you but || I don't think || I will I'm driving. ||
…
本実施形態では、分割部６０５は、さらに、分割モデルを用いて複数の分割パス候補のそれぞれに対しスコアを計算するスコア計算部を含む。ここで、効率よい探索アルゴリズムを用いて最適分割パスが探索される。探索処理において、各分割パス候補のスコアが計算される。この処理は中国語の分割処理に類似する。特に、例えば、最適分割パスはビタビアルゴリズムを用いて探索される。ビタビアルゴリズムの詳細は、非特許文献３に記載されている。

分割部６０５は、さらに、最もスコアの高い分割候補パスを最適分割パスとして選択する最適分割パス選択部を含む。図４に示すように、次に示すような分割パスが最適分割パスとして選択される。

That's very kind of you || but I don't think I will I'm driving. ||
図６の説明に戻り、音声認識部６０１で得られたテキスト中の長文が分割部６０５で複数の単文に分割された後、該複数の単文のそれぞれは、翻訳部６１０でターゲット言語の文に翻訳される。例えば、上記文の場合、次のような２つの文がそれぞれターゲット言語に翻訳されることになる。

That's very kind of you||
But I don't think I will I'm driving. ||
本実施形態では、上記単文を翻訳する翻訳部６１０に、ルールに基づく翻訳、用例に基づく翻訳、統計的翻訳など、どの機械翻訳技術も用いることができる。特に、例えば、非特許文献２記載の機械翻訳技術が、翻訳部６１０で上記２つの単文を翻訳する際に用いることもできる。しかし、本発明は、長文を分割した結果得られた複数の単文をターゲット言語に翻訳することができるのであれば、これらに限定するものではない。

さらに、音声翻訳装置６００は、音声認識部６０１で得られたテキスト中の長文を、分割部６０５で複数の単文に分割した後に、この分割結果をユーザが修正できるようにする修正部６０７が選択的に含まれていてもよい。この場合、音声翻訳装置６００は、図２のフローチャートに従って動作する。

修正部６０７の修正処理について、図５を参照して説明する。

図５は、修正部６０７の修正処理を説明するための図である。図５に示すように、分割部６０５の分割結果の分割位置に誤りがあると、ユーザは、修正部６０７を用いて、その誤りを例えばクリック等の指示入力を行うことで修正することができる。例えば、次に示すような文において、その末尾が文境界であると認識された分割結果には誤りがある。

But I don't think I will.
I'm driving.
従って、分割位置として認識されなかったところを、修正部６０７を用いて、ユーザは正しい分割位置、すなわち、“will”と“Ｉ’m”との間をクリックする。ユーザによりクリックされた位置は（ユーザに提示された）文境界ではないので、このクリックされた位置を、文を分割する文境界として用いる。さらに、分割位置が誤っている場合に、ユーザが、この誤った分割位置をクリックすると、このクリックされた位置は（ユーザに提示された）文境界であるので、この文境界を削除する。例えば、次に示すような自動分割結果において、
We also serve ||
Tsing Tao Beer here
不必要な文境界（“server”と“Tsing”との間の文境界）が存在する。従って、この分割結果には誤りがある。この場合、ユーザは、この不必要な文境界をクリックすることで、これを削除することができる。

修正部６０７の分割位置の修正により、ユーザは、分割部６０５で得られた分割結果を容易に修正することができる。

さらに、音声翻訳装置６００には、修正部６０７で実施された修正を分割モデルＭ１を更新するためのガイド情報として用いて、分割モデルＭ１を更新する分割モデル更新部が含まれていてもよい。

具体的には、図５に示すように、修正部６０７で、ユーザにより、文境界“||”が“will”と“I’m”の間に追加された場合、分割モデル更新部は、この文境界の追加された位置に文境界“||”を含むｎ個の単語列（ｎ−グラム）の確率を増加し、該文境界の追加された位置に文境界を含まないｎ−グラムの確率を減少する。

例えば、図５において、修正部６０７により、文境界“||”が“will”と“I’m”の間に追加された場合、分割モデル更新部は、この文境界の追加された位置に文境界を含む次に示すような（既存のまたは新たに生成された）ｎ−グラムの確率を増加する。

一方、分割モデル更新部は、ユーザによる修正により文境界“||”の追加された位置に文境界を含まない、次に示すような既存のｎ−グラムの確率を減少する。

さらに、修正部６０７で、“serve”と“Tsing”の間の文境界“||”が削除された場合、分割モデル更新部は、ユーザによる修正により文境界の削除された位置に文境界を含まない、次に示すような（既存のまたは新たなに生成された）ｎ−グラムの確率を増加する。

一方、分割モデル更新部は、ユーザによる修正により文境界の削除された位置に文境界を含む、次に示すようなｎ−グラムの確率を減少する。

上述したように、本実施形態に係る音声翻訳装置６００では、長文を分割する分割部は、音声認識部と機械翻訳部との間に挿入されて、音声認識により得られたテキスト中の長文はいくつかの単文（主部と述部とからなる単純な文）に区切ることができる。この単文を翻訳することで、翻訳の困難さが軽減され、翻訳の質が向上する。

さらに、自動分割結果の誤りを避けるために、この音声翻訳装置６００におけるユーザインターフェースを提供する。このユーザインターフェースを設けることにより、ユーザは、分割結果を容易に修正することができる。同時に、ユーザによる修正結果は分割モデルを更新するために記憶され、ユーザの個人的な要求に適合させる。自動分割の質は、この音声翻訳装置６００を長時間使用することで徐徐に向上させることができる。自動分割における誤り発生確率は減少し、ユーザが介入する必要も少なくなっていく。

いくつかの実施例を用いて、音声翻訳方法及び装置について説明したが、本発明は、上述の実施形態そのままに限定されるものではない。当業者であれば、本発明の要旨を逸脱しない範囲で構成要素を変形して具体化できる。従って、本発明は、これら実施形態に限定されるものではなく、むしろ、本発明の要旨は特許請求の範囲に記載される。

本発明の一実施形態に係る音声翻訳方法を説明するためのフローチャート。音声翻訳方法をより詳細に説明するためのフローチャート。分割モデルをトレーニングするプロセスを説明するための図。最適分割パスを探索するプロセスを説明するための図。分割モデルを変形するプロセス及び更新するプロセスを説明するための図。本発明の他の実施形態に係る音声翻訳装置の構成例を示す図。

符号の説明

６００…音声翻訳装置
６０１…音声認識部
６０５…分割部
６０７…修正部
６１０…翻訳部

Claims

入力音声を音声認識することにより、複数の単文を含む少なくとも１つの長文を含むテキストを得る音声認識ステップと、
前記長文を複数の単文に分割する分割ステップと、
前記長文を分割した結果得られた各単文をターゲット言語の文に翻訳する翻訳ステップと、
を含む音声翻訳方法。
前記分割ステップは、分割モデルを用いて前記長文を複数の単文に分割する請求項1記載の音声翻訳方法。
前記分割ステップは、
前記長文に対し、複数の分割パス候補を生成するステップと、
前記分割モデルを用いて、各分割パス候補に対しスコアを計算するステップと、
前記複数の分割パス候補のうち、前記スコアが最も高い分割候補パスを最適候補パスとして選択するステップと、
を含む請求項２記載の音声翻訳方法。
前記分割モデルは、複数のｎ−グラム及びそのそれぞれの確率を含む請求項２記載の音声翻訳方法。
前記分割ステップで得られた前記長文中の分割位置を修正する修正ステップをさらに含み、
前記翻訳ステップは、前記修正ステップで分割位置を修正した結果得られた複数の単文のそれぞれを前記ターゲット言語に翻訳する請求項１記載の音声翻訳方法。
前記修正ステップは、前記長文中の分割位置を追加または削除する請求項５記載の音声翻訳方法。
修正された分割位置に基づき、前記分割モデルを更新する更新ステップをさらに含む請求項５記載の音声翻訳方法。
前記更新ステップは、前記修正ステップで追加された分割位置に文境界を含むｎ−グラムの確率を増加する請求項7記載の音声翻訳方法。
前記更新ステップは、前記修正ステップで削除された分割位置に文境界を含むｎ−グラムの確率を減少する請求項7記載の音声翻訳方法。
入力音声を音声認識することにより、複数の単文を含む少なくとも１つの長文を含むテキストを得る音声認識手段と、
前記長文を複数の単文に分割する分割手段と、
前記長文を分割した結果得られた各単文をターゲット言語の文に翻訳する翻訳手段と、
を含む音声翻訳装置。
前記分割手段は、分割モデルを用いて前記長文を複数の単文に分割する請求項1０記載の音声翻訳装置。
前記分割手段は、
前記長文に対し、複数の分割パス候補を生成する手段と、
前記分割モデルを用いて、各分割パス候補に対しスコアを計算する手段と、
前記複数の分割パス候補のうち、前記スコアが最も高い分割候補パスを最適候補パスとして選択する手段と、
を含む請求項１１記載の音声翻訳装置。
前記分割モデルは、複数のｎ−グラム及びそのそれぞれの確率を含む請求項１１記載の音声翻訳装置。
前記分割手段で得られた前記長文中の分割位置を修正する修正手段をさらに含み、
前記翻訳手段は、前記修正手段で分割位置を修正した結果得られた複数の単文のそれぞれを前記ターゲット言語に翻訳する請求項１０記載の音声翻訳装置。
前記修正手段は、前記長文中の分割位置を追加または削除する請求項１４記載の音声翻訳装置。
修正された分割位置に基づき、前記分割モデルを更新する更新手段をさらに含む請求項１４記載の音声翻訳装置。
前記更新手段は、前記修正手段で追加された分割位置に文境界を含むｎ−グラムの確率を増加する増加する請求項１６記載の音声翻訳装置。
前記更新手段は、前記修正ステップで追加された分割位置に文境界を含むｎ−グラムの確率を減少する請求項１６記載の音声翻訳装置。