JP2009151777A

JP2009151777A - 音声言語パラレルコーパスのアライメント方法及び装置

Info

Publication number: JP2009151777A
Application number: JP2008316021A
Authority: JP
Inventors: Dengjun Ren; レン・デンジュン; Hua Wu; ウー・ファ; Haifen Wan; ワン・ハイフェン
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-12-20
Filing date: 2008-12-11
Publication date: 2009-07-09
Also published as: CN101464856A; US20090164208A1

Abstract

【課題】音声言語パラレルコーパスにおいて高精度に単語間の対応付けが行えるアライメント方法及び装置を提供する。
【解決手段】ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスから統計的方法及び辞書を用いて得られた統計的方法及び辞書ベースの単語アライメント集合を用いて、前記音声言語パラレルコーパスから、ソース言語のチャンクとターゲット言語のチャンクとのチャンク対の集合であるチャンクアライメント集合を求め、このチャンクアライメント集合に含まれるチャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、ソース言語の単語とターゲット言語の単語との単語対の集合であるチャンクアライメントベースの単語アライメント集合を求める。
【選択図】図１

Description

本発明は、情報処理技術に関し、特に、音声言語パラレルコーパスのチャンクアライメント及び単語アライメントに関する。

機械翻訳技術は、主に、規則ベース機械翻訳とコーパスベースの機械翻訳と分類できる。

コーパスベースの機械翻訳では、主な翻訳リソースはコーパスリポジトリーから得る。すなわち、コーパスベースの機械翻訳では、コーパスリポジトリー内の２言語パラレルコーパスを学習させる。コーパスベースの機械翻訳プロセスを以下の通りである。まず、単語アライメントのような単語処理や構文解析をコーパスリポジトリー内の２言語パラレルコーパスに対し実行し、２言語間の対応する文の対を複数個得る。翻訳エンジンは、この文の対をフレームワーク構造とする。ユーザが翻訳すべき文を入力すると、翻訳エンジンは、この入力文と複数のフレームワーク構造との間でマッチングを行い、該入力文にマッチするフレームワーク構造が得られた場合には、当該フレームワーク構造に従って該入力文の翻訳を行い、ターゲット言語の訳文を得る。

コーパスリポジトリー内の２言語パラレルコーパスのアライメントは、前提条件であり、コーパスベースの機械翻訳により得られる翻訳の質は、コーパスのアライメントの質に大きく依存する。従って、２言語パラレルコーパスのアライメントはコーパスベースの機械翻訳において重要や役割を果たす。

コーパスのアライメントには、パラグラフレベルのアライメント、文レベルのアライメント、チャンクレベルのアライメント、単語レベルのアライメントなどがある。

単語アライメントは、単語レベルで、ソース言語のコーパスとターゲット言語のコーパスとの間の対応を求めることである。すなわち、ソース言語のコーパス内の各単語に対し、これにと意味的に類似又は一致する単語を、ターゲット言語のコーパス内から見つけて、ソース言語の文とターゲット言語の文との間で、翻訳単位、すなわち単語単位に対応付ける。

現在、単語アライメントには多くの方法があるが、そのほとんどの方法は、音声言語の特徴を考慮したものではないので、比較的適格な文の形式をもつ書き言葉には適しているが、音声から音声への音声言語の機械翻訳には適していない。実際、話し言葉（音声言語）と書き言葉とには多くの違いがある。

音声言語の場合、文の構造は非常に柔軟である。言葉の流れも書き言葉のように流ちょうではなく、書き言葉にはない、繰り返し、ためらいやちゅうちょ、省略などの訥弁がしばしば起こる。

従って、音声言語と話し言葉との違いから、音声から音声への機械翻訳において、書き言葉に対しては非常に優れているアライメント方法を音声言語に適用しても、満足する結果が得られないことが多い。

このように、従来は、音声言語の特徴に適応した、効率の良い高精度な音声言語のアライメント方法が存在しないという問題点があった。その結果、音声機械翻訳などにおける翻訳精度を向上させることが困難であった。

そこで、本発明は、上記問題点に鑑みなされたもので、音声言語の特徴に適した、高精度の単語アライメントが可能となり、音声言語パラレルコーパスにおいて高精度に単語間の対応付けが行えるアライメント方法及び装置と、翻訳精度の向上が図れる、当該アライメント方法を用いた音声から音声への機械翻訳方法及びシステムを提供することを目的とする。

本発明の一実施形態に係る音声言語パラレルコーパスのアライメント方法及び装置は、ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスから統計的方法及び辞書を用いて得られた統計的方法及び辞書ベースの単語アライメント集合を用いて、前記音声言語パラレルコーパスから（ソース言語のチャンクとターゲット言語のチャンクとのチャンク対の集合である）チャンクアライメント集合を求め、このチャンクアライメント集合に含まれるチャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、（ソース言語の単語とターゲット言語の単語との単語対の集合である）チャンクアライメントベースの単語アライメント集合を求める。

すなわち、チャンクに含まれる複数の単語に基づいて（その統合性を用いて）、単語アライメントを行う。この結果、音声言語の特徴に適した高精度の単語アライメント及びチャンクアライメントが可能となり、音声言語パラレルコーパスにおいて高精度に単語間の対応付けが行える。

本発明の一実施形態に係る音声機械翻訳方法及びシステムは、上記アライメント方法を用いて、前記音声言語パラレルコーパスから前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを得、前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを用いて、入力されたソース言語の音声をターゲット言語の音声に翻訳する。

音声から音声への機械翻訳を行う際に、上記アライメント方法を用いて得られた上記チャンクアライメント集合及び上記チャンクアライメントベースの単語アライメント集合を用いることにより、音声言語における単語アライメントにける不明瞭さや曖昧性を低減することができる。

音声言語の特徴に適した高精度の単語アライメント及びチャンクアライメントが可能となり、音声言語パラレルコーパスにおいて高精度に単語間の対応付けが行える。

以下、本発明の実施形態について、図面を参照して説明する。

（音声言語パラレルコーパスのアライメント方法）
図１は、本実施形態に係る音声言語コーパス格納部に記憶されている音声言語パラレルコーパスのアライメント方法を説明するためのフローチャートである。

図１において、ステップＳ１０５では、音声言語パラレルコーパスを、音声言語の特徴に基づき前処理し、標準化音声言語パラレルコーパスを得る。

図２は、ステップＳ１０５の前処理をより詳細に説明するためのフローチャートである。ここで、Ａは、音声言語コーパス格納部に記憶されている元の音声言語パラレルコーパスを示す。

図２において、まず、ステップＳ２０５では、音声言語コーパス格納部に記憶されている元の音声言語パラレルコーパスＡから、繰り返しフラグメント（複数回繰り繰り返された同じ語句、表現）を削除する。上述したように、音声言語（話し言葉）では繰り返しはよく起こる現象であり、音声言語（話し言葉）の１つの特徴でもある。音声言語コーパス中に繰り返しフラグメントがあると、文が流ちょうでなくなる。そして、そのような文に基づき得られたアライメント結果の質や、さらには、翻訳結果の正確さにも影響を及ぼす。従って、本実施形態では、チャンクアライメントや単語アライメントを行う前に、まず、音声言語コーパスから繰り返しフラグメントを取り除く前処理を行い、音声言語パラレルコーパスのチャンクアライメント及び単語アライメントの精度を上げる。

次に、ステップＳ２１０では、音声言語コーパス格納部に記憶されている音声言語パラレルコーパスＡに含まれる、ためらいやちゅうちょを表す語に特別タグを割り当てる。このステップは、ためらいやちゅうちょを表す語のリストを予め用意し、このリストに基づき行う。

上述したように、ためらいやちゅうちょも音声言語（話し言葉）にはよく起こる現象であるが、これがあると、やはり文が流ちょうでなくなる。音声言語の特徴によれば、ためらいやちゅうちょを表す語は、普通、現実的な意味はほとんど持たないか、または、そのような語を含む音声言語の文全体により表される意味において、ほとんど重要ではない。

従って、このステップでは、ためらいやちゅうちょを表す語がリストアップされている予め用意されたリストに基づき、音声言語コーパス格納部に記憶されている音声言語パラレルコーパスＡのなかから上記リストに列挙されているたらいやちゅうちょを表す語を探索する。そして、この音声言語パラレルコーパスＡから探索された、ためらいやちゅうちょを表す語に対し、その後の単語アライメントにおいて特別な取り扱いをすることができるように、特別タグを付与する。

図２に示したように、音声言語パラレルコーパスＡに対し、ステップＳ２０５及びステップＳ２１０に示す前処理を実行することにより、標準化音声言語パラレルコーパスＢが得られる。

上述の図１のステップＳ１０５の前処理では、図２に示すように、互いに依存しない２つの処理ステップ（ステップＳ２０５とステップＳ２１０）が並行に実行されているが、この場合に限らず、この２つの処理ステップは、順番に実行してもよい。例えば、ステップＳ２０５を先に実行し次にステップＳ２１０を実行する、または、ステップＳ２１０を先に実行し次にステップＳ２０５を実行する。

図１の説明に戻り、ステップＳ１１０では、ステップＳ１０５の前処理の結果得られた標準化音声言語パラレルコーパスＢを基に、統計的方法及び辞書ベースの高精度単語アライメント集合（統計的方法及び辞書ベースの単語アライメント集合）を得る。

図３は、ステップＳ１１０の処理をより詳細に説明するためのフローチャートである。図３において、まず、ステップＳ３０５では、標準化音声言語パラレルコーパスＢに基づき、ソース言語からターゲット言語への統計的単語アライメント集合Ｃを得る。すなわち、ステップＳ３０５では、標準化音声言語パラレルコーパスＢに含まれるソース言語文とこれに対応するターゲット言語文との間で、統計的方法を用いて、ソース言語文中の単語に、これに意味的に類似又は一致するターゲット言語中の単語を対応付け、対応付けられたソース言語中の単語とターゲット言語中の単語との単語対の集合である、ソース言語からターゲット言語へのコーパスベースの統計的単語アライメント集合Ｃを得る。なお、統計的方法を用いてパラレルコーパスから単語アライメント集合を求めることは公知の一般的な技術手法を用いればよく、本実施形態では何ら限定するものではない。

ステップＳ３１０では、標準化音声言語パラレルコーパスＢに基づき、ターゲット言語からソース言語への単語アライメント集合Ｄを求める。すなわち、ステップＳ３１０では、標準化音声言語パラレルコーパスＢに含まれるターゲット言語文とこれに対応するソース言語文との間で、統計的方法を用いて、ターゲット言語文中の単語に、これに意味的に類似又は一致するソース言語中の単語を対応付け、対応付けられたターゲット言語中の単語とソース言語中の単語とからなる単語対の集合である、ターゲット言語からソース言語へのコーパスベースの統計的単語アライメント集合Ｄを得る。なお、統計的方法を用いてパラレルコーパスから単語アライメント集合を求めることは公知の一般的な技術手法を用いればよく、本実施形態では何ら限定するものではない。

ステップＳ３１５では、ソース言語からターゲット言語への統計的単語アライメント集合Ｃと、ターゲット言語からソース言語への統計的単語アライメント集合Ｄとの共通集合Ｅを求める。この処理ステップの目的は、ソース言語からターゲット言語への統計的単語アライメント集合Ｃと、ターゲット言語からソース言語への統計的単語アライメント集合Ｄとの範囲を簡略化することにあり、この処理ステップにより、音声言語パラレルコーパスのみに基づく精錬された統計的単語アライメント集合Ｅを得る。

ステップＳ３２０では、標準化音声言語パラレルコーパスＢに含まれる各単語について、ソース言語−ターゲット言語辞書と、ターゲット言語−ソース言語辞書とをサーチして、辞書ベースの単語アライメント集合Ｆを求める。この辞書ベースの単語アライメント集合Ｆに含まれる各アライメントアイテム（単語対）は、ソース言語−ターゲット言語辞書のエントリーと、ターゲット言語−ソース言語辞書のエントリーとの対である。

具体的には、このステップでは、まず、標準化音声言語パラレルコーパスＢのなかのソース言語文について、ソース言語−ターゲット言語辞書から、該ソース言語文中の各単語をサーチして、当該ソース言語文中の単語に対応する（意味的に類似又は一致する）ターゲット言語の単語を得る。そして、該ソース言語文中の単語と、これに対応するソース言語−ターゲット言語辞書から求めたターゲット言語の単語とからなる単語対の集合である、ソース言語からターゲット言語への辞書ベースの単語アライメント集合を得る。次に、標準化音声言語パラレルコーパスＢのなかのターゲット言語文について、ターゲット言語−ソース言語辞書から、該ターゲット言語文中の各単語をサーチして、当該ターゲット言語文中の単語に対応する（意味的に類似又は一致する）ソース言語の単語を得る。そして、該ターゲット言語文中の単語と、これに対応するターゲット言語−ソース言語辞書から求めたソース言語の単語とからなる単語対の集合である、ターゲット言語からソース言語への辞書ベースの単語アライメント集合を得る。最後に、ソース言語からターゲット言語への辞書ベースの単語アライメント集合と、ターゲット言語からソース言語への辞書ベースの単語アライメント集合との共通集合を求めて、最終的な辞書ベースの単語アライメント集合Ｆを得る。

ステップＳ３２５では、ステップＳ３１５で得られたコーパスベースの統計的単語アライメント集合Ｅと、ステップＳ３２０で得られた辞書ベースの単語アライメント集合Ｆとの和集合を求める。この和集合を高精度単語アライメント集合Ｇとする。すなわち、この処理ステップでは、音声言語コーパスのみに基づき得られた単語アライメント集合Ｅが、ソース言語−ターゲット言語辞書と、ターゲット言語−ソース言語辞書とに基づき得られた単語アライメント集合Ｆを用いることにより拡張され、より完璧で、しかもより広く適用できる単語アライメント集合が、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇとして得られる。

図３に示したように、ステップＳ３０５〜ステップＳ３２５の処理を標準化音声言語パラレルコーパスＢに対し実行することにより、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇが得られる。

以上が、図１のステップＳ１１０において、前処理語の音声言語パラレルコーパスに基づき高精度単語アライメント集合を求めるプロセスの詳細である。なお、図３に示した処理手順は一例であって、上述したような統計的方法及び辞書ベースの高精度単語アライメント集合Ｇが得られるのであれば、どのような手法を用いてもよい。

図１の説明に戻り、ステップＳ１１５では、ステップＳ１１０で得られた、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇを用いて、前処理後の音声言語パラレルコーパスＢ中のソース言語コーパス及びターゲットコーパス間で、チャンク単位の対応付けを行う。

図４は、ステップＳ１１５の処理をより詳細に説明するためのフローチャートである。図４において、まず、ステップＳ４０５において、前処理により得られた標準化音声言語パラレルコーパスＢに対しチャンク分析を実行して、標準化音声言語パラレルコーパスＢ内のチャンクを識別し、標準化音声言語パラレルコーパス中の各文を、１または複数の単語からなるチャンクに分割する。その結果、チャンク単位に分割された音声言語パラレルコーパスＨを得る。図４に示すプロセスは、音声言語パラレルコーパスＢ中のソース言語コーパス及びターゲット言語コーパス間でチャンク単位の対応付けを行うためのもので、どれがチャンクであるかを識別することは、チャンクアライメントの基本となる。従って、音声言語パラレルコーパスＢに対しチャンクアライメントを行うために、チャンクアライメントを行う前に、どれがチャンクであるかを識別するチャンク分析を音声言語パラレルコーパスＢに対し実施する処理ステップは必要となる。

次に、ステップＳ４１０へ進み、チャンク単位に分割された音声言語パラレルコーパスＨに含まれるソース言語コーパス（ソース言語文）から、該ソース言語文中の各チャンクの先頭単語を抽出し、ソース言語チャンクの先頭単語の集合Ｉを得る。

また、ステップＳ４１５では、チャンク単位に分割された音声言語パラレルコーパスＨに含まれるターゲット言語コーパス（ターゲット言語文）から、該ターゲット言語文中の各チャンクの先頭単語を抽出し、ターゲット言語チャンクの先頭単語の集合Ｊを得る。

さらにステップＳ４２０へ進み、図３に示したプロセスにより得られた統計的方法及び辞書ベースの高精度単語アライメント集合Ｇを用いて、ソース言語チャンクの先頭単語の集合Ｉとターゲット言語チャンクの先頭単語の集合Ｊとの間で、先頭単語単位の対応付けを行い、ソース言語の先頭単語とターゲット言語の先頭単語との単語対の集合である先頭単語アライメント集合Ｋを得る。すなわち、このステップでは、先頭単語の集合Ｉに含まれる先頭単語と、先頭単語の集合Ｊに含まれる先頭単語とからなる単語対が、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇに存在する場合には、当該単語対は、先頭単語アライメント集合Ｋのアライメントアイテムとして、先頭単語アライメント集合Ｋに追加される。従って、先頭単語アライメント集合Ｋにアライメントアイテムとして含まれている各単語対は、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇのアライメントアイテムである。よって、先頭単語アライメント集合Ｋは、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇの部分集合である。

次に、ステップＳ４２５へ進み、先頭単語アライメント集合Ｋを用いて、チャンク単位に分割された音声言語パラレルコーパスＨ中のソース言語コーパス（ソース言語文）とターゲット言語コーパス（ターゲット言語文）との間でチャンク単位の対応付けを行う。すなわち、音声言語パラレルコーパス中のソース言語コーパスとターゲット言語コーパスとの間で、ソース言語コーパス（ソース言語文）中の各チャンクと、これと同じ意味をもつソース言語コーパス（ターゲット言語文）中のチャンクとを対応付ける。

より具体的には、チャンクの先頭単語単位で対応付けされているので、これにより対応するチャンク自体も対応付けされている。従って、この処理ステップでは、先頭単語アライメント集合Ｋに含まれる各先頭単語対について、当該対に含まれるソース言語の先頭単語を含むソース言語のチャンクと、当該対に含まれるターゲット言語の先頭単語のチャンクとを対応付けて、チャンク対を得る。このチャンク対は、チャンクアライメント集合Ｌに追加される。

このように、図４に示したステップＳ４０５〜ステップＳ４２５の処理を、音声言語パラレルコーパスＢに対し実行することにより、チャンクアライメント集合Ｌが得られる。

以上が、図１のステップＳ１１５において、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇを用いて前処理後の音声言語パラレルコーパス中のソース言語コーパスとターゲット言語コーパス間でチャンク単位の対応付けを行うプロセスの詳細である。なお、ステップＳ４０５の代わりに、チャンク単位に分割された音声言語パラレルコーパスＨが、音声言語パラレルコーパスのアライメント方法によるチャンク分析の結果得られてもよい。

図１の説明に戻る。ステップＳ１１５からステップＳ１２０に進み、音声言語パラレルコーパスを用いて対応付けられたチャンク間で単語単位に対応付けを行い、チャンクアライメントベースの単語アライメント集合を得る。そして、この得られたチャンクアライメントベースの単語アライメント集合を修正して、最終単語アライメント集合を得る。

図５は、ステップＳ１２０の処理をより詳細に説明するためのフローチャートである。図５において、まず、ステップＳ５０５において、図３に示したプロセスにより得られたソース言語からターゲット言語への統計的単語アライメント集合Ｃと、ターゲット言語からソース言語への統計的単語アライメント集合Ｄと、辞書ベースの単語アライメント集合Ｆとの和集合Ｓを求める。この和集合Ｓは、より広い範囲を網羅する単語アライメント集合である。

次に、ステップＳ５１０へ進み、和集合Ｓを用いて、図４に示したプロセスにより得られたチャンクアライメント集合Ｌに含まれるチャンク対として対応付けられたチャンク間で、単語単位の対応付けを行い、意味的に類似又は一致するソース言語の単語とターゲット言語の単語との対語対の集合であるチャンクアライメントベースの単語アライメント集合Ｍを得る。単語アライメント集合Ｍにアライメントアイテムとして含まれる各単語対は、和集合Ｓのアライメントアイテムである。

次に、ステップＳ５１５では、図２のステップＳ２０５で削除された繰り返しフラグメントを、単語アライメント集合Ｍに追加する。より詳細に説明すると、このステップでは、図２のステップＳ２０５で削除された各繰り返しフラグメントに対応する単語と同じ単語を含む単語対が、音声言語コーパスＢに含まれていれば、当該単語対を、削除された繰り返しフラグメントに対応する単語対として、単語アライメント集合Ｍに（アライメントアイテムとして）追加する。すなわち、このステップでは、音声言語パラレルコーパスに２回以上繰り返し出現するフラグメントに対応する、単語アライメント集合Ｍ中の単語対は同じものとする。すなわち、単語アライメント集合Ｍに含まれる、同じ語の単語対はどれも同じ単語対である。

ステップＳ５２０では、図２のステップＳ２１０の前処理において、ためらいやちゅうちょを表す語に付与した特別タグに従って、そのような特別タグの付与された単語を含む単語対（非ヌルの単語対）を単語アライメント集合Ｍから削除する。すなわち、この処理ステップでは、単語アライメント集合Ｍから、ためらいやちゅうちょを表す語に対応する単語を含む単語対を削除して、ためらいやちゅうちょを表す語（特別タグの付与された単語）は「ヌル」と対応付ける。

ステップＳ５２５では、単語アライメント集合Ｍから、音声言語コーパス中の略語フラグメント（略語）に対応する単語対を削除する。

以上の処理により得られた最終単語アライメント集合Ｎ及びチャンクアライメント集合Ｌは、音声言語コーパス格納部に、元の音声言語パラレルコーパスとともに、または別個の格納部に記憶される。

図５に示すように、ステップＳ５０５〜ステップＳ５２５の処理をチャンクアライメント集合Ｌに対し実行することにより、最終単語アライメント集合Ｎが得られる。最終単語アライメント集合Ｎはチャンクアライメント集合Ｌと組み合わせて、音声から音声への機械翻訳や、そのトレーニングのために適用可能である。

以上は、図１のステップＳ１２０において、音声言語パラレルコーパス内で対応付けされたチャンク間で単語の対応付けを行い、さらに、得られた単語アライメント集合を修正するプロセスの詳細である。なお、別の実施形態として、音声言語パラレルコーパス内で対応付けされたチャンク間で単語の対応付けを行う処理と、得られた単語アライメント集合を修正する処理とのうち、前者の対応付けを行う処理を行い、後者の修正する処理を省いても良いし、また、後者の修正する処理は、必要に応じて選択された場合に実行するようにしてもよい。

以上説明した音声言語パラレルコーパスのアライメント方法では、まず、音声言語コーパス格納部に格納されている音声言語パラレルコーパスに対し音声言語の特徴に基づいて前処理を行い、この前処理後の音声言語パラレルコーパス（標準化音声言語パラレルコーパスＢ）から、高精度単語アライメント集合Ｇを得る。そして、この高精度単語アライメント集合Ｇを用いて、前処理後の音声言語パラレルコーパス（標準化音声言語パラレルコーパスＢ）中のチャンクが対応付けられ、さらに対応付けされたチャンク間で単語の対応付けを行い、音声言語（話し言葉）によくある流ちょう性を損なわせる言い回しに起因する単語アライメントの誤りを修正する。

このように、上記実施形態では、チャンクのもつ単語の統合性を用いて単語アライメント集合Ｍを求めることにより、音声言語単語アライメントにおける曖昧性を低減することができる。また、音声言語コーパス中の略語、繰り返し、ためらいやちゅうちょなどの文のりゅうちょう性を損なわせる様な表現に関し特別な処理を施すことにより、音声言語の特徴に起因するアライメント誤りを取り除くことができる。従って、音声言語における高精度のチャンクアライメント集合及び単語アライメント集合を効率よく求めることができる。

さらに、上記実施形態に係る音声言語パラレルコーパスのアライメント方法を用いて得られるチャンクアライメント集合及び単語アライメント集合は、音声から音声へ翻訳する音声機械翻訳だけでなく、テキスト機械翻訳、情報検索などの様々な分野の言語処理にも広く適用可能である。

なお、図１のステップＳ１０５における前処理と、ステップＳ１２０における単語アライメントを修正する処理は、必ずしも含まれている必要はなく、省略されていても上述同様の効果が得られることは言うまでもない。

（音声から音声への機械翻訳方法）
次に、図１〜図５に示した音声言語パラレルコーパスのアライメント方法を用いた、音声から音声への機械翻訳方法について説明する。

図６は、本実施形態に係る音声から音声へ翻訳する音声機械翻訳方法を説明するためのフローチャートである。図６に示すように、まず、ステップＳ６０５では、図１〜図５に示した音声言語パラレルコーパスのアライメント方法を用いて、予め構成されている音声言語コーパス格納部に記憶されている音声言語パラレルコーパスから、チャンクアライメント集合Ｌ及び単語アライメント集合Ｎを求める。

ステップＳ６１０へ進み、ユーザにより、翻訳すべきソース言語の音声（話し言葉の文）が入力されたか否かを決定する。ユーザにより、翻訳すべきソース言語の音声（話し言葉の文）の文が入力されると、ステップＳ６１５へ進み、そうでない場合には、入力されるまで待つ。

ステップＳ６１５では、ステップＳ６０５で得られたチャンクアライメント集合Ｌ及び単語アライメント集合Ｎを用いて、入力されたソース言語の音声の文に対し、音声機械翻訳を実行し、当該入力された音声言語の文に対応するターゲット言語の音声を得る。

このように、前述した音声言語パラレルコーパスのアライメント方法を用いて求めたチャンクアライメント集合Ｌ及び単語アライメント集合Ｎを、音声機械翻訳に適用することにより、高精度の音声翻訳結果を得ることができる。
さらに、本実施形態において用いる音声言語コーパス格納部には何ら限定するものではない。音声言語コーパス格納部に格納される音声言語コーパスが、充分に汎用的で適用範囲が広く、しかも音声から音声へ翻訳する音声機械翻訳のトレーニングベースとして充分な機能をもつものでもよく、既存の公知のまたは将来開発されるいかなる方法を用いて構成された音声言語コーパス格納部であってもよい。

（音声言語コーパスのアライメント装置）
次に、上述の音声言語コーパスのアライメント方法を用いた音声言語コーパスのアライメント装置について説明する。

図７は、本実施形態に係る音声言語コーパスのアライメント装置７０の構成例を示したものである。図７に示すように、音声言語コーパスのアライメント装置７０は、統計的方法及び辞書ベースの高精度単語アライメント集合を得るための単語アライメント部７２、
チャンクアライメント部７３、単語対応付け部７４、単語アライメント修正部７５、チャンクアライメント集合記憶部７６、単語アライメント集合記憶部７７を含む。

なお、図７の音声言語コーパスのアライメント装置７０は、音声言語コーパス格納部（図示せず）に格納されている音声言語パラレルコーパスＡを、音声言語の特徴に基づき前処理して、標準化音声言語パラレルコーパスＢを得る前処理部７１をさらに含む。

図７において、前処理部７１は、繰り返しフラグメント削除部７１１及び特別タグ付与部７１２を含む。繰り返しフラグメント削除部７１１は、音声言語パラレルコーパスＡに含まれる繰り返しフラグメントを削除する。特別タグ付与部７１２は、予め備えられた、ためらいやちゅうちょを表す語のリストを用いて、音声言語パラレルコーパスＡに含まれるためらいやちゅうちょを表す語をサーチし、音声言語パラレルコーパスＡに当該リストに列挙されているためらいやちゅうちょを表す語があれば、当該語に特別タグを付与する。

単語アライメント部７２は、前処理部７１で上記前処理を実行することにより得られた標準化音声言語パラレルコーパスＢから、高精度単語アライメント集合Ｇを求めるように構成されている。

図７において、単語アライメント部７２は、ターゲット／ソース統計的単語アライメト部７２１、ターゲット／ソース統計的単語アライメント部７２２、共通集合抽出部７２３、辞書ベース単語アライメント部７２４、及び和集合取得部７２５を含む。

ターゲット／ソース統計的単語アライメント部７２１は、標準化音声言語パラレルコーパスＢに含まれるソース言語文とこれに対応するターゲット言語文との間で、統計的方法を用い、ソース言語文中の単語に、これに意味的に類似又は一致するターゲット言語文中の単語を対応付けて、対応付けられたソース言語の単語とターゲット言語の単語との単語対の集合である、ソース言語からターゲット言語へのコーパスベースの統計的単語アライメント集合Ｃを求める。

ターゲット／ソース統計的単語アライメント部７２２は、標準化音声言語パラレルコーパスＢに含まれるターゲット言語文とこれに対応するソース言語文との間で、統計的方法を用いて、ターゲット言語文中の単語に、これに意味的に類似または一致するソース言語文中の単語を対応付けて、対応付けられたターゲット言語の単語とソース言語の単語との単語対の集合である、ターゲット言語からソース言語へのコーパスベースの統計的単語アライメント集合Ｄを求める。

共通集合抽出部７２３は、統計的単語アライメント集合Ｃと、統計的単語アライメント集合Ｄとから、これらの共通集合である、統計的単語アライメント集合Ｅを求める。

辞書ベース単語アライメント部７２４は、標準化音声言語パラレルコーパスＢに含まれる各単語について、ソース言語−ターゲット言語辞書と、ターゲット言語−ソース言語辞書とをサーチして、辞書ベースの単語アライメント集合Ｆを求める。この辞書ベースの単語アライメント集合Ｆに含まれる各アライメントアイテム（単語対）は、ソース言語−ターゲット言語辞書のエントリーと、ターゲット言語−ソース言語辞書のエントリーとの対である。

和集合取得部７２５は、コーパスベースの統計的単語アライメント集合Ｅと、辞書ベースの単語アライメント集合Ｆとの和集合、すなわち、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇを求める。

チャンクアライメント部７３は、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇを用いて、音声言語コーパス格納部に格納されている、前処理により得られた標準化音声言語パラレルコーパスＢ中のソース言語コーパス及びターゲットコーパス間で、チャンク単位の対応付けを行う。そして、この結果得られたチャンクアライメント集合Ｌをチャンクアライメント集合記憶部７６に記憶する。

図７に示すように、チャンクアライメント部７３は、チャンク分析部７３１、ソースチャンク先頭単語抽出部７３２、ターゲットチャンク先頭単語抽出部７３３、先頭単語アライメント部７３４、及びチャンクアライメント集合取得部７３５を含む。

チャンク分析部７３１は、前処理部７１で得られた標準化音声言語パラレルコーパスＢに対しチャンク分析を実行して、チャンクを識別し、標準化音声言語パラレルコーパス中の各文を１または複数の単語からなるチャンクに分割する。その結果、チャンク単位に分割された音声言語パラレルコーパスＨを得る。

ソースチャンク先頭単語抽出部７３２は、チャンク単位に分割された音声言語パラレルコーパスＨに含まれるソース言語コーパス（ソース言語文）から、該ソース言語文中の各チャンクの先頭単語を抽出し、ソース言語チャンクの先頭単語の集合Ｉを得る。

ターゲットチャンク先頭単語抽出部７３３は、チャンク単位に分割された音声言語パラレルコーパスＨに含まれるターゲット言語コーパス（ターゲット言語文）から、該ターゲット言語文中の各チャンクの先頭単語を抽出し、ターゲット言語チャンクの先頭単語の集合Ｊを得る。

先頭単語アライメント部７３４は、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇを用いて、ソース言語チャンクの先頭単語の集合Ｉとターゲット言語チャンクの先頭単語の集合Ｊとの間で、先頭単語単位の対応付けを行い、先頭単語アライメント集合Ｋを得る。先頭単語の集合Ｋにアライメントアイテムとして含まれている各単語対は、統計的方法及び辞書ベースの高精度単語アライメント集合Ｇのアライメントアイテム（単語対）である。

チャンクアライメント集合取得部７３５は、先頭単語アライメント集合Ｋに含まれる単語対を用いて、チャンク単位に分割された音声言語パラレルコーパスＨ中のソース言語コーパス（ソース言語文）とターゲット言語コーパス（ターゲット言語文）との間でチャンク単位の対応付けを行い、チャンクアライメント集合Ｌを得る。

単語対応付け部７４は、ソース／ターゲット統計的単語アライメント部７２１で得られたソース言語からターゲット言語への統計的単語アライメント集合Ｃと、ターゲット／ソース統計的単語アライメント部７２２で得られたターゲット言語からソース言語への統計的単語アライメント集合Ｄと、辞書ベース単語アライメント部７２４で得られた辞書ベースの単語アライメント集合Ｆとの和集合Ｓを求める。そして、この和集合Ｓを用いて、チャンクアライメント集合Ｌに含まれるチャンク対として対応つけされたチャンク間で、単語単位の対応付けを行い、チャンクアライメントベースの単語アライメント集合Ｍを得る。単語アライメント集合Ｍにアライメントアイテムとして含まれる各単語対は、和集合Ｓのアライメントアイテム（単語対）である。

図７の音声言語パラレルコーパスアライメント装置７０は、単語アライメント修正部７５をさらに含む。単語アライメント修正部７５は、チャンクアライメントベースの単語アライメントＭに含まれている、音声言語（話し言葉）によくある流ちょう性を損なわせる言い回しに起因する単語アライメントの誤りを修正し、最終単語アライメント集合Ｎを得、これを、単語アライメント集合記憶部７７に記憶する。

図７に示すように、単語アライメント修正部７５は、繰り返しフラグメント処理部７５１、特別タグ処理部７５２、及び略語処理部７５３を含む。

繰り返しフラグメント処理部７５１は、音声言語パラレルコーパスに２回上繰り返し出現する同じ語句や表現の単語対は、同じ単語対とするために、前処理部７１で削除された繰り返しフラグメントに対応する単語と同じ単語を含む単語対が音声言語コーパスＢに含まれていれば、当該単語対を、削除された繰り返しフラグメントに対応する単語対として、チャンクアライメントベースの単語アライメント集合Ｍに（アライメントアイテムとして）追加する。

特別タグ処理部７５２は、前処理部７１において、単語アライメント集合Ｍから、ためらいやちゅうちょを表す語を排除するために、ためらいやちゅうちょを表す語に付与した特別タグに従って、そのような特別タグの付与された単語を含む単語対（非ヌルの単語対）を、チャンクアライメントベースの単語アライメント集合Ｍから削除する。

略語処理部７５３は、チャンクアライメントベースの単語アライメント集合Ｍから、音声言語パラレルコーパスＢに含まれる略語（略語フラグメント）に対応する単語対を削除する。

以上説明した音声言語パラレルコーパスのアライメント装置によれば、チャンクの統合性を用いることにより、音声言語の（話し言葉の）単語アライメントの曖昧性を減少させることができる。また、音声言語コーパス中の略語、繰り返し、ためらいやちゅうちょを表す語のような流ちょう性を損なわせるような表現に関し特別な処理を施すことにより、音声言語の特徴に起因するアライメント誤りを取り除くことができる。従って、音声言語のアライメントが効率よく行え、高精度のチャンクアライメント集合及び単語アライメント集合を求めることができる。

さらに、上記実施形態に係る音声言語パラレルコーパスのアライメント装置により得られたチャンクアライメント集合及び単語アライメント集合は、音声から音声へ翻訳する音声機械翻訳システムだけでなく、テキスト機械翻訳、情報検索などのような多くの言語処理分野で適用可能である。

本実施形態に係る音声言語パラレルコーパスのアライメント装置７０、及びその各構成部は、そのために設計された回路やチップを実装することにより、または、コンピュータ（コンピュータに搭載されたプロセッサ）にプログラムを実行させることにより実現することができる。さらに、音声言語パラレルコーパスのアライメント装置７０は、図１乃至５に示した音声言語パラレルコーパスのアライメント処理を実行する。

（音声から音声への音声機械翻訳システム）
次に、図７に示した音声言語コーパスのアライメント装置を用いて、音声から音声への機械翻訳を行う音声機械翻訳システムについて、図８を参照して説明する。

図８は、本実施形態に係る音声機械翻訳システム８０の構成例を示したものである。図８の音声機械翻訳システム８０は、音声言語コーパス格納部８２、図７に示した音声言語パラレルコーパスのアライメント装置７０、音声から音声へ翻訳する音声翻訳モジュール８１を含む。

図８の音声機械翻訳システム８０は、図７に示した音声言語パラレルコーパスのアライメント装置７０を用いることにより、音声言語コーパス格納部８２に予め構築され記憶されている音声言語パラレルコーパスから、チャンクアライメント集合Ｌ及び単語アライメント集合Ｎを得ることができる。

従って、音声翻訳モジュール８１は、上記チャンクアライメント集合Ｌ及び単語アライメント集合Ｎを用いて、ユーザにより入力された翻訳対象の音声言語文を翻訳し、当該入力された音声言語文に対応するターゲット言語の音声を出力する。

図８の音声機械翻訳システムによれば、音声言語コーパス格納部８２に予め構築され記憶されている音声言語パラレルコーパスから、図７に示した音声言語パラレルコーパスのアライメント装置７０を用いることにより得られたチャンクアライメント集合Ｌ及び単語アライメント集合Ｎを適用することで、入力されたソース言語の音声を、高精度にターゲット言語の音声へ翻訳することができる。

本発明の実施の形態に記載した本発明の手法（図１〜図５に示した処理）は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することもできる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本実施形態に係る音声言語パラレルコーパスのアライメント方法を説明するためのフローチャート。前処理（図１のステップＳ１０５）の詳細を説明するためのフローチャート。高精度単語アライメント集合を求める処理（図１のステップＳ１１０）を説明するためのフローチャート。高精度単語アライメント集合を用いたチャンク単位の対応付け処理（図１のステップＳ１１５）を説明するためのフローチャート。対応付けされたチャンク間での単語単位の対応付け処理及び単語アライメント集合の修正処理（図１のステップＳ１２０）を説明するためのフローチャート。本実施形態に係る音声機械翻訳方法を説明するためのフローチャート。本実施形態に係る音声言語パラレルコーパスのアライメント装置の構成例を示す図。本実施形態に係る音声機械翻訳システムの構成例を示す図。

符号の説明

７０…音声言語パラレルコーパスアライメント装置
７１…前処理部
７２…単語アライメント部
７３…チャンクアライメント部
７４…単語対応付け部
７５…単語アライメント修正部
７６…チャンクアライメント集合記憶部
７７…単語アライメント集合記憶部
８０…音声機械翻訳システム
８１…音声翻訳モジュール
８２…音声言語コーパス格納部

Claims

ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスのアライメント方法であって、
前記音声言語パラレルコーパスから、統計的方法及び辞書ベースの単語アライメント集合を求めるステップと、
統計的方法及び辞書ベースの前記単語アライメント集合を用いて、前記ソース言語コーパスと前記ターゲット言語コーパス間で、１または複数の単語からなるチャンク単位の対応付けを行い、ソース言語のチャンクとターゲット言語のチャンクとのチャンク対の集合であるチャンクアライメント集合を求めるステップと、
前記チャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、ソース言語の単語とターゲット言語の単語との単語対の集合であるチャンクアライメントベースの単語アライメント集合を求めるステップと、
を含むアライメント方法。
統計的方法及び辞書ベースの前記単語アライメント集合を求めるステップの前に、
前記音声言語パラレルコーパスから繰り返しフラグメントを削除するステップと、
前記音声言語パラレルコーパス中のためらいやちゅうちょを表す語に特別タグを付与するステップと、
をさらに含む請求項１記載のアライメント方法。
統計的方法及び辞書ベースの前記単語アライメント集合を求めるステップは、
前記音声言語パラレルコーパスに基づき、ソース言語の単語にターゲット言語の単語を対応付けた単語対の集合である第１の統計的単語アライメント集合を求めるステップと、
前記音声言語パラレルコーパスに基づき、ターゲット言語の単語にソース言語の単語を対応付けた単語対の集合である第２の統計的単語アライメント集合を求めるステップと、
前記第１の統計的単語アライメント集合と前記第２の統計的単語アライメント集合との共通集合を求めるステップと、
前記音声言語パラレルコーパス中の各単語について、ソース言語−ターゲット言語辞書及びターゲット言語−ソース言語辞書をサーチし、ソース言語の単語とターゲット言語の単語とを対応付けた単語対の集合である辞書ベースの単語アライメント集合を求めるステップと、
前記統計的方法及び辞書ベースの前記単語アライメント集合として、前記共通集合と前記辞書ベースの単語アライメント集合との和集合を求めるステップと、
を含む請求項１記載のアライメント方法。
前記チャンクアライメント集合を求めるステップの前に、
前記ソース言語コーパス及び前記ターゲット言語コーパスを、１または複数の単語からなるチャンクに分割するステップをさらに含む請求項１記載のアライメント方法。
前記チャンクアライメント集合を求めるステップは、
チャンク単位に分割されたソース言語コーパスから、各チャンクの先頭単語の集合である第１の先頭単語集合を抽出するステップと、
チャンク単位に分割されたターゲット言語コーパスから、各チャンクの先頭単語の集合である第２の先頭単語集合を抽出するステップと、
前記統計的方法及び辞書ベースの前記単語アライメント集合を用いて、前記第１の先頭単語集合と前記第２の先頭単語集合との間で先頭単語単位の対応付けを行うステップと、
対応付けられた先頭単語の対を用いて、チャンク単位に分割されたソース言語コーパスとチャンク単位に分割されたターゲット言語コーパスとの間で、チャンク単位の対応付けを行うことにより、前記チャンクアライメント集合を得るステップと、
を含む請求項１記載のアライメント方法。
前記チャンクアライメントベースの単語アライメント集合を求めるステップは、
前記第１の統計的単語アライメント集合、前記第２の統計的単語アライメント集合、及び辞書ベースの単語アライメント集合との和集合を求めるステップと、
前記和集合を用いて、前記チャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、前記チャンクアライメントベースの単語アライメント集合を求めるステップと、
を含む請求項３記載のアライメント方法。
前記チャンクアライメントベースの単語アライメント集合を求めるステップは、
前記繰り返しフラグメントを削除するステップで削除された前記繰り返しフラグメントを、前記チャンクアライメントベースの単語アライメント集合に追加するステップと、
前記特別タグを付与するステップで前記特別タグの付与された単語を含む単語対を、前記チャンクアライメントベースの単語アライメント集合から削除するステップと、
前記チャンクアライメントベースの単語アライメント集合から、略語フラグメントに対応する単語対を削除するステップと、
を含む請求項２記載のアライメント方法。
ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスに基づきソース言語の音声からターゲット言語の音声へ翻訳する音声機械翻訳方法であって、
請求項１記載のアライメント方法を用いて、前記音声言語パラレルコーパスから前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを得るステップと、
前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを用いて、入力されたソース言語の音声をターゲット言語の音声に翻訳するステップと、
を含む音声機械翻訳方法。
ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスのアライメント装置であって、
前記音声言語パラレルコーパスから、統計的方法及び辞書ベースの単語アライメント集合を求める単語アライメント手段と、
統計的方法及び辞書ベースの前記単語アライメント集合を用いて、前記ソース言語コーパスと前記ターゲット言語コーパス間で、１または複数の単語からなるチャンク単位の対応付けを行い、対応付けられたソース言語のチャンクとターゲット言語のチャンクとのチャンク対の集合であるチャンクアライメント集合を求めるチャンクアライメント手段と、
前記チャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、ソース言語の単語とターゲット言語の単語との単語対の集合であるチャンクアライメントベースの単語アライメント集合を求める単語対応付け手段と、
を含むアライメント装置。
前記音声言語パラレルコーパスを音声言語の特徴に関して前処理する前処理手段をさらに含み、
前記前処理手段は、
前記音声言語パラレルコーパスから繰り返しフラグメントを削除する手段と、
前記音声言語パラレルコーパス中のためらいやちゅうちょを表す語に特別タグを付与する手段と、
を含む請求項９記載のアライメント装置。
前記単語アライメント手段は、
前記音声言語パラレルコーパスに基づき、ソース言語の単語にターゲット言語の単語を対応付けた単語対の集合である第１の統計的単語アライメント集合を求める手段と、
前記音声言語パラレルコーパスに基づき、ターゲット言語の単語にソース言語の単語を対応付けた単語対の集合である第２の統計的単語アライメント集合を求める手段と、
前記第１の統計的単語アライメント集合と前記第２の統計的単語アライメント集合との共通集合を求める手段と、
前記音声言語パラレルコーパス中の各単語について、ソース言語−ターゲット言語辞書及びターゲット言語−ソース言語辞書をサーチし、ソース言語の単語とターゲット言語の単語とを対応付けた単語対の集合である辞書ベースの単語アライメント集合を求める手段と、
前記統計的方法及び辞書ベースの前記単語アライメント集合として、前記共通集合と前記辞書ベースの単語アライメント集合との和集合を求める手段と、
を含む請求項９記載のアライメント装置。
前記チャンクアライメント手段は、
前記ソース言語コーパス及び前記ターゲット言語コーパスを、１または複数の単語からなるチャンクに分割する手段をさらに含む請求項９記載のアライメント装置。
前記チャンクアライメント手段は、
チャンク単位に分割されたソース言語コーパスから、各チャンクの先頭単語の集合である第１の先頭単語集合を抽出する手段と、
チャンク単位に分割されたターゲット言語コーパスから、各チャンクの先頭単語の集合である第２の先頭単語集合を抽出する手段と、
前記統計的方法及び辞書ベースの前記単語アライメント集合を用いて、前記第１の先頭単語集合と前記第２の先頭単語集合との間で先頭単語単位の対応付けを行う手段と、
対応付けられた先頭単語の対を用いて、チャンク単位に分割されたソース言語コーパスとチャンク単位に分割されたターゲット言語コーパスとの間で、チャンク単位の対応付けを行うことにより、前記チャンクアライメント集合を得る手段と、
を含む請求項９記載のアライメント装置。
前記対応付け手段は、
前記第１の統計的単語アライメント集合、前記第２の統計的単語アライメント集合、及び辞書ベースの単語アライメント集合との和集合を求める手段と、
前記和集合を用いて、前記チャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、前記チャンクアライメントベースの単語アライメント集合を求める手段と、
を含む請求項１１記載のアライメント装置。
前記対応付け手段で求めた前記チャンクアライメントベースの単語アライメント集合を修正する修正手段をさらに含み、
前記修正手段は、
前記前処理手段で削除された前記繰り返しフラグメントを、前記チャンクアライメントベースの単語アライメント集合に追加する手段と、
前記前処理手段で前記特別タグの付与された単語を含む単語対を、前記チャンクアライメントベースの単語アライメント集合から削除する手段と、
前記チャンクアライメントベースの単語アライメント集合から、略語フラグメントに対応する単語対を削除する手段と、
を含む請求項１０記載のアライメント装置。
ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスに基づきソース言語の音声をターゲット言語の音声へ翻訳する音声機械翻訳システムであって、
前記音声言語パラレルコーパスから、前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを得る請求項９記載のアライメント装置と、
前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを用いて、入力されたソース言語の音声をターゲット言語の音声に翻訳する翻訳モジュールと、
を含む音声機械翻訳システム。