JP2009151777A - 音声言語パラレルコーパスのアライメント方法及び装置 - Google Patents

音声言語パラレルコーパスのアライメント方法及び装置 Download PDF

Info

Publication number
JP2009151777A
JP2009151777A JP2008316021A JP2008316021A JP2009151777A JP 2009151777 A JP2009151777 A JP 2009151777A JP 2008316021 A JP2008316021 A JP 2008316021A JP 2008316021 A JP2008316021 A JP 2008316021A JP 2009151777 A JP2009151777 A JP 2009151777A
Authority
JP
Japan
Prior art keywords
word
alignment
language
chunk
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2008316021A
Other languages
English (en)
Inventor
Dengjun Ren
レン・デンジュン
Hua Wu
ウー・ファ
Haifen Wan
ワン・ハイフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2009151777A publication Critical patent/JP2009151777A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

【課題】音声言語パラレルコーパスにおいて高精度に単語間の対応付けが行えるアライメント方法及び装置を提供する。
【解決手段】ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスから統計的方法及び辞書を用いて得られた統計的方法及び辞書ベースの単語アライメント集合を用いて、前記音声言語パラレルコーパスから、ソース言語のチャンクとターゲット言語のチャンクとのチャンク対の集合であるチャンクアライメント集合を求め、このチャンクアライメント集合に含まれるチャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、ソース言語の単語とターゲット言語の単語との単語対の集合であるチャンクアライメントベースの単語アライメント集合を求める。
【選択図】 図1

Description

本発明は、情報処理技術に関し、特に、音声言語パラレルコーパスのチャンクアライメント及び単語アライメントに関する。
機械翻訳技術は、主に、規則ベース機械翻訳とコーパスベースの機械翻訳と分類できる。
コーパスベースの機械翻訳では、主な翻訳リソースはコーパスリポジトリーから得る。すなわち、コーパスベースの機械翻訳では、コーパスリポジトリー内の2言語パラレルコーパスを学習させる。コーパスベースの機械翻訳プロセスを以下の通りである。まず、単語アライメントのような単語処理や構文解析をコーパスリポジトリー内の2言語パラレルコーパスに対し実行し、2言語間の対応する文の対を複数個得る。翻訳エンジンは、この文の対をフレームワーク構造とする。ユーザが翻訳すべき文を入力すると、翻訳エンジンは、この入力文と複数のフレームワーク構造との間でマッチングを行い、該入力文にマッチするフレームワーク構造が得られた場合には、当該フレームワーク構造に従って該入力文の翻訳を行い、ターゲット言語の訳文を得る。
コーパスリポジトリー内の2言語パラレルコーパスのアライメントは、前提条件であり、コーパスベースの機械翻訳により得られる翻訳の質は、コーパスのアライメントの質に大きく依存する。従って、2言語パラレルコーパスのアライメントはコーパスベースの機械翻訳において重要や役割を果たす。
コーパスのアライメントには、パラグラフレベルのアライメント、文レベルのアライメント、チャンクレベルのアライメント、単語レベルのアライメントなどがある。
単語アライメントは、単語レベルで、ソース言語のコーパスとターゲット言語のコーパスとの間の対応を求めることである。すなわち、ソース言語のコーパス内の各単語に対し、これにと意味的に類似又は一致する単語を、ターゲット言語のコーパス内から見つけて、ソース言語の文とターゲット言語の文との間で、翻訳単位、すなわち単語単位に対応付ける。
現在、単語アライメントには多くの方法があるが、そのほとんどの方法は、音声言語の特徴を考慮したものではないので、比較的適格な文の形式をもつ書き言葉には適しているが、音声から音声への音声言語の機械翻訳には適していない。実際、話し言葉(音声言語)と書き言葉とには多くの違いがある。
音声言語の場合、文の構造は非常に柔軟である。言葉の流れも書き言葉のように流ちょうではなく、書き言葉にはない、繰り返し、ためらいやちゅうちょ、省略などの訥弁がしばしば起こる。
従って、音声言語と話し言葉との違いから、音声から音声への機械翻訳において、書き言葉に対しては非常に優れているアライメント方法を音声言語に適用しても、満足する結果が得られないことが多い。
このように、従来は、音声言語の特徴に適応した、効率の良い高精度な音声言語のアライメント方法が存在しないという問題点があった。その結果、音声機械翻訳などにおける翻訳精度を向上させることが困難であった。
そこで、本発明は、上記問題点に鑑みなされたもので、音声言語の特徴に適した、高精度の単語アライメントが可能となり、音声言語パラレルコーパスにおいて高精度に単語間の対応付けが行えるアライメント方法及び装置と、翻訳精度の向上が図れる、当該アライメント方法を用いた音声から音声への機械翻訳方法及びシステムを提供することを目的とする。
本発明の一実施形態に係る音声言語パラレルコーパスのアライメント方法及び装置は、ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスから統計的方法及び辞書を用いて得られた統計的方法及び辞書ベースの単語アライメント集合を用いて、前記音声言語パラレルコーパスから(ソース言語のチャンクとターゲット言語のチャンクとのチャンク対の集合である)チャンクアライメント集合を求め、このチャンクアライメント集合に含まれるチャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、(ソース言語の単語とターゲット言語の単語との単語対の集合である)チャンクアライメントベースの単語アライメント集合を求める。
すなわち、チャンクに含まれる複数の単語に基づいて(その統合性を用いて)、単語アライメントを行う。この結果、音声言語の特徴に適した高精度の単語アライメント及びチャンクアライメントが可能となり、音声言語パラレルコーパスにおいて高精度に単語間の対応付けが行える。
本発明の一実施形態に係る音声機械翻訳方法及びシステムは、上記アライメント方法を用いて、前記音声言語パラレルコーパスから前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを得、前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを用いて、入力されたソース言語の音声をターゲット言語の音声に翻訳する。
音声から音声への機械翻訳を行う際に、上記アライメント方法を用いて得られた上記チャンクアライメント集合及び上記チャンクアライメントベースの単語アライメント集合を用いることにより、音声言語における単語アライメントにける不明瞭さや曖昧性を低減することができる。
音声言語の特徴に適した高精度の単語アライメント及びチャンクアライメントが可能となり、音声言語パラレルコーパスにおいて高精度に単語間の対応付けが行える。
以下、本発明の実施形態について、図面を参照して説明する。
(音声言語パラレルコーパスのアライメント方法)
図1は、本実施形態に係る音声言語コーパス格納部に記憶されている音声言語パラレルコーパスのアライメント方法を説明するためのフローチャートである。
図1において、ステップS105では、音声言語パラレルコーパスを、音声言語の特徴に基づき前処理し、標準化音声言語パラレルコーパスを得る。
図2は、ステップS105の前処理をより詳細に説明するためのフローチャートである。ここで、Aは、音声言語コーパス格納部に記憶されている元の音声言語パラレルコーパスを示す。
図2において、まず、ステップS205では、音声言語コーパス格納部に記憶されている元の音声言語パラレルコーパスAから、繰り返しフラグメント(複数回繰り繰り返された同じ語句、表現)を削除する。上述したように、音声言語(話し言葉)では繰り返しはよく起こる現象であり、音声言語(話し言葉)の1つの特徴でもある。音声言語コーパス中に繰り返しフラグメントがあると、文が流ちょうでなくなる。そして、そのような文に基づき得られたアライメント結果の質や、さらには、翻訳結果の正確さにも影響を及ぼす。従って、本実施形態では、チャンクアライメントや単語アライメントを行う前に、まず、音声言語コーパスから繰り返しフラグメントを取り除く前処理を行い、音声言語パラレルコーパスのチャンクアライメント及び単語アライメントの精度を上げる。
次に、ステップS210では、音声言語コーパス格納部に記憶されている音声言語パラレルコーパスAに含まれる、ためらいやちゅうちょを表す語に特別タグを割り当てる。このステップは、ためらいやちゅうちょを表す語のリストを予め用意し、このリストに基づき行う。
上述したように、ためらいやちゅうちょも音声言語(話し言葉)にはよく起こる現象であるが、これがあると、やはり文が流ちょうでなくなる。音声言語の特徴によれば、ためらいやちゅうちょを表す語は、普通、現実的な意味はほとんど持たないか、または、そのような語を含む音声言語の文全体により表される意味において、ほとんど重要ではない。
従って、このステップでは、ためらいやちゅうちょを表す語がリストアップされている予め用意されたリストに基づき、音声言語コーパス格納部に記憶されている音声言語パラレルコーパスAのなかから上記リストに列挙されているたらいやちゅうちょを表す語を探索する。そして、この音声言語パラレルコーパスAから探索された、ためらいやちゅうちょを表す語に対し、その後の単語アライメントにおいて特別な取り扱いをすることができるように、特別タグを付与する。
図2に示したように、音声言語パラレルコーパスAに対し、ステップS205及びステップS210に示す前処理を実行することにより、標準化音声言語パラレルコーパスBが得られる。
上述の図1のステップS105の前処理では、図2に示すように、互いに依存しない2つの処理ステップ(ステップS205とステップS210)が並行に実行されているが、この場合に限らず、この2つの処理ステップは、順番に実行してもよい。例えば、ステップS205を先に実行し次にステップS210を実行する、または、ステップS210を先に実行し次にステップS205を実行する。
図1の説明に戻り、ステップS110では、ステップS105の前処理の結果得られた標準化音声言語パラレルコーパスBを基に、統計的方法及び辞書ベースの高精度単語アライメント集合(統計的方法及び辞書ベースの単語アライメント集合)を得る。
図3は、ステップS110の処理をより詳細に説明するためのフローチャートである。図3において、まず、ステップS305では、標準化音声言語パラレルコーパスBに基づき、ソース言語からターゲット言語への統計的単語アライメント集合Cを得る。すなわち、ステップS305では、標準化音声言語パラレルコーパスBに含まれるソース言語文とこれに対応するターゲット言語文との間で、統計的方法を用いて、ソース言語文中の単語に、これに意味的に類似又は一致するターゲット言語中の単語を対応付け、対応付けられたソース言語中の単語とターゲット言語中の単語との単語対の集合である、ソース言語からターゲット言語へのコーパスベースの統計的単語アライメント集合Cを得る。なお、統計的方法を用いてパラレルコーパスから単語アライメント集合を求めることは公知の一般的な技術手法を用いればよく、本実施形態では何ら限定するものではない。
ステップS310では、標準化音声言語パラレルコーパスBに基づき、ターゲット言語からソース言語への単語アライメント集合Dを求める。すなわち、ステップS310では、標準化音声言語パラレルコーパスBに含まれるターゲット言語文とこれに対応するソース言語文との間で、統計的方法を用いて、ターゲット言語文中の単語に、これに意味的に類似又は一致するソース言語中の単語を対応付け、対応付けられたターゲット言語中の単語とソース言語中の単語とからなる単語対の集合である、ターゲット言語からソース言語へのコーパスベースの統計的単語アライメント集合Dを得る。なお、統計的方法を用いてパラレルコーパスから単語アライメント集合を求めることは公知の一般的な技術手法を用いればよく、本実施形態では何ら限定するものではない。
ステップS315では、ソース言語からターゲット言語への統計的単語アライメント集合Cと、ターゲット言語からソース言語への統計的単語アライメント集合Dとの共通集合Eを求める。この処理ステップの目的は、ソース言語からターゲット言語への統計的単語アライメント集合Cと、ターゲット言語からソース言語への統計的単語アライメント集合Dとの範囲を簡略化することにあり、この処理ステップにより、音声言語パラレルコーパスのみに基づく精錬された統計的単語アライメント集合Eを得る。
ステップS320では、標準化音声言語パラレルコーパスBに含まれる各単語について、ソース言語−ターゲット言語辞書と、ターゲット言語−ソース言語辞書とをサーチして、辞書ベースの単語アライメント集合Fを求める。この辞書ベースの単語アライメント集合Fに含まれる各アライメントアイテム(単語対)は、ソース言語−ターゲット言語辞書のエントリーと、ターゲット言語−ソース言語辞書のエントリーとの対である。
具体的には、このステップでは、まず、標準化音声言語パラレルコーパスBのなかのソース言語文について、ソース言語−ターゲット言語辞書から、該ソース言語文中の各単語をサーチして、当該ソース言語文中の単語に対応する(意味的に類似又は一致する)ターゲット言語の単語を得る。そして、該ソース言語文中の単語と、これに対応するソース言語−ターゲット言語辞書から求めたターゲット言語の単語とからなる単語対の集合である、ソース言語からターゲット言語への辞書ベースの単語アライメント集合を得る。次に、標準化音声言語パラレルコーパスBのなかのターゲット言語文について、ターゲット言語−ソース言語辞書から、該ターゲット言語文中の各単語をサーチして、当該ターゲット言語文中の単語に対応する(意味的に類似又は一致する)ソース言語の単語を得る。そして、該ターゲット言語文中の単語と、これに対応するターゲット言語−ソース言語辞書から求めたソース言語の単語とからなる単語対の集合である、ターゲット言語からソース言語への辞書ベースの単語アライメント集合を得る。最後に、ソース言語からターゲット言語への辞書ベースの単語アライメント集合と、ターゲット言語からソース言語への辞書ベースの単語アライメント集合との共通集合を求めて、最終的な辞書ベースの単語アライメント集合Fを得る。
ステップS325では、ステップS315で得られたコーパスベースの統計的単語アライメント集合Eと、ステップS320で得られた辞書ベースの単語アライメント集合Fとの和集合を求める。この和集合を高精度単語アライメント集合Gとする。すなわち、この処理ステップでは、音声言語コーパスのみに基づき得られた単語アライメント集合Eが、ソース言語−ターゲット言語辞書と、ターゲット言語−ソース言語辞書とに基づき得られた単語アライメント集合Fを用いることにより拡張され、より完璧で、しかもより広く適用できる単語アライメント集合が、統計的方法及び辞書ベースの高精度単語アライメント集合Gとして得られる。
図3に示したように、ステップS305〜ステップS325の処理を標準化音声言語パラレルコーパスBに対し実行することにより、統計的方法及び辞書ベースの高精度単語アライメント集合Gが得られる。
以上が、図1のステップS110において、前処理語の音声言語パラレルコーパスに基づき高精度単語アライメント集合を求めるプロセスの詳細である。なお、図3に示した処理手順は一例であって、上述したような統計的方法及び辞書ベースの高精度単語アライメント集合Gが得られるのであれば、どのような手法を用いてもよい。
図1の説明に戻り、ステップS115では、ステップS110で得られた、統計的方法及び辞書ベースの高精度単語アライメント集合Gを用いて、前処理後の音声言語パラレルコーパスB中のソース言語コーパス及びターゲットコーパス間で、チャンク単位の対応付けを行う。
図4は、ステップS115の処理をより詳細に説明するためのフローチャートである。図4において、まず、ステップS405において、前処理により得られた標準化音声言語パラレルコーパスBに対しチャンク分析を実行して、標準化音声言語パラレルコーパスB内のチャンクを識別し、標準化音声言語パラレルコーパス中の各文を、1または複数の単語からなるチャンクに分割する。その結果、チャンク単位に分割された音声言語パラレルコーパスHを得る。図4に示すプロセスは、音声言語パラレルコーパスB中のソース言語コーパス及びターゲット言語コーパス間でチャンク単位の対応付けを行うためのもので、どれがチャンクであるかを識別することは、チャンクアライメントの基本となる。従って、音声言語パラレルコーパスBに対しチャンクアライメントを行うために、チャンクアライメントを行う前に、どれがチャンクであるかを識別するチャンク分析を音声言語パラレルコーパスBに対し実施する処理ステップは必要となる。
次に、ステップS410へ進み、チャンク単位に分割された音声言語パラレルコーパスHに含まれるソース言語コーパス(ソース言語文)から、該ソース言語文中の各チャンクの先頭単語を抽出し、ソース言語チャンクの先頭単語の集合Iを得る。
また、ステップS415では、チャンク単位に分割された音声言語パラレルコーパスHに含まれるターゲット言語コーパス(ターゲット言語文)から、該ターゲット言語文中の各チャンクの先頭単語を抽出し、ターゲット言語チャンクの先頭単語の集合Jを得る。
さらにステップS420へ進み、図3に示したプロセスにより得られた統計的方法及び辞書ベースの高精度単語アライメント集合Gを用いて、ソース言語チャンクの先頭単語の集合Iとターゲット言語チャンクの先頭単語の集合Jとの間で、先頭単語単位の対応付けを行い、ソース言語の先頭単語とターゲット言語の先頭単語との単語対の集合である先頭単語アライメント集合Kを得る。すなわち、このステップでは、先頭単語の集合Iに含まれる先頭単語と、先頭単語の集合Jに含まれる先頭単語とからなる単語対が、統計的方法及び辞書ベースの高精度単語アライメント集合Gに存在する場合には、当該単語対は、先頭単語アライメント集合Kのアライメントアイテムとして、先頭単語アライメント集合Kに追加される。従って、先頭単語アライメント集合Kにアライメントアイテムとして含まれている各単語対は、統計的方法及び辞書ベースの高精度単語アライメント集合Gのアライメントアイテムである。よって、先頭単語アライメント集合Kは、統計的方法及び辞書ベースの高精度単語アライメント集合Gの部分集合である。
次に、ステップS425へ進み、先頭単語アライメント集合Kを用いて、チャンク単位に分割された音声言語パラレルコーパスH中のソース言語コーパス(ソース言語文)とターゲット言語コーパス(ターゲット言語文)との間でチャンク単位の対応付けを行う。すなわち、音声言語パラレルコーパス中のソース言語コーパスとターゲット言語コーパスとの間で、ソース言語コーパス(ソース言語文)中の各チャンクと、これと同じ意味をもつソース言語コーパス(ターゲット言語文)中のチャンクとを対応付ける。
より具体的には、チャンクの先頭単語単位で対応付けされているので、これにより対応するチャンク自体も対応付けされている。従って、この処理ステップでは、先頭単語アライメント集合Kに含まれる各先頭単語対について、当該対に含まれるソース言語の先頭単語を含むソース言語のチャンクと、当該対に含まれるターゲット言語の先頭単語のチャンクとを対応付けて、チャンク対を得る。このチャンク対は、チャンクアライメント集合Lに追加される。
このように、図4に示したステップS405〜ステップS425の処理を、音声言語パラレルコーパスBに対し実行することにより、チャンクアライメント集合Lが得られる。
以上が、図1のステップS115において、統計的方法及び辞書ベースの高精度単語アライメント集合Gを用いて前処理後の音声言語パラレルコーパス中のソース言語コーパスとターゲット言語コーパス間でチャンク単位の対応付けを行うプロセスの詳細である。なお、ステップS405の代わりに、チャンク単位に分割された音声言語パラレルコーパスHが、音声言語パラレルコーパスのアライメント方法によるチャンク分析の結果得られてもよい。
図1の説明に戻る。ステップS115からステップS120に進み、音声言語パラレルコーパスを用いて対応付けられたチャンク間で単語単位に対応付けを行い、チャンクアライメントベースの単語アライメント集合を得る。そして、この得られたチャンクアライメントベースの単語アライメント集合を修正して、最終単語アライメント集合を得る。
図5は、ステップS120の処理をより詳細に説明するためのフローチャートである。図5において、まず、ステップS505において、図3に示したプロセスにより得られたソース言語からターゲット言語への統計的単語アライメント集合Cと、ターゲット言語からソース言語への統計的単語アライメント集合Dと、辞書ベースの単語アライメント集合Fとの和集合Sを求める。この和集合Sは、より広い範囲を網羅する単語アライメント集合である。
次に、ステップS510へ進み、和集合Sを用いて、図4に示したプロセスにより得られたチャンクアライメント集合Lに含まれるチャンク対として対応付けられたチャンク間で、単語単位の対応付けを行い、意味的に類似又は一致するソース言語の単語とターゲット言語の単語との対語対の集合であるチャンクアライメントベースの単語アライメント集合Mを得る。単語アライメント集合Mにアライメントアイテムとして含まれる各単語対は、和集合Sのアライメントアイテムである。
次に、ステップS515では、図2のステップS205で削除された繰り返しフラグメントを、単語アライメント集合Mに追加する。より詳細に説明すると、このステップでは、図2のステップS205で削除された各繰り返しフラグメントに対応する単語と同じ単語を含む単語対が、音声言語コーパスBに含まれていれば、当該単語対を、削除された繰り返しフラグメントに対応する単語対として、単語アライメント集合Mに(アライメントアイテムとして)追加する。すなわち、このステップでは、音声言語パラレルコーパスに2回以上繰り返し出現するフラグメントに対応する、単語アライメント集合M中の単語対は同じものとする。すなわち、単語アライメント集合Mに含まれる、同じ語の単語対はどれも同じ単語対である。
ステップS520では、図2のステップS210の前処理において、ためらいやちゅうちょを表す語に付与した特別タグに従って、そのような特別タグの付与された単語を含む単語対(非ヌルの単語対)を単語アライメント集合Mから削除する。すなわち、この処理ステップでは、単語アライメント集合Mから、ためらいやちゅうちょを表す語に対応する単語を含む単語対を削除して、ためらいやちゅうちょを表す語(特別タグの付与された単語)は「ヌル」と対応付ける。
ステップS525では、単語アライメント集合Mから、音声言語コーパス中の略語フラグメント(略語)に対応する単語対を削除する。
以上の処理により得られた最終単語アライメント集合N及びチャンクアライメント集合Lは、音声言語コーパス格納部に、元の音声言語パラレルコーパスとともに、または別個の格納部に記憶される。
図5に示すように、ステップS505〜ステップS525の処理をチャンクアライメント集合Lに対し実行することにより、最終単語アライメント集合Nが得られる。最終単語アライメント集合Nはチャンクアライメント集合Lと組み合わせて、音声から音声への機械翻訳や、そのトレーニングのために適用可能である。
以上は、図1のステップS120において、音声言語パラレルコーパス内で対応付けされたチャンク間で単語の対応付けを行い、さらに、得られた単語アライメント集合を修正するプロセスの詳細である。なお、別の実施形態として、音声言語パラレルコーパス内で対応付けされたチャンク間で単語の対応付けを行う処理と、得られた単語アライメント集合を修正する処理とのうち、前者の対応付けを行う処理を行い、後者の修正する処理を省いても良いし、また、後者の修正する処理は、必要に応じて選択された場合に実行するようにしてもよい。
以上説明した音声言語パラレルコーパスのアライメント方法では、まず、音声言語コーパス格納部に格納されている音声言語パラレルコーパスに対し音声言語の特徴に基づいて前処理を行い、この前処理後の音声言語パラレルコーパス(標準化音声言語パラレルコーパスB)から、高精度単語アライメント集合Gを得る。そして、この高精度単語アライメント集合Gを用いて、前処理後の音声言語パラレルコーパス(標準化音声言語パラレルコーパスB)中のチャンクが対応付けられ、さらに対応付けされたチャンク間で単語の対応付けを行い、音声言語(話し言葉)によくある流ちょう性を損なわせる言い回しに起因する単語アライメントの誤りを修正する。
このように、上記実施形態では、チャンクのもつ単語の統合性を用いて単語アライメント集合Mを求めることにより、音声言語単語アライメントにおける曖昧性を低減することができる。また、音声言語コーパス中の略語、繰り返し、ためらいやちゅうちょなどの文のりゅうちょう性を損なわせる様な表現に関し特別な処理を施すことにより、音声言語の特徴に起因するアライメント誤りを取り除くことができる。従って、音声言語における高精度のチャンクアライメント集合及び単語アライメント集合を効率よく求めることができる。
さらに、上記実施形態に係る音声言語パラレルコーパスのアライメント方法を用いて得られるチャンクアライメント集合及び単語アライメント集合は、音声から音声へ翻訳する音声機械翻訳だけでなく、テキスト機械翻訳、情報検索などの様々な分野の言語処理にも広く適用可能である。
なお、図1のステップS105における前処理と、ステップS120における単語アライメントを修正する処理は、必ずしも含まれている必要はなく、省略されていても上述同様の効果が得られることは言うまでもない。
(音声から音声への機械翻訳方法)
次に、図1〜図5に示した音声言語パラレルコーパスのアライメント方法を用いた、音声から音声への機械翻訳方法について説明する。
図6は、本実施形態に係る音声から音声へ翻訳する音声機械翻訳方法を説明するためのフローチャートである。図6に示すように、まず、ステップS605では、図1〜図5に示した音声言語パラレルコーパスのアライメント方法を用いて、予め構成されている音声言語コーパス格納部に記憶されている音声言語パラレルコーパスから、チャンクアライメント集合L及び単語アライメント集合Nを求める。
ステップS610へ進み、ユーザにより、翻訳すべきソース言語の音声(話し言葉の文)が入力されたか否かを決定する。ユーザにより、翻訳すべきソース言語の音声(話し言葉の文)の文が入力されると、ステップS615へ進み、そうでない場合には、入力されるまで待つ。
ステップS615では、ステップS605で得られたチャンクアライメント集合L及び単語アライメント集合Nを用いて、入力されたソース言語の音声の文に対し、音声機械翻訳を実行し、当該入力された音声言語の文に対応するターゲット言語の音声を得る。
このように、前述した音声言語パラレルコーパスのアライメント方法を用いて求めたチャンクアライメント集合L及び単語アライメント集合Nを、音声機械翻訳に適用することにより、高精度の音声翻訳結果を得ることができる。
さらに、本実施形態において用いる音声言語コーパス格納部には何ら限定するものではない。音声言語コーパス格納部に格納される音声言語コーパスが、充分に汎用的で適用範囲が広く、しかも音声から音声へ翻訳する音声機械翻訳のトレーニングベースとして充分な機能をもつものでもよく、既存の公知のまたは将来開発されるいかなる方法を用いて構成された音声言語コーパス格納部であってもよい。
(音声言語コーパスのアライメント装置)
次に、上述の音声言語コーパスのアライメント方法を用いた音声言語コーパスのアライメント装置について説明する。
図7は、本実施形態に係る音声言語コーパスのアライメント装置70の構成例を示したものである。図7に示すように、音声言語コーパスのアライメント装置70は、統計的方法及び辞書ベースの高精度単語アライメント集合を得るための単語アライメント部72、
チャンクアライメント部73、単語対応付け部74、単語アライメント修正部75、チャンクアライメント集合記憶部76、単語アライメント集合記憶部77を含む。
なお、図7の音声言語コーパスのアライメント装置70は、音声言語コーパス格納部(図示せず)に格納されている音声言語パラレルコーパスAを、音声言語の特徴に基づき前処理して、標準化音声言語パラレルコーパスBを得る前処理部71をさらに含む。
図7において、前処理部71は、繰り返しフラグメント削除部711及び特別タグ付与部712を含む。繰り返しフラグメント削除部711は、音声言語パラレルコーパスAに含まれる繰り返しフラグメントを削除する。特別タグ付与部712は、予め備えられた、ためらいやちゅうちょを表す語のリストを用いて、音声言語パラレルコーパスAに含まれるためらいやちゅうちょを表す語をサーチし、音声言語パラレルコーパスAに当該リストに列挙されているためらいやちゅうちょを表す語があれば、当該語に特別タグを付与する。
単語アライメント部72は、前処理部71で上記前処理を実行することにより得られた標準化音声言語パラレルコーパスBから、高精度単語アライメント集合Gを求めるように構成されている。
図7において、単語アライメント部72は、ターゲット/ソース統計的単語アライメト部721、ターゲット/ソース統計的単語アライメント部722、共通集合抽出部723、辞書ベース単語アライメント部724、及び和集合取得部725を含む。
ターゲット/ソース統計的単語アライメント部721は、標準化音声言語パラレルコーパスBに含まれるソース言語文とこれに対応するターゲット言語文との間で、統計的方法を用い、ソース言語文中の単語に、これに意味的に類似又は一致するターゲット言語文中の単語を対応付けて、対応付けられたソース言語の単語とターゲット言語の単語との単語対の集合である、ソース言語からターゲット言語へのコーパスベースの統計的単語アライメント集合Cを求める。
ターゲット/ソース統計的単語アライメント部722は、標準化音声言語パラレルコーパスBに含まれるターゲット言語文とこれに対応するソース言語文との間で、統計的方法を用いて、ターゲット言語文中の単語に、これに意味的に類似または一致するソース言語文中の単語を対応付けて、対応付けられたターゲット言語の単語とソース言語の単語との単語対の集合である、ターゲット言語からソース言語へのコーパスベースの統計的単語アライメント集合Dを求める。
共通集合抽出部723は、統計的単語アライメント集合Cと、統計的単語アライメント集合Dとから、これらの共通集合である、統計的単語アライメント集合Eを求める。
辞書ベース単語アライメント部724は、標準化音声言語パラレルコーパスBに含まれる各単語について、ソース言語−ターゲット言語辞書と、ターゲット言語−ソース言語辞書とをサーチして、辞書ベースの単語アライメント集合Fを求める。この辞書ベースの単語アライメント集合Fに含まれる各アライメントアイテム(単語対)は、ソース言語−ターゲット言語辞書のエントリーと、ターゲット言語−ソース言語辞書のエントリーとの対である。
和集合取得部725は、コーパスベースの統計的単語アライメント集合Eと、辞書ベースの単語アライメント集合Fとの和集合、すなわち、統計的方法及び辞書ベースの高精度単語アライメント集合Gを求める。
チャンクアライメント部73は、統計的方法及び辞書ベースの高精度単語アライメント集合Gを用いて、音声言語コーパス格納部に格納されている、前処理により得られた標準化音声言語パラレルコーパスB中のソース言語コーパス及びターゲットコーパス間で、チャンク単位の対応付けを行う。そして、この結果得られたチャンクアライメント集合Lをチャンクアライメント集合記憶部76に記憶する。
図7に示すように、チャンクアライメント部73は、チャンク分析部731、ソースチャンク先頭単語抽出部732、ターゲットチャンク先頭単語抽出部733、先頭単語アライメント部734、及びチャンクアライメント集合取得部735を含む。
チャンク分析部731は、前処理部71で得られた標準化音声言語パラレルコーパスBに対しチャンク分析を実行して、チャンクを識別し、標準化音声言語パラレルコーパス中の各文を1または複数の単語からなるチャンクに分割する。その結果、チャンク単位に分割された音声言語パラレルコーパスHを得る。
ソースチャンク先頭単語抽出部732は、チャンク単位に分割された音声言語パラレルコーパスHに含まれるソース言語コーパス(ソース言語文)から、該ソース言語文中の各チャンクの先頭単語を抽出し、ソース言語チャンクの先頭単語の集合Iを得る。
ターゲットチャンク先頭単語抽出部733は、チャンク単位に分割された音声言語パラレルコーパスHに含まれるターゲット言語コーパス(ターゲット言語文)から、該ターゲット言語文中の各チャンクの先頭単語を抽出し、ターゲット言語チャンクの先頭単語の集合Jを得る。
先頭単語アライメント部734は、統計的方法及び辞書ベースの高精度単語アライメント集合Gを用いて、ソース言語チャンクの先頭単語の集合Iとターゲット言語チャンクの先頭単語の集合Jとの間で、先頭単語単位の対応付けを行い、先頭単語アライメント集合Kを得る。先頭単語の集合Kにアライメントアイテムとして含まれている各単語対は、統計的方法及び辞書ベースの高精度単語アライメント集合Gのアライメントアイテム(単語対)である。
チャンクアライメント集合取得部735は、先頭単語アライメント集合Kに含まれる単語対を用いて、チャンク単位に分割された音声言語パラレルコーパスH中のソース言語コーパス(ソース言語文)とターゲット言語コーパス(ターゲット言語文)との間でチャンク単位の対応付けを行い、チャンクアライメント集合Lを得る。
単語対応付け部74は、ソース/ターゲット統計的単語アライメント部721で得られたソース言語からターゲット言語への統計的単語アライメント集合Cと、ターゲット/ソース統計的単語アライメント部722で得られたターゲット言語からソース言語への統計的単語アライメント集合Dと、辞書ベース単語アライメント部724で得られた辞書ベースの単語アライメント集合Fとの和集合Sを求める。そして、この和集合Sを用いて、チャンクアライメント集合Lに含まれるチャンク対として対応つけされたチャンク間で、単語単位の対応付けを行い、チャンクアライメントベースの単語アライメント集合Mを得る。単語アライメント集合Mにアライメントアイテムとして含まれる各単語対は、和集合Sのアライメントアイテム(単語対)である。
図7の音声言語パラレルコーパスアライメント装置70は、単語アライメント修正部75をさらに含む。単語アライメント修正部75は、チャンクアライメントベースの単語アライメントMに含まれている、音声言語(話し言葉)によくある流ちょう性を損なわせる言い回しに起因する単語アライメントの誤りを修正し、最終単語アライメント集合Nを得、これを、単語アライメント集合記憶部77に記憶する。
図7に示すように、単語アライメント修正部75は、繰り返しフラグメント処理部751、特別タグ処理部752、及び略語処理部753を含む。
繰り返しフラグメント処理部751は、音声言語パラレルコーパスに2回上繰り返し出現する同じ語句や表現の単語対は、同じ単語対とするために、前処理部71で削除された繰り返しフラグメントに対応する単語と同じ単語を含む単語対が音声言語コーパスBに含まれていれば、当該単語対を、削除された繰り返しフラグメントに対応する単語対として、チャンクアライメントベースの単語アライメント集合Mに(アライメントアイテムとして)追加する。
特別タグ処理部752は、前処理部71において、単語アライメント集合Mから、ためらいやちゅうちょを表す語を排除するために、ためらいやちゅうちょを表す語に付与した特別タグに従って、そのような特別タグの付与された単語を含む単語対(非ヌルの単語対)を、チャンクアライメントベースの単語アライメント集合Mから削除する。
略語処理部753は、チャンクアライメントベースの単語アライメント集合Mから、音声言語パラレルコーパスBに含まれる略語(略語フラグメント)に対応する単語対を削除する。
以上説明した音声言語パラレルコーパスのアライメント装置によれば、チャンクの統合性を用いることにより、音声言語の(話し言葉の)単語アライメントの曖昧性を減少させることができる。また、音声言語コーパス中の略語、繰り返し、ためらいやちゅうちょを表す語のような流ちょう性を損なわせるような表現に関し特別な処理を施すことにより、音声言語の特徴に起因するアライメント誤りを取り除くことができる。従って、音声言語のアライメントが効率よく行え、高精度のチャンクアライメント集合及び単語アライメント集合を求めることができる。
さらに、上記実施形態に係る音声言語パラレルコーパスのアライメント装置により得られたチャンクアライメント集合及び単語アライメント集合は、音声から音声へ翻訳する音声機械翻訳システムだけでなく、テキスト機械翻訳、情報検索などのような多くの言語処理分野で適用可能である。
本実施形態に係る音声言語パラレルコーパスのアライメント装置70、及びその各構成部は、そのために設計された回路やチップを実装することにより、または、コンピュータ(コンピュータに搭載されたプロセッサ)にプログラムを実行させることにより実現することができる。さらに、音声言語パラレルコーパスのアライメント装置70は、図1乃至5に示した音声言語パラレルコーパスのアライメント処理を実行する。
(音声から音声への音声機械翻訳システム)
次に、図7に示した音声言語コーパスのアライメント装置を用いて、音声から音声への機械翻訳を行う音声機械翻訳システムについて、図8を参照して説明する。
図8は、本実施形態に係る音声機械翻訳システム80の構成例を示したものである。図8の音声機械翻訳システム80は、音声言語コーパス格納部82、図7に示した音声言語パラレルコーパスのアライメント装置70、音声から音声へ翻訳する音声翻訳モジュール81を含む。
図8の音声機械翻訳システム80は、図7に示した音声言語パラレルコーパスのアライメント装置70を用いることにより、音声言語コーパス格納部82に予め構築され記憶されている音声言語パラレルコーパスから、チャンクアライメント集合L及び単語アライメント集合Nを得ることができる。
従って、音声翻訳モジュール81は、上記チャンクアライメント集合L及び単語アライメント集合Nを用いて、ユーザにより入力された翻訳対象の音声言語文を翻訳し、当該入力された音声言語文に対応するターゲット言語の音声を出力する。
図8の音声機械翻訳システムによれば、音声言語コーパス格納部82に予め構築され記憶されている音声言語パラレルコーパスから、図7に示した音声言語パラレルコーパスのアライメント装置70を用いることにより得られたチャンクアライメント集合L及び単語アライメント集合Nを適用することで、入力されたソース言語の音声を、高精度にターゲット言語の音声へ翻訳することができる。
本発明の実施の形態に記載した本発明の手法(図1〜図5に示した処理)は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本実施形態に係る音声言語パラレルコーパスのアライメント方法を説明するためのフローチャート。 前処理(図1のステップS105)の詳細を説明するためのフローチャート。 高精度単語アライメント集合を求める処理(図1のステップS110)を説明するためのフローチャート。 高精度単語アライメント集合を用いたチャンク単位の対応付け処理(図1のステップS115)を説明するためのフローチャート。 対応付けされたチャンク間での単語単位の対応付け処理及び単語アライメント集合の修正処理(図1のステップS120)を説明するためのフローチャート。 本実施形態に係る音声機械翻訳方法を説明するためのフローチャート。 本実施形態に係る音声言語パラレルコーパスのアライメント装置の構成例を示す図。 本実施形態に係る音声機械翻訳システムの構成例を示す図。
符号の説明
70…音声言語パラレルコーパスアライメント装置
71…前処理部
72…単語アライメント部
73…チャンクアライメント部
74…単語対応付け部
75…単語アライメント修正部
76…チャンクアライメント集合記憶部
77…単語アライメント集合記憶部
80…音声機械翻訳システム
81…音声翻訳モジュール
82…音声言語コーパス格納部

Claims (16)

  1. ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスのアライメント方法であって、
    前記音声言語パラレルコーパスから、統計的方法及び辞書ベースの単語アライメント集合を求めるステップと、
    統計的方法及び辞書ベースの前記単語アライメント集合を用いて、前記ソース言語コーパスと前記ターゲット言語コーパス間で、1または複数の単語からなるチャンク単位の対応付けを行い、ソース言語のチャンクとターゲット言語のチャンクとのチャンク対の集合であるチャンクアライメント集合を求めるステップと、
    前記チャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、ソース言語の単語とターゲット言語の単語との単語対の集合であるチャンクアライメントベースの単語アライメント集合を求めるステップと、
    を含むアライメント方法。
  2. 統計的方法及び辞書ベースの前記単語アライメント集合を求めるステップの前に、
    前記音声言語パラレルコーパスから繰り返しフラグメントを削除するステップと、
    前記音声言語パラレルコーパス中のためらいやちゅうちょを表す語に特別タグを付与するステップと、
    をさらに含む請求項1記載のアライメント方法。
  3. 統計的方法及び辞書ベースの前記単語アライメント集合を求めるステップは、
    前記音声言語パラレルコーパスに基づき、ソース言語の単語にターゲット言語の単語を対応付けた単語対の集合である第1の統計的単語アライメント集合を求めるステップと、
    前記音声言語パラレルコーパスに基づき、ターゲット言語の単語にソース言語の単語を対応付けた単語対の集合である第2の統計的単語アライメント集合を求めるステップと、
    前記第1の統計的単語アライメント集合と前記第2の統計的単語アライメント集合との共通集合を求めるステップと、
    前記音声言語パラレルコーパス中の各単語について、ソース言語−ターゲット言語辞書及びターゲット言語−ソース言語辞書をサーチし、ソース言語の単語とターゲット言語の単語とを対応付けた単語対の集合である辞書ベースの単語アライメント集合を求めるステップと、
    前記統計的方法及び辞書ベースの前記単語アライメント集合として、前記共通集合と前記辞書ベースの単語アライメント集合との和集合を求めるステップと、
    を含む請求項1記載のアライメント方法。
  4. 前記チャンクアライメント集合を求めるステップの前に、
    前記ソース言語コーパス及び前記ターゲット言語コーパスを、1または複数の単語からなるチャンクに分割するステップをさらに含む請求項1記載のアライメント方法。
  5. 前記チャンクアライメント集合を求めるステップは、
    チャンク単位に分割されたソース言語コーパスから、各チャンクの先頭単語の集合である第1の先頭単語集合を抽出するステップと、
    チャンク単位に分割されたターゲット言語コーパスから、各チャンクの先頭単語の集合である第2の先頭単語集合を抽出するステップと、
    前記統計的方法及び辞書ベースの前記単語アライメント集合を用いて、前記第1の先頭単語集合と前記第2の先頭単語集合との間で先頭単語単位の対応付けを行うステップと、
    対応付けられた先頭単語の対を用いて、チャンク単位に分割されたソース言語コーパスとチャンク単位に分割されたターゲット言語コーパスとの間で、チャンク単位の対応付けを行うことにより、前記チャンクアライメント集合を得るステップと、
    を含む請求項1記載のアライメント方法。
  6. 前記チャンクアライメントベースの単語アライメント集合を求めるステップは、
    前記第1の統計的単語アライメント集合、前記第2の統計的単語アライメント集合、及び辞書ベースの単語アライメント集合との和集合を求めるステップと、
    前記和集合を用いて、前記チャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、前記チャンクアライメントベースの単語アライメント集合を求めるステップと、
    を含む請求項3記載のアライメント方法。
  7. 前記チャンクアライメントベースの単語アライメント集合を求めるステップは、
    前記繰り返しフラグメントを削除するステップで削除された前記繰り返しフラグメントを、前記チャンクアライメントベースの単語アライメント集合に追加するステップと、
    前記特別タグを付与するステップで前記特別タグの付与された単語を含む単語対を、前記チャンクアライメントベースの単語アライメント集合から削除するステップと、
    前記チャンクアライメントベースの単語アライメント集合から、略語フラグメントに対応する単語対を削除するステップと、
    を含む請求項2記載のアライメント方法。
  8. ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスに基づきソース言語の音声からターゲット言語の音声へ翻訳する音声機械翻訳方法であって、
    請求項1記載のアライメント方法を用いて、前記音声言語パラレルコーパスから前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを得るステップと、
    前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを用いて、入力されたソース言語の音声をターゲット言語の音声に翻訳するステップと、
    を含む音声機械翻訳方法。
  9. ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスのアライメント装置であって、
    前記音声言語パラレルコーパスから、統計的方法及び辞書ベースの単語アライメント集合を求める単語アライメント手段と、
    統計的方法及び辞書ベースの前記単語アライメント集合を用いて、前記ソース言語コーパスと前記ターゲット言語コーパス間で、1または複数の単語からなるチャンク単位の対応付けを行い、対応付けられたソース言語のチャンクとターゲット言語のチャンクとのチャンク対の集合であるチャンクアライメント集合を求めるチャンクアライメント手段と、
    前記チャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、ソース言語の単語とターゲット言語の単語との単語対の集合であるチャンクアライメントベースの単語アライメント集合を求める単語対応付け手段と、
    を含むアライメント装置。
  10. 前記音声言語パラレルコーパスを音声言語の特徴に関して前処理する前処理手段をさらに含み、
    前記前処理手段は、
    前記音声言語パラレルコーパスから繰り返しフラグメントを削除する手段と、
    前記音声言語パラレルコーパス中のためらいやちゅうちょを表す語に特別タグを付与する手段と、
    を含む請求項9記載のアライメント装置。
  11. 前記単語アライメント手段は、
    前記音声言語パラレルコーパスに基づき、ソース言語の単語にターゲット言語の単語を対応付けた単語対の集合である第1の統計的単語アライメント集合を求める手段と、
    前記音声言語パラレルコーパスに基づき、ターゲット言語の単語にソース言語の単語を対応付けた単語対の集合である第2の統計的単語アライメント集合を求める手段と、
    前記第1の統計的単語アライメント集合と前記第2の統計的単語アライメント集合との共通集合を求める手段と、
    前記音声言語パラレルコーパス中の各単語について、ソース言語−ターゲット言語辞書及びターゲット言語−ソース言語辞書をサーチし、ソース言語の単語とターゲット言語の単語とを対応付けた単語対の集合である辞書ベースの単語アライメント集合を求める手段と、
    前記統計的方法及び辞書ベースの前記単語アライメント集合として、前記共通集合と前記辞書ベースの単語アライメント集合との和集合を求める手段と、
    を含む請求項9記載のアライメント装置。
  12. 前記チャンクアライメント手段は、
    前記ソース言語コーパス及び前記ターゲット言語コーパスを、1または複数の単語からなるチャンクに分割する手段をさらに含む請求項9記載のアライメント装置。
  13. 前記チャンクアライメント手段は、
    チャンク単位に分割されたソース言語コーパスから、各チャンクの先頭単語の集合である第1の先頭単語集合を抽出する手段と、
    チャンク単位に分割されたターゲット言語コーパスから、各チャンクの先頭単語の集合である第2の先頭単語集合を抽出する手段と、
    前記統計的方法及び辞書ベースの前記単語アライメント集合を用いて、前記第1の先頭単語集合と前記第2の先頭単語集合との間で先頭単語単位の対応付けを行う手段と、
    対応付けられた先頭単語の対を用いて、チャンク単位に分割されたソース言語コーパスとチャンク単位に分割されたターゲット言語コーパスとの間で、チャンク単位の対応付けを行うことにより、前記チャンクアライメント集合を得る手段と、
    を含む請求項9記載のアライメント装置。
  14. 前記対応付け手段は、
    前記第1の統計的単語アライメント集合、前記第2の統計的単語アライメント集合、及び辞書ベースの単語アライメント集合との和集合を求める手段と、
    前記和集合を用いて、前記チャンク対として対応付けられたチャンク間で単語単位の対応付けを行い、前記チャンクアライメントベースの単語アライメント集合を求める手段と、
    を含む請求項11記載のアライメント装置。
  15. 前記対応付け手段で求めた前記チャンクアライメントベースの単語アライメント集合を修正する修正手段をさらに含み、
    前記修正手段は、
    前記前処理手段で削除された前記繰り返しフラグメントを、前記チャンクアライメントベースの単語アライメント集合に追加する手段と、
    前記前処理手段で前記特別タグの付与された単語を含む単語対を、前記チャンクアライメントベースの単語アライメント集合から削除する手段と、
    前記チャンクアライメントベースの単語アライメント集合から、略語フラグメントに対応する単語対を削除する手段と、
    を含む請求項10記載のアライメント装置。
  16. ソース言語コーパスとターゲット言語コーパスとの音声言語パラレルコーパスに基づきソース言語の音声をターゲット言語の音声へ翻訳する音声機械翻訳システムであって、
    前記音声言語パラレルコーパスから、前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを得る請求項9記載のアライメント装置と、
    前記チャンクアライメント集合と前記チャンクアライメントベースの単語アライメント集合とを用いて、入力されたソース言語の音声をターゲット言語の音声に翻訳する翻訳モジュールと、
    を含む音声機械翻訳システム。
JP2008316021A 2007-12-20 2008-12-11 音声言語パラレルコーパスのアライメント方法及び装置 Abandoned JP2009151777A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101991957A CN101464856A (zh) 2007-12-20 2007-12-20 平行口语语料的对齐方法和装置

Publications (1)

Publication Number Publication Date
JP2009151777A true JP2009151777A (ja) 2009-07-09

Family

ID=40789655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008316021A Abandoned JP2009151777A (ja) 2007-12-20 2008-12-11 音声言語パラレルコーパスのアライメント方法及び装置

Country Status (3)

Country Link
US (1) US20090164208A1 (ja)
JP (1) JP2009151777A (ja)
CN (1) CN101464856A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989261B (zh) * 2009-08-01 2013-03-13 中国科学院计算技术研究所 统计机器翻译短语抽取方法
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
CN102831109B (zh) * 2012-08-08 2016-01-13 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法
CN105630776A (zh) * 2015-12-25 2016-06-01 清华大学 一种双向词语对齐方法及装置
CN106486126B (zh) * 2016-12-19 2019-11-19 北京云知声信息技术有限公司 语音识别纠错方法及装置
CN106991181B (zh) * 2017-04-07 2020-04-21 广州视源电子科技股份有限公司 口语化语句提取的方法及装置
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备
KR102637340B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
CN112634863B (zh) * 2020-12-09 2024-02-09 深圳市优必选科技股份有限公司 一种语音合成模型的训练方法、装置、电子设备及介质
CN114781408B (zh) * 2022-04-24 2023-03-14 北京百度网讯科技有限公司 同传翻译模型的训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN101464856A (zh) 2009-06-24
US20090164208A1 (en) 2009-06-25

Similar Documents

Publication Publication Date Title
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
US8606559B2 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
US8423346B2 (en) Device and method for interactive machine translation
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
CN110119510B (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
US20120010873A1 (en) Sentence translation apparatus and method
JP2007234023A (ja) 二言語単語対応付けモデル訓練方法及び装置、二言語単語対応付け方法及び装置
KR20090061158A (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
CN103678288A (zh) 一种专名自动翻译的方法
JP2018206262A (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
US8041556B2 (en) Chinese to english translation tool
JP2007149109A (ja) 翻訳支援装置
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
Ananthakrishnan et al. Automatic diacritization of Arabic transcripts for automatic speech recognition
Stepanov et al. Language style and domain adaptation for cross-language SLU porting
Awadalla et al. An integrated approach for Arabic-English named entity translation
Ji Mining name translations from comparable corpora by creating bilingual information networks
KR101740330B1 (ko) 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
Pinnis et al. Tilde MT platform for developing client specific MT solutions
Durrani et al. Improving Egyptian-to-English SMT by mapping Egyptian into MSA

Legal Events

Date Code Title Description
A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20110523