JP2004252495A

JP2004252495A - 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム

Info

Publication number: JP2004252495A
Application number: JP2002272481A
Authority: JP
Inventors: Finch Andrew; アンドリューフィンチ; Taro Watanabe; 太郎渡辺; Eiichiro Sumida; 英一郎隅田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-09-19
Filing date: 2002-09-19
Publication date: 2004-09-09

Abstract

【課題】情報の脱落なしに文を短くすることが可能な方法を提供する。
【解決手段】統計的機械翻訳２８をトレーニングするトレーニングデータを生成する方法は、所定の言語の複数の文を含むコーパスを準備するステップと、コーパス１２内の類似した文を複数のクラスタ１６にクラスタ化するステップと、複数のクラスタ１６から選択された粒度のクラスタを選択するステップ１８と、選択された粒度のクラスタの各々において、所定の規準を満足する長さの一つの文を選択するステップ１８と、選択された粒度の各クラスタ内において、文の各々を、選択された一つの文と対にするステップ１８とを含む。
【選択図】図１

Description

【０００１】
【発明が属する技術分野】
この発明は自然言語で書かれたテキストを処理するための方法、装置およびコンピュータプログラムに関し、特に、文の意味を失う事なく文をより短い文に換言する際に用いられる方法、装置及びコンピュータプログラムに関する。
【０００２】
【従来の技術】
例えば構文解析、機械翻訳等、多くの自然言語処理アプリケーションにおいて長い文というのは大きな問題である。これらの作業の多くにおいて、元の入力文の換言に対し作業可能であり、換言されたものがより短ければ、それによってシステム（例えば機械翻訳システム）は、失敗せずに入力を処理可能になる。もしも元の文内の全ての情報が換言内にも存在していれば、その文を処理した最終結果は情報が失われた場合よりも正確なものとなる。
【０００３】
図１４に、長い文とそれらをより短くした文とのいくつかの例を示す。短い文が長い文の情報を保持している事に注意されたい。
【０００４】
ナイトらは、非特許文献１において、統計に基づいた文書の要約方法を提案している。彼らは、構文解析を基本として文の要約を試みている。その目的のために、彼らはＺｉｆｆ−Ｄａｖｉｓコーパス（コンピュータ製品をアナウンスする新聞記事を集めたもの）のアブストラクトから自動的に抽出された文を、それらについて人手で付けた見出しとともに用いている。
【０００５】
バーガーらは、非特許文献２において、ウェブページを要約するためのシステムを提案している。彼らはウェブページ文書の要約を、語彙統計の面から試みている。彼らは、語を選択し順序付けしてウェブページの要約を作成する際に、確率的モデルを用いている。
【０００６】
【非特許文献１】
Ｋ．ナイトおよびＤ．マルキュ、「統計に基づく要約―ステップ１：文の圧縮」、ＡＡＡＩ‘００，２０００年（Ｋ．ＫｎｉｇｈｔａｎｄＤ．Ｍａｒｃｕ．： “Ｓｔａｔｉｓｔｉｃｓ−ＢａｓｅｄＳｕｍｍａｒｉｚａｔｉｏｎ − ＳｔｅｐＯｎｅ：ＳｅｎｔｅｎｃｅＣｏｍｐｒｅｓｓｉｏｎ”，ＡＡＡＩ’００，２０００）
【非特許文献２】
Ａ．バーガー及びヴィッブＯ．ミッタル、「ＯＣＥＬＯＴ：ウェブページを要約するためのシステム」ＳＩＧＩＲ−２０００，２０００年（Ａ．ＢｅｒｇｅｒａｎｄＶｉｂｂｕＯ．Ｍｉｔｔａｌ．： “ＯＣＥＬＯＴ：Ａｓｙｓｔｅｍｆｏｒｓｕｍｍａｒｉｚｉｎｇｗｅｂｐａｇｅｓ”，ＳＩＧＩＲ−２０００，２０００）
【非特許文献３】
スガヤ、Ｆ．、タケザワ、Ｔ．、キクイ、Ｇ．、ヤマモト、Ｓ．、「セルにより形成された登録による、超大規模コーパス収集の提案」、ＬＲＥＣ大会予稿集、ラス・パルマス、グラン・キャナリア、２００２年（Ｓｕｇａｙａ，Ｆ．，Ｔａｋｅｚａｗａ，Ｔ．，Ｋｉｋｕｉ，Ｇ．ａｎｄＹａｍａｍｏｔｏ，Ｓ．，“Ｐｒｏｐｏｓａｌｏｆａｖｅｒｙ−ｌａｒｇｅ−ｃｏｒｐｕｓａｃｑｕｉｓｉｔｉｏｎｍｅｔｈｏｄｂｙｃｅｌｌ−ｆｏｒｍｅｄｒｅｇｉｓｔｒａｔｉｏｎ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＬＲＥＣＣｏｎｆｅｒｅｎｃｅ，ＬａｓＰａｌｍａｓ，ＧｒａｎＣａｎａｒｉａ，２００２．）
【非特許文献４】
タケザワ、Ｆ、スミタ、Ｅ、スガヤ、Ｆ、ヤマモト、Ｈ．、ヤマモト、Ｓ．、「実世界における旅行会話の会話翻訳のための大規模バイリンガルコーパスに向けて」、ＬＲＥＣ大会予稿集、ラス・パルマス、グラン・キャナリア、２００２年（Ｔａｋｅｚａｗａ，Ｆ．Ｓｕｍｉｔａ，Ｅ．，Ｓｕｇａｙａ，Ｆ．，Ｙａｍａｍｏｔｏ，Ｈ．，ａｎｄＹａｍａｍｏｔｏＳ．，“ＴｏｗａｒｄａＢｒｏａｄ−ｃｏｖｅｒａｇｅＢｉｌｉｎｇｕａｌＣｏｒｐｕｓｆｏｒＳｐｅｅｃｈＴｒａｎｓｌａｔｉｏｎｏｆＴｒａｖｅｌＣｏｎｖｅｒｓａｔｉｏｎｓｉｎｔｈｅＲｅａｌＷｏｒｌｄ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＬＲＥＣＣｏｎｆｅｒｅｎｃｅ，ＬａｓＰａｌｍａｓ，ＧｒａｎＣａｎａｒｉａ，２００２．）
【非特許文献５】
ドヨン、Ｊ．、テイラー、Ｋ．、ホワイト、Ｊ．Ｓ．、「過去及び現在におけるＤＡＲＰＡ機械翻訳評価手法」、ＡＴＭＡ大会予稿集、フィラデルフィア、ＰＡ．、１９８８年（Ｄｏｙｏｎ，Ｊ．，Ｔａｙｌｏｒ，Ｋ．，ａｎｄＷｈｉｔｅ，Ｊ．Ｓ．，“ＴｈｅＤＡＲＰＡＭＴＥｖａｌｕａｔｉｏｎＭｅｔｈｏｄｏｌｏｇｙ：ＰａｓｔａｎｄＰｒｅｓｅｎｔ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＴＭＡＣｏｎｆｅｒｅｎｃｅ，Ｐｈｉｌａｄｅｌｐｈｉａ，ＰＡ，１９９８．）
【発明が解決しようとする課題】
Ｋ．ナイトらの目的は、換言ではなく、文書を要約したり一貫性のある要約を作成したりする事である。その過程で情報が失われる。バーガーらの目的は、ウェブページ文書の要約である。この場合にも、その過程で情報が失われる。従って、自然言語テキストの前処理にはこれらは適していない。
【０００７】
それゆえに本発明の一つの目的は、情報の損失を最小にしながら文を短くする事ができる様にするための方法、装置およびコンピュータプログラムを提供する事である。
【０００８】
本発明の他の目的は、正確な自然言語処理を可能にする目的で、文を短くする事ができる様にするための方法、装置及びコンピュータプログラムを提供する事である。
【０００９】
【課題を解決するための手段】
本発明の一局面はデータ処理システムにおいて統計的翻訳装置をトレーニングするためのトレーニングデータを生成する方法に関し、当該方法は、所定の言語の複数の文を含むコーパスを準備するステップと、当該コーパス内の類似した文を複数個のクラスタにクラスタリングするステップと、それら複数個のクラスタから、選択された粒度のクラスタを選択するステップと、当該選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するステップと、当該選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された一文と対にするステップとを含む。
【００１０】
クラスタリングするステップは、各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するステップと、当該クラスタのうち対となりうるものの各々について、距離を計算するステップと、前記クラスタのうち対となり得るもの中で、互いの距離が最も近い二つのクラスタをマージするステップと、残りのクラスタが予め定められた数となるまで、前記計算するステップと、マージするステップとを繰返すステップとを含んでもよい。
【００１１】
好ましくは、予め定められた数は１である。
【００１２】
複数個のクラスタはツリーを形成し、複数個のクラスタの各々は、このツリー内のノードを形成し、トレーニングデータを選択するステップは、予め定められた順番（例えば、トップダウンの幅優先探索）に従ってツリー内のノードを選択するステップと、当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するステップと、この平均距離がしきい値未満か否かを判定するステップと、平均距離がしきい値未満である場合、選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを、ノードを選択するステップの対象から排除するステップと、ノードが一つも残らなくなるまで、選択するステップ、評価するステップおよびクラスタ内に入れるステップを繰返すステップとを含んでもよい。
【００１３】
二つのクラスタＣ_１及びＣ_２の間の前記平均距離は、以下の式によって与えられてもよい。
【００１４】
【数３】

ただしｃ_１およびｃ_２はクラスタＣ_１及びＣ_２内の文をそれぞれ表し、ｅｄｉｔｄｉｓｔ（ｃ_１，ｃ_２）は文ｃ_１およびｃ_２の間の編集距離を表す。
【００１５】
文の間の距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表す様にしてもよい。
【００１６】
好ましくは、一文を選択する前記ステップは、各クラスタ内で最も短い文を選択するステップを含んでもよい。
【００１７】
本発明の他の局面は、統計的機械翻訳エンジンを用いた換言装置をトレーニングするための方法に関し、上記した方法のいずれかにより準備されたトレーニングデータを用いて当該統計的機械翻訳エンジンをトレーニングするステップを含む。
【００１８】
本発明のさらに他の局面は、上記した方法のいずれかにより準備されたトレーニングデータによってトレーニングされた換言装置に関する。
【００１９】
本発明の他の一つの局面は、文をより短い文に換言するためのデータ処理システムに関し、このシステムは、所定の言語の複数の文を含むコーパスを準備するための手段と、このコーパス内の類似した文を複数個のクラスタにクラスタリングするための手段と、これら複数個のクラスタから、選択された粒度のクラスタを選択するための手段と、選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するための手段と、これら選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された一文と対にするための手段とを含む。
【００２０】
クラスタリングするための手段は、各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するための手段と、当該クラスタのうち対となりうるものの各々について、距離を計算するための手段と、クラスタのうち対となり得るもののうち、互いの距離が最も近い二つのクラスタをマージするための手段と、残りのクラスタが予め定められた数となるまで、計算するための手段およびマージするための手段を繰返し動作させるための手段とを含んでもよい。
【００２１】
予め定められた数は１でもよい。
【００２２】
複数個のクラスタはツリーを形成し、これら複数個のクラスタの各々は、当該ツリー内のノードを形成し、トレーニングデータを選択するための手段は、予め定められた順番（例えば、トップダウンの幅優先探索）に従ってツリー内のノードを選択するための手段と、当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するための手段と、平均距離がしきい値未満か否かを判定するための手段と、平均距離がしきい値未満である場合、選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを、ノードを選択するための手段の対象から排除するための手段と、ノードが一つも残らなくなるまで、選択するための手段、評価するための手段及びクラスタ内に入れるための手段を繰返し動作させるための手段とを含んでもよい。
【００２３】
二つのクラスタＣ_１及びＣ_２の間の前記平均距離は、以下の式によって与えてもよい。
【００２４】
【数４】

ただしｃ_１およびｃ_２はクラスタＣ_１及びＣ_２内の文をそれぞれ表し、ｅｄｉｔｄｉｓｔ（ｃ_１，ｃ_２）は文ｃ_１及びｃ_２の間の編集距離を表す。
【００２５】
文の間の編集距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表してもよい。
【００２６】
一文を選択するための手段は、各クラスタ内で最も短い文を選択するための手段を含んでもよい。
【００２７】
本発明の他の局面は、コンピュータにより実行されると、上記したプログラムのいずれかの全てのステップを実行する様に構成されたプログラムコード手段を含むコンピュータプログラムに関する。
【００２８】
本発明のさらに他の局面は、コンピュータ可読な記憶媒体上に記録された、上記したコンピュータプログラムに関する。
【００２９】
【発明の実施の形態】
−システムの概略−
本実施の形態で我々は、換言という作業を翻訳という作業として取り扱う。このシステムでは、一つの「言語」（長い文）を他の言語（対応の長い文と同じ意味を表す短い文）に翻訳する事が求められる。我々は、ｈｔｔｐ：／／ｗｗｗ．ｃｌｓｐ．ｊｈｕ．ｅｄｕ／ｗｓ９９／ｐｒｏｊｅｃｔｓ／ｍｔ／ｔｏｏｌｋｉｔ／で入手可能なＥＧＹＰＴ機械翻訳システムと、我々が開発したデコーダとを用いて、翻訳作業を行なう。このシステムは、（各「言語」から１文ずつの）文の対からなるコーパスのみを用いてトレーニング可能である。
【００３０】
図１は、本願発明の一実施の形態の文換言システムの概略をブロック図形式で示したものである。図１を参照して、このシステムは、コーパスに基づいて、換言モデルを構築しトレーニングするための換言モデルトレーニングモジュール２と、入力文８をより短い出力文９に換言するための換言モジュール６とを含む。出力文９は自然言語処理モジュール１０に与えられる事になる。本実施の形態では、換言モデルトレーニングモジュール２及び換言モジュール６は別個のものであり、換言モデルトレーニングモジュール２で生成された換言モデルデータ２４はＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）４に格納され換言モジュール６に与えられる。当業者であれば、換言モデルトレーニングモジュール２及び換言モジュール６は同じコンピュータ上にあってもよく、従って、換言モデルデータ２４をＣＤ−ＲＯＭ４に格納する事なく換言モデルトレーニングモジュール２および換言モジュール６により共有できる事は容易に理解できるであろう。
【００３１】
換言モデルトレーニングモジュール２は、換言コーパス１２と、コーパス１２内の類似した文をクラスタリングし、類似した換言のクラスタ１６を出力するためのクラスタリングモジュール１４と、類似した換言のクラスタ１６から所定の粒度の文のクラスタをトレーニングデータセット２０として選択するためのトレーニングデータ選択モジュール１８と、トレーニングデータセット２０から換言モデルデータ２４として換言知識を抽出するためのトレーニングモジュール２２とを含む。
【００３２】
換言コーパス１２は、出願人による換言コーパス（スガヤらによる。２００２年。非特許文献３を参照されたい。）のサブセットである。このコーパスは、一組の英語の文をシードとして展開した換言文の集合からなる。コーパス内の全ての文は、旅行会話の本という領域から取り出されたものである。換言コーパス１２内の文例を図２に示す。
【００３３】
クラスタリングモジュール１４は、コンピュータプログラムにより実現される。クラスタリングモジュール１４は、編集距離、すなわちある文を他の文に変換するために必要な、挿入、削除、単語と単語との置換操作の数に従って、それぞれの換言の組を階層的にクラスタリングする。結果（類似した換言のクラスタ１６）は、文を葉として持ち、かつ類似した文はツリー内では互いに近い位置にあるような二分木となる。葉でないノードは、類似した文の集合を規定する。二分木の例を図３に示す。ここで用いたアルゴリズムは図７に示し、後に説明する。
【００３４】
トレーニングデータ選択モジュール１８はコンピュータプログラムにより実現される。ここでは、類似した文のクラスタであって、任意の所定の粒度のものがこの樹形図から抽出される。これらの、類似した文のクラスタを規定した後、このクラスタ内の（最も短いものを除く）全ての文を、クラスタ内で最も短い文と対にする事でトレーニングデータを生成する。ここで使用するアルゴリズムは図８に示す、詳細については後述する。
【００３５】
トレーニングモジュール２２は、トレーニングデータセット２０から換言知識を換言モデルデータ２４として抽出する。換言モジュール６が後述する様に換言エンジンとして統計的翻訳装置（ＳＭＴ）を使用するので、換言モデルデータ２４は通常のＳＭＴで使用される翻訳モデルの形をとる。
【００３６】
図１を参照して、換言モジュール６は換言モデルデータ２６を含む。この換言モデルデータ２６は換言モデルデータ２４と同じである。換言モジュール６はさらに、換言モデルデータ２６を用いて入力文８をより短い出力文９に「翻訳」するための統計的機械翻訳エンジン２８を含む。
【００３７】
統計的機械翻訳エンジン２８はＥＧＹＰＴとともに、ｈｔｔｐ：／／ｗｗｗ−ｉ６．ｉｎｆｏｒｍａｔｉｋ．ｒｗｔｈ−ａａｃｈｅｎ．ｄｅ／Ｃｏｌｌｅａｇｕｅｓ／ｏｃｈ／ｓｏｆｔｗａｒｅ／ＧＩＺＡ＋＋．ｈｔｍｌで入出可能なＧＩＺＡ＋＋を使用している。
【００３８】
通常のＳＭＴがトレーニングモジュールを含む事、従ってトレーニングデータセット２０のみが統計的機械翻訳エンジン２８に与えられ、ＳＭＴがそのデータによりトレーニングされる事に注意すべきである。
【００３９】
−コンピュータによる実装−
上記した実施の形態はコンピュータハードウェアと、その上で実行されるソフトウェアとにより実現される。図４は本実施の形態に係るコンピュータシステム３０の外観を示す図であり、図５は、システム３０のブロック図である。図４を参照して、このコンピュータシステム３０は、ＦＤ（フレキシブルディスク）ドライブ５２及びＣＤ−ＲＯＭドライブ５０を有するコンピュータ４０と、キーボード４６と、マウス４６と、モニタ４２とを含む。
【００４０】
図５を参照して、コンピュータ４０は、ＦＤドライブ５２及びＣＤ−ＲＯＭドライブ５０に加えて、ＣＰＵ（中央演算処理装置）５６と、ＣＰＵ５６、ＣＤ−ＲＯＭ及びＦＤドライブ５０及び５２に接続されたバス６６と、ブートアッププログラムなどのプログラムを格納するための読出し専用メモリ（ＲＯＭ）５８と、バス６６に接続され、アプリケーションプログラム命令、システムプログラム、及びデータを格納するためのランダムアクセスメモリ（ＲＡＭ）６０とを含む。
【００４１】
ここには示していないが、コンピュータ４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードをさらに含んでもよい。
【００４２】
コンピュータシステム３０に、文の換言方法を実行させるためのプログラムは、ＣＤ−ＲＯＭドライブ５０又はＦＤドライブ５２に挿入されるＣＤ−ＲＯＭ６２又はＦＤ６４に格納され、さらにハードディスク５４に転送される。又はこれに代えて、プログラムは図示しないネットワークを介してコンピュータ４０に送信され、ハードディスク５４に格納されてもよい。プログラムは実行時にはＲＡＭ６０にロードされる。なお、プログラムをＣＤ−ＲＯＭ６２又はＦＤ６４若しくはネットワークを介して直接ＲＡＭ６０にロードしてもよい。
【００４３】
以下に説明するプログラムは、コンピュータ４０に本実施の形態の方法を実行させるための多数の命令を含む。当該方法を実施する上で必要な基本的機能のいくつかはコンピュータ４０上で実行されているオペレーティングシステム（ＯＳ）又はコンピュータ４０上にインストールされたツールなどのサードパーティプログラム又はモジュールにより提供されるので、このプログラムは本実施の形態の方法を実施するために必要な基本的機能の全てを含む必要はない。このプログラムは、所望の結果が得られる様に、管理された形で適切な関数若しくは「ツール」を呼出す事でプロセスを実行する部分の命令だけを含んでいればよい。コンピュータシステム３０の動作は周知であるので、ここではそれについては繰返さない。
【００４４】
−プログラムフローチャート−
図６は、本実施の形態の換言モデルを構築しトレーニングするためのプログラムの制御の流れを示す。図６を参照して、このプログラムは、コーパスを準備するステップ８０と、文を類似した文のクラスタにクラスタリングするステップ８２と、クラスタからトレーニングデータを選択するステップ８４と、ステップ８４で選択されたトレーニングデータを用いて換言モデルをトレーニングするステップ８６とを含む。
【００４５】
図７はステップ８２の詳細を示す。図７を参照して、クラスタリングするステップ８２は以下のステップを含む。
【００４６】
最初に、ステップ９０で、換言された文の組の中の各文がそれ自身のクラスタに割り当てられる。各クラスタは、クラスタリングにより生成されたツリー中のノードを表す。次に、クラスタのうち対となり得るものの各々に対し、それらの間の距離（各クラスタ内の構成要素の間の平均編集距離）がステップ９２で計算される。クラスタＣ_１及びＣ_２の間の編集距離は次の式により計算される。
【００４７】
【数５】

ただし、「ｅｄｉｔｄｉｓｔ（ｃ_１，ｃ_２）」は文ｃ_１およびｃ_２の間の編集距離を表す。
【００４８】
次に、互いに最も近い二つのクラスタがステップ９４でマージされる。すなわち、ノードＣ_１及びＣ_２の上に親ノードが生成される。
【００４９】
次のステップ９６では、一つのクラスタしか残らなくなるまでステップ９２および９４が繰返される。
【００５０】
このクラスタリング処理の結果はツリー、すなわち樹形図である。このツリーの葉は文である。ツリー内で互いに近い位置にある葉は、編集距離という点でも同様に類似している。このような手法の背後にある動機は、編集距離の点で互いに近い文同士は、機械翻訳装置のトレーニングにおいても良好な文の対を形成するだろうという事である。葉でないノードは、類似した文の集合を規定する。
【００５１】
図６のステップ８４において、任意の粒度の、類似した文のクラスタを以下の様にして樹形図から抽出できる。
【００５２】
図８を参照して、ステップ１１０で、ツリーに対するトップダウンの幅優先探索によりノードが選択される。ステップ１１０で選択された各ノードに対し、ステップ１１２でこのクラスタ内の構成要素間の「平均的距離」が評価される。ステップ１１４で、この「平均的距離」がしきい値未満か否かが判定される。もし「平均的距離」がこのしきい値未満であれば、つまりこのクラスタ内の構成要素が互いに十分近ければ、ステップ１１６でこのノードに属する全ての葉ノードは一つのクラスタにまとめられる。さらに、このサブツリー内のどのノードも、さらにクラスタを作成する際には候補として考慮されない。もしも「平均的距離」がしきい値以上であれば、すなわち、それらが十分近くなければ、このサブツリーの探索がさらに行なわれる。
【００５３】
ステップ１１８では、ツリー内で、ステップ１１０から１１６が行なわれていないノードが存在しているか否かが判定される。もしも答えが「ｎｏ」であれば制御はステップ１１０に戻り、さもなければ制御はステップ１２０に進む。
【００５４】
ステップ１２０から１２２では、ＳＭＴモデルをトレーニングするために使用されるトレーニングデータがこれらクラスタから生成される。トレーニングデータは、文の対の形で得られる。トレーニングデータは以下の様にして選択される。
【００５５】
ステップ１２０で、各クラスタについて、クラスタ内で最も短い文（ｓ０）が選択される。ステップ１２２では、この文ｓ０が、クラスタ内の全ての他の文と対にされ、文の対の集合が得られる。従って、もしもクラスタがｎ個の文を含んでいれば、ｎ−１個の文の対がトレーニングデータとして得られる。この対の作成の例を、図３に示された二分木の場合について、図９及び図１０に示す。
【００５６】
ステップ８６ではモデルのトレーニングが実行される。ここでは、標準的なＳＭＴ装置のトレーニングデータが実行される。この実施の形態では、トレーニングにＧＩＺＡ＋＋システムを用いる。なお、文の対から翻訳を学習する事ができる翻訳装置であれば、どのようなものに対するトレーニングツールであっても使用する事ができる。
【００５７】
このモデルは、ＣＤ−ＲＯＭ４に格納され、さらに図１に示す換言モデルデータ２６として換言モジュール６に格納される。換言モデルデータ２６を用いて統計的機械翻訳エンジン２８を動作させ、入力文８を統計的機械翻訳エンジン２８に与える事により、出力文９を得る。長い文は統計的機械翻訳エンジン２８により通常の形でデコードされ、より短い出力文９が直接に得られる。文９は入力文８よりも短く、しかも入力文８と同じ意味を含んでいるので、モジュール１０による自然言語処理は、よりよい結果をもたらす事になる。
【００５８】
−実験−
図１１の文は、本システムの入力及び出力の結果（良いものと悪いものとの双方）を示す。このシステムは、よくある迂遠な表現をよりコンパクトな形に変換する様に学習済である。このシステムが犯す誤りは、文を非文法的にしたり、何らかの意味が失われたりするような語の省略であり、文を長くするような語の挿入という誤りはまれである。時に、このシステムでは文が変更されない場合もあるが、実験の全ての例のうちの９９％において、ＳＭＴ換言装置によって文が変更された。
【００５９】
文の短縮量はそれらの長さに依存する。予期された通り、実験では、ソース文が長ければ短い入力文よりも短縮量は大きい。例えば、平均では、６語の入力文は２２％短縮され４．６８語になり、長さ９語の文は３０．５％短縮され６．２５語の文になった。
【００６０】
このシステムにより機械翻訳の出力として得られた換言について、以下のような十分性（Ａｄｅｑｕａｃｙ）試験（ドヨンら、１９９８年。非特許文献５を参照されたい。）を用いて評価した。文を、日本語を母語とする評価者により、図１２に示した十分性に関する評点を用いて評価した。
【００６１】
加えて、短縮された正しく換言された文のサンプルをコーパスから抽出し評価対象データ内に混入させ、人によるラベル付けの基準を得る様にした。そして、非特許文献１に従って、我々はターゲット文の最大のバイグラム確率に基づいたベースラインモデルを使用した。すなわち、ソース文の中の先後関係に従って配列された語のシーケンスの全てを調べ、語のバイグラムの確率が最も大きなシーケンスをベースライン文として選択した。
【００６２】
ソースの各々から１００文を抽出してランダムに混合し、同時に一人の判定者によって評点を付けた。結果を図１３に示す。この結果をＴ検定に付し、各手法の間に有意な差があるか否かを判定した。検定によれば、ｐ＜０．０１ではＳＭＴ手法のパフォーマンスとベースラインモデルのパフォーマンスとの間には有意な差がある。
【００６３】
ここに示した結果には大いに望みがある。このシステムは良い性能を示し、その評点はベースラインモデルの評点よりもはるかに人の評点に近い。
【図面の簡単な説明】
【図１】本発明の一実施の形態に係る文換言システムの概略ブロック図である。
【図２】文換言コーパス１２内の例を示す図である。
【図３】二分木の例を示す図である。
【図４】本実施の形態に係るコンピュータシステム３０の外観を示す図である。
【図５】システム３０のブロック図である。
【図６】本実施の形態に係る換言モデルを構築しトレーニングするためのプログラムの制御の流れを示すフローチャートである。
【図７】図６のステップ８２の詳細を示す図である。
【図８】図６のステップ８４の詳細を示す図である。
【図９】文を対にする処理の例を示す図である。
【図１０】対となった文の例を示す図である。
【図１１】本発明の一実施の形態に係るシステムの入力と出力の例を示す図である。
【図１２】本願発明の実施の形態での評価において用いられた十分性の尺度を示す図である。
【図１３】本実施の形態での、一人の判定者による出力の評価付けの結果を示す図である。
【図１４】長い文と、それらを短くした文との例を示す図である。
【符号の説明】
２換言モデルトレーニングモジュール、４，６２ＣＤ−ＲＯＭ、６換言モジュール、８入力文、９出力文、１０自然言語処理モジュール、１２換言コーパス、１４クラスタリングモジュール、１８トレーニングデータ選択モジュール、２０トレーニングデータセット、２２トレーニングモジュール、２４，２６換言モデルデータ、２８統計的機械翻訳エンジン、３０コンピュータシステム、４０コンピュータ

Claims

データ処理システムにおいて統計的翻訳装置をトレーニングするためのトレーニングデータを生成する方法であって、
所定の言語の複数の文を含むコーパスを準備するステップと、
前記コーパス内の類似した文を複数個のクラスタにクラスタリングするステップと、
前記複数個のクラスタから、選択された粒度のクラスタを選択するステップと、
前記選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するステップと、
前記選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された前記一文と対にするステップとを含む、方法。
前記クラスタリングするステップは、
各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するステップと、
当該クラスタのうち対となりうるものの各々について、距離を計算するステップと、
前記クラスタのうち対となり得るものの中で、互いの距離が最も近い二つのクラスタをマージするステップと、
残りのクラスタが予め定められた数となるまで、前記計算するステップと、マージするステップとを繰返すステップとを含む、データ処理システムにおける請求項１に記載の方法。
前記予め定められた数は１である、データ処理システムにおける請求項２に記載の方法。
前記複数個のクラスタはツリーを形成し、前記複数個のクラスタの各々は、当該ツリー内のノードを形成し、トレーニングデータを選択する前記ステップは、
予め定められた順番に従って前記ツリー内のノードを選択するステップと、
当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するステップと、
前記平均距離がしきい値未満か否かを判定するステップと、
前記平均距離がしきい値未満である場合、前記選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを前記ノードを選択するステップの対象から排除するステップと、
ノードが一つも残らなくなるまで、前記選択するステップ、評価するステップ及びクラスタ内に入れるステップを繰返すステップとを含む、データ処理システムにおける請求項２から請求項３のいずれかに記載の方法。
二つのクラスタＣ_１及びＣ_２の間の前記平均距離は、以下の式によって与えられ、

ただしｃ_１及びｃ_２はクラスタＣ_１及びＣ_２内の文をそれぞれ表し、ｅｄｉｔｄｉｓｔ（ｃ_１，ｃ_２）は文ｃ_１及びｃ_２の間の編集距離を表す、データ処理システムにおける請求項４に記載の方法。
文の間の前記距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表される、データ処理システムにおける請求項５に記載の方法。
前記一文を選択する前記ステップは、各クラスタ内で最も短い文を選択するステップを含む、データ処理システムにおける請求項４〜請求項６のいずれかに記載の方法。
前記予め定められた順序は、トップダウンの幅優先探索である、請求項１〜請求項７のいずれかに記載の方法。
統計的翻訳エンジンを用いた換言装置をトレーニングする方法であって、請求項１〜請求項８のいずれかに記載の方法によって準備されたトレーニングデータを用いて前記統計的翻訳エンジンをトレーニングするステップを含む、方法。
請求項１〜請求項８のいずれかに記載の方法により準備されたトレーニングデータを用いてトレーニングされた換言装置。
文をより短い文に換言するためのデータ処理システムであって、
所定の言語の複数の文を含むコーパスを準備するための手段と、
前記コーパス内の類似した文を複数個のクラスタにクラスタリングするための手段と、
前記複数個のクラスタから、選択された粒度のクラスタを選択するための手段と、
前記選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するための手段と、
前記選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された前記一文と対にするための手段とを含む、データ処理システム。
前記クラスタリングするための手段は、
各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するための手段と、
当該クラスタのうち対となりうるものの各々について、距離を計算するための手段と、
前記クラスタのうち対となり得るものの中で、互いの距離が最も近い二つのクラスタをマージするための手段と、
残りのクラスタが予め定められた数となるまで、前記計算するための手段及びマージするための手段を繰返し動作させるための手段とを含む、請求項１１に記載のデータ処理システム。
前記予め定められた数は１である、請求項１２に記載のデータ処理システム。
前記複数個のクラスタはツリーを形成し、前記複数個のクラスタの各々は、当該ツリー内のノードを形成し、トレーニングデータを選択するための前記手段は、
予め定められた順番に従って前記ツリー内のノードを選択するための手段と、
当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するための手段と、
前記平均距離がしきい値未満か否かを判定するための手段と、
前記平均距離がしきい値未満である場合、前記選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを前記ノードを選択するための手段の対象から排除するための手段と、
ノードが一つも残らなくなるまで、前記選択するための手段、評価するための手段及びクラスタ内に入れるための手段を繰返し動作させるための手段とを含む、請求項１２から請求項１３のいずれかに記載のデータ処理システム。
二つのクラスタＣ_１及びＣ_２の間の前記平均距離は、以下の式によって与えられ、

ただしｃ_１およびｃ_２はクラスタＣ_１及びＣ_２内の文をそれぞれ表し、ｅｄｉｔｄｉｓｔ（ｃ_１，ｃ_２）は文ｃ_１及びｃ_２の間の編集距離を表す、請求項１４に記載のデータ処理システム。
文の間の前記編集距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表される、請求項１５に記載のデータ処理システム。
前記一文を選択するための前記手段は、各クラスタ内で最も短い文を選択するための手段を含む、請求項１４〜請求項１６のいずれかに記足のデータ処理システム。
前記予め定められた順序は、トップダウンの幅優先探索である、請求項１４〜請求項１６のいずれかに記載の方法。
コンピュータにより実行されると、請求項１〜請求項９のいずれかに記載の全てのステップを実行する様に構成されたコンピュータプログラムコード手段を含む、コンピュータプログラム。
コンピュータ可読な記憶媒体上に記憶された、請求項１９に記載のコンピュータプログラム。