JP2004252495A - 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム - Google Patents
統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム Download PDFInfo
- Publication number
- JP2004252495A JP2004252495A JP2002272481A JP2002272481A JP2004252495A JP 2004252495 A JP2004252495 A JP 2004252495A JP 2002272481 A JP2002272481 A JP 2002272481A JP 2002272481 A JP2002272481 A JP 2002272481A JP 2004252495 A JP2004252495 A JP 2004252495A
- Authority
- JP
- Japan
- Prior art keywords
- clusters
- sentence
- cluster
- selecting
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】情報の脱落なしに文を短くすることが可能な方法を提供する。
【解決手段】統計的機械翻訳28をトレーニングするトレーニングデータを生成する方法は、所定の言語の複数の文を含むコーパスを準備するステップと、コーパス12内の類似した文を複数のクラスタ16にクラスタ化するステップと、複数のクラスタ16から選択された粒度のクラスタを選択するステップ18と、選択された粒度のクラスタの各々において、所定の規準を満足する長さの一つの文を選択するステップ18と、選択された粒度の各クラスタ内において、文の各々を、選択された一つの文と対にするステップ18とを含む。
【選択図】 図1
【解決手段】統計的機械翻訳28をトレーニングするトレーニングデータを生成する方法は、所定の言語の複数の文を含むコーパスを準備するステップと、コーパス12内の類似した文を複数のクラスタ16にクラスタ化するステップと、複数のクラスタ16から選択された粒度のクラスタを選択するステップ18と、選択された粒度のクラスタの各々において、所定の規準を満足する長さの一つの文を選択するステップ18と、選択された粒度の各クラスタ内において、文の各々を、選択された一つの文と対にするステップ18とを含む。
【選択図】 図1
Description
【0001】
【発明が属する技術分野】
この発明は自然言語で書かれたテキストを処理するための方法、装置およびコンピュータプログラムに関し、特に、文の意味を失う事なく文をより短い文に換言する際に用いられる方法、装置及びコンピュータプログラムに関する。
【0002】
【従来の技術】
例えば構文解析、機械翻訳等、多くの自然言語処理アプリケーションにおいて長い文というのは大きな問題である。これらの作業の多くにおいて、元の入力文の換言に対し作業可能であり、換言されたものがより短ければ、それによってシステム(例えば機械翻訳システム)は、失敗せずに入力を処理可能になる。もしも元の文内の全ての情報が換言内にも存在していれば、その文を処理した最終結果は情報が失われた場合よりも正確なものとなる。
【0003】
図14に、長い文とそれらをより短くした文とのいくつかの例を示す。短い文が長い文の情報を保持している事に注意されたい。
【0004】
ナイトらは、非特許文献1において、統計に基づいた文書の要約方法を提案している。彼らは、構文解析を基本として文の要約を試みている。その目的のために、彼らはZiff−Davisコーパス(コンピュータ製品をアナウンスする新聞記事を集めたもの)のアブストラクトから自動的に抽出された文を、それらについて人手で付けた見出しとともに用いている。
【0005】
バーガーらは、非特許文献2において、ウェブページを要約するためのシステムを提案している。彼らはウェブページ文書の要約を、語彙統計の面から試みている。彼らは、語を選択し順序付けしてウェブページの要約を作成する際に、確率的モデルを用いている。
【0006】
【非特許文献1】
K.ナイトおよびD.マルキュ、「統計に基づく要約―ステップ1:文の圧縮」、AAAI‘00,2000年(K. Knight and D. Marcu.: “Statistics−Based Summarization − Step One: Sentence Compression”,AAAI’00,2000)
【非特許文献2】
A.バーガー及びヴィッブ O.ミッタル、「OCELOT:ウェブページを要約するためのシステム」SIGIR−2000,2000年(A. Berger and Vibbu O. Mittal.: “OCELOT: A system for summarizing web pages”,SIGIR−2000,2000)
【非特許文献3】
スガヤ、F.、タケザワ、T.、キクイ、G.、ヤマモト、S.、「セルにより形成された登録による、超大規模コーパス収集の提案」、LREC大会予稿集、ラス・パルマス、グラン・キャナリア、2002年(Sugaya,F.,Takezawa,T.,Kikui,G. and Yamamoto,S.,“Proposal of a very−large−corpus acquisition method by cell−formed registration”,Proceedings of the LREC Conference,Las Palmas,Gran Canaria,2002.)
【非特許文献4】
タケザワ、F、スミタ、E、スガヤ、F、ヤマモト、H.、ヤマモト、S.、「実世界における旅行会話の会話翻訳のための大規模バイリンガルコーパスに向けて」、LREC大会予稿集、ラス・パルマス、グラン・キャナリア、2002年(Takezawa,F. Sumita,E.,Sugaya,F.,Yamamoto,H.,and Yamamoto S.,“Toward a Broad−coverage Bilingual Corpus for Speech Translation of Travel Conversations in the Real World”,Proceedings ofthe LREC Conference,Las Palmas,Gran Canaria,2002.)
【非特許文献5】
ドヨン、J.、テイラー、K.、ホワイト、J.S.、「過去及び現在におけるDARPA機械翻訳評価手法」、ATMA大会予稿集、フィラデルフィア、PA.、1988年(Doyon,J.,Taylor,K.,and White,J.S.,“The DARPAMT Evaluation Methodology: Past and Present”,Proceedings of the ATMA Conference,Philadelphia,PA,1998.)
【発明が解決しようとする課題】
K.ナイトらの目的は、換言ではなく、文書を要約したり一貫性のある要約を作成したりする事である。その過程で情報が失われる。バーガーらの目的は、ウェブページ文書の要約である。この場合にも、その過程で情報が失われる。従って、自然言語テキストの前処理にはこれらは適していない。
【0007】
それゆえに本発明の一つの目的は、情報の損失を最小にしながら文を短くする事ができる様にするための方法、装置およびコンピュータプログラムを提供する事である。
【0008】
本発明の他の目的は、正確な自然言語処理を可能にする目的で、文を短くする事ができる様にするための方法、装置及びコンピュータプログラムを提供する事である。
【0009】
【課題を解決するための手段】
本発明の一局面はデータ処理システムにおいて統計的翻訳装置をトレーニングするためのトレーニングデータを生成する方法に関し、当該方法は、所定の言語の複数の文を含むコーパスを準備するステップと、当該コーパス内の類似した文を複数個のクラスタにクラスタリングするステップと、それら複数個のクラスタから、選択された粒度のクラスタを選択するステップと、当該選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するステップと、当該選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された一文と対にするステップとを含む。
【0010】
クラスタリングするステップは、各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するステップと、当該クラスタのうち対となりうるものの各々について、距離を計算するステップと、前記クラスタのうち対となり得るもの中で、互いの距離が最も近い二つのクラスタをマージするステップと、残りのクラスタが予め定められた数となるまで、前記計算するステップと、マージするステップとを繰返すステップとを含んでもよい。
【0011】
好ましくは、予め定められた数は1である。
【0012】
複数個のクラスタはツリーを形成し、複数個のクラスタの各々は、このツリー内のノードを形成し、トレーニングデータを選択するステップは、予め定められた順番(例えば、トップダウンの幅優先探索)に従ってツリー内のノードを選択するステップと、当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するステップと、この平均距離がしきい値未満か否かを判定するステップと、平均距離がしきい値未満である場合、選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを、ノードを選択するステップの対象から排除するステップと、ノードが一つも残らなくなるまで、選択するステップ、評価するステップおよびクラスタ内に入れるステップを繰返すステップとを含んでもよい。
【0013】
二つのクラスタC1及びC2の間の前記平均距離は、以下の式によって与えられてもよい。
【0014】
【数3】
ただしc1およびc2はクラスタC1及びC2内の文をそれぞれ表し、editdist(c1,c2)は文c1およびc2の間の編集距離を表す。
【0015】
文の間の距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表す様にしてもよい。
【0016】
好ましくは、一文を選択する前記ステップは、各クラスタ内で最も短い文を選択するステップを含んでもよい。
【0017】
本発明の他の局面は、統計的機械翻訳エンジンを用いた換言装置をトレーニングするための方法に関し、上記した方法のいずれかにより準備されたトレーニングデータを用いて当該統計的機械翻訳エンジンをトレーニングするステップを含む。
【0018】
本発明のさらに他の局面は、上記した方法のいずれかにより準備されたトレーニングデータによってトレーニングされた換言装置に関する。
【0019】
本発明の他の一つの局面は、文をより短い文に換言するためのデータ処理システムに関し、このシステムは、所定の言語の複数の文を含むコーパスを準備するための手段と、このコーパス内の類似した文を複数個のクラスタにクラスタリングするための手段と、これら複数個のクラスタから、選択された粒度のクラスタを選択するための手段と、選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するための手段と、これら選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された一文と対にするための手段とを含む。
【0020】
クラスタリングするための手段は、各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するための手段と、当該クラスタのうち対となりうるものの各々について、距離を計算するための手段と、クラスタのうち対となり得るもののうち、互いの距離が最も近い二つのクラスタをマージするための手段と、残りのクラスタが予め定められた数となるまで、計算するための手段およびマージするための手段を繰返し動作させるための手段とを含んでもよい。
【0021】
予め定められた数は1でもよい。
【0022】
複数個のクラスタはツリーを形成し、これら複数個のクラスタの各々は、当該ツリー内のノードを形成し、トレーニングデータを選択するための手段は、予め定められた順番(例えば、トップダウンの幅優先探索)に従ってツリー内のノードを選択するための手段と、当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するための手段と、平均距離がしきい値未満か否かを判定するための手段と、平均距離がしきい値未満である場合、選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを、ノードを選択するための手段の対象から排除するための手段と、ノードが一つも残らなくなるまで、選択するための手段、評価するための手段及びクラスタ内に入れるための手段を繰返し動作させるための手段とを含んでもよい。
【0023】
二つのクラスタC1及びC2の間の前記平均距離は、以下の式によって与えてもよい。
【0024】
【数4】
ただしc1およびc2はクラスタC1及びC2内の文をそれぞれ表し、editdist(c1,c2)は文c1及びc2の間の編集距離を表す。
【0025】
文の間の編集距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表してもよい。
【0026】
一文を選択するための手段は、各クラスタ内で最も短い文を選択するための手段を含んでもよい。
【0027】
本発明の他の局面は、コンピュータにより実行されると、上記したプログラムのいずれかの全てのステップを実行する様に構成されたプログラムコード手段を含むコンピュータプログラムに関する。
【0028】
本発明のさらに他の局面は、コンピュータ可読な記憶媒体上に記録された、上記したコンピュータプログラムに関する。
【0029】
【発明の実施の形態】
−システムの概略−
本実施の形態で我々は、換言という作業を翻訳という作業として取り扱う。このシステムでは、一つの「言語」(長い文)を他の言語(対応の長い文と同じ意味を表す短い文)に翻訳する事が求められる。我々は、http://www.clsp.jhu.edu/ws99/projects/mt/toolkit/で入手可能なEGYPT機械翻訳システムと、我々が開発したデコーダとを用いて、翻訳作業を行なう。このシステムは、(各「言語」から1文ずつの)文の対からなるコーパスのみを用いてトレーニング可能である。
【0030】
図1は、本願発明の一実施の形態の文換言システムの概略をブロック図形式で示したものである。図1を参照して、このシステムは、コーパスに基づいて、換言モデルを構築しトレーニングするための換言モデルトレーニングモジュール2と、入力文8をより短い出力文9に換言するための換言モジュール6とを含む。出力文9は自然言語処理モジュール10に与えられる事になる。本実施の形態では、換言モデルトレーニングモジュール2及び換言モジュール6は別個のものであり、換言モデルトレーニングモジュール2で生成された換言モデルデータ24はCD−ROM(Compact Disc Read−Only Memory)4に格納され換言モジュール6に与えられる。当業者であれば、換言モデルトレーニングモジュール2及び換言モジュール6は同じコンピュータ上にあってもよく、従って、換言モデルデータ24をCD−ROM4に格納する事なく換言モデルトレーニングモジュール2および換言モジュール6により共有できる事は容易に理解できるであろう。
【0031】
換言モデルトレーニングモジュール2は、換言コーパス12と、コーパス12内の類似した文をクラスタリングし、類似した換言のクラスタ16を出力するためのクラスタリングモジュール14と、類似した換言のクラスタ16から所定の粒度の文のクラスタをトレーニングデータセット20として選択するためのトレーニングデータ選択モジュール18と、トレーニングデータセット20から換言モデルデータ24として換言知識を抽出するためのトレーニングモジュール22とを含む。
【0032】
換言コーパス12は、出願人による換言コーパス(スガヤらによる。2002年。非特許文献3を参照されたい。)のサブセットである。このコーパスは、一組の英語の文をシードとして展開した換言文の集合からなる。コーパス内の全ての文は、旅行会話の本という領域から取り出されたものである。換言コーパス12内の文例を図2に示す。
【0033】
クラスタリングモジュール14は、コンピュータプログラムにより実現される。クラスタリングモジュール14は、編集距離、すなわちある文を他の文に変換するために必要な、挿入、削除、単語と単語との置換操作の数に従って、それぞれの換言の組を階層的にクラスタリングする。結果(類似した換言のクラスタ16)は、文を葉として持ち、かつ類似した文はツリー内では互いに近い位置にあるような二分木となる。葉でないノードは、類似した文の集合を規定する。二分木の例を図3に示す。ここで用いたアルゴリズムは図7に示し、後に説明する。
【0034】
トレーニングデータ選択モジュール18はコンピュータプログラムにより実現される。ここでは、類似した文のクラスタであって、任意の所定の粒度のものがこの樹形図から抽出される。これらの、類似した文のクラスタを規定した後、このクラスタ内の(最も短いものを除く)全ての文を、クラスタ内で最も短い文と対にする事でトレーニングデータを生成する。ここで使用するアルゴリズムは図8に示す、詳細については後述する。
【0035】
トレーニングモジュール22は、トレーニングデータセット20から換言知識を換言モデルデータ24として抽出する。換言モジュール6が後述する様に換言エンジンとして統計的翻訳装置(SMT)を使用するので、換言モデルデータ24は通常のSMTで使用される翻訳モデルの形をとる。
【0036】
図1を参照して、換言モジュール6は換言モデルデータ26を含む。この換言モデルデータ26は換言モデルデータ24と同じである。換言モジュール6はさらに、換言モデルデータ26を用いて入力文8をより短い出力文9に「翻訳」するための統計的機械翻訳エンジン28を含む。
【0037】
統計的機械翻訳エンジン28はEGYPTとともに、http://www−i6.informatik.rwth−aachen.de/Colleagues/och/software/GIZA++.htmlで入出可能なGIZA++を使用している。
【0038】
通常のSMTがトレーニングモジュールを含む事、従ってトレーニングデータセット20のみが統計的機械翻訳エンジン28に与えられ、SMTがそのデータによりトレーニングされる事に注意すべきである。
【0039】
−コンピュータによる実装−
上記した実施の形態はコンピュータハードウェアと、その上で実行されるソフトウェアとにより実現される。図4は本実施の形態に係るコンピュータシステム30の外観を示す図であり、図5は、システム30のブロック図である。図4を参照して、このコンピュータシステム30は、FD(フレキシブルディスク)ドライブ52及びCD−ROMドライブ50を有するコンピュータ40と、キーボード46と、マウス46と、モニタ42とを含む。
【0040】
図5を参照して、コンピュータ40は、FDドライブ52及びCD−ROMドライブ50に加えて、CPU(中央演算処理装置)56と、CPU56、CD−ROM及びFDドライブ50及び52に接続されたバス66と、ブートアッププログラムなどのプログラムを格納するための読出し専用メモリ(ROM)58と、バス66に接続され、アプリケーションプログラム命令、システムプログラム、及びデータを格納するためのランダムアクセスメモリ(RAM)60とを含む。
【0041】
ここには示していないが、コンピュータ40はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードをさらに含んでもよい。
【0042】
コンピュータシステム30に、文の換言方法を実行させるためのプログラムは、CD−ROMドライブ50又はFDドライブ52に挿入されるCD−ROM62又はFD64に格納され、さらにハードディスク54に転送される。又はこれに代えて、プログラムは図示しないネットワークを介してコンピュータ40に送信され、ハードディスク54に格納されてもよい。プログラムは実行時にはRAM60にロードされる。なお、プログラムをCD−ROM62又はFD64若しくはネットワークを介して直接RAM60にロードしてもよい。
【0043】
以下に説明するプログラムは、コンピュータ40に本実施の形態の方法を実行させるための多数の命令を含む。当該方法を実施する上で必要な基本的機能のいくつかはコンピュータ40上で実行されているオペレーティングシステム(OS)又はコンピュータ40上にインストールされたツールなどのサードパーティプログラム又はモジュールにより提供されるので、このプログラムは本実施の形態の方法を実施するために必要な基本的機能の全てを含む必要はない。このプログラムは、所望の結果が得られる様に、管理された形で適切な関数若しくは「ツール」を呼出す事でプロセスを実行する部分の命令だけを含んでいればよい。コンピュータシステム30の動作は周知であるので、ここではそれについては繰返さない。
【0044】
−プログラムフローチャート−
図6は、本実施の形態の換言モデルを構築しトレーニングするためのプログラムの制御の流れを示す。図6を参照して、このプログラムは、コーパスを準備するステップ80と、文を類似した文のクラスタにクラスタリングするステップ82と、クラスタからトレーニングデータを選択するステップ84と、ステップ84で選択されたトレーニングデータを用いて換言モデルをトレーニングするステップ86とを含む。
【0045】
図7はステップ82の詳細を示す。図7を参照して、クラスタリングするステップ82は以下のステップを含む。
【0046】
最初に、ステップ90で、換言された文の組の中の各文がそれ自身のクラスタに割り当てられる。各クラスタは、クラスタリングにより生成されたツリー中のノードを表す。次に、クラスタのうち対となり得るものの各々に対し、それらの間の距離(各クラスタ内の構成要素の間の平均編集距離)がステップ92で計算される。クラスタC1及びC2の間の編集距離は次の式により計算される。
【0047】
【数5】
ただし、「editdist(c1,c2)」は文c1およびc2の間の編集距離を表す。
【0048】
次に、互いに最も近い二つのクラスタがステップ94でマージされる。すなわち、ノードC1及びC2の上に親ノードが生成される。
【0049】
次のステップ96では、一つのクラスタしか残らなくなるまでステップ92および94が繰返される。
【0050】
このクラスタリング処理の結果はツリー、すなわち樹形図である。このツリーの葉は文である。ツリー内で互いに近い位置にある葉は、編集距離という点でも同様に類似している。このような手法の背後にある動機は、編集距離の点で互いに近い文同士は、機械翻訳装置のトレーニングにおいても良好な文の対を形成するだろうという事である。葉でないノードは、類似した文の集合を規定する。
【0051】
図6のステップ84において、任意の粒度の、類似した文のクラスタを以下の様にして樹形図から抽出できる。
【0052】
図8を参照して、ステップ110で、ツリーに対するトップダウンの幅優先探索によりノードが選択される。ステップ110で選択された各ノードに対し、ステップ112でこのクラスタ内の構成要素間の「平均的距離」が評価される。ステップ114で、この「平均的距離」がしきい値未満か否かが判定される。もし「平均的距離」がこのしきい値未満であれば、つまりこのクラスタ内の構成要素が互いに十分近ければ、ステップ116でこのノードに属する全ての葉ノードは一つのクラスタにまとめられる。さらに、このサブツリー内のどのノードも、さらにクラスタを作成する際には候補として考慮されない。もしも「平均的距離」がしきい値以上であれば、すなわち、それらが十分近くなければ、このサブツリーの探索がさらに行なわれる。
【0053】
ステップ118では、ツリー内で、ステップ110から116が行なわれていないノードが存在しているか否かが判定される。もしも答えが「no」であれば制御はステップ110に戻り、さもなければ制御はステップ120に進む。
【0054】
ステップ120から122では、SMTモデルをトレーニングするために使用されるトレーニングデータがこれらクラスタから生成される。トレーニングデータは、文の対の形で得られる。トレーニングデータは以下の様にして選択される。
【0055】
ステップ120で、各クラスタについて、クラスタ内で最も短い文(s0)が選択される。ステップ122では、この文s0が、クラスタ内の全ての他の文と対にされ、文の対の集合が得られる。従って、もしもクラスタがn個の文を含んでいれば、n−1個の文の対がトレーニングデータとして得られる。この対の作成の例を、図3に示された二分木の場合について、図9及び図10に示す。
【0056】
ステップ86ではモデルのトレーニングが実行される。ここでは、標準的なSMT装置のトレーニングデータが実行される。この実施の形態では、トレーニングにGIZA++システムを用いる。なお、文の対から翻訳を学習する事ができる翻訳装置であれば、どのようなものに対するトレーニングツールであっても使用する事ができる。
【0057】
このモデルは、CD−ROM4に格納され、さらに図1に示す換言モデルデータ26として換言モジュール6に格納される。換言モデルデータ26を用いて統計的機械翻訳エンジン28を動作させ、入力文8を統計的機械翻訳エンジン28に与える事により、出力文9を得る。長い文は統計的機械翻訳エンジン28により通常の形でデコードされ、より短い出力文9が直接に得られる。文9は入力文8よりも短く、しかも入力文8と同じ意味を含んでいるので、モジュール10による自然言語処理は、よりよい結果をもたらす事になる。
【0058】
−実験−
図11の文は、本システムの入力及び出力の結果(良いものと悪いものとの双方)を示す。このシステムは、よくある迂遠な表現をよりコンパクトな形に変換する様に学習済である。このシステムが犯す誤りは、文を非文法的にしたり、何らかの意味が失われたりするような語の省略であり、文を長くするような語の挿入という誤りはまれである。時に、このシステムでは文が変更されない場合もあるが、実験の全ての例のうちの99%において、SMT換言装置によって文が変更された。
【0059】
文の短縮量はそれらの長さに依存する。予期された通り、実験では、ソース文が長ければ短い入力文よりも短縮量は大きい。例えば、平均では、6語の入力文は22%短縮され4.68語になり、長さ9語の文は30.5%短縮され6.25語の文になった。
【0060】
このシステムにより機械翻訳の出力として得られた換言について、以下のような十分性(Adequacy)試験(ドヨンら、1998年。非特許文献5を参照されたい。)を用いて評価した。文を、日本語を母語とする評価者により、図12に示した十分性に関する評点を用いて評価した。
【0061】
加えて、短縮された正しく換言された文のサンプルをコーパスから抽出し評価対象データ内に混入させ、人によるラベル付けの基準を得る様にした。そして、非特許文献1に従って、我々はターゲット文の最大のバイグラム確率に基づいたベースラインモデルを使用した。すなわち、ソース文の中の先後関係に従って配列された語のシーケンスの全てを調べ、語のバイグラムの確率が最も大きなシーケンスをベースライン文として選択した。
【0062】
ソースの各々から100文を抽出してランダムに混合し、同時に一人の判定者によって評点を付けた。結果を図13に示す。この結果をT検定に付し、各手法の間に有意な差があるか否かを判定した。検定によれば、p<0.01ではSMT手法のパフォーマンスとベースラインモデルのパフォーマンスとの間には有意な差がある。
【0063】
ここに示した結果には大いに望みがある。このシステムは良い性能を示し、その評点はベースラインモデルの評点よりもはるかに人の評点に近い。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る文換言システムの概略ブロック図である。
【図2】文換言コーパス12内の例を示す図である。
【図3】二分木の例を示す図である。
【図4】本実施の形態に係るコンピュータシステム30の外観を示す図である。
【図5】システム30のブロック図である。
【図6】本実施の形態に係る換言モデルを構築しトレーニングするためのプログラムの制御の流れを示すフローチャートである。
【図7】図6のステップ82の詳細を示す図である。
【図8】図6のステップ84の詳細を示す図である。
【図9】文を対にする処理の例を示す図である。
【図10】対となった文の例を示す図である。
【図11】本発明の一実施の形態に係るシステムの入力と出力の例を示す図である。
【図12】本願発明の実施の形態での評価において用いられた十分性の尺度を示す図である。
【図13】本実施の形態での、一人の判定者による出力の評価付けの結果を示す図である。
【図14】長い文と、それらを短くした文との例を示す図である。
【符号の説明】
2 換言モデルトレーニングモジュール、4,62 CD−ROM、6 換言モジュール、8 入力文、9 出力文、10 自然言語処理モジュール、12 換言コーパス、14 クラスタリングモジュール、18 トレーニングデータ選択モジュール、20 トレーニングデータセット、22 トレーニングモジュール、24,26 換言モデルデータ、28 統計的機械翻訳エンジン、30 コンピュータシステム、40 コンピュータ
【発明が属する技術分野】
この発明は自然言語で書かれたテキストを処理するための方法、装置およびコンピュータプログラムに関し、特に、文の意味を失う事なく文をより短い文に換言する際に用いられる方法、装置及びコンピュータプログラムに関する。
【0002】
【従来の技術】
例えば構文解析、機械翻訳等、多くの自然言語処理アプリケーションにおいて長い文というのは大きな問題である。これらの作業の多くにおいて、元の入力文の換言に対し作業可能であり、換言されたものがより短ければ、それによってシステム(例えば機械翻訳システム)は、失敗せずに入力を処理可能になる。もしも元の文内の全ての情報が換言内にも存在していれば、その文を処理した最終結果は情報が失われた場合よりも正確なものとなる。
【0003】
図14に、長い文とそれらをより短くした文とのいくつかの例を示す。短い文が長い文の情報を保持している事に注意されたい。
【0004】
ナイトらは、非特許文献1において、統計に基づいた文書の要約方法を提案している。彼らは、構文解析を基本として文の要約を試みている。その目的のために、彼らはZiff−Davisコーパス(コンピュータ製品をアナウンスする新聞記事を集めたもの)のアブストラクトから自動的に抽出された文を、それらについて人手で付けた見出しとともに用いている。
【0005】
バーガーらは、非特許文献2において、ウェブページを要約するためのシステムを提案している。彼らはウェブページ文書の要約を、語彙統計の面から試みている。彼らは、語を選択し順序付けしてウェブページの要約を作成する際に、確率的モデルを用いている。
【0006】
【非特許文献1】
K.ナイトおよびD.マルキュ、「統計に基づく要約―ステップ1:文の圧縮」、AAAI‘00,2000年(K. Knight and D. Marcu.: “Statistics−Based Summarization − Step One: Sentence Compression”,AAAI’00,2000)
【非特許文献2】
A.バーガー及びヴィッブ O.ミッタル、「OCELOT:ウェブページを要約するためのシステム」SIGIR−2000,2000年(A. Berger and Vibbu O. Mittal.: “OCELOT: A system for summarizing web pages”,SIGIR−2000,2000)
【非特許文献3】
スガヤ、F.、タケザワ、T.、キクイ、G.、ヤマモト、S.、「セルにより形成された登録による、超大規模コーパス収集の提案」、LREC大会予稿集、ラス・パルマス、グラン・キャナリア、2002年(Sugaya,F.,Takezawa,T.,Kikui,G. and Yamamoto,S.,“Proposal of a very−large−corpus acquisition method by cell−formed registration”,Proceedings of the LREC Conference,Las Palmas,Gran Canaria,2002.)
【非特許文献4】
タケザワ、F、スミタ、E、スガヤ、F、ヤマモト、H.、ヤマモト、S.、「実世界における旅行会話の会話翻訳のための大規模バイリンガルコーパスに向けて」、LREC大会予稿集、ラス・パルマス、グラン・キャナリア、2002年(Takezawa,F. Sumita,E.,Sugaya,F.,Yamamoto,H.,and Yamamoto S.,“Toward a Broad−coverage Bilingual Corpus for Speech Translation of Travel Conversations in the Real World”,Proceedings ofthe LREC Conference,Las Palmas,Gran Canaria,2002.)
【非特許文献5】
ドヨン、J.、テイラー、K.、ホワイト、J.S.、「過去及び現在におけるDARPA機械翻訳評価手法」、ATMA大会予稿集、フィラデルフィア、PA.、1988年(Doyon,J.,Taylor,K.,and White,J.S.,“The DARPAMT Evaluation Methodology: Past and Present”,Proceedings of the ATMA Conference,Philadelphia,PA,1998.)
【発明が解決しようとする課題】
K.ナイトらの目的は、換言ではなく、文書を要約したり一貫性のある要約を作成したりする事である。その過程で情報が失われる。バーガーらの目的は、ウェブページ文書の要約である。この場合にも、その過程で情報が失われる。従って、自然言語テキストの前処理にはこれらは適していない。
【0007】
それゆえに本発明の一つの目的は、情報の損失を最小にしながら文を短くする事ができる様にするための方法、装置およびコンピュータプログラムを提供する事である。
【0008】
本発明の他の目的は、正確な自然言語処理を可能にする目的で、文を短くする事ができる様にするための方法、装置及びコンピュータプログラムを提供する事である。
【0009】
【課題を解決するための手段】
本発明の一局面はデータ処理システムにおいて統計的翻訳装置をトレーニングするためのトレーニングデータを生成する方法に関し、当該方法は、所定の言語の複数の文を含むコーパスを準備するステップと、当該コーパス内の類似した文を複数個のクラスタにクラスタリングするステップと、それら複数個のクラスタから、選択された粒度のクラスタを選択するステップと、当該選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するステップと、当該選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された一文と対にするステップとを含む。
【0010】
クラスタリングするステップは、各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するステップと、当該クラスタのうち対となりうるものの各々について、距離を計算するステップと、前記クラスタのうち対となり得るもの中で、互いの距離が最も近い二つのクラスタをマージするステップと、残りのクラスタが予め定められた数となるまで、前記計算するステップと、マージするステップとを繰返すステップとを含んでもよい。
【0011】
好ましくは、予め定められた数は1である。
【0012】
複数個のクラスタはツリーを形成し、複数個のクラスタの各々は、このツリー内のノードを形成し、トレーニングデータを選択するステップは、予め定められた順番(例えば、トップダウンの幅優先探索)に従ってツリー内のノードを選択するステップと、当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するステップと、この平均距離がしきい値未満か否かを判定するステップと、平均距離がしきい値未満である場合、選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを、ノードを選択するステップの対象から排除するステップと、ノードが一つも残らなくなるまで、選択するステップ、評価するステップおよびクラスタ内に入れるステップを繰返すステップとを含んでもよい。
【0013】
二つのクラスタC1及びC2の間の前記平均距離は、以下の式によって与えられてもよい。
【0014】
【数3】
ただしc1およびc2はクラスタC1及びC2内の文をそれぞれ表し、editdist(c1,c2)は文c1およびc2の間の編集距離を表す。
【0015】
文の間の距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表す様にしてもよい。
【0016】
好ましくは、一文を選択する前記ステップは、各クラスタ内で最も短い文を選択するステップを含んでもよい。
【0017】
本発明の他の局面は、統計的機械翻訳エンジンを用いた換言装置をトレーニングするための方法に関し、上記した方法のいずれかにより準備されたトレーニングデータを用いて当該統計的機械翻訳エンジンをトレーニングするステップを含む。
【0018】
本発明のさらに他の局面は、上記した方法のいずれかにより準備されたトレーニングデータによってトレーニングされた換言装置に関する。
【0019】
本発明の他の一つの局面は、文をより短い文に換言するためのデータ処理システムに関し、このシステムは、所定の言語の複数の文を含むコーパスを準備するための手段と、このコーパス内の類似した文を複数個のクラスタにクラスタリングするための手段と、これら複数個のクラスタから、選択された粒度のクラスタを選択するための手段と、選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するための手段と、これら選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された一文と対にするための手段とを含む。
【0020】
クラスタリングするための手段は、各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するための手段と、当該クラスタのうち対となりうるものの各々について、距離を計算するための手段と、クラスタのうち対となり得るもののうち、互いの距離が最も近い二つのクラスタをマージするための手段と、残りのクラスタが予め定められた数となるまで、計算するための手段およびマージするための手段を繰返し動作させるための手段とを含んでもよい。
【0021】
予め定められた数は1でもよい。
【0022】
複数個のクラスタはツリーを形成し、これら複数個のクラスタの各々は、当該ツリー内のノードを形成し、トレーニングデータを選択するための手段は、予め定められた順番(例えば、トップダウンの幅優先探索)に従ってツリー内のノードを選択するための手段と、当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するための手段と、平均距離がしきい値未満か否かを判定するための手段と、平均距離がしきい値未満である場合、選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを、ノードを選択するための手段の対象から排除するための手段と、ノードが一つも残らなくなるまで、選択するための手段、評価するための手段及びクラスタ内に入れるための手段を繰返し動作させるための手段とを含んでもよい。
【0023】
二つのクラスタC1及びC2の間の前記平均距離は、以下の式によって与えてもよい。
【0024】
【数4】
ただしc1およびc2はクラスタC1及びC2内の文をそれぞれ表し、editdist(c1,c2)は文c1及びc2の間の編集距離を表す。
【0025】
文の間の編集距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表してもよい。
【0026】
一文を選択するための手段は、各クラスタ内で最も短い文を選択するための手段を含んでもよい。
【0027】
本発明の他の局面は、コンピュータにより実行されると、上記したプログラムのいずれかの全てのステップを実行する様に構成されたプログラムコード手段を含むコンピュータプログラムに関する。
【0028】
本発明のさらに他の局面は、コンピュータ可読な記憶媒体上に記録された、上記したコンピュータプログラムに関する。
【0029】
【発明の実施の形態】
−システムの概略−
本実施の形態で我々は、換言という作業を翻訳という作業として取り扱う。このシステムでは、一つの「言語」(長い文)を他の言語(対応の長い文と同じ意味を表す短い文)に翻訳する事が求められる。我々は、http://www.clsp.jhu.edu/ws99/projects/mt/toolkit/で入手可能なEGYPT機械翻訳システムと、我々が開発したデコーダとを用いて、翻訳作業を行なう。このシステムは、(各「言語」から1文ずつの)文の対からなるコーパスのみを用いてトレーニング可能である。
【0030】
図1は、本願発明の一実施の形態の文換言システムの概略をブロック図形式で示したものである。図1を参照して、このシステムは、コーパスに基づいて、換言モデルを構築しトレーニングするための換言モデルトレーニングモジュール2と、入力文8をより短い出力文9に換言するための換言モジュール6とを含む。出力文9は自然言語処理モジュール10に与えられる事になる。本実施の形態では、換言モデルトレーニングモジュール2及び換言モジュール6は別個のものであり、換言モデルトレーニングモジュール2で生成された換言モデルデータ24はCD−ROM(Compact Disc Read−Only Memory)4に格納され換言モジュール6に与えられる。当業者であれば、換言モデルトレーニングモジュール2及び換言モジュール6は同じコンピュータ上にあってもよく、従って、換言モデルデータ24をCD−ROM4に格納する事なく換言モデルトレーニングモジュール2および換言モジュール6により共有できる事は容易に理解できるであろう。
【0031】
換言モデルトレーニングモジュール2は、換言コーパス12と、コーパス12内の類似した文をクラスタリングし、類似した換言のクラスタ16を出力するためのクラスタリングモジュール14と、類似した換言のクラスタ16から所定の粒度の文のクラスタをトレーニングデータセット20として選択するためのトレーニングデータ選択モジュール18と、トレーニングデータセット20から換言モデルデータ24として換言知識を抽出するためのトレーニングモジュール22とを含む。
【0032】
換言コーパス12は、出願人による換言コーパス(スガヤらによる。2002年。非特許文献3を参照されたい。)のサブセットである。このコーパスは、一組の英語の文をシードとして展開した換言文の集合からなる。コーパス内の全ての文は、旅行会話の本という領域から取り出されたものである。換言コーパス12内の文例を図2に示す。
【0033】
クラスタリングモジュール14は、コンピュータプログラムにより実現される。クラスタリングモジュール14は、編集距離、すなわちある文を他の文に変換するために必要な、挿入、削除、単語と単語との置換操作の数に従って、それぞれの換言の組を階層的にクラスタリングする。結果(類似した換言のクラスタ16)は、文を葉として持ち、かつ類似した文はツリー内では互いに近い位置にあるような二分木となる。葉でないノードは、類似した文の集合を規定する。二分木の例を図3に示す。ここで用いたアルゴリズムは図7に示し、後に説明する。
【0034】
トレーニングデータ選択モジュール18はコンピュータプログラムにより実現される。ここでは、類似した文のクラスタであって、任意の所定の粒度のものがこの樹形図から抽出される。これらの、類似した文のクラスタを規定した後、このクラスタ内の(最も短いものを除く)全ての文を、クラスタ内で最も短い文と対にする事でトレーニングデータを生成する。ここで使用するアルゴリズムは図8に示す、詳細については後述する。
【0035】
トレーニングモジュール22は、トレーニングデータセット20から換言知識を換言モデルデータ24として抽出する。換言モジュール6が後述する様に換言エンジンとして統計的翻訳装置(SMT)を使用するので、換言モデルデータ24は通常のSMTで使用される翻訳モデルの形をとる。
【0036】
図1を参照して、換言モジュール6は換言モデルデータ26を含む。この換言モデルデータ26は換言モデルデータ24と同じである。換言モジュール6はさらに、換言モデルデータ26を用いて入力文8をより短い出力文9に「翻訳」するための統計的機械翻訳エンジン28を含む。
【0037】
統計的機械翻訳エンジン28はEGYPTとともに、http://www−i6.informatik.rwth−aachen.de/Colleagues/och/software/GIZA++.htmlで入出可能なGIZA++を使用している。
【0038】
通常のSMTがトレーニングモジュールを含む事、従ってトレーニングデータセット20のみが統計的機械翻訳エンジン28に与えられ、SMTがそのデータによりトレーニングされる事に注意すべきである。
【0039】
−コンピュータによる実装−
上記した実施の形態はコンピュータハードウェアと、その上で実行されるソフトウェアとにより実現される。図4は本実施の形態に係るコンピュータシステム30の外観を示す図であり、図5は、システム30のブロック図である。図4を参照して、このコンピュータシステム30は、FD(フレキシブルディスク)ドライブ52及びCD−ROMドライブ50を有するコンピュータ40と、キーボード46と、マウス46と、モニタ42とを含む。
【0040】
図5を参照して、コンピュータ40は、FDドライブ52及びCD−ROMドライブ50に加えて、CPU(中央演算処理装置)56と、CPU56、CD−ROM及びFDドライブ50及び52に接続されたバス66と、ブートアッププログラムなどのプログラムを格納するための読出し専用メモリ(ROM)58と、バス66に接続され、アプリケーションプログラム命令、システムプログラム、及びデータを格納するためのランダムアクセスメモリ(RAM)60とを含む。
【0041】
ここには示していないが、コンピュータ40はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードをさらに含んでもよい。
【0042】
コンピュータシステム30に、文の換言方法を実行させるためのプログラムは、CD−ROMドライブ50又はFDドライブ52に挿入されるCD−ROM62又はFD64に格納され、さらにハードディスク54に転送される。又はこれに代えて、プログラムは図示しないネットワークを介してコンピュータ40に送信され、ハードディスク54に格納されてもよい。プログラムは実行時にはRAM60にロードされる。なお、プログラムをCD−ROM62又はFD64若しくはネットワークを介して直接RAM60にロードしてもよい。
【0043】
以下に説明するプログラムは、コンピュータ40に本実施の形態の方法を実行させるための多数の命令を含む。当該方法を実施する上で必要な基本的機能のいくつかはコンピュータ40上で実行されているオペレーティングシステム(OS)又はコンピュータ40上にインストールされたツールなどのサードパーティプログラム又はモジュールにより提供されるので、このプログラムは本実施の形態の方法を実施するために必要な基本的機能の全てを含む必要はない。このプログラムは、所望の結果が得られる様に、管理された形で適切な関数若しくは「ツール」を呼出す事でプロセスを実行する部分の命令だけを含んでいればよい。コンピュータシステム30の動作は周知であるので、ここではそれについては繰返さない。
【0044】
−プログラムフローチャート−
図6は、本実施の形態の換言モデルを構築しトレーニングするためのプログラムの制御の流れを示す。図6を参照して、このプログラムは、コーパスを準備するステップ80と、文を類似した文のクラスタにクラスタリングするステップ82と、クラスタからトレーニングデータを選択するステップ84と、ステップ84で選択されたトレーニングデータを用いて換言モデルをトレーニングするステップ86とを含む。
【0045】
図7はステップ82の詳細を示す。図7を参照して、クラスタリングするステップ82は以下のステップを含む。
【0046】
最初に、ステップ90で、換言された文の組の中の各文がそれ自身のクラスタに割り当てられる。各クラスタは、クラスタリングにより生成されたツリー中のノードを表す。次に、クラスタのうち対となり得るものの各々に対し、それらの間の距離(各クラスタ内の構成要素の間の平均編集距離)がステップ92で計算される。クラスタC1及びC2の間の編集距離は次の式により計算される。
【0047】
【数5】
ただし、「editdist(c1,c2)」は文c1およびc2の間の編集距離を表す。
【0048】
次に、互いに最も近い二つのクラスタがステップ94でマージされる。すなわち、ノードC1及びC2の上に親ノードが生成される。
【0049】
次のステップ96では、一つのクラスタしか残らなくなるまでステップ92および94が繰返される。
【0050】
このクラスタリング処理の結果はツリー、すなわち樹形図である。このツリーの葉は文である。ツリー内で互いに近い位置にある葉は、編集距離という点でも同様に類似している。このような手法の背後にある動機は、編集距離の点で互いに近い文同士は、機械翻訳装置のトレーニングにおいても良好な文の対を形成するだろうという事である。葉でないノードは、類似した文の集合を規定する。
【0051】
図6のステップ84において、任意の粒度の、類似した文のクラスタを以下の様にして樹形図から抽出できる。
【0052】
図8を参照して、ステップ110で、ツリーに対するトップダウンの幅優先探索によりノードが選択される。ステップ110で選択された各ノードに対し、ステップ112でこのクラスタ内の構成要素間の「平均的距離」が評価される。ステップ114で、この「平均的距離」がしきい値未満か否かが判定される。もし「平均的距離」がこのしきい値未満であれば、つまりこのクラスタ内の構成要素が互いに十分近ければ、ステップ116でこのノードに属する全ての葉ノードは一つのクラスタにまとめられる。さらに、このサブツリー内のどのノードも、さらにクラスタを作成する際には候補として考慮されない。もしも「平均的距離」がしきい値以上であれば、すなわち、それらが十分近くなければ、このサブツリーの探索がさらに行なわれる。
【0053】
ステップ118では、ツリー内で、ステップ110から116が行なわれていないノードが存在しているか否かが判定される。もしも答えが「no」であれば制御はステップ110に戻り、さもなければ制御はステップ120に進む。
【0054】
ステップ120から122では、SMTモデルをトレーニングするために使用されるトレーニングデータがこれらクラスタから生成される。トレーニングデータは、文の対の形で得られる。トレーニングデータは以下の様にして選択される。
【0055】
ステップ120で、各クラスタについて、クラスタ内で最も短い文(s0)が選択される。ステップ122では、この文s0が、クラスタ内の全ての他の文と対にされ、文の対の集合が得られる。従って、もしもクラスタがn個の文を含んでいれば、n−1個の文の対がトレーニングデータとして得られる。この対の作成の例を、図3に示された二分木の場合について、図9及び図10に示す。
【0056】
ステップ86ではモデルのトレーニングが実行される。ここでは、標準的なSMT装置のトレーニングデータが実行される。この実施の形態では、トレーニングにGIZA++システムを用いる。なお、文の対から翻訳を学習する事ができる翻訳装置であれば、どのようなものに対するトレーニングツールであっても使用する事ができる。
【0057】
このモデルは、CD−ROM4に格納され、さらに図1に示す換言モデルデータ26として換言モジュール6に格納される。換言モデルデータ26を用いて統計的機械翻訳エンジン28を動作させ、入力文8を統計的機械翻訳エンジン28に与える事により、出力文9を得る。長い文は統計的機械翻訳エンジン28により通常の形でデコードされ、より短い出力文9が直接に得られる。文9は入力文8よりも短く、しかも入力文8と同じ意味を含んでいるので、モジュール10による自然言語処理は、よりよい結果をもたらす事になる。
【0058】
−実験−
図11の文は、本システムの入力及び出力の結果(良いものと悪いものとの双方)を示す。このシステムは、よくある迂遠な表現をよりコンパクトな形に変換する様に学習済である。このシステムが犯す誤りは、文を非文法的にしたり、何らかの意味が失われたりするような語の省略であり、文を長くするような語の挿入という誤りはまれである。時に、このシステムでは文が変更されない場合もあるが、実験の全ての例のうちの99%において、SMT換言装置によって文が変更された。
【0059】
文の短縮量はそれらの長さに依存する。予期された通り、実験では、ソース文が長ければ短い入力文よりも短縮量は大きい。例えば、平均では、6語の入力文は22%短縮され4.68語になり、長さ9語の文は30.5%短縮され6.25語の文になった。
【0060】
このシステムにより機械翻訳の出力として得られた換言について、以下のような十分性(Adequacy)試験(ドヨンら、1998年。非特許文献5を参照されたい。)を用いて評価した。文を、日本語を母語とする評価者により、図12に示した十分性に関する評点を用いて評価した。
【0061】
加えて、短縮された正しく換言された文のサンプルをコーパスから抽出し評価対象データ内に混入させ、人によるラベル付けの基準を得る様にした。そして、非特許文献1に従って、我々はターゲット文の最大のバイグラム確率に基づいたベースラインモデルを使用した。すなわち、ソース文の中の先後関係に従って配列された語のシーケンスの全てを調べ、語のバイグラムの確率が最も大きなシーケンスをベースライン文として選択した。
【0062】
ソースの各々から100文を抽出してランダムに混合し、同時に一人の判定者によって評点を付けた。結果を図13に示す。この結果をT検定に付し、各手法の間に有意な差があるか否かを判定した。検定によれば、p<0.01ではSMT手法のパフォーマンスとベースラインモデルのパフォーマンスとの間には有意な差がある。
【0063】
ここに示した結果には大いに望みがある。このシステムは良い性能を示し、その評点はベースラインモデルの評点よりもはるかに人の評点に近い。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る文換言システムの概略ブロック図である。
【図2】文換言コーパス12内の例を示す図である。
【図3】二分木の例を示す図である。
【図4】本実施の形態に係るコンピュータシステム30の外観を示す図である。
【図5】システム30のブロック図である。
【図6】本実施の形態に係る換言モデルを構築しトレーニングするためのプログラムの制御の流れを示すフローチャートである。
【図7】図6のステップ82の詳細を示す図である。
【図8】図6のステップ84の詳細を示す図である。
【図9】文を対にする処理の例を示す図である。
【図10】対となった文の例を示す図である。
【図11】本発明の一実施の形態に係るシステムの入力と出力の例を示す図である。
【図12】本願発明の実施の形態での評価において用いられた十分性の尺度を示す図である。
【図13】本実施の形態での、一人の判定者による出力の評価付けの結果を示す図である。
【図14】長い文と、それらを短くした文との例を示す図である。
【符号の説明】
2 換言モデルトレーニングモジュール、4,62 CD−ROM、6 換言モジュール、8 入力文、9 出力文、10 自然言語処理モジュール、12 換言コーパス、14 クラスタリングモジュール、18 トレーニングデータ選択モジュール、20 トレーニングデータセット、22 トレーニングモジュール、24,26 換言モデルデータ、28 統計的機械翻訳エンジン、30 コンピュータシステム、40 コンピュータ
Claims (20)
- データ処理システムにおいて統計的翻訳装置をトレーニングするためのトレーニングデータを生成する方法であって、
所定の言語の複数の文を含むコーパスを準備するステップと、
前記コーパス内の類似した文を複数個のクラスタにクラスタリングするステップと、
前記複数個のクラスタから、選択された粒度のクラスタを選択するステップと、
前記選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するステップと、
前記選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された前記一文と対にするステップとを含む、方法。 - 前記クラスタリングするステップは、
各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するステップと、
当該クラスタのうち対となりうるものの各々について、距離を計算するステップと、
前記クラスタのうち対となり得るものの中で、互いの距離が最も近い二つのクラスタをマージするステップと、
残りのクラスタが予め定められた数となるまで、前記計算するステップと、マージするステップとを繰返すステップとを含む、データ処理システムにおける請求項1に記載の方法。 - 前記予め定められた数は1である、データ処理システムにおける請求項2に記載の方法。
- 前記複数個のクラスタはツリーを形成し、前記複数個のクラスタの各々は、当該ツリー内のノードを形成し、トレーニングデータを選択する前記ステップは、
予め定められた順番に従って前記ツリー内のノードを選択するステップと、
当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するステップと、
前記平均距離がしきい値未満か否かを判定するステップと、
前記平均距離がしきい値未満である場合、前記選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを前記ノードを選択するステップの対象から排除するステップと、
ノードが一つも残らなくなるまで、前記選択するステップ、評価するステップ及びクラスタ内に入れるステップを繰返すステップとを含む、データ処理システムにおける請求項2から請求項3のいずれかに記載の方法。 - 文の間の前記距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表される、データ処理システムにおける請求項5に記載の方法。
- 前記一文を選択する前記ステップは、各クラスタ内で最も短い文を選択するステップを含む、データ処理システムにおける請求項4〜請求項6のいずれかに記載の方法。
- 前記予め定められた順序は、トップダウンの幅優先探索である、請求項1〜請求項7のいずれかに記載の方法。
- 統計的翻訳エンジンを用いた換言装置をトレーニングする方法であって、請求項1〜請求項8のいずれかに記載の方法によって準備されたトレーニングデータを用いて前記統計的翻訳エンジンをトレーニングするステップを含む、方法。
- 請求項1〜請求項8のいずれかに記載の方法により準備されたトレーニングデータを用いてトレーニングされた換言装置。
- 文をより短い文に換言するためのデータ処理システムであって、
所定の言語の複数の文を含むコーパスを準備するための手段と、
前記コーパス内の類似した文を複数個のクラスタにクラスタリングするための手段と、
前記複数個のクラスタから、選択された粒度のクラスタを選択するための手段と、
前記選択された粒度のクラスタの各々において、所定の基準を満足する長さの一文を選択するための手段と、
前記選択された粒度のクラスタの各々において、文の各々を、当該クラスタにおいて選択された前記一文と対にするための手段とを含む、データ処理システム。 - 前記クラスタリングするための手段は、
各文をそれ自身のクラスタに割り当てる事により複数のクラスタを作成するための手段と、
当該クラスタのうち対となりうるものの各々について、距離を計算するための手段と、
前記クラスタのうち対となり得るものの中で、互いの距離が最も近い二つのクラスタをマージするための手段と、
残りのクラスタが予め定められた数となるまで、前記計算するための手段及びマージするための手段を繰返し動作させるための手段とを含む、請求項11に記載のデータ処理システム。 - 前記予め定められた数は1である、請求項12に記載のデータ処理システム。
- 前記複数個のクラスタはツリーを形成し、前記複数個のクラスタの各々は、当該ツリー内のノードを形成し、トレーニングデータを選択するための前記手段は、
予め定められた順番に従って前記ツリー内のノードを選択するための手段と、
当該選択されたノードに対応するクラスタの構成要素の間の平均距離を評価するための手段と、
前記平均距離がしきい値未満か否かを判定するための手段と、
前記平均距離がしきい値未満である場合、前記選択されたノードに属する全てのノードを一つのクラスタ内に入れ、当該選択されたノードに属するノードを前記ノードを選択するための手段の対象から排除するための手段と、
ノードが一つも残らなくなるまで、前記選択するための手段、評価するための手段及びクラスタ内に入れるための手段を繰返し動作させるための手段とを含む、請求項12から請求項13のいずれかに記載のデータ処理システム。 - 文の間の前記編集距離は、一つの文を他の文に変換するために必要な挿入、削除、又は単語と単語の置換の数により表される、請求項15に記載のデータ処理システム。
- 前記一文を選択するための前記手段は、各クラスタ内で最も短い文を選択するための手段を含む、請求項14〜請求項16のいずれかに記足のデータ処理システム。
- 前記予め定められた順序は、トップダウンの幅優先探索である、請求項14〜請求項16のいずれかに記載の方法。
- コンピュータにより実行されると、請求項1〜請求項9のいずれかに記載の全てのステップを実行する様に構成されたコンピュータプログラムコード手段を含む、コンピュータプログラム。
- コンピュータ可読な記憶媒体上に記憶された、請求項19に記載のコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002272481A JP2004252495A (ja) | 2002-09-19 | 2002-09-19 | 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002272481A JP2004252495A (ja) | 2002-09-19 | 2002-09-19 | 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004252495A true JP2004252495A (ja) | 2004-09-09 |
Family
ID=33018688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002272481A Pending JP2004252495A (ja) | 2002-09-19 | 2002-09-19 | 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004252495A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012527701A (ja) * | 2009-05-22 | 2012-11-08 | マイクロソフト コーポレーション | 構造化されていないリソースからの句対のマイニング |
CN103092829A (zh) * | 2011-10-27 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种复述资源获取方法及系统 |
CN110837741A (zh) * | 2019-11-14 | 2020-02-25 | 北京小米智能科技有限公司 | 一种机器翻译方法、装置及系统 |
-
2002
- 2002-09-19 JP JP2002272481A patent/JP2004252495A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012527701A (ja) * | 2009-05-22 | 2012-11-08 | マイクロソフト コーポレーション | 構造化されていないリソースからの句対のマイニング |
CN103092829A (zh) * | 2011-10-27 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种复述资源获取方法及系统 |
CN103092829B (zh) * | 2011-10-27 | 2015-11-25 | 北京百度网讯科技有限公司 | 一种复述资源获取方法及系统 |
CN110837741A (zh) * | 2019-11-14 | 2020-02-25 | 北京小米智能科技有限公司 | 一种机器翻译方法、装置及系统 |
CN110837741B (zh) * | 2019-11-14 | 2023-11-07 | 北京小米智能科技有限公司 | 一种机器翻译方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2484410C (en) | System for identifying paraphrases using machine translation techniques | |
Sanguinetti et al. | PoSTWITA-UD: an Italian Twitter Treebank in universal dependencies | |
Bott et al. | Can spanish be simpler? lexsis: Lexical simplification for spanish | |
JP2017199363A (ja) | 機械翻訳装置及び機械翻訳のためのコンピュータプログラム | |
CN111814451A (zh) | 文本处理方法、装置、设备和存储介质 | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
Rahman et al. | A corpus based n-gram hybrid approach of bengali to english machine translation | |
Wax | Automated grammar engineering for verbal morphology | |
EP1503295A1 (en) | Text generation method and text generation device | |
JP2009217689A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2016164707A (ja) | 自動翻訳装置及び翻訳用モデル学習装置 | |
Lopez et al. | Improved HMM alignment models for languages with scarce resources | |
JP2004252495A (ja) | 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム | |
Nguyen et al. | A tree-to-string phrase-based model for statistical machine translation | |
Rikters et al. | Combining machine translated sentence chunks from multiple MT systems | |
Devi et al. | Steps of pre-processing for english to mizo smt system | |
JP2005284723A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Tammewar et al. | Can distributed word embeddings be an alternative to costly linguistic features: A study on parsing hindi | |
Praveena et al. | Chunking based malayalam paraphrase identification using unfolding recursive autoencoders | |
JP4708682B2 (ja) | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 | |
Alansary et al. | The universal networking language in action in English-Arabic machine translation | |
JP2018147102A (ja) | 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム | |
Yamada | A syntax-based statistical translation model | |
JP2006252290A (ja) | 機械翻訳装置及びコンピュータプログラム | |
Johansson | Depending on VR: Rule-based Text Simplification Based on Dependency Relations |