JP3919720B2 - 換言装置及びコンピュータプログラム - Google Patents
換言装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP3919720B2 JP3919720B2 JP2003303920A JP2003303920A JP3919720B2 JP 3919720 B2 JP3919720 B2 JP 3919720B2 JP 2003303920 A JP2003303920 A JP 2003303920A JP 2003303920 A JP2003303920 A JP 2003303920A JP 3919720 B2 JP3919720 B2 JP 3919720B2
- Authority
- JP
- Japan
- Prior art keywords
- subtree
- pairs
- linked
- sentence
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この発明は換言システムに関し、特に、文を自動的に換言する換言システムに関する。
NLP(自然言語処理)の応用には、換言が得られれば非常に有用な情報となるような問題が多く存在する。詳細なパージングまたは機械翻訳のような作業は、文によってはしばしば失敗したり、困難であったりするが、これは、それら文の長さと、文そのものの性質との組合せによる。換言が利用できれば、このようなシステムにもう一度チャンスが与えられるであろうし、または、元のソース文のみを用いては考慮されなかったような可能性を生出すチャンスが与えられるかもしれない。
テキストが換言可能であれば、例えばテキストの要約、正規化、パージング、機械翻訳等の分野で多くの実際的な応用が考えられる。
以下に挙げる特許文献1が開示する換言装置は、最初に文を形態素に分解し、分解された文の中の異なる部分と同じ部分とを検出することにより、換言表を生成する。異なる部分のうち予め規定された条件を満たすものが換言として特定され、抽出され、換言表に記憶される。
異なる部分は以下の場合に換言であるとされる。すなわち、
1)その部分がかなり稀な表現の対に挟まれており、かつ
2)その部分がコーパス中の異なる場所にしばしば現れる場合である。
1)その部分がかなり稀な表現の対に挟まれており、かつ
2)その部分がコーパス中の異なる場所にしばしば現れる場合である。
この発明の目的の一つは、大規模コーパスに基づく換言を可能にする方法と装置とを提供することである。
この発明の別の目的は、大規模コーパスに基づき、自然な換言を生成することができる方法と装置とを提供することである。
この発明に係る換言装置は、リンクされたサブツリー対の集合を記憶するための第一の記憶手段を含む。サブツリー対の各々はソースサブツリーとターゲットサブツリーとを含む。換言装置は、入力文をパーズして入力文のパーズツリーを出力するためのパーズ手段と、パーズ手段によって出力された入力文のパーズツリーのサブツリーに合成演算子を適用して文の集合を導出するための導出手段とをさらに含む。合成演算子は第一の記憶手段に記憶された、リンクされたサブツリー対の集合に対し定義される。換言装置は、導出手段によって導出された文の集合内の文のうち、予め定められた条件を満たすものを、入力文の換言として選択するための選択手段をさらに含む。
この換言装置はさらに、リンクされたサブツリー対の尤度を記憶するための第二の記憶手段と、導出手段によって導出された文の各々の尤度を、文を導出するのに用いられたサブツリー対の各々の尤度に基づいて計算するための計算手段と、同じ表現を生成する、導出された文の尤度の総和を求めるための総和手段とを含んでもよく、選択手段は、導出手段によって導出された文の集合中の文から、総和手段によって求められた尤度の総和が最も高いものを、入力文の換言として選択するための手段を含む。
好ましくは、導出手段が、リンクされたサブツリーの対を検索するための、ツリーノード照合アルゴリズムを含む手段と、入力文のパーズツリーと、入力文のパーズツリーのそれぞれのサブツリーと一致するソースサブツリーにそれぞれ対応するターゲットサブツリーとに、合成演算子を適用するための手段とを含む。
サブツリー対の尤度は、リンクされたサブツリー対の集合に現れるサブツリー対のカウントと、リンクされたサブツリー対の集合内の、サブツリー対と同じルートノードラベルを備えたすべてのサブツリー対のカウントの総和との関数であってもよい。
特に、サブツリー対の尤度は、リンクされたサブツリー対の集合にある当該サブツリー対のカウントを、リンクされたサブツリー対の集合内の、サブツリー対と同じルートノードラベルを備えた全てのサブツリー対のカウントの総和で除したものであってもよい。
この発明の第2の局面に従ったコンピュータプログラムは、コンピュータ上で実行されると、コンピュータを上述の換言装置として動作させる。
この発明の第3の局面に従った文の対を準備する方法は、予め定められた言語の文のコーパスを準備するステップと、コーパス内の文を、コーパス内の文間の編集距離に応じてクラスタリングするステップと、所望の粒度に応じて文のクラスタを抽出するステップと、抽出したクラスタ内で文を対にするステップとを含む。
クラスタリングするステップは、コーパス内の各文をそれ自身のクラスタに割当るステップと、可能なクラスタ対の各々について、当該クラスタ対の間の距離を計算するステップと、距離が最も近い2個のクラスタをマージするステップと、クラスタが1個だけになるまで、計算するステップ及びマージするステップを繰返すステップとを含んでもよい。
この発明の第4の局面に従ったリンクされたサブツリーを準備する方法は、文の対を準備するステップと、文の対の各々の文をパーズするステップと、文の対の各々のソース文とターゲット文におけるノード間の双射マッピングを定義するステップと、
1)リンクされたサブツリーのリンクされたノードの各々について、両方のノードが子を持たないか、または両方のノードが対応する元のツリーからの全ての子を有し、
2)リンクされたサブツリーの両方のサブツリーにおいて、リンクされていないノードはいずれも、対応する元のツリーからの全ての子を持ち、かつ、
3)リンクされたサブツリーの両方のサブツリーが2以上のノードを含む、
という条件を満たす、双射マッピングにより定義された連結サブグラフの全ての対を収集することにより、文の対の各々のソース文とターゲット文とのツリーから、リンクされたサブツリーの対を抽出するステップとを含む。
1)リンクされたサブツリーのリンクされたノードの各々について、両方のノードが子を持たないか、または両方のノードが対応する元のツリーからの全ての子を有し、
2)リンクされたサブツリーの両方のサブツリーにおいて、リンクされていないノードはいずれも、対応する元のツリーからの全ての子を持ち、かつ、
3)リンクされたサブツリーの両方のサブツリーが2以上のノードを含む、
という条件を満たす、双射マッピングにより定義された連結サブグラフの全ての対を収集することにより、文の対の各々のソース文とターゲット文とのツリーから、リンクされたサブツリーの対を抽出するステップとを含む。
以下の記載中で言及する文献については、明細書の最後に掲げてある。
-データ指向翻訳(Data Oriented Translation:DOT)-
この発明の一実施例の自動データ指向換言器(data−oriented paraphraser:DOPP)は、データ指向翻訳(DOT)(文献1)の原理に基づいている。DOTモデルはデータ指向パーズ(data−oriented parsing:DOP)(文献2)に基づいている。データ指向のパーザの元となる原理は、それまでに見たことのない文のパーズでも、ツリーバンクコーパス内の文から抽出したパーズツリーのフラグメントを組合わせることで確率論的に構築できる、というものである。
この発明の一実施例の自動データ指向換言器(data−oriented paraphraser:DOPP)は、データ指向翻訳(DOT)(文献1)の原理に基づいている。DOTモデルはデータ指向パーズ(data−oriented parsing:DOP)(文献2)に基づいている。データ指向のパーザの元となる原理は、それまでに見たことのない文のパーズでも、ツリーバンクコーパス内の文から抽出したパーズツリーのフラグメントを組合わせることで確率論的に構築できる、というものである。
それらフラグメントは、実際上、パーズツリーを構築できる文法を形成する。各パーズには多くの導出があり得るので、パーズの尤度はその導出の各々の尤度の総和である。最新のDOPパーザは、最先端の統計的パーザ(文献3)に匹敵する性能を有している。
データ指向翻訳技術の動作方法は、DOPと同様である。しかしこの場合には、2個のツリーが同時に構築される。ソース言語のツリーと、ターゲット言語でのその文に対応するツリーとである。この場合のフラグメントは、ソースフラグメントのノードとターゲットフラグメントのノードとにおいて意味的に等価なもの同士のリンクを含み、その思想は、リンクされたノード同士を相互に意味を失うことなく交換可能である、というものである。図1の上部に示された対により、リンクされたツリーの対を示す。
図1を参照して、リンクされたツリー110は、ノードが互いにリンクされているツリー112及び114を含む。例えば、ツリー112のノードNPはツリー114のノードNPにリンクされ、ツリー112のノードNNはツリー114のノードNNにリンクされ、以下同様である。
図1の下部の対は、リンクされたサブツリー(フラグメント)を示す。例えば、フラグメント120は、ノード同士がリンクされたサブツリー122及び124を含む。別のフラグメント130はサブツリー132及び134を含む。
-自動句アライメント-
文献1では、サブツリーの中で互いに等価なノードには手作業でラベルが付される。しかし、これらのリンクに手作業でラベルを付すのは非常に手間がかかる。これに対して、この実施の形態では、サブツリー中の等価なノード間のリンクには、文献4に基づく技術を用いて自動的にラベル付けがされる。リンクに自動的にラベルを付すことができるので、多大な労力をかけることなく大規模なコーパスを生成することができる。
文献1では、サブツリーの中で互いに等価なノードには手作業でラベルが付される。しかし、これらのリンクに手作業でラベルを付すのは非常に手間がかかる。これに対して、この実施の形態では、サブツリー中の等価なノード間のリンクには、文献4に基づく技術を用いて自動的にラベル付けがされる。リンクに自動的にラベルを付すことができるので、多大な労力をかけることなく大規模なコーパスを生成することができる。
ここで目標とするのは、τs={νs,εs}で表されるソースパーズツリーを、ターゲットツリー、τt={νt,εt}のノードにマッピングすることである。ここでνs={ν1 s,ν2 s,…νn s}、及びνt={ν1 t,ν2 t,…νn t}はそれぞれ、ソースツリー及びターゲットツリーの頂点集合であり、εt及びεtはそれらのエッジ集合である。
このアルゴリズムはソースツリー及びターゲットツリーにおけるノード間の双射マッピングψ: νs→εsを定義するものであり、以下のように進む。
1.文をパーズする。今回の実験の目的では、広く入手可能なパーザを用いる(文献5)。
2.文中の語をアラインする。ここでは、広く入手可能なEGYPT機械翻訳ソフトウェアによる語アライメントの出力を用いることとした。リンクされた語の対の集合Lが生成される。
3.全てのリンクから、i(0<i<|L|)個の語のリンクを選択し、これらリンクを含む全ての統語的ノード(終端でないシンボル)を収集し、パーズされたツリーから、葉ノード中で他の全ての語のリンクを排除する。
4.プロセス3で見出された全てのノードの統語的カテゴリを比較する。同一のノードカテゴリが見出された場合には、そのノードの葉を等価な句とみなす。もし文または助動詞句カテゴリの候補が複数見出されたときには、最大の領域をカバーする候補が選択される。他の曖昧な事例では、最小の領域をカバーする候補が選択される。
5.全ての語のリンクの組合わせについて、ステップ3及び4を繰返す。
-リンクされたサブツリーの抽出-
ツリーがリンクされた後の次のステップは、換言を導出する文法として用いられるリンクされたサブツリーの対(すなわちフラグメント)を抽出することである。コーパス中のリンクされたツリーの各対について、以下の条件全てを満たす連結サブグラフ(リンクを保存しているもの)の対全てを収集する。すなわち、
1.フラグメント中のリンクされたノード対の各々について、両方のノードに子がないか、または対応する元のツリーからの全ての子を持ち、
2.フラグメントの両方のサブツリーにおいて、リンクされていないノードはいずれも、対応する元のツリーからの全ての子を持ち、
3.フラグメントのサブツリーの両方が2以上のノードからなる。
ツリーがリンクされた後の次のステップは、換言を導出する文法として用いられるリンクされたサブツリーの対(すなわちフラグメント)を抽出することである。コーパス中のリンクされたツリーの各対について、以下の条件全てを満たす連結サブグラフ(リンクを保存しているもの)の対全てを収集する。すなわち、
1.フラグメント中のリンクされたノード対の各々について、両方のノードに子がないか、または対応する元のツリーからの全ての子を持ち、
2.フラグメントの両方のサブツリーにおいて、リンクされていないノードはいずれも、対応する元のツリーからの全ての子を持ち、
3.フラグメントのサブツリーの両方が2以上のノードからなる。
コーパスから全てのフラグメントを収集したものを、「リンクされたサブツリー対の集合」Bと呼ぶ。各フラグメントfiは、コーパス中でそのフラグメントが生じた回数を表すカウントを持つ。パーズを導出する際には、導出の次のステップとして、このカウントを用いて集合からこのフラグメントを選択する尤度p(fi)を計算する。尤度は単に、このカウント|fi|を、リンクされた全てのサブツリーの集合内で、同じルートノードラベルを持つ全てのサブツリーの数の総和で除したものである(ツリーfiのルートノードのラベルをr(fi)で示す。)。
図2を参照して、フラグメント140はサブツリー112および114を含む。サブツリー112はノード152を有し、これはサブツリー114のノード154とリンクされる。フラグメント142はサブツリー162及び164を含む。これらのフラグメント140及び142を組合わせることにより、合成演算子によりサブツリー(文)の対170が生成される。
正式には、演算子は、2個のフラグメントf1=<τs1,τt1 >及びf2=<τs2,τt2>について、r(f2)がτs1の最も左側の語でない葉ノードのラベルと同じであるときのみ定義される。この合成の結果はリンクされたツリー対<τs3,τ t3>である。ここでτs3は、τs1の最も左の語でない葉ノードνi s1をf2のソースサブツリーτs2で置換えたものである。フラグメントの構成の性質により、この最も左の語でない葉は、フラグメントのターゲットサブツリー内のノードにリンクされる。すなわち、ψ(νi s1)=νj t1。ノードνj t1はターゲットサブツリーτt2で置換えられ、τt3が得られる。この合成を、<τs1,τt1>○<τs2,τt2>=<τs3,τt3>、またはより簡潔にf1○f2=f3と表記する。導出f1○f2○…○fNの尤度は以下の式で与えられる。
1個のターゲット文wtは、ソース文wsからの多くの導出を有することがある。可能な全ての導出の総和をとることで、換言の尤度が得られる。ここでは、最善の換言として、最も高いP(wt|ws)を持つものを選択する。
-曖昧性解消-
ソース文から生じる全ての導出に対し、最も可能性の高い換言を見出す必要がある。実際には、全てのリンクされたサブツリーの集合内のフラグメントのうちのソースフラグメントにより規定されるツリーフラグメントの文法に従ったチャートパーザを用いてソース文がパーズされるので、当然、ターゲット換言のための(必ずしも正確でない)パーズツリーを生成する。
ソース文から生じる全ての導出に対し、最も可能性の高い換言を見出す必要がある。実際には、全てのリンクされたサブツリーの集合内のフラグメントのうちのソースフラグメントにより規定されるツリーフラグメントの文法に従ったチャートパーザを用いてソース文がパーズされるので、当然、ターゲット換言のための(必ずしも正確でない)パーズツリーを生成する。
同じ文について多くの導出が可能なので、最も可能性の高い導出を見出すだけでは不充分であり、ターゲット換言についての全ての導出の尤度の総和を全て調べなければならない。ここでは、換言の尤度を推定するために、モンテカルロ法による導出のサンプリングという通常の手法を採用した(文献1)。その考え方は、十分に大きいサンプルであれば基となる分布を正確に近似するだろう、というものである。
-実務的考察-
DOT技術を大規模に試験する場合、作業の規模による問題が生じるであろう。全体的にも、また長い文からも、生成可能なフラグメントの数が多いので、重大な問題が引起こされる可能性がある。これを克服するために、どの一文についても、そこから得られるフラグメントの数を適当に制限することが実際的かも知れない。コーパス中での発生回数がしきい値(例えば、5)より少ないフラグメントは捨てることも有効であろう。
DOT技術を大規模に試験する場合、作業の規模による問題が生じるであろう。全体的にも、また長い文からも、生成可能なフラグメントの数が多いので、重大な問題が引起こされる可能性がある。これを克服するために、どの一文についても、そこから得られるフラグメントの数を適当に制限することが実際的かも知れない。コーパス中での発生回数がしきい値(例えば、5)より少ないフラグメントは捨てることも有効であろう。
未知の語を取扱う場合に備えて、またシステムが少なくとも一つは確実に換言を出力するように、ソース文をそれ自身と対にすることで生成されたフラグメントの集合を、文を換言する前にトレーニングセットに付加してもよい。
-構造-
図3は上述の換言方法を実現するこの実施例の換言システムの構造を示す。図3を参照して、このシステムは、換言コーパス20から、フラグメントの集合と、その集合内のフラグメントの各々についての尤度の集合とを生成するフラグメント生成ユニット22を含む。
図3は上述の換言方法を実現するこの実施例の換言システムの構造を示す。図3を参照して、このシステムは、換言コーパス20から、フラグメントの集合と、その集合内のフラグメントの各々についての尤度の集合とを生成するフラグメント生成ユニット22を含む。
システムはさらに、フラグメント生成ユニット22によって生成されたフラグメントの集合を記憶する換言記憶部24と、フラグメントの各々についてフラグメント生成ユニットによって計算された尤度を記憶する尤度記憶部26と、換言された文42を生成する換言器14とを含む。この換言文は換言記憶部24に記憶されたフラグメントと、尤度記憶部26に記憶されたそれらのそれぞれの尤度とを用いて得られた、入力文30の換言である。
換言器14は、入力文30をパーズして、パーズツリーを生成するパーザ32と、換言記憶部24に記憶されたフラグメントとパーザ32によって生成された入力文30のパーズツリーとを用いて入力文30の換言を導出し、尤度記憶部26に記憶された尤度に基づき、導出のそれぞれの尤度を計算するための導出ユニット34と、導出ユニット34から出力された導出と、導出のそれぞれの尤度とを記憶するための導出記憶部36とを含む。
換言器14はさらに、同じ換言を生じさせるような導出の尤度の総和を求める総和ユニット38と、総和ユニット38によって計算された尤度の総和が最も高い換言を選択し選択された換言を換言された文42として出力するためのセレクタ40とを含む。なお、セレクタ40は、換言文のうち、入力文30とは異なるものを選択する。
この実施例の換言コーパス20は出願人が作成した換言コーパスのサブセットである。このコーパスは、旅行者用に作られた一種のフレーズ集から引いた約50,000の換言文(500,000語)からなる。このデータを生成するために、約1000のシーズ文を換言した。
図4はフラグメント生成ユニット22の詳細なブロック図である。図4を参照して、フラグメント生成ユニット22は換言コーパス20内の文をクラスタリングしてクラスタ化されたコーパス72を生成するためのクラスタリングユニット70を含む。
クラスタリングユニット70は、以下の凝集的クラスタリングアルゴリズムに従って換言コーパス20内の文をクラスタリングする。
1.換言された文の組の各文にそれ自身のクラスタを割当てる。
2.可能なクラスタ対の各々について、それらの距離(クラスタのメンバ間の平均編集距離)を計算する。
3.最も近い2個のクラスタをマージする。
4.クラスタが1個だけになるまで、ステップ2及び3を繰返す。
これを行なうのは、トレーニングに用いられる文の対が、編集距離に関して互いに比較的近いものであるようにしながら、トレーニングセットのサイズを削減するためである。ここで編集距離とは、一つの文を別の文に変換するのに必要とされる挿入、削除、または単語の置換動作の数を示す。
クラスタリングの結果得られるのはツリーすなわち樹形図であり、クラスタ化されたコーパス72として記憶される。このツリーの葉ノードは文である。ツリー内で互いに近い葉は、編集距離という点でも類似している。こうしたやり方を採るのは、編集距離が類似する文は機械翻訳装置のトレーニングにおいて良好な文の対を形成するはずである、と考えられるためである。
図4を再び参照して、フラグメント生成ユニット22はさらに、外部信号73によって指定される粒度で樹形図のサブツリーの葉である文を選択することによって文のクラスタ76を抽出するためのクラスタ抽出ユニット74と、抽出された文のクラスタ76内の文を対にし、文の対80を出力するための対形成ユニット78とを含む。
フラグメント生成ユニット22はさらに、チャルニアックのパーザ(文献5)で文の対80をパーズし、パーズツリー84を生成するためのパーザ82と、パーズツリー84の各々のソースパーズツリー内のノードをターゲットツリーのノードにマッピングし、マップされたサブツリー88を生成するためのマッピングユニット86とを含む。
フラグメント生成ユニット22はさらに、換言を導出するための文法として用いられることとなるリンクされたサブツリーの対を抽出するリンクされたサブツリー抽出ユニット90と、コーパス中で各フラグメントが発生する回数を計数するためのカウンタ92と、以下により、フラグメントの尤度26を計算する尤度計算ユニット94とを含む。
-動作-
この実施例に従ったシステムは以下のように動作する。
この実施例に従ったシステムは以下のように動作する。
このシステムの動作には2つのフェーズがある。第一フェーズでは、換言記憶部24と尤度記憶部26とが、フラグメント生成ユニット22により換言コーパス20から作られる。第二フェーズでは、入力文30が換言器14に与えられ、換言記憶部24と尤度記憶部26とに基づき、換言された文42が生成される。
第一フェーズはさらに、2個のサブフェーズに分けられる。クラスタリングユニット70、クラスタ抽出ユニット74及び対形成ユニット78により、換言コーパス20から文の対80(図4)を生成することと、パーザ82、マッピングユニット86、リンクされたサブツリー抽出ユニット90、カウンタ92、及び尤度計算ユニット94により、文の対80から換言記憶部24及び尤度記憶部26を生成することとである。
クラスタリングユニット70は換言コーパス20の文を、凝集的クラスタリングアルゴリズムによってクラスタリングする。その結果得られるクラスタ化されたコーパス72はクラスタ抽出ユニット74に与えられる。クラスタ抽出ユニット74に外部から与えられる外部信号73に応答して、クラスタ抽出ユニット74は文のクラスタ76を抽出し、これらを対形成ユニット78に与える。クラスタ抽出ユニット74はこのようなサブツリーを、それらのルートノードの平均クラスタ内編集距離のしきい値に従って選択する。対形成ユニット78はクラスタ内の文を対にし、文の対80を生成する。
第二のサブフェーズでは、パーザ82が対の各々の文をパーズし、パーズツリー84を出力する。マッピングユニット86は対の文の各々のパーズツリー内のノードをマッピングする。その結果得られるマッピングされたサブツリー88はリンクされたサブツリー抽出ユニット90に与えられる。
リンクされたサブツリー抽出ユニット90はリンクされたサブツリー(すなわちフラグメント)をマッピングされたサブツリー88から抽出する。このとき、カウンタ92はフラグメントが換言コーパス20内で発生する回数をそれぞれカウントする。カウントに基づき、尤度計算ユニット94がフラグメントの尤度を計算する。
第二フェーズでは、換言器14が入力文30から換言された文42を生成する。最初に、パーザ32が入力文30をパーズし、その結果得られる入力文30のパーズツリーを導出ユニット34に与える。導出ユニット34は、換言記憶部24に基づき、パーザ32から与えられたサブツリーに合成演算子を適用して、入力文30の導出を導き出し、導出記憶部36に記憶させる。同時に、導出それぞれの尤度が、式(2)に従い、尤度記憶部26に記憶されたフラグメントの尤度を用いて計算される。
同じ文に多くの導出が可能であるため、総和ユニット38はターゲット換言の各々について全ての導出の総和を計算する。セレクタ40は最も高い尤度を備えたものを最良の換言として選択し、これを換言された文42として出力する。
-評価-
4個のソースからの換言を評価した。人間の換言、英語についてのこの実施例によるDOPPシステム、統計的機械翻訳ベースのシステム、及び単純なベースラインである。
4個のソースからの換言を評価した。人間の換言、英語についてのこの実施例によるDOPPシステム、統計的機械翻訳ベースのシステム、及び単純なベースラインである。
人間がラベル付けした出力は、コーパスから適当に取り出した、人間が換言した文のサンプルであった。自動的に生成した出力の場合、元の入力文とは異なる文で、最も尤度の高い文を評価した。
ベースラインは、ターゲット文の最大単語バイグラム尤度に基づく。
統計的機械翻訳(SMT)ベースのシステムは、換言コーパスからの文の対でトレーニングされた統計的機械翻訳システムを用いて換言を生成する。SMTベースのシステムは文献6に開示のシステムと類似しており、英文を直接換言する。このシステムは広く利用可能なEGYPTソフトウェアと、出願人の開発したマルチスタックデコーダとからなる。このシステムは、本実施例のDOPPシステムと同じデータでトレーニングされた。
図5の文はシステムの入出力の例を示す。換言を機械翻訳の出力として、適切性試験(adequacy test)(文献7)を用いてスコアリングした。文には、英語を母国語とする3人の評価者により、1から5までの順位を付けた。評点5は、ソース文の表す全ての意味が換言に存在することを示す。評点1は、意味が全く保たれていないことを示す。
ソースの各々からの40個の文をランダムに混ぜ、3人の判定者に同時に順位付けさせたが、判定者には、これらの文はすべて自動的に生成されたものであると説明してある。結果を表1の左から2番目の欄に示す。
これら事例のうち、47%で、全ての判定者が換言について同じ評点を割当てた。カッパ統計によって測定した判定者間の平均一致率は0.63であり、一致のレベルがそれほど高くはないことから、分類作業の曖昧さを示すものとなった。
さらに、各試験文について人間による他の13個の換言からなる基準換言のセットに対し、4個の換言ソースからの出力をスコアリングした。この評価では、人による評価に用いられた試験セットに対する、200文のスーパーセットが用いられた。ソース文自体は基準セットから除外された。出力は、NIST(National Institute of Standard & Technology)及びBLEUの両者について、広く入手可能なMTEVAL−KIT評価ソフトウェア(文献8)のバージョン0.9cを用いてスコアリングした。これらのスコアも表1の右2欄に示してある。
表1からわかるように、3つの自動システムは全て、人間にくらべBLEUスコアがかなり低い。しかし、DOPPシステムは最も高いNISTスコアを達成した。
上述の実施例は単なる例示であって制限的なものと解してはならない。例えば、この発明の実施例の記載に照らして、当業者であればこの発明が汎用コンピュータ上で実行されるソフトウェアで実現され得ること、このようなソフトウェアでプログラムされたコンピュータが上述の換言装置として動作することを理解するであろう。
本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
‐参考文献‐
[1]ポウツマ.1998.データ指向翻訳、「オランダにおける第9回計算機的言語学会議」、リューベン、ベルギー
[2]ボッド.1998.「文法を超えて:経験ベースの言語理論、CSLI講義ノート、第88号」CLSI出版、スタンフォード、カリフォルニア
[3]ボッド.2001.「最大のパーズ精度を達成する最小のフラグメントセットは何か?」ACL‐2001予稿集、ツールーズ、フランス
[4]イマムラ.2001.「パーズとハーモナイズした階層的句アライメント」、第6回自然言語処理環太平洋シンポジウム(NLPRS-2001)、第377‐384頁
[5]チャルニアック.1999.「最大エントロピー直観パーザ」技術レポートCS-99-12、ブラウン大学
[6]フィンチ、T.ワタナベ、E.スミタ.2002.「統計的機械翻訳による換言」FIT2002 予稿集、東京、日本
[7]ドヨン、K.テイラー及びJ.S.ホワイト.1998.「DARPA MT評価方法:過去と現在」ATMAカンファレンス予稿集、フィラデルフィア、PA.
[8]ドジントン.2002.「N−グラム同時発生統計を用いた機械翻訳品質の自動評価」HLTカンファレンス予稿集、サンディエゴ、カリフォルニア
[1]ポウツマ.1998.データ指向翻訳、「オランダにおける第9回計算機的言語学会議」、リューベン、ベルギー
[2]ボッド.1998.「文法を超えて:経験ベースの言語理論、CSLI講義ノート、第88号」CLSI出版、スタンフォード、カリフォルニア
[3]ボッド.2001.「最大のパーズ精度を達成する最小のフラグメントセットは何か?」ACL‐2001予稿集、ツールーズ、フランス
[4]イマムラ.2001.「パーズとハーモナイズした階層的句アライメント」、第6回自然言語処理環太平洋シンポジウム(NLPRS-2001)、第377‐384頁
[5]チャルニアック.1999.「最大エントロピー直観パーザ」技術レポートCS-99-12、ブラウン大学
[6]フィンチ、T.ワタナベ、E.スミタ.2002.「統計的機械翻訳による換言」FIT2002 予稿集、東京、日本
[7]ドヨン、K.テイラー及びJ.S.ホワイト.1998.「DARPA MT評価方法:過去と現在」ATMAカンファレンス予稿集、フィラデルフィア、PA.
[8]ドジントン.2002.「N−グラム同時発生統計を用いた機械翻訳品質の自動評価」HLTカンファレンス予稿集、サンディエゴ、カリフォルニア
14 換言器、20 換言コーパス、22 フラグメント生成ユニット、24 換言記憶部、26 尤度記憶部、30 入力文、32 パーザ、34 導出ユニット、38 総和ユニット、40 セレクタ、42 換言された文、70 クラスタリングユニット、74 クラスタ抽出ユニット、78 対形成ユニット、82 パーザ、86 マッピングユニット、90 リンクされたサブツリー抽出ユニット、92 カウンタ、94 尤度計算ユニット
Claims (5)
- リンクされたサブツリー対の集合を記憶するための第一の記憶手段を含む換言装置であって、前記サブツリー対の各々は、互いの対応するノードがリンクされ、かつ各ノードにラベルが付されたソースサブツリーとターゲットサブツリーとを含み、
前記換言装置はさらに、
入力文をパーズして、各ノードにラベルが付された入力文のパーズツリーを出力するためのパーズ手段と、
前記パーズ手段によって出力された入力文のパーズツリーのサブツリーに、合成演算子を適用して当該サブツリーに対応する換言句の集合を導出するための導出手段とをさらに含み、前記合成演算子は、前記第一の記憶手段に記憶された、リンクされたサブツリー対の集合に対し定義され、かつ、前記入力文のパーズツリーのサブツリーをソースサブツリーとして持つサブツリー対のソースサブツリー及びターゲットサブツリーの互いに対応するノードを、当該ノードのラベルと一致するルートノードラベルを有する他のサブツリー対のソースサブツリー及びターゲットサブツリーでそれぞれ置換する処理を規定するものであり、当該置換後のサブツリー対のターゲットサブツリーによって、前記入力文のサブツリーに対応する換言句が得られ、
前記導出手段によって導出された換言句の集合中の換言句のうち、予め定められた条件を満たすものを前記入力文のサブツリーに対応する換言として選択するための選択手段をさらに含む、換言装置。 - 前記リンクされたサブツリー対の各々の尤度を記憶するための第二の記憶手段と、
前記導出手段によって導出された換言句の各々の尤度を、前記導出手段が当該文を導出する際に用いられたサブツリー対の各々の尤度を前記第二の記憶手段から読出し、当該尤度に基づいて計算するための計算手段と、
導出された換言句の尤度の総和を求めるための総和手段とをさらに含み、
前記選択手段は、前記導出手段によって導出された換言句の集合中の換言句から、総和手段によって求められた尤度の総和が最も高いものを前記入力文のサブツリーに対する換言として選択するための手段を含む、請求項1に記載の換言装置。 - サブツリー対の尤度は、前記リンクされたサブツリー対の集合に現れるサブツリー対のカウントと、前記リンクされたサブツリー対の集合内の、サブツリー対と同じルートノードラベルを備えたすべてのサブツリー対のカウントの総和との関数である、請求項2に記載の換言装置。
- 前記サブツリー対の尤度は、前記リンクされたサブツリー対の集合にある当該サブツリー対のカウントを、前記リンクされたサブツリー対の集合内の、前記サブツリー対と同じルートノードラベルを備えた全てのサブツリー対のカウントの総和で除したものである、請求項3に記載の換言装置。
- コンピュータ上で実行されると、コンピュータを請求項1から請求項4のいずれかに記載の換言装置として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003303920A JP3919720B2 (ja) | 2003-08-28 | 2003-08-28 | 換言装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003303920A JP3919720B2 (ja) | 2003-08-28 | 2003-08-28 | 換言装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005071291A JP2005071291A (ja) | 2005-03-17 |
JP3919720B2 true JP3919720B2 (ja) | 2007-05-30 |
Family
ID=34407753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003303920A Expired - Fee Related JP3919720B2 (ja) | 2003-08-28 | 2003-08-28 | 換言装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3919720B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4386288B2 (ja) | 2005-08-31 | 2009-12-16 | 株式会社日立製作所 | 放射線治療装置の位置決めシステム及び位置決め方法 |
JP6655788B2 (ja) | 2016-02-01 | 2020-02-26 | パナソニックIpマネジメント株式会社 | 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム |
JP6671027B2 (ja) | 2016-02-01 | 2020-03-25 | パナソニックIpマネジメント株式会社 | 換言文生成方法、該装置および該プログラム |
KR102565275B1 (ko) * | 2016-08-10 | 2023-08-09 | 삼성전자주식회사 | 병렬 처리에 기초한 번역 방법 및 장치 |
CN118211574B (zh) * | 2024-05-22 | 2024-07-30 | 山东大学 | 一种基于子树库的多样性可控文本改写方法及装置 |
-
2003
- 2003-08-28 JP JP2003303920A patent/JP3919720B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005071291A (ja) | 2005-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101678787B1 (ko) | 자동질의응답 방법 및 그 장치 | |
US9575955B2 (en) | Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method | |
US8185377B2 (en) | Diagnostic evaluation of machine translators | |
Bott et al. | Can spanish be simpler? lexsis: Lexical simplification for spanish | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
CN111539229A (zh) | 神经机器翻译模型训练方法、神经机器翻译方法及装置 | |
US20110040553A1 (en) | Natural language processing | |
Hassanali et al. | Automatic generation of the index of productive syntax for child language transcripts | |
KR20120021933A (ko) | 의존관계 포레스트를 이용한 통계적 기계 번역 방법 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
Alqudsi et al. | A hybrid rules and statistical method for Arabic to English machine translation | |
JP3919720B2 (ja) | 換言装置及びコンピュータプログラム | |
Asghari et al. | A probabilistic approach to persian ezafe recognition | |
Jain et al. | Codeswitched sentence creation using dependency parsing | |
Mukhtar et al. | Probabilistic context free grammar for Urdu | |
ch Balabantaray et al. | Case study of named entity recognition in Odia using CRF++ tool | |
Scholivet et al. | Sequence models and lexical resources for MWE identification in French | |
Kulick | Exploiting separation of closed-class categories for Arabic tokenization and part-of-speech tagging | |
JP6298785B2 (ja) | 自然言語解析装置、方法、及びプログラム | |
El-Kahlout et al. | Initial explorations in two-phase Turkish dependency parsing by incorporating constituents | |
Debbarma et al. | Morphological Analyzer for Kokborok | |
Selvaramalakshmi et al. | A novel PSS stemmer for string similarity joins | |
Mukhtar et al. | Implementation of Urdu probabilistic parser | |
Jindal et al. | A Framework for Grammatical Error Detection and Correction System for Punjabi Language Using Stochastic Approach | |
Jose et al. | Lexico-syntactic normalization model for noisy SMS text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061024 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070213 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |