JP4876329B2 - Parallel translation probability assigning device, parallel translation probability assigning method, and program thereof - Google Patents
Parallel translation probability assigning device, parallel translation probability assigning method, and program thereof Download PDFInfo
- Publication number
- JP4876329B2 JP4876329B2 JP2001144337A JP2001144337A JP4876329B2 JP 4876329 B2 JP4876329 B2 JP 4876329B2 JP 2001144337 A JP2001144337 A JP 2001144337A JP 2001144337 A JP2001144337 A JP 2001144337A JP 4876329 B2 JP4876329 B2 JP 4876329B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- word
- probability
- translation
- appearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
機械翻訳、クロス言語テキスト検索など、異なる言語の間で言葉の対応をとることを課題とする自然言語処理技術に関する。
【0002】
【従来技術】
機械翻訳、クロス言語テキスト検索など、異なる言語の間で言葉の対応をとることを課題とする自然言語処理技術においては、一方の言語の単語を、もう一方の言語の適切な単語に対応させることは非常に重要な課題であり、訳語選択の問題と呼ばれている。この課題が重要な問題であることは、一般にどのような言語対の場合にも当てはまるが、以下では英語と日本語の場合を取り上げ、具体例を示して説明する。
【0003】
英語の単語は一般に複数の意味をもち、一般にはそれぞれ異なる日本語の単語に対応する。ところが、自然言語処理分野において元の英単語の使われている状況を正しく判断して適切な日本語の単語を選択することは、一般には非常に困難である。たとえば、英語の単語「term」には「期間」という意味の他に「専門用語」という意味があるが、どのような場合に「期間」という意味となり、どのような場合に「専門用語」という意味になるか、という訳語の選択条件を、あらかじめ明示的に記述することは非常に難しい。
【0004】
この問題を解決する方法として、言葉が実際に使用された例、すなわち実例文を大量に集めてそれを利用する方法が提案されている。
【0005】
たとえば「野上宏康、熊野明、田中克己、天野真家『既存目的言語文書からの訳語の自動学習方式』情報処理学会第42回全国大会(平成3年)」(先行技術文献1)では、以下のような方法が提案されている。
【0006】
まず、異なる言語(日本語と英語など)で、同じ分野の話題を述べている文例を大量に収集しておく。次に、一方の言語(たとえば英語)の単語が、相手言語(たとえば日本語)の訳語候補のうち、どの訳語に対応するかの確からしさを判定する際に、相手言語の文例集における、各訳語候補の出現確率の高さを用いる。たとえば、今、英語の「term」を「期間」と訳すのが確からしいか「専門用語」と訳すのが確からしいかを判断するのに、同じ分野の話題を述べている日本語の文例集の中に出現する「期間」という単語と「専門用語」という単語の頻度を計測し、その多い方を「term」の訳語とする、という手法である。この手法には、相手言語の文例集のみを分析すればよいという利点がある。
【0007】
また「中島弘之、梶博行『対訳テキストを利用した訳語選択のための共起関係の自動抽出』情報処理学会第39回全国大会(平成元年)」(先行技術文献2)では、以下のような方法が提案されている。
【0008】
まず、異なる言語(日本語と英語など)で、一方が他方の翻訳関係にあるような対訳文例集を用意する。さらに、二つの言語の間の対訳辞書を用意し、第1の言語の例文に含まれる単語に対して対訳辞書を引き、訳語候補を挙げる。その例文と対訳関係にある第2の言語の例文の中に出現する訳語候補の頻度を計測し、最も高頻度で現われる訳語候補を、元の単語に対する訳語とする、という手法である。この手法は、互いに翻訳関係にある対訳例文が利用できる場合には、高い精度で訳語を認定できるという利点がある。
【0009】
【発明が解決しようとする課題】
しかしながら、先行技術文献1の方法は、相手言語の単語の頻度だけを手がかりにしているため、相手言語で一般的に高頻度で出現する単語が訳語として採用されてしまいやすい、という欠点がある。
【0010】
たとえば、英語の単語「make」には「作る」という訳語の他にも多くの日本語の訳語が相当する。一例として「make a call」を「電話をする」と訳すためには「call」を「電話」に対応するものとし、「make」には「する」という動詞が対応するものとして辞書を構築するのが通常の手法である。このように辞書を作る時「make」には少なくとも「作る」と「する」という訳語候補が存在することになる。この場合、先行技術文献1の方法に従って、相手言語、つまり日本語の単語の出現頻度だけを計測すると、訳語「作る」よりも訳語「する」の方が一般に出現頻度が高いので、「make」の訳語候補として「する」が最も確からしいものとして選択されてしまう。先行技術文献1には、このように、本来の訳語として適切かどうかとは無関係に、相手言語で出現頻度の高い訳語が選択されやすい、という欠点がある。
【0011】
また、先行技術文献2の方法は、互いに翻訳関係にある対訳例文が大量に存在する場合に有効な方法であるが、実際には、互いに翻訳関係にある対訳例文の量は極めて限られている。先行技術文献2の方法は対訳例文が大量に存在しない場合には適用できない、という欠点がある。
【0012】
本願発明の目的は、従来の手法がもつ、上記のような問題点を解決し、より確からしい訳語候補を選択するための方法を提供するところにある。
【0013】
【課題を解決するための手段】
本発明の対訳確率付与装置は、第1の言語を第2の言語に翻訳する際に用いられる対訳確率付与装置であって、第1の言語の文例集と第2の言語の文例集とを有し、第1の言語の単語に対する第2の言語の訳語候補を単語対応対として格納した第1言語第2言語対訳辞書を有し、第1の言語の文例集における単語の出現に関する統計量を計算する第1言語統計量計算モジュールを有し、第2の言語の文例集における単語の出現に関する統計量を計算する第2言語統計量計算モジュールを有し、対訳辞書の各単語対応対に付与された対訳確率をパラメータとして、第1の言語の文例集から第1言語統計量計算モジュールによって求められる統計量から、第2の言語の単語の出現に関する統計量を推定する対訳確率モデルを有し、第2の言語の文例集から第2言語統計量計算モジュールによって求められた統計量と対訳確率モデルによって第1の言語から推定された第2の言語の統計量との差を最小にするようにパラメータを求める対訳確率付与部を有することを特徴とする。
【0014】
この場合、第1の言語の単語の出現に関する統計量から第2の言語の単語の出現に関する統計量を推定する対訳確率モデルとして、第1の言語の単語E(i)の出現確率E(i)とその単語E(i)が第2の言語の訳語J(n)に対応する対応確率S(i,n)との積を求め、第1の言語の各単語E(i)に関して上記の積を可算した和をとることによって第2の言語における単語J(n)の出現確率J(n)を計算する対訳確率モデルを用いてもよい。
【0015】
また、第1の言語の単語の出現に関する統計量から第2の言語の単語の出現に関する統計量を推定する対訳確率モデルとして、第1の言語で一つの文の中に出現する二つの単語のペアの共起確率P(E(i)^E(J))とその単語ペアを構成する各単語E(i)およびE(J)が第2の言語の訳語に対応する対応確率S(i,m)およびS(J,n)との積を求め、第1の言語の各単語ペアE(i)およびE(J)に関して上記の積を可算した和をとることによって第2の言語で一つの文の中に出現する二つの単語のペアの出現確率P(J(m)^J(n))を計算する対訳確率モデルを用いことにしてもよい。
【0016】
また、第1の言語の単語の出現に関する統計量から第2の言語の単語の出現に関する統計量を推定する対訳確率モデルとして、第1の言語で構文上の係り受け関係にある二つの単語のペアの共起確率P(E(i)^E(J))とその単語ペアを構成する各単語E(i)およびE(J)が第2の言語の訳語に対応する対応確率S(i,m)およびS(J,n)との積を求め、第1の言語の各単語ペアE(i)およびE(J)に関して上記の積を可算した和をとることによって第2の言語で構文上の係り受け関係にある二つの単語のペアの出現確率P(J(m)^J(n))を計算する対訳確率モデルを用いることにしてもよい。
【0017】
【発明の実施の形態】
本発明の実施の形態について図面を参照して説明する。図1は本発明の第1実施の形態の訳語選択システムの構成を示すブロック図である。
【0018】
本実施の形態は、第1言語の文例集1、第2言語の文例集2、第1の言語の単語に対する第2の言語の訳語候補を単語対応対として格納した第1言語第2言語対訳辞書3、第1言語の文例集における単語の出現に関する統計量を計算する第1言語統計量計算モジュール4、第2言語の文例集における単語の出現に関する統計量を計算する第2言語統計量計算モジュール5、対訳辞書の各単語対応対に付与された対訳確率をパラメータとして、第1の言語の文例集から第1言語統計量計算モジュールによって求められる統計量から、第2の言語の単語の出現に関する統計量を推定する対訳確率モデルを格納した対訳確率モデル格納部6、第2の言語の文例集から第2言語統計量計算モジュールによって求められた統計量と対訳確率モデルによって第1の言語から推定された第2の言語の統計量との差を最小にするようにパラメータを求める対訳確率付与部7とから構成されている。
【0019】
各ブロックの内容と動作について以下に説明する。第1言語の文例集1には、第1の言語、たとえば英語の実例文が格納されている。第2言語の文例集2には、第2の言語、たとえば日本語の実例文が格納されている。第1言語第2言語対訳辞書3には、第1の言語の各単語に対する第2の言語の訳語候補を単語対応対として格納してある。図2は、第1言語第2言語対訳辞書3の内容の例を示した図である。この図では、第1言語の単語E(i)に対応する第2言語の訳語候補として、J(k)、J(m)、J(n) が存在する場合を示している。
【0020】
この図でe(i)は、第1言語の単語E(i)の出現確率、j(k)、j(m)、j(n)はそれぞれ第2言語の単語J(k)、J(m)、J(n)の出現確率を表す。また、S(i,k)、S(i,m)、S(i,m)は、それぞれ、第1言語の単語E(i)が、第2言語の単語J(k)、J(m)、J(n)に翻訳される確率を表す。
【0021】
第1言語統計量計算モジュール4は、第1言語の文例集1における単語の出現に関する統計量を計算する。第2言語統計量計算モジュール5は、第2言語の文例集2における単語の出現に関する統計量を計算する。第1言語統計量計算モジュール4および第2言語統計量計算モジュール5は、必要に応じて、第1言語の文例集1および第2言語の文例集2に含まれる文を形態素解析したり構文解析したりして、そこに含まれる単語の出現に関する統計量を計算する。統計量の例としては、各単語の出現確率や二つの単語が同時に出現する共起確率などがある。
【0022】
対訳確率モデル格納部6には、第1の言語の単語の出現に関する統計量から第2の言語の単語の出現に関する統計量を推定する対訳確率モデルが格納してある。この対訳確率モデルは、対訳辞書の各単語対応対に付与された対訳確率をパラメータとして、第1の言語の文例集から第1言語統計量計算モジュールによって求められる統計量から、第2の言語の単語の出現に関する統計量を推定する。
【0023】
対訳確率付与部7は、第2の言語の文例集から第2言語統計量計算モジュールによって求められた統計量と対訳確率モデルによって第1の言語から推定された第2の言語の統計量との差を最小にするように、対訳辞書の各単語対応対に付与された対訳確率パラメータを調整する。
【0024】
図6は、本願発明の第2の実施の形態を説明する図である。
【0025】
図6において、本願発明の第2の実施の形態は、入力装置101と、コンピュータから構成されるデータ処理装置102と、出力装置103と、記憶装置104と、訳語選択プログラムを記録した記憶媒体105とを備える。記憶媒体105は、磁気ディスク、磁気テープ、光ディスク、半導体メモリその他の記憶媒体よりなる。
【0026】
訳語選択プログラムは、記憶媒体105からデータ処理装置102の主記憶装置に読み込まれ、データ処理装置102の動作を制御する。データ処理装置102は、訳語選択プログラムの制御により以下の処理を行なう。
【0027】
訳語の選択を行なうべき単語が入力装置101から入力されると、第1言語統計量計算モジュール4と第2言語統計量計算モジュール5とが起動される。第1言語統計量計算モジュール4は、第1言語の文例集1における単語の出現に関する統計量を計算する。第2言語統計量計算モジュール5は、第2言語の文例集2における単語の出現に関する統計量を計算する。
【0028】
次に、対訳確率付与部7が起動される。対訳確率付与部7は、第2の言語の文例集から第2言語統計量計算モジュールによって求められた統計量と対訳確率モデル格納部6に格納された対訳確率モデルによって第1の言語から推定された第2の言語の統計量との差を最小にするように、対訳辞書の各単語対応対に付与された対訳確率パラメータを調整する。
【0029】
結果として得られた対訳確率パラメータの値にしたがって、訳語が出力装置103から出力される。
【0030】
次に、図1に示した実施の形態における、対訳確率モデル格納部6に格納されている対訳確率モデルの例を用いて、本願発明の動作を説明する。次の式は、対訳確率モデルの一例を表す式である。
【0031】
【数1】
この式1において、e(i)は第1言語のi番目の単語E(i)の出現確率を表す。またj(m)は第2言語のm番目の単語J(m)の出現確率を表す。S(i,m)は、第1言語のi番目の単語E(i)が、第2言語のm番目の単語J(m)に翻訳される確率を表す。この式は、第1言語の各単語の出現確率と翻訳確率の積の総和が第2言語の各単語の出現確率を与えるというモデルを表している。
【0032】
この式1のS(i,m)が、この対訳確率モデルにおけるパラメータであり、第1言語の単語E(i)と第2言語の訳語候補J(m)との単語対応対に与えられた対訳確率である。このパラメータには、第1言語の単語は第2言語の単語に必ず対応するという仮定の下で、
【0033】
【数2】
という制約がある。
【0034】
この対訳確率モデルによって各単語の対訳確率を求めるには、第1言語統計量計算モジュール4によって、第1言語の文例集1における単語の出現確率e(i) を計算し、第2言語統計量計算モジュール5によって、第2言語の文例集2における単語の出現確率j(m)を計算し、このようにして求めたe(i)およびj(m)を上記の対訳確率モデルの式に代入して上記の制約を満たすパラメータS(i,m)を定める。
【0035】
次に、図3、図4、図5を用いて、本願発明と従来方式の差異を説明する。ここでは、例として、英語の単語を日本語の単語に翻訳する場合を考える。
【0036】
図3は、第1言語第2言語対訳辞書3の中の英単語「do」と「make」の単語対応対を示している。ここでは簡単のため、英単語「do」は日本語の単語「する」1語とだけ訳語候補としての単語対応対をなしており、英単語「make」は日本語の単語の「つくる」と「する」の2単語と、訳語候補としての単語対応対をなしている状況を想定する。
【0037】
図4は、先行技術文献1で示されているような、第2言語の文例集における単語の出現頻度だけを用いて、第1言語の単語の訳語選択を行なう従来方式の動作を、図3で示した単語対応対の構成をもった「do」と「make」を例に挙げて表した図である。図4は第2言語の文例集における「する」と「つくる」の出現確率が、仮にそれぞれ、0.20および0.01である状況を示している。この場合、先行技術文献1の従来方式では、「make」の訳語として、出現確率の高い単語「する」が単語「つくる」よりも優先されてしまう。
【0038】
図5は、本願発明の動作を、図3で示した単語対応対の構成をもった「do」と「make」を例に挙げて表した図である。図5では、第1言語の文例集における「do」と「make」の出現確率が、仮にそれぞれ、0.18および0.02である状況を示している。第2言語の文例集における「する」と「つくる」の出現確率は、図4の場合と同様に、それぞれ、0.20および0.01であるとする。
【0039】
本願発明では、上述の式で示したような対訳確率モデルを用いて、日本語の同じ単語を訳語としてもつ英単語の影響を考慮した計算を行なう。この方法で、英単語「make」が「する」に翻訳される確率および「つくる」に翻訳される確率を計算すると、この例のように「する」の頻度が高くても、その頻度の大部分は英単語「do」からの翻訳確率に対応するので、「make」から「する」への翻訳確率は低くなる。図5では「make」から「つくる」への翻訳確率が0.9、「make」から「する」への翻訳確率が0.1という結果が得られた場合を示している。
【0040】
次に、対訳確率モデル格納部6に格納されている対訳確率モデルの第2の例を用いて、本願発明の動作を説明する。次に挙げる式は、対訳確率モデルの一例を表す式である。
【0041】
【数3】
この式3において、P(E(i)^E(j))は、第1言語で単語E(i)と単語E(j)が同時に出現する共起確率を表す。また、P(J(m)^J(n)) は、第2言語で単語J(m)と単語J(n)が同時に出現する共起確率を表す。この式3は、第1言語における二つの単語の共起確率とそれぞれの単語の対訳確率の積の総和が、第2言語における二つの単語の共起確率を与えるというモデルを表している。
【0042】
この式のS(i,m)およびS(j,n)が、この対訳確率モデルにおけるパラメータであり、それぞれ、第1言語の単語 E(i) と第2言語の訳語候補J(m)との単語対応対に与えられた対訳確率、第1言語の単語E(J)と第2言語の訳語候補J(n)との単語対応対に与えられた対訳確率である。このパラメータには、第1言語の単語は第2言語の単語に必ず対応するという仮定の下で、
【0043】
【数4】
という制約がある。
【0044】
この対訳確率モデルを使って各単語の対訳確率を求める場合、二つの単語の共起として、何種類かの共起が考えられる。共起の種類の一つとして、一つの文の中に二つの単語が共に出現する文内共起がある。
【0045】
この場合、第1言語統計量計算モジュール4によって、第1言語の文例集1における二つの単語の文内共起確率P(E(i)^E(J))を計算し、2言語統計量計算モジュール5によって、第2言語の文例集2における二つの単語の文内共起確率P(J(m)^J(n))を計算し、このようにして求めたP(E(i)^E(J))およびP(J(m)^J(n))を上記の対訳確率モデルの式に代入して、上記の制約を満たすパラメータS(i,m) を定める。
【0046】
もう一つの共起の種類として、二つの単語が、互いに構文的な係り受け関係にある係り受け共起がある。この場合、第1言語統計量計算モジュール4によって、第1言語の文例集1における二つの単語の係り受け共起確率P(E(i)^E(j))を計算し、第2言語統計量計算モジュール5によって、第2言語の文例集2における二つの単語の係り受け共起確率P(J(m)^J(n))を計算し、このようにして求めたP(E(i)^E(j))およびP(J(m)^J(n))を上記の対訳確率モデルの式に代入して、上記の制約を満たすパラメータS(i,m)を定める。
【0047】
【発明の効果】
本願発明によれば、第1言語の単語の訳語を定める際、先行技術文献1とは異なり、第1言語と第2言語の両方の全体の単語の対訳確率を考慮に入れるため、第2言語で出現確率の高い単語が訳語に選ばれやすいという先行技術文献1のもっていた欠点が解消されている。
【0048】
また、本願発明で用いる第1言語および第2言語の文例集は互いに翻訳関係にあることを仮定していないため、大量に収集することができる。互いに翻訳関係にある文例集が存在しないと適用できないという先行技術文献2のもっていた欠点が解消されている。
【0049】
さらに、本願発明では文内共起を用いて対訳確率を求めるため、単独の単語の対訳確率だけを用いる場合に比べて、複合語などの場合の翻訳の精度が向上する。
【0050】
また、本願発明では、係り受け共起を用いて対訳確率を求めるため、動詞とその格要素の名詞が組になって訳語が定まるような場合の翻訳の精度が向上する。
【図面の簡単な説明】
【図1】 本発明の第1の形態をなす訳語選択システムの構成を示すブロック図である。
【図2】 図1に示した実施例における、第1言語第2言語対訳辞書3の内容例を表す図である。
【図3】 従来法と本発明の動作を比較するための、第1言語第2言語対訳辞書3の内容例を示す図である。
【図4】 従来法の動作を説明するための第1言語第2言語対訳辞書3の内容例を示す図である。
【図5】 本発明の動作を説明するための第1言語第2言語対訳辞書3の内容例を示す図である。
【図6】 本発明の第2の実施の形態をなす訳語選択システムの構成を示すブロック図である。
【符号の説明】
1 第1言語の文例集
2 第2言語の文例集
3 第1言語第2言語対訳辞書
4 第1言語統計量計算モジュール
5 第2言語統計量計算モジュール
6 対訳確率モデル格納部
7 対訳確率付与部
101 入力装置
102 データ処理装置
103 出力装置
104 記憶装置
105 記録媒体[0001]
BACKGROUND OF THE INVENTION
The present invention relates to natural language processing technology such as machine translation, cross-language text search, and the like that has a problem of matching words between different languages.
[0002]
[Prior art]
In natural language processing technology, such as machine translation and cross-language text search, where the challenge is to match words between different languages, make words in one language correspond to the appropriate words in the other language. Is a very important issue and is called the problem of translation selection. The fact that this issue is an important issue generally applies to any language pair, but in the following, the case of English and Japanese will be taken up and explained with specific examples.
[0003]
English words generally have multiple meanings and generally correspond to different Japanese words. However, it is generally very difficult to correctly determine the situation in which the original English word is used in the natural language processing field and select an appropriate Japanese word. For example, the English word “term” has a meaning of “technical term” in addition to the meaning of “period”. In any case, it means “period”, and in that case “technical term”. It is very difficult to explicitly describe in advance beforehand the selection condition for the translation of meaning.
[0004]
As a method for solving this problem, an example in which words are actually used, that is, a method of collecting a large number of actual example sentences and using them has been proposed.
[0005]
For example, in “Hiroyasu Nogami, Akira Kumano, Katsumi Tanaka, Masaya Amano“ Automatic Learning Method of Translations from Existing Target Language Documents ”Information Processing Society of Japan 42nd National Convention (1991) (prior art document 1), Such a method has been proposed.
[0006]
First, collect a large number of sample sentences that describe topics in the same field in different languages (such as Japanese and English). Next, when determining the certainty of which translation word corresponds to the translation language candidate of the other language (for example, Japanese) in each language (for example, English), Use the high appearance probability of the translation candidate. For example, to determine whether it is certain that the English term "term" is translated as "period" or "technical term", it is a collection of Japanese examples that describe topics in the same field. This is a method of measuring the frequency of the word “period” and the word “technical term” appearing in the word, and setting the greater number as the translated term “term”. This technique has the advantage that only the other language sentence collection needs to be analyzed.
[0007]
In “Hiroyuki Nakajima, Hiroyuki Tsuji“ Automatic extraction of co-occurrence relations for translation selection using bilingual text ”Information Processing Society of Japan 39th National Convention (1989) (prior art document 2), Have been proposed.
[0008]
First, prepare a bilingual example collection in which different languages (such as Japanese and English) have one translation relationship with the other. Further, a bilingual dictionary between the two languages is prepared, and the bilingual dictionary is drawn with respect to the words included in the example sentences of the first language, and translation candidates are listed. This is a method of measuring the frequency of candidate words appearing in an example sentence of a second language that has a translation relationship with the example sentence, and setting the candidate word appearing with the highest frequency as the translated word for the original word. This method has an advantage that a translated word can be identified with high accuracy when bilingual example sentences in translation relation can be used.
[0009]
[Problems to be solved by the invention]
However, since the method of Prior Art Document 1 uses only the frequency of words in the partner language as a clue, there is a drawback that words that frequently appear in the partner language generally tend to be adopted as translated words.
[0010]
For example, the English word “make” corresponds to many Japanese translations in addition to the translation “make”. For example, to translate “make a call” to “call”, “call” corresponds to “phone”, and “make” corresponds to the verb “to”. This is the usual method. In this way, when making a dictionary, “make” has at least translation candidates “make” and “do”. In this case, when only the appearance frequency of the partner language, that is, the Japanese word is measured according to the method of Prior Art Document 1, the translated word “to” generally has a higher appearance frequency than the translated word “make”, so “make” Is selected as the most probable translation candidate. Thus, the prior art document 1 has a drawback that it is easy to select a translated word having a high appearance frequency in the partner language regardless of whether or not the original translated word is appropriate.
[0011]
The method of
[0012]
The object of the present invention is to provide a method for solving the above-mentioned problems of the conventional method and selecting more likely translation candidates.
[0013]
[Means for Solving the Problems]
A parallel translation probability assigning apparatus according to the present invention is a parallel translation probability assigning apparatus used when translating a first language into a second language, and includes a sentence example collection of the first language and a sentence example collection of the second language. A first language / second language parallel translation dictionary storing word candidate translations of the second language with respect to words in the first language as word-corresponding pairs, and statistics relating to the appearance of the words in the sentence collection of the first language And a second language statistic calculation module for calculating a statistic related to the appearance of a word in the second language sentence collection, each word corresponding pair in the bilingual dictionary There is a bilingual probability model that estimates the statistics related to the appearance of words in the second language from the statistics obtained by the first language statistic calculation module from the sentence collection in the first language, using the given translation probabilities as parameters. And sentences in the second language Bilingual probabilities for obtaining parameters so as to minimize the difference between the statistic obtained by the second language statistic calculation module from the collection and the second language statistic estimated from the first language by the bilingual probability model It has the part.
[0014]
In this case, the appearance probability E (i) of the word E (i) in the first language is used as a parallel translation probability model for estimating the statistics related to the appearance of the word in the second language from the statistics related to the appearance of the word in the first language. ) And the corresponding probability S (i, n) of the word E (i) corresponding to the translated word J (n) of the second language, and the above-mentioned for each word E (i) of the first language A parallel translation probability model may be used in which the appearance probability J (n) of the word J (n) in the second language is calculated by taking the sum of products.
[0015]
In addition, as a parallel translation probability model for estimating a statistic regarding the appearance of a word in the second language from a statistic regarding the appearance of a word in the first language, two words appearing in one sentence in the first language are used. The co-occurrence probability P (E (i) ^ E (J)) of the pair and the corresponding probability S (i) in which each word E (i) and E (J) constituting the word pair corresponds to the translation of the second language , M) and S (J, n) in the second language by taking the sum of the above products for each word pair E (i) and E (J) in the first language. A bilingual probability model that calculates the appearance probability P (J (m) ^ J (n)) of a pair of two words appearing in one sentence may be used.
[0016]
Further, as a parallel translation probability model for estimating a statistic related to the appearance of a second language word from a statistic related to the appearance of a word in the first language, two words having a syntactic dependency in the first language are used. The co-occurrence probability P (E (i) ^ E (J)) of the pair and the corresponding probability S (i) in which each word E (i) and E (J) constituting the word pair corresponds to the translation of the second language , M) and S (J, n) in the second language by taking the sum of the above products for each word pair E (i) and E (J) in the first language. You may decide to use the parallel translation probability model which calculates the appearance probability P (J (m) ^ J (n)) of the pair of two words in a syntactic dependency.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a translated word selection system according to a first embodiment of this invention.
[0018]
In the present embodiment, a first language second language parallel translation in which a first language sentence example collection 1, a second
[0019]
The contents and operation of each block will be described below. The first language sentence example collection 1 stores a first language, for example, an actual example sentence in English. The second language
[0020]
In this figure, e (i) is the appearance probability of the first language word E (i), j (k), j (m), and j (n) are the second language words J (k) and J (k), respectively. m), the appearance probability of J (n). In addition, S (i, k), S (i, m), and S (i, m) are respectively the first language word E (i) and the second language words J (k) and J (m). ), J (n) represents the probability of translation.
[0021]
The first language statistic calculation module 4 calculates a statistic regarding the appearance of a word in the sentence collection 1 of the first language. The second language
[0022]
The parallel translation probability
[0023]
The bilingual
[0024]
FIG. 6 is a diagram for explaining a second embodiment of the present invention.
[0025]
In FIG. 6, the second embodiment of the present invention is an
[0026]
The translated word selection program is read from the
[0027]
When a word for which a translation word is to be selected is input from the
[0028]
Next, the parallel translation
[0029]
The translated word is output from the
[0030]
Next, the operation of the present invention will be described using an example of the parallel translation probability model stored in the parallel translation probability
[0031]
[Expression 1]
In Equation 1, e (i) represents the appearance probability of the i-th word E (i) in the first language. J (m) represents the appearance probability of the mth word J (m) in the second language. S (i, m) represents the probability that the i-th word E (i) in the first language is translated into the m-th word J (m) in the second language. This expression represents a model in which the sum of the products of the appearance probability and translation probability of each word in the first language gives the appearance probability of each word in the second language.
[0032]
S (i, m) in Equation 1 is a parameter in this bilingual probability model, and is given to the word correspondence pair of the first language word E (i) and the second language translation word candidate J (m). This is the translation probability. This parameter assumes that a first language word always corresponds to a second language word,
[0033]
[Expression 2]
There is a restriction.
[0034]
In order to obtain the translation probability of each word using this parallel translation probability model, the first language statistic calculation module 4 calculates the word appearance probability e (i) in the sentence collection 1 of the first language, and the second language statistic. The
[0035]
Next, the difference between the present invention and the conventional method will be described with reference to FIGS. 3, 4, and 5. Here, as an example, consider a case where an English word is translated into a Japanese word.
[0036]
FIG. 3 shows word correspondence pairs of English words “do” and “make” in the first language / second language
[0037]
FIG. 4 shows the operation of the conventional method for selecting a translation of a word in the first language using only the appearance frequency of the word in the second language sentence collection as shown in Prior Art Document 1. FIG. FIG. 6 is a diagram showing “do” and “make” having the configuration of the word correspondence pair shown in FIG. FIG. 4 shows a situation in which the occurrence probabilities of “do” and “create” in the sentence examples of the second language are 0.20 and 0.01, respectively. In this case, in the conventional method of Prior Art Document 1, the word “do” having a high appearance probability is prioritized over the word “create” as the translated word “make”.
[0038]
FIG. 5 is a diagram showing the operation of the present invention taking “do” and “make” having the configuration of the word correspondence pair shown in FIG. 3 as an example. FIG. 5 shows a situation in which the appearance probabilities of “do” and “make” in the sentence examples of the first language are 0.18 and 0.02, respectively. Assume that the occurrence probabilities of “do” and “create” in the second language sentence collection are 0.20 and 0.01, respectively, as in FIG.
[0039]
In the present invention, a calculation is performed in consideration of the influence of English words having the same Japanese word as a translation word, using a bilingual probability model as shown in the above equation. With this method, the probability that the English word “make” is translated into “to” and the probability that it is translated into “create” is calculated. Even if the frequency of “to” is high as in this example, the frequency is large. Since the part corresponds to the translation probability from the English word “do”, the translation probability from “make” to “do” becomes low. FIG. 5 shows a case where the translation probability from “make” to “create” is 0.9 and the translation probability from “make” to “yes” is 0.1.
[0040]
Next, the operation of the present invention will be described using a second example of the parallel translation probability model stored in the parallel translation probability
[0041]
[Equation 3]
In
[0042]
In this equation, S (i, m) and S (j, n) are parameters in the translation probability model, and the word E (i) in the first language and the candidate word J (m) in the second language are Is the translation probability given to the word correspondence pair of the word E (J) in the first language and the candidate word J (n) in the second language. This parameter assumes that a first language word always corresponds to a second language word,
[0043]
[Expression 4]
There is a restriction.
[0044]
When the translation probability of each word is obtained using this parallel translation probability model, several types of co-occurrence can be considered as the co-occurrence of two words. One type of co-occurrence is intra-sentence co-occurrence in which two words appear together in one sentence.
[0045]
In this case, the first language statistic calculation module 4 calculates the in-sentence co-occurrence probability P (E (i) ^ E (J)) of two words in the first language sentence example collection 1, and the bilingual statistic. The
[0046]
Another type of co-occurrence is dependency co-occurrence in which two words are syntactically dependent on each other. In this case, the first language statistic calculation module 4 calculates the dependency co-occurrence probability P (E (i) ^ E (j)) of two words in the sentence collection 1 of the first language, and the second language statistics The
[0047]
【Effect of the invention】
According to the present invention, when determining the translation of a word in the first language, unlike the prior art document 1, it takes into account the parallel translation probabilities of the entire words in both the first language and the second language. Thus, the disadvantage of the prior art document 1 that a word having a high appearance probability is easily selected as a translated word is solved.
[0048]
Moreover, since the sentence collections of the first language and the second language used in the present invention are not assumed to be in a translation relationship with each other, they can be collected in large quantities. The disadvantage of
[0049]
Furthermore, in the present invention, since the translation probability is obtained by using intra-sentence co-occurrence, the accuracy of translation in the case of a compound word or the like is improved as compared with the case where only the translation probability of a single word is used.
[0050]
Further, in the present invention, since the parallel translation probability is obtained using dependency co-occurrence, the translation accuracy is improved when the verb and its case element noun are paired to determine the translated word.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a translated word selection system according to a first embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of contents of a first language / second language
FIG. 3 is a diagram showing an example of the contents of a first language / second language
FIG. 4 is a diagram showing an example of contents of a first language / second language
FIG. 5 is a diagram showing an example of contents of a first language / second language
FIG. 6 is a block diagram showing a configuration of a translated word selection system according to a second embodiment of the present invention.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 1st language
Claims (9)
第1の言語の文例集と第2の言語の文例集とを有し、
第1の言語の単語に対する第2の言語の訳語候補を単語対応対として格納した第1言語第2言語対訳辞書を有し、
第1の言語の文例集における単語の出現に関する統計量を計算する第1言語統計量計算モジュールを有し、
第2の言語の文例集における単語の出現に関する統計量を計算する第2言語統計量計算モジュールを有し、
前記第2言語統計量計算モジュールによって求められた統計量と、対訳辞書の各単語対応対に付与された対訳確率をパラメータとして、前記第1言語統計量計算モジュールによって求められる統計量から、対訳確率モデル格納部に格納された式に基づいて推定された第2の言語の単語の出現に関する統計量との差を最小にするようにパラメータを調整する対訳確率付与部を有すること
を特徴とする対訳確率付与装置。A translation probability assigning device used when translating a first language into a second language,
A first language sentence collection and a second language sentence collection;
A first language / second language parallel translation dictionary that stores translation candidates of the second language for the words of the first language as word correspondence pairs;
A first language statistic calculation module for calculating a statistic relating to the appearance of a word in the first language sentence collection;
A second language statistic calculation module for calculating a statistic related to the appearance of a word in the second language sentence collection;
From the statistic obtained by the first language statistic calculation module, using the statistic obtained by the second language statistic calculation module and the bilingual probability assigned to each word correspondence pair of the bilingual dictionary as parameters, A bilingual translation probability adding unit that adjusts parameters so as to minimize a difference from a statistic related to the appearance of a word in the second language estimated based on an expression stored in a model storage unit Probability grant device.
E(j)が第2の言語の訳語に対応する対応確率S(i,m)およびS(j,n)との積を求め、第1の言語の各単語ペアE(i)およびE(j)に関して上記の積を可算した和をとることによって第2の言語で一つの文の中に出現する二つの単語のペアの出現確率P(J(m)^J(n))を計算する式を用いることを特徴とする対訳確率付与装置。2. The parallel translation probability assigning apparatus according to claim 1, wherein the co-occurrence probability P (E () of a pair of two words appearing in one sentence in the first language is an expression stored in the parallel translation probability model storage unit. i) ^ E (j)) and the corresponding probabilities S (i, m) and S (j, n) for each word E (i) and E (j) constituting the word pair corresponding to the translation of the second language 2) appearing in one sentence in the second language by taking the product of the above product for each word pair E (i) and E (j) in the first language. An apparatus for providing a translation probability, which uses an expression for calculating an appearance probability P (J (m) ^ J (n)) of a pair of words.
第1の言語の単語に対する第2の言語の訳語候補を単語対応対として格納した第1言語第2言語対訳辞書を有し、
(a)前記第1の言語の文例集における単語の出現に関する統計量を計算する処理、
(b)前記第2の言語の文例集における単語の出現に関する統計量を計算する処理、
(c)前記第1言語第2言語対訳辞書の各単語対応対に付与された対訳確率をパラメータとして、前記(a)によって計算される統計量に基づいて、第2の言語の単語の出現に関する統計量を推定する計算処理、
(d)前記(b)によって計算された統計量と、前記(c)によって推定された統計量との差を最小にするように前記パラメータを調整する処理、
を実行させることを特徴とするプログラム。A first language sentence collection and a second language sentence collection;
A first language / second language parallel translation dictionary that stores translation candidates of the second language for the words of the first language as word correspondence pairs;
(A) a process of calculating the statistics relating to the appearance of a word in the phrase collection of the first language,
(B) a process of calculating the statistics relating to the appearance of a word in the phrase collection of the second language,
(C) Using the bilingual probabilities assigned to each word-corresponding pair in the first language / second language bilingual dictionary as a parameter , based on the statistics calculated in (a), the appearance of words in the second language Calculation process to estimate statistics,
(D) a process of adjusting the parameter so as to minimize the difference between the statistic calculated by (b) and the statistic estimated by (c) ;
A program characterized by having executed.
E(i) および E(J)が第2の言語の訳語に対応する対応確率S(i,m)および
S(J,n)との積を求め、第1の言語の各単語ペアE(i)およびE(J)に関して上記の積を可算した和をとることによって第2の言語で一つの文の中に出現する二つの単語のペアの出現確率P(J(m)^J(n))を計算する処理を行なうことを特徴とするプログラム。 6. The program according to claim 5, wherein as the process of (c), a co-occurrence probability P (E (i) ^ E (J)) of a pair of two words appearing in one sentence in the first language. And the corresponding probabilities S (i, m) and S (J, n) corresponding to the translated words of the second language for each word E (i) and E (J) constituting the word pair, Appearance probability P of two word pairs appearing in one sentence in the second language by taking the sum of the above products for each word pair E (i) and E (J) in one language A program characterized by performing a process of calculating (J (m) ^ J (n)).
E(J)に関して上記の積を可算した和をとることによって第2の言語で構文上の係り受け関係にある二つの単語のペアの出現確率P(J(m)^J(n))を計算する処理を行なうことを特徴とするプログラム。 6. The program according to claim 5, wherein in the processing of (c), the co-occurrence probability P (E (i) ^ E (J)) of a pair of two words having a syntactic dependency in the first language. And the corresponding probabilities S (i, m) and S (J, n) corresponding to the translated words of the second language for each word E (i) and E (J) constituting the word pair, Appearance probability P of two word pairs that are syntactically dependent in the second language by taking the sum of the above products for each word pair E (i) and E (J) in one language A program characterized by performing a process of calculating (J (m) ^ J (n)).
第1の言語の単語に対する第2の言語の訳語候補を単語対応対として格納した第1言語第2言語対訳辞書とを有する対訳確率付与装置が、
(a)前記第1の言語の文例集における単語の出現に関する統計量を計算し、
(b)前記第2の言語の文例集における単語の出現に関する統計量を計算し、
(c)前記第1言語第2言語対訳辞書の各単語対応対に付与された対訳確率をパラメータとして、前記(a)によって計算される統計量に基づいて、第2の言語の単語の出現に関する統計量を推定する計算処理をし、
(d)前記(b)によって計算された統計量と、前記(c)によって推定された統計量との差を最小にするように前記パラメータを調整すること
を特徴とする対訳確率付与方法。A first language sentence collection and a second language sentence collection;
Translation probability applying device for chromatic and first language second language bilingual dictionary with the candidate word of a second language for words in the first language as a word corresponding pairs,
(A) calculates statistics regarding the appearance of a word in the phrase collection of the first language,
(B) calculates statistics regarding the appearance of a word in the phrase collection of the second language,
(C) Using the bilingual probabilities assigned to each word-corresponding pair in the first language / second language bilingual dictionary as a parameter , based on the statistics calculated in (a), the appearance of words in the second language Do a calculation to estimate the statistics,
(D) A bilingual probability assigning method comprising adjusting the parameters so as to minimize a difference between the statistic calculated in (b) and the statistic estimated in (c) .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001144337A JP4876329B2 (en) | 2001-05-15 | 2001-05-15 | Parallel translation probability assigning device, parallel translation probability assigning method, and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001144337A JP4876329B2 (en) | 2001-05-15 | 2001-05-15 | Parallel translation probability assigning device, parallel translation probability assigning method, and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002342325A JP2002342325A (en) | 2002-11-29 |
JP4876329B2 true JP4876329B2 (en) | 2012-02-15 |
Family
ID=18990301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001144337A Expired - Fee Related JP4876329B2 (en) | 2001-05-15 | 2001-05-15 | Parallel translation probability assigning device, parallel translation probability assigning method, and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4876329B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5380989B2 (en) * | 2008-09-30 | 2014-01-08 | カシオ計算機株式会社 | Electronic device and program with dictionary function |
JP5555542B2 (en) * | 2010-05-20 | 2014-07-23 | 日本電信電話株式会社 | Automatic word association apparatus, method and program thereof |
JP7251181B2 (en) * | 2019-02-05 | 2023-04-04 | 富士通株式会社 | Parallel translation processing method and parallel translation processing program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6885985B2 (en) * | 2000-12-18 | 2005-04-26 | Xerox Corporation | Terminology translation for unaligned comparable corpora using category based translation probabilities |
-
2001
- 2001-05-15 JP JP2001144337A patent/JP4876329B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002342325A (en) | 2002-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7904291B2 (en) | Communication support apparatus and computer program product for supporting communication by performing translation between languages | |
US7565281B2 (en) | Machine translation | |
KR101031970B1 (en) | Statistical method and apparatus for learning translation relationships among phrases | |
US6523000B1 (en) | Translation supporting apparatus and method and computer-readable recording medium, wherein a translation example useful for the translation task is searched out from within a translation example database | |
US7467079B2 (en) | Cross lingual text classification apparatus and method | |
US20080306728A1 (en) | Apparatus, method, and computer program product for machine translation | |
EP1351158A1 (en) | Machine translation | |
US20070112553A1 (en) | System, method, and program for identifying the corresponding translation | |
JP2008152760A (en) | Machine-assisted translation tool | |
CA2661535A1 (en) | Means and method for training a statistical machine translation system | |
JP2004362249A (en) | Translation knowledge optimization device, computer program, computer and storage medium for translation knowledge optimization | |
US20190147034A1 (en) | Predicting style breaches within textual content | |
EP3832485A1 (en) | Question answering systems | |
Karakanta | Experimental research in automatic subtitling: At the crossroads between machine translation and audiovisual translation | |
Popowich et al. | Machine translation of closed captions | |
Foster | Text prediction for translators | |
JP4876329B2 (en) | Parallel translation probability assigning device, parallel translation probability assigning method, and program thereof | |
US11907656B2 (en) | Machine based expansion of contractions in text in digital media | |
JP2960936B2 (en) | Dependency analyzer | |
KR100617319B1 (en) | Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
KR20050064574A (en) | System for target word selection using sense vectors and korean local context information for english-korean machine translation and thereof | |
JP4088718B2 (en) | Dictionary registration device, dictionary registration method, and computer program | |
Toole et al. | Time-constrained Machine Translation | |
WO2007041328A1 (en) | Detecting segmentation errors in an annotated corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20021204 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050317 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070118 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080415 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20080612 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110215 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110418 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20110705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111114 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |