JP2014010634A - 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム - Google Patents

対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム Download PDF

Info

Publication number
JP2014010634A
JP2014010634A JP2012146970A JP2012146970A JP2014010634A JP 2014010634 A JP2014010634 A JP 2014010634A JP 2012146970 A JP2012146970 A JP 2012146970A JP 2012146970 A JP2012146970 A JP 2012146970A JP 2014010634 A JP2014010634 A JP 2014010634A
Authority
JP
Japan
Prior art keywords
language
word
words
seed
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012146970A
Other languages
English (en)
Other versions
JP6112536B2 (ja
Inventor
Akihiro Tamura
晃裕 田村
Taro Watanabe
太郎 渡辺
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2012146970A priority Critical patent/JP6112536B2/ja
Publication of JP2014010634A publication Critical patent/JP2014010634A/ja
Application granted granted Critical
Publication of JP6112536B2 publication Critical patent/JP6112536B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】辞書が小規模でも、自動的に高い精度でノンパラレルコーパスから翻訳対を抽出できる翻訳対抽出装置を提供する。
【解決手段】翻訳対抽出装置160は、第1の言語の文書集合170及び第2の言語の文書集合172の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し単語間の直接的な関連性を、単語の共起頻度に基づいて計算し単語間の関連グラフを作成する関連グラフ作成部200と、単語の各々について、関連グラフ作成部200により計算された単語間の直接的な関連性を用い、複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算して文脈ベクトルを生成するシード情報伝播部204と、第1の言語の単語及び第2の言語の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを対訳表現として選択する関連性類似度計算部180及び単語対抽出部182とを含む。
【選択図】図3

Description

この発明は複数の言語において、対訳表現を自動的に抽出する技術に関し、特に、パラレルコーパスを用いず、複数の言語のコーパスから対訳表現を自動的にかつ精度高く抽出する技術に関する。
対訳表現(例えば対訳辞書)は、自動翻訳及び言語横断情報検索等、複数言語が関連する処理において重要である。対訳表現は、正確なものが多数あることが望ましい。理想的には、人手でそうした対訳表現を収集しておくと、複数言語が関連する処理の精度が向上することが期待できる。
しかし、人手でそうした対訳表現を大量に収集することは、コストの面からも時間の面からも難しいという問題がある。そこで、コンピュータによる自然言語処理を用いて対訳表現を自動的に収集することが考えられた。
そうした処理の代表的なものは、パラレルコーパスを用いるものである。パラレルコーパスとは、第1の言語(例えば日本語)の文書集合の各文書が、第2の言語(例えば英語)の文書集合の各文書の対訳になっているコーパスのことをいう。パラレルコーパスからの対訳表現の獲得は、精度がよいことが知られている。しかし、パラレルコーパスの作成には人手を要するため、その作成コストは膨大である。そのため、現在では、大規模なパラレルコーパスが利用できるのは特定の言語対のみ、又は特定の分野のみという状態である。
こうした問題を解決するために、ノンパラレルコーパスから対訳表現を獲得する試みがなされている。ノンパラレルコーパスとは、対訳関係にない、言語が異なる2つ以上の文書集合のことをいう。ノンパラレルコーパスから対訳表現を用いる試みとして、後掲の非特許文献1に記載されたものがある。
非特許文献1に記載された対訳表現抽出のための方法は以下のようになっている。以下の説明では、日本語と英語との場合を例にとる。図1を参照して、日本語文書集合50及び英語文書集合52、並びに複数の対訳表現を含む既存辞書54を予め準備する。この日本語文書集合50及び英語文書集合52は、前述したとおり、対訳文書である必要はない。ただし、両者が同じ分野に属する文書の集合であることが望ましい。既存辞書54が記憶している対訳表現は、日本語文書集合50及び英語文書集合52から対訳表現を抽出するためのデータを作成するために使用される。これら対訳表現を、本明細書では「シード翻訳対」と呼び、シード翻訳対を構成する各単語を「シード」又は「シード単語」と呼ぶ。
まず、既存辞書54に含まれる対訳表現から,日本語の単語と英語の単語とを抽出する。日本語文書集合50に含まれる各単語について、その単語と同じ文脈に現れるシードの日本語単語を特定し、その単語と各シード単語との関連度(共起度合い)を算出する。その結果、日本語単語の関連度リスト60が得られる。英語文書集合52についても同様に、各単語について、その単語と同じ文脈に現れるシードの英語単語を特定し、その単語と各シード単語との関連度を算出する。その結果、英語単語の関連度リスト62が得られる。
関連度リスト60が得られると、日本語文書集合50内の各単語について、文脈ベクトル66を作成する。文脈ベクトル66とは、各次元を文脈内の単語(文脈単語)に対応させ、各次元の要素がその文脈単語との文脈内での共起度合いであるようなベクトルである。同様に、関連度リスト62から英語文書集合52内の各単語について、文脈ベクトル68を作成する。このとき、既存辞書54を用いて、文脈ベクトル66の各要素と文脈ベクトル68の各要素とが互いに対応するようにして文脈ベクトル66及び68を作成する。この処理が図1の右側において文脈ベクトルの次元間の関連付処理64として表されたものである。
日本語の単語について文脈ベクトル66の集合が、英語の単語について文脈ベクトル68の集合が、それぞれ生成された後、文脈ベクトル66の各々と、文脈ベクトル68の各々との間で類似度の計算を行なう(図1のステップ70)。類似度が高い文脈ベクトルのペアを特定し、それら文脈ベクトルに対応する日本語単語と英語単語とを翻訳対72として抽出する。
図1に示す例では、既存辞書54に「アマゾン─Amazon」、「ジャングル─jungle」、及び「淡水─freshwater」というシード翻訳対があったものとする。日本語の分析により、「ピラニア」について得られた文脈ベクトルが(0.8、0.6、0.5)であるものとする。ここで、文脈ベクトルの要素の順序は、アマゾン、ジャングル、淡水、という順序である。
英語でも同様に、「piranha」という単語について得られた文脈ベクトルが(0.8.0.6、0.5)であるものとする。ここでの文脈ベクトルの要素の順序は、日本語のものと対応づけられており、Amazon、jungle、freshwaterという順番になる。ここで、「anaconda」という単語について得られた文脈ベクトルが(0.8、0.6、0)であるものとする。
こうして得られた文脈ベクトルの内、日本語の「ピラニア」の文脈ベクトルと類似度の高いものとして、英語の「piranha」の文脈ベクトルを特定できる。その結果、「ピラニア─piranha」という翻訳対72を得ることができる。「ピラニア─anaconda」という単語対は、翻訳対72の文脈ベクトルと比較して類似度が低く、翻訳対として抽出されない。
Reinhard Rapp. 1999. Automatic Identification of Word Translations from Unrelated English and German Corpora. In Proceedings of the 37th Annual Meeting of the Association for Computation Linguistics, Pages 519-526.
しかし、この非特許文献1に記載された技術には、以下のように、依然として解決すべき問題がある。それは、既存辞書54が小規模だと、翻訳対を特定する精度が低下するという問題である。図1を例にこの問題を説明する。
今、既存辞書54に存在しているシード翻訳対の内、「淡水─freshwater」というシード翻訳対80が存在していないものとする。すると、関連度リスト60及び62の生成の際に、「淡水」及び「freshwater」との関連度が得られなくなる。すなわち、図1の文脈ベクトル66の内、淡水に関する項目82が得られない。同様に、文脈ベクトル68の内、freshwaterに関する項目84も得られなくなる。すると、日本語の「ピラニア」の文脈ベクトル66は(0.8、0.6)となる。一方、英語の「piranha」の文脈ベクトルも(0.8、0.6)となるが、「anaconda」の文脈ベクトルも(0.8、0.6)となり、いずれも日本語の「ピラニア」の文脈ベクトル66と一致する。その結果、正しい翻訳対である「ピラニア─piranha」だけではなく、誤った翻訳対である「ピラニア─anaconda」も翻訳対として抽出されてしまう。こうした問題が広範に起こり、結果として既存辞書54が小規模なときには翻訳対を抽出する精度が大きく低下する。
したがって本発明の目的は、シード翻訳対を記録した既存辞書が小規模でも、自動的に、かつ精度よく、ノンパラレルコーパスから対訳表現を抽出できる対訳表現抽出装置及び方法、並びにそのためのコンピュータプログラムを提供することである。
本発明の第1の局面に係る対訳表現抽出装置は、第1の言語と第2の言語との対訳辞書を用い、第1の言語の文書集合及び第2の言語の文書集合から、第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出装置である。対訳辞書は、複数の翻訳対を含む。当該複数の翻訳対の各々は、第1の言語の第1のシード単語と、第2の言語の第2のシード単語とを含む。この装置は、第1の言語の文書集合、及び、第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成するための単語抽出手段と、第1の単語集合及び第2の単語集合の各々について、単語間の直接的な関連性を、第1の言語の文書集合及び第2の言語の文書集合中における単語の共起頻度に基づいて計算するための直接的関連性計算手段と、第1の単語集合及び第2の単語集合に含まれる単語の各々について、直接的関連性計算手段により計算された単語間の直接的な関連性を用い、複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための文脈ベクトル生成手段と、第1の単語集合の単語及び第2の単語集合の単語の組合せの内、対応する文脈ベクトルの類似度が基準値以上となる組合せを、第1の言語と第2の言語との対訳表現として選択するための対訳表現選択手段とを含む。
直接的関連性手段が、第1及び第2の言語の単語の各々について、それぞれ第1のシード単語及び第2のシード単語との直接的関連性を計算する。文脈ベクトル生成手段が、この直接的関連性に基づいて、第1及び第2の言語の単語の各々について、それぞれ複数の翻訳対との間接的な関連性を含む総合的関連性を計算し、それらを要素とする文脈ベクトルを生成する。対訳表現選択手段は、この文脈ベクトルに基づき、第1及び第2の言語の単語の各々について、文脈ベクトルの類似度が基準値以上となるものを対訳表現として選択する。
第1及び第2の言語の単語の組合せを選択するにあたり、単語とシード単語との直接的な関連性だけでなく、間接的な関連までも含め、翻訳対と各単語との総合的関連性の分布を求め、文脈ベクトルとする。その文脈ベクトルの類似度に基づいて第1の言語の単語と第2の言語の単語の対訳表現を抽出する。したがって、第1及び第2の言語との双方において、ある単語(及びそれに対応する別言語の単語)が、あるシード単語と直接の共起関係になくても、間接的な共起関係を通じてそのシード単語との関連性を調べることができる。そうしたシード単語との関連性を含めて第1の言語の単語及び第2の言語の単語に対して複数の翻訳対との関連性を調べ、その結果得られる文脈ベクトルの類似度を算出するため、より多くの情報に基づき、対訳表現を抽出できる。その結果、対訳表現の抽出精度を従来より高めることができる。
好ましくは、文脈ベクトル生成手段は、第1の単語集合に含まれる単語の各々について、直接的関連性計算手段により計算された単語間の直接的な関連性を用い、複数の翻訳対の各々の内の第1のシード単語との間の総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための第1の言語の文脈ベクトル生成手段と、第2の単語集合に含まれる単語の各々について、直接的関連性計算手段により計算された単語間の直接的な関連性を用い、複数の翻訳対の各々の内の第2のシード単語との間の総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための第2の文脈ベクトル生成手段とを含む。
より好ましくは、直接的関連性計算手段は、第1の単語集合及び第2の単語集合の各々について、単語間の直接的な関連性を、第1の言語の文書集合及び第2の言語の文書集合中における単語の、互いに直接の共起関係にある頻度に基づいて単語同士の間で計算するための計算手段と、第1の単語集合及び第2の単語集合の各々について、単語をノード、単語間の直接的な共起関係をエッジとする関連グラフを構築し、各エッジには当該エッジに対応する共起関係について計算手段により計算された直接的な関連性を割当てるための関連グラフ構築手段とを含む。
さらに好ましくは、第1の言語の関連性計算手段は、第1の言語について構築された関連グラフにおいて、各ノードに対応する単語について文脈ベクトル生成手段により生成された文脈ベクトルを、各エッジを介して隣接するノードに伝播させるための伝播手段と、伝播を、所定の終了条件が成立するまで繰返し実行するように伝播手段を制御するための繰返し制御手段とを含む。伝播手段は、伝播において、当該エッジに割当てられた直接的な関連性を文脈ベクトルの各要素に乗じる。
本発明の第2の局面に係る対訳表現抽出方法は、第1の言語と第2の言語との対訳辞書を用い、第1の言語の文書集合及び第2の言語の文書集合から、第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出方法である。対訳辞書は、複数の翻訳対を含む。当該複数の翻訳対の各々は、第1の言語の第1のシード単語と、第2の言語の第2のシード単語とを含む。この方法は、第1の言語の文書集合、及び、第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成する単語抽出ステップと、第1の単語集合及び第2の単語集合の各々について、単語間の直接的な関連性を、第1の言語の文書集合及び第2の言語の文書集合中における単語の共起頻度に基づいて計算する直接的関連性計算ステップと、第1の単語集合及び第2の単語集合に含まれる単語の各々について、直接的関連性計算ステップにおいて計算された単語間の直接的な関連性を用い、複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成する文脈ベクトル生成ステップと、第1の単語集合の単語及び第2の単語集合の単語の組合せの内、対応する文脈ベクトルの類似度が基準値以上となる組合せを、第1の言語と第2の言語との対訳表現として選択する対訳表現選択ステップとを含む。
本発明の第3の局面に係るコンピュータプログラムは、第1の言語と第2の言語との対訳辞書を用い、第1の言語の文書集合及び第2の言語の文書集合から、第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出装置としてコンピュータを機能させる、対訳表現抽出のためのコンピュータプログラムである。対訳辞書は、複数の翻訳対を含む。当該複数の翻訳対の各々は、第1の言語の第1のシード単語と、第2の言語の第2のシード単語とを含む。このコンピュータプログラムは、第1の言語の文書集合、第2の言語の文書集合、及び、対訳辞書を記憶するための記憶手段と、記憶手段に記憶された第1の言語の文書集合、及び、第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成するための単語抽出手段と、第1の単語集合及び第2の単語集合の各々について、単語間の直接的な関連性を、第1の言語の文書集合及び第2の言語の文書集合中における単語の共起頻度に基づいて計算するための直接的関連性計算手段と、第1の単語集合及び第2の単語集合に含まれる単語の各々について、直接的関連性計算手段により計算された単語間の直接的な関連性を用い、複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための文脈ベクトル生成手段と、第1の単語集合の単語及び第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、第1の言語と第2の言語との対訳表現として選択し出力するための対訳表現選択手段としてコンピュータを機能させる。
従来の技術において、日本語文書集合及び英語文書集合と、既存辞書とを用いて翻訳対を抽出する処理を概略的に示した図である。 本発明の実施の形態において翻訳対を抽出する原理を説明するための、日本語及び英語の共起グラフの模式図である。 本発明の第1の実施の形態に係る翻訳対抽出装置の概略構成を示すブロック図である。 図3に示すシステムにおいて、関連グラフを作成する処理を実現するプログラムの制御構造を示すフローチャートである。 第1の実施の形態における処理途中で得られた日本語共起グラフ及び英語共起グラフを模式的に示す図である。 文書集合から共起グラフを生成するためのプログラムの制御構造を示すフローチャートである。 第1の実施の形態で文書集合内の各単語について、シード単語との共起度合いを算出するために、出現した文脈の数、文脈単語と共起した文脈の数、及び文書集合内にある全文脈数をカウントするためのプログラムの制御構造を示すフローチャートである。 シード翻訳対からシード集合及びシード間の対応関係を抽出する2つの方法を説明するための模式図である。 第1の実施の形態において、間接的に共起するシードを含めたシードとの関連度の分布(シード分布)を日本語共起グラフ上で伝播させる処理を説明するための模式図である。 シード分布をグラフ全体で伝播させるためのプログラムの制御構造を示すフローチャートである。 図10に示すプログラムにおいて各シードに対する関連度の初期値を設定するプログラムの制御構造を示すフローチャートである。 図10に示すプログラムにおいて、シード分布を伝播させるステップを実現するプログラムの制御構造を示すフローチャートである。 図12に示すプログラムの構造をより具体的に示すプログラムの制御構造を示すフローチャートである。 シード分布の伝播が終了した後の日本語共起グラフ及び英語共起グラフを模式的に示す図である。 本発明の第2の実施の形態において、シード分布を伝播させるステップを実現するプログラムの制御構造を示すフローチャートである。 本発明の第3の実施の形態において、ある言語の意味グラフを生成する処理を実現するプログラムの制御構造を示すフローチャートである。 図16に示す処理において、文書集合内の単語同士の文脈類似度を計算するステップを実現するプログラムの制御構造を示すフローチャートである。 本発明の各実施の形態を実現するためのコンピュータシステムの外観を示す図である。 図18に示すコンピュータシステムのハードウェア構成を示すブロック図である。
[第1の実施の形態]
以下の説明では、同じ部品又は処理には同じ参照符号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。なお、以下の説明では、「文脈」とは、文書内の文又はフレーズ等、文書を構成するある単位のことをいうものとする。この文脈は、何らかのアルゴリズムで自動的に得られることが望ましい。例えば句読点等の区切り文字で分けてもよいし、接続詞により文を分割するようにしてもよい。
《構成》
〈基本的考え方〉
従来の技術では、各単語の文脈ベクトルを生成する際に、その単語と直接リンクしているシードとの関連度のみを用いている。しかしその結果、ある単語と間接的に共起しているシードとの関連度を無視しているという問題があった。ここで、「単語とシードとが間接的に共起している」とは、以下のような場合をいう。
ある単語(第1の単語と呼ぶ。)とあるシードとが、文書集合内の文脈内で共起していないものとする。しかし、第1の単語とは別の第2の単語があり、この第2の単語が文書集合内で第1の単語とも、上記したあるシードとも共起しているものとする。すると第1の単語と、あるシードとの間には、直接的な共起関係はないが、間接的な共起関係があると考えることができる。これが、「単語とシードとが間接的に共起している」ということの意味である。
図2を参照して、日本語共起グラフ100は3つのシードのノード110,114及び118と、2つの(シードでない)ノード130及び132とを持つものとする。図2において、シードのノードは矩形で描かれ、非シードのノードは楕円で描かれている。ノード130は、ノード114及び118と直接の共起関係がある。一方、ノード130は、シードのノード110とは直接の共起関係にない。しかしノード130は、ノード132を介してノード110と間接的な共起関係にある。同様に、英語共起グラフ102は、シードのノード112、116及び120と、非シードのノード134、136及び138を持つものとする。図2に示すグラフの内、エッジに付された数字は、そのエッジが連結している2つのノード間の関連度(直接的な共起度合い)を示す。
図2に示すノードの内、シードのノード110とノード112、ノード114とノード116、及びノード118とノード120が既存辞書54内のシード翻訳対である。これは図2ではノード間を結ぶ2本線で示されている。また、ノード130とノード134とが翻訳対として抽出されるべきノードの対であるものとする。
このグラフは、図1に示したものに対応している。したがって、従来技術でこのグラフから翻訳対を抽出すると、発明が解決しようとする課題の項で説明したとおりの問題(「ピラニア─piranha」だけでなく「ピラニア─anaconda」も翻訳対として抽出される。)が生ずる。
本実施の形態では、従来技術のように直接の共起関係だけではなく、間接的な共起関係まで含めて各ノードの文脈ベクトルを算出する。その結果、ノード130と直接の共起関係にないノード110、及び、ノード134と直接の共起関係にないノード112との関連度をノード130、134の双方について算出し、それを文脈ベクトルの要素とする。その結果、図2に示すように、ノード130とノード134とについては文脈ベクトルの類似度が高くなることが期待できる。一方、同様の計算をした場合、ノード138はノード112との間で直接的な共起関係がないばかりか、間接的な共起関係もわずかしかない。したがって、ノード130とノード138とについては、文脈ベクトルの類似度は少なくともノード130及び134の間と比較して低くなる。その結果、誤った翻訳対が抽出される確率を低くすることが出来るという効果がある。
〈全体構成〉
以下、この実施の形態に係る翻訳対抽出装置160の構成について説明する。なお、以下の説明では、言語の対については一般的に第1の言語と第2の言語を例として説明する。
図3を参照して、こうした翻訳対の抽出を行なう翻訳対抽出装置160は、第1の言語の文書集合170と、第2の言語の文書集合172と、複数のシード翻訳対174からなる既存の辞書とを記憶する記憶装置と、第1の言語の文書集合170及びシード翻訳対174を用い、第1の言語の文書集合170内から処理対象となる単語を抽出して第1の言語の単語集合を生成し、この集合内の各単語について文脈ベクトルを算出するための第1の文脈ベクトル生成部176と、第2の言語の文書集合172及びシード翻訳対174を用い、第2の言語の文書集合172内から処理対象となる単語を抽出して第2の言語の単語集合を生成し、この集合内の各単語について文脈ベクトルを算出するための第2の文脈ベクトル生成部178と、第1の文脈ベクトル生成部176及び第2の文脈ベクトル生成部178により、第1の言語の単語集合内の各単語及び第2の言語の単語集合内の各単語について算出された文脈ベクトルの間の関連性類似度を計算するための関連性類似度計算部180と、関連性類似度計算部180により計算された関連性類似度が所定のしきい値より高い単語の対を翻訳対として抽出するための単語対抽出部182とを含む。
第1の文脈ベクトル生成部176は、第1の言語の文書集合170及びシード翻訳対174を用い、第1の言語の文書集合170内の各単語の間の関連グラフを作成(構築)する関連グラフ作成部200と、関連グラフ作成部200により作成された関連グラフの各ノードについて、シードとの関連度(シード情報)を伝播させるための前処理として、シード情報を初期値化するためのシード情報初期化部202と、シード情報初期化部202により初期化されたシード情報を関連グラフの各ノード間の関連度を用いてグラフ内で伝播させ、各ノードについてシードとの間接的な関連性を含めた文脈ベクトルを生成し出力するためのシード情報伝播部204とを含む。関連グラフとは、各単語をノードとし、各単語間の共起関係をエッジとするグラフのことである。
第2の文脈ベクトル生成部178も第1の文脈ベクトル生成部176と同様の構成であり、関連グラフ作成部200、シード情報初期化部202及びシード情報伝播部204にそれぞれ相当する関連グラフ作成部210、シード情報初期化部212及びシード情報伝播部214を含む。
図3の構成に対応する処理を実現するプログラムのフローチャートを図4に示す。ただし、図4においては、並行して実行可能な処理は別々の流れとして示してある。図4を参照して、このプログラムは、第1の言語の単語集合に含まれる各単語に対して文脈単語(同じ文脈内で共起する単語)を特定し、その単語との間の共起度合いを算出して関連グラフ244を算出する処理230と、同じく第2の言語の単語集合に含まれる各単語に対して文脈単語を特定し、その単語との共起度合いを算出して関連グラフ246を算出する処理232と、シード翻訳対174から各言語のシード単語を抽出する処理234とを含む。これら関連グラフ244及び関連グラフ246の例を、図5に日本語共起グラフ100及び英語共起グラフ102として示す。関連グラフ244及び関連グラフ246は、関連グラフであるが、例えば(第1の単語、第2の単語、同一文脈内での共起度合い)の3つ組のリストである。処理234の詳細については後述する。
こうして関連グラフ244及び246を算出した後、第1の言語については処理236で各単語のシード分布を間接的な関連性まで含めて計算する。ここで、シード分布とは、あるノード(そのノードに対応する単語)とシードノード(シード単語)の各々との間の関連度の、シード単語の集合全体にわたる分布を表したものである。これは、文脈ベクトルと呼ばれるものと同じものを指す。シード分布は、あるノードに関する性質をシードとの関係により表すものとも考えられるので、本明細書ではシード分布をシード情報とも呼ぶ。
第1の言語と同様に、第2の言語については処理238で各単語のシード分布を間接的な関連性まで含めて計算する。この計算により、第1の言語の各単語及び第2の言語の各単語について、シードとの間接的な関連性まで含めた総合的な関連度を要素として持つ文脈ベクトルが算出される。続いて処理240で、第1の言語の単語と第2の言語の単語との間の組合せの各々についてシード分布の類似度を計算する。そして、類似度がしきい値より高い単語対、又は類似度が高いものから所定個数の単語対を翻訳対として抽出する(処理242)。
〈文脈単語の特定及び共起度合いの算出〉
図4に示す処理230の詳細について図6を参照して説明する。この処理では、まず、第1の言語の文書集合170の各文書の各文について形態素解析を行ない、処理対象の単語を抽出する(ステップ270)。続いて、文書集合から得られた単語の集合Vに属する各単語vに対して、第1の言語の文書集合170内で単語vが出現した文脈の数x、文脈単語vと共起した文脈の数yij、及び第1の言語の文書集合170内にある文脈数Cをカウントする(ステップ272)。最後に、全文脈数C、単語vが出現した文脈数x、及び単語vが文脈単語vと共起した文脈の数yijを用い、単語vとその文脈単語vとの、同一文脈での共起度合いwijを算出する(ステップ274)。この共起度合いwijが、2つの単語v及びvの関連性を示し、日本語共起グラフ100におけるこれら単語に対応するノード間のエッジに割当てられる。ステップ274が完了すると関連グラフ244(図5に示す日本語共起グラフ100)が得られる。第2の言語についても同様である。なお、共起度合いwijとしては例えば以下の式に示す相互情報量を使用できる。
Figure 2014010634
図7を参照して、図6のステップ272を実現するプログラムは、記憶領域を確保し初期値で初期化するステップ300と、以下に述べる処理304を文書集合内の全ての文脈に対して実行するステップ302とを含む。以下、繰返しの対象となる文脈を文脈aと呼ぶ。
処理304では、全文脈数Cに1を加算し(ステップ310)、文脈a内の単語集合Vを求める(ステップ312)。この単語集合V内の単語vの全てに対して、以下の処理316を繰返す(ステップ314)。
処理316では、文脈数xに1を加算する(ステップ320)。続いて処理324を単語集合V内の全ての文脈単語vに対して繰返す。すなわち、処理324では単語vが文脈単語vと異なっているか否かを判定する(ステップ330)。両者が一致していなければ単語vが文脈単語vと共起した文脈の数yijに1を加算して処理324を終わる。両者が一致していれば何もせず処理324を終わる。
続いて、図4の処理234の詳細について説明する。図8を参照して、処理234は、シード翻訳対174から第1の言語のシード単語集L及び第2の言語のシード単語集Lと、シード単語集L及びLの対応関係とを求める処理である。ここで、シード翻訳対は、第1の言語の単語と第2の言語の単語との翻訳関係が1対1になっているエントリのみである場合(このようなシード翻訳対の関係を「シード翻訳対(1対1関係)」と呼ぶ。)と、第1の言語の単語と第2の言語の単語との翻訳関係が1対多関係又は多対多関係になっているものも含む場合(このような辞書のシード翻訳対の関係を「シード翻訳対(マルチ関係)」と呼ぶ。)とがある。例えば、図8のシード翻訳対Lは多対多なのでマルチ関係のシード翻訳対である。
シード翻訳対174がシード翻訳対(マルチ関係)である場合、処理234でシード単語集を抽出する場合には、マルチ関係をそれぞれの言語のシードで区別する方法(図8の下側)と、区別しない方法(図8の上側)とがあり、得られるシード単語集が両者で異なることに注意すべきである。いずれを用いても良い。図8においては、第1の言語として英語を、第2の言語として日本語を想定して対応関係を示してある。各言語で得られたシードにはインデックスを割当て、対応関係の集合Aを、これらインデックスの組合せで示してある。図8からも分かる通り、いずれの方法をとるかで対応関係の中身が異なってくる。
シード翻訳対174がシード翻訳対(1対1関係)の場合には、いずれの方法をとっても結果は同じになる。
〈シード分布の計算〉
図9を参照して、図4の処理236及び238では、それぞれ、第1の言語の関連グラフと第2の言語の関連グラフとについて、非シードのあるノード(例えばノード130)と直接の関連を持たないシードのノードであって、間接的な関連を持つノード(例えばノード130に対して、ノード132を介して間接的に関連するシードのノード110)のシード情報を、間に介在するノード(例えばノード132)を介して伝播する。この際、シード情報はノードを連結するエッジに割当てられた関連度を乗じることで、関連度に応じて弱められた形で伝播される。また、図9には示されていないが、2つのノードの間に間接的な関連が複数ある場合にはそれら関連を全て通じて伝播されるシード情報の和が結果的に伝播される。この結果、シードでないノードの各々について、間接的な関連性も含めた総合的な関連度が、シードとの間で計算される。
ここでいうシード情報は、あるノードとシードノードの各々との間の関連度の分布を表したものである。これをシード分布とも呼ぶことについては前述した。シード分布は、シードを次元、シードとの関連度を重み(要素の値)としたベクトル(文脈ベクトル)であると考えることもできる。つまり、第1の言語のシード単語集LがN個の単語を含む場合、単語v∈Vのシード分布ベクトルqは、N次元で、シード単語vに対応する各次元zは、単語vとシード単語vとの関連度を示す値を持つ。したがって、全単語のシード分布は、行列Q(行:全単語数、列:全シード数)で表すことができる。行列Qijのi行j列の要素Q(i,j)の値は、単語vのシード単語vに対する関連度を表す。
図4に示す処理236及び238の出力は、この行列Qijである。言い換えると、処理236の場合には第1の言語の単語の個数分のN次元ベクトル(又は、(単語、シードの単語、両者の関連度)からなる3つ組のリスト)である。
図10を参照して、例えば処理236を実現するプログラムは、シード単語集L350(i=1)と、関連グラフ244の3つ組のリストとを受けて、3つ組の単語v∈Vに対して各シードz∈Lに対する関連度q(z)の初期値を設定する(qは行列Qの行ベクトルに相当するので、この処理により行列Qが初期化される。)。ステップ352と、各単語v∈Vのシード分布に隣のノードのシード分布を伝播させるステップ354とを含む。言い換えると、ステップ354では、各シードに対する関連度q(z)及び行列Qをアップデートする。ステップ354の後、伝播の終了条件にマッチしたか否かが判定される。判定が肯定ならこの処理は終了し、否定なら制御はステップ354に戻る。すなわち、所定の終了条件が充足されるまで、ステップ354が繰返し実行される。本実施の形態では、終了条件として、「予め定めた回数、伝播処理(ステップ354)を繰返したか」という条件を用いる。
図11を参照して、図10のステップ352を実現するプログラムは、第1の言語の文書集合170(又は第2の言語の文書集合172)内の全単語の集合V内の各単語v∈Vに対して以下の処理372を実行して、初期行列Qを得るステップ370を含む。処理372は、各シード単語z∈L(Lはシード単語集、ただしi=1、2)に対し、以下の処理382を実行するステップ380を含む。処理382では、単語vがシード単語集Lに属するか否かを判定する(ステップ400)。判定が肯定ならさらにシード単語zが単語vと一致するか否かを判定する(ステップ402)。判定が肯定なら行列Qの初期行列であるQの要素Q(i,z)に1を代入し(ステップ404)、否定なら0を代入して(ステップ406)処理382を終了する。ステップ400の判定が否定なら、要素Q(i,z)に1/Nを代入して(ステップ408)処理382を終了する。すなわち、全単語の集合V内のi番目の単語vがシード単語集Lに属していなければ、初期行列Qのi番目の行の要素の全てに1/Nを代入し、単語vがシード単語集Lに属しており、かつシード単語zと一致していれば、初期行列Qのその単語とそのシード単語とに対応する要素には1を代入し、単語vがシード単語集Lに属しており、かつシード単語zと一致していなければ、その単語とそのシード単語とに対応する要素には0を代入する。以上の処理を全単語の集合Vに属する全ての単語vに対して実行することで、行列Qの初期行列Qが得られる。
図10におけるステップ354及び356のシード分布の伝播の際には、1つ前のシード分布を利用する。したがって、シード分布の伝播は、1つ前の状態を表す行列Q’(行:全単語数、列:全シード数、の行列)と、アップデートした状態を表す行列Q(行:全単語数、列:全シード数、の行列)とを用いて管理する。概念的には、図12に示すように、ステップ354及び356は、現在の状態Qを直前の状態Q’に退避するステップ430と、現在の状態Qを更新するステップ432とを含む。
より具体的には、ステップ354及び356を実現するプログラムは以下のような制御構造を持つ。なお、本実施の形態では、n回の繰返しを実行したことを繰返し処理の終了条件(図10のステップ356)としている。ここで、nは、所望の精度が得られるように適宜定めた整数、又はn回の繰返しにより、結果がほぼ収束することが予測される整数である。
図13を参照して、このプログラムは、行列Qに初期行列Qを代入するステップ450と、変数mを1〜nまで1ずつ変化させながら、処理451を繰返すステップ452とを含む。
処理451は、行列Q’に行列Qを代入するステップ430(図12に示すものと同じ)と、各単語v∈Vに対し、以下の処理454を実行するステップ432とを含む。
処理454は、各シードz∈Lに対し、処理462を実行するステップ460を含む。
処理462は、単語vがシード単語集Lに属するか否かを判定するステップ470と、ステップ470の判定が肯定のときに、行列Qの要素Q(i、z)に行列Q’の要素Q’(i、z)を代入してこの処理462を終了するステップ472とを含む。処理462はさらに、ステップ470の判定が否定のときに、2つの変数bunbo及びbunshiに0を代入するステップ474と、単語vの隣の単語からなる集合の要素である各文脈単語vに対し、以下の式による計算を行なうステップ478を繰返して実行するステップ476と、ステップ476の繰返しが終了した時点で行列Qの要素Q(i、z)に"bunshi/bunbo"の値を代入して処理462を終了するステップ480とを含む。
Figure 2014010634
〈シード分布の類似度計算〉
図14を参照して、上記した処理236及び238が完了すると、日本語共起グラフ100及び英語共起グラフ102の双方において、非シードのノードの各々について、シードとの間接的な関連まで含めた総合的な関連度を要素とする文脈ベクトルが算出されることになる。図14に示す例では、これらノードの文脈ベクトルにおいて、直接的にこれらノードと連結されているシードのノードだけではなく、他のノードを介して間接的にこれらノードと関連しているシード(例えばノード130に対するノード110、及びノード134に対するノード112)についても、要素となっている。その結果、図14に示す例では、ノード130とノード134との文脈ベクトルの類似度が高くなる一方、ノード130とノード138との文脈ベクトルの類似度は、ノード138とノード112との間接的な関連度が低いため低くなる。したがってノード130とノード134を翻訳対として正しく抽出することが可能になり、ノード130とノード138とを誤って抽出する可能性が低くなる。なお、文脈ベクトルの間の類似度としては、例えばコサイン類似度を用いることができる。
〈単語対の抽出〉
図4の処理242での単語対の抽出は、上のように計算した類似度が所定のしきい値より高い対応関係を選択する、又は類似度が高いものから順番に所定個数の対応関係を選択することにより行なわれる。
《動作》
〈全体の動作順序〉
図4を参照して、本実施の形態の処理は、第1の言語の文書集合170、第2の言語の文書集合172、及びシード翻訳対174の準備、処理230及び処理232の実行、処理234の実行、処理236及び処理238の実行、処理240の実行、並びに処理242の実行、という順序で行なわれる。これらの内、処理230、処理232及び処理234は互いに独立な処理なので、同時並行的に行なうこともできるし、順次的に行なうこともできる。処理236及び処理238も同様である。これらの処理を異なるコンピュータ上で実行してもよい。
〈準備〉
図3及び図4を参照して、第1の言語の文書集合170と第2の言語の文書集合172、及びシード翻訳対174を準備しておく。第1の言語の文書集合170及び第2の言語の文書集合172は、対訳関係になくてもよい。しかしできれば同じ分野に属する文書の集合であることが望ましい。シード翻訳対174としては、従来のものと同様のものを使用できる。
〈関連グラフの作成〉
図6に示す処理を第1の言語の文書集合170と第2の言語の文書集合172との双方について実行することにより関連グラフ244及び246が作成できる。具体的には、第1の言語の文書集合170の場合を例にとると、図6のステップ270において第1の言語の文書集合170の各文書を形態素解析する。ステップ272(詳細は図7)において、第1の言語の文書集合170から抽出した処理対象の全単語vに対し、その単語vが出現した文脈数x(図7のステップ320)、単語vが文脈単語vと共起した文脈の数yij(図7のステップ332)、及び第1の言語の文書集合170内にある全文脈数C(図7のステップ310)をカウントする。ステップ274で、これら全文脈数C、文脈数x、及び単語vが文脈単語vと共起した文脈の数yijを用い、単語vとその文脈単語vとの同一文脈での共起度合いwijを計算する。これにより、第1の言語の文書集合170について、(単語v、単語v、共起度合いwij)のリストとして関連グラフ244が得られる。
第2の言語の文書集合172から得られる関連グラフ246についても同様である。
〈シード単語の抽出〉
図4の処理234において、図8に示すように、第1の言語及び第2の言語の双方のシード単語集L及びLを求め、さらにこれらシード単語集L内のシードとシード単語集L内のシードとの対応関係Aを求める。図8に示すいずれの方法を用いてもよい。
〈シード分布の計算〉
図4の処理236及び処理238により、第1の言語の文書集合170から得られた関連グラフ244、及び第2の言語の文書集合172から得られた関連グラフ246において、各単語のシード分布を、非シードのノードとシードとの間接的関連を含めて伝播する処理を行なう。具体的には、例えば関連グラフ244に対する処理を考えると、図10を参照して、シード単語集Lと、関連グラフ244を表す3つ組(単語v、単語v、共起度合いwij)のリストとを用い、シード分布の状態を表す行列Qを初期化する(ステップ352)。その詳細は図11に示したとおりである。要するに、全単語の集合V内の各単語vについて、それがシード単語かどうかを判定し、シード単語であればその単語vの文脈ベクトルの内、そのシード単語に相当する要素の値を1、シード単語に相当しない要素を0にする。単語vがシード単語でなければ、その単語vの文脈ベクトルの各要素の値を1/N(Nは全単語の数)とする。
続いて、図10のステップ354で、全単語の集合V内の各単語vについて、そのシード分布に、隣のノードのシード分布を伝播させる。その詳細は図13に示したとおりである。本実施の形態では、図13の処理451をn回繰返したところで(図10のステップ356でYES)伝播処理を終了する。この伝播処理が終了した時点で、図9に示すとおり、非シードのノードの各々(例えばノード130)について、そのノードと直接関連しているシード(日本語共起グラフ100において直接そのノードと連結されているシードのノード)だけでなく、他のノードを介して間接的にそのノードと関連しているシード(例えばノード110)との関連性もノードの文脈ベクトルに反映された状態となっている。
〈翻訳対の抽出〉
図4の処理240では、シード情報伝播部204で第1の言語の各ノードについて得られた文脈ベクトルと、シード情報伝播部214で第2の言語の各ノードについて得られた文脈ベクトルとのコサイン類似度を計算する。続いて処理242において、コサイン類似度が所定のしきい値より大きな文脈ベクトルのペアに対応するノード対を翻訳対として抽出する。
図14に示す日本語共起グラフ100と英語共起グラフ102の場合、ノード130とノード134との文脈ベクトルの類似度が高いため、これら2つのノードに対応する日本語の単語「ピラニア」と英語の単語「piranha」とが翻訳対として抽出される。英語のノード138("anaconda"に対応する)は、"fish"に対応するノード112との間接的な関連性が低い。そのため、ノード130の文脈ベクトルとノード138の文脈ベクトルとの間の類似度は低く、「ピラニア─anaconda」の組合せは翻訳対としては抽出されない。
[第2の実施の形態]
上記第1の実施の形態では、図13に示す処理451を所定回数(n回)繰返した時点で繰返しを終了している。しかし本発明はそのような実施の形態には限定されない。例えば、各繰返しにおいて、各ノードの文脈ベクトルが、直前の繰返し時と比較してどの程度変化しているかを調べ、この変化量があるしきい値以下となった時点で繰返しを終了しても良い。この第2の実施の形態は、そのような実施の形態である。
《構成》
第2の実施の形態に係る装置は、第1の実施の形態の装置と比較して、図10のステップ354及びステップ356の部分のみが異なる。それらに対応する処理を実現するプログラムの制御構造を図15に示す。
図15を参照して、このプログラムは、各単語に対するシード分布を表すベクトル(文脈ベクトル)を要素とする行列Qに、図10のステップ352で得られた初期行列Qを代入するステップ530と、変数maxの値が予め定められたしきい値θより大きいという条件が成立している間、以下に説明する処理534を繰返すステップ532を含む。
処理534は、変数maxに0を代入し、直前の行列Qを保存する行列Q’に行列Qを代入するステップ550と、全単語の集合Vに属する各単語vについて、以下に説明する処理554を実行するステップ552とを含む。
処理554は、シード単語集L内の各シード単語zに対し、処理562を繰返すステップ560を含む。処理562は、図13に示す処理462と似ているが、図13のステップ476の後に、行列Qの要素Q(i、z)から行列Q’の要素Q’(i、z)を減算した値(差分)が変数maxより大きいか否かを判定するステップ588と、差分が変数maxより大きい場合、変数maxに差分の値を代入して処理562を終了し、そうでない場合、何もせず処理562を終了するステップ590とを含む点において処理462と異なっている。
《動作》
この実施の形態に係る装置は、第1の実施の形態の装置とほぼ同様に動作する。異なるのは、図3のシード情報伝播部204及びシード情報伝播部214、すなわち図4の処理236及び処理238の処理の終了条件が異なる点だけである。すなわちこの実施の形態では、所定回数だけ伝播処理を行なったときに処理を終了するのではなく、図15の処理534を行なうごとに、行列Qの各要素の差分の最大値を変数maxに保存し変数maxの値がしきい値θ以下となったときに処理を終わる。その他の点では、この装置は第1の実施の形態の装置と同じ動作をする。
[第3の実施の形態]
第1及び第2の実施の形態では、共起グラフを関連グラフとして用いている。しかし本発明は、そのような実施の形態には限定されない。共起グラフのように単語vと文脈単語vとの共起度合いそのものではなく、単語vと文脈単語vとの文脈類似度を用いたグラフ(意味グラフと呼ぶ)を関連グラフとして用いても良い。ここで、文脈類似度は共起度合いを用いて算出されるもので、以下の手順で得られるもののことをいう。
単語vとその各文脈単語vとの間の共起度合いfijを求める。この処理により得られる共起度合いfijを文脈単語vの順序にしたがって並べることによりベクトルが得られるが、このベクトルは単語vに対する文脈ベクトルと考えることができる。この、単語vの文脈ベクトルをベクトルfi*と書く。ベクトルfi*は、共起度合いfijの中で、単語vとその文脈単語に対応する値の全てからなるベクトルである。全単語の集合V内の単語vと単語vの組合せの全てについて、このベクトルfi*及びfj*のコサイン類似度を計算し、その値を文脈類似度ωijとする。文脈類似度ωijを第1及び第2の実施の形態における共起度合いwijと同様に用いても、第1及び第2の実施の形態と同様の効果を得ることができる。
具体的なプログラム構成について図16を参照して説明する。図16を参照して、このプログラムは、図6に示すものと同様のステップ270及び272と、図6のステップ274において共起度合いwijを共起度合いfijという表現に変えただけのステップ610とを含む。このプログラムはさらに、ステップ610で得られた共起度合いfijを用い、既に述べた方法にしたがって例えば第1の言語の文書集合170内の単語v及び単語vの組合せの全てについて文脈類似度ωijを計算することにより、関連グラフとしての意味グラフを生成するステップ612を含む。この意味グラフは、本実施の形態では、3つ組(単語v、単語v、文脈類似度ωij)のリストである。
この第3の実施の形態に係る装置は、第1及び第2の実施の形態における、図3の関連グラフ作成部200及び関連グラフ作成部210、並びに図4の処理230及び処理232の処理において、図6の処理に代えて図16の処理が実行される点のみにおいて異なっている。その他の点では、第3の実施の形態に係る装置は第1及び第2の実施の形態に係る装置と同様に動作する。
図17を参照して、図16に示すステップ612は、各単語v∈Vに対して以下の処理632を実行するステップ630を含む。処理632は、各単語v∈Vに対して以下の処理642を実行するステップ640を含む。
処理642は、単語vが単語vと等しいか否かを判定するステップ650と、ステップ650の判定が肯定のときに、単語vの文脈ベクトルfi*と単語vの文脈ベクトルfj*とのコサイン類似度を計算し、その値を文脈類似度ωijに代入して処理642を終了するステップ652とを含む。ステップ650の判定が否定の時には、処理642は終了する。
[補足]
なお、第1及び第2の実施の形態において、共起度合いwijとしては相互情報量以外にも、対数尤度比、ダイス係数、χ二乗値、z値等、共起度を測る統計指標、及び、tf・idf値等、単語vの文脈における文脈単語vの特徴度を測る指標等も用いることができる。また、図6のステップ274で得られた共起度合いwijについて、その値が所定のしきい値より小さい場合に、その共起度合いwijを削除してもよい。また、各単語vに対して共起度合いwijの上位の所定個数のみを使用し、他は削除するようにしてもよい。第3の実施の形態における図16のステップ612におけるωijでも同様である。
以上に説明した実施の形態において、図4の処理242での出力には、第1の言語の全単語と第2の言語の全単語とについての類似度を保持しておく必要はなく、出力において要請される形式にしたがって保存すべき情報のみを残し、他は消去してよい。例えば、各単語に対して類似度が最上位の単語とのペアを出力する場合、第1の言語の各単語に対して、第2の言語の単語の内、類似度が最も高いものとその類似度のみを管理しておけば良い。
以下、出力形式の要請として考えられる場合と、それらに対応する出力の例とを示す。
[コーパスから翻訳対を抽出する場合]
(1)第1の言語の各単語に対して類似度が上位1位の第2の言語の単語からなるペアを出力
(2)第1の言語の各単語と、当該単語に対して類似度が上位N位までの第2の言語の単語からなるペアを出力(Nは人手で予め設定する。)
(3)第1及び第2の言語の単語のペアの内、類似度が予め定めたしきい値以上のものを出力
(4)上記(1)又は(2)と(3)との組合せ
上記実施の形態では、第1の言語の文書集合170と第2の言語の文書集合172とが与えられ、両者から翻訳対を抽出している。しかし、本発明はそのような実施の形態のみに適用可能な訳ではない。他の方式で翻訳対を求める場合にも適用できる。例えば、第1の言語のある単語が与えられた場合、その単語に対する翻訳を求める場合も、第1〜第3の実施の形態の方法をほぼそのまま転用できる。第1〜第3の実施の形態において、第1の言語の単語中で、入力された特定の単語のみを処理の対象とすればよい。この場合にも、出力として、入力された単語に対し類似度が最上位の1個の第2の言語の単語を出力するようにしてもよいし、予め指定された複数個の単語を出力するようにしてもよい。さらに、類似度が予め定めたしきい値以上の単語のみを出力するようにしてもよい。この場合には、入力された単語に対する訳語が存在しないという場合もあり得る。
[コンピュータによる実現]
上記実施の形態に係る対訳表現抽出装置及びこの装置により実行される対訳表現抽出方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図18はこのコンピュータシステム730の外観を示し、図19はコンピュータシステム730の内部構成を示す。
図18を参照して、このコンピュータシステム730は、メモリポート752及びDVD(Digital Versatile Disc)ドライブ750を有するコンピュータ740と、キーボード746と、マウス748と、モニタ742とを含む。
図19を参照して、コンピュータ740は、メモリポート752及びDVDドライブ750に加えて、CPU(中央処理装置)756と、CPU756、メモリポート752及びDVDドライブ750に接続されたバス766と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)758と、バス766に接続され、プログラム命令、システムプログラム、シード翻訳対174、第1及び第2の文書集合170及び172、共起グラフのデータ、及び作業データ等を一時的に記憶するランダムアクセスメモリ(RAM)760とを含む。コンピュータシステム730はさらに、CPU756が使用するデータを記憶するハードディスク754と、コンピュータ740と他端末との通信を可能とするネットワーク770への接続を提供するネットワークインターフェイスカード(NIC)768とを含む。図19に示されるように、コンピュータ740のバス766にはさらに、プリンタ744を接続してもよい。
ハードディスク754は、上記した各実施の形態の対訳表現抽出装置の各機能部をコンピュータシステム730のコンピュータハードウェアにより実現するためのコンピュータプログラム、シード翻訳対174、第1及び第2の文書集合170及び172等のデータを記憶する不揮発性の補助記憶装置である。このコンピュータプログラムは、DVDドライブ750又はメモリポート752にそれぞれ装着されるDVD762又はリムーバブルメモリ764に記憶され、さらにハードディスク754に転送され記憶される。又は、プログラムはネットワーク770及びNIC768を通じてコンピュータ740に送信されハードディスク754に記憶されてもよい。上記各実施の形態の装置及び方法を実現するためのプログラム、シード翻訳対174、並びに第1及び第2の文書集合170及び172等の各種のデータは実行の際に適宜RAM760にロードされる。DVD762から、リムーバブルメモリ764から、又はネットワークを介して、直接にRAM760に各種データをロードしてもよい。
このプログラムは、コンピュータ740を、上記実施の形態に係る対訳表現抽出装置の各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ740上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又は、コンピュータ740にインストールされる各種プログラミングツールキットのモジュール若しくはフレームワークにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な命令全てを必ずしも含まなくてよい。このプログラムは、命令の内容にしたがい、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。このように、適宜必要な命令又は一連の命令の集合を必要に応じて適宜記憶装置から読出して実行する際のコンピュータシステム730の動作は周知である。したがってここではその詳細な説明は繰返さない。
以上、今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
50 日本語文書集合
52 英語文書集合
54 既存辞書
60、62 関連度リスト
66、68 文脈ベクトル
100 日本語共起グラフ
102 英語共起グラフ
110,112,114,116,118,120 シードのノード
130,132,134,136,138 シード以外のノード
170 第1の言語の文書集合
172 第2の言語の文書集合
176 第1の文脈ベクトル生成部
178 第2の文脈ベクトル生成部
180 関連性類似度計算部
182 単語対抽出部
184 単語対

Claims (6)

  1. 第1の言語と第2の言語との対訳辞書を用い、前記第1の言語の文書集合及び前記第2の言語の文書集合から、前記第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出装置であって、
    前記対訳辞書は、複数の翻訳対を含み、
    当該複数の翻訳対の各々は、前記第1の言語の第1のシード単語と、前記第2の言語の第2のシード単語とを含み、
    前記第1の言語の文書集合、及び、前記第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成するための単語抽出手段と、
    前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連性を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の共起頻度に基づいて計算するための直接的関連性計算手段と、
    前記第1の単語集合及び前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための文脈ベクトル生成手段と、
    前記第1の単語集合の単語及び前記第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、前記第1の言語と前記第2の言語との対訳表現として選択するための対訳表現選択手段とを含む、対訳表現抽出装置。
  2. 前記文脈ベクトル生成手段は、
    前記第1の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々のうちの前記第1のシード単語との間の前記総合的関連性を計算することにより、前記複数の翻訳対の各々との前記総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための第1の言語の文脈ベクトル生成手段と、
    前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々のうちの前記第2のシード単語との間の前記総合的関連性を計算することにより、前記複数の翻訳対の各々との前記総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための第2の言語の文脈ベクトル生成手段とを含む、請求項1に記載の対訳表現抽出装置。
  3. 前記直接的関連性計算手段は、
    前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連性を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の、互いに直接の共起関係にある頻度に基づいて単語同士の間で計算するための計算手段と、
    前記第1の単語集合及び前記第2の単語集合の各々について、単語をノード、単語間の直接的な共起関係をエッジとする関連グラフを構築し、各エッジには当該エッジに対応する共起関係について前記計算手段により計算された直接的な関連性を割当てるための関連グラフ構築手段とを含む、請求項2に記載の対訳表現抽出装置。
  4. 前記第1の言語の関連性計算手段は、
    前記第1の言語について構築された前記関連グラフにおいて、各ノードに対応する単語について前記文脈ベクトル生成手段により生成された文脈ベクトルを、各エッジを介して隣接するノードに伝播させるための伝播手段と、
    前記伝播を、所定の終了条件が成立するまで繰返し実行するように前記伝播手段を制御するための繰返し制御手段とを含み、
    前記伝播手段は、前記分布の伝播において、当該エッジに割当てられた直接的な関連度を前記文脈ベクトルの各要素に乗じる、請求項3に記載の対訳表現抽出装置。
  5. 第1の言語と第2の言語との対訳辞書を用い、前記第1の言語の文書集合及び前記第2の言語の文書集合から、前記第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出方法であって、
    前記対訳辞書は、複数の翻訳対を含み、
    当該複数の翻訳対の各々は、前記第1の言語の第1のシード単語と、前記第2の言語の第2のシード単語とを含み、
    前記第1の言語の文書集合、及び、前記第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成する単語抽出ステップと、
    前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の共起頻度に基づいて計算する直接的関連性計算ステップと、
    前記第1の単語集合及び前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算ステップにおいて計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成する文脈ベクトル生成ステップと、
    前記第1の単語集合の単語及び前記第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、前記第1の言語と前記第2の言語との対訳表現として選択する対訳表現選択ステップとを含む、対訳表現抽出方法。
  6. 第1の言語と第2の言語との対訳辞書を用い、前記第1の言語の文書集合及び前記第2の言語の文書集合から、前記第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出装置としてコンピュータを機能させる、対訳表現抽出のためのコンピュータプログラムであって、
    前記対訳辞書は、複数の翻訳対を含み、
    当該複数の翻訳対の各々は、前記第1の言語の第1のシード単語と、前記第2の言語の第2のシード単語とを含み、
    前記コンピュータプログラムは、前記コンピュータを、
    前記第1の言語の文書集合、前記第2の言語の文書集合、及び、前記対訳辞書を記憶するための記憶手段と、
    前記第1の言語の文書集合、及び、前記第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成するための単語抽出手段と、
    前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連性を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の共起頻度に基づいて計算するための直接的関連性計算手段と、
    前記第1の単語集合及び前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための文脈ベクトル生成手段と、
    前記第1の単語集合の単語及び前記第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、前記第1の言語と前記第2の言語との対訳表現として選択し出力するための対訳表現選択手段として機能させる、対訳表現抽出のためのコンピュータプログラム。
JP2012146970A 2012-06-29 2012-06-29 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム Expired - Fee Related JP6112536B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012146970A JP6112536B2 (ja) 2012-06-29 2012-06-29 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012146970A JP6112536B2 (ja) 2012-06-29 2012-06-29 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2014010634A true JP2014010634A (ja) 2014-01-20
JP6112536B2 JP6112536B2 (ja) 2017-04-12

Family

ID=50107300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012146970A Expired - Fee Related JP6112536B2 (ja) 2012-06-29 2012-06-29 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6112536B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018010514A (ja) * 2016-07-14 2018-01-18 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
US10216726B2 (en) 2015-07-31 2019-02-26 Samsung Electronics Co., Ltd. Apparatus and method for determining translation word
JP2019159118A (ja) * 2018-03-13 2019-09-19 富士通株式会社 出力プログラム、情報処理装置及び出力制御方法
CN112580916A (zh) * 2019-09-30 2021-03-30 深圳无域科技技术有限公司 数据评估方法、装置、计算机设备和存储介质
WO2022264232A1 (ja) * 2021-06-14 2022-12-22 日本電信電話株式会社 学習装置、対訳文出力装置、学習方法、対訳文出力方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248596A (ja) * 2010-05-26 2011-12-08 Hitachi Ltd 画像入り文書の検索システム及び検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248596A (ja) * 2010-05-26 2011-12-08 Hitachi Ltd 画像入り文書の検索システム及び検索方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
下畑 さより 外1名: "日英特許コーパスからの専門用語対訳辞書の自動獲得", 自然言語処理, vol. 第14巻第4号, JPN6016024453, 10 July 2007 (2007-07-10), JP, pages 23 - 41, ISSN: 0003345286 *
安川 美智子 外1名: "Web検索エンジンを用いた用語検索履歴からのシソーラス自動構築", 日本データベース学会LETTERS, vol. 第3巻第1号, JPN6016024459, 15 June 2004 (2004-06-15), JP, pages 105 - 108, ISSN: 0003345292 *
梶 博行 外1名: "共起語集合の類似度に基づく対訳コーパスからの対訳語抽出", 情報処理学会論文誌, vol. 第42巻第9号, JPN6016024456, 15 September 2001 (2001-09-15), JP, pages 2248 - 2258, ISSN: 0003345289 *
植野 研 外2名: "ウェブ文書資源からの中日対訳推定における文脈窓幅の役割", 情報処理学会研究報告, vol. 第2005巻第1号, JPN6016024457, 12 January 2005 (2005-01-12), JP, pages 79 - 84, ISSN: 0003345290 *
榊原 徹也 外2名: "コンパラブルコーパスを用いたWordNetの自動翻訳", 言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD−ROM], JPN6016024460, 31 March 2012 (2012-03-31), JP, pages 681 - 684, ISSN: 0003345293 *
相澤 彰子 外1名: "著者キーワード中での共起に基づく専門用語間の関連度計算法", 電子情報通信学会論文誌 (J83−D−I), vol. 第J83-D-I巻第11号, JPN6016024458, 25 November 2000 (2000-11-25), JP, pages 1154 - 1162, ISSN: 0003345291 *
菊井 玄一郎: "ターム間の意味的関連性に基づくタームリストの翻訳多義解消", 自然言語処理, vol. 第7巻第3号, JPN6016024455, 10 July 2000 (2000-07-10), JP, pages 79 - 96, ISSN: 0003345288 *
萩原 正人 外2名: "類義語自動獲得における間接依存関係の有効性", 言語処理学会第13回年次大会ワークショップ「言語的オントロジーの構築・連携・利用」論文集, JPN6016024454, 19 March 2007 (2007-03-19), JP, pages 43 - 46, ISSN: 0003345287 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10216726B2 (en) 2015-07-31 2019-02-26 Samsung Electronics Co., Ltd. Apparatus and method for determining translation word
JP2018010514A (ja) * 2016-07-14 2018-01-18 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
JP2019159118A (ja) * 2018-03-13 2019-09-19 富士通株式会社 出力プログラム、情報処理装置及び出力制御方法
JP7124358B2 (ja) 2018-03-13 2022-08-24 富士通株式会社 出力プログラム、情報処理装置及び出力制御方法
CN112580916A (zh) * 2019-09-30 2021-03-30 深圳无域科技技术有限公司 数据评估方法、装置、计算机设备和存储介质
CN112580916B (zh) * 2019-09-30 2024-05-28 深圳无域科技技术有限公司 数据评估方法、装置、计算机设备和存储介质
WO2022264232A1 (ja) * 2021-06-14 2022-12-22 日本電信電話株式会社 学習装置、対訳文出力装置、学習方法、対訳文出力方法およびプログラム

Also Published As

Publication number Publication date
JP6112536B2 (ja) 2017-04-12

Similar Documents

Publication Publication Date Title
US10963794B2 (en) Concept analysis operations utilizing accelerators
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
Campos et al. Biomedical named entity recognition: a survey of machine-learning tools
US11210468B2 (en) System and method for comparing plurality of documents
WO2017130434A1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
EP1855211A2 (en) Machine translation using elastic chunks
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN108681557A (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
JP6705318B2 (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
JP6112536B2 (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
Zvonarev et al. A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data.
Castillo A WordNet-based semantic approach to textual entailment and cross-lingual textual entailment
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
CN114021573B (zh) 一种自然语言处理方法、装置、设备及可读存储介质
US9286289B2 (en) Ordering a lexicon network for automatic disambiguation
Gao et al. Chinese-Naxi machine translation method based on Naxi dependency language model
KR102299001B1 (ko) 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
Ak et al. Unsupervised morphological analysis using tries
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
Brychcín Distributional semantics in language modeling
JP2013156815A (ja) ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150430

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170308

R150 Certificate of patent or registration of utility model

Ref document number: 6112536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees