JP3996886B2 - 対訳対抽出装置及びそのためのコンピュータプログラム - Google Patents

対訳対抽出装置及びそのためのコンピュータプログラム Download PDF

Info

Publication number
JP3996886B2
JP3996886B2 JP2003371587A JP2003371587A JP3996886B2 JP 3996886 B2 JP3996886 B2 JP 3996886B2 JP 2003371587 A JP2003371587 A JP 2003371587A JP 2003371587 A JP2003371587 A JP 2003371587A JP 3996886 B2 JP3996886 B2 JP 3996886B2
Authority
JP
Japan
Prior art keywords
specific expression
correspondence
document
language
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003371587A
Other languages
English (en)
Other versions
JP2005135217A5 (ja
JP2005135217A (ja
Inventor
正 熊野
秀紀 柏岡
英輝 田中
孝博 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003371587A priority Critical patent/JP3996886B2/ja
Publication of JP2005135217A publication Critical patent/JP2005135217A/ja
Publication of JP2005135217A5 publication Critical patent/JP2005135217A5/ja
Application granted granted Critical
Publication of JP3996886B2 publication Critical patent/JP3996886B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、二言語間の対訳対を作成する装置に関し、特に、互いに同じ題材を扱っていることが分っている二言語の文書から対訳対を自動的に抽出するための対訳対抽出装置に関する。
機械翻訳においては、翻訳対象となる二言語の間の対訳辞書が必須である。特に対訳辞書に含まれる対訳対が多ければ多いほど、翻訳の精度が高くなることが期待できる。しかし、そうした対訳辞書を人手で作成するのは手間がかかり、コストも高くなるという問題がある。
一方、ニュース等、翻訳の対象によっては、新らしい語、又は急に多用されるようになった語で、それまで対訳辞書に載っていなかったような語が頻出することがある。そうした語についても的確に翻訳できるようにするためには、機械翻訳で用いる対訳辞書を常に最新の状態に維持しておくのが望ましい。しかしそのためには前述した通り人手と時間とを要する作業を行なう必要がある。
こうした問題を解決するために、対訳コーパスを用いて対訳辞書を自動的に作成する装置が、後掲の特許文献1により開示されている。特許文献1に記載の装置では、予め文の間の対応付けがされた対訳コーパスを用いて、対応する文を読込み、その中で対応する単語(群)の対を尤度により選択している。
特開平07−028819号公報
しかし、特許文献1に記載の装置では、二言語の対訳文書を用意し、しかもその間で、予め文間の対応関係を設定しておく必要がある。このための作業量は、文書に含まれる文の数が多くなればなるほど大きくなる。それだけでなく、そもそもそのように理想的な対訳の関係にある文は存在しないことが多い。そのために特許文献1に記載の装置は、対訳が利用可能という条件が満たされるごく限られた局面でしか使用できない。
そこで、機械翻訳の利点を生かしながら、より精度の高い翻訳を可能とするために、対訳辞書を自動的に増強するための手段が望まれている。そのために、すべての種類の語でなくとも、特定の性質を持つ語についての対訳対を自動的に抽出できれば、対訳辞書の増強が簡単になると思われる。
そのための一つの方法として、対訳文書ではなく、単に同じ話題を伝達していることが分っているだけの二つの言語の文書から、対訳対を抽出することができれば便利である。このように同じ話題を伝達していることが分っている二言語の文書を、「内容対応二言語文書」と呼ぶことにする。
しかし、内容対応二言語文書は、内部に文等を単位とした構文構造的な対応関係を持たない。そのため、そうした単位による部分対応付けを前提とした従来の対訳対発見手法を内容対応二言語文書に適用することは困難である。
また、大量の内容対応二言語文書対の集合(これを「内容対応対訳コーパス」と呼ぶ。)の存在を前提として、文書対に表現対が共起する頻度情報を用いて対訳表現対を発見する手法も考えられる。しかしそうした手法では、ある程度の頻度で内容対応対訳コーパス中に出現する表現対のみを抽出の対象とする。一方、人名、地名、組織名等からなる固有表現、日時又は金額等からなる数値表現等(これらをまとめて「固有表現等」と呼ぶ。)は一般にコーパス中に出現する頻度が少ないことが知られている。そのため、この手法では固有表現の表現対を抽出することが困難である。
ところが、翻訳において固有表現等は重要であり、固有表現の対訳対を自動的に抽出できれば、翻訳の精度を高めることができる可能性が高い。
それゆえに本発明の目的は、理想的な対訳関係にある文書でなくても、二言語の文書から出現頻度の低い表現も含めて対訳対を自動的に抽出することができる対訳対抽出装置を提供することである。
本発明のその他の目的は、理想的な対訳関係にある文書でなくても、二言語の文書から固有表現等の対訳対を自動的に抽出することができる対訳対抽出装置を提供することである。
本発明の第1の局面にかかる対訳対抽出装置は、各々機械可読な形式の第1言語の文書および第2言語の文書から、それぞれ固有表現を抽出するための固有表現抽出手段と、固有表現抽出手段により第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間の対応関係を特定するための対応関係特定手段と、対応関係特定手段により特定された対応関係に従って、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現とを対訳対として抽出するための対訳対抽出手段とを含む。
好ましくは、対応関係特定手段は、固有表現抽出手段により第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現の間で、可能な複数通りの対応関係を仮定するための対応関係仮定手段と、対応関係仮定手段により仮定された複数通りの対応関係の各々に対し、対応の良さを示す所定の評価値を算出するための評価値算出手段と、評価値算出手段により算出された評価値が所定の条件を充足する対応関係を選択するための選択手段とを含む。
さらに好ましくは、評価値算出手段は、対応関係仮定手段により仮定された対応関係の各々に対し、それぞれ固有表現の間の対応の良さを互いに異なる尺度でそれぞれ表す複数通りの指標の値を算出するための複数個の指標算出手段と、対応関係仮定手段により仮定された対応関係の各々に対して、指標算出手段により算出された複数通りの指標の値を加重平均することにより評価値を算出するための加重平均手段とを含む。
複数個の指標算出手段は、対応関係仮定手段により仮定された対応関係の各々に対し、第1言語の文書中の第1の固有表現および第2の固有表現の出現順序が、第2言語の文書中の第1の固有表現に対応する固有表現及び第2の固有表現に対応する固有表現の出現順序と一致しているか否かを、対応が仮定されているすべての固有表現対について算出することにより得られる順序保存率を算出するための第1の指標算出手段と、第1の指標算出手段とは異なる指標を算出するための第2の指標算出手段とを含んでもよい。
好ましくは、第2の指標算出手段は、対応関係仮定手段により仮定された対応関係の各々に対し、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現とが互いに対応付けられている割合を表す翻訳率を算出するための第2の指標算出手段を含む。
加重平均手段は、対応関係仮定手段により仮定された対応関係の各々に対して、指標算出手段により算出された複数通りの指標の値を互いにほぼ等しい重みで平均することにより評価値を算出するための平均手段を含んでもよい。
好ましくは、対応関係特定手段はさらに、第1言語の文書から抽出された固有表現と、第2言語の文書から抽出された固有表現との間で、予め設定された条件に合致する固有表現対を抽出して確定的な対応関係を設定するための手段をさらに含む。
さらに好ましくは、対応関係特定手段は、固有表現抽出手段により第1言語の文書から抽出された固有表現を、各々同一の事物を指す固有表現からなる複数通りの固有表現グループに分類するための第1の分類手段と、固有表現抽出手段により第2言語の文書から抽出された固有表現を、各々同一の事物を指す固有表現からなる複数通りの固有表現グループに分類するための第2の分類手段と、第1の分類手段により分類された複数通りの固有表現グループと、第2の分類手段により分類された複数通りの固有表現グループとの間の対応関係を特定するためのグループ対応関係特定手段を含み、対訳対抽出手段は、対応関係特定手段により特定された対応関係に従って、第1の分類手段により分類された固有表現グループに属する固有表現と、第2の分類手段により分類された固有表現グループに属する固有表現とを対訳対として抽出するための手段を含む。
好ましくは、グループ対応関係特定手段は、第1の分類手段により分類された固有表現グループと、第2の分類手段により分類された固有表現グループとの間で、可能な複数通りの対応関係を仮定するための対応関係仮定手段と、対応関係仮定手段により仮定された複数通りの対応関係の各々に対し、対応の良さを示す所定の評価値を算出するための評価値算出手段と、評価値算出手段により算出された評価値が所定の条件を充足する対応関係を選択するための選択手段とを含む。
評価値算出手段は、対応関係仮定手段により仮定された対応関係の各々に対し、固有表現グループの間の対応関係の良さを異なる尺度でそれぞれ表す複数通りの指標の値を算出するための複数個の指標算出手段と、対応関係仮定手段により仮定された対応関係の各々に対して、指標算出手段により算出された複数通りの指標の値を加重平均することにより評価値を算出するための加重平均手段とを含んでもよい。
好ましくは、複数個の指標算出手段は、対応関係仮定手段により仮定された対応関係の各々に対し、第1の分類手段により分類された第1の固有表現グループおよび第2の固有表現グループの第1言語の文書中における出現順序が、第2言語の文書中の第1の固有表現グループに対応する固有表現グループ及び第2の固有表現グループに対応する固有表現グループの出現順序と一致しているか否かを、対応が仮定されているすべての固有表現グループの対について算出することにより得られる順序保存率を算出するための第1の指標算出手段と、第1の指標算出手段とは異なる指標を算出するための第2の指標算出手段とを含む。
さらに好ましくは、第2の指標算出手段は、対応関係仮定手段により仮定された対応関係の各々に対し、第1の分類手段により分類された固有表現グループと、第2の分類手段により分類された固有表現グループとが互いに対応付けられている割合を表す翻訳率を算出するための第2の指標算出手段を含む。
加重平均手段は、対応関係仮定手段により仮定された対応関係の各々に対して、指標算出手段により算出された複数通りの指標の値を互いにほぼ等しい重みで平均することにより評価値を算出するための平均手段を含んでもよい。
好ましくは、対応関係特定手段はさらに、第1の分類手段により分類された固有表現グループと、第2の分類手段により分類された固有表現グループとの間で、予め設定された条件に合致する固有表現グループの対を抽出して確定的な対応関係を設定するための手段をさらに含む。
さらに好ましくは、選択手段は、評価値算出手段により算出された評価値が最も高い対応関係を選択するための手段を含む。
本発明の第2の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの対訳対抽出装置として動作させる。
[第1の実施の形態]
本発明の第1の実施の形態にかかる対訳対抽出装置について、図1〜図6を参照して説明する。なお、以下の説明では、日本語と英語との対訳対を抽出する装置について説明するが、言語の組合せがこの二言語に限定されるわけではなく、どのような言語の組合せでも本実施の形態の装置を実現することができる。
本実施の形態の装置では、互いに厳密な意味での対訳ではないが、同じ題材を扱っている文書が二つの言語に存在する場合、それらから対訳対を抽出するようにしている。例えばある事件を伝える新聞記事等は、対訳というわけではないが互いに同じ話題を扱っている関係上、例えば同じものを表す固有表現(人名、地名、組織名等)、同じものを表す数値表現(日時、金額等)がいずれにも共通して出現する確率が高い。そこで、本実施の形態の装置では、そのように文書全体として互いに共通の話題を伝達している文書を統計的に処理して、共通の固有表現又は数値表現(これらを以後、単に「固有表現等」と呼ぶ。)を抽出する。
図1に、この第1の実施の形態にかかる対訳対抽出装置20のブロック図を示す。図1を参照して、対訳対抽出装置20は、日本語の文書である第1の文書50から、日本語の固有表現等を抽出し、さらにそれら固有表現を、同一のものを指し示すものからなる固有表現グループに分類するための日本語文書処理部30と、同様にして英語の文書である第2の文書60から、英語の固有表現等からなる固有表現グループを抽出するための英語文書処理部32とを含む。
対訳対抽出装置20はさらに、日本語文書処理部30により抽出された日本語の固有表現グループを記憶するための日本語の固有表現グループ記憶部58と、英語文書処理部32により抽出された英語の固有表現グループを記憶するための英語の固有表現グループ記憶部68と、日本語の固有表現グループ記憶部58に記憶された日本語の固有表現グループ及び日本語の固有表現等、並びに英語の固有表現グループ記憶部68に記憶された英語の固有表現グループ及び英語の固有表現等をどのように組合せれば、適切な対訳対群が得られるかを示す所定の評価値を算出するための評価値算出部34と、評価値算出部34により算出された評価値が最も高くなるような組合せの仕方に従って、日本語の固有表現等と英語の固有表現等とを組合せて対訳辞書38を作成するための対訳辞書作成部36とを含む。
日本語文書処理部30は、第1の文書50から固有表現等をその分類種別とともに抽出するための固有表現等抽出部52と、固有表現等抽出部52により抽出された固有表現等を記憶するための固有表現等記憶部54と、固有表現等記憶部54に記憶された日本語の固有表現のうち、同一対象を指し示すものをグループ化する処理を行なって日本語の固有表現グループを作成し、日本語の固有表現グループ記憶部58に記憶させる、日本語のためのグループ化処理部56とを含む。
固有表現等抽出部52としては、SVM(Support Vector Machine)を利用したアプリケーションプログラムを使用できる。SVMは、ある固有表現等についてその分類種別を示すタグ付データが付された正解データを用いて予め学習を済ませておく。その結果、第1の文書50に含まれる単語等を固有表現等抽出部52に与えることにより、固有表現等がSVMによって分類種別ごとに分類される。なお、本実施の形態では、分類種別としては、組織名、人名、地名、固有物名、日付、時刻、金額、割合等のようなものを想定している。
グループ化処理部56は、固有表現等記憶部54に記憶された固有表現について、それら固有表現同士の文字列の類似度等に基づき、同一対象を指し示すものか否かを判定し、固有表現をグループ化する。この処理では、例えばある固有表現とその略語等という関係のものを同一グループにまとめる。この処理でグループされない固有表現等もあり得るが、「固有表現グループ」と呼ぶときは、それらグループ化されなかった固有表現等も含むものとする。
英語文書処理部32も日本語文書処理部30と同様、英語の文書である第2の文書60から固有表現等を抽出するための固有表現等抽出部62と、抽出された英語の固有表現等を記憶するための固有表現等記憶部64と、固有表現等記憶部64に記憶された英語の固有表現等をグループ化して、英語の固有表現グループ記憶部68に記憶させるためのグループ化処理部66とを含む。固有表現等抽出部62及びグループ化処理部66の機能は、言語が異なることを除き、日本語の固有表現等抽出部52及びグループ化処理部56と同じである。
なお、本実施の形態では、固有表現等抽出部52と固有表現等抽出部62とは互いに同一の分類種別を採用している。抽出基準もできるだけ同一となるようにすることが望ましい。
図2に、評価値算出部34のより詳細なブロック図を示す。図2を参照して、評価値算出部34は、固有表現グループ記憶部58及び68にそれぞれ記憶された日本語の固有表現グループと英語の固有表現グループとの間で可能な組合せをすべて数え上げ、それらの各々を所定の順で選択(したと仮定)するための組合せ選択部90と、組合せ選択部90により選択された組合せに対し、後述する順序保存率を算出するための順序保存率算出部92と、同じく組合せ選択部90により選択された組合せに対し、後述する翻訳率を算出するための翻訳率算出部94と、順序保存率算出部92により算出された順序保存率及び翻訳率算出部94により算出された翻訳率とを統合し、第1及び第2の文書50及び60の全体としての固有表現グループ間の対応の良さを表す評価値を算出して対訳辞書作成部36に与えるための評価値統合部96とを含む。
図3を参照して、組合せ選択部90の機能について説明する。なお、日本語と英語の固有表現グループ同士を組合せる場合、対応するものを持たない固有表現グループが存在することを想定できる。従って、図3を参照して、例えば日本語(これを仮に言語Aとする。)の固有表現グループ群100にグループA1及びA2があり、英語(これを仮に言語Bとする。)の固有表現グループ102側にグループB1,B2及びB3がある場合、可能な組合せは図3の表104に示す通り、13通りとなる。なお、表104において「{null}」は、いずれの固有表現グループも対応するものを持たない場合を示す。
組合せ選択部90は、このように二つの固有表現グループの可能な組合せをすべて調べ、それらを一つ一つ選択して順序保存率算出部92及び翻訳率算出部94による算出処理を実行させる。
順序保存率算出部92が算出する順序保存率とは、
・ある固有表現グループの組合せ方について、
・第1の文書50中の任意の二つの固有表現グループが第1の文書50中でそれぞれ最初に現れる順序と、
・第2の文書60中でそれら二つの固有表現グループに対応すると想定された英語の表現グループが、第2の文書60中でそれぞれ最初に現れる順序と、
が互いに一致する割合のことをいう。日本語と英語とを逆にしてもよい。
例えば、図4を参照して、第1の文書50中の固有表現120が属するグループと、第2の文書60中の固有表現122が属するグループが対応付けられているものとする。また、同じく日本語の固有表現124が属するグループと、英語の固有表現126が属するグループとが対応付けられているものとする。図4に示すように、第1の文書50において固有表現120が固有表現124より先に出現しており、かつ第2の文書60において固有表現122が固有表現126より先に出現すれば、この組合せについては順序が保存されている。
一方、図5に示すように、第1の文書50では固有表現120が固有表現124より先に出現しているが、第2の文書60では固有表現126が固有表現122より先に出現しているのであれば、この組合せについては順序が保存されていない。
順序保存率算出部92は、固有表現グループの組合せ方ごとに、任意の二つの固有表現グループを選び、それらの間で順序が保存されているか否かを判定する。全ての選び方について順序が保存されているか否かを判定し、その割合を計算することで、その固有表現グループの組合せ方に関する順序保存率を算出できる。
一方、翻訳率算出部94が算出する翻訳率とは、
・日本語文書中のある一つの固有表現グループが、
・対応する固有表現グループを英語文書中に持つ割合
のことをいう。特に、上のように算出したものを日本語の固有表現グループの翻訳率という。日本語と英語とを入替えたものに対しても同様に英語の固有表現グループの翻訳率が算出できる。本実施の形態では、日本語の固有表現グループの翻訳率と、英語の固有表現グループの翻訳率との平均を、翻訳率として用いる。
以下、翻訳率算出部94による翻訳率の算出方法について説明する。ただし、本実施の形態では、特に固有表現グループではなく、固有表現ごとに上記した翻訳率を算出する。すなわち、あるグループが対応先を持つときには、そのグループに属する各固有表現も対応先を持つものとして翻訳率を計算する。こうして算出された翻訳率を固有表現翻訳率と呼ぶ。これに対し、グループを単位として算出された翻訳率をグループ翻訳率と呼ぶものとする。
図6に、上のようにして算出された固有表現翻訳率の例を示す。図6において、図3と同様、「A」は日本語を指し、「B」は英語を指す。固有表現及び固有表現グループについても図3に示されるものを使用している。同じ条件で算出したグループ翻訳率を図7に示す。このグループ翻訳率を用いるようにしてもよい。
図2に示す評価値統合部96は、以下の式に従って順序保存率aと翻訳率bとの加重平均を算出することにより、両者を統合して評価値cを算出する。
c=a・α+b・(1−α) …(1)
αは[0,1]の範囲の任意の値をとる。α=0又は1のときは、順序保存率又は翻訳率の一方しか用いないことになる。一般的には、α=0.5程度の値を用いる。この場合、評価値cは順序保存率aと翻訳率bとの平均となる。
この対訳対抽出装置20は以下のように動作する。予め第1の文書50と第2の文書60とが準備されているものとする。また固有表現等抽出部52と固有表現等抽出部62とが、同様の基準によって同一の分類種別を使用して固有表現等を分類できるように、予め学習が済んでいるものとする。
第1の文書50が与えられると、固有表現等抽出部52が日本語の固有表現をその種別とともに抽出し、固有表現等記憶部54に格納する。グループ化処理部56が、それら固有表現等のうち、同一の対象を指すものをグループにまとめ、固有表現グループを日本語の固有表現グループ記憶部58に記憶させる。
同様に第2の文書60が与えられると、固有表現等抽出部62が英語の固有表現をその種別とともに抽出し、固有表現等記憶部64に格納する。グループ化処理部66が、それら固有表現等のうち、同一の対象を指すものをグループにまとめ、固有表現グループを英語の固有表現グループ記憶部68に記憶させる。
日本語の固有表現グループ記憶部58及び英語の固有表現グループ記憶部68への固有表現グループの記憶が完了すると、評価値算出部34が以下のような処理を行なう。
図2を参照して、組合せ選択部90が固有表現グループ記憶部58内の日本語の固有表現グループと、英語の固有表現グループ記憶部68内の英語の固有表現グループとの間の組合せ方をすべて数え上げる。そして、それら組合せ方を順に選択したと仮定して順序保存率算出部92及び翻訳率算出部94に対し順序保存率及び翻訳率をそれぞれ算出させる。
その組合せ方に対し、順序保存率算出部92は順序保存率aを算出し評価値統合部96に与える。同様に翻訳率算出部94も、組合せ選択部90により選択された組合せ方に対して、翻訳率bを算出し、評価値統合部96に与える。
評価値統合部96は、上記した式(1)に従って、組合せ選択部90によって選択された組合せ方に関する評価値cを算出する。この評価値は図1に示す対訳辞書作成部36に与えられる。
組合せ選択部90は、固有表現グループの全ての組合せ方に対して、上記した処理を繰返して実行させる。その結果、評価値統合部96からは、組合せ方の数だけの評価値が図1に示す対訳辞書作成部36に与えられる。
対訳辞書作成部36は、すべての組合せ方に対する評価値の算出が終了すると、その中で最も高い値を与えた組合せ方を選択し、その組合せ方によって対応付けられた日本語と英語の固有表現等を対訳対とし、それらをすべて出力することにより対訳辞書38を作成する。
本実施の形態にかかる対訳対抽出装置20では、構文構造的な対応単位を持たない内容対応二言語文書から、固有表現等の対訳対を自動的に抽出することができる。その際、固有表現等の出現頻度は抽出の条件としておらず、出現頻度の低い対訳対でも抽出することが可能である。
また、上記した第1の実施の形態では、評価値を計算するための基礎として、順序保存率と翻訳率という二つの尺度を用いた。これは、同一の話題を伝達する二言語文書であれば、情報の提示順は比較的似通っており、結果として情報の根幹を伝達する固有表現の出現順序も類似しているという性質を用いたものである。しかし本発明は、この二つの尺度に限らず、上記したように自然言語の持つ性質から固有表現等の対応関係をよく表すことができると考えられる尺度があれば、それを利用することもできる。また、そうした尺度と、順序保存率及び翻訳率との任意の組合せを使用するようにしてもよい。
[第2の実施の形態]
上記した第1の実施の形態にかかる対訳対抽出装置20は、日本語文書処理部30及び英語文書処理部32でそれぞれ抽出された日本語の固有表現グループと、英語の固有表現グループとから直接対訳対を抽出している。しかし、本発明はそのような実施の形態に限定して実現可能なわけではない。例えば、固有表現グループ同士の間で、何らかの手段により明らかに対応関係が付けられるものがあれば、それらを先に確定的に対応付けた後に、さらに対応付けの処理を行なうことが考えられる。そうすることにより、最終的に得られる対訳対がより正確なものとなる上、処理に要する時間も短縮化されることが期待できる。
図8に、第2の実施の形態にかかる対訳対抽出装置150のブロック図を示す。図8において、図1と同じ部品には同じ参照符号を付してある。それらの名称及び機能も同一である。従って、ここではそれらについての詳細な説明は繰返さない。
図8を参照して、この対訳対抽出装置150が図1に示す対訳対抽出装置20と異なるのは、予め利用可能となっている対訳辞書又は字面対応規則を記憶した辞書160を含む点である。面対応規則とは、たとえばアラビア数字と英語でいうスペルアウトした数値表現(例えば「30」と「thirty」)等、互いに全く同じ語であることが明らかなことが字面からわかるような語の対応関係を記述したものである。
さらに対訳対抽出装置150が図1に示す対訳対抽出装置20と異なるのは、評価値算出部34による評価値の算出に先立って、辞書160を参照して、日本語の固有表現グループ記憶部58及び英語の固有表現グループ記憶部68に記憶された両言語の固有表現グループから確定的に対応していると判定される対訳対の対応付けを設定するための確定対訳検出部162と、確定対訳検出部162により確定的な対訳対が既に一部に付与された日本語及び英語の固有表現グループをそれぞれ記憶する固有表現グループ記憶部170及び172とを含む点である。
対訳対抽出装置150はさらに、図1の評価値算出部34に代えて、評価値算出部34と同様に評価値を算出するが、図1の場合と異なり、固有表現グループ記憶部170及び172に記憶された固有表現グループをその入力として、さらに既に確定的になされた対応付けと矛盾しないように評価値を算出するための評価値算出部164を含む。なお、固有表現グループ記憶部170及び172としては、固有表現グループ記憶部58及び68をそのまま使用してもよく、その場合には評価値算出部164の入力も図1の評価値算出部34の場合と同様となる。
この対訳対抽出装置150は以下のように動作する。日本語の固有表現グループ記憶部58及び英語の固有表現グループ記憶部68の作成までは第1の実施の形態と同様である。確定対訳検出部162は、日本語の固有表現グループ記憶部58及び英語の固有表現グループ記憶部68の中で、辞書160に記憶されている対訳対があれば、それを確定対訳として対応付ける。確定対訳検出部162は、辞書160に記憶されている字面規則に従って対応関係が付与できるものがあれば、それらも確定対訳として対応付ける。確定対訳検出部162は、このようにして確定的に対応付けされた固有表現の対を含む日本語及び英語の固有表現等を固有表現グループ記憶部170及び172にそれぞれ出力する。
以下、評価値算出部164及び対訳辞書作成部36が、第1の実施の形態と同様に動作して対訳辞書38を作成する。
この第2の実施の形態では、確定的な対訳関係が付与可能な対訳対については、確定対訳検出部162によって予め検出され対応付けされる。評価値算出部164による評価値の算出ではそうした確定的な対応付けについては対応付けの処理をする必要がない。その結果、対訳辞書38の作成に要する時間が短縮化でき、さらに対訳辞書38の対訳対の精度も高くなる。
上記した実施の形態の装置は、コンピュータハードウェア及び当該コンピュータハードウェア上で実行されるコンピュータプログラムにより実現できる。特に、第1の文書50、第2の文書60、固有表現等記憶部54、64等の記憶部はたとえばハードディスクまたはメモリにより実現できる。また、上記した説明に鑑みれば、既に利用可能なプログラム群を用い、本発明の各実施の形態にかかる装置をコンピュータで実現するためのプログラムを作成することは、当業者には容易であろう。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の第1の実施の形態にかかる対訳対抽出装置のブロック図である。 図1に示す装置の一部である評価値算出部の詳細なブロック図である。 グループ間の対応関係の付け方の例を示す図である。 順序保存率の算出方法を説明するための図である。 順序保存率の算出方法を説明するための図である。 翻訳率の算出結果を例示する図である。 グループ翻訳率の算出結果を例示する図である。 本発明の第2の実施の形態にかかる対訳抽出装置のブロック図である。
符号の説明
20 対訳対抽出装置、30 日本語文書処理部、32 英語文書処理部、34 評価値算出部、36 対訳辞書作成部、38 対訳辞書、50 第1の文書、52,62 固有表現等抽出部、54,64 固有表現等記憶部、56,66 グループ化処理部、58,68,170,172 固有表現グループ記憶部、60 第2の文書、90 組合せ選択部、92 順序保存率算出部、94 翻訳率算出部、96 評価値統合部、160 辞書、162 確定対訳検出部、164 評価値算出部

Claims (15)

  1. 各々機械可読な形式の第1言語の文書および第2言語の文書に含まれる単語の中から固有表現を抽出するように正解データを用いて予め学習し、前記第1言語の文書及び前記第2言語の文書が与えられると、それぞれの文書から固有表現を抽出するための固有表現抽出手段と、
    前記固有表現抽出手段により前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間の対応関係を、前記第1言語の文書における固有表現の出現順序と前記第2言語の文書における固有表現の出現順序との類似度、並びに前記第1言語の文書及び第2言語の文書において固有表現が共起する確率のいずれか一方又は双方を用いて算出される評価値を用いて特定するための対応関係特定手段と、
    前記対応関係特定手段により特定された対応関係にしたがって、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現とを対訳対として抽出するための対訳対抽出手段とを含む、対訳対抽出装置。
  2. 前記対応関係特定手段は、
    前記固有表現抽出手段により前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現の間で、可能な複数通りの対応関係を仮定するための対応関係仮定手段と、
    前記対応関係仮定手段により仮定された前記複数通りの対応関係の各々に対し、前記評価値を算出するための評価値算出手段とを含み、
    前記評価値は、前記類似度及び前記確率の内、前記評価値の算出に用いられる値と正の相関を持つように算出され、
    前記対訳抽出装置はさらに、前記評価値算出手段により算出された評価値が最も高くなる対応関係を選択するための選択手段を含む、請求項1に記載の対訳対抽出装置。
  3. 前記評価値算出手段は、
    前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書中の第1の固有表現および第2の固有表現の出現順序が、前記第2言語の文書中の前記第1の固有表現に対応する固有表現及び前記第2の固有表現に対応する固有表現の出現順序と一致しているか否かを、すべての固有表現対について算出することにより得られる順序保存率を算出するための第1の指標算出手段と、
    前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現とが当該対応関係により互いに対応付けられている割合を表す翻訳率を算出するための第2の指標算出手段と、
    前記対応関係仮定手段により仮定された対応関係の各々に対して、前記第1及び第2の指標算出手段により算出された前記順序保存率と前記翻訳率とを加重平均することにより前記評価値を算出するための加重平均手段とを含む、請求項2に記載の対訳対抽出装置。
  4. 前記評価値算出手段は、前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書中の第1の固有表現および第2の固有表現の出現順序が、前記第2言語の文書中の前記第1の固有表現に対応する固有表現及び前記第2の固有表現に対応する固有表現の出現順序と一致しているか否かを、すべての固有表現対について算出することにより得られる順序保存率を前記評価値として算出するための順序保存率算出手段を含む、請求項2に記載の対訳対抽出装置。
  5. 前記評価値算出手段は、前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現とが当該対応関係により互いに対応付けられている割合を表す翻訳率を前記評価値として算出するための翻訳率算出手段を含む、請求項2に記載の対訳対抽出装置。
  6. 前記加重平均手段は、前記対応関係仮定手段により仮定された対応関係の各々に対して、前記第1及び第2の指標算出手段により算出された前記順序保存率と前記翻訳率とを互いに等しい重みで平均することにより前記評価値を算出するための平均手段を含む、請求項3に記載の対訳対抽出装置。
  7. 前記対応関係特定手段はさらに、
    前記第1言語の固有表現と、前記第2言語の固有表現との間の対応関係を記憶した辞書と、
    前記第1言語の文書から抽出された固有表現と、前記第2言語の文書から抽出された固有表現との間で、前記辞書に対応関係が記憶されている固有表現対を抽出して確定的な対応関係を設定するための手段を含む、請求項2〜請求項6のいずれかに記載の対訳対抽出装置。
  8. 前記対応関係特定手段は、
    前記固有表現抽出手段により前記第1言語の文書から抽出された固有表現を、固有表現同士の類似度に基づいて各々同一の事物を指す固有表現からなる複数通りの固有表現グループに分類するための第1の分類手段と、
    前記固有表現抽出手段により前記第2言語の文書から抽出された固有表現を、固有表現同士の類似度に基づいて各々同一の事物を指す固有表現からなる複数通りの固有表現グループに分類するための第2の分類手段と、
    前記第1の分類手段により分類された複数通りの固有表現グループと、前記第2の分類手段により分類された複数通りの固有表現グループとの間の対応関係を、前記第1言語の文書における固有表現グループに属する固有表現の出現順序と前記第2言語の文書における固有表現グループに属する固有表現の出現順序との類似度、並びに前記第1言語の文書及び第2言語の文書において固有表現グループが共起する確率のいずれか一方又は双方を用いて算出される評価値を用いて特定するためのグループ対応関係特定手段とを含み、
    前記対訳対抽出手段は、前記グループ対応関係特定手段により特定された対応関係にしたがって、前記第1の分類手段により分類された固有表現グループに属する固有表現と、前記第2の分類手段により分類された固有表現グループに属する固有表現とを対訳対として抽出するための手段を含む、請求項1に記載の対訳対抽出装置。
  9. 前記グループ対応関係特定手段は、
    前記第1の分類手段により分類された固有表現グループと、前記第2の分類手段により分類された固有表現グループとの間で、可能な複数通りの対応関係を仮定するための対応関係仮定手段と、
    前記対応関係仮定手段により仮定された前記複数通りの対応関係の各々に対し、前記評価値を算出するための評価値算出手段とを含み、
    前記評価値は、前記類似度及び前記確率の内、前記評価値の算出に用いられる値と正の相関を持つように算出され、
    前記対訳抽出装置はさらに、前記評価値算出手段により算出された評価値が最も高くなる対応関係を選択するための選択手段を含む、請求項8に記載の対訳対抽出装置。
  10. 前記評価値算出手段は、
    前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1の分類手段により分類された第1の固有表現グループに属する固有表現および第2の固有表現グループに属する固有表現の前記第1言語の文書中における出現順序が、前記第2言語の文書中の前記第1の固有表現グループに対応する固有表現グループに属する固有表現及び前記第2の固有表現グループに対応する固有表現グループに属する固有表現の出現順序と一致しているか否かを、対応が仮定されているすべての固有表現グループの対について算出することにより得られる順序保存率を算出するための第1の指標算出手段と、
    前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書から抽出された固有表現グループと、前記第2言語の文書から抽出された固有表現グループとが互いに当該対応関係により対応付けられている割合を表す翻訳率を算出するための第2の指標算出手段と、
    前記対応関係仮定手段により仮定された対応関係の各々に対して、前記第1及び第2の指標算出手段により算出された前記順序保存率と前記翻訳率とを加重平均することにより前記評価値を算出するための加重平均手段とを含む、請求項9に記載の対訳対抽出装置。
  11. 前記評価値算出手段は、前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書中の第1の固有表現グループに属する固有表現および第2の固有表現グループに属する固有表現の出現順序が、前記第2言語の文書中の前記第1の固有表現グループに対応する固有表現グループに属する固有表現及び前記第2の固有表現グループに対応する固有表現グループに属する固有表現の出現順序と一致しているか否かを、すべての固有表現グループの対について算出することにより得られる順序保存率を前記評価値として算出するための順序保存率算出手段を含む、請求項9に記載の対訳対抽出装置。
  12. 前記評価値算出手段は、前記対応関係仮定手段により仮定された対応関係の各々に対し、前記第1言語の文書から抽出された固有表現グループと、前記第2言語の文書から抽出された固有表現グループとが当該対応関係により互いに対応付けられている割合を表す翻訳率を前記評価値として算出するための翻訳率算出手段を含む、請求項9に記載の対訳対抽出装置。
  13. 前記加重平均手段は、前記対応関係仮定手段により仮定された対応関係の各々に対して、前記第1及び第2の指標算出手段により算出された前記順序保存率と前記翻訳率とを互いに等しい重みで平均することにより前記評価値を算出するための平均手段を含む、請求項10に記載の対訳対抽出装置。
  14. 前記対応関係特定手段はさらに、
    前記第1言語の固有表現グループと、前記第2言語の固有表現グループとの間の対応関係を記憶した辞書と、
    前記第1の分類手段により分類された固有表現グループと、前記第2の分類手段により分類された固有表現グループとの間で、前記辞書に対応関係が記憶されている固有表現グループの対を抽出して確定的な対応関係を設定するための手段を含む、請求項8〜請求項13のいずれかに記載の対訳対抽出装置。
  15. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項14のいずれかに記載の対訳対抽出装置として動作させる、コンピュータプログラム。
JP2003371587A 2003-10-31 2003-10-31 対訳対抽出装置及びそのためのコンピュータプログラム Expired - Fee Related JP3996886B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003371587A JP3996886B2 (ja) 2003-10-31 2003-10-31 対訳対抽出装置及びそのためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003371587A JP3996886B2 (ja) 2003-10-31 2003-10-31 対訳対抽出装置及びそのためのコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2005135217A JP2005135217A (ja) 2005-05-26
JP2005135217A5 JP2005135217A5 (ja) 2005-09-08
JP3996886B2 true JP3996886B2 (ja) 2007-10-24

Family

ID=34648194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003371587A Expired - Fee Related JP3996886B2 (ja) 2003-10-31 2003-10-31 対訳対抽出装置及びそのためのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP3996886B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6705318B2 (ja) * 2016-07-14 2020-06-03 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
JP7173149B2 (ja) 2018-08-30 2022-11-16 富士通株式会社 生成方法、生成プログラムおよび情報処理装置

Also Published As

Publication number Publication date
JP2005135217A (ja) 2005-05-26

Similar Documents

Publication Publication Date Title
Gooding et al. CAMB at CWI shared task 2018: Complex word identification with ensemble-based voting
AU2010208523B2 (en) Methods and systems for matching records and normalizing names
Shardlow The cw corpus: A new resource for evaluating the identification of complex words
US10452785B2 (en) Translation assistance system, translation assistance method and translation assistance program
JP4600045B2 (ja) 意見抽出用学習装置及び意見抽出用分類装置
Zhang et al. HANSpeller++: A unified framework for Chinese spelling correction
CN112668319A (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
Kanan et al. Extracting named entities using named entity recognizer for arabic news articles
JP2010117797A (ja) 数値表現処理装置
Mohamed et al. Arabic Part of Speech Tagging.
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
CN106874362A (zh) 多语言自动文摘方法
Attia et al. An automatically built named entity lexicon for Arabic
CN106569994B (zh) 地址的分析方法及装置
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP3765801B2 (ja) 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
Sagcan et al. Toponym recognition in social media for estimating the location of events
Shah et al. Improvement of Soundex algorithm for Indian language based on phonetic matching
KR102351745B1 (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
JP3996886B2 (ja) 対訳対抽出装置及びそのためのコンピュータプログラム
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
KR20170094063A (ko) 의미 기반 명사 유사도 계산 장치 및 방법
Meselhi et al. Hybrid named entity recognition-application to Arabic language
Priyadarshani et al. Statistical machine learning for transliteration: Transliterating names between sinhala, tamil and english

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050513

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070803

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees