JP2004326584A - 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム - Google Patents
対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム Download PDFInfo
- Publication number
- JP2004326584A JP2004326584A JP2003122360A JP2003122360A JP2004326584A JP 2004326584 A JP2004326584 A JP 2004326584A JP 2003122360 A JP2003122360 A JP 2003122360A JP 2003122360 A JP2003122360 A JP 2003122360A JP 2004326584 A JP2004326584 A JP 2004326584A
- Authority
- JP
- Japan
- Prior art keywords
- bilingual
- translation
- word
- named entity
- word candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】対訳テキストから固有表現の対訳を効率的且つ効果的に自動抽出すること。
【解決手段】固有表現抽出部10が、対訳テキストを入力として言語別に固有表現抽出して各言語の有表現抽出済テキストを出力し、対訳語候補作成手段22が、対訳語候補作成条件に基づいて各言語の固有表現抽出済テキストから対訳語候補を作成し、共起頻度計算手段22が、対訳語候補の全ての組み合わせについて、対訳テキスト中の共起頻度を計算し、対訳語候補リストとして出力する。次に、翻訳確率計算手段32が、単語翻訳確率に基づいて対訳語候補の翻訳確率を計算し、翻訳確率スコア化手段34が、対訳語候補の共起頻度及び構成単語数に基づいて翻訳確率のスコア化を行い、対訳語候補絞込手段35が、スコア化された翻訳確率から候補を選別し、最終的に対訳固有表現を出力する
【選択図】 図1
【解決手段】固有表現抽出部10が、対訳テキストを入力として言語別に固有表現抽出して各言語の有表現抽出済テキストを出力し、対訳語候補作成手段22が、対訳語候補作成条件に基づいて各言語の固有表現抽出済テキストから対訳語候補を作成し、共起頻度計算手段22が、対訳語候補の全ての組み合わせについて、対訳テキスト中の共起頻度を計算し、対訳語候補リストとして出力する。次に、翻訳確率計算手段32が、単語翻訳確率に基づいて対訳語候補の翻訳確率を計算し、翻訳確率スコア化手段34が、対訳語候補の共起頻度及び構成単語数に基づいて翻訳確率のスコア化を行い、対訳語候補絞込手段35が、スコア化された翻訳確率から候補を選別し、最終的に対訳固有表現を出力する
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、互いに対訳となっている2つの言語テキスト(以下、対訳テキストと呼ぶ)から、互いに翻訳となっている語句(以下、対訳語と呼ぶ)を抽出する技術であり、機械翻訳システムなどで利用可能な対訳知識の自動構築方法に関する。
【0002】
【従来の技術】
近年、ネットワークを通じて母国語以外の言語で記述された情報に触れる機会が増えている。母国語以外のテキスト内容を理解するために、機械翻訳システムの研究開発も盛んである。一般的に、機械翻訳システムでは対訳辞書などの対訳知識が用いられており、これらの知識をいかにして低コストで構築するかは技術的なポイントの1つである。特に、テキストの分野に依存しやすい専門用語や、人名・地名・組織名など次々と新しい表現が登場する固有表現については、全てを人で登録するのは膨大なコストがかかるため、近年では大量の対訳テキストから自動的に対訳語を抽出する技術の研究が進められている。
【0003】
対訳テキストから、対訳語を抽出して対訳知識を自動構築する技術としては、対訳テキスト中に対訳語候補となる語が同時に出現する頻度(共起頻度)といった統計的情報や、対訳単語の意味・品詞・発音・表記などの類似性といった言語情報を用いる(既存の対訳知識を利用する)ことが主流である。統計的情報は対訳語候補の抽出に利用し、候補をさらに絞り込む上で言語情報を利用することが多い。抽出対象とする対訳語は1単語対応とは限らず、複数の単語、しかも連続する単語だけではなく非連続の単語(熟語表現など)とする研究も多い。
【0004】
本発明では、抽出対象とする語句は人名・地名・組織名などの固有表現であるとする。これらの語句の主な特徴は、
・1単語から構成される固有名詞だけではなく、連続する1単語以上の単語列から構成されるやや長い単位の語句も含まれる
・分野や年代によって登場する語彙が異なり、数・種類も多いので未知語になりやすい
ということがあげられる。すなわち、固有表現には「齋藤」という1単語の固有名詞(この例では人名)だけでなく、「日本 電信 電話 株式 会社」といった複数の単語からなる長い単語の語句(この例では組織名)も含まれる。特に後者のように長い単位で1つの固有表現となる語句では、1つ1つの単語の品詞が普通名詞であることも多く、文章を単語分割し品詞付与を行う形態素解析処理だけでは固有表現の範囲を認定することは困難であるという特徴がある。また、固有表現はテキストの分野によって登場する語彙が異なり、例えば経済の分野であれば企業名や商品名など、国際政治の分野であれば政治家人名・国家組織名など、芸能の分野であれば芸能人名・キャラクター名などが頻出する。さらに、時代とともに話題が移れば登場する語彙も変化していくものである。そのため、機械翻訳システムにおいて、固有表現は対訳知識にない限り未知語となって翻訳誤りとなる事例が多く、システムの精度低下の大きな原因の1つとなっている。
【0005】
そこで、これらの固有表現の対訳知識を構築していく必要があるが、上記の通り語彙が豊富で移り変わりも激しいため、人手での構築だけではコストがかかる。そのため固有表現の対訳知識をできるだけ人手に頼らないで自動的に構築する技術は、機械翻訳システムにとって不可欠である。
【0006】
ところで、固有表現の対訳の重要な特徴に、
・単なる音訳や逐語訳だけではなく決め事となっている場合が多い
というものがある。人名や簡単な地名においては単純な音訳や逐語訳ですむことも多いが、組織名においてはこの傾向が強い。例えば「日本電信電話株式会社」の英語表記は「Nippon Telegraph and Telephone Corporation」であるが、「日本」が「Nippon」へ、「電信電話」が「Telegraph and Telephone」となることは、逐語訳というよりもそう表記することに決めてあるということである。また、人名や地名であっても、例えば中国語や韓国語において、外国人名や外来語表記などをどのような漢字表記、またはハングル表記にするかは明確な規則があるわけではなく、音訳や意訳を元に幾つかの表記が出現し、徐々に1つに定着していくことが多い。そのため、固有表現の対訳知識を自動的に構築する上で従来の技術でよく用いられてきた、対訳単語の意味・品詞・表記・読みといった言語的特徴に基づく絞り込みだけでは対訳語の抽出が困難である。
【0007】
特許文献1では、1単語の固有名詞の対訳語を、各言語の文字を音(読み)の情報へ変換し、対訳語を抽出する効果をもつが、これでは複数の言語から構成される固有表現及び単なる音訳では対処できない固有表現対訳語を抽出できない。
【0008】
特許文献2では、やや長い単位の固有表現を抽出対象とできるが、やはり各言語の言語的特徴に基づく抽出であり、決め事となっている固有表現の抽出ができない。また、そもそも固有表現の認定を行っていないため、例えば複数の普通名詞から構成される固有表現については、正しく固有表現と認識されないために、対訳語候補として抽出されない。
【0009】
【特許文献1】
特開平11−85760号公報
【特許文献2】
特開2002−236680号公報
【0010】
【発明が解決しようとする課題】
本発明は、対訳テキストから人名・地名・組織名などの固有表現の対訳語を抽出する技術において問題となる
・固有表現が1単語以上の連続する単語列から構成されることが多く、そもそも固有表現の範囲を認定することが難しい
・固有表現は次々と新しい語が登場し、またテキストの分野によっても登場する語彙の傾向が異なり、数も膨大なために人手収集は困難である
・従来技術の自動対訳抽出で利用されている意味・品詞・表記・読みなどの言語情報や既存の対訳知識だけでは対応できない決め事による対訳であることも多い
という問題点を解決し、対訳テキストから固有表現の対訳を自動抽出することを目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するために、本発明では、互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する対訳固有表現抽出装置であって、入力手段から入力された各言語のテキストをそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出手段と、記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから1単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成手段と、記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算手段と、記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化手段と、前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込手段とを有することを特徴とする。
【0012】
本発明の原理について図1を参照して説明する。図1は本発明の原理構成図である。本発明の対訳固有表現抽出装置は、大きくわけて固有表現抽出部10、対訳語候補抽出部20、対訳語候補絞込部30の3部から構成される。各部の動作詳細については発明の実施例で説明する。
【0013】
固有表現抽出部10は入力テキストを形態素解析する形態素解析手段11と、形態素解析結果を利用して固有表現抽出をする固有表現抽出手段12を有する。
【0014】
対訳語候補抽出部20は、対訳語候補作成条件テーブル21に基づいて対訳語候補を作成する対訳語候補作成手段22と、作成した対訳語候補の対訳テキスト中における共起頻度を計算する共起頻度計算手段23を有する。
【0015】
対訳語候補絞込部30は、対訳語候補に対して、単語翻訳確率テーブル31に基づいて翻訳確率を計算する翻訳確率計算手段32と、対訳語候補の共起頻度・構成単語数テーブル33に基づいて翻訳確率をスコア化する翻訳確率スコア化手段34と、スコア化された翻訳確率の値から最終的に対訳語候補を絞り込む対訳語候補絞込手段35を有する。
【0016】
課題を解決するために、本発明の対訳固有表現抽出装置では固有表現抽出部により予め対訳テキストを言語別に固有表現抽出処理する。この処理によって各言語のテキストにおける固有表現を予め設定しておくことが可能となる。認定された固有表現を対訳候補とすることで、従来技術では抽出できない可能性のあった対訳語を抽出対象とできる。また、この固有表現の認定は、既存の対訳知識とは無関係に言語独立で行う。そのため、従来技術で困難であった逐語訳や音訳以外の対訳語となる単語列も候補にあげてくることができる。以上の効果により、対訳語候補抽出及び対訳語候補絞込の処理精度を向上させることが可能となる。
【0017】
図2は本発明の原理を説明するためのフローチャートである。なお、ここでは処理の対象となるテキストをX語テキスト、Y語テキストと呼ぶこととする(例:X語=日本語、Y語=英語)。これらのテキストは互いに翻訳になっている対訳テキストである。
【0018】
本発明の対訳固有表現抽出装置は、まず、固有表現抽出部が、X語、Y語のテキストを入力として、言語別に固有表現抽出し、X語固有表現抽出済テキスト及びY語固有表現抽出済テキストを出力する(ステップS1)。続いて、対訳語候補作成手段が、対訳語候補作成条件に基づいてX語固有表現抽出済テキスト及びY語固有表現抽出済テキストから対訳語候補を作成する(ステップS2)。次に、共起頻度計算手段が、対訳語候補の全ての組み合わせについて、対訳テキスト中の共起頻度を計算し、対訳語候補リストとして出力する(ステップS3)。次に、翻訳確率計算手段が、単語翻訳確率に基づいて対訳語候補の翻訳確率を計算する(ステップS4)。続いて翻訳確率スコア化手段が、対訳語候補の共起頻度及び構成単語数に基づいて翻訳確率のスコア化を行う(ステップS5)。最後に対訳語候補絞込手段が、スコア化された翻訳確率から候補を選別し、最終的に対訳固有表現を出力する(ステップS6)。前記ステップS1が固有表現抽出部、ステップS2〜S3が対訳語候補抽出部、ステップS4〜S6が対訳語候補絞込部の処理である。
【0019】
以上の構成により、X語,Y語の対訳テキストを入力として、最終的に対訳固有表現を得ることができる。
【0020】
【発明の実施の形態】
本発明の一実施の形態に係る対訳固有表現抽出装置について詳述する。本実施の形態に係る対訳固有表現抽出装置の基本構成については前述したとおりなので、ここでは各部の詳細について説明する。なお、対訳固有表現抽出装置の各部は、コンピュータ上でCPU等の制御手段が記憶手段に記憶されているプログラムや各種テーブルを用いることにより実現される。また、このプログラムは、外部記憶媒体や通信回線からコンピュータにインストールして実行される。
【0021】
[固有表現抽出部]
固有表現抽出部10は、プレーンテキストを入力として、入力文を形態素解析し、さらに、人名・地名・組織名などの固有表現を認定する。ここでは、対訳テキストを入力対象とするので、入力言語に対応する固有表現抽出部を用意する。
【0022】
固有表現抽出装置、特に、複数の言語(多言語)を対象とした固有表現抽出装置については、以下の発明を使用している。
【0023】
固有表現抽出装置(日本語)として、本願出願人による特願2002−139986号「固有表現抽出装置及び方法並びに固有表現抽出プログラム」,本願出願人による特願2002−317435号「固有表現抽出装置及び方法並びに固有表現抽出プログラム」、前記固有表現抽出装置を多言語化した装置、すなわち、任意の言語に対して固有表現抽出を行う装置として、特願2003−46049号「テキスト解析装置、方法及びプログラム」があげられる。
【0024】
この固有表現抽出装置は、予め形態素解析を一度行い、1位の結果だけでなく上位N個(Nは1より大きい自然数)の形態素列候補(Nbest形態素列候補)を求め、そのNbest形態素列候補に対して形態素解析と固有表現抽出を同時に行うモデルを適用して固有表現抽出を行う手法を提案する。
【0025】
すなわち、1以上の単語からなる単語列とその出現確率の組を含む形態素解析モデル、並びに、固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを予め記憶手段に記憶しておき、前記記憶手段に記憶されている形態素解析モデルを用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位N個(Nは1より大きい自然数)の形態素列を抽出する。そして、前記記憶手段に記憶されている固有表現抽出モデルを用いて、抽出されたN個の形態素列から固有表現を含む形態素列について出現確率が高い上位M個(Mは1以上の自然数)の固有表現を含む形態素列を抽出する。
【0026】
本発明に係る固有表現抽出部10は、上記手法により、プレーンテキストを入力として形態素解析手段11において形態素解析を行うとともに、固有表現抽出手段12及び固有表現抽出を行い、固有表現抽出済テキストを出力させる。形態素解析手段11における形態素解析とは入力文を単語分割して品詞・読みなどの言語情報を付与する処理である。また、固有表現抽出手段12における固有表現抽出は形態素解析された単語列から、人名・地名・組織名などの固有表現(1単語以上の形態素列から構成される長単位の表現)の認定を行う処理である。この処理は、言語毎に独立して行われる。また、解析は前後の文脈情報(品詞や形態素の連接確率)をモデル化した統計的言語モデルに基づいて行うため、新しく登場する固有表現に対しても、前後の文脈から正しく認定できることが特徴である。
【0027】
図3は、日本語及び英語での固有表現抽出部10の入出力例である。入力文に対して、単語分割・言語情報(日本語:読みと品詞、英語:原型と品詞)からなる形態素情報と、さらに固有表現情報(地名:<LOC>,組織名:<ORG>,固有表現ではない:NILなど)が付与されたテキストが出力される。
【0028】
[対訳語候補抽出部]
対訳語候補抽出部20では、固有表現抽出部10が出力した固有表現抽出済テキストから対訳語候補を抽出する。具体的には以下の手順で行う。
【0029】
(1)対訳語候補となる単語列の生成
まず、対訳語候補作成手段22により、対訳語候補作成条件テーブル21に基づいて対訳語候補を作成する。以下に具体的手順を示す。
【0030】
X語,Y語の固有表現抽出済テキストは、形態素情報及び固有表現情報が付与されている。このテキストから、1単語以上の連続する単語列で構成される対訳語候補を作成する。X語,Y語の固有表現抽出文(単語列)を、それぞれX=x1…xl、Y=y1…ymとする。ただし、xi(1≦i≦l)、yj(1≦j≦m)は、形態素情報及び固有表現情報が付与された1単語を示す。
【0031】
X語について、位置iから始まり、連続するk個の単語列xi…xi+k−1を対訳語候補の単語列として生成する。機械的に作成したこの候補を全て採用すると候補数が膨大となり、その後の処理の効率が落ちる。今回は固有表現に着目しているため、以下の条件を設けて候補を作成させる。なお、この条件は対訳語候補作成条件テーブル21として所定の記憶装置に格納しておく。
【0032】
・1≦k≦8(最大単語の制限)
・単語列中に、人名・地名・組織名等、固有表現である単語を少なくとも1つは含む(NILだけから構成される単語列は候補としない)
・単語列中、ある品詞の単語があれば候補から除く(例:動詞・助詞・句読点など)。
【0033】
なお、この条件は1つの例であり、言語の品詞体系や特徴・抽出したい対訳語の特徴に応じて自由に設定すればよい。上記では、固有表現抽出部が処理誤りをすることも考慮し、固有表現として認定された単語列だけに限定せず、固有表現を含む単語列も候補とするように工夫している。Y語について同様に、位置jから始まり、連続するk個の単語列yj…yj+k−1を対訳語候補の単語列とし、構成単語数、各単語の固有表現情報・品詞情報に基づいた条件によって最終的な対訳語候補を生成する。
【0034】
(2)対訳語候補の共起頻度の計算
次に、共起頻度計算手段23において、前記対訳語候補作成手段22で生成した対訳語候補の全ての組み合わせについて、X語,Y語のテキスト中における共起頻度を計算し、対訳語候補とともにその値を記憶する。共起頻度が高い組み合わせであるほど両者の関連が高い、すなわち対訳として適切である可能性が高く、低いものほど対訳として不適切であるものが大半をしめる。この共起頻度の情報は対訳語候補絞込部30で利用する。
【0035】
以上により、固有表現抽出済テキストから共起頻度情報の付いた対訳語候補リストを作成する。
【0036】
図4は、作成された対訳候補リストの例である。なお、対訳語はもともと形態素解析及び固有表現抽出された結果であるため、本来は品詞・読みや固有表現の情報が付与されているが、後段の絞込処理において対訳語候補の表記しか利用しないため、候補リストでも表記のみとしている。数字は対訳テキスト中の共起頻度を示している。頻度が高いほど対訳として尤もらしい候補となっていることが分かる。
【0037】
[対訳語候補絞込部]
対訳語候補絞込部30では、対訳語候補抽出部20で抽出した対訳語候補リストから尤もらしい対訳語を選別し絞り込みを行う。すなわち、対訳語候補抽出部20で抽出した対訳語候補に対して、翻訳確率計算手段32が単語翻訳確率テーブル31に基づいて翻訳確率を計算し、翻訳確率スコア化手段34が対訳語候補の共起頻度・構成単語数テーブル33に基づいて翻訳確率をスコア化し、対訳語候補絞込手段35がスコア化された翻訳確率の値から最終的に対訳語候補を絞り込む。以下、具体的手順を説明する。
【0038】
まずは共起頻度が低い候補は殆ど対訳とは言えないものであるため、共起頻度の閾値を設定してそれ以下のものは候補から除く。この閾値は自由に設定でき、例えば頻度2以下は削除する、というように決める。残ったリストからさらに候補の絞込を行うが、そこでは対訳としての正しさを判定するために、翻訳モデルを導入する。
【0039】
統計的手法に基づく機械翻訳のモデルは従来より提案されている。このモデルでは、数式の近似の複雑さの程度により5種類が提案されているが、ここでは、そのうちの最も単純なモデルを利用する。以下、このモデルの概要を簡単に説明する。
【0040】
X語及びY語の文をそれぞれX=x1…xl、Y=y1…ymとする。ただし、xi(1≦i≦l)、yj(1≦j≦m)はそれぞれ1単語を示す。X語の文が与えられたときのY語の文の条件付確率P(Y|X)を計算するモデルを翻訳モデルという。翻訳モデルとは、Xの単語列の単語がYの単語列のどの単語と対応するか、すなわち、XとYの単語対応確率をモデル化したものである。
【0041】
今、XとYが互いに翻訳となっていて、その単語対応がAであるとすると、
【0042】
【数1】
【0043】
本モデルでは、(1)式を以下の式へ分解、近似する。
【0044】
【数2】
【0045】
これは、X,Yの任意の単語対応(xi,yj)についての条件付確率t(yj|xi)と、X,Yの構成単語数から計算可能である。εは定数なので任意に設定すればよいが、ここでは1とした。なお、t(yj|xi)を単語翻訳確率と呼ぶ。
【0046】
t(yj|xi)は大量の翻訳例からEMアルゴリズムより自動的に計算することができる。今回は約15万分の翻訳例から単語翻訳確率テーブル31として翻訳確率データベースを作成した。図5は、単語翻訳確率の例である。自動的に計算されるものであるため誤りも含むが、確率が大きいものほど翻訳として正しい傾向がある。対訳リストの単語列に対して(2)式を適応し、P(Y|X)を求める。
【0047】
ところで、(2)式では、全ての単語対応の組み合わせについて、翻訳確率(値が1以下)の和及び積を取っている。そのため、X,Yの構成単語数が増加するほどP(Y|X)が小さくなるという傾向がある。この傾向のために、(2)式で計算した確率をそのまま用いて対訳の尤もらしさを判断すると、構成単語数が少ないものほど有利となり、構成単語数が多いものほど不利になって正当な比較ができない。また、共起頻度を考慮する項がないため、頻度が高いほど対訳として尤もらしいという傾向を反映できない。そこで、共起頻度と構成単語数を考慮するために、さらに次式を用いて条件付確率P(Y|X)の値を補正し、改めて対訳語候補のスコアS(Y|X)とする。
【0048】
【数3】
【0049】
matchは、構成単語のうちの何割が翻訳相手の単語と対応していたかを示す。すなわち、構成単語数によらず、どれほど翻訳らしい対応が含まれていたかを数値化したものである。またE(Y|X)は、t(yj|xi)の平均値を用いてP(Y|X)を計算し直したもので、いわばP(Y|X)の期待値である。この期待値E(Y|X)と実際の確率値P(Y|X)との比をとることで構成単語数の違いによる確率値のスケールの差を吸収した。なお、ここで示した共起頻度と構成単語数の考慮の仕方は一例であり、他の式によって条件を変更してもよい。また、対訳語の共起頻度と構成単語数は共起頻度・構成単語数テーブル33として所定の記憶装置に記憶したものである。
【0050】
そして、(3)式から対訳語候補のスコアを計算し、ある閾値以上のものを抽出すれば、尤もらしい対訳語が得られる。
【0051】
図6は絞り込み後の対訳語の例である。左から順に、(3)式のスコア値、(2)式の翻訳確率値、対訳テキスト中の共起頻度、対訳語、を示す。
【0052】
図6に示すように、(2)式の翻訳確率が小さい対訳語(主に構成単語数が多い対訳語)も、(3)式のスコアにより共起頻度及び構成単語が考慮され、上位に上がっていることが分かる。この例では、1単語からなる固有表現は勿論のこと、3単語以上の長い単位の固有表現の対訳も抽出できている。また、「U.S. President Bill Clinton」「クリントン 米 大統領」や「Prime Minister Ryutaro Hashimoto」「橋本首相」のように、英語では姓と名、日本語では姓だけの対訳語、更に「Soviet Union」「ソ連」や「U.N. General Assembly」「国連 総会」のように、日本語が独自の省略表記となっている対訳語も抽出できた。これらの対訳はいずれも、言語毎の習慣からくるものと言え、単なる逐語訳・音訳では対処できない性質のものである。
【0053】
本実施の形態にかかる対訳固有表現抽出装置によれば、以上の処理により、対訳語候補リストから対訳語候補の対訳テキスト中における共起頻度及び構成単語数を考慮した対訳語候補絞り込みが可能となった。
【0054】
なお、上記の対訳固有表現抽出装置は本発明の一実施の形態にすぎず他の形態であっても本発明を実施することができる。例えば、固有表現抽出アルゴリズムや翻訳モデルなどは他のアルゴリズム・モデルを用いてもよい。
【0055】
【発明の効果】
以上詳述したように、本発明では、固有表現抽出部と対訳語候補抽出部と対訳語候補絞込部を有する。固有表現抽出部は対訳テキストを言語別に形態素解析及び固有表現抽出し、テキスト中の固有表現を認定する。対訳語候補抽出部は、固有表現抽出されたテキストから固有表現を含む対訳語候補を効率よく作成し、全ての組み合わせの対訳語候補について、対訳テキスト中の共起頻度を計算して対訳語候補リストを作成する。対訳語候補絞り込み部は、対訳語候補リストについて、対訳の尤もらしさを翻訳モデルから判断するが、その際の翻訳確率値を、対訳語候補の対訳テキスト中における共起頻度及び対訳語候補の構成単語数を考慮したものにスコア化し、このスコア値をもとに候補の絞り込みを行って、最終的に尤もらしい対訳固有表現語を出力する。これにより、対訳テキストから尤もらしい対訳固有表現を抽出することができる。
【0056】
すなわち、本発明では、予め対訳テキストを言語独立に固有表現抽出処理を施し、固有表現の認定を行ってから対訳語候補として抽出し絞り込みを行っている。そのため、従来技術のように既存の対訳知識だけでは対応することが困難な対訳、すなわち、単純な逐語訳音訳ではない対訳も抽出することが可能となった。
【図面の簡単な説明】
【図1】対訳固有表現抽出装置の原理を説明する構成図
【図2】対訳固有表現抽出装置の動作を説明するフローチャート
【図3】日本語及び英語における固有表現抽出部の入出力例を示す図
【図4】対訳語候補リストの一例を示す図
【図5】単語翻訳確率の一例を示す図
【図6】絞り込み後の対訳語の一例を示す図
【符号の説明】
10…固有表現抽出部、11…形態素解析手段、12…固有表現抽出手段、20…対訳語候補抽出部、21…対訳語候補作成条件テーブル、22…対訳語候補作成手段、23…共起頻度計算手段、30…対訳語候補絞込部、31…単語選択確率テーブル、32…翻訳確率計算手段、33…共起頻度・構成単語数テーブル、34…翻訳確率スコア化手段、35…対訳語候補絞込手段
【発明の属する技術分野】
本発明は、互いに対訳となっている2つの言語テキスト(以下、対訳テキストと呼ぶ)から、互いに翻訳となっている語句(以下、対訳語と呼ぶ)を抽出する技術であり、機械翻訳システムなどで利用可能な対訳知識の自動構築方法に関する。
【0002】
【従来の技術】
近年、ネットワークを通じて母国語以外の言語で記述された情報に触れる機会が増えている。母国語以外のテキスト内容を理解するために、機械翻訳システムの研究開発も盛んである。一般的に、機械翻訳システムでは対訳辞書などの対訳知識が用いられており、これらの知識をいかにして低コストで構築するかは技術的なポイントの1つである。特に、テキストの分野に依存しやすい専門用語や、人名・地名・組織名など次々と新しい表現が登場する固有表現については、全てを人で登録するのは膨大なコストがかかるため、近年では大量の対訳テキストから自動的に対訳語を抽出する技術の研究が進められている。
【0003】
対訳テキストから、対訳語を抽出して対訳知識を自動構築する技術としては、対訳テキスト中に対訳語候補となる語が同時に出現する頻度(共起頻度)といった統計的情報や、対訳単語の意味・品詞・発音・表記などの類似性といった言語情報を用いる(既存の対訳知識を利用する)ことが主流である。統計的情報は対訳語候補の抽出に利用し、候補をさらに絞り込む上で言語情報を利用することが多い。抽出対象とする対訳語は1単語対応とは限らず、複数の単語、しかも連続する単語だけではなく非連続の単語(熟語表現など)とする研究も多い。
【0004】
本発明では、抽出対象とする語句は人名・地名・組織名などの固有表現であるとする。これらの語句の主な特徴は、
・1単語から構成される固有名詞だけではなく、連続する1単語以上の単語列から構成されるやや長い単位の語句も含まれる
・分野や年代によって登場する語彙が異なり、数・種類も多いので未知語になりやすい
ということがあげられる。すなわち、固有表現には「齋藤」という1単語の固有名詞(この例では人名)だけでなく、「日本 電信 電話 株式 会社」といった複数の単語からなる長い単語の語句(この例では組織名)も含まれる。特に後者のように長い単位で1つの固有表現となる語句では、1つ1つの単語の品詞が普通名詞であることも多く、文章を単語分割し品詞付与を行う形態素解析処理だけでは固有表現の範囲を認定することは困難であるという特徴がある。また、固有表現はテキストの分野によって登場する語彙が異なり、例えば経済の分野であれば企業名や商品名など、国際政治の分野であれば政治家人名・国家組織名など、芸能の分野であれば芸能人名・キャラクター名などが頻出する。さらに、時代とともに話題が移れば登場する語彙も変化していくものである。そのため、機械翻訳システムにおいて、固有表現は対訳知識にない限り未知語となって翻訳誤りとなる事例が多く、システムの精度低下の大きな原因の1つとなっている。
【0005】
そこで、これらの固有表現の対訳知識を構築していく必要があるが、上記の通り語彙が豊富で移り変わりも激しいため、人手での構築だけではコストがかかる。そのため固有表現の対訳知識をできるだけ人手に頼らないで自動的に構築する技術は、機械翻訳システムにとって不可欠である。
【0006】
ところで、固有表現の対訳の重要な特徴に、
・単なる音訳や逐語訳だけではなく決め事となっている場合が多い
というものがある。人名や簡単な地名においては単純な音訳や逐語訳ですむことも多いが、組織名においてはこの傾向が強い。例えば「日本電信電話株式会社」の英語表記は「Nippon Telegraph and Telephone Corporation」であるが、「日本」が「Nippon」へ、「電信電話」が「Telegraph and Telephone」となることは、逐語訳というよりもそう表記することに決めてあるということである。また、人名や地名であっても、例えば中国語や韓国語において、外国人名や外来語表記などをどのような漢字表記、またはハングル表記にするかは明確な規則があるわけではなく、音訳や意訳を元に幾つかの表記が出現し、徐々に1つに定着していくことが多い。そのため、固有表現の対訳知識を自動的に構築する上で従来の技術でよく用いられてきた、対訳単語の意味・品詞・表記・読みといった言語的特徴に基づく絞り込みだけでは対訳語の抽出が困難である。
【0007】
特許文献1では、1単語の固有名詞の対訳語を、各言語の文字を音(読み)の情報へ変換し、対訳語を抽出する効果をもつが、これでは複数の言語から構成される固有表現及び単なる音訳では対処できない固有表現対訳語を抽出できない。
【0008】
特許文献2では、やや長い単位の固有表現を抽出対象とできるが、やはり各言語の言語的特徴に基づく抽出であり、決め事となっている固有表現の抽出ができない。また、そもそも固有表現の認定を行っていないため、例えば複数の普通名詞から構成される固有表現については、正しく固有表現と認識されないために、対訳語候補として抽出されない。
【0009】
【特許文献1】
特開平11−85760号公報
【特許文献2】
特開2002−236680号公報
【0010】
【発明が解決しようとする課題】
本発明は、対訳テキストから人名・地名・組織名などの固有表現の対訳語を抽出する技術において問題となる
・固有表現が1単語以上の連続する単語列から構成されることが多く、そもそも固有表現の範囲を認定することが難しい
・固有表現は次々と新しい語が登場し、またテキストの分野によっても登場する語彙の傾向が異なり、数も膨大なために人手収集は困難である
・従来技術の自動対訳抽出で利用されている意味・品詞・表記・読みなどの言語情報や既存の対訳知識だけでは対応できない決め事による対訳であることも多い
という問題点を解決し、対訳テキストから固有表現の対訳を自動抽出することを目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するために、本発明では、互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する対訳固有表現抽出装置であって、入力手段から入力された各言語のテキストをそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出手段と、記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから1単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成手段と、記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算手段と、記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化手段と、前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込手段とを有することを特徴とする。
【0012】
本発明の原理について図1を参照して説明する。図1は本発明の原理構成図である。本発明の対訳固有表現抽出装置は、大きくわけて固有表現抽出部10、対訳語候補抽出部20、対訳語候補絞込部30の3部から構成される。各部の動作詳細については発明の実施例で説明する。
【0013】
固有表現抽出部10は入力テキストを形態素解析する形態素解析手段11と、形態素解析結果を利用して固有表現抽出をする固有表現抽出手段12を有する。
【0014】
対訳語候補抽出部20は、対訳語候補作成条件テーブル21に基づいて対訳語候補を作成する対訳語候補作成手段22と、作成した対訳語候補の対訳テキスト中における共起頻度を計算する共起頻度計算手段23を有する。
【0015】
対訳語候補絞込部30は、対訳語候補に対して、単語翻訳確率テーブル31に基づいて翻訳確率を計算する翻訳確率計算手段32と、対訳語候補の共起頻度・構成単語数テーブル33に基づいて翻訳確率をスコア化する翻訳確率スコア化手段34と、スコア化された翻訳確率の値から最終的に対訳語候補を絞り込む対訳語候補絞込手段35を有する。
【0016】
課題を解決するために、本発明の対訳固有表現抽出装置では固有表現抽出部により予め対訳テキストを言語別に固有表現抽出処理する。この処理によって各言語のテキストにおける固有表現を予め設定しておくことが可能となる。認定された固有表現を対訳候補とすることで、従来技術では抽出できない可能性のあった対訳語を抽出対象とできる。また、この固有表現の認定は、既存の対訳知識とは無関係に言語独立で行う。そのため、従来技術で困難であった逐語訳や音訳以外の対訳語となる単語列も候補にあげてくることができる。以上の効果により、対訳語候補抽出及び対訳語候補絞込の処理精度を向上させることが可能となる。
【0017】
図2は本発明の原理を説明するためのフローチャートである。なお、ここでは処理の対象となるテキストをX語テキスト、Y語テキストと呼ぶこととする(例:X語=日本語、Y語=英語)。これらのテキストは互いに翻訳になっている対訳テキストである。
【0018】
本発明の対訳固有表現抽出装置は、まず、固有表現抽出部が、X語、Y語のテキストを入力として、言語別に固有表現抽出し、X語固有表現抽出済テキスト及びY語固有表現抽出済テキストを出力する(ステップS1)。続いて、対訳語候補作成手段が、対訳語候補作成条件に基づいてX語固有表現抽出済テキスト及びY語固有表現抽出済テキストから対訳語候補を作成する(ステップS2)。次に、共起頻度計算手段が、対訳語候補の全ての組み合わせについて、対訳テキスト中の共起頻度を計算し、対訳語候補リストとして出力する(ステップS3)。次に、翻訳確率計算手段が、単語翻訳確率に基づいて対訳語候補の翻訳確率を計算する(ステップS4)。続いて翻訳確率スコア化手段が、対訳語候補の共起頻度及び構成単語数に基づいて翻訳確率のスコア化を行う(ステップS5)。最後に対訳語候補絞込手段が、スコア化された翻訳確率から候補を選別し、最終的に対訳固有表現を出力する(ステップS6)。前記ステップS1が固有表現抽出部、ステップS2〜S3が対訳語候補抽出部、ステップS4〜S6が対訳語候補絞込部の処理である。
【0019】
以上の構成により、X語,Y語の対訳テキストを入力として、最終的に対訳固有表現を得ることができる。
【0020】
【発明の実施の形態】
本発明の一実施の形態に係る対訳固有表現抽出装置について詳述する。本実施の形態に係る対訳固有表現抽出装置の基本構成については前述したとおりなので、ここでは各部の詳細について説明する。なお、対訳固有表現抽出装置の各部は、コンピュータ上でCPU等の制御手段が記憶手段に記憶されているプログラムや各種テーブルを用いることにより実現される。また、このプログラムは、外部記憶媒体や通信回線からコンピュータにインストールして実行される。
【0021】
[固有表現抽出部]
固有表現抽出部10は、プレーンテキストを入力として、入力文を形態素解析し、さらに、人名・地名・組織名などの固有表現を認定する。ここでは、対訳テキストを入力対象とするので、入力言語に対応する固有表現抽出部を用意する。
【0022】
固有表現抽出装置、特に、複数の言語(多言語)を対象とした固有表現抽出装置については、以下の発明を使用している。
【0023】
固有表現抽出装置(日本語)として、本願出願人による特願2002−139986号「固有表現抽出装置及び方法並びに固有表現抽出プログラム」,本願出願人による特願2002−317435号「固有表現抽出装置及び方法並びに固有表現抽出プログラム」、前記固有表現抽出装置を多言語化した装置、すなわち、任意の言語に対して固有表現抽出を行う装置として、特願2003−46049号「テキスト解析装置、方法及びプログラム」があげられる。
【0024】
この固有表現抽出装置は、予め形態素解析を一度行い、1位の結果だけでなく上位N個(Nは1より大きい自然数)の形態素列候補(Nbest形態素列候補)を求め、そのNbest形態素列候補に対して形態素解析と固有表現抽出を同時に行うモデルを適用して固有表現抽出を行う手法を提案する。
【0025】
すなわち、1以上の単語からなる単語列とその出現確率の組を含む形態素解析モデル、並びに、固有表現を含む単語列とその出現確率の組,非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを予め記憶手段に記憶しておき、前記記憶手段に記憶されている形態素解析モデルを用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位N個(Nは1より大きい自然数)の形態素列を抽出する。そして、前記記憶手段に記憶されている固有表現抽出モデルを用いて、抽出されたN個の形態素列から固有表現を含む形態素列について出現確率が高い上位M個(Mは1以上の自然数)の固有表現を含む形態素列を抽出する。
【0026】
本発明に係る固有表現抽出部10は、上記手法により、プレーンテキストを入力として形態素解析手段11において形態素解析を行うとともに、固有表現抽出手段12及び固有表現抽出を行い、固有表現抽出済テキストを出力させる。形態素解析手段11における形態素解析とは入力文を単語分割して品詞・読みなどの言語情報を付与する処理である。また、固有表現抽出手段12における固有表現抽出は形態素解析された単語列から、人名・地名・組織名などの固有表現(1単語以上の形態素列から構成される長単位の表現)の認定を行う処理である。この処理は、言語毎に独立して行われる。また、解析は前後の文脈情報(品詞や形態素の連接確率)をモデル化した統計的言語モデルに基づいて行うため、新しく登場する固有表現に対しても、前後の文脈から正しく認定できることが特徴である。
【0027】
図3は、日本語及び英語での固有表現抽出部10の入出力例である。入力文に対して、単語分割・言語情報(日本語:読みと品詞、英語:原型と品詞)からなる形態素情報と、さらに固有表現情報(地名:<LOC>,組織名:<ORG>,固有表現ではない:NILなど)が付与されたテキストが出力される。
【0028】
[対訳語候補抽出部]
対訳語候補抽出部20では、固有表現抽出部10が出力した固有表現抽出済テキストから対訳語候補を抽出する。具体的には以下の手順で行う。
【0029】
(1)対訳語候補となる単語列の生成
まず、対訳語候補作成手段22により、対訳語候補作成条件テーブル21に基づいて対訳語候補を作成する。以下に具体的手順を示す。
【0030】
X語,Y語の固有表現抽出済テキストは、形態素情報及び固有表現情報が付与されている。このテキストから、1単語以上の連続する単語列で構成される対訳語候補を作成する。X語,Y語の固有表現抽出文(単語列)を、それぞれX=x1…xl、Y=y1…ymとする。ただし、xi(1≦i≦l)、yj(1≦j≦m)は、形態素情報及び固有表現情報が付与された1単語を示す。
【0031】
X語について、位置iから始まり、連続するk個の単語列xi…xi+k−1を対訳語候補の単語列として生成する。機械的に作成したこの候補を全て採用すると候補数が膨大となり、その後の処理の効率が落ちる。今回は固有表現に着目しているため、以下の条件を設けて候補を作成させる。なお、この条件は対訳語候補作成条件テーブル21として所定の記憶装置に格納しておく。
【0032】
・1≦k≦8(最大単語の制限)
・単語列中に、人名・地名・組織名等、固有表現である単語を少なくとも1つは含む(NILだけから構成される単語列は候補としない)
・単語列中、ある品詞の単語があれば候補から除く(例:動詞・助詞・句読点など)。
【0033】
なお、この条件は1つの例であり、言語の品詞体系や特徴・抽出したい対訳語の特徴に応じて自由に設定すればよい。上記では、固有表現抽出部が処理誤りをすることも考慮し、固有表現として認定された単語列だけに限定せず、固有表現を含む単語列も候補とするように工夫している。Y語について同様に、位置jから始まり、連続するk個の単語列yj…yj+k−1を対訳語候補の単語列とし、構成単語数、各単語の固有表現情報・品詞情報に基づいた条件によって最終的な対訳語候補を生成する。
【0034】
(2)対訳語候補の共起頻度の計算
次に、共起頻度計算手段23において、前記対訳語候補作成手段22で生成した対訳語候補の全ての組み合わせについて、X語,Y語のテキスト中における共起頻度を計算し、対訳語候補とともにその値を記憶する。共起頻度が高い組み合わせであるほど両者の関連が高い、すなわち対訳として適切である可能性が高く、低いものほど対訳として不適切であるものが大半をしめる。この共起頻度の情報は対訳語候補絞込部30で利用する。
【0035】
以上により、固有表現抽出済テキストから共起頻度情報の付いた対訳語候補リストを作成する。
【0036】
図4は、作成された対訳候補リストの例である。なお、対訳語はもともと形態素解析及び固有表現抽出された結果であるため、本来は品詞・読みや固有表現の情報が付与されているが、後段の絞込処理において対訳語候補の表記しか利用しないため、候補リストでも表記のみとしている。数字は対訳テキスト中の共起頻度を示している。頻度が高いほど対訳として尤もらしい候補となっていることが分かる。
【0037】
[対訳語候補絞込部]
対訳語候補絞込部30では、対訳語候補抽出部20で抽出した対訳語候補リストから尤もらしい対訳語を選別し絞り込みを行う。すなわち、対訳語候補抽出部20で抽出した対訳語候補に対して、翻訳確率計算手段32が単語翻訳確率テーブル31に基づいて翻訳確率を計算し、翻訳確率スコア化手段34が対訳語候補の共起頻度・構成単語数テーブル33に基づいて翻訳確率をスコア化し、対訳語候補絞込手段35がスコア化された翻訳確率の値から最終的に対訳語候補を絞り込む。以下、具体的手順を説明する。
【0038】
まずは共起頻度が低い候補は殆ど対訳とは言えないものであるため、共起頻度の閾値を設定してそれ以下のものは候補から除く。この閾値は自由に設定でき、例えば頻度2以下は削除する、というように決める。残ったリストからさらに候補の絞込を行うが、そこでは対訳としての正しさを判定するために、翻訳モデルを導入する。
【0039】
統計的手法に基づく機械翻訳のモデルは従来より提案されている。このモデルでは、数式の近似の複雑さの程度により5種類が提案されているが、ここでは、そのうちの最も単純なモデルを利用する。以下、このモデルの概要を簡単に説明する。
【0040】
X語及びY語の文をそれぞれX=x1…xl、Y=y1…ymとする。ただし、xi(1≦i≦l)、yj(1≦j≦m)はそれぞれ1単語を示す。X語の文が与えられたときのY語の文の条件付確率P(Y|X)を計算するモデルを翻訳モデルという。翻訳モデルとは、Xの単語列の単語がYの単語列のどの単語と対応するか、すなわち、XとYの単語対応確率をモデル化したものである。
【0041】
今、XとYが互いに翻訳となっていて、その単語対応がAであるとすると、
【0042】
【数1】
【0043】
本モデルでは、(1)式を以下の式へ分解、近似する。
【0044】
【数2】
【0045】
これは、X,Yの任意の単語対応(xi,yj)についての条件付確率t(yj|xi)と、X,Yの構成単語数から計算可能である。εは定数なので任意に設定すればよいが、ここでは1とした。なお、t(yj|xi)を単語翻訳確率と呼ぶ。
【0046】
t(yj|xi)は大量の翻訳例からEMアルゴリズムより自動的に計算することができる。今回は約15万分の翻訳例から単語翻訳確率テーブル31として翻訳確率データベースを作成した。図5は、単語翻訳確率の例である。自動的に計算されるものであるため誤りも含むが、確率が大きいものほど翻訳として正しい傾向がある。対訳リストの単語列に対して(2)式を適応し、P(Y|X)を求める。
【0047】
ところで、(2)式では、全ての単語対応の組み合わせについて、翻訳確率(値が1以下)の和及び積を取っている。そのため、X,Yの構成単語数が増加するほどP(Y|X)が小さくなるという傾向がある。この傾向のために、(2)式で計算した確率をそのまま用いて対訳の尤もらしさを判断すると、構成単語数が少ないものほど有利となり、構成単語数が多いものほど不利になって正当な比較ができない。また、共起頻度を考慮する項がないため、頻度が高いほど対訳として尤もらしいという傾向を反映できない。そこで、共起頻度と構成単語数を考慮するために、さらに次式を用いて条件付確率P(Y|X)の値を補正し、改めて対訳語候補のスコアS(Y|X)とする。
【0048】
【数3】
【0049】
matchは、構成単語のうちの何割が翻訳相手の単語と対応していたかを示す。すなわち、構成単語数によらず、どれほど翻訳らしい対応が含まれていたかを数値化したものである。またE(Y|X)は、t(yj|xi)の平均値を用いてP(Y|X)を計算し直したもので、いわばP(Y|X)の期待値である。この期待値E(Y|X)と実際の確率値P(Y|X)との比をとることで構成単語数の違いによる確率値のスケールの差を吸収した。なお、ここで示した共起頻度と構成単語数の考慮の仕方は一例であり、他の式によって条件を変更してもよい。また、対訳語の共起頻度と構成単語数は共起頻度・構成単語数テーブル33として所定の記憶装置に記憶したものである。
【0050】
そして、(3)式から対訳語候補のスコアを計算し、ある閾値以上のものを抽出すれば、尤もらしい対訳語が得られる。
【0051】
図6は絞り込み後の対訳語の例である。左から順に、(3)式のスコア値、(2)式の翻訳確率値、対訳テキスト中の共起頻度、対訳語、を示す。
【0052】
図6に示すように、(2)式の翻訳確率が小さい対訳語(主に構成単語数が多い対訳語)も、(3)式のスコアにより共起頻度及び構成単語が考慮され、上位に上がっていることが分かる。この例では、1単語からなる固有表現は勿論のこと、3単語以上の長い単位の固有表現の対訳も抽出できている。また、「U.S. President Bill Clinton」「クリントン 米 大統領」や「Prime Minister Ryutaro Hashimoto」「橋本首相」のように、英語では姓と名、日本語では姓だけの対訳語、更に「Soviet Union」「ソ連」や「U.N. General Assembly」「国連 総会」のように、日本語が独自の省略表記となっている対訳語も抽出できた。これらの対訳はいずれも、言語毎の習慣からくるものと言え、単なる逐語訳・音訳では対処できない性質のものである。
【0053】
本実施の形態にかかる対訳固有表現抽出装置によれば、以上の処理により、対訳語候補リストから対訳語候補の対訳テキスト中における共起頻度及び構成単語数を考慮した対訳語候補絞り込みが可能となった。
【0054】
なお、上記の対訳固有表現抽出装置は本発明の一実施の形態にすぎず他の形態であっても本発明を実施することができる。例えば、固有表現抽出アルゴリズムや翻訳モデルなどは他のアルゴリズム・モデルを用いてもよい。
【0055】
【発明の効果】
以上詳述したように、本発明では、固有表現抽出部と対訳語候補抽出部と対訳語候補絞込部を有する。固有表現抽出部は対訳テキストを言語別に形態素解析及び固有表現抽出し、テキスト中の固有表現を認定する。対訳語候補抽出部は、固有表現抽出されたテキストから固有表現を含む対訳語候補を効率よく作成し、全ての組み合わせの対訳語候補について、対訳テキスト中の共起頻度を計算して対訳語候補リストを作成する。対訳語候補絞り込み部は、対訳語候補リストについて、対訳の尤もらしさを翻訳モデルから判断するが、その際の翻訳確率値を、対訳語候補の対訳テキスト中における共起頻度及び対訳語候補の構成単語数を考慮したものにスコア化し、このスコア値をもとに候補の絞り込みを行って、最終的に尤もらしい対訳固有表現語を出力する。これにより、対訳テキストから尤もらしい対訳固有表現を抽出することができる。
【0056】
すなわち、本発明では、予め対訳テキストを言語独立に固有表現抽出処理を施し、固有表現の認定を行ってから対訳語候補として抽出し絞り込みを行っている。そのため、従来技術のように既存の対訳知識だけでは対応することが困難な対訳、すなわち、単純な逐語訳音訳ではない対訳も抽出することが可能となった。
【図面の簡単な説明】
【図1】対訳固有表現抽出装置の原理を説明する構成図
【図2】対訳固有表現抽出装置の動作を説明するフローチャート
【図3】日本語及び英語における固有表現抽出部の入出力例を示す図
【図4】対訳語候補リストの一例を示す図
【図5】単語翻訳確率の一例を示す図
【図6】絞り込み後の対訳語の一例を示す図
【符号の説明】
10…固有表現抽出部、11…形態素解析手段、12…固有表現抽出手段、20…対訳語候補抽出部、21…対訳語候補作成条件テーブル、22…対訳語候補作成手段、23…共起頻度計算手段、30…対訳語候補絞込部、31…単語選択確率テーブル、32…翻訳確率計算手段、33…共起頻度・構成単語数テーブル、34…翻訳確率スコア化手段、35…対訳語候補絞込手段
Claims (5)
- 互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する対訳固有表現抽出装置であって、
入力手段から入力された各言語のテキストをそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出手段と、
記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから1単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成手段と、
記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算手段と、
記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化手段と、
前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込手段とを有する
ことを特徴とする対訳固有表現抽出装置。 - 前記対訳語候補作成条件は、固有表現の有無,構成単語数制限,構成単語の品詞・語句の特徴に基づいて予め設定する
ことを特徴とする請求項1記載の対訳固有表現抽出装置。 - 互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する対訳固有表現抽出方法であって、
入力手段から入力された各言語のテキストをそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出ステップと、
記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから1単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成ステップと、
記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算ステップと、
記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化ステップと、
前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込ステップとを有する
ことを特徴とする対訳固有表現抽出方法。 - 前記対訳語候補作成条件は、固有表現の有無,構成単語数制限,構成単語の品詞・語句の特徴に基づいて予め設定する
ことを特徴とする請求項1記載の対訳固有表現抽出方法。 - コンピュータを、
入力手段から入力された互いに対訳となっている対訳テキストを各言語毎にそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出手段と、
記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから1単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成手段と、
記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算手段と、
記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化手段と、
前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込手段として機能させることにより、
互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する
ことを特徴とする対訳固有表現抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003122360A JP2004326584A (ja) | 2003-04-25 | 2003-04-25 | 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003122360A JP2004326584A (ja) | 2003-04-25 | 2003-04-25 | 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004326584A true JP2004326584A (ja) | 2004-11-18 |
Family
ID=33500616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003122360A Pending JP2004326584A (ja) | 2003-04-25 | 2003-04-25 | 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004326584A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241855A (ja) * | 2006-03-10 | 2007-09-20 | Nippon Hoso Kyokai <Nhk> | 自動文対応付け装置及び自動文対応付けプログラム並びにこれらに用いられる訳語辞書の作成装置 |
JP2008547093A (ja) * | 2005-06-14 | 2008-12-25 | マイクロソフト コーポレーション | モノリンガルコーポラおよび使用可能なバイリンガルコーポラからのコロケーション翻訳 |
JP2009223547A (ja) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | 対訳表現処理装置およびプログラム |
-
2003
- 2003-04-25 JP JP2003122360A patent/JP2004326584A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008547093A (ja) * | 2005-06-14 | 2008-12-25 | マイクロソフト コーポレーション | モノリンガルコーポラおよび使用可能なバイリンガルコーポラからのコロケーション翻訳 |
JP2007241855A (ja) * | 2006-03-10 | 2007-09-20 | Nippon Hoso Kyokai <Nhk> | 自動文対応付け装置及び自動文対応付けプログラム並びにこれらに用いられる訳語辞書の作成装置 |
JP2009223547A (ja) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | 対訳表現処理装置およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8543374B2 (en) | Translation system combining hierarchical and phrase-based models | |
US20080040095A1 (en) | System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach | |
WO2010046782A2 (en) | Hybrid machine translation | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
KR20040044176A (ko) | 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 및장치 | |
JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
KR101023209B1 (ko) | 문서 번역 장치 및 그 방법 | |
Kuo et al. | A phonetic similarity model for automatic extraction of transliteration pairs | |
CN116306594A (zh) | 一种医学ocr识别纠错方法 | |
JP3441400B2 (ja) | 言語変換規則作成装置、及びプログラム記録媒体 | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
JP5293607B2 (ja) | 略語生成装置およびプログラム、並びに、略語生成方法 | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
JP2004326584A (ja) | 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Walentynowicz et al. | Tagger for polish computer mediated communication texts | |
Tukur et al. | Parts-of-speech tagging of Hausa-based texts using hidden Markov model | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
Azimizadeh et al. | Persian part of speech tagger based on Hidden Markov Model | |
JP2003330926A (ja) | 翻訳方法、翻訳装置及び翻訳プログラム | |
JP2006127405A (ja) | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム | |
Samir et al. | Training and evaluation of TreeTagger on Amazigh corpus | |
Lembersky et al. | Morphological disambiguation of Hebrew: a case study in classifier combination | |
Abdukerim et al. | Uyghur morphological analysis using joint conditional random fields: Based on small scaled corpus | |
Boroş et al. | Romanian-English speech translation |