JP2004326584A

JP2004326584A - 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム

Info

Publication number: JP2004326584A
Application number: JP2003122360A
Authority: JP
Inventors: Kuniko Saito; 邦子齋藤; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-04-25
Filing date: 2003-04-25
Publication date: 2004-11-18

Abstract

【課題】対訳テキストから固有表現の対訳を効率的且つ効果的に自動抽出すること。
【解決手段】固有表現抽出部１０が、対訳テキストを入力として言語別に固有表現抽出して各言語の有表現抽出済テキストを出力し、対訳語候補作成手段２２が、対訳語候補作成条件に基づいて各言語の固有表現抽出済テキストから対訳語候補を作成し、共起頻度計算手段２２が、対訳語候補の全ての組み合わせについて、対訳テキスト中の共起頻度を計算し、対訳語候補リストとして出力する。次に、翻訳確率計算手段３２が、単語翻訳確率に基づいて対訳語候補の翻訳確率を計算し、翻訳確率スコア化手段３４が、対訳語候補の共起頻度及び構成単語数に基づいて翻訳確率のスコア化を行い、対訳語候補絞込手段３５が、スコア化された翻訳確率から候補を選別し、最終的に対訳固有表現を出力する
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、互いに対訳となっている２つの言語テキスト（以下、対訳テキストと呼ぶ）から、互いに翻訳となっている語句（以下、対訳語と呼ぶ）を抽出する技術であり、機械翻訳システムなどで利用可能な対訳知識の自動構築方法に関する。
【０００２】
【従来の技術】
近年、ネットワークを通じて母国語以外の言語で記述された情報に触れる機会が増えている。母国語以外のテキスト内容を理解するために、機械翻訳システムの研究開発も盛んである。一般的に、機械翻訳システムでは対訳辞書などの対訳知識が用いられており、これらの知識をいかにして低コストで構築するかは技術的なポイントの１つである。特に、テキストの分野に依存しやすい専門用語や、人名・地名・組織名など次々と新しい表現が登場する固有表現については、全てを人で登録するのは膨大なコストがかかるため、近年では大量の対訳テキストから自動的に対訳語を抽出する技術の研究が進められている。
【０００３】
対訳テキストから、対訳語を抽出して対訳知識を自動構築する技術としては、対訳テキスト中に対訳語候補となる語が同時に出現する頻度（共起頻度）といった統計的情報や、対訳単語の意味・品詞・発音・表記などの類似性といった言語情報を用いる（既存の対訳知識を利用する）ことが主流である。統計的情報は対訳語候補の抽出に利用し、候補をさらに絞り込む上で言語情報を利用することが多い。抽出対象とする対訳語は１単語対応とは限らず、複数の単語、しかも連続する単語だけではなく非連続の単語（熟語表現など）とする研究も多い。
【０００４】
本発明では、抽出対象とする語句は人名・地名・組織名などの固有表現であるとする。これらの語句の主な特徴は、
・１単語から構成される固有名詞だけではなく、連続する１単語以上の単語列から構成されるやや長い単位の語句も含まれる
・分野や年代によって登場する語彙が異なり、数・種類も多いので未知語になりやすい
ということがあげられる。すなわち、固有表現には「齋藤」という１単語の固有名詞（この例では人名）だけでなく、「日本電信電話株式会社」といった複数の単語からなる長い単語の語句（この例では組織名）も含まれる。特に後者のように長い単位で１つの固有表現となる語句では、１つ１つの単語の品詞が普通名詞であることも多く、文章を単語分割し品詞付与を行う形態素解析処理だけでは固有表現の範囲を認定することは困難であるという特徴がある。また、固有表現はテキストの分野によって登場する語彙が異なり、例えば経済の分野であれば企業名や商品名など、国際政治の分野であれば政治家人名・国家組織名など、芸能の分野であれば芸能人名・キャラクター名などが頻出する。さらに、時代とともに話題が移れば登場する語彙も変化していくものである。そのため、機械翻訳システムにおいて、固有表現は対訳知識にない限り未知語となって翻訳誤りとなる事例が多く、システムの精度低下の大きな原因の１つとなっている。
【０００５】
そこで、これらの固有表現の対訳知識を構築していく必要があるが、上記の通り語彙が豊富で移り変わりも激しいため、人手での構築だけではコストがかかる。そのため固有表現の対訳知識をできるだけ人手に頼らないで自動的に構築する技術は、機械翻訳システムにとって不可欠である。
【０００６】
ところで、固有表現の対訳の重要な特徴に、
・単なる音訳や逐語訳だけではなく決め事となっている場合が多い
というものがある。人名や簡単な地名においては単純な音訳や逐語訳ですむことも多いが、組織名においてはこの傾向が強い。例えば「日本電信電話株式会社」の英語表記は「ＮｉｐｐｏｎＴｅｌｅｇｒａｐｈａｎｄＴｅｌｅｐｈｏｎｅＣｏｒｐｏｒａｔｉｏｎ」であるが、「日本」が「Ｎｉｐｐｏｎ」へ、「電信電話」が「ＴｅｌｅｇｒａｐｈａｎｄＴｅｌｅｐｈｏｎｅ」となることは、逐語訳というよりもそう表記することに決めてあるということである。また、人名や地名であっても、例えば中国語や韓国語において、外国人名や外来語表記などをどのような漢字表記、またはハングル表記にするかは明確な規則があるわけではなく、音訳や意訳を元に幾つかの表記が出現し、徐々に１つに定着していくことが多い。そのため、固有表現の対訳知識を自動的に構築する上で従来の技術でよく用いられてきた、対訳単語の意味・品詞・表記・読みといった言語的特徴に基づく絞り込みだけでは対訳語の抽出が困難である。
【０００７】
特許文献１では、１単語の固有名詞の対訳語を、各言語の文字を音（読み）の情報へ変換し、対訳語を抽出する効果をもつが、これでは複数の言語から構成される固有表現及び単なる音訳では対処できない固有表現対訳語を抽出できない。
【０００８】
特許文献２では、やや長い単位の固有表現を抽出対象とできるが、やはり各言語の言語的特徴に基づく抽出であり、決め事となっている固有表現の抽出ができない。また、そもそも固有表現の認定を行っていないため、例えば複数の普通名詞から構成される固有表現については、正しく固有表現と認識されないために、対訳語候補として抽出されない。
【０００９】
【特許文献１】
特開平１１−８５７６０号公報
【特許文献２】
特開２００２−２３６６８０号公報
【００１０】
【発明が解決しようとする課題】
本発明は、対訳テキストから人名・地名・組織名などの固有表現の対訳語を抽出する技術において問題となる
・固有表現が１単語以上の連続する単語列から構成されることが多く、そもそも固有表現の範囲を認定することが難しい
・固有表現は次々と新しい語が登場し、またテキストの分野によっても登場する語彙の傾向が異なり、数も膨大なために人手収集は困難である
・従来技術の自動対訳抽出で利用されている意味・品詞・表記・読みなどの言語情報や既存の対訳知識だけでは対応できない決め事による対訳であることも多い
という問題点を解決し、対訳テキストから固有表現の対訳を自動抽出することを目的とする。
【００１１】
【課題を解決するための手段】
上記課題を解決するために、本発明では、互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する対訳固有表現抽出装置であって、入力手段から入力された各言語のテキストをそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出手段と、記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから１単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成手段と、記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算手段と、記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化手段と、前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込手段とを有することを特徴とする。
【００１２】
本発明の原理について図１を参照して説明する。図１は本発明の原理構成図である。本発明の対訳固有表現抽出装置は、大きくわけて固有表現抽出部１０、対訳語候補抽出部２０、対訳語候補絞込部３０の３部から構成される。各部の動作詳細については発明の実施例で説明する。
【００１３】
固有表現抽出部１０は入力テキストを形態素解析する形態素解析手段１１と、形態素解析結果を利用して固有表現抽出をする固有表現抽出手段１２を有する。
【００１４】
対訳語候補抽出部２０は、対訳語候補作成条件テーブル２１に基づいて対訳語候補を作成する対訳語候補作成手段２２と、作成した対訳語候補の対訳テキスト中における共起頻度を計算する共起頻度計算手段２３を有する。
【００１５】
対訳語候補絞込部３０は、対訳語候補に対して、単語翻訳確率テーブル３１に基づいて翻訳確率を計算する翻訳確率計算手段３２と、対訳語候補の共起頻度・構成単語数テーブル３３に基づいて翻訳確率をスコア化する翻訳確率スコア化手段３４と、スコア化された翻訳確率の値から最終的に対訳語候補を絞り込む対訳語候補絞込手段３５を有する。
【００１６】
課題を解決するために、本発明の対訳固有表現抽出装置では固有表現抽出部により予め対訳テキストを言語別に固有表現抽出処理する。この処理によって各言語のテキストにおける固有表現を予め設定しておくことが可能となる。認定された固有表現を対訳候補とすることで、従来技術では抽出できない可能性のあった対訳語を抽出対象とできる。また、この固有表現の認定は、既存の対訳知識とは無関係に言語独立で行う。そのため、従来技術で困難であった逐語訳や音訳以外の対訳語となる単語列も候補にあげてくることができる。以上の効果により、対訳語候補抽出及び対訳語候補絞込の処理精度を向上させることが可能となる。
【００１７】
図２は本発明の原理を説明するためのフローチャートである。なお、ここでは処理の対象となるテキストをＸ語テキスト、Ｙ語テキストと呼ぶこととする（例：Ｘ語＝日本語、Ｙ語＝英語）。これらのテキストは互いに翻訳になっている対訳テキストである。
【００１８】
本発明の対訳固有表現抽出装置は、まず、固有表現抽出部が、Ｘ語、Ｙ語のテキストを入力として、言語別に固有表現抽出し、Ｘ語固有表現抽出済テキスト及びＹ語固有表現抽出済テキストを出力する（ステップＳ１）。続いて、対訳語候補作成手段が、対訳語候補作成条件に基づいてＸ語固有表現抽出済テキスト及びＹ語固有表現抽出済テキストから対訳語候補を作成する（ステップＳ２）。次に、共起頻度計算手段が、対訳語候補の全ての組み合わせについて、対訳テキスト中の共起頻度を計算し、対訳語候補リストとして出力する（ステップＳ３）。次に、翻訳確率計算手段が、単語翻訳確率に基づいて対訳語候補の翻訳確率を計算する（ステップＳ４）。続いて翻訳確率スコア化手段が、対訳語候補の共起頻度及び構成単語数に基づいて翻訳確率のスコア化を行う（ステップＳ５）。最後に対訳語候補絞込手段が、スコア化された翻訳確率から候補を選別し、最終的に対訳固有表現を出力する（ステップＳ６）。前記ステップＳ１が固有表現抽出部、ステップＳ２〜Ｓ３が対訳語候補抽出部、ステップＳ４〜Ｓ６が対訳語候補絞込部の処理である。
【００１９】
以上の構成により、Ｘ語，Ｙ語の対訳テキストを入力として、最終的に対訳固有表現を得ることができる。
【００２０】
【発明の実施の形態】
本発明の一実施の形態に係る対訳固有表現抽出装置について詳述する。本実施の形態に係る対訳固有表現抽出装置の基本構成については前述したとおりなので、ここでは各部の詳細について説明する。なお、対訳固有表現抽出装置の各部は、コンピュータ上でＣＰＵ等の制御手段が記憶手段に記憶されているプログラムや各種テーブルを用いることにより実現される。また、このプログラムは、外部記憶媒体や通信回線からコンピュータにインストールして実行される。
【００２１】
［固有表現抽出部］
固有表現抽出部１０は、プレーンテキストを入力として、入力文を形態素解析し、さらに、人名・地名・組織名などの固有表現を認定する。ここでは、対訳テキストを入力対象とするので、入力言語に対応する固有表現抽出部を用意する。
【００２２】
固有表現抽出装置、特に、複数の言語（多言語）を対象とした固有表現抽出装置については、以下の発明を使用している。
【００２３】
固有表現抽出装置（日本語）として、本願出願人による特願２００２−１３９９８６号「固有表現抽出装置及び方法並びに固有表現抽出プログラム」，本願出願人による特願２００２−３１７４３５号「固有表現抽出装置及び方法並びに固有表現抽出プログラム」、前記固有表現抽出装置を多言語化した装置、すなわち、任意の言語に対して固有表現抽出を行う装置として、特願２００３−４６０４９号「テキスト解析装置、方法及びプログラム」があげられる。
【００２４】
この固有表現抽出装置は、予め形態素解析を一度行い、１位の結果だけでなく上位Ｎ個（Ｎは１より大きい自然数）の形態素列候補（Ｎｂｅｓｔ形態素列候補）を求め、そのＮｂｅｓｔ形態素列候補に対して形態素解析と固有表現抽出を同時に行うモデルを適用して固有表現抽出を行う手法を提案する。
【００２５】
すなわち、１以上の単語からなる単語列とその出現確率の組を含む形態素解析モデル、並びに、固有表現を含む単語列とその出現確率の組，非終端単語列とその出現確率の組及び終端単語列とその出現確率の組を含む固有表現抽出モデルを予め記憶手段に記憶しておき、前記記憶手段に記憶されている形態素解析モデルを用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位Ｎ個（Ｎは１より大きい自然数）の形態素列を抽出する。そして、前記記憶手段に記憶されている固有表現抽出モデルを用いて、抽出されたＮ個の形態素列から固有表現を含む形態素列について出現確率が高い上位Ｍ個（Ｍは１以上の自然数）の固有表現を含む形態素列を抽出する。
【００２６】
本発明に係る固有表現抽出部１０は、上記手法により、プレーンテキストを入力として形態素解析手段１１において形態素解析を行うとともに、固有表現抽出手段１２及び固有表現抽出を行い、固有表現抽出済テキストを出力させる。形態素解析手段１１における形態素解析とは入力文を単語分割して品詞・読みなどの言語情報を付与する処理である。また、固有表現抽出手段１２における固有表現抽出は形態素解析された単語列から、人名・地名・組織名などの固有表現（１単語以上の形態素列から構成される長単位の表現）の認定を行う処理である。この処理は、言語毎に独立して行われる。また、解析は前後の文脈情報（品詞や形態素の連接確率）をモデル化した統計的言語モデルに基づいて行うため、新しく登場する固有表現に対しても、前後の文脈から正しく認定できることが特徴である。
【００２７】
図３は、日本語及び英語での固有表現抽出部１０の入出力例である。入力文に対して、単語分割・言語情報（日本語：読みと品詞、英語：原型と品詞）からなる形態素情報と、さらに固有表現情報（地名：＜ＬＯＣ＞，組織名：＜ＯＲＧ＞，固有表現ではない：ＮＩＬなど）が付与されたテキストが出力される。
【００２８】
［対訳語候補抽出部］
対訳語候補抽出部２０では、固有表現抽出部１０が出力した固有表現抽出済テキストから対訳語候補を抽出する。具体的には以下の手順で行う。
【００２９】
（１）対訳語候補となる単語列の生成
まず、対訳語候補作成手段２２により、対訳語候補作成条件テーブル２１に基づいて対訳語候補を作成する。以下に具体的手順を示す。
【００３０】
Ｘ語，Ｙ語の固有表現抽出済テキストは、形態素情報及び固有表現情報が付与されている。このテキストから、１単語以上の連続する単語列で構成される対訳語候補を作成する。Ｘ語，Ｙ語の固有表現抽出文（単語列）を、それぞれＸ＝ｘ_１…ｘ_ｌ、Ｙ＝ｙ_１…ｙ_ｍとする。ただし、ｘ_ｉ（１≦ｉ≦ｌ）、ｙ_ｊ（１≦ｊ≦ｍ）は、形態素情報及び固有表現情報が付与された１単語を示す。
【００３１】
Ｘ語について、位置ｉから始まり、連続するｋ個の単語列ｘ_ｉ…ｘ_{ｉ＋ｋ−１}を対訳語候補の単語列として生成する。機械的に作成したこの候補を全て採用すると候補数が膨大となり、その後の処理の効率が落ちる。今回は固有表現に着目しているため、以下の条件を設けて候補を作成させる。なお、この条件は対訳語候補作成条件テーブル２１として所定の記憶装置に格納しておく。
【００３２】
・１≦ｋ≦８（最大単語の制限）
・単語列中に、人名・地名・組織名等、固有表現である単語を少なくとも１つは含む（ＮＩＬだけから構成される単語列は候補としない）
・単語列中、ある品詞の単語があれば候補から除く（例：動詞・助詞・句読点など）。
【００３３】
なお、この条件は１つの例であり、言語の品詞体系や特徴・抽出したい対訳語の特徴に応じて自由に設定すればよい。上記では、固有表現抽出部が処理誤りをすることも考慮し、固有表現として認定された単語列だけに限定せず、固有表現を含む単語列も候補とするように工夫している。Ｙ語について同様に、位置ｊから始まり、連続するｋ個の単語列ｙ_ｊ…ｙ_{ｊ＋ｋ−１}を対訳語候補の単語列とし、構成単語数、各単語の固有表現情報・品詞情報に基づいた条件によって最終的な対訳語候補を生成する。
【００３４】
（２）対訳語候補の共起頻度の計算
次に、共起頻度計算手段２３において、前記対訳語候補作成手段２２で生成した対訳語候補の全ての組み合わせについて、Ｘ語，Ｙ語のテキスト中における共起頻度を計算し、対訳語候補とともにその値を記憶する。共起頻度が高い組み合わせであるほど両者の関連が高い、すなわち対訳として適切である可能性が高く、低いものほど対訳として不適切であるものが大半をしめる。この共起頻度の情報は対訳語候補絞込部３０で利用する。
【００３５】
以上により、固有表現抽出済テキストから共起頻度情報の付いた対訳語候補リストを作成する。
【００３６】
図４は、作成された対訳候補リストの例である。なお、対訳語はもともと形態素解析及び固有表現抽出された結果であるため、本来は品詞・読みや固有表現の情報が付与されているが、後段の絞込処理において対訳語候補の表記しか利用しないため、候補リストでも表記のみとしている。数字は対訳テキスト中の共起頻度を示している。頻度が高いほど対訳として尤もらしい候補となっていることが分かる。
【００３７】
［対訳語候補絞込部］
対訳語候補絞込部３０では、対訳語候補抽出部２０で抽出した対訳語候補リストから尤もらしい対訳語を選別し絞り込みを行う。すなわち、対訳語候補抽出部２０で抽出した対訳語候補に対して、翻訳確率計算手段３２が単語翻訳確率テーブル３１に基づいて翻訳確率を計算し、翻訳確率スコア化手段３４が対訳語候補の共起頻度・構成単語数テーブル３３に基づいて翻訳確率をスコア化し、対訳語候補絞込手段３５がスコア化された翻訳確率の値から最終的に対訳語候補を絞り込む。以下、具体的手順を説明する。
【００３８】
まずは共起頻度が低い候補は殆ど対訳とは言えないものであるため、共起頻度の閾値を設定してそれ以下のものは候補から除く。この閾値は自由に設定でき、例えば頻度２以下は削除する、というように決める。残ったリストからさらに候補の絞込を行うが、そこでは対訳としての正しさを判定するために、翻訳モデルを導入する。
【００３９】
統計的手法に基づく機械翻訳のモデルは従来より提案されている。このモデルでは、数式の近似の複雑さの程度により５種類が提案されているが、ここでは、そのうちの最も単純なモデルを利用する。以下、このモデルの概要を簡単に説明する。
【００４０】
Ｘ語及びＹ語の文をそれぞれＸ＝ｘ_１…ｘ_ｌ、Ｙ＝ｙ_１…ｙ_ｍとする。ただし、ｘ_ｉ（１≦ｉ≦ｌ）、ｙ_ｊ（１≦ｊ≦ｍ）はそれぞれ１単語を示す。Ｘ語の文が与えられたときのＹ語の文の条件付確率Ｐ（Ｙ｜Ｘ）を計算するモデルを翻訳モデルという。翻訳モデルとは、Ｘの単語列の単語がＹの単語列のどの単語と対応するか、すなわち、ＸとＹの単語対応確率をモデル化したものである。
【００４１】
今、ＸとＹが互いに翻訳となっていて、その単語対応がＡであるとすると、
【００４２】
【数１】

【００４３】
本モデルでは、（１）式を以下の式へ分解、近似する。
【００４４】
【数２】

【００４５】
これは、Ｘ，Ｙの任意の単語対応（ｘ_ｉ，ｙ_ｊ）についての条件付確率ｔ（ｙ_ｊ｜ｘ_ｉ）と、Ｘ，Ｙの構成単語数から計算可能である。εは定数なので任意に設定すればよいが、ここでは１とした。なお、ｔ（ｙ_ｊ｜ｘ_ｉ）を単語翻訳確率と呼ぶ。
【００４６】
ｔ（ｙ_ｊ｜ｘ_ｉ）は大量の翻訳例からＥＭアルゴリズムより自動的に計算することができる。今回は約１５万分の翻訳例から単語翻訳確率テーブル３１として翻訳確率データベースを作成した。図５は、単語翻訳確率の例である。自動的に計算されるものであるため誤りも含むが、確率が大きいものほど翻訳として正しい傾向がある。対訳リストの単語列に対して（２）式を適応し、Ｐ（Ｙ｜Ｘ）を求める。
【００４７】
ところで、（２）式では、全ての単語対応の組み合わせについて、翻訳確率（値が１以下）の和及び積を取っている。そのため、Ｘ，Ｙの構成単語数が増加するほどＰ（Ｙ｜Ｘ）が小さくなるという傾向がある。この傾向のために、（２）式で計算した確率をそのまま用いて対訳の尤もらしさを判断すると、構成単語数が少ないものほど有利となり、構成単語数が多いものほど不利になって正当な比較ができない。また、共起頻度を考慮する項がないため、頻度が高いほど対訳として尤もらしいという傾向を反映できない。そこで、共起頻度と構成単語数を考慮するために、さらに次式を用いて条件付確率Ｐ（Ｙ｜Ｘ）の値を補正し、改めて対訳語候補のスコアＳ（Ｙ｜Ｘ）とする。
【００４８】
【数３】

【００４９】
ｍａｔｃｈは、構成単語のうちの何割が翻訳相手の単語と対応していたかを示す。すなわち、構成単語数によらず、どれほど翻訳らしい対応が含まれていたかを数値化したものである。またＥ（Ｙ｜Ｘ）は、ｔ（ｙ_ｊ｜ｘ_ｉ）の平均値を用いてＰ（Ｙ｜Ｘ）を計算し直したもので、いわばＰ（Ｙ｜Ｘ）の期待値である。この期待値Ｅ（Ｙ｜Ｘ）と実際の確率値Ｐ（Ｙ｜Ｘ）との比をとることで構成単語数の違いによる確率値のスケールの差を吸収した。なお、ここで示した共起頻度と構成単語数の考慮の仕方は一例であり、他の式によって条件を変更してもよい。また、対訳語の共起頻度と構成単語数は共起頻度・構成単語数テーブル３３として所定の記憶装置に記憶したものである。
【００５０】
そして、（３）式から対訳語候補のスコアを計算し、ある閾値以上のものを抽出すれば、尤もらしい対訳語が得られる。
【００５１】
図６は絞り込み後の対訳語の例である。左から順に、（３）式のスコア値、（２）式の翻訳確率値、対訳テキスト中の共起頻度、対訳語、を示す。
【００５２】
図６に示すように、（２）式の翻訳確率が小さい対訳語（主に構成単語数が多い対訳語）も、（３）式のスコアにより共起頻度及び構成単語が考慮され、上位に上がっていることが分かる。この例では、１単語からなる固有表現は勿論のこと、３単語以上の長い単位の固有表現の対訳も抽出できている。また、「Ｕ．Ｓ．ＰｒｅｓｉｄｅｎｔＢｉｌｌＣｌｉｎｔｏｎ」「クリントン米大統領」や「ＰｒｉｍｅＭｉｎｉｓｔｅｒＲｙｕｔａｒｏＨａｓｈｉｍｏｔｏ」「橋本首相」のように、英語では姓と名、日本語では姓だけの対訳語、更に「ＳｏｖｉｅｔＵｎｉｏｎ」「ソ連」や「Ｕ．Ｎ．ＧｅｎｅｒａｌＡｓｓｅｍｂｌｙ」「国連総会」のように、日本語が独自の省略表記となっている対訳語も抽出できた。これらの対訳はいずれも、言語毎の習慣からくるものと言え、単なる逐語訳・音訳では対処できない性質のものである。
【００５３】
本実施の形態にかかる対訳固有表現抽出装置によれば、以上の処理により、対訳語候補リストから対訳語候補の対訳テキスト中における共起頻度及び構成単語数を考慮した対訳語候補絞り込みが可能となった。
【００５４】
なお、上記の対訳固有表現抽出装置は本発明の一実施の形態にすぎず他の形態であっても本発明を実施することができる。例えば、固有表現抽出アルゴリズムや翻訳モデルなどは他のアルゴリズム・モデルを用いてもよい。
【００５５】
【発明の効果】
以上詳述したように、本発明では、固有表現抽出部と対訳語候補抽出部と対訳語候補絞込部を有する。固有表現抽出部は対訳テキストを言語別に形態素解析及び固有表現抽出し、テキスト中の固有表現を認定する。対訳語候補抽出部は、固有表現抽出されたテキストから固有表現を含む対訳語候補を効率よく作成し、全ての組み合わせの対訳語候補について、対訳テキスト中の共起頻度を計算して対訳語候補リストを作成する。対訳語候補絞り込み部は、対訳語候補リストについて、対訳の尤もらしさを翻訳モデルから判断するが、その際の翻訳確率値を、対訳語候補の対訳テキスト中における共起頻度及び対訳語候補の構成単語数を考慮したものにスコア化し、このスコア値をもとに候補の絞り込みを行って、最終的に尤もらしい対訳固有表現語を出力する。これにより、対訳テキストから尤もらしい対訳固有表現を抽出することができる。
【００５６】
すなわち、本発明では、予め対訳テキストを言語独立に固有表現抽出処理を施し、固有表現の認定を行ってから対訳語候補として抽出し絞り込みを行っている。そのため、従来技術のように既存の対訳知識だけでは対応することが困難な対訳、すなわち、単純な逐語訳音訳ではない対訳も抽出することが可能となった。
【図面の簡単な説明】
【図１】対訳固有表現抽出装置の原理を説明する構成図
【図２】対訳固有表現抽出装置の動作を説明するフローチャート
【図３】日本語及び英語における固有表現抽出部の入出力例を示す図
【図４】対訳語候補リストの一例を示す図
【図５】単語翻訳確率の一例を示す図
【図６】絞り込み後の対訳語の一例を示す図
【符号の説明】
１０…固有表現抽出部、１１…形態素解析手段、１２…固有表現抽出手段、２０…対訳語候補抽出部、２１…対訳語候補作成条件テーブル、２２…対訳語候補作成手段、２３…共起頻度計算手段、３０…対訳語候補絞込部、３１…単語選択確率テーブル、３２…翻訳確率計算手段、３３…共起頻度・構成単語数テーブル、３４…翻訳確率スコア化手段、３５…対訳語候補絞込手段

Claims

互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する対訳固有表現抽出装置であって、
入力手段から入力された各言語のテキストをそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出手段と、
記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから１単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成手段と、
記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算手段と、
記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化手段と、
前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込手段とを有する
ことを特徴とする対訳固有表現抽出装置。
前記対訳語候補作成条件は、固有表現の有無，構成単語数制限，構成単語の品詞・語句の特徴に基づいて予め設定する
ことを特徴とする請求項１記載の対訳固有表現抽出装置。
互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する対訳固有表現抽出方法であって、
入力手段から入力された各言語のテキストをそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出ステップと、
記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから１単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成ステップと、
記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算ステップと、
記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化ステップと、
前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込ステップとを有する
ことを特徴とする対訳固有表現抽出方法。
前記対訳語候補作成条件は、固有表現の有無，構成単語数制限，構成単語の品詞・語句の特徴に基づいて予め設定する
ことを特徴とする請求項１記載の対訳固有表現抽出方法。
コンピュータを、
入力手段から入力された互いに対訳となっている対訳テキストを各言語毎にそれぞれ形態素解析するとともに該テキスト中の固有表現を抽出する固有表現抽出手段と、
記憶手段に記憶されている対訳語候補作成条件情報に基づいて前記固有表現抽出手段で抽出された固有表現抽出済テキストから１単語以上の連続する単語列からなる対訳語候補を作成する対訳語候補作成手段と、
記憶手段に記憶されている単語翻訳確率情報に基づいて前記対訳語候補作成手段で作成された対訳語候補の翻訳確率を計算する翻訳確率計算手段と、
記憶手段に記憶されている対訳語候補の共起頻度及び構成単語数に係る情報に基づいて前記翻訳確率計算手段で計算した対訳候補の翻訳確率をスコア化する翻訳確率スコア化手段と、
前記翻訳確率スコア化手段でスコア化された対訳語候補の翻訳確率から所定の閾値以上の対訳語候補を対訳固有表現として出力する対訳語候補絞込手段として機能させることにより、
互いに対訳となっている対訳テキストを対象として、テキスト中の対訳固有表現を抽出する
ことを特徴とする対訳固有表現抽出プログラム。