JP5995219B2

JP5995219B2 - 対訳辞書生成装置、方法、及びプログラム

Info

Publication number: JP5995219B2
Application number: JP2013155831A
Authority: JP
Inventors: 永田　昌明; 昌明永田; 林　良彦; 林　　良彦
Original assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Current assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Priority date: 2013-07-26
Filing date: 2013-07-26
Publication date: 2016-09-21
Anticipated expiration: 2033-07-26
Also published as: JP2015026281A

Description

本発明は、対訳辞書生成装置、方法、及びプログラムに係り、特に、対訳辞書を生成する対訳辞書生成装置、方法、及びプログラムに関する。

Wikipedia（Ｒ）を情報源とし、言語間リンクで結ばれた記事ペアのタイトルから対訳関係・辞書を抽出する研究が知られている（非特許文献１、２）。

また、パラレルコーパス、又は、コンパラブルコーパスと呼ばれる異言語のコーパスデータから統計的手法などにより対訳関係・辞書を抽出する研究が知られている（非特許文献３、４）

新井他３名、「Wikipediaを用いた多言語ブログ検索のための訳語抽出」、情報処理学会第70回全国大会講演論文集5J-4、2008年佐藤他８名、「Wikipediaを介した関連ニュース・ブログの対応付け」、情報処理学会研究報告自然言語処理研究会報告 2009-NL-194(10)、2009年 Gamallo,P.、「Extraction of Translation Equivalents from Parallel Corpora Using Sense-sensitive Contexts」、Proc.EAMT2005、2005年、p.97-102 梶他１名「コンパラブルコーパスを用いた訳語選択. 第４回機械翻訳技術のイノベーションシンポジウム」、2010年、インターネット〈http://www.congre.co.jp/imttsympo/2010/program/pdf/p5_kaji.pdf〉

しかし、上記で示した非特許文献１及び２の従来技術の多くは、予め言語間の対応付けが言語間リンクなどにより明記されている記事のタイトル対から対訳辞書を抽出するものであり、抽出できる対訳の範囲が限定される。

また、非特許文献３及び４の従来技術は、一般のテキスト記述部分から対訳を抽出するため、対訳の適用可能領域に関する付加情報を得ることが困難である。

本発明は、上記の事情を鑑みてなされたもので、広範囲の部分から対訳ペアを抽出した対訳辞書を生成することができる対訳辞書生成装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る対訳辞書生成装置は、対訳となる第１の言語の文字列と、第２の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置であって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第１の言語の記事テンプレート及び前記第２の言語の記事テンプレートに基づいて、前記第１の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第２の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部と、前記第１の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第２の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部と、前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合及び前記第２の言語の属性名の集合において、前記第１の言語の属性名と前記第２の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第１の言語の記事の集合及び前記第２の言語の記事の集合に基づいて、前記第１の言語の記事の集合から抽出される、前記対応付けられた前記第１の言語の属性名に対する属性値の集合、及び前記第２の言語の記事の集合から抽出される、前記対応付けられた前記第２の言語の属性名に対する属性値の集合において、前記第１の言語の属性値と前記第２の言語の属性値とを対応付ける対応付け部と、前記対応付け部によって対応付けられた前記第１の言語の属性名の文字列と前記第２の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第１の言語の属性値の文字列と前記第２の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部と、を含んで構成されている。

本発明に係る対訳辞書生成方法は、テンプレート属性集合抽出部と、テンプレート引用記事集合抽出部と、対応付け部と、対訳辞書生成部とを含み、対訳となる第１の言語の文字列と、第２の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置における対訳辞書生成方法であって、前記テンプレート属性集合抽出部によって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第１の言語の記事テンプレート及び前記第２の言語の記事テンプレートに基づいて、前記第１の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第２の言語の記事テンプレートに含まれる属性名の集合を抽出するステップと、前記テンプレート引用記事集合抽出部によって、前記第１の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第２の言語の記事テンプレートを用いて記述している記事の集合を抽出するステップと、前記対応付け部によって、前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合及び前記第２の言語の属性名の集合において、前記第１の言語の属性名と前記第２の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第１の言語の記事の集合及び前記第２の言語の記事の集合に基づいて、前記第１の言語の記事の集合から抽出される、前記対応付けられた前記第１の言語の属性名に対する属性値の集合、及び前記第２の言語の記事の集合から抽出される、前記対応付けられた前記第２の言語の属性名に対する属性値の集合において、前記第１の言語の属性値と前記第２の言語の属性値とを対応付けるステップと、前記対訳辞書生成部によって、前記対応付け部によって対応付けられた前記第１の言語の属性名の文字列と前記第２の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第１の言語の属性値の文字列と前記第２の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成するステップと、を含む。

本発明に係るプログラムは、対訳となる第１の言語の文字列と、第２の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成するためのプログラムであって、コンピュータを、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第１の言語の記事テンプレート及び前記第２の言語の記事テンプレートに基づいて、前記第１の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第２の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部、
前記第１の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第２の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部、前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合及び前記第２の言語の属性名の集合において、前記第１の言語の属性名と前記第２の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第１の言語の記事の集合及び前記第２の言語の記事の集合に基づいて、前記第１の言語の記事の集合から抽出される、前記対応付けられた前記第１の言語の属性名に対する属性値の集合、及び前記第２の言語の記事の集合から抽出される、前記対応付けられた前記第２の言語の属性名に対する属性値の集合において、前記第１の言語の属性値と前記第２の言語の属性値とを対応付ける対応付け部、及び前記対応付け部によって対応付けられた前記第１の言語の属性名の文字列と前記第２の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第１の言語の属性値の文字列と前記第２の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部として機能させるためのプログラムである。

本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合及び前記第２の言語の属性名の集合において、前記第１の言語の属性名と前記第２の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度に基づいて、前記第１の言語の属性名と前記第２の言語の属性名とを対応付け、前記第１の言語の記事の集合から抽出される、前記対応付けられた前記第１の言語の属性名に対する属性値の集合、及び前記第２の言語の記事の集合から抽出される、前記対応付けられた前記第２の言語の属性名に対する属性値の集合において、前記第１の言語の属性値と前記第２の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度に基づいて、前記第１の言語の属性値と前記第２の言語の属性値とを対応付け、前記対訳辞書生成部は、前記対応付け部によって対応付けられた前記第１の言語の属性名の文字列と前記第２の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第１の言語の属性値の文字列と前記第２の言語の属性値の文字列とのペアの各々を、前記ペアについて算出された前記類似度と共に、対訳ペアとして前記対訳辞書に格納するようにすることができる。

また、本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合及び前記第２の言語の属性名の集合において、前記第１の言語の属性名と前記第２の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第１閾値に基づいて、前記第１の言語の属性名と前記第２の言語の属性名とを対応付け、前記第１の言語の記事の集合から抽出される、前記対応付けられた前記第１の言語の属性名に対する属性値の集合、及び前記第２の言語の記事の集合から抽出される、前記対応付けられた前記第２の言語の属性名に対する属性値の集合において、前記第１の言語の属性値と前記第２の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第２閾値に基づいて、前記第１の言語の属性値と前記第２の言語の属性値とを対応付けるようにすることができる。

また、本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第１の言語の属性名を、処理対象とし、前記処理対象の第１の言語の属性名について、前記第２の言語の属性名との対応付けを行い、前記処理対象の第１の言語の属性名の属性値について、前記第２の言語の属性値との対応付けを行うことを、前記処理対象の第１の言語の属性名毎に繰り返し、前記処理対象の第１の言語の属性名について前記対応付けを行う毎に、前記第１閾値及び前記第２閾値を低減させるようにすることができる。

また、本発明に係る前記対応付け部は、前記テンプレート引用記事集合抽出部によって抽出された前記第１の言語の記事の集合から、前記処理対象の第１の言語の属性名に対する属性値の集合を抽出する第１属性値インスタンス集合抽出部と、前記テンプレート属性集合抽出部によって抽出された前記第２の言語の属性名の集合から、属性名の類似度に基づいて、前記処理対象の第１の言語の属性名に対応する前記第２の言語の属性名の候補の集合を抽出する対応属性候補抽出部と、前記第２の言語の属性名の候補の集合に含まれる前記第２の言語の属性名の各々について、前記テンプレート引用記事集合抽出部によって抽出された前記第２の言語の記事の集合から、前記第２の言語の属性名に対する属性値の集合を抽出する第２属性値インスタンス集合抽出部と、前記第２の言語の属性名の候補の集合に含まれる前記第２の言語の属性名の各々について、前記第２の言語の属性名について前記第２属性値インスタンス集合抽出部によって抽出された前記第２の言語の属性名に対する属性値の集合と、前記第１属性値インスタンス集合抽出部によって抽出された前記処理対象の第１の言語の属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する属性値インスタンス集合間類似度計算部と、前記第２の言語の属性名の候補の集合に含まれる前記第２の言語の属性名の各々について、前記属性値インスタンス集合間類似度計算部によって計算された属性値インスタンス集合間類似度が、前記第１閾値以上であれば、前記処理対象の第１の言語の属性名と、前記第２の言語の属性名とを対応付け、前記対応付けられた前記処理対象の第１の言語の属性名及び前記第２の言語の属性名の各々に対する属性値の集合における、前記第１の言語の属性値と前記第２の言語の属性値との各ペアについて、前記ペアの類似度が前記第２閾値以上であれば、前記ペアの前記第１の言語の属性値と前記第２の言語の属性値とを対応付ける対応付け決定部とを含むようにすることができる。

以上説明したように、本発明の対訳辞書生成装置、方法、及びプログラムによれば、第１の言語の記事テンプレート及び第２の言語の記事テンプレートに基づいて、第１の言語の記事テンプレートに含まれる属性名の集合と、第２の言語の記事テンプレートに含まれる属性名の集合とを抽出すると共に、第１の言語の記事テンプレートを用いて記述している記事の集合と、第２の言語の記事テンプレートを用いて記述している記事の集合とを抽出し、第１の言語の属性名の集合及び第２の言語の属性名の集合において、第１の言語の属性名と第２の言語の属性名とを対応付け、対応付けられた第１の言語の属性名に対する属性値の集合、及び対応付けられた第２の言語の属性名に対する属性値の集合において、第１の言語の属性値と第２の言語の属性値とを対応付け、対応付けられた第１の言語の属性名の文字列と第２の言語の属性名の文字列とのペアの各々、及び対応付けられた第１の言語の属性値の文字列と第２の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した対訳辞書を生成することにより、広範囲の部分から対訳ペアを抽出した対訳辞書を生成することができる、という効果が得られる。

本発明の実施の形態が対象とする情報構造の概念図を示す図である。本発明の実施の形態に係る対訳辞書生成装置の構成を示す概略図である。本発明の実施の形態に係る対訳辞書生成装置における対訳辞書生成処理ルーチンの前半部分の内容を示すフローチャートである。本発明の実施の形態に係る対訳辞書生成装置における対訳辞書生成処理ルーチンの後半部分の内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜概要＞
あるタイプτの実体に関して、そのタイプを持つ実体群に対する属性・属性値記述を行うために、言語ごとに、予め準備されている記事テンプレートを具体化することにより、ある具体的な実体εに対する記事が様々な言語により記述されているとき、当該のタイプτに対して準備されている原言語Ｘの記事テンプレートＩＤ：Ｓ、目的言語Ｙの記事テンプレートＩＤ：Ｔを入力とし、これらの記事テンプレートから属性名の言語間対応付けを行い、さらに、これらの記事テンプレートＩＤにより指定されるテンプレートを引用している記事群から属性値の言語間対応付けを行うことにより、この対応付け情報から対訳辞書を抽出する。

ここで、記事テンプレートとは、特定のタイプτ（例:山/mountain）の実体（例:富士山/Mt.Fuji）を記述するために予め定義された枠組みである。記事テンプレートには、対象とする言語においてタイプτの実体を記述するための属性の名称（属性名）（例：名称、標高、name、altitude）が提示されている。与えられた記事テンプレートＩＤで指定される記事テンプレートのソースコードは、別途手段により取得・解析でき、従って、上述の属性名を容易に抽出することができる。しかし、同じタイプについての記事テンプレートであっても、当該記事テンプレートは言語毎に作成されており、言語毎の記事テンプレートに含まれる属性名は、必ずしも対訳とはなっていない。

本実施の形態が対象とする情報構造を説明する概念図を図１に示す。
あるタイプの実体を記述する記事は、その実体のタイプを反映した記事テンプレートを引用することにより記述される。記事テンプレートには、当該のタイプの実体を記述するための属性が列挙されている。また、各記事には、記事が対象とする実体に対して、各属性に対する情報を与える属性値が記述されている。

本実施の形態の方法によれば、上記図１の例においては、属性名の対応から「名称:name」、「高さ:elevation」などの対訳が抽出でき、属性値の対応から「富士山:Mt.Fuji, 3,776m:12,388ft」などの対訳を抽出することができる。

＜システム構成＞
本発明の第１の実施の形態に係る対訳辞書生成装置１００は、原言語（第１の言語）の文字列（単語）と、目的言語（第２の言語）の文字列(単語)との対訳辞書を生成する。この対訳辞書生成装置１００は、ＣＰＵと、ＲＡＭと、後述する対訳辞書生成処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図２に示すように、対訳辞書生成装置１００は、入力部１と、演算部２と、出力部４とを備えている。

入力部１は、記述対象の実体のタイプが対応している原言語Ｘの記事テンプレートＩＤ：Ｓと、目的言語Ｙの記事テンプレートＩＤ：Ｔとのペアの入力を受け付ける。なお、原言語Ｘの記事テンプレートＩＤ：Ｓと、目的言語Ｙの記事テンプレートＩＤ：Ｔとは、記述対象の実体のタイプが同一であるとは限らない。例えば、原言語Ｘの記事テンプレートＩＤ：Ｓのタイプが、目的言語Ｙの記事テンプレートＩＤ：Ｔのタイプを包含している場合であってもよい。

演算部２は、入力部１により受け付けた原言語Ｘの記事テンプレートＩＤ：Ｓと、目的言語Ｙの記事テンプレートＩＤ：Ｔとに基づいて、原言語Ｘと目的言語Ｙとの対訳となる文字列ペアを格納した対訳辞書を生成する。

演算部２は、対応付け部３と、テンプレート属性集合抽出部２０と、テンプレート引用記事集合抽出部２２と、文字列翻訳部２４と、文字列類似度計算部２６と、属性名類似度計算部２８と、対訳辞書生成部５０と、を備えている。

テンプレート属性集合抽出部２０は、入力部１により受け付けた原言語Ｘの記事テンプレートＩＤ及び目的言語Ｙの記事テンプレートＩＤに基づいて、原言語の記事テンプレートに含まれる属性名の集合を抽出し、目的言語の記事テンプレートに含まれる属性名の集合を抽出する。
具体的には、テンプレート属性集合抽出部２０は、入力部１により受け付けた記事テンプレートＩＤの記事テンプレートのソースコードをインターネット５を介して取得・解析し、当該記事テンプレートに含まれる属性名のそれぞれに対し属性ＩＤを付与し、これら属性ＩＤの集合を抽出する。ここで、属性ＩＤとは、同じ意味を持つ属性を表す属性名の集合（例：｛名称、名前、通称｝）を識別するためのＩＤである。すなわち、例えば、属性名の集合｛名称、名前、通称｝に対して、同じ属性ＩＤが付与される。なお、属性名が同じ意味を持つか否かは、従来既知の同義語の判定技術を用いればよいため、説明を省略する。
また、テンプレート属性集合抽出部２０は、この過程において、属性ＩＤと属性名文字列集合の対応関係を保持する内部テーブルである属性ＩＤテーブルを生成し、後述する内部テーブルデータベース３０に格納する。なお、テンプレート属性集合抽出部２０は、入力部１により受け付けた記事テンプレートＩＤ：Ｓに対する属性ＩＤ集合αと、記事テンプレートＩＤ：Ｔに対する属性ＩＤ集合βとを抽出する。ここで、属性ＩＤ集合α＝｛α_１，α_２，・・・，α_Ｍ｝であり、属性ＩＤ集合β＝｛β_１，β_２，・・・｝である。

テンプレート引用記事集合抽出部２２は、入力部１により受け付けた原言語Ｘの記事テンプレートＩＤの記事テンプレートを用いて記述している記事の集合を抽出し、入力部１により受け付けた目的言語Ｙの記事テンプレートＩＤの記事テンプレートを用いて記述している記事の集合を抽出する。
具体的には、テンプレート引用記事集合抽出部２２は、入力部１により受け付けた記事テンプレートＩＤに基づいて、当該記事テンプレートＩＤに対応する記事テンプレートを引用している記事群を求め、これらの記事の記事ＩＤ集合を抽出する。ここで、各記事は記事ＩＤを持つ。各記事には、それが引用する記事テンプレートの記事テンプレートＩＤが明記されているものとする。このため、例えば、処理対象の記事群に対してテンプレートＩＤをキーとする検索を行うことにより、指定された記事テンプレートを引用する記事群の記事ＩＤ集合を抽出することができる。

文字列翻訳部２４は、指定された原言語Ｘの文字列を、指定された目的言語Ｙの文字列へと翻訳する。文字列翻訳部２４は、既存技術・サービスの利用（インターネット１＜http://translate.google.co.jp/?hl=ja&tab=wT＞、インターネット２＜http://langrid.org/tools/toolbox/＞等を参照）により実現できるため、本実施の形態でその詳細は説明しない。

文字列類似度計算部２６は、指定された文字列１、文字列２の間の類似度を計算する。文字列類似度計算部２６の詳細は説明しないが、例えば、編集距離 (Edit distance) (例えば、インターネット＜http://en.wikipedia.org/wiki/Edit_distance＞を参照）、あるいは、Jaro-Winkler distance（例えば、インターネット＜http://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance＞を参照)などの既知の技術を用いることで実現できる。

属性名類似度計算部２８は、原言語Ｘの属性名と目的言語Ｙの属性名との類似度を計算する。ここで、属性名類似度とは、以下の２つの文字列の間の言語横断的類似度を表す数値である。

（１）原言語Ｘにおいて、ある属性ＩＤにより表される属性名集合の要素である属性名文字列
（２）目的言語Ｙにおいて、ある属性ＩＤにより表される属性名集合に要素である属性名文字列

具体的には、属性名類似度計算部２８は、原言語Ｘの属性ＩＤ：ａ、目的言語Ｙの属性ＩＤ：ｂ（ｂは、後述する対応属性候補抽出部３６によって選択された属性ＩＤ集合βの各要素β_ｉ）を入力とし、それぞれの属性ＩＤに属する属性名集合の間の類似度を計算する。本実施の形態では、以下のように属性名類似度を計算する。

原言語Ｘの属性ＩＤ：ａに対応する属性名文字列集合の要素である各属性名文字列に対して、文字列翻訳部２４によって目的言語Ｙの文字列に翻訳し、目的言語Ｙに翻訳された属性文字列集合ａ^Ｔを得る。そして、属性ＩＤテーブルより求める属性ＩＤ：ａに対応する属性名文字列集合ａ’と目的言語Ｙに翻訳された属性文字列集合ａ^Ｔとの和集合を求める。ここで、和集合を求めるので空集合にはならない。和集合を求めるのは、原言語の文字列が目的言語においてもそのまま用いられるケースを想定するためである。この和集合の要素と、目的言語Ｙにおける属性ＩＤ：ｂに対して属性ＩＤテーブルより求める属性文字列集合ｂ’の各要素との全ての組み合わせに対して、文字列類似度計算部２６によって当該組み合わせの文字列の類似度を算出する。そして、全ての組み合わせに対して求められた類似度のうちの最大類似度を、属性ＩＤ：ａと属性ＩＤ：ｂに対する属性名類似度とする。

対応付け部３は、テンプレート属性集合抽出部２０によって抽出された原言語Ｘの属性ＩＤ集合α及び目的言語Ｙの属性ＩＤ集合βにおいて、原言語Ｘの属性名と目的言語Ｙの属性名とを対応付けると共に、テンプレート引用記事集合抽出部２２によって抽出された原言語Ｘの記事の集合及び目的言語Ｙの記事の集合に基づいて、原言語Ｘの記事の集合から抽出される、対応付けられた原言語Ｘの属性名に対する属性値の集合、及び目的言語Ｙの記事の集合から抽出される、対応付けられた目的言語Ｙの属性名に対する属性値の集合において、原言語Ｘの属性値と目的言語Ｙの属性値とを対応付ける。
また、対応付け部３は、内部テーブルデータベース３０と、属性ＩＤ集合ソート部３２と、第１属性値インスタンス集合抽出部３４と、対応属性候補抽出部３６と、第２属性値インスタンス集合抽出部３８と、属性値インスタンス集合間類似度計算部４０と、対応付け決定部４２と、反復判定部４４とを備えている。

内部テーブルデータベース３０には、テンプレート属性集合抽出部２０によって生成された属性ＩＤテーブルが格納される。また、内部テーブルデータベース３０には、属性名類似度テーブルと、属性値インスタンス類似度テーブルとが格納される。ここで、属性ＩＤテーブルは、

<属性ＩＤ、属性名文字列集合>

の２つ組の情報で構成されている。また、属性名類似度テーブルは、

<原言語Ｘの属性ＩＤ、目的言語Ｙの属性ＩＤ、原言語Ｘの属性名文字列、目的言語Ｙの属性名文字列、属性名類似度、訳語決定フラグ>

の６つ組の情報で構成されている。訳語決定フラグとは、原言語Ｘの属性ＩＤの属性名文字列と、原言語Ｙの属性ＩＤの属性名とを訳語ペアとするか否かを決定するためのものであり、訳語ペアと決定する場合には「Ｔｒｕｅ」、訳語ペアでないと決定する場合には「Ｆａｌｓｅ」と表示される。

また、属性値インスタンス類似度テーブルは、

<原言語Ｘの属性ＩＤ、目的言語Ｙの属性ＩＤ、原言語Ｘの記事ＩＤ、目的言語Ｙの記事ＩＤ、原言語Ｘの属性値文字列、目的言語Ｙの属性値文字列、属性値類似度、訳語決定フラグ>

の８つ組の情報で構成されている。

また、属性値類似度とは、以下の２つの文字列の間の言語横断的類似度を表す数値である。

（１）原言語Ｘにおいてある属性ＩＤにより表される属性名集合のいずれかの属性名に対して、ある記事において現れる属性値文字列
（２）目的言語Ｙにおいてある属性ＩＤにより表される属性名集合のいずれかの属性名に対して、ある記事において現れる属性値文字列

属性ＩＤ集合ソート部３２は、テンプレート属性集合抽出部２０によって抽出された属性ＩＤ集合αに対して、属性ＩＤ集合αの要素（＝｛α_１，α_２，・・・，α_Ｍ｝）を、属性ＩＤの優先度の降順にソートし、結果として得られるソート済の属性ＩＤ集合αを改めて生成する。本実施の形態では、属性ＩＤの優先度に関する基準の詳細について説明しないが、例えば、当該属性ＩＤに対応する属性を含む記事数に応じて、優先度を定めることが考えられる。

第１属性値インスタンス集合抽出部３４は、テンプレート引用記事集合抽出部２２によって抽出された原言語Ｘの記事の集合から、処理対象の原言語Ｘの属性名に対する属性値の集合を抽出する。
具体的には、第１属性値インスタンス集合抽出部３４は、テンプレート引用記事集合抽出部２２によって生成された目的言語Ｘの記事ＩＤ集合の各記事から、記事ＩＤと、処理対象の原言語Ｘの属性名の属性値文字列とのペアの集合である属性値インスタンス集合Ｖ＝｛ｖ₁，ｖ₂，・・・｝を抽出する。より詳細には、第１属性値インスタンス集合抽出部３４は、インターネット５を介して、記事のソースコードを取得・解析し、指定された属性ＩＤにより表される属性が当該記事に含まれるとき、その属性に対して与えられている属性値文字列と当該記事ＩＤのペアを抽出する。

対応属性候補抽出部３６は、テンプレート属性集合抽出部２０によって抽出された目的言語Ｙの属性名の集合から、属性名の類似度に基づいて、処理対象の原言語Ｘの属性名に対応する目的言語Ｙの属性名の候補の集合を抽出する。
具体的には、対応属性候補抽出部３６は、属性ＩＤ集合ソート部３２によって生成された属性ＩＤ集合のうち先頭に位置する原言語Ｘの属性ＩＤ：ａと、テンプレート属性集合抽出部２０によって抽出された目的言語Ｙの属性ＩＤ集合βとに基づいて、属性ＩＤ集合βの要素（｛β_１，β_２，・・・｝）の中から、属性ＩＤ：ａの言語間対応付けの候補となる要素を選択し、これらの対応付け候補から構成されている属性ＩＤ集合β'（＝｛β’_１，β’_２，・・・｝）を抽出する。例えば、対応属性候補抽出部３６は、属性名類似度計算部２８を用いて、属性ＩＤ：ａと属性ＩＤ集合βの各要素β_ｉとの属性名類似度を計算し、当該属性名類似度が予め定められた閾値θ_０より大きい要素β_ｉを、対応付け候補として選択する。さらに、得られた属性名類似度を、属性ＩＤ：ａ、属性ＩＤ：β_ｉ、原言語Ｘ、目的言語Ｙの属性名文字列ともに内部テーブルデータベース３０に格納されている属性名類似度テーブルに記録する。なお、訳語決定フラグの値はＦａｌｓｅに設定する。

第２属性値インスタンス集合抽出部３８は、目的言語Ｙの属性名の候補の集合に含まれる目的言語Ｙの属性名の各々について、テンプレート引用記事集合抽出部２２によって抽出された目的言語Ｙの記事の集合から、当該目的言語Ｙの属性名に対する属性値の集合を抽出する。
具体的には、第２属性値インスタンス集合抽出部３８は、第１属性値インスタンス集合抽出部３４と同様に、テンプレート引用記事集合抽出部２２によって生成された目的言語Ｙの記事ＩＤ集合の各記事から、記事ＩＤと、当該目的言語Ｙの属性名に対する属性値文字列とのペアの集合である属性値インスタンス集合Ｗ＝｛ｗ_１，ｗ_２，・・・｝を抽出する。

属性値インスタンス集合間類似度計算部４０は、目的言語Ｙの属性名の候補の集合に含まれる目的言語Ｙの属性名の各々について、当該目的言語Ｙの属性名について第２属性値インスタンス集合抽出部３８によって抽出された目的言語Ｙの属性名に対する属性値の集合と、第１属性値インスタンス集合抽出部３４によって抽出された処理対象の原言語Ｘの属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する。

ここで、具体的には、属性値インスタンス集合間類似度とは以下の２つの集合の間の言語横断的類似度を表す数値である。

（１）原言語Ｘにおいてある属性ＩＤにより表される属性に対する属性値として現れた文字列（以下、属性値文字列と称する）の集合
（２）目的言語Ｙにおいてある属性ＩＤにより表される属性に対する属性値文字列の集合

具体的には、属性値インスタンス集合間類似度計算部４０は、原言語Ｘおよび目的言語Ｙの属性ＩＤ：ａ、β’_ｉ、および、原言語Ｘ、目的言語Ｙの属性値インスタンス集合ｖ、ｗを入力とし、これらの属性値インスタンス集合間の類似度を計算する。本実施の形態では、以下のように属性値インスタンス集合類似度を計算する。

まず、原言語Ｘの属性値インスタンス集合ｖの各要素における属性値文字列に対して、文字列翻訳部２４により、目的言語Ｙに翻訳された属性値文字列集合ｖ^Ｔを得る。目的言語Ｙに翻訳された属性値文字列集合ｖ^Ｔと原言語Ｘの属性値インスタンス集合ｖに対応する属性値文字列集合ｖ’との和集合を求める。なお、和集合を求めるので空集合にはならない。和集合を求めるのは、原言語の文字列が目的言語においてもそのまま用いられるケースを想定するためである。この和集合の各要素と、属性値インスタンス集合ｗの各要素の属性値文字列の集合ｗ’の各要素との全ての組み合わせに対して、文字列類似度計算部２６によって、当該組み合わせの文字列の類似度を算出する。この過程において、内部テーブルである属性値インスタンス類似度テーブルに、原言語Ｘの属性ＩＤ：ａ、目的言語Ｙの属性ＩＤ：β’ｉ、原言語Ｘの記事ＩＤ、目的言語Ｙの記事ＩＤ、原言語Ｘの属性値文字列、目的言語Ｙの属性値文字列、および、得られた文字列類似度を属性値類似度として記録しておく。なお、訳語決定フラグの値はＦａｌｓｅに設定する。

ここで、全ての組み合わせではなく、互いに言語間リンクで参照されている記事に存在する組み合わせのみに限定して、文字列類似度を算出することにより、より強い制約を課し、確度の高い対応付けに限定することも可能である。ここで、原言語Ｘ、目的言語Ｙの記事ペアが互いに言語間リンクで参照されているか否かは、それぞれの言語の記事ＩＤをもとに別途判定できるものとする。

全ての組み合わせに対して求められた類似度のうちの最大の属性値類似度を、属性値インスタンス集合ｖと属性値インスタンス集合ｗに対する属性値インスタンス集合間類似度とする。

対応付け決定部４２は、目的言語Ｙの属性名の候補の集合に含まれる目的言語の属性名の各々について、属性値インスタンス集合間類似度計算部４０によって計算された属性値インスタンス集合間類似度が、閾値θ_１以上であれば、処理対象の原言語Ｘの属性名と、目的言語Ｙの属性名とを対応付けることを決定し、属性名類似度テーブルにおける該当するエントリの訳語決定フラグをＴｒｕｅに変更する。また、対応付けられた処理対象の原言語Ｘの属性名及び目的言語の属性名の各々に対する属性値の集合の間での、原言語の属性値と目的言語の属性値との各ペアについて、当該ペアの属性値類似度が閾値θ_２以上であれば、当該ペアの原言語の属性値と目的言語の属性値とを対応付けることを決定し、属性値インスタンス類似度テーブルにおける該当するエントリの訳語決定フラグをTrueに変更する。

反復判定部４４は、予め設定した対応付け条件緩和に関する閾値Ｎと、原言語ＸのＩＤ集合αの要素数Ｍとの和を繰り返し回数として設定し、対応付け部３の処理が、Ｎ＋Ｍ回繰り返されたか否かを判定する。対応付け部３の処理が、Ｎ＋Ｍ回繰り返されていないと判定すると、閾値θ_１及び閾値θ_２を各々低減してから、対応付け部３の処理を繰り返す。

対訳辞書生成部５０は、対応付け部３によって対応付けられた原言語の属性名の文字列と目的言語の属性名の文字列とのペアの各々、及び対応付けられた原言語の属性値の文字列と目的言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した対訳辞書を生成する。
具体的には、対訳辞書生成部５０は、対応付け部３の各処理で得られ、内部テーブルデータベース３０に格納された属性名類似度テーブル、及び属性値インスタンス類似度テーブルの各々のエントリのうち、訳語決定フラグがＴｒｕｅとなっているエントリを、以下の７つ組の集合である対訳辞書テーブルの形式に変換し、これらを統合（マージ）することにより、対訳辞書を生成する。

<原言語ＸのテンプレートＩＤ (＝Ｓ)、原言語Ｘの属性ＩＤ、原言語Ｘの文字列、目的言語ＹのテンプレートＩＤ（＝Ｔ）、目的言語Ｙの属性ＩＤ、目的言語Ｙの文字列、訳語対応度>

より詳細には、対訳辞書生成部５０は、以下の処理によって対訳辞書を生成する。
（１）属性名類似度テーブルを対訳辞書形式に変換
属性名類似度テーブルにおけるエントリの中で訳語決定フラグがＴｒｕｅとなっているエントリを抽出し、当該のエントリにおける原言語Ｘ、目的言語Ｙの属性ＩＤをそれぞれ対訳辞書テーブルの原言語Ｘ、目的言語Ｙの属性にコピーする。また、原言語Ｘ、目的言語Ｙの属性名文字列をそれぞれ対訳辞書の言語Ｘ、Ｙの文字列にコピーする。さらに、属性名類似度を対訳辞書テーブルの訳語対応度にコピーする。
（２）属性値インスタンス類似度テーブルを対訳辞書形式に変換
属性値インスタンス類似度テーブルの中で訳語決定フラグがＴｒｕｅとなっているエントリを抽出し、当該のエントリにおける原言語Ｘ、目的言語Ｙの属性ＩＤをそれぞれ対訳辞書の原言語Ｘ、目的言語Ｙの属性にコピーする。また、原言語Ｘ、目的言語Ｙの属性値文字列をそれぞれ対訳辞書の原言語Ｘ、目的言語Ｙの文字列にコピーする。さらに、属性値類似度を対訳辞書の訳語対応度にコピーする。

出力部４は、対訳辞書生成部５０によって生成された対訳辞書を結果として出力する。

＜対訳辞書生成装置の作用＞
次に、本実施の形態に係る対訳辞書生成装置１００の作用について説明する。まず、記述対象の実体のタイプが対応している原言語Ｘの記事テンプレートＩＤと、目的言語Ｙの記事テンプレートＩＤとのペアが、対訳辞書生成装置１００に入力されると、対訳辞書生成装置１００によって、図３に示す対訳辞書生成処理ルーチンが実行される。

まず、ステップＳ１００において、入力部１によって、原言語Ｘの記事テンプレートＩＤと、目的言語Ｙの記事テンプレートＩＤとのペアを受け付ける。

次に、ステップＳ１０２において、テンプレート属性集合抽出部２０によって、上記ステップＳ１００で受け付けた原言語Ｘの記事テンプレートＩＤの記事テンプレート、及び目的言語Ｙの記事テンプレートＩＤの記事テンプレートに基づいて、原言語Ｘの記事テンプレートに含まれる属性ＩＤ集合αを抽出し、目的言語Ｙの記事テンプレートに含まれる属性ＩＤ集合βを抽出する。

ステップＳ１０４において、属性ＩＤ集合ソート部３２によって、上記ステップＳ１０２で抽出された属性ＩＤ集合αに対して、属性ＩＤ集合αの要素である属性ＩＤの優先度の降順にソートし、結果として得られるソート済の属性ＩＤ集合αを改めて生成する。

ステップＳ１０６において、繰り返し回数loop_countに０を代入する。

ステップＳ１０８において、上記ステップＳ１０４で生成されたソート済みの属性ＩＤ集合αのうち、先頭の属性ＩＤ：ａを抽出して、処理対象として設定し、属性ＩＤ集合αから先頭の属性ＩＤ：ａを除いたものを、改めて属性ＩＤ集合αとする。

ステップＳ１１０において、テンプレート引用記事集合抽出部２２によって、入力された原言語Ｘの記事テンプレートＩＤの記事テンプレートを用いて記述している記事の集合を抽出し、入力された目的言語Ｙの記事テンプレートＤＩの記事テンプレートを用いて記述している記事の集合を抽出する。

ステップＳ１１２において、処理対象の属性ＩＤ：ａに対して、第１属性値インスタンス集合抽出部３４によって、上記ステップＳ１１０で抽出された原言語Ｘの記事の集合から、処理対象の原言語Ｘの属性に対する属性値インスタンス集合Ｖ＝｛ｖ₁，ｖ₂，・・・｝を抽出する。

ステップＳ１１３において、属性名類似度計算部２８によって、処理対象の属性ＩＤ：ａの属性名と、上記ステップＳ１０２で抽出された属性ＩＤ集合βの各要素β_ｉとの間の属性名類似度を各々算出する。

ステップＳ１１４において、対応属性候補抽出部３６によって、上記ステップＳ１０２で抽出された属性ＩＤ集合βから、上記ステップＳ１１３で算出された属性名類似度に基づいて、処理対象の原言語Ｘの属性名に対応する属性名候補の集合β'＝｛β’_１，β’_２，・・・｝を抽出する。

ステップＳ１１６において、第２属性値インスタンス集合抽出部３８によって、上記ステップＳ１１４で抽出された、対応する属性名候補の集合β'＝｛β’_１，β’_２，・・・｝のうちの要素β’_iについて、上記ステップＳ１１０で抽出された目的言語Ｙの記事の集合から、当該要素β’_iの属性名に対する目的言語Ｙの属性値インスタンス集合Ｗ＝｛ｗ_１，ｗ_２，・・・｝を抽出する。

ステップＳ１１８において、属性値インスタンス集合間類似度計算部４０によって、上記ステップＳ１１６で抽出された目的言語Ｙの属性値インスタンス集合Ｗ＝｛ｗ_１，ｗ_２，・・・｝と、上記ステップＳ１１２で抽出された処理対象の原言語Ｘの属性に対する属性値インスタンス集合Ｖ＝｛ｖ₁，ｖ₂，・・・｝との間の類似度である属性値インスタンス集合間類似度ｓｉｍ_ｉを計算する。

ステップＳ１１９において、上記ステップＳ１１４で抽出された、対応する属性名候補の集合β'＝｛β’_１，β’_２，・・・｝に含まれる全ての要素について、上記ステップＳ１１６、Ｓ１１８の処理を実行したか否かを判定する。上記ステップＳ１１６、Ｓ１１８の処理を実行していない要素β’_iが存在する場合には、上記ステップＳ１１６へ戻り、当該β’_iについて上記ステップＳ１１６、Ｓ１１８の処理を実行する。一方、対応する属性名候補の集合β'＝｛β’_１，β’_２，・・・｝に含まれる全ての要素について上記ステップＳ１１６，Ｓ１１８の処理を実行した場合には、ステップＳ１２０へ移行する。
ステップＳ１２０において、上記ステップＳ１１８で算出された属性値インスタンス集合間類似度ｓｉｍ_ｉのうち、最大の属性値インスタンス集合間類似度ｓｉｍ_ｉを与える要素β’_ｉを、β*とする。

ステップＳ１２２において、上記ステップＳ１１８で算出された属性値インスタンス集合間類似度ｓｉｍ_ｉのうち、最大の属性値インスタンス集合間類似度ｓｉｍ_ｉをｓｉｍ*と設定する。

ステップＳ１２４において、上記ステップＳ１２２で設定されたｓｉｍ*が、予め定められた閾値θ_１よりも大きいか否かを判定する。そして、ｓｉｍ*が、閾値θ_１よりも大きい場合には、処理対象の属性ＩＤ：ａの属性名と、上記ステップＳ１２０で得られた属性ＩＤ：β*の属性名とを対応付けることを決定し、ステップＳ１２６へ移行する。一方、ｓｉｍ*が、閾値θ_１以下の場合には、ステップＳ１３２へ移行する。

ステップＳ１２６において、対応付け決定部４２によって、内部テーブルデータベース３０に格納されている属性名類似度テーブルにおいて、原言語Ｘの属性ＩＤが処理対象の属性ＩＤ：ａと一致し、目的言語Ｙの属性ＩＤが、上記ステップＳ１２０で得られた属性ＩＤ：β*と一致するエントリについて、訳語決定フラグをＴｒｕｅに変更する。

ステップＳ１２８において、対応付け決定部４２によって、内部テーブルデータベース３０に格納されている属性値インスタンス類似度テーブルにおいて、原言語Ｘの属性ＩＤが処理対象の属性ＩＤ：ａと一致し、目的言語Ｙの属性ＩＤが、上記ステップＳ１２０で得られた属性ＩＤ：β*と一致するエントリのうちで、属性値類似度が、閾値θ_２より大きいエントリの各々について、訳語決定フラグをＴｒｕｅに変更する。

ステップＳ１３０において、上記ステップＳ１０２で抽出された集合βから、上記ステップＳ１２０で得られたβ*を除いたものを、改めて集合βとする。

ステップＳ１３２において、処理対象の属性ＩＤ：ａを、集合αの最後尾の要素として追加する。

ステップＳ１３４において、反復判定部４４によって、繰り返し回数loop_countをインクリメントする。

ステップＳ１３６において、反復判定部４４によって、上記ステップＳ１０８〜ステップＳ１３４の処理が、Ｎ＋Ｍ回繰り返されたか否かを判定する。上記ステップＳ１０８〜ステップＳ１３４の処理が、Ｎ＋Ｍ回以上繰り返された場合には、ステップＳ１４０へ進む。一方、上記ステップＳ１０８〜ステップＳ１３４の処理が、Ｎ＋Ｍ回未満繰り返された場合には、ステップＳ１３８へ移行する。

ステップＳ１３８において、閾値θ_１と、閾値θ_２とを低減させる。具体的には、θ_１に対し減衰係数ω_１を乗算し、θ_２に減衰係数ω_２を乗算する。ここで、０＜ω_１≦１、０＜ω_２≦１である。

ステップＳ１４０において、対訳辞書生成部５０によって、上記ステップＳ１２６で訳語決定フラグが「Ｔｒｕｅ」とされた属性名類似度テーブルのエントリと、上記ステップＳ１２８で訳語決定フラグが「Ｔｒｕｅ」とされた属性値インスタンス類似度テーブルのエントリとをマージして、対訳辞書を生成する。

ステップＳ１４２において、上記ステップＳ１４０で生成された対訳辞書を結果として出力し、対訳辞書生成処理ルーチンを終了する。

以上説明したように、本実施の形態に係る対訳辞書生成装置によれば、原言語Ｘの記事テンプレート及び目的言語Ｙの記事テンプレートに基づいて、原言語の記事テンプレートに含まれる属性名の集合と、目的言語Ｙの記事テンプレートに含まれる属性名の集合とを抽出すると共に、原言語Ｘの記事テンプレートを用いて記述している記事の集合と、目的言語Ｙの記事テンプレートを用いて記述している記事の集合とを抽出し、原言語Ｘの属性名の集合及び目的言語Ｙの属性名の集合において、原言語Ｘの属性名と目的言語Ｙの属性名とを対応付け、対応付けられた原言語Ｘの属性名に対する属性値の集合、及び対応付けられた目的言語Ｙの属性名に対する属性値の集合において、原言語Ｘの属性値と目的言語Ｙの属性値とを対応付け、対応付けられた属性名の文字列のペアの各々、及び対応付けられた属性値の文字列のペアの各々を、対訳ペアとして格納した対訳辞書を生成することにより、広範囲の部分から抽出された対訳ペアを格納した対訳辞書を生成することができる。

また、記事テンプレートから得られる属性名の言語間対応、及び記事テンプレートを引用する記事から得られる属性値の言語間対応に基づいて対訳辞書を生成するため、言語間で対応付けられた記事のタイトルの対応からの対訳抽出に比べ多くの対訳エントリ（語彙）を抽出することができる。

また、本実施の形態で得られる対訳辞書のエントリは、対訳を抽出するテンプレートと結び付けられており、テンプレートは記述の対象となる実体のタイプ (例:山/mountain) を反映している。この実体のタイプは、対訳の適用領域に関する制約を与える (例:山の「高さ」の訳語は"elevation")ため、対訳の適用可能領域に関する付加情報を含むように、対訳辞書を生成することができる。

また、本実施の形態は、原言語Ｘのテンプレート、目的言語Ｙのテンプレートのペアを入力とするものであるが、対応関係にあることが分かっているテンプレートペアの集合の要素に対して繰り返し実行することにより、より多くの対訳辞書エントリを得ることができる。

また、本実施の形態における原言語Ｘ、目的言語Ｙは特定の言語に限定されたものではないため、他種類の言語ペアにおけるテンプレートペアの集合に適用することにより、２言語間の対訳辞書の集合という形で多言語の対訳辞書を得ることができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、属性名類似度計算部２８では、他の類似度計算方法によって、属性名類似度を計算してもよい。また、属性値インスタンス集合間類似度計算部４０では、他の類似度計算方法によって、属性値インスタンス集合類似度を計算してもよい。

また、内部テーブルデータベース３０は、外部に設けられ、対訳辞書生成装置とネットワークで接続されていてもよい。

上述の対訳辞書生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１入力部
２演算部
３対応付け部
４出力部
５インターネット
２０テンプレート属性集合抽出部
２２テンプレート引用記事集合抽出部
２４文字列翻訳部
２６文字列類似度計算部
２８属性名類似度計算部
３０内部テーブルデータベース
３２属性ＩＤ集合ソート部
３４第１属性値インスタンス集合抽出部
３６対応属性候補抽出部
３８第２属性値インスタンス集合抽出部
４０属性値インスタンス集合間類似度計算部
４２対応付け決定部
４４反復判定部
５０対訳辞書生成部
１００対訳辞書生成装置

Claims

対訳となる第１の言語の文字列と、第２の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置であって、
記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第１の言語の記事テンプレート及び前記第２の言語の記事テンプレートに基づいて、前記第１の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第２の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部と、
前記第１の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第２の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部と、
前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合及び前記第２の言語の属性名の集合において、前記第１の言語の属性名と前記第２の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第１閾値に基づいて、前記第１の言語の属性名と前記第２の言語の属性名とを対応付け、
前記テンプレート引用記事集合抽出部によって抽出された前記第１の言語の記事の集合及び前記第２の言語の記事の集合に基づいて、前記第１の言語の記事の集合から抽出される、前記対応付けられた前記第１の言語の属性名に対する属性値の集合、及び前記第２の言語の記事の集合から抽出される、前記対応付けられた前記第２の言語の属性名に対する属性値の集合において、前記第１の言語の属性値と前記第２の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第２閾値に基づいて、前記第１の言語の属性値と前記第２の言語の属性値とを対応付ける対応付け部と、
前記対応付け部によって対応付けられた前記第１の言語の属性名の文字列と前記第２の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第１の言語の属性値の文字列と前記第２の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部と、を含み、
前記対応付け部は、
前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第１の言語の属性名を、処理対象とし、
前記処理対象の第１の言語の属性名について、前記第２の言語の属性名との対応付けを行い、前記処理対象の第１の言語の属性名の属性値について、前記第２の言語の属性値との対応付けを行うことを、前記処理対象の第１の言語の属性名毎に繰り返し、
前記処理対象の第１の言語の属性名について前記対応付けを行う毎に、前記第１閾値及び前記第２閾値を低減させる対訳辞書生成装置。
前記対応付け部は、
前記テンプレート引用記事集合抽出部によって抽出された前記第１の言語の記事の集合から、前記処理対象の第１の言語の属性名に対する属性値の集合を抽出する第１属性値インスタンス集合抽出部と、
前記テンプレート属性集合抽出部によって抽出された前記第２の言語の属性名の集合から、属性名の類似度に基づいて、前記処理対象の第１の言語の属性名に対応する前記第２の言語の属性名の候補の集合を抽出する対応属性候補抽出部と、
前記第２の言語の属性名の候補の集合に含まれる前記第２の言語の属性名の各々について、前記テンプレート引用記事集合抽出部によって抽出された前記第２の言語の記事の集合から、前記第２の言語の属性名に対する属性値の集合を抽出する第２属性値インスタンス集合抽出部と、
前記第２の言語の属性名の候補の集合に含まれる前記第２の言語の属性名の各々について、前記第２の言語の属性名について前記第２属性値インスタンス集合抽出部によって抽出された前記第２の言語の属性名に対する属性値の集合と、前記第１属性値インスタンス集合抽出部によって抽出された前記処理対象の第１の言語の属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する属性値インスタンス集合間類似度計算部と、
前記第２の言語の属性名の候補の集合に含まれる前記第２の言語の属性名の各々について、前記属性値インスタンス集合間類似度計算部によって計算された属性値インスタンス集合間類似度が、前記第１閾値以上であれば、前記処理対象の第１の言語の属性名と、前記第２の言語の属性名とを対応付け、
前記対応付けられた前記処理対象の第１の言語の属性名及び前記第２の言語の属性名の各々に対する属性値の集合における、前記第１の言語の属性値と前記第２の言語の属性値との各ペアについて、前記ペアの類似度が前記第２閾値以上であれば、前記ペアの前記第１の言語の属性値と前記第２の言語の属性値とを対応付ける対応付け決定部とを含む請求項１に記載の対訳辞書生成装置。
テンプレート属性集合抽出部と、テンプレート引用記事集合抽出部と、対応付け部と、対訳辞書生成部とを含み、対訳となる第１の言語の文字列と、第２の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置における対訳辞書生成方法であって、
前記テンプレート属性集合抽出部によって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第１の言語の記事テンプレート及び前記第２の言語の記事テンプレートに基づいて、前記第１の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第２の言語の記事テンプレートに含まれる属性名の集合を抽出するステップと、
前記テンプレート引用記事集合抽出部によって、前記第１の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第２の言語の記事テンプレートを用いて記述している記事の集合を抽出するステップと、
前記対応付け部によって、前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合及び前記第２の言語の属性名の集合において、前記第１の言語の属性名と前記第２の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第１閾値に基づいて、前記第１の言語の属性名と前記第２の言語の属性名とを対応付け、
前記テンプレート引用記事集合抽出部によって抽出された前記第１の言語の記事の集合及び前記第２の言語の記事の集合に基づいて、前記第１の言語の記事の集合から抽出される、前記対応付けられた前記第１の言語の属性名に対する属性値の集合、及び前記第２の言語の記事の集合から抽出される、前記対応付けられた前記第２の言語の属性名に対する属性値の集合において、前記第１の言語の属性値と前記第２の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第２閾値に基づいて、前記第１の言語の属性値と前記第２の言語の属性値とを対応付けるステップと、
前記対訳辞書生成部によって、前記対応付け部によって対応付けられた前記第１の言語の属性名の文字列と前記第２の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第１の言語の属性値の文字列と前記第２の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成するステップと、を含み、
前記対応付け部が対応付けを行うステップは、
前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第１の言語の属性名を、処理対象とし、
前記処理対象の第１の言語の属性名について、前記第２の言語の属性名との対応付けを行い、前記処理対象の第１の言語の属性名の属性値について、前記第２の言語の属性値との対応付けを行うことを、前記処理対象の第１の言語の属性名毎に繰り返し、
前記処理対象の第１の言語の属性名について前記対応付けを行う毎に、前記第１閾値及び前記第２閾値を低減させる対訳辞書生成方法。
対訳となる第１の言語の文字列と、第２の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成するためのプログラムであって、
コンピュータを、
記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第１の言語の記事テンプレート及び前記第２の言語の記事テンプレートに基づいて、前記第１の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第２の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部、
前記第１の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第２の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部、
前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合及び前記第２の言語の属性名の集合において、前記第１の言語の属性名と前記第２の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第１閾値に基づいて、前記第１の言語の属性名と前記第２の言語の属性名とを対応付け、
前記テンプレート引用記事集合抽出部によって抽出された前記第１の言語の記事の集合及び前記第２の言語の記事の集合に基づいて、前記第１の言語の記事の集合から抽出される、前記対応付けられた前記第１の言語の属性名に対する属性値の集合、及び前記第２の言語の記事の集合から抽出される、前記対応付けられた前記第２の言語の属性名に対する属性値の集合において、前記第１の言語の属性値と前記第２の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第２閾値に基づいて、前記第１の言語の属性値と前記第２の言語の属性値とを対応付ける対応付け部、及び
前記対応付け部によって対応付けられた前記第１の言語の属性名の文字列と前記第２の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第１の言語の属性値の文字列と前記第２の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部
として機能させるためのプログラムであって、
前記対応付け部は、
前記テンプレート属性集合抽出部によって抽出された前記第１の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第１の言語の属性名を、処理対象とし、
前記処理対象の第１の言語の属性名について、前記第２の言語の属性名との対応付けを行い、前記処理対象の第１の言語の属性名の属性値について、前記第２の言語の属性値との対応付けを行うことを、前記処理対象の第１の言語の属性名毎に繰り返し、
前記処理対象の第１の言語の属性名について前記対応付けを行う毎に、前記第１閾値及び前記第２閾値を低減させるプログラム。