JP5995219B2 - 対訳辞書生成装置、方法、及びプログラム - Google Patents

対訳辞書生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP5995219B2
JP5995219B2 JP2013155831A JP2013155831A JP5995219B2 JP 5995219 B2 JP5995219 B2 JP 5995219B2 JP 2013155831 A JP2013155831 A JP 2013155831A JP 2013155831 A JP2013155831 A JP 2013155831A JP 5995219 B2 JP5995219 B2 JP 5995219B2
Authority
JP
Japan
Prior art keywords
language
attribute
template
name
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013155831A
Other languages
English (en)
Other versions
JP2015026281A (ja
Inventor
永田 昌明
昌明 永田
林 良彦
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Osaka University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Osaka University NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013155831A priority Critical patent/JP5995219B2/ja
Publication of JP2015026281A publication Critical patent/JP2015026281A/ja
Application granted granted Critical
Publication of JP5995219B2 publication Critical patent/JP5995219B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、対訳辞書生成装置、方法、及びプログラムに係り、特に、対訳辞書を生成する対訳辞書生成装置、方法、及びプログラムに関する。
Wikipedia(R)を情報源とし、言語間リンクで結ばれた記事ペアのタイトルから対訳関係・辞書を抽出する研究が知られている(非特許文献1、2)。
また、パラレルコーパス、又は、コンパラブルコーパスと呼ばれる異言語のコーパスデータから統計的手法などにより対訳関係・辞書を抽出する研究が知られている(非特許文献3、4)
新井他3名、「Wikipediaを用いた多言語ブログ検索のための訳語抽出」、情報処理学会 第70回全国大会講演論文集5J-4、2008年 佐藤他8名、「Wikipediaを介した関連ニュース・ブログの対応付け」、情報処理学会研究報告 自然言語処理研究会報告 2009-NL-194(10)、2009年 Gamallo,P.、「Extraction of Translation Equivalents from Parallel Corpora Using Sense-sensitive Contexts」、Proc.EAMT2005、2005年、p.97-102 梶他1名「コンパラブルコーパスを用いた訳語選択. 第4回 機械翻訳技術のイノベーション シンポジウム」、2010年、インターネット〈http://www.congre.co.jp/imttsympo/2010/program/pdf/p5_kaji.pdf〉
しかし、上記で示した非特許文献1及び2の従来技術の多くは、予め言語間の対応付けが言語間リンクなどにより明記されている記事のタイトル対から対訳辞書を抽出するものであり、抽出できる対訳の範囲が限定される。
また、非特許文献3及び4の従来技術は、一般のテキスト記述部分から対訳を抽出するため、対訳の適用可能領域に関する付加情報を得ることが困難である。
本発明は、上記の事情を鑑みてなされたもので、広範囲の部分から対訳ペアを抽出した対訳辞書を生成することができる対訳辞書生成装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る対訳辞書生成装置は、対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置であって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部と、前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部と、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け部と、前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部と、を含んで構成されている。
本発明に係る対訳辞書生成方法は、テンプレート属性集合抽出部と、テンプレート引用記事集合抽出部と、対応付け部と、対訳辞書生成部とを含み、対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置における対訳辞書生成方法であって、前記テンプレート属性集合抽出部によって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するステップと、前記テンプレート引用記事集合抽出部によって、前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するステップと、前記対応付け部によって、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付けるステップと、前記対訳辞書生成部によって、前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成するステップと、を含む。
本発明に係るプログラムは、対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成するためのプログラムであって、コンピュータを、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部、
前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け部、及び前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部として機能させるためのプログラムである。
本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付け、前記対訳辞書生成部は、前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、前記ペアについて算出された前記類似度と共に、対訳ペアとして前記対訳辞書に格納するようにすることができる。
また、本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第1閾値に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第2閾値に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付けるようにすることができる。
また、本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第1の言語の属性名を、処理対象とし、前記処理対象の第1の言語の属性名について、前記第2の言語の属性名との対応付けを行い、前記処理対象の第1の言語の属性名の属性値について、前記第2の言語の属性値との対応付けを行うことを、前記処理対象の第1の言語の属性名毎に繰り返し、前記処理対象の第1の言語の属性名について前記対応付けを行う毎に、前記第1閾値及び前記第2閾値を低減させるようにすることができる。
また、本発明に係る前記対応付け部は、前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合から、前記処理対象の第1の言語の属性名に対する属性値の集合を抽出する第1属性値インスタンス集合抽出部と、前記テンプレート属性集合抽出部によって抽出された前記第2の言語の属性名の集合から、属性名の類似度に基づいて、前記処理対象の第1の言語の属性名に対応する前記第2の言語の属性名の候補の集合を抽出する対応属性候補抽出部と、前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記テンプレート引用記事集合抽出部によって抽出された前記第2の言語の記事の集合から、前記第2の言語の属性名に対する属性値の集合を抽出する第2属性値インスタンス集合抽出部と、前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記第2の言語の属性名について前記第2属性値インスタンス集合抽出部によって抽出された前記第2の言語の属性名に対する属性値の集合と、前記第1属性値インスタンス集合抽出部によって抽出された前記処理対象の第1の言語の属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する属性値インスタンス集合間類似度計算部と、前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記属性値インスタンス集合間類似度計算部によって計算された属性値インスタンス集合間類似度が、前記第1閾値以上であれば、前記処理対象の第1の言語の属性名と、前記第2の言語の属性名とを対応付け、前記対応付けられた前記処理対象の第1の言語の属性名及び前記第2の言語の属性名の各々に対する属性値の集合における、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペア類似度が前記第2閾値以上であれば、前記ペアの前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け決定部とを含むようにすることができる。
以上説明したように、本発明の対訳辞書生成装置、方法、及びプログラムによれば、第1の言語の記事テンプレート及び第2の言語の記事テンプレートに基づいて、第1の言語の記事テンプレートに含まれる属性名の集合と、第2の言語の記事テンプレートに含まれる属性名の集合とを抽出すると共に、第1の言語の記事テンプレートを用いて記述している記事の集合と、第2の言語の記事テンプレートを用いて記述している記事の集合とを抽出し、第1の言語の属性名の集合及び第2の言語の属性名の集合において、第1の言語の属性名と第2の言語の属性名とを対応付け、対応付けられた第1の言語の属性名に対する属性値の集合、及び対応付けられた第2の言語の属性名に対する属性値の集合において、第1の言語の属性値と第2の言語の属性値とを対応付け、対応付けられた第1の言語の属性名の文字列と第2の言語の属性名の文字列とのペアの各々、及び対応付けられた第1の言語の属性値の文字列と第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した対訳辞書を生成することにより、広範囲の部分から対訳ペアを抽出した対訳辞書を生成することができる、という効果が得られる。
本発明の実施の形態が対象とする情報構造の概念図を示す図である。 本発明の実施の形態に係る対訳辞書生成装置の構成を示す概略図である。 本発明の実施の形態に係る対訳辞書生成装置における対訳辞書生成処理ルーチンの前半部分の内容を示すフローチャートである。 本発明の実施の形態に係る対訳辞書生成装置における対訳辞書生成処理ルーチンの後半部分の内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<概要>
あるタイプτの実体に関して、そのタイプを持つ実体群に対する属性・属性値記述を行うために、言語ごとに、予め準備されている記事テンプレートを具体化することにより、ある具体的な実体εに対する記事が様々な言語により記述されているとき、当該のタイプτに対して準備されている原言語Xの記事テンプレートID:S、目的言語Yの記事テンプレートID:Tを入力とし、これらの記事テンプレートから属性名の言語間対応付けを行い、さらに、これらの記事テンプレートIDにより指定されるテンプレートを引用している記事群から属性値の言語間対応付けを行うことにより、この対応付け情報から対訳辞書を抽出する。
ここで、記事テンプレートとは、特定のタイプτ(例:山/mountain)の実体(例:富士山/Mt.Fuji)を記述するために予め定義された枠組みである。記事テンプレートには、対象とする言語においてタイプτの実体を記述するための属性の名称(属性名)(例:名称、標高、name、altitude)が提示されている。与えられた記事テンプレートIDで指定される記事テンプレートのソースコードは、別途手段により取得・解析でき、従って、上述の属性名を容易に抽出することができる。しかし、同じタイプについての記事テンプレートであっても、当該記事テンプレートは言語毎に作成されており、言語毎の記事テンプレートに含まれる属性名は、必ずしも対訳とはなっていない。
本実施の形態が対象とする情報構造を説明する概念図を図1に示す。
あるタイプの実体を記述する記事は、その実体のタイプを反映した記事テンプレートを引用することにより記述される。記事テンプレートには、当該のタイプの実体を記述するための属性が列挙されている。また、各記事には、記事が対象とする実体に対して、各属性に対する情報を与える属性値が記述されている。
本実施の形態の方法によれば、上記図1の例においては、属性名の対応から「名称:name」、「高さ:elevation」などの対訳が抽出でき、属性値の対応から「富士山:Mt.Fuji, 3,776m:12,388ft」などの対訳を抽出することができる。
<システム構成>
本発明の第1の実施の形態に係る対訳辞書生成装置100は、原言語(第1の言語)の文字列(単語)と、目的言語(第2の言語)の文字列(単語)との対訳辞書を生成する。この対訳辞書生成装置100は、CPUと、RAMと、後述する対訳辞書生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図2に示すように、対訳辞書生成装置100は、入力部1と、演算部2と、出力部4とを備えている。
入力部1は、記述対象の実体のタイプが対応している原言語Xの記事テンプレートID:Sと、目的言語Yの記事テンプレートID:Tとのペアの入力を受け付ける。なお、原言語Xの記事テンプレートID:Sと、目的言語Yの記事テンプレートID:Tとは、記述対象の実体のタイプが同一であるとは限らない。例えば、原言語Xの記事テンプレートID:Sのタイプが、目的言語Yの記事テンプレートID:Tのタイプを包含している場合であってもよい。
演算部2は、入力部1により受け付けた原言語Xの記事テンプレートID:Sと、目的言語Yの記事テンプレートID:Tとに基づいて、原言語Xと目的言語Yとの対訳となる文字列ペアを格納した対訳辞書を生成する。
演算部2は、対応付け部3と、テンプレート属性集合抽出部20と、テンプレート引用記事集合抽出部22と、文字列翻訳部24と、文字列類似度計算部26と、属性名類似度計算部28と、対訳辞書生成部50と、を備えている。
テンプレート属性集合抽出部20は、入力部1により受け付けた原言語Xの記事テンプレートID及び目的言語Yの記事テンプレートIDに基づいて、原言語の記事テンプレートに含まれる属性名の集合を抽出し、目的言語の記事テンプレートに含まれる属性名の集合を抽出する。
具体的には、テンプレート属性集合抽出部20は、入力部1により受け付けた記事テンプレートIDの記事テンプレートのソースコードをインターネット5を介して取得・解析し、当該記事テンプレートに含まれる属性名のそれぞれに対し属性IDを付与し、これら属性IDの集合を抽出する。ここで、属性IDとは、同じ意味を持つ属性を表す属性名の集合(例:{名称、名前、通称})を識別するためのIDである。すなわち、例えば、属性名の集合{名称、名前、通称}に対して、同じ属性IDが付与される。なお、属性名が同じ意味を持つか否かは、従来既知の同義語の判定技術を用いればよいため、説明を省略する。
また、テンプレート属性集合抽出部20は、この過程において、属性IDと属性名文字列集合の対応関係を保持する内部テーブルである属性IDテーブルを生成し、後述する内部テーブルデータベース30に格納する。なお、テンプレート属性集合抽出部20は、入力部1により受け付けた記事テンプレートID:Sに対する属性ID集合αと、記事テンプレートID:Tに対する属性ID集合βとを抽出する。ここで、属性ID集合α={α,α,・・・,α}であり、属性ID集合β={β,β,・・・}である。
テンプレート引用記事集合抽出部22は、入力部1により受け付けた原言語Xの記事テンプレートIDの記事テンプレートを用いて記述している記事の集合を抽出し、入力部1により受け付けた目的言語Yの記事テンプレートIDの記事テンプレートを用いて記述している記事の集合を抽出する。
具体的には、テンプレート引用記事集合抽出部22は、入力部1により受け付けた記事テンプレートIDに基づいて、当該記事テンプレートIDに対応する記事テンプレートを引用している記事群を求め、これらの記事の記事ID集合を抽出する。ここで、各記事は記事IDを持つ。各記事には、それが引用する記事テンプレートの記事テンプレートIDが明記されているものとする。このため、例えば、処理対象の記事群に対してテンプレートIDをキーとする検索を行うことにより、指定された記事テンプレートを引用する記事群の記事ID集合を抽出することができる。
文字列翻訳部24は、指定された原言語Xの文字列を、指定された目的言語Yの文字列へと翻訳する。文字列翻訳部24は、既存技術・サービスの利用(インターネット1<http://translate.google.co.jp/?hl=ja&tab=wT>、インターネット2<http://langrid.org/tools/toolbox/>等を参照) により実現できるため、本実施の形態でその詳細は説明しない。
文字列類似度計算部26は、指定された文字列1、文字列2の間の類似度を計算する。文字列類似度計算部26の詳細は説明しないが、例えば、編集距離 (Edit distance) (例えば、インターネット<http://en.wikipedia.org/wiki/Edit_distance>を参照)、あるいは、Jaro-Winkler distance(例えば、インターネット<http://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance>を参照)などの既知の技術を用いることで実現できる。
属性名類似度計算部28は、原言語Xの属性名と目的言語Yの属性名との類似度を計算する。ここで、属性名類似度とは、以下の2つの文字列の間の言語横断的類似度を表す数値である。
(1)原言語Xにおいて、ある属性IDにより表される属性名集合の要素である属性名文字列
(2)目的言語Yにおいて、ある属性IDにより表される属性名集合に要素である属性名文字列
具体的には、属性名類似度計算部28は、原言語Xの属性ID:a、目的言語Yの属性ID:b(bは、後述する対応属性候補抽出部36によって選択された属性ID集合βの各要素β)を入力とし、それぞれの属性IDに属する属性名集合の間の類似度を計算する。本実施の形態では、以下のように属性名類似度を計算する。
原言語Xの属性ID:aに対応する属性名文字列集合の要素である各属性名文字列に対して、文字列翻訳部24によって目的言語Yの文字列に翻訳し、目的言語Yに翻訳された属性文字列集合aを得る。そして、属性IDテーブルより求める属性ID:aに対応する属性名文字列集合a’と目的言語Yに翻訳された属性文字列集合aとの和集合を求める。ここで、和集合を求めるので空集合にはならない。和集合を求めるのは、原言語の文字列が目的言語においてもそのまま用いられるケースを想定するためである。この和集合の要素と、目的言語Yにおける属性ID:bに対して属性IDテーブルより求める属性文字列集合b’の各要素との全ての組み合わせに対して、文字列類似度計算部26によって当該組み合わせの文字列の類似度を算出する。そして、全ての組み合わせに対して求められた類似度のうちの最大類似度を、属性ID:aと属性ID:bに対する属性名類似度とする。
対応付け部3は、テンプレート属性集合抽出部20によって抽出された原言語Xの属性ID集合α及び目的言語Yの属性ID集合βにおいて、原言語Xの属性名と目的言語Yの属性名とを対応付けると共に、テンプレート引用記事集合抽出部22によって抽出された原言語Xの記事の集合及び目的言語Yの記事の集合に基づいて、原言語Xの記事の集合から抽出される、対応付けられた原言語Xの属性名に対する属性値の集合、及び目的言語Yの記事の集合から抽出される、対応付けられた目的言語Yの属性名に対する属性値の集合において、原言語Xの属性値と目的言語Yの属性値とを対応付ける。
また、対応付け部3は、内部テーブルデータベース30と、属性ID集合ソート部32と、第1属性値インスタンス集合抽出部34と、対応属性候補抽出部36と、第2属性値インスタンス集合抽出部38と、属性値インスタンス集合間類似度計算部40と、対応付け決定部42と、反復判定部44とを備えている。
内部テーブルデータベース30には、テンプレート属性集合抽出部20によって生成された属性IDテーブルが格納される。また、内部テーブルデータベース30には、属性名類似度テーブルと、属性値インスタンス類似度テーブルとが格納される。ここで、属性IDテーブルは、
<属性ID、属性名文字列集合>
の2つ組の情報で構成されている。また、属性名類似度テーブルは、
<原言語Xの属性ID、目的言語Yの属性ID、原言語Xの属性名文字列、目的言語Yの属性名文字列、属性名類似度、訳語決定フラグ>
の6つ組の情報で構成されている。訳語決定フラグとは、原言語Xの属性IDの属性名文字列と、原言語Yの属性IDの属性名とを訳語ペアとするか否かを決定するためのものであり、訳語ペアと決定する場合には「True」、訳語ペアでないと決定する場合には「False」と表示される。
また、属性値インスタンス類似度テーブルは、
<原言語Xの属性ID、目的言語Yの属性ID、原言語Xの記事ID、目的言語Yの記事ID、原言語Xの属性値文字列、目的言語Yの属性値文字列、属性値類似度、訳語決定フラグ>
の8つ組の情報で構成されている。
また、属性値類似度とは、以下の2つの文字列の間の言語横断的類似度を表す数値である。
(1)原言語Xにおいてある属性IDにより表される属性名集合のいずれかの属性名に対して、ある記事において現れる属性値文字列
(2)目的言語Yにおいてある属性IDにより表される属性名集合のいずれかの属性名に対して、ある記事において現れる属性値文字列
属性ID集合ソート部32は、テンプレート属性集合抽出部20によって抽出された属性ID集合αに対して、属性ID集合αの要素(={α,α,・・・,α})を、属性IDの優先度の降順にソートし、結果として得られるソート済の属性ID集合αを改めて生成する。本実施の形態では、属性IDの優先度に関する基準の詳細について説明しないが、例えば、当該属性IDに対応する属性を含む記事数に応じて、優先度を定めることが考えられる。
第1属性値インスタンス集合抽出部34は、テンプレート引用記事集合抽出部22によって抽出された原言語Xの記事の集合から、処理対象の原言語Xの属性名に対する属性値の集合を抽出する。
具体的には、第1属性値インスタンス集合抽出部34は、テンプレート引用記事集合抽出部22によって生成された目的言語Xの記事ID集合の各記事から、記事IDと、処理対象の原言語Xの属性名の属性値文字列とのペアの集合である属性値インスタンス集合V={v1,v2,・・・}を抽出する。より詳細には、第1属性値インスタンス集合抽出部34は、インターネット5を介して、記事のソースコードを取得・解析し、指定された属性IDにより表される属性が当該記事に含まれるとき、その属性に対して与えられている属性値文字列と当該記事IDのペアを抽出する。
対応属性候補抽出部36は、テンプレート属性集合抽出部20によって抽出された目的言語Yの属性名の集合から、属性名の類似度に基づいて、処理対象の原言語Xの属性名に対応する目的言語Yの属性名の候補の集合を抽出する。
具体的には、対応属性候補抽出部36は、属性ID集合ソート部32によって生成された属性ID集合のうち先頭に位置する原言語Xの属性ID:aと、テンプレート属性集合抽出部20によって抽出された目的言語Yの属性ID集合βとに基づいて、属性ID集合βの要素({β,β,・・・})の中から、属性ID:aの言語間対応付けの候補となる要素を選択し、これらの対応付け候補から構成されている属性ID集合β'(={β’,β’,・・・})を抽出する。例えば、対応属性候補抽出部36は、属性名類似度計算部28を用いて、属性ID:aと属性ID集合βの各要素βとの属性名類似度を計算し、当該属性名類似度が予め定められた閾値θより大きい要素βを、対応付け候補として選択する。さらに、得られた属性名類似度を、属性ID:a、属性ID:β、原言語X、目的言語Yの属性名文字列ともに内部テーブルデータベース30に格納されている属性名類似度テーブルに記録する。なお、訳語決定フラグの値はFalseに設定する。
第2属性値インスタンス集合抽出部38は、目的言語Yの属性名の候補の集合に含まれる目的言語Yの属性名の各々について、テンプレート引用記事集合抽出部22によって抽出された目的言語Yの記事の集合から、当該目的言語Yの属性名に対する属性値の集合を抽出する。
具体的には、第2属性値インスタンス集合抽出部38は、第1属性値インスタンス集合抽出部34と同様に、テンプレート引用記事集合抽出部22によって生成された目的言語Yの記事ID集合の各記事から、記事IDと、当該目的言語Yの属性名に対する属性値文字列とのペアの集合である属性値インスタンス集合W={w,w,・・・}を抽出する。
属性値インスタンス集合間類似度計算部40は、目的言語Yの属性名の候補の集合に含まれる目的言語Yの属性名の各々について、当該目的言語Yの属性名について第2属性値インスタンス集合抽出部38によって抽出された目的言語Yの属性名に対する属性値の集合と、第1属性値インスタンス集合抽出部34によって抽出された処理対象の原言語Xの属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する。
ここで、具体的には、属性値インスタンス集合間類似度とは以下の2つの集合の間の言語横断的類似度を表す数値である。
(1)原言語Xにおいてある属性IDにより表される属性に対する属性値として現れた文字列(以下、属性値文字列と称する)の集合
(2)目的言語Yにおいてある属性IDにより表される属性に対する属性値文字列の集合
具体的には、属性値インスタンス集合間類似度計算部40は、原言語Xおよび目的言語Yの属性ID:a、β’、および、原言語X、目的言語Yの属性値インスタンス集合v、wを入力とし、これらの属性値インスタンス集合間の類似度を計算する。本実施の形態では、以下のように属性値インスタンス集合類似度を計算する。
まず、原言語Xの属性値インスタンス集合vの各要素における属性値文字列に対して、文字列翻訳部24により、目的言語Yに翻訳された属性値文字列集合vを得る。目的言語Yに翻訳された属性値文字列集合vと原言語Xの属性値インスタンス集合vに対応する属性値文字列集合v’との和集合を求める。なお、和集合を求めるので空集合にはならない。和集合を求めるのは、原言語の文字列が目的言語においてもそのまま用いられるケースを想定するためである。この和集合の各要素と、属性値インスタンス集合wの各要素の属性値文字列の集合w’の各要素との全ての組み合わせに対して、文字列類似度計算部26によって、当該組み合わせの文字列の類似度を算出する。この過程において、内部テーブルである属性値インスタンス類似度テーブルに、原言語Xの属性ID:a、目的言語Yの属性ID:β’i、原言語Xの記事ID、目的言語Yの記事ID、原言語Xの属性値文字列、目的言語Yの属性値文字列、および、得られた文字列類似度を属性値類似度として記録しておく。なお、訳語決定フラグの値はFalseに設定する。
ここで、全ての組み合わせではなく、互いに言語間リンクで参照されている記事に存在する組み合わせのみに限定して、文字列類似度を算出することにより、より強い制約を課し、確度の高い対応付けに限定することも可能である。ここで、原言語X、目的言語Yの記事ペアが互いに言語間リンクで参照されているか否かは、それぞれの言語の記事IDをもとに別途判定できるものとする。
全ての組み合わせに対して求められた類似度のうちの最大の属性値類似度を、属性値インスタンス集合vと属性値インスタンス集合wに対する属性値インスタンス集合間類似度とする。
対応付け決定部42は、目的言語Yの属性名の候補の集合に含まれる目的言語の属性名の各々について、属性値インスタンス集合間類似度計算部40によって計算された属性値インスタンス集合間類似度が、閾値θ以上であれば、処理対象の原言語Xの属性名と、目的言語Yの属性名とを対応付けることを決定し、属性名類似度テーブルにおける該当するエントリの訳語決定フラグをTrueに変更する。また、対応付けられた処理対象の原言語Xの属性名及び目的言語の属性名の各々に対する属性値の集合の間での、原言語の属性値と目的言語の属性値との各ペアについて、当該ペアの属性値類似度が閾値θ以上であれば、当該ペアの原言語の属性値と目的言語の属性値とを対応付けることを決定し、属性値インスタンス類似度テーブルにおける該当するエントリの訳語決定フラグをTrueに変更する。
反復判定部44は、予め設定した対応付け条件緩和に関する閾値Nと、原言語XのID集合αの要素数Mとの和を繰り返し回数として設定し、対応付け部3の処理が、N+M回繰り返されたか否かを判定する。対応付け部3の処理が、N+M回繰り返されていないと判定すると、閾値θ及び閾値θを各々低減してから、対応付け部3の処理を繰り返す。
対訳辞書生成部50は、対応付け部3によって対応付けられた原言語の属性名の文字列と目的言語の属性名の文字列とのペアの各々、及び対応付けられた原言語の属性値の文字列と目的言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した対訳辞書を生成する。
具体的には、対訳辞書生成部50は、対応付け部3の各処理で得られ、内部テーブルデータベース30に格納された属性名類似度テーブル、及び属性値インスタンス類似度テーブルの各々のエントリのうち、訳語決定フラグがTrueとなっているエントリを、以下の7つ組の集合である対訳辞書テーブルの形式に変換し、これらを統合(マージ)することにより、対訳辞書を生成する。
<原言語XのテンプレートID (= S)、原言語Xの属性ID、原言語Xの文字列、目的言語YのテンプレートID(=T)、目的言語Yの属性ID、目的言語Yの文字列、訳語対応度>
より詳細には、対訳辞書生成部50は、以下の処理によって対訳辞書を生成する。
(1)属性名類似度テーブルを対訳辞書形式に変換
属性名類似度テーブルにおけるエントリの中で訳語決定フラグがTrueとなっているエントリを抽出し、当該のエントリにおける原言語X、目的言語Yの属性IDをそれぞれ対訳辞書テーブルの原言語X、目的言語Yの属性にコピーする。また、原言語X、目的言語Yの属性名文字列をそれぞれ対訳辞書の言語X、Yの文字列にコピーする。さらに、属性名類似度を対訳辞書テーブルの訳語対応度にコピーする。
(2)属性値インスタンス類似度テーブルを対訳辞書形式に変換
属性値インスタンス類似度テーブルの中で訳語決定フラグがTrueとなっているエントリを抽出し、当該のエントリにおける原言語X、目的言語Yの属性IDをそれぞれ対訳辞書の原言語X、目的言語Yの属性にコピーする。また、原言語X、目的言語Yの属性値文字列をそれぞれ対訳辞書の原言語X、目的言語Yの文字列にコピーする。さらに、属性値類似度を対訳辞書の訳語対応度にコピーする。
出力部4は、対訳辞書生成部50によって生成された対訳辞書を結果として出力する。
<対訳辞書生成装置の作用>
次に、本実施の形態に係る対訳辞書生成装置100の作用について説明する。まず、記述対象の実体のタイプが対応している原言語Xの記事テンプレートIDと、目的言語Yの記事テンプレートIDとのペアが、対訳辞書生成装置100に入力されると、対訳辞書生成装置100によって、図3に示す対訳辞書生成処理ルーチンが実行される。
まず、ステップS100において、入力部1によって、原言語Xの記事テンプレートIDと、目的言語Yの記事テンプレートIDとのペアを受け付ける。
次に、ステップS102において、テンプレート属性集合抽出部20によって、上記ステップS100で受け付けた原言語Xの記事テンプレートIDの記事テンプレート、及び目的言語Yの記事テンプレートIDの記事テンプレートに基づいて、原言語Xの記事テンプレートに含まれる属性ID集合αを抽出し、目的言語Yの記事テンプレートに含まれる属性ID集合βを抽出する。
ステップS104において、属性ID集合ソート部32によって、上記ステップS102で抽出された属性ID集合αに対して、属性ID集合αの要素である属性IDの優先度の降順にソートし、結果として得られるソート済の属性ID集合αを改めて生成する。
ステップS106において、繰り返し回数loop_countに0を代入する。
ステップS108において、上記ステップS104で生成されたソート済みの属性ID集合αのうち、先頭の属性ID:aを抽出して、処理対象として設定し、属性ID集合αから先頭の属性ID:aを除いたものを、改めて属性ID集合αとする。
ステップS110において、テンプレート引用記事集合抽出部22によって、入力された原言語Xの記事テンプレートIDの記事テンプレートを用いて記述している記事の集合を抽出し、入力された目的言語Yの記事テンプレートDIの記事テンプレートを用いて記述している記事の集合を抽出する。
ステップS112において、処理対象の属性ID:aに対して、第1属性値インスタンス集合抽出部34によって、上記ステップS110で抽出された原言語Xの記事の集合から、処理対象の原言語Xの属性に対する属性値インスタンス集合V={v1,v2,・・・}を抽出する。
ステップS113において、属性名類似度計算部28によって、処理対象の属性ID:aの属性名と、上記ステップS102で抽出された属性ID集合βの各要素βとの間の属性名類似度を各々算出する。
ステップS114において、対応属性候補抽出部36によって、上記ステップS102で抽出された属性ID集合βから、上記ステップS113で算出された属性名類似度に基づいて、処理対象の原言語Xの属性名に対応する属性名候補の集合β'={β’,β’,・・・}を抽出する。
ステップS116において、第2属性値インスタンス集合抽出部38によって、上記ステップS114で抽出された、対応する属性名候補の集合β'={β’,β’,・・・}のうちの要素β’iについて、上記ステップS110で抽出された目的言語Yの記事の集合から、当該要素β’iの属性名に対する目的言語Yの属性値インスタンス集合W={w,w,・・・}を抽出する。
ステップS118において、属性値インスタンス集合間類似度計算部40によって、上記ステップS116で抽出された目的言語Yの属性値インスタンス集合W={w,w,・・・}と、上記ステップS112で抽出された処理対象の原言語Xの属性に対する属性値インスタンス集合V={v1,v2,・・・}との間の類似度である属性値インスタンス集合間類似度simを計算する。
ステップS119において、上記ステップS114で抽出された、対応する属性名候補の集合β'={β’,β’,・・・}に含まれる全ての要素について、上記ステップS116、S118の処理を実行したか否かを判定する。上記ステップS116、S118の処理を実行していない要素β’iが存在する場合には、上記ステップS116へ戻り、当該β’iについて上記ステップS116、S118の処理を実行する。一方、対応する属性名候補の集合β'={β’,β’,・・・}に含まれる全ての要素について上記ステップS116,S118の処理を実行した場合には、ステップS120へ移行する。
ステップS120において、上記ステップS118で算出された属性値インスタンス集合間類似度simのうち、最大の属性値インスタンス集合間類似度simを与える要素β’を、β*とする。
ステップS122において、上記ステップS118で算出された属性値インスタンス集合間類似度simのうち、最大の属性値インスタンス集合間類似度simをsim*と設定する。
ステップS124において、上記ステップS122で設定されたsim*が、予め定められた閾値θよりも大きいか否かを判定する。そして、sim*が、閾値θよりも大きい場合には、処理対象の属性ID:aの属性名と、上記ステップS120で得られた属性ID:β*の属性名とを対応付けることを決定し、ステップS126へ移行する。一方、sim*が、閾値θ以下の場合には、ステップS132へ移行する。
ステップS126において、対応付け決定部42によって、内部テーブルデータベース30に格納されている属性名類似度テーブルにおいて、原言語Xの属性IDが処理対象の属性ID:aと一致し、目的言語Yの属性IDが、上記ステップS120で得られた属性ID:β*と一致するエントリについて、訳語決定フラグをTrueに変更する。
ステップS128において、対応付け決定部42によって、内部テーブルデータベース30に格納されている属性値インスタンス類似度テーブルにおいて、原言語Xの属性IDが処理対象の属性ID:aと一致し、目的言語Yの属性IDが、上記ステップS120で得られた属性ID:β*と一致するエントリのうちで、属性値類似度が、閾値θより大きいエントリの各々について、訳語決定フラグをTrueに変更する。
ステップS130において、上記ステップS102で抽出された集合βから、上記ステップS120で得られたβ*を除いたものを、改めて集合βとする。
ステップS132において、処理対象の属性ID:aを、集合αの最後尾の要素として追加する。
ステップS134において、反復判定部44によって、繰り返し回数loop_countをインクリメントする。
ステップS136において、反復判定部44によって、上記ステップS108〜ステップS134の処理が、N+M回繰り返されたか否かを判定する。上記ステップS108〜ステップS134の処理が、N+M回以上繰り返された場合には、ステップS140へ進む。一方、上記ステップS108〜ステップS134の処理が、N+M回未満繰り返された場合には、ステップS138へ移行する。
ステップS138において、閾値θと、閾値θとを低減させる。具体的には、θに対し減衰係数ωを乗算し、θに減衰係数ωを乗算する。ここで、0<ω≦1、0<ω≦1である。
ステップS140において、対訳辞書生成部50によって、上記ステップS126で訳語決定フラグが「True」とされた属性名類似度テーブルのエントリと、上記ステップS128で訳語決定フラグが「True」とされた属性値インスタンス類似度テーブルのエントリとをマージして、対訳辞書を生成する。
ステップS142において、上記ステップS140で生成された対訳辞書を結果として出力し、対訳辞書生成処理ルーチンを終了する。
以上説明したように、本実施の形態に係る対訳辞書生成装置によれば、原言語Xの記事テンプレート及び目的言語Yの記事テンプレートに基づいて、原言語の記事テンプレートに含まれる属性名の集合と、目的言語Yの記事テンプレートに含まれる属性名の集合とを抽出すると共に、原言語Xの記事テンプレートを用いて記述している記事の集合と、目的言語Yの記事テンプレートを用いて記述している記事の集合とを抽出し、原言語Xの属性名の集合及び目的言語Yの属性名の集合において、原言語Xの属性名と目的言語Yの属性名とを対応付け、対応付けられた原言語Xの属性名に対する属性値の集合、及び対応付けられた目的言語Yの属性名に対する属性値の集合において、原言語Xの属性値と目的言語Yの属性値とを対応付け、対応付けられた属性名の文字列のペアの各々、及び対応付けられた属性値の文字列のペアの各々を、対訳ペアとして格納した対訳辞書を生成することにより、広範囲の部分から抽出された対訳ペアを格納した対訳辞書を生成することができる。
また、記事テンプレートから得られる属性名の言語間対応、及び記事テンプレートを引用する記事から得られる属性値の言語間対応に基づいて対訳辞書を生成するため、言語間で対応付けられた記事のタイトルの対応からの対訳抽出に比べ多くの対訳エントリ(語彙)を抽出することができる。
また、本実施の形態で得られる対訳辞書のエントリは、対訳を抽出するテンプレートと結び付けられており、テンプレートは記述の対象となる実体のタイプ (例:山/mountain) を反映している。この実体のタイプは、対訳の適用領域に関する制約を与える (例:山の「高さ」の訳語は"elevation")ため、対訳の適用可能領域に関する付加情報を含むように、対訳辞書を生成することができる。
また、本実施の形態は、原言語Xのテンプレート、目的言語Yのテンプレートのペアを入力とするものであるが、対応関係にあることが分かっているテンプレートペアの集合の要素に対して繰り返し実行することにより、より多くの対訳辞書エントリを得ることができる。
また、本実施の形態における原言語X、目的言語Yは特定の言語に限定されたものではないため、他種類の言語ペアにおけるテンプレートペアの集合に適用することにより、2言語間の対訳辞書の集合という形で多言語の対訳辞書を得ることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、属性名類似度計算部28では、他の類似度計算方法によって、属性名類似度を計算してもよい。また、属性値インスタンス集合間類似度計算部40では、他の類似度計算方法によって、属性値インスタンス集合類似度を計算してもよい。
また、内部テーブルデータベース30は、外部に設けられ、対訳辞書生成装置とネットワークで接続されていてもよい。
上述の対訳辞書生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 入力部
2 演算部
3 対応付け部
4 出力部
5 インターネット
20 テンプレート属性集合抽出部
22 テンプレート引用記事集合抽出部
24 文字列翻訳部
26 文字列類似度計算部
28 属性名類似度計算部
30 内部テーブルデータベース
32 属性ID集合ソート部
34 第1属性値インスタンス集合抽出部
36 対応属性候補抽出部
38 第2属性値インスタンス集合抽出部
40 属性値インスタンス集合間類似度計算部
42 対応付け決定部
44 反復判定部
50 対訳辞書生成部
100 対訳辞書生成装置

Claims (4)

  1. 対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置であって、
    記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部と、
    前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部と、
    前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第1閾値に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、
    前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第2閾値に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け部と、
    前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部と、を含み、
    前記対応付け部は、
    前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第1の言語の属性名を、処理対象とし、
    前記処理対象の第1の言語の属性名について、前記第2の言語の属性名との対応付けを行い、前記処理対象の第1の言語の属性名の属性値について、前記第2の言語の属性値との対応付けを行うことを、前記処理対象の第1の言語の属性名毎に繰り返し、
    前記処理対象の第1の言語の属性名について前記対応付けを行う毎に、前記第1閾値及び前記第2閾値を低減させる対訳辞書生成装置。
  2. 前記対応付け部は、
    前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合から、前記処理対象の第1の言語の属性名に対する属性値の集合を抽出する第1属性値インスタンス集合抽出部と、
    前記テンプレート属性集合抽出部によって抽出された前記第2の言語の属性名の集合から、属性名の類似度に基づいて、前記処理対象の第1の言語の属性名に対応する前記第2の言語の属性名の候補の集合を抽出する対応属性候補抽出部と、
    前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記テンプレート引用記事集合抽出部によって抽出された前記第2の言語の記事の集合から、前記第2の言語の属性名に対する属性値の集合を抽出する第2属性値インスタンス集合抽出部と、
    前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記第2の言語の属性名について前記第2属性値インスタンス集合抽出部によって抽出された前記第2の言語の属性名に対する属性値の集合と、前記第1属性値インスタンス集合抽出部によって抽出された前記処理対象の第1の言語の属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する属性値インスタンス集合間類似度計算部と、
    前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記属性値インスタンス集合間類似度計算部によって計算された属性値インスタンス集合間類似度が、前記第1閾値以上であれば、前記処理対象の第1の言語の属性名と、前記第2の言語の属性名とを対応付け、
    前記対応付けられた前記処理対象の第1の言語の属性名及び前記第2の言語の属性名の各々に対する属性値の集合における、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペア類似度が前記第2閾値以上であれば、前記ペアの前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け決定部とを含む請求項1に記載の対訳辞書生成装置。
  3. テンプレート属性集合抽出部と、テンプレート引用記事集合抽出部と、対応付け部と、対訳辞書生成部とを含み、対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置における対訳辞書生成方法であって、
    前記テンプレート属性集合抽出部によって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するステップと、
    前記テンプレート引用記事集合抽出部によって、前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するステップと、
    前記対応付け部によって、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第1閾値に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、
    前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第2閾値に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付けるステップと、
    前記対訳辞書生成部によって、前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成するステップと、を含み、
    前記対応付け部が対応付けを行うステップは、
    前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第1の言語の属性名を、処理対象とし、
    前記処理対象の第1の言語の属性名について、前記第2の言語の属性名との対応付けを行い、前記処理対象の第1の言語の属性名の属性値について、前記第2の言語の属性値との対応付けを行うことを、前記処理対象の第1の言語の属性名毎に繰り返し、
    前記処理対象の第1の言語の属性名について前記対応付けを行う毎に、前記第1閾値及び前記第2閾値を低減させる対訳辞書生成方法。
  4. 対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成するためのプログラムであって、
    コンピュータを、
    記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部、
    前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部、
    前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第1閾値に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、
    前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第2閾値に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け部、及び
    前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部
    として機能させるためのプログラムであって、
    前記対応付け部は、
    前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第1の言語の属性名を、処理対象とし、
    前記処理対象の第1の言語の属性名について、前記第2の言語の属性名との対応付けを行い、前記処理対象の第1の言語の属性名の属性値について、前記第2の言語の属性値との対応付けを行うことを、前記処理対象の第1の言語の属性名毎に繰り返し、
    前記処理対象の第1の言語の属性名について前記対応付けを行う毎に、前記第1閾値及び前記第2閾値を低減させるプログラム
JP2013155831A 2013-07-26 2013-07-26 対訳辞書生成装置、方法、及びプログラム Active JP5995219B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013155831A JP5995219B2 (ja) 2013-07-26 2013-07-26 対訳辞書生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013155831A JP5995219B2 (ja) 2013-07-26 2013-07-26 対訳辞書生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015026281A JP2015026281A (ja) 2015-02-05
JP5995219B2 true JP5995219B2 (ja) 2016-09-21

Family

ID=52490874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013155831A Active JP5995219B2 (ja) 2013-07-26 2013-07-26 対訳辞書生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5995219B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5317061B2 (ja) * 2009-07-30 2013-10-16 独立行政法人情報通信研究機構 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。

Also Published As

Publication number Publication date
JP2015026281A (ja) 2015-02-05

Similar Documents

Publication Publication Date Title
CN100511215C (zh) 多语种翻译存储器和翻译方法
JP5661813B2 (ja) セマンティックオブジェクトの特徴付けおよび検索
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2010225135A (ja) 多義性解消方法とそのシステム
CN111353306A (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
JPWO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
US7593844B1 (en) Document translation systems and methods employing translation memories
Baraka et al. Arabic text author identification using support vector machines
JP2010182238A (ja) 引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
US20140358522A1 (en) Information search apparatus and information search method
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Kumar et al. An Efficient Approach to Query Reformulation in Web Search
WO2017146889A1 (en) Systematic mass normalization of international titles
JP5995219B2 (ja) 対訳辞書生成装置、方法、及びプログラム
Yosef et al. AIDArabic A Named-Entity Disambiguation Framework for Arabic Text
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008129662A (ja) 情報抽出装置、情報抽出方法、情報抽出プログラム
Kasthuri et al. An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering
Gupta et al. A new approach towards bibliographic reference identification, parsing and inline citation matching
JP6461832B2 (ja) オラクル要約探索装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160816

R150 Certificate of patent or registration of utility model

Ref document number: 5995219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250