JP2015026281A - Bilingual dictionary generation device, method and program - Google Patents

Bilingual dictionary generation device, method and program Download PDF

Info

Publication number
JP2015026281A
JP2015026281A JP2013155831A JP2013155831A JP2015026281A JP 2015026281 A JP2015026281 A JP 2015026281A JP 2013155831 A JP2013155831 A JP 2013155831A JP 2013155831 A JP2013155831 A JP 2013155831A JP 2015026281 A JP2015026281 A JP 2015026281A
Authority
JP
Japan
Prior art keywords
language
attribute
template
article
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013155831A
Other languages
Japanese (ja)
Other versions
JP5995219B2 (en
Inventor
永田 昌明
Masaaki Nagata
昌明 永田
林 良彦
Yoshihiko Hayashi
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Osaka University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Osaka University NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013155831A priority Critical patent/JP5995219B2/en
Publication of JP2015026281A publication Critical patent/JP2015026281A/en
Application granted granted Critical
Publication of JP5995219B2 publication Critical patent/JP5995219B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a bilingual dictionary intended for a wide range of vocabularies.SOLUTION: A template attribute set extraction section 20 extracts a set of attribute names included in an article template of a first language, and extracts a set of attribute names included in an article template of a second language. A template quotation article set extraction section 22 extracts a set of articles described by using the article template of the first language, and extracts a set of articles described by using the article template of the second language. An association section 3 associates the attribute names of the first language with the attribute names of the second language, and associates an attribute value of the first language with an attribute value of the second language. A bilingual dictionary generation section 50 generates respective pairs of character strings of attribute names of the first language and character strings of attribute names of the second language which are associated, and respective pairs of character strings of attribute values of the first language and character strings of attribute values of the second language which are associated as a bilingual pair.

Description

本発明は、対訳辞書生成装置、方法、及びプログラムに係り、特に、対訳辞書を生成する対訳辞書生成装置、方法、及びプログラムに関する。   The present invention relates to a bilingual dictionary generation device, method, and program, and more particularly, to a bilingual dictionary generation device, method, and program for generating a bilingual dictionary.

Wikipedia(R)を情報源とし、言語間リンクで結ばれた記事ペアのタイトルから対訳関係・辞書を抽出する研究が知られている(非特許文献1、2)。   There are known studies that extract bilingual relations and dictionaries from the titles of article pairs linked by interlingual links using Wikipedia (R) as an information source (Non-Patent Documents 1 and 2).

また、パラレルコーパス、又は、コンパラブルコーパスと呼ばれる異言語のコーパスデータから統計的手法などにより対訳関係・辞書を抽出する研究が知られている(非特許文献3、4)   In addition, there is a known research for extracting a bilingual relationship / dictionary from a corpus data of a different language called a parallel corpus or comparable corpus by a statistical method or the like (Non-Patent Documents 3 and 4).

新井他3名、「Wikipediaを用いた多言語ブログ検索のための訳語抽出」、情報処理学会 第70回全国大会講演論文集5J-4、2008年Arai and three others, “Translation Extraction for Multilingual Blog Search Using Wikipedia”, Proc. 5J-4, 70th Annual Conference of Information Processing Society of Japan, 2008 佐藤他8名、「Wikipediaを介した関連ニュース・ブログの対応付け」、情報処理学会研究報告 自然言語処理研究会報告 2009-NL-194(10)、2009年Eight Sato et al., “Association of related news and blogs via Wikipedia”, IPSJ Research Report Natural Language Processing Study Group 2009-NL-194 (10), 2009 Gamallo,P.、「Extraction of Translation Equivalents from Parallel Corpora Using Sense-sensitive Contexts」、Proc.EAMT2005、2005年、p.97-102Gamallo, P., `` Extraction of Translation Equivalents from Parallel Corpora Using Sense-sensitive Contexts '', Proc.EAMT2005, 2005, p.97-102 梶他1名「コンパラブルコーパスを用いた訳語選択. 第4回 機械翻訳技術のイノベーション シンポジウム」、2010年、インターネット〈http://www.congre.co.jp/imttsympo/2010/program/pdf/p5_kaji.pdf〉梶 One other person, "Translation selection using comparable corpus. 4th Machine Translation Technology Innovation Symposium", 2010, Internet <http://www.congre.co.jp/imttsympo/2010/program/pdf/ p5_kaji.pdf>

しかし、上記で示した非特許文献1及び2の従来技術の多くは、予め言語間の対応付けが言語間リンクなどにより明記されている記事のタイトル対から対訳辞書を抽出するものであり、抽出できる対訳の範囲が限定される。   However, many of the prior arts of Non-Patent Documents 1 and 2 shown above extract a bilingual dictionary from a title pair of an article in which correspondence between languages is specified in advance by an inter-language link or the like. The range of possible translations is limited.

また、非特許文献3及び4の従来技術は、一般のテキスト記述部分から対訳を抽出するため、対訳の適用可能領域に関する付加情報を得ることが困難である。   Further, since the conventional techniques of Non-Patent Documents 3 and 4 extract the parallel translation from the general text description portion, it is difficult to obtain additional information regarding the applicable area of the parallel translation.

本発明は、上記の事情を鑑みてなされたもので、広範囲の部分から対訳ペアを抽出した対訳辞書を生成することができる対訳辞書生成装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a bilingual dictionary generating apparatus, method, and program capable of generating a bilingual dictionary in which bilingual pairs are extracted from a wide range of parts.

上記の目的を達成するために本発明に係る対訳辞書生成装置は、対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置であって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部と、前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部と、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け部と、前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部と、を含んで構成されている。   In order to achieve the above object, a bilingual dictionary generating apparatus according to the present invention includes a bilingual dictionary storing a bilingual pair that is a combination of a character string of a first language and a character string of a second language. A bilingual dictionary generating device for generating an article template in which attribute names related to the entity are listed for describing an article about the entity to be described, and corresponding to the type of the entity to be described Based on the article template in the first language and the article template in the second language, a set of attribute names included in the article template in the first language is extracted and included in the article template in the second language. A template attribute set extraction unit for extracting a set of attribute names and a set of articles described using the article template in the first language are extracted, and the article in the second language is extracted. A template-cited article set extraction unit that extracts a set of articles described using a template, a set of attribute names of the first language extracted by the template attribute set extraction unit, and a second language In the set of attribute names, the attribute name of the first language is associated with the attribute name of the second language, the set of articles in the first language extracted by the template-cited article set extraction unit, and the A set of attribute values for the attribute name of the associated first language extracted from the set of articles in the first language based on a set of articles in the second language; and the second The attribute value of the first language is associated with the attribute value of the second language in the attribute value set for the attribute name of the associated second language extracted from the set of articles in the language versus A pair of an attribute name character string of the first language and a character string of the attribute name of the second language associated by the associating unit, and the first language associated with the first language A bilingual dictionary generating unit that generates the bilingual dictionary storing each pair of the attribute value character string of the second language and the attribute value character string of the second language as a bilingual pair. Yes.

本発明に係る対訳辞書生成方法は、テンプレート属性集合抽出部と、テンプレート引用記事集合抽出部と、対応付け部と、対訳辞書生成部とを含み、対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置における対訳辞書生成方法であって、前記テンプレート属性集合抽出部によって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するステップと、前記テンプレート引用記事集合抽出部によって、前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するステップと、前記対応付け部によって、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付けるステップと、前記対訳辞書生成部によって、前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成するステップと、を含む。 A bilingual dictionary generating method according to the present invention includes a template attribute set extracting unit, a template cited article set extracting unit, an associating unit, and a bilingual dictionary generating unit. A bilingual dictionary generating method in a bilingual dictionary generating device for generating a bilingual dictionary storing bilingual pairs that are combinations with character strings in a second language, wherein the template attribute set extracting unit reports articles about entities to be described. Is an article template in which attribute names related to the entity are listed, and the article template of the first language and the article template of the second language corresponding to the type of the entity to be described are included in the article template. Based on this, a set of attribute names included in the article template of the first language is extracted, and the attributes included in the article template of the second language are extracted. Extracting a set of articles, and extracting a set of articles described using the article template of the first language by the template-cited article set extraction unit, and using the article template of the second language A step of extracting a set of described articles, and a set of attribute names of the first language and a set of attribute names of the second language extracted by the template attribute set extraction unit by the association unit The set of articles in the first language and the second language extracted by the template-cited article set extraction unit in association with the attribute name of the first language and the attribute name of the second language A set of attribute values for the associated attribute name of the first language, extracted from the set of articles in the first language based on the set of articles In the set of attribute values for the attribute name of the associated second language extracted from the set of articles in the language, the attribute value of the first language and the attribute value of the second language are A step of associating with each of a pair of a character string of the attribute name of the first language and a character string of the attribute name of the second language associated by the correspondence unit by the bilingual dictionary generation unit; and Generating the bilingual dictionary storing each pair of the character string of the attribute value of the associated first language and the character string of the attribute value of the second language as a bilingual pair. .

本発明に係るプログラムは、対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成するためのプログラムであって、コンピュータを、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部、
前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け部、及び前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部として機能させるためのプログラムである。
A program according to the present invention is a program for generating a bilingual dictionary storing a bilingual pair that is a combination of a character string in a first language and a character string in a second language, which is a bilingual translation. An article template in which attribute names related to the entity are listed for describing an article about the entity to be described, the article template in the first language corresponding to the type of the entity to be described, and the A template attribute for extracting a set of attribute names included in the first language article template and extracting a set of attribute names included in the second language article template based on the second language article template Set extraction unit,
A template-cited article set extraction unit that extracts a set of articles described using the article template of the first language and extracts a set of articles described using the article template of the second language; In the set of attribute names of the first language and the set of attribute names of the second language extracted by the template attribute set extraction unit, the attribute names of the first language and the attribute names of the second language Are extracted from the set of articles in the first language based on the set of articles in the first language and the set of articles in the second language extracted by the template-cited article set extraction unit. The attribute name of the associated second language extracted from the set of attribute values for the attribute name of the associated first language and the set of articles of the second language In In the attribute value set, the association unit associating the attribute value of the first language and the attribute value of the second language, and the attribute name of the first language associated by the association unit Each of a pair of a character string and a character string of the attribute name of the second language, and an associated character string of the attribute value of the first language and a character string of the attribute value of the second language It is a program for causing each pair to function as a bilingual dictionary generation unit that generates the bilingual dictionary stored as a bilingual pair.

本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付け、前記対訳辞書生成部は、前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、前記ペアについて算出された前記類似度と共に、対訳ペアとして前記対訳辞書に格納するようにすることができる。   The association unit according to the present invention is characterized in that the attribute of the first language in the set of attribute names of the first language and the set of attribute names of the second language extracted by the template attribute set extraction unit. For each pair of a name and an attribute name of the second language, the similarity of the pair is calculated, and based on the similarity calculated for each pair, the attribute name of the first language and the second A set of attribute values for the associated attribute name of the first language, extracted from the set of articles in the first language, and the attribute name of the second language For each pair of attribute value of the first language and attribute value of the second language in the attribute value set for the associated attribute name of the second language extracted from the set of articles , Calculate the similarity of the pair, The attribute value of the first language and the attribute value of the second language are associated with each other based on the similarity calculated, and the bilingual dictionary generation unit is associated with the association unit Each of the character string of the attribute name of the first language and the character string of the attribute name of the second language, and the character string of the attribute value of the first language and the second language associated with each other Each pair of the attribute value and the character string may be stored in the bilingual dictionary as a bilingual pair together with the similarity calculated for the pair.

また、本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第1閾値に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第2閾値に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付けるようにすることができる。   Further, the association unit according to the present invention includes: the first language in the set of attribute names in the first language and the set of attribute names in the second language extracted by the template attribute set extraction unit. For each pair of the attribute name and the attribute name of the second language, the pair similarity is calculated, and based on the similarity calculated for each pair and a predetermined first threshold, An attribute value for the associated attribute name of the first language extracted from the set of articles of the first language by associating the attribute name of the first language with the attribute name of the second language And a set of attribute values for the associated attribute name of the second language extracted from the set of articles in the second language and the attribute value of the first language and the second For each pair with a language attribute value of The pair similarity is calculated, and the attribute value of the first language is associated with the attribute value of the second language based on the similarity calculated for each pair and a predetermined second threshold value. Can be.

また、本発明に係る前記対応付け部は、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第1の言語の属性名を、処理対象とし、前記処理対象の第1の言語の属性名について、前記第2の言語の属性名との対応付けを行い、前記処理対象の第1の言語の属性名の属性値について、前記第2の言語の属性値との対応付けを行うことを、前記処理対象の第1の言語の属性名毎に繰り返し、前記処理対象の第1の言語の属性名について前記対応付けを行う毎に、前記第1閾値及び前記第2閾値を低減させるようにすることができる。   Further, the associating unit according to the present invention is configured so that the attribute names included in the attribute name set of the first language extracted by the template attribute set extracting unit are in the predetermined order in the first order. The attribute name of the first language is the processing target, the attribute name of the first language to be processed is associated with the attribute name of the second language, and the attribute name of the first language to be processed The attribute value of the second language is repeatedly associated with the attribute value of the second language for each attribute name of the first language to be processed, and the attribute name of the first language to be processed is Each time the association is performed, the first threshold value and the second threshold value can be reduced.

また、本発明に係る前記対応付け部は、前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合から、前記処理対象の第1の言語の属性名に対する属性値の集合を抽出する第1属性値インスタンス集合抽出部と、前記テンプレート属性集合抽出部によって抽出された前記第2の言語の属性名の集合から、属性名の類似度に基づいて、前記処理対象の第1の言語の属性名に対応する前記第2の言語の属性名の候補の集合を抽出する対応属性候補抽出部と、前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記第2の言語前記テンプレート引用記事集合抽出部によって抽出された前記第2の言語の記事の集合から、前記第2の言語の属性名に対する属性値の集合を抽出する第2属性値インスタンス集合抽出部と、前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記第2の言語の属性名について前記第2属性値インスタンス集合抽出部によって抽出された前記第2の言語の属性名に対する属性値の集合と、前記第1属性値インスタンス集合抽出部によって抽出された前記処理対象の第1の言語の属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する属性値インスタンス集合間類似度計算部と、前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記属性値インスタンス集合間類似度計算部によって計算された属性値インスタンス集合間類似度が、前記第1閾値以上であれば、前記処理対象の第1の言語の属性名と、前記第2の言語の属性名とを対応付け、前記対応付けられた前記処理対象の第1の言語の属性名及び前記第2の言語の属性名の各々に対する属性値の集合における、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペア類似度が前記第2閾値以上であれば、前記ペアの前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け決定部とを含むようにすることができる。   Further, the association unit according to the present invention includes a set of attribute values for the attribute name of the first language to be processed from the set of articles in the first language extracted by the template cited article set extraction unit. A first attribute value instance set extracting unit for extracting the first attribute value instance set, and a set of attribute names in the second language extracted by the template attribute set extracting unit based on the similarity of the attribute names. A corresponding attribute candidate extraction unit that extracts a set of attribute name candidates of the second language corresponding to attribute names of the second language, and the second language included in the set of candidate attribute names of the second language For each attribute name, a set of attribute values for the attribute name of the second language is extracted from the set of articles in the second language extracted by the template-cited article set extraction unit in the second language. A second attribute value instance set extraction unit; and for each attribute name of the second language included in the set of candidate attribute names of the second language, the second attribute value for the attribute name of the second language A set of attribute values for the attribute name of the second language extracted by the instance set extraction unit, and an attribute value for the attribute name of the first language to be processed extracted by the first attribute value instance set extraction unit An attribute value instance set similarity calculation unit that calculates a similarity between attribute value instance sets that is a similarity between the second language attribute set and the second language attribute name candidate set. For each language attribute name, if the similarity between attribute value instance sets calculated by the attribute value instance set similarity calculation unit is greater than or equal to the first threshold, the processing target The attribute name of the first language and the attribute name of the second language are associated with each other, and the associated attribute name of the first language and the attribute name of the second language are associated with each other. For each pair of the attribute value of the first language and the attribute value of the second language in the set of attribute values, if the pair similarity is not less than the second threshold value, the first of the pair An association determining unit that associates the attribute value of the language with the attribute value of the second language can be included.

以上説明したように、本発明の対訳辞書生成装置、方法、及びプログラムによれば、第1の言語の記事テンプレート及び第2の言語の記事テンプレートに基づいて、第1の言語の記事テンプレートに含まれる属性名の集合と、第2の言語の記事テンプレートに含まれる属性名の集合とを抽出すると共に、第1の言語の記事テンプレートを用いて記述している記事の集合と、第2の言語の記事テンプレートを用いて記述している記事の集合とを抽出し、第1の言語の属性名の集合及び第2の言語の属性名の集合において、第1の言語の属性名と第2の言語の属性名とを対応付け、対応付けられた第1の言語の属性名に対する属性値の集合、及び対応付けられた第2の言語の属性名に対する属性値の集合において、第1の言語の属性値と第2の言語の属性値とを対応付け、対応付けられた第1の言語の属性名の文字列と第2の言語の属性名の文字列とのペアの各々、及び対応付けられた第1の言語の属性値の文字列と第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した対訳辞書を生成することにより、広範囲の部分から対訳ペアを抽出した対訳辞書を生成することができる、という効果が得られる。   As described above, according to the bilingual dictionary generation device, method, and program of the present invention, the bilingual dictionary generating device includes the first language article template based on the first language article template and the second language article template. A set of attribute names and a set of attribute names included in the article template of the second language, a set of articles described using the article template of the first language, and the second language The set of articles described using the article template is extracted, and the attribute name of the first language and the second set of attribute names of the first language and the set of attribute names of the second language are extracted. In the set of attribute values for the attribute name of the associated first language and the set of attribute values for the attribute name of the associated second language, Attribute value and second word Each of the pair of the attribute name character string of the first language and the character string of the attribute name of the second language, and the attribute of the first language associated with each other Generating a bilingual dictionary in which bilingual pairs are extracted from a wide range by generating bilingual dictionaries in which each pair of a value string and a second language attribute value string is stored as a bilingual pair The effect of being able to be obtained.

本発明の実施の形態が対象とする情報構造の概念図を示す図である。It is a figure which shows the conceptual diagram of the information structure which embodiment of this invention makes object. 本発明の実施の形態に係る対訳辞書生成装置の構成を示す概略図である。It is the schematic which shows the structure of the bilingual dictionary production | generation apparatus concerning embodiment of this invention. 本発明の実施の形態に係る対訳辞書生成装置における対訳辞書生成処理ルーチンの前半部分の内容を示すフローチャートである。It is a flowchart which shows the content of the first half part of the bilingual dictionary production | generation processing routine in the bilingual dictionary production | generation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る対訳辞書生成装置における対訳辞書生成処理ルーチンの後半部分の内容を示すフローチャートである。It is a flowchart which shows the content of the second half part of the bilingual dictionary production | generation processing routine in the bilingual dictionary production | generation apparatus which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<概要>
あるタイプτの実体に関して、そのタイプを持つ実体群に対する属性・属性値記述を行うために、言語ごとに、予め準備されている記事テンプレートを具体化することにより、ある具体的な実体εに対する記事が様々な言語により記述されているとき、当該のタイプτに対して準備されている原言語Xの記事テンプレートID:S、目的言語Yの記事テンプレートID:Tを入力とし、これらの記事テンプレートから属性名の言語間対応付けを行い、さらに、これらの記事テンプレートIDにより指定されるテンプレートを引用している記事群から属性値の言語間対応付けを行うことにより、この対応付け情報から対訳辞書を抽出する。
<Overview>
For an entity of a certain type τ, in order to describe attributes and attribute values for entities with that type, an article template prepared in advance for each language is used to create an article for a specific entity ε. Is described in various languages, article template ID: S of source language X and article template ID: T of target language Y prepared for the type τ are input, and from these article templates Correspondence between attribute names is performed, and further, by correlating attribute values from the article group that cites the template specified by these article template IDs, the bilingual dictionary is obtained from the correspondence information. Extract.

ここで、記事テンプレートとは、特定のタイプτ(例:山/mountain)の実体(例:富士山/Mt.Fuji)を記述するために予め定義された枠組みである。記事テンプレートには、対象とする言語においてタイプτの実体を記述するための属性の名称(属性名)(例:名称、標高、name、altitude)が提示されている。与えられた記事テンプレートIDで指定される記事テンプレートのソースコードは、別途手段により取得・解析でき、従って、上述の属性名を容易に抽出することができる。しかし、同じタイプについての記事テンプレートであっても、当該記事テンプレートは言語毎に作成されており、言語毎の記事テンプレートに含まれる属性名は、必ずしも対訳とはなっていない。   Here, the article template is a framework defined in advance for describing an entity (eg, Mt. Fuji / Mt. Fuji) of a specific type τ (eg, mountain / mountain). In the article template, an attribute name (attribute name) (for example, name, altitude, name, altitude) for describing an entity of type τ in the target language is presented. The source code of the article template specified by the given article template ID can be acquired / analyzed by a separate means, and thus the above attribute name can be easily extracted. However, even for article templates of the same type, the article template is created for each language, and attribute names included in the article template for each language are not necessarily translated.

本実施の形態が対象とする情報構造を説明する概念図を図1に示す。
あるタイプの実体を記述する記事は、その実体のタイプを反映した記事テンプレートを引用することにより記述される。記事テンプレートには、当該のタイプの実体を記述するための属性が列挙されている。また、各記事には、記事が対象とする実体に対して、各属性に対する情報を与える属性値が記述されている。
FIG. 1 is a conceptual diagram illustrating the information structure targeted by this embodiment.
An article that describes a type of entity is described by quoting an article template that reflects that type of entity. The article template lists attributes for describing an entity of the type. Also, each article describes an attribute value that gives information on each attribute for the entity targeted by the article.

本実施の形態の方法によれば、上記図1の例においては、属性名の対応から「名称:name」、「高さ:elevation」などの対訳が抽出でき、属性値の対応から「富士山:Mt.Fuji, 3,776m:12,388ft」などの対訳を抽出することができる。   According to the method of the present embodiment, in the example of FIG. 1 above, parallel translations such as “name: name” and “height: elevation” can be extracted from the correspondence of attribute names, and “Mt. Fuji: Mt.Fuji, 3,776m: 12,388ft "can be extracted.

<システム構成>
本発明の第1の実施の形態に係る対訳辞書生成装置100は、原言語(第1の言語)の文字列(単語)と、目的言語(第2の言語)の文字列(単語)との対訳辞書を生成する。この対訳辞書生成装置100は、CPUと、RAMと、後述する対訳辞書生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図2に示すように、対訳辞書生成装置100は、入力部1と、演算部2と、出力部4とを備えている。
<System configuration>
The bilingual dictionary generation device 100 according to the first exemplary embodiment of the present invention includes a character string (word) in a source language (first language) and a character string (word) in a target language (second language). Create a bilingual dictionary. This bilingual dictionary generation device 100 is constituted by a computer including a CPU, a RAM, and a ROM storing a program for executing a bilingual dictionary generation processing routine to be described later, and functionally configured as shown below. Has been. As shown in FIG. 2, the bilingual dictionary generation device 100 includes an input unit 1, a calculation unit 2, and an output unit 4.

入力部1は、記述対象の実体のタイプが対応している原言語Xの記事テンプレートID:Sと、目的言語Yの記事テンプレートID:Tとのペアの入力を受け付ける。なお、原言語Xの記事テンプレートID:Sと、目的言語Yの記事テンプレートID:Tとは、記述対象の実体のタイプが同一であるとは限らない。例えば、原言語Xの記事テンプレートID:Sのタイプが、目的言語Yの記事テンプレートID:Tのタイプを包含している場合であってもよい。   The input unit 1 accepts an input of a pair of an article template ID: S of the source language X and an article template ID: T of the target language Y corresponding to the type of entity to be described. Note that the article template ID: S of the source language X and the article template ID: T of the target language Y do not necessarily have the same type of entity to be described. For example, the type of article template ID: S in the source language X may include the type of article template ID: T in the target language Y.

演算部2は、入力部1により受け付けた原言語Xの記事テンプレートID:Sと、目的言語Yの記事テンプレートID:Tとに基づいて、原言語Xと目的言語Yとの対訳となる文字列ペアを格納した対訳辞書を生成する。   The calculation unit 2 is a character string that is a translation of the source language X and the target language Y based on the article template ID: S of the source language X received by the input unit 1 and the article template ID: T of the target language Y. A bilingual dictionary storing pairs is generated.

演算部2は、対応付け部3と、テンプレート属性集合抽出部20と、テンプレート引用記事集合抽出部22と、文字列翻訳部24と、文字列類似度計算部26と、属性名類似度計算部28と、対訳辞書生成部50と、を備えている。   The calculation unit 2 includes an association unit 3, a template attribute set extraction unit 20, a template cited article set extraction unit 22, a character string translation unit 24, a character string similarity calculation unit 26, and an attribute name similarity calculation unit. 28 and a bilingual dictionary generation unit 50.

テンプレート属性集合抽出部20は、入力部1により受け付けた原言語Xの記事テンプレートID及び目的言語Yの記事テンプレートIDに基づいて、原言語の記事テンプレートに含まれる属性名の集合を抽出し、目的言語の記事テンプレートに含まれる属性名の集合を抽出する。
具体的には、テンプレート属性集合抽出部20は、入力部1により受け付けた記事テンプレートIDの記事テンプレートのソースコードをインターネット5を介して取得・解析し、当該記事テンプレートに含まれる属性名のそれぞれに対し属性IDを付与し、これら属性IDの集合を抽出する。ここで、属性IDとは、同じ意味を持つ属性を表す属性名の集合(例:{名称、名前、通称})を識別するためのIDである。すなわち、例えば、属性名の集合{名称、名前、通称}に対して、同じ属性IDが付与される。なお、属性名が同じ意味を持つか否かは、従来既知の同義語の判定技術を用いればよいため、説明を省略する。
また、テンプレート属性集合抽出部20は、この過程において、属性IDと属性名文字列集合の対応関係を保持する内部テーブルである属性IDテーブルを生成し、後述する内部テーブルデータベース30に格納する。なお、テンプレート属性集合抽出部20は、入力部1により受け付けた記事テンプレートID:Sに対する属性ID集合αと、記事テンプレートID:Tに対する属性ID集合βとを抽出する。ここで、属性ID集合α={α,α,・・・,α}であり、属性ID集合β={β,β,・・・}である。
The template attribute set extraction unit 20 extracts a set of attribute names included in the source language article template based on the source language X article template ID and the target language Y article template ID received by the input unit 1. Extract a set of attribute names included in a language article template.
Specifically, the template attribute set extraction unit 20 acquires / analyzes the source code of the article template with the article template ID received by the input unit 1 via the Internet 5, and sets each attribute name included in the article template. An attribute ID is assigned to the attribute ID, and a set of these attribute IDs is extracted. Here, the attribute ID is an ID for identifying a set of attribute names (eg, {name, name, common name}) representing attributes having the same meaning. That is, for example, the same attribute ID is assigned to a set of attribute names {name, name, common name}. Whether or not the attribute names have the same meaning may be determined by using a conventionally known synonym determination technique, and thus the description thereof is omitted.
Further, in this process, the template attribute set extraction unit 20 generates an attribute ID table that is an internal table that holds the correspondence between the attribute ID and the attribute name character string set, and stores the attribute ID table in an internal table database 30 described later. The template attribute set extraction unit 20 extracts the attribute ID set α for the article template ID: S received by the input unit 1 and the attribute ID set β for the article template ID: T. Here, the attribute ID set α = {α 1 , α 2 ,..., Α M }, and the attribute ID set β = {β 1 , β 2 ,.

テンプレート引用記事集合抽出部22は、入力部1により受け付けた原言語Xの記事テンプレートIDの記事テンプレートを用いて記述している記事の集合を抽出し、入力部1により受け付けた目的言語Yの記事テンプレートIDの記事テンプレートを用いて記述している記事の集合を抽出する。
具体的には、テンプレート引用記事集合抽出部22は、入力部1により受け付けた記事テンプレートIDに基づいて、当該記事テンプレートIDに対応する記事テンプレートを引用している記事群を求め、これらの記事の記事ID集合を抽出する。ここで、各記事は記事IDを持つ。各記事には、それが引用する記事テンプレートの記事テンプレートIDが明記されているものとする。このため、例えば、処理対象の記事群に対してテンプレートIDをキーとする検索を行うことにより、指定された記事テンプレートを引用する記事群の記事ID集合を抽出することができる。
The template-cited article set extraction unit 22 extracts a set of articles described using the article template with the article template ID of the source language X received by the input unit 1 and the article of the target language Y received by the input unit 1 A set of articles described using an article template with a template ID is extracted.
Specifically, based on the article template ID received by the input unit 1, the template cited article set extraction unit 22 obtains a group of articles quoting the article template corresponding to the article template ID, and the articles An article ID set is extracted. Here, each article has an article ID. It is assumed that the article template ID of the article template that it cites is specified in each article. Therefore, for example, by performing a search using the template ID as a key for the article group to be processed, it is possible to extract the article ID set of the article group that cites the designated article template.

文字列翻訳部24は、指定された原言語Xの文字列を、指定された目的言語Yの文字列へと翻訳する。文字列翻訳部24は、既存技術・サービスの利用(インターネット1<http://translate.google.co.jp/?hl=ja&tab=wT>、インターネット2<http://langrid.org/tools/toolbox/>等を参照) により実現できるため、本実施の形態でその詳細は説明しない。   The character string translation unit 24 translates the designated source language X character string into the designated target language Y character string. The string translation unit 24 uses existing technologies and services (Internet 1 <http://translate.google.co.jp/?hl=en&tab=wT>, Internet 2 <http://langrid.org/tools/ (See toolbox /> etc.), and details thereof will not be described in this embodiment.

文字列類似度計算部26は、指定された文字列1、文字列2の間の類似度を計算する。文字列類似度計算部26の詳細は説明しないが、例えば、編集距離 (Edit distance) (例えば、インターネット<http://en.wikipedia.org/wiki/Edit_distance>を参照)、あるいは、Jaro-Winkler distance(例えば、インターネット<http://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance>を参照)などの既知の技術を用いることで実現できる。   The character string similarity calculation unit 26 calculates the similarity between the designated character string 1 and character string 2. Details of the character string similarity calculation unit 26 will not be described. For example, an edit distance (see, for example, the Internet <http://en.wikipedia.org/wiki/Edit_distance>) or Jaro-Winkler This can be realized by using a known technique such as distance (see, for example, the Internet <http://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance>).

属性名類似度計算部28は、原言語Xの属性名と目的言語Yの属性名との類似度を計算する。ここで、属性名類似度とは、以下の2つの文字列の間の言語横断的類似度を表す数値である。   The attribute name similarity calculation unit 28 calculates the similarity between the attribute name of the source language X and the attribute name of the target language Y. Here, the attribute name similarity is a numerical value representing the cross-language similarity between the following two character strings.

(1)原言語Xにおいて、ある属性IDにより表される属性名集合の要素である属性名文字列
(2)目的言語Yにおいて、ある属性IDにより表される属性名集合に要素である属性名文字列
(1) An attribute name character string that is an element of an attribute name set represented by a certain attribute ID in source language X. (2) An attribute name that is an element in an attribute name set represented by a certain attribute ID in target language Y. String

具体的には、属性名類似度計算部28は、原言語Xの属性ID:a、目的言語Yの属性ID:b(bは、後述する対応属性候補抽出部36によって選択された属性ID集合βの各要素β)を入力とし、それぞれの属性IDに属する属性名集合の間の類似度を計算する。本実施の形態では、以下のように属性名類似度を計算する。 More specifically, the attribute name similarity calculation unit 28 determines the attribute ID set a selected by the corresponding attribute candidate extraction unit 36 (to be described later). Each element β i ) of β is input, and the similarity between attribute name sets belonging to each attribute ID is calculated. In the present embodiment, the attribute name similarity is calculated as follows.

原言語Xの属性ID:aに対応する属性名文字列集合の要素である各属性名文字列に対して、文字列翻訳部24によって目的言語Yの文字列に翻訳し、目的言語Yに翻訳された属性文字列集合aを得る。そして、属性IDテーブルより求める属性ID:aに対応する属性名文字列集合a’と目的言語Yに翻訳された属性文字列集合aとの和集合を求める。ここで、和集合を求めるので空集合にはならない。和集合を求めるのは、原言語の文字列が目的言語においてもそのまま用いられるケースを想定するためである。この和集合の要素と、目的言語Yにおける属性ID:bに対して属性IDテーブルより求める属性文字列集合b’の各要素との全ての組み合わせに対して、文字列類似度計算部26によって当該組み合わせの文字列の類似度を算出する。そして、全ての組み合わせに対して求められた類似度のうちの最大類似度を、属性ID:aと属性ID:bに対する属性名類似度とする。 Each attribute name character string that is an element of the attribute name character string set corresponding to the attribute ID: a of the source language X is translated into a character string of the target language Y by the character string translation unit 24 and translated into the target language Y get the attribute string set a T. The attribute ID obtained from the attribute ID table: seek the union of the attribute string set a T in which the attribute name string set a 'correspondence has been translated into the target language Y in a. Here, since the union is obtained, it is not an empty set. The reason for obtaining the union is to assume a case where the source language character string is used as it is in the target language. For all combinations of the elements of this union and each element of the attribute character string set b ′ obtained from the attribute ID table for the attribute ID: b in the target language Y, the character string similarity calculating unit 26 The similarity of the character string of the combination is calculated. Then, the maximum similarity among the similarities obtained for all combinations is set as the attribute name similarity for the attribute ID: a and the attribute ID: b.

対応付け部3は、テンプレート属性集合抽出部20によって抽出された原言語Xの属性ID集合α及び目的言語Yの属性ID集合βにおいて、原言語Xの属性名と目的言語Yの属性名とを対応付けると共に、テンプレート引用記事集合抽出部22によって抽出された原言語Xの記事の集合及び目的言語Yの記事の集合に基づいて、原言語Xの記事の集合から抽出される、対応付けられた原言語Xの属性名に対する属性値の集合、及び目的言語Yの記事の集合から抽出される、対応付けられた目的言語Yの属性名に対する属性値の集合において、原言語Xの属性値と目的言語Yの属性値とを対応付ける。
また、対応付け部3は、内部テーブルデータベース30と、属性ID集合ソート部32と、第1属性値インスタンス集合抽出部34と、対応属性候補抽出部36と、第2属性値インスタンス集合抽出部38と、属性値インスタンス集合間類似度計算部40と、対応付け決定部42と、反復判定部44とを備えている。
In the attribute ID set α of the source language X and the attribute ID set β of the target language Y extracted by the template attribute set extracting unit 20, the associating unit 3 determines the attribute name of the source language X and the attribute name of the target language Y. Corresponding source data is extracted from the source language X article set based on the source language X article set and the target language Y article set extracted by the template-cited article set extraction unit 22. In the set of attribute values for the attribute name of the target language Y extracted from the set of attribute values for the attribute name of language X and the set of articles of the target language Y, the attribute value of the source language X and the target language Corresponds to the Y attribute value.
In addition, the associating unit 3 includes an internal table database 30, an attribute ID set sorting unit 32, a first attribute value instance set extracting unit 34, a corresponding attribute candidate extracting unit 36, and a second attribute value instance set extracting unit 38. And an attribute value instance set similarity calculation unit 40, an association determination unit 42, and an iterative determination unit 44.

内部テーブルデータベース30には、テンプレート属性集合抽出部20によって生成された属性IDテーブルが格納される。また、内部テーブルデータベース30には、属性名類似度テーブルと、属性値インスタンス類似度テーブルとが格納される。ここで、属性IDテーブルは、   The internal table database 30 stores an attribute ID table generated by the template attribute set extraction unit 20. The internal table database 30 stores an attribute name similarity table and an attribute value instance similarity table. Here, the attribute ID table is

<属性ID、属性名文字列集合> <Attribute ID, attribute name string set>

の2つ組の情報で構成されている。また、属性名類似度テーブルは、 It consists of two sets of information. The attribute name similarity table

<原言語Xの属性ID、目的言語Yの属性ID、原言語Xの属性名文字列、目的言語Yの属性名文字列、属性名類似度、訳語決定フラグ> <Attribute ID of source language X, attribute ID of target language Y, attribute name character string of source language X, attribute name character string of target language Y, attribute name similarity, translation determination flag>

の6つ組の情報で構成されている。訳語決定フラグとは、原言語Xの属性IDの属性名文字列と、原言語Yの属性IDの属性名とを訳語ペアとするか否かを決定するためのものであり、訳語ペアと決定する場合には「True」、訳語ペアでないと決定する場合には「False」と表示される。 It consists of six sets of information. The translation determination flag is used to determine whether or not to use the attribute name character string of the attribute ID of the source language X and the attribute name of the attribute ID of the source language Y as a translation pair. “True” is displayed when it is selected, and “False” is displayed when it is determined that it is not a translated word pair.

また、属性値インスタンス類似度テーブルは、   In addition, attribute value instance similarity table

<原言語Xの属性ID、目的言語Yの属性ID、原言語Xの記事ID、目的言語Yの記事ID、原言語Xの属性値文字列、目的言語Yの属性値文字列、属性値類似度、訳語決定フラグ> <Attribute ID of source language X, attribute ID of target language Y, article ID of source language X, article ID of target language Y, source language X attribute value string, target language Y attribute value string, attribute value similarity Degree, translation determination flag>

の8つ組の情報で構成されている。 It consists of eight sets of information.

また、属性値類似度とは、以下の2つの文字列の間の言語横断的類似度を表す数値である。   The attribute value similarity is a numerical value representing the cross-language similarity between the following two character strings.

(1)原言語Xにおいてある属性IDにより表される属性名集合のいずれかの属性名に対して、ある記事において現れる属性値文字列
(2)目的言語Yにおいてある属性IDにより表される属性名集合のいずれかの属性名に対して、ある記事において現れる属性値文字列
(1) An attribute value character string that appears in a certain article for any attribute name of an attribute name set represented by a certain attribute ID in the source language X. (2) An attribute represented by a certain attribute ID in the target language Y. Attribute value string that appears in an article for any attribute name in the name set

属性ID集合ソート部32は、テンプレート属性集合抽出部20によって抽出された属性ID集合αに対して、属性ID集合αの要素(={α,α,・・・,α})を、属性IDの優先度の降順にソートし、結果として得られるソート済の属性ID集合αを改めて生成する。本実施の形態では、属性IDの優先度に関する基準の詳細について説明しないが、例えば、当該属性IDに対応する属性を含む記事数に応じて、優先度を定めることが考えられる。 The attribute ID set sorting unit 32 applies the elements (= {α 1 , α 2 ,..., Α M }) of the attribute ID set α to the attribute ID set α extracted by the template attribute set extracting unit 20. The attribute IDs are sorted in descending order of priority, and the resulting sorted attribute ID set α is newly generated. In the present embodiment, details of the criteria regarding the priority of the attribute ID will not be described. However, for example, it is conceivable that the priority is determined according to the number of articles including the attribute corresponding to the attribute ID.

第1属性値インスタンス集合抽出部34は、テンプレート引用記事集合抽出部22によって抽出された原言語Xの記事の集合から、処理対象の原言語Xの属性名に対する属性値の集合を抽出する。
具体的には、第1属性値インスタンス集合抽出部34は、テンプレート引用記事集合抽出部22によって生成された目的言語Xの記事ID集合の各記事から、記事IDと、処理対象の原言語Xの属性名の属性値文字列とのペアの集合である属性値インスタンス集合V={v1,v2,・・・}を抽出する。より詳細には、第1属性値インスタンス集合抽出部34は、インターネット5を介して、記事のソースコードを取得・解析し、指定された属性IDにより表される属性が当該記事に含まれるとき、その属性に対して与えられている属性値文字列と当該記事IDのペアを抽出する。
The first attribute value instance set extraction unit 34 extracts a set of attribute values for the attribute name of the source language X to be processed from the set of articles in the source language X extracted by the template cited article set extraction unit 22.
Specifically, the first attribute value instance set extraction unit 34 extracts the article ID and the processing target source language X from each article in the target language X article ID set generated by the template cited article set extraction unit 22. An attribute value instance set V = {v 1 , v 2 ,..., Which is a set of pairs of attribute names and attribute value character strings is extracted. More specifically, the first attribute value instance set extraction unit 34 acquires / analyzes the source code of an article via the Internet 5 and when the attribute represented by the specified attribute ID is included in the article, A pair of the attribute value character string given to the attribute and the article ID is extracted.

対応属性候補抽出部36は、テンプレート属性集合抽出部20によって抽出された目的言語Yの属性名の集合から、属性名の類似度に基づいて、処理対象の原言語Xの属性名に対応する目的言語Yの属性名の候補の集合を抽出する。
具体的には、対応属性候補抽出部36は、属性ID集合ソート部32によって生成された属性ID集合のうち先頭に位置する原言語Xの属性ID:aと、テンプレート属性集合抽出部20によって抽出された目的言語Yの属性ID集合βとに基づいて、属性ID集合βの要素({β,β,・・・})の中から、属性ID:aの言語間対応付けの候補となる要素を選択し、これらの対応付け候補から構成されている属性ID集合β'(={β’,β’,・・・})を抽出する。例えば、対応属性候補抽出部36は、属性名類似度計算部28を用いて、属性ID:aと属性ID集合βの各要素βとの属性名類似度を計算し、当該属性名類似度が予め定められた閾値θより大きい要素βを、対応付け候補として選択する。さらに、得られた属性名類似度を、属性ID:a、属性ID:β、原言語X、目的言語Yの属性名文字列ともに内部テーブルデータベース30に格納されている属性名類似度テーブルに記録する。なお、訳語決定フラグの値はFalseに設定する。
The corresponding attribute candidate extraction unit 36 selects the object corresponding to the attribute name of the target language X to be processed from the attribute name set of the target language Y extracted by the template attribute set extraction unit 20 based on the similarity of the attribute name. A candidate set of attribute names for language Y is extracted.
Specifically, the corresponding attribute candidate extraction unit 36 extracts the attribute ID: a of the source language X located at the head of the attribute ID set generated by the attribute ID set sorting unit 32 and the template attribute set extraction unit 20. Based on the attribute ID set β of the target language Y, the candidate for the inter-language association of the attribute ID: a is selected from the elements ({β 1 , β 2 ,...}) Of the attribute ID set β. Are extracted, and an attribute ID set β ′ (= {β ′ 1 , β ′ 2 ,...) Composed of these matching candidates is extracted. For example, the corresponding attribute candidate extraction unit 36 uses the attribute name similarity calculation unit 28 to calculate the attribute name similarity between the attribute ID: a and each element β i of the attribute ID set β, and the attribute name similarity An element β i having a value greater than a predetermined threshold θ 0 is selected as an association candidate. Further, the obtained attribute name similarity is stored in the attribute name similarity table stored in the internal table database 30 together with the attribute name character strings of attribute ID: a, attribute ID: β i , source language X, and target language Y. Record. Note that the value of the translated word determination flag is set to False.

第2属性値インスタンス集合抽出部38は、目的言語Yの属性名の候補の集合に含まれる目的言語Yの属性名の各々について、テンプレート引用記事集合抽出部22によって抽出された目的言語Yの記事の集合から、当該目的言語Yの属性名に対する属性値の集合を抽出する。
具体的には、第2属性値インスタンス集合抽出部38は、第1属性値インスタンス集合抽出部34と同様に、テンプレート引用記事集合抽出部22によって生成された目的言語Yの記事ID集合の各記事から、記事IDと、当該目的言語Yの属性名に対する属性値文字列とのペアの集合である属性値インスタンス集合W={w,w,・・・}を抽出する。
The second attribute value instance set extraction unit 38 extracts articles of the target language Y extracted by the template-cited article set extraction unit 22 for each attribute name of the target language Y included in the candidate name candidate set of the target language Y. A set of attribute values for the attribute name of the target language Y is extracted from the set.
Specifically, the second attribute value instance set extraction unit 38, like the first attribute value instance set extraction unit 34, each article in the article ID set of the target language Y generated by the template cited article set extraction unit 22. Then, an attribute value instance set W = {w 1 , w 2 ,...}, Which is a set of pairs of article IDs and attribute value character strings for attribute names of the target language Y, is extracted.

属性値インスタンス集合間類似度計算部40は、目的言語Yの属性名の候補の集合に含まれる目的言語Yの属性名の各々について、当該目的言語Yの属性名について第2属性値インスタンス集合抽出部38によって抽出された目的言語Yの属性名に対する属性値の集合と、第1属性値インスタンス集合抽出部34によって抽出された処理対象の原言語Xの属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する。   The attribute value instance set similarity calculation unit 40 extracts a second attribute value instance set for the attribute name of the target language Y for each attribute name of the target language Y included in the set of candidate attribute names of the target language Y. Between a set of attribute values for the attribute name of the target language Y extracted by the unit 38 and a set of attribute values for the attribute name of the target language X to be processed extracted by the first attribute value instance set extraction unit 34 The similarity between attribute value instance sets, which is a similarity, is calculated.

ここで、具体的には、属性値インスタンス集合間類似度とは以下の2つの集合の間の言語横断的類似度を表す数値である。   Here, specifically, the similarity between attribute value instance sets is a numerical value representing the cross-language similarity between the following two sets.

(1)原言語Xにおいてある属性IDにより表される属性に対する属性値として現れた文字列(以下、属性値文字列と称する)の集合
(2)目的言語Yにおいてある属性IDにより表される属性に対する属性値文字列の集合
(1) A set of character strings (hereinafter referred to as attribute value character strings) appearing as attribute values for an attribute represented by a certain attribute ID in the source language X. (2) An attribute represented by a certain attribute ID in the target language Y. Set of attribute value strings for

具体的には、属性値インスタンス集合間類似度計算部40は、原言語Xおよび目的言語Yの属性ID:a、β’、および、原言語X、目的言語Yの属性値インスタンス集合v、wを入力とし、これらの属性値インスタンス集合間の類似度を計算する。本実施の形態では、以下のように属性値インスタンス集合類似度を計算する。 Specifically, the attribute value instance set similarity calculation unit 40 includes source language X and target language Y attribute IDs: a, β ′ i , and source language X, target language Y attribute value instance set v, Using w as an input, the similarity between these attribute value instance sets is calculated. In the present embodiment, the attribute value instance set similarity is calculated as follows.

まず、原言語Xの属性値インスタンス集合vの各要素における属性値文字列に対して、文字列翻訳部24により、目的言語Yに翻訳された属性値文字列集合vを得る。目的言語Yに翻訳された属性値文字列集合vと原言語Xの属性値インスタンス集合vに対応する属性値文字列集合v’との和集合を求める。なお、和集合を求めるので空集合にはならない。和集合を求めるのは、原言語の文字列が目的言語においてもそのまま用いられるケースを想定するためである。この和集合の各要素と、属性値インスタンス集合wの各要素の属性値文字列の集合w’の各要素との全ての組み合わせに対して、文字列類似度計算部26によって、当該組み合わせの文字列の類似度を算出する。この過程において、内部テーブルである属性値インスタンス類似度テーブルに、原言語Xの属性ID:a、目的言語Yの属性ID:β’i、原言語Xの記事ID、目的言語Yの記事ID、原言語Xの属性値文字列、目的言語Yの属性値文字列、および、得られた文字列類似度を属性値類似度として記録しておく。なお、訳語決定フラグの値はFalseに設定する。 First, the attribute value character string in each element of the attribute value instances set v of the source language X, by the character string translation unit 24 obtains the attribute value character string set v T translated into the target language Y. Seek the union of the target language Y in the translation attribute value set of character strings v T and the original language X of the attribute value corresponding to the instance set v attribute value set of strings v '. Since the union is obtained, it is not an empty set. The reason for obtaining the union is to assume a case where the source language character string is used as it is in the target language. For every combination of each element of this union and each element of the attribute value character string set w ′ of each element of the attribute value instance set w, the character string similarity calculation unit 26 performs the characters of the combination. Calculate the similarity of columns. In this process, the attribute value instance similarity table, which is an internal table, includes an attribute ID of source language X: a, an attribute ID of target language Y: β′i, an article ID of source language X, an article ID of target language Y, The attribute value character string of the source language X, the attribute value character string of the target language Y, and the obtained character string similarity are recorded as the attribute value similarity. Note that the value of the translated word determination flag is set to False.

ここで、全ての組み合わせではなく、互いに言語間リンクで参照されている記事に存在する組み合わせのみに限定して、文字列類似度を算出することにより、より強い制約を課し、確度の高い対応付けに限定することも可能である。ここで、原言語X、目的言語Yの記事ペアが互いに言語間リンクで参照されているか否かは、それぞれの言語の記事IDをもとに別途判定できるものとする。   Here, not only all combinations, but only combinations that exist in articles that are referred to by inter-language links with each other, by calculating the string similarity, it imposes stronger restrictions and handles with high accuracy It is also possible to limit to the attachment. Here, whether or not an article pair of the source language X and the target language Y is referred to by an inter-language link can be separately determined based on the article ID of each language.

全ての組み合わせに対して求められた類似度のうちの最大の属性値類似度を、属性値インスタンス集合vと属性値インスタンス集合wに対する属性値インスタンス集合間類似度とする。   The maximum attribute value similarity among the similarities obtained for all combinations is defined as the similarity between attribute value instance sets for the attribute value instance set v and the attribute value instance set w.

対応付け決定部42は、目的言語Yの属性名の候補の集合に含まれる目的言語の属性名の各々について、属性値インスタンス集合間類似度計算部40によって計算された属性値インスタンス集合間類似度が、閾値θ以上であれば、処理対象の原言語Xの属性名と、目的言語Yの属性名とを対応付けることを決定し、属性名類似度テーブルにおける該当するエントリの訳語決定フラグをTrueに変更する。また、対応付けられた処理対象の原言語Xの属性名及び目的言語の属性名の各々に対する属性値の集合の間での、原言語の属性値と目的言語の属性値との各ペアについて、当該ペアの属性値類似度が閾値θ以上であれば、当該ペアの原言語の属性値と目的言語の属性値とを対応付けることを決定し、属性値インスタンス類似度テーブルにおける該当するエントリの訳語決定フラグをTrueに変更する。 The association determination unit 42 calculates the similarity between attribute value instance sets calculated by the attribute value instance set similarity calculation unit 40 for each attribute name of the target language included in the set of candidate attribute names of the target language Y. Is equal to or greater than the threshold θ 1 , it is determined to associate the attribute name of the target language X to be processed with the attribute name of the target language Y, and the translation determination flag of the corresponding entry in the attribute name similarity table is set to True. Change to In addition, for each pair of the attribute value of the source language and the attribute value of the target language between the attribute value set for each of the attribute name of the target language X to be processed and the attribute name of the target language, if the attribute value similarity of the pair threshold theta 2 or more, translation entries decides to associate the attribute value of the attribute value and the target language of the source language of the pair, corresponding in the attribute value instances similarity table Change the decision flag to True.

反復判定部44は、予め設定した対応付け条件緩和に関する閾値Nと、原言語XのID集合αの要素数Mとの和を繰り返し回数として設定し、対応付け部3の処理が、N+M回繰り返されたか否かを判定する。対応付け部3の処理が、N+M回繰り返されていないと判定すると、閾値θ及び閾値θを各々低減してから、対応付け部3の処理を繰り返す。 The iterative determination unit 44 sets the sum of the preset threshold value N for the association condition relaxation and the number M of elements in the ID set α of the source language X as the number of repetitions, and the processing of the association unit 3 is repeated N + M times. It is determined whether or not it has been done. If it is determined that the process of the associating unit 3 has not been repeated N + M times, the threshold θ 1 and the threshold θ 2 are reduced, and then the process of the associating unit 3 is repeated.

対訳辞書生成部50は、対応付け部3によって対応付けられた原言語の属性名の文字列と目的言語の属性名の文字列とのペアの各々、及び対応付けられた原言語の属性値の文字列と目的言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した対訳辞書を生成する。
具体的には、対訳辞書生成部50は、対応付け部3の各処理で得られ、内部テーブルデータベース30に格納された属性名類似度テーブル、及び属性値インスタンス類似度テーブルの各々のエントリのうち、訳語決定フラグがTrueとなっているエントリを、以下の7つ組の集合である対訳辞書テーブルの形式に変換し、これらを統合(マージ)することにより、対訳辞書を生成する。
The bilingual dictionary generation unit 50 stores each of a pair of a source language attribute name character string and a target language attribute name character string associated by the associating unit 3 and an associated source language attribute value. A bilingual dictionary storing each pair of a character string and a character string of a target language attribute value as a bilingual pair is generated.
Specifically, the bilingual dictionary generation unit 50 is obtained by each process of the association unit 3 and is stored in the attribute name similarity table and the attribute value instance similarity table stored in the internal table database 30. The bilingual dictionary is generated by converting the entry whose translation word determination flag is True into the bilingual dictionary table format that is a set of the following seven sets and integrating (merging) these.

<原言語XのテンプレートID (= S)、原言語Xの属性ID、原言語Xの文字列、目的言語YのテンプレートID(=T)、目的言語Yの属性ID、目的言語Yの文字列、訳語対応度> <Template ID (= S) of source language X, attribute ID of source language X, character string of source language X, template ID of target language Y (= T), attribute ID of target language Y, character string of target language Y , Translation compatibility>

より詳細には、対訳辞書生成部50は、以下の処理によって対訳辞書を生成する。
(1)属性名類似度テーブルを対訳辞書形式に変換
属性名類似度テーブルにおけるエントリの中で訳語決定フラグがTrueとなっているエントリを抽出し、当該のエントリにおける原言語X、目的言語Yの属性IDをそれぞれ対訳辞書テーブルの原言語X、目的言語Yの属性にコピーする。また、原言語X、目的言語Yの属性名文字列をそれぞれ対訳辞書の言語X、Yの文字列にコピーする。さらに、属性名類似度を対訳辞書テーブルの訳語対応度にコピーする。
(2)属性値インスタンス類似度テーブルを対訳辞書形式に変換
属性値インスタンス類似度テーブルの中で訳語決定フラグがTrueとなっているエントリを抽出し、当該のエントリにおける原言語X、目的言語Yの属性IDをそれぞれ対訳辞書の原言語X、目的言語Yの属性にコピーする。また、原言語X、目的言語Yの属性値文字列をそれぞれ対訳辞書の原言語X、目的言語Yの文字列にコピーする。さらに、属性値類似度を対訳辞書の訳語対応度にコピーする。
More specifically, the bilingual dictionary generation unit 50 generates a bilingual dictionary by the following processing.
(1) Convert attribute name similarity table into bilingual dictionary format Extract entries whose translation word determination flag is True from the entries in the attribute name similarity table and store the source language X and the target language Y in the entry. The attribute ID is copied to the attribute of the source language X and the target language Y of the bilingual dictionary table. Also, the attribute name character strings of the source language X and the target language Y are copied to the character strings of the languages X and Y of the bilingual dictionary, respectively. Further, the attribute name similarity is copied to the translation correspondence in the bilingual dictionary table.
(2) Converting the attribute value instance similarity table into the bilingual dictionary format The entry whose translation determination flag is True is extracted from the attribute value instance similarity table, and the source language X and the target language Y of the entry are extracted. The attribute ID is copied to the attribute of the source language X and the target language Y of the bilingual dictionary. Further, the attribute value character strings of the source language X and the target language Y are copied to the character strings of the source language X and the target language Y of the bilingual dictionary, respectively. Further, the attribute value similarity is copied to the translation correspondence of the bilingual dictionary.

出力部4は、対訳辞書生成部50によって生成された対訳辞書を結果として出力する。   The output unit 4 outputs the bilingual dictionary generated by the bilingual dictionary generating unit 50 as a result.

<対訳辞書生成装置の作用>
次に、本実施の形態に係る対訳辞書生成装置100の作用について説明する。まず、記述対象の実体のタイプが対応している原言語Xの記事テンプレートIDと、目的言語Yの記事テンプレートIDとのペアが、対訳辞書生成装置100に入力されると、対訳辞書生成装置100によって、図3に示す対訳辞書生成処理ルーチンが実行される。
<Operation of the bilingual dictionary generator>
Next, the operation of the bilingual dictionary generation device 100 according to the present embodiment will be described. First, when a pair of an article template ID of the source language X and an article template ID of the target language Y corresponding to the type of entity to be described is input to the bilingual dictionary generating apparatus 100, the bilingual dictionary generating apparatus 100 Thus, the bilingual dictionary generation processing routine shown in FIG. 3 is executed.

まず、ステップS100において、入力部1によって、原言語Xの記事テンプレートIDと、目的言語Yの記事テンプレートIDとのペアを受け付ける。   First, in step S100, the input unit 1 receives a pair of an article template ID in the source language X and an article template ID in the target language Y.

次に、ステップS102において、テンプレート属性集合抽出部20によって、上記ステップS100で受け付けた原言語Xの記事テンプレートIDの記事テンプレート、及び目的言語Yの記事テンプレートIDの記事テンプレートに基づいて、原言語Xの記事テンプレートに含まれる属性ID集合αを抽出し、目的言語Yの記事テンプレートに含まれる属性ID集合βを抽出する。   Next, in step S102, based on the article template with the article template ID of the source language X and the article template with the article template ID of the target language Y received by the template attribute set extraction unit 20 in step S100, the source language X The attribute ID set α included in the article template is extracted, and the attribute ID set β included in the article template of the target language Y is extracted.

ステップS104において、属性ID集合ソート部32によって、上記ステップS102で抽出された属性ID集合αに対して、属性ID集合αの要素である属性IDの優先度の降順にソートし、結果として得られるソート済の属性ID集合αを改めて生成する。   In step S104, the attribute ID set sorting unit 32 sorts the attribute ID set α extracted in step S102 in descending order of the priority of the attribute IDs that are elements of the attribute ID set α. A sorted attribute ID set α is newly generated.

ステップS106において、繰り返し回数loop_countに0を代入する。   In step S106, 0 is substituted for the number of repetitions loop_count.

ステップS108において、上記ステップS104で生成されたソート済みの属性ID集合αのうち、先頭の属性ID:aを抽出して、処理対象として設定し、属性ID集合αから先頭の属性ID:aを除いたものを、改めて属性ID集合αとする。   In step S108, the first attribute ID: a is extracted from the sorted attribute ID set α generated in step S104, set as a processing target, and the first attribute ID: a is extracted from the attribute ID set α. The removed items are again referred to as an attribute ID set α.

ステップS110において、テンプレート引用記事集合抽出部22によって、入力された原言語Xの記事テンプレートIDの記事テンプレートを用いて記述している記事の集合を抽出し、入力された目的言語Yの記事テンプレートDIの記事テンプレートを用いて記述している記事の集合を抽出する。   In step S110, the template citation article set extraction unit 22 extracts a set of articles described using the article template with the article template ID of the input source language X, and the article template DI of the input target language Y is input. The set of articles described using the article template is extracted.

ステップS112において、処理対象の属性ID:aに対して、第1属性値インスタンス集合抽出部34によって、上記ステップS110で抽出された原言語Xの記事の集合から、処理対象の原言語Xの属性に対する属性値インスタンス集合V={v1,v2,・・・}を抽出する。 In step S112, for the attribute ID a to be processed, the attribute of the source language X to be processed from the set of articles in the source language X extracted in step S110 by the first attribute value instance set extraction unit 34. Attribute value instance set V = {v 1 , v 2 ,.

ステップS113において、属性名類似度計算部28によって、処理対象の属性ID:aの属性名と、上記ステップS102で抽出された属性ID集合βの各要素βとの間の属性名類似度を各々算出する。 In step S113, the attribute name similarity calculation unit 28 calculates the attribute name similarity between the attribute name of the processing target attribute ID: a and each element β i of the attribute ID set β extracted in step S102. Calculate each.

ステップS114において、対応属性候補抽出部36によって、上記ステップS102で抽出された属性ID集合βから、上記ステップS113で算出された属性名類似度に基づいて、処理対象の原言語Xの属性名に対応する属性名候補の集合β'={β’,β’,・・・}を抽出する。 In step S114, the corresponding attribute candidate extracting unit 36 converts the attribute name set β extracted in step S102 into the attribute name of the processing target source language X based on the attribute name similarity calculated in step S113. Corresponding attribute name candidate set β ′ = {β ′ 1 , β ′ 2 ,...} Is extracted.

ステップS116において、第2属性値インスタンス集合抽出部38によって、上記ステップS114で抽出された、対応する属性名候補の集合β'={β’,β’,・・・}のうちの要素β’iについて、上記ステップS110で抽出された目的言語Yの記事の集合から、当該要素β’iの属性名に対する目的言語Yの属性値インスタンス集合W={w,w,・・・}を抽出する。 In step S116, the second attribute value instance set extraction unit 38 extracts elements of the corresponding attribute name candidate set β ′ = {β ′ 1 , β ′ 2 ,... For β ′ i , the attribute value instance set W = {w 1 , w 2 ,... of the target language Y for the attribute name of the element β ′ i from the set of articles in the target language Y extracted in step S110. } Is extracted.

ステップS118において、属性値インスタンス集合間類似度計算部40によって、上記ステップS116で抽出された目的言語Yの属性値インスタンス集合W={w,w,・・・}と、上記ステップS112で抽出された処理対象の原言語Xの属性に対する属性値インスタンス集合V={v1,v2,・・・}との間の類似度である属性値インスタンス集合間類似度simを計算する。 In step S118, the attribute value instance set similarity calculation unit 40 extracts the attribute value instance set W = {w 1 , w 2 ,...} For the target language Y extracted in step S116, and in step S112. An attribute value instance set similarity sim i , which is a similarity between the extracted attribute value instance set V = {v 1 , v 2 ,...} For the attribute of the processing target source language X, is calculated.

ステップS119において、上記ステップS114で抽出された、対応する属性名候補の集合β'={β’,β’,・・・}に含まれる全ての要素について、上記ステップS116、S118の処理を実行したか否かを判定する。上記ステップS116、S118の処理を実行していない要素β’iが存在する場合には、上記ステップS116へ戻り、当該β’iについて上記ステップS116、S118の処理を実行する。一方、対応する属性名候補の集合β'={β’,β’,・・・}に含まれる全ての要素について上記ステップS116,S118の処理を実行した場合には、ステップS120へ移行する。
ステップS120において、上記ステップS118で算出された属性値インスタンス集合間類似度simのうち、最大の属性値インスタンス集合間類似度simを与える要素β’を、β*とする。
In step S119, for all elements included in the corresponding attribute name candidate set β ′ = {β ′ 1 , β ′ 2 ,... Whether or not is executed. If there is an element β ′ i that has not been subjected to the processes in steps S116 and S118, the process returns to step S116, and the processes in steps S116 and S118 are performed on the β ′ i . On the other hand, when the processes in steps S116 and S118 are executed for all elements included in the corresponding attribute name candidate set β ′ = {β ′ 1 , β ′ 2 ,...}, The process proceeds to step S120. To do.
In step S120, among the attribute value instance set similarity sim i calculated in step S118, the element β ′ i that gives the maximum attribute value instance set similarity sim i is set to β *.

ステップS122において、上記ステップS118で算出された属性値インスタンス集合間類似度simのうち、最大の属性値インスタンス集合間類似度simをsim*と設定する。 In step S122, among the attribute value instance set similarity sim i calculated in step S118, the maximum attribute value instance set similarity sim i is set to sim *.

ステップS124において、上記ステップS122で設定されたsim*が、予め定められた閾値θよりも大きいか否かを判定する。そして、sim*が、閾値θよりも大きい場合には、処理対象の属性ID:aの属性名と、上記ステップS120で得られた属性ID:β*の属性名とを対応付けることを決定し、ステップS126へ移行する。一方、sim*が、閾値θ以下の場合には、ステップS132へ移行する。 In step S124, sim * set at step S122 is, whether greater than the threshold theta 1 predetermined judges. If sim * is larger than the threshold θ 1, it is determined to associate the attribute name of the processing target attribute ID: a with the attribute name of the attribute ID: β * obtained in step S120. The process proceeds to step S126. On the other hand, sim * is, in the case of the threshold theta 1 below, the process proceeds to step S132.

ステップS126において、対応付け決定部42によって、内部テーブルデータベース30に格納されている属性名類似度テーブルにおいて、原言語Xの属性IDが処理対象の属性ID:aと一致し、目的言語Yの属性IDが、上記ステップS120で得られた属性ID:β*と一致するエントリについて、訳語決定フラグをTrueに変更する。   In step S126, in the attribute name similarity table stored in the internal table database 30 by the association determination unit 42, the attribute ID of the source language X matches the attribute ID: a to be processed, and the attribute of the target language Y For the entry whose ID matches the attribute ID: β * obtained in step S120, the translated word determination flag is changed to True.

ステップS128において、対応付け決定部42によって、内部テーブルデータベース30に格納されている属性値インスタンス類似度テーブルにおいて、原言語Xの属性IDが処理対象の属性ID:aと一致し、目的言語Yの属性IDが、上記ステップS120で得られた属性ID:β*と一致するエントリのうちで、属性値類似度が、閾値θより大きいエントリの各々について、訳語決定フラグをTrueに変更する。 In step S128, the association determining unit 42 matches the attribute ID of the source language X with the attribute ID: a to be processed in the attribute value instance similarity table stored in the internal table database 30, and the target language Y. attribute ID is attribute ID obtained in step S120: among the entry that matches the beta *, attribute value similarity, for each of the threshold theta 2 is greater than the entry, changes the translation decision flag to True.

ステップS130において、上記ステップS102で抽出された集合βから、上記ステップS120で得られたβ*を除いたものを、改めて集合βとする。   In step S130, the set β obtained by removing β * obtained in step S120 from the set β extracted in step S102 is referred to as a set β.

ステップS132において、処理対象の属性ID:aを、集合αの最後尾の要素として追加する。   In step S132, the processing target attribute ID: a is added as the last element of the set α.

ステップS134において、反復判定部44によって、繰り返し回数loop_countをインクリメントする。   In step S134, the iteration determination unit 44 increments the iteration count loop_count.

ステップS136において、反復判定部44によって、上記ステップS108〜ステップS134の処理が、N+M回繰り返されたか否かを判定する。上記ステップS108〜ステップS134の処理が、N+M回以上繰り返された場合には、ステップS140へ進む。一方、上記ステップS108〜ステップS134の処理が、N+M回未満繰り返された場合には、ステップS138へ移行する。   In step S136, the repetition determination unit 44 determines whether or not the processing in steps S108 to S134 has been repeated N + M times. If the processes of step S108 to step S134 are repeated N + M times or more, the process proceeds to step S140. On the other hand, when the process of step S108 to step S134 is repeated less than N + M times, the process proceeds to step S138.

ステップS138において、閾値θと、閾値θとを低減させる。具体的には、θに対し減衰係数ωを乗算し、θに減衰係数ωを乗算する。ここで、0<ω≦1、0<ω≦1である。 In step S138, a threshold theta 1, reduces the threshold theta 2. Specifically, θ 1 is multiplied by an attenuation coefficient ω 1 , and θ 2 is multiplied by an attenuation coefficient ω 2 . Here, 0 <ω 1 ≦ 1 and 0 <ω 2 ≦ 1.

ステップS140において、対訳辞書生成部50によって、上記ステップS126で訳語決定フラグが「True」とされた属性名類似度テーブルのエントリと、上記ステップS128で訳語決定フラグが「True」とされた属性値インスタンス類似度テーブルのエントリとをマージして、対訳辞書を生成する。   In step S140, the bilingual dictionary generation unit 50 makes an entry in the attribute name similarity table in which the translated word determination flag is set to “True” in step S126, and an attribute value in which the translated word determination flag is set to “True” in step S128. A bilingual dictionary is generated by merging the entries in the instance similarity table.

ステップS142において、上記ステップS140で生成された対訳辞書を結果として出力し、対訳辞書生成処理ルーチンを終了する。   In step S142, the bilingual dictionary generated in step S140 is output as a result, and the bilingual dictionary generation processing routine is terminated.

以上説明したように、本実施の形態に係る対訳辞書生成装置によれば、原言語Xの記事テンプレート及び目的言語Yの記事テンプレートに基づいて、原言語の記事テンプレートに含まれる属性名の集合と、目的言語Yの記事テンプレートに含まれる属性名の集合とを抽出すると共に、原言語Xの記事テンプレートを用いて記述している記事の集合と、目的言語Yの記事テンプレートを用いて記述している記事の集合とを抽出し、原言語Xの属性名の集合及び目的言語Yの属性名の集合において、原言語Xの属性名と目的言語Yの属性名とを対応付け、対応付けられた原言語Xの属性名に対する属性値の集合、及び対応付けられた目的言語Yの属性名に対する属性値の集合において、原言語Xの属性値と目的言語Yの属性値とを対応付け、対応付けられた属性名の文字列のペアの各々、及び対応付けられた属性値の文字列のペアの各々を、対訳ペアとして格納した対訳辞書を生成することにより、広範囲の部分から抽出された対訳ペアを格納した対訳辞書を生成することができる。   As described above, according to the bilingual dictionary generation device according to the present embodiment, based on the source language X article template and the target language Y article template, a set of attribute names included in the source language article template A set of attribute names included in the article template of the target language Y, and a set of articles described using the article template of the source language X and an article template of the target language Y And a set of attribute names in the source language X and an attribute name in the target language Y are associated with each other in association with the attribute name in the source language X and the attribute name in the target language Y. In the set of attribute values for the attribute name of the source language X and the set of attribute values for the attribute name of the associated target language Y, the attribute value of the source language X and the attribute value of the target language Y are associated with each other Bilingual dictionary extracted from a wide range by generating a bilingual dictionary that stores each pair of attribute name character strings and associated attribute value character string pairs as a bilingual pair A bilingual dictionary storing pairs can be generated.

また、記事テンプレートから得られる属性名の言語間対応、及び記事テンプレートを引用する記事から得られる属性値の言語間対応に基づいて対訳辞書を生成するため、言語間で対応付けられた記事のタイトルの対応からの対訳抽出に比べ多くの対訳エントリ(語彙)を抽出することができる。   In addition, since the bilingual dictionary is generated based on the correspondence between the attribute names obtained from the article template and the correspondence between the attribute values obtained from the article quoting the article template, the title of the article associated between the languages. It is possible to extract more bilingual entries (vocabulary) than bilingual extraction from the correspondence of.

また、本実施の形態で得られる対訳辞書のエントリは、対訳を抽出するテンプレートと結び付けられており、テンプレートは記述の対象となる実体のタイプ (例:山/mountain) を反映している。この実体のタイプは、対訳の適用領域に関する制約を与える (例:山の「高さ」の訳語は"elevation")ため、対訳の適用可能領域に関する付加情報を含むように、対訳辞書を生成することができる。   The bilingual dictionary entry obtained in the present embodiment is linked to a template for extracting a bilingual translation, and the template reflects the type of entity to be described (for example, mountain / mountain). Since this entity type imposes restrictions on the application area of the bilingual translation (eg, the translation of the mountain “height” is “elevation”), a bilingual dictionary is created to include additional information about the applicable area of the bilingual translation. be able to.

また、本実施の形態は、原言語Xのテンプレート、目的言語Yのテンプレートのペアを入力とするものであるが、対応関係にあることが分かっているテンプレートペアの集合の要素に対して繰り返し実行することにより、より多くの対訳辞書エントリを得ることができる。   In this embodiment, a pair of source language X template and target language Y template is input, but it is repeatedly executed for elements of a set of template pairs that are known to be in a correspondence relationship. By doing so, more bilingual dictionary entries can be obtained.

また、本実施の形態における原言語X、目的言語Yは特定の言語に限定されたものではないため、他種類の言語ペアにおけるテンプレートペアの集合に適用することにより、2言語間の対訳辞書の集合という形で多言語の対訳辞書を得ることができる。   In addition, since the source language X and the target language Y in the present embodiment are not limited to a specific language, by applying it to a set of template pairs in other types of language pairs, Multilingual bilingual dictionaries can be obtained in the form of sets.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、属性名類似度計算部28では、他の類似度計算方法によって、属性名類似度を計算してもよい。また、属性値インスタンス集合間類似度計算部40では、他の類似度計算方法によって、属性値インスタンス集合類似度を計算してもよい。   For example, the attribute name similarity calculation unit 28 may calculate the attribute name similarity by another similarity calculation method. Further, the attribute value instance set similarity calculation unit 40 may calculate the attribute value instance set similarity by another similarity calculation method.

また、内部テーブルデータベース30は、外部に設けられ、対訳辞書生成装置とネットワークで接続されていてもよい。   The internal table database 30 may be provided outside and connected to the bilingual dictionary generation device via a network.

上述の対訳辞書生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   The bilingual dictionary generating apparatus described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

1 入力部
2 演算部
3 対応付け部
4 出力部
5 インターネット
20 テンプレート属性集合抽出部
22 テンプレート引用記事集合抽出部
24 文字列翻訳部
26 文字列類似度計算部
28 属性名類似度計算部
30 内部テーブルデータベース
32 属性ID集合ソート部
34 第1属性値インスタンス集合抽出部
36 対応属性候補抽出部
38 第2属性値インスタンス集合抽出部
40 属性値インスタンス集合間類似度計算部
42 対応付け決定部
44 反復判定部
50 対訳辞書生成部
100 対訳辞書生成装置
DESCRIPTION OF SYMBOLS 1 Input part 2 Operation part 3 Correlation part 4 Output part 5 Internet 20 Template attribute set extraction part 22 Template cited article set extraction part 24 Character string translation part 26 Character string similarity calculation part 28 Attribute name similarity calculation part 30 Internal table Database 32 Attribute ID set sort unit 34 First attribute value instance set extraction unit 36 Corresponding attribute candidate extraction unit 38 Second attribute value instance set extraction unit 40 Attribute value instance set similarity calculation unit 42 Association determination unit 44 Iterative determination unit 50 Bilingual Dictionary Generation Unit 100 Bilingual Dictionary Generation Device

Claims (7)

対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置であって、
記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部と、
前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部と、
前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、
前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け部と、
前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部と、
を含む対訳辞書生成装置。
A bilingual dictionary generating device for generating a bilingual dictionary storing a bilingual pair that is a combination of a character string of a first language to be translated and a character string of a second language,
An article template in which attribute names related to the entity are listed for describing an article about the entity to be described, the article template of the first language corresponding to the type of the entity to be described, and the first A template attribute set for extracting a set of attribute names included in the article template of the first language based on an article template of the second language and extracting a set of attribute names included in the article template of the second language An extractor;
A template-cited article set extraction unit that extracts a set of articles described using the article template of the first language and extracts a set of articles described using the article template of the second language; ,
In the set of attribute names of the first language and the set of attribute names of the second language extracted by the template attribute set extraction unit, the attribute names of the first language and the attribute names of the second language And
The correspondence extracted from the set of articles in the first language based on the set of articles in the first language and the set of articles in the second language extracted by the template cited article set extraction unit. A set of attribute values for the attribute name of the first language attached and a set of attribute values for the attribute name of the associated second language extracted from the set of articles of the second language An association unit associating the attribute value of the first language with the attribute value of the second language;
Each pair of the character string of the attribute name of the first language and the character string of the attribute name of the second language associated by the association unit, and the attribute of the first language associated with each other A bilingual dictionary generation unit for generating the bilingual dictionary storing each pair of a character string of a value and a character string of an attribute value of the second language as a bilingual pair;
A bilingual dictionary generation device including
前記対応付け部は、
前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、
前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付け、
前記対訳辞書生成部は、
前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、前記ペアについて算出された前記類似度と共に、対訳ペアとして前記対訳辞書に格納する請求項1記載の対訳辞書生成装置。
The association unit
In the set of attribute names of the first language and the set of attribute names of the second language extracted by the template attribute set extraction unit, the attribute names of the first language and the attribute names of the second language For each pair, and based on the similarity calculated for each pair, associate the attribute name of the first language with the attribute name of the second language,
The correspondence extracted from the set of attribute values for the attribute name of the associated first language and the set of articles of the second language extracted from the set of articles in the first language In the set of attribute values for the attribute name of the second language attached, for each pair of the attribute value of the first language and the attribute value of the second language, the similarity of the pair is calculated; Based on the similarity calculated for each pair, the attribute value of the first language is associated with the attribute value of the second language,
The bilingual dictionary generation unit
Each pair of the character string of the attribute name of the first language and the character string of the attribute name of the second language associated by the association unit, and the attribute of the first language associated with each other 2. The bilingual dictionary according to claim 1, wherein each pair of a character string of a value and a character string of an attribute value of the second language is stored in the bilingual dictionary as a bilingual pair together with the similarity calculated for the pair. Generator.
前記対応付け部は、
前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第1閾値に基づいて、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、
前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペアの類似度を算出し、各ペアについて算出された前記類似度及び予め定められた第2閾値に基づいて、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける請求項2記載の対訳辞書生成装置。
The association unit
In the set of attribute names of the first language and the set of attribute names of the second language extracted by the template attribute set extraction unit, the attribute names of the first language and the attribute names of the second language For each pair, and based on the similarity calculated for each pair and a predetermined first threshold, the attribute name of the first language and the second language To the attribute name of
The correspondence extracted from the set of attribute values for the attribute name of the associated first language and the set of articles of the second language extracted from the set of articles in the first language In the set of attribute values for the attribute name of the second language attached, for each pair of the attribute value of the first language and the attribute value of the second language, the similarity of the pair is calculated; 3. The bilingual dictionary generation device according to claim 2, wherein the attribute value of the first language and the attribute value of the second language are associated with each other based on the similarity calculated for each pair and a predetermined second threshold value. .
前記対応付け部は、
前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合に含まれる各属性名について、予め定められた順番で、前記第1の言語の属性名を、処理対象とし、
前記処理対象の第1の言語の属性名について、前記第2の言語の属性名との対応付けを行い、前記処理対象の第1の言語の属性名の属性値について、前記第2の言語の属性値との対応付けを行うことを、前記処理対象の第1の言語の属性名毎に繰り返し、
前記処理対象の第1の言語の属性名について前記対応付けを行う毎に、前記第1閾値及び前記第2閾値を低減させる請求項3記載の対訳辞書生成装置。
The association unit
For each attribute name included in the attribute name set of the first language extracted by the template attribute set extraction unit, the attribute name of the first language is set as a processing target in a predetermined order.
The attribute name of the first language to be processed is associated with the attribute name of the second language, and the attribute value of the attribute name of the first language to be processed is assigned to the attribute name of the second language. The association with the attribute value is repeated for each attribute name of the first language to be processed,
The bilingual dictionary generation device according to claim 3, wherein the first threshold value and the second threshold value are reduced each time the association is performed on the attribute name of the first language to be processed.
前記対応付け部は、
前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合から、前記処理対象の第1の言語の属性名に対する属性値の集合を抽出する第1属性値インスタンス集合抽出部と、
前記テンプレート属性集合抽出部によって抽出された前記第2の言語の属性名の集合から、属性名の類似度に基づいて、前記処理対象の第1の言語の属性名に対応する前記第2の言語の属性名の候補の集合を抽出する対応属性候補抽出部と、
前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記第2の言語前記テンプレート引用記事集合抽出部によって抽出された前記第2の言語の記事の集合から、前記第2の言語の属性名に対する属性値の集合を抽出する第2属性値インスタンス集合抽出部と、
前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記第2の言語の属性名について前記第2属性値インスタンス集合抽出部によって抽出された前記第2の言語の属性名に対する属性値の集合と、前記第1属性値インスタンス集合抽出部によって抽出された前記処理対象の第1の言語の属性名に対する属性値の集合との間の類似度である属性値インスタンス集合間類似度を計算する属性値インスタンス集合間類似度計算部と、
前記第2の言語の属性名の候補の集合に含まれる前記第2の言語の属性名の各々について、前記属性値インスタンス集合間類似度計算部によって計算された属性値インスタンス集合間類似度が、前記第1閾値以上であれば、前記処理対象の第1の言語の属性名と、前記第2の言語の属性名とを対応付け、
前記対応付けられた前記処理対象の第1の言語の属性名及び前記第2の言語の属性名の各々に対する属性値の集合における、前記第1の言語の属性値と前記第2の言語の属性値との各ペアについて、前記ペア類似度が前記第2閾値以上であれば、前記ペアの前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け決定部とを含む請求項4記載の対訳辞書生成装置。
The association unit
A first attribute value instance set extracting unit for extracting a set of attribute values for the attribute name of the first language to be processed from the set of articles in the first language extracted by the template cited article set extracting unit; ,
The second language corresponding to the attribute name of the first language to be processed based on the attribute name similarity from the attribute name set of the second language extracted by the template attribute set extraction unit A corresponding attribute candidate extraction unit that extracts a set of candidate attribute names of
Articles of the second language extracted by the second language and the template-cited article set extraction unit for each of the attribute names of the second language included in the set of candidate attribute names of the second language A second attribute value instance set extraction unit for extracting a set of attribute values for the attribute name of the second language from the set of:
For each attribute name of the second language included in the set of candidate attribute names of the second language, the attribute name of the second language is extracted by the second attribute value instance set extraction unit. The similarity between the attribute value set for the attribute name of the second language and the attribute value set for the attribute name of the first language to be processed extracted by the first attribute value instance set extraction unit An attribute value instance set similarity calculation unit for calculating the similarity between attribute value instance sets;
The attribute value instance set similarity calculated by the attribute value instance set similarity calculation unit for each attribute name of the second language included in the attribute name candidate set of the second language is: If it is equal to or greater than the first threshold, the attribute name of the first language to be processed is associated with the attribute name of the second language,
The attribute value of the first language and the attribute of the second language in the attribute value set for each of the attribute name of the first language and the attribute name of the second language that are associated with each other For each pair with a value, if the pair similarity is equal to or greater than the second threshold, an association determination unit that associates the attribute value of the first language and the attribute value of the second language of the pair; The bilingual dictionary production | generation apparatus of Claim 4 containing.
テンプレート属性集合抽出部と、テンプレート引用記事集合抽出部と、対応付け部と、対訳辞書生成部とを含み、対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成する対訳辞書生成装置における対訳辞書生成方法であって、
前記テンプレート属性集合抽出部によって、記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するステップと、
前記テンプレート引用記事集合抽出部によって、前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するステップと、
前記対応付け部によって、前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、
前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付けるステップと、
前記対訳辞書生成部によって、前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成するステップと、
を含む対訳辞書生成方法。
A combination of a first language character string and a second language character string that include a template attribute set extraction unit, a template-cited article set extraction unit, an association unit, and a bilingual dictionary generation unit. A bilingual dictionary generating method in a bilingual dictionary generating device for generating a bilingual dictionary storing bilingual pairs,
An article template in which attribute names related to the entity are listed for describing an article about the entity to be described by the template attribute set extraction unit, and the type of the entity to be described corresponds to the first template A set of attribute names included in the article template of the first language based on the article template of the second language and the article template of the second language, and the attribute names included in the article template of the second language Extracting a set of
The template cited article set extraction unit extracts a set of articles described using the article template of the first language, and sets a set of articles described using the article template of the second language. Extracting, and
In the set of attribute names of the first language and the set of attribute names of the second language extracted by the template attribute set extraction unit by the association unit, the attribute names of the first language and the first Associate attribute names in two languages
The correspondence extracted from the set of articles in the first language based on the set of articles in the first language and the set of articles in the second language extracted by the template cited article set extraction unit. A set of attribute values for the attribute name of the first language attached and a set of attribute values for the attribute name of the associated second language extracted from the set of articles of the second language And associating the attribute value of the first language with the attribute value of the second language;
Each of the pair of the attribute name character string of the first language and the character string of the attribute name of the second language associated by the association unit is associated with the bilingual dictionary generation unit. Generating the bilingual dictionary storing each pair of a character string of the attribute value of the first language and a character string of the attribute value of the second language as a bilingual pair;
A bilingual dictionary generation method including
対訳となる第1の言語の文字列と、第2の言語の文字列との組み合わせである対訳ペアを格納した対訳辞書を生成するためのプログラムであって、
コンピュータを、
記述対象の実体についての記事を記述するための、前記実体に関する属性名が列挙された記事テンプレートであって、前記記述対象となる実体のタイプが対応する前記第1の言語の記事テンプレート及び前記第2の言語の記事テンプレートに基づいて、前記第1の言語の記事テンプレートに含まれる属性名の集合を抽出し、前記第2の言語の記事テンプレートに含まれる属性名の集合を抽出するテンプレート属性集合抽出部、
前記第1の言語の記事テンプレートを用いて記述している記事の集合を抽出し、前記第2の言語の記事テンプレートを用いて記述している記事の集合を抽出するテンプレート引用記事集合抽出部、
前記テンプレート属性集合抽出部によって抽出された前記第1の言語の属性名の集合及び前記第2の言語の属性名の集合において、前記第1の言語の属性名と前記第2の言語の属性名とを対応付け、
前記テンプレート引用記事集合抽出部によって抽出された前記第1の言語の記事の集合及び前記第2の言語の記事の集合に基づいて、前記第1の言語の記事の集合から抽出される、前記対応付けられた前記第1の言語の属性名に対する属性値の集合、及び前記第2の言語の記事の集合から抽出される、前記対応付けられた前記第2の言語の属性名に対する属性値の集合において、前記第1の言語の属性値と前記第2の言語の属性値とを対応付ける対応付け部、及び
前記対応付け部によって対応付けられた前記第1の言語の属性名の文字列と前記第2の言語の属性名の文字列とのペアの各々、及び対応付けられた前記第1の言語の属性値の文字列と前記第2の言語の属性値の文字列とのペアの各々を、対訳ペアとして格納した前記対訳辞書を生成する対訳辞書生成部
として機能させるためのプログラム。
A program for generating a bilingual dictionary storing a bilingual pair that is a combination of a character string of a first language to be translated and a character string of a second language,
Computer
An article template in which attribute names related to the entity are listed for describing an article about the entity to be described, the article template of the first language corresponding to the type of the entity to be described, and the first A template attribute set for extracting a set of attribute names included in the article template of the first language based on an article template of the second language and extracting a set of attribute names included in the article template of the second language Extractor,
A template-cited article set extraction unit that extracts a set of articles described using the article template of the first language and extracts a set of articles described using the article template of the second language;
In the set of attribute names of the first language and the set of attribute names of the second language extracted by the template attribute set extraction unit, the attribute names of the first language and the attribute names of the second language And
The correspondence extracted from the set of articles in the first language based on the set of articles in the first language and the set of articles in the second language extracted by the template cited article set extraction unit. A set of attribute values for the attribute name of the first language attached and a set of attribute values for the attribute name of the associated second language extracted from the set of articles of the second language The association unit associating the attribute value of the first language with the attribute value of the second language, and the character string of the attribute name of the first language associated with the association unit and the first language Each of a pair of attribute names of two languages and a pair of attribute values of the first language and character strings of the attribute values of the second language, The bilingual dictionary stored as a bilingual pair Program to function as a parallel translation dictionary generator.
JP2013155831A 2013-07-26 2013-07-26 Bilingual dictionary generation device, method, and program Active JP5995219B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013155831A JP5995219B2 (en) 2013-07-26 2013-07-26 Bilingual dictionary generation device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013155831A JP5995219B2 (en) 2013-07-26 2013-07-26 Bilingual dictionary generation device, method, and program

Publications (2)

Publication Number Publication Date
JP2015026281A true JP2015026281A (en) 2015-02-05
JP5995219B2 JP5995219B2 (en) 2016-09-21

Family

ID=52490874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013155831A Active JP5995219B2 (en) 2013-07-26 2013-07-26 Bilingual dictionary generation device, method, and program

Country Status (1)

Country Link
JP (1) JP5995219B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034171A (en) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology Simultaneous classifier in multi-language about presence/absence of inter-word semantic relation, and computer program therefor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034171A (en) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology Simultaneous classifier in multi-language about presence/absence of inter-word semantic relation, and computer program therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016015737; 胡寅駿 他1名: 'Wikipedia Infoboxから抽出した多言語属性情報の分析' 電子情報通信学会技術研究報告 Vol.112 No.435, 20130211, 5-10頁, 一般社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
JP5995219B2 (en) 2016-09-21

Similar Documents

Publication Publication Date Title
CN107038158B (en) Method and apparatus for creating translation corpus, recording medium, and machine translation system
JP5661813B2 (en) Characterization and retrieval of semantic objects
TWI656450B (en) Method and system for extracting knowledge from Chinese corpus
JP2010225135A (en) Disambiguation method and system
JP2009075791A (en) Device, method, program, and system for machine translation
JP2019032704A (en) Table data structuring system and table data structuring method
JP2006338342A (en) Word vector generation device, word vector generation method and program
WO2010109594A1 (en) Document search device, document search system, document search program, and document search method
JP2015022431A (en) Learning model creation device, translation device, learning model creation method, and program
JP2010182238A (en) Citation detection device, device and method for creating original document database, program and recording medium
US20140358522A1 (en) Information search apparatus and information search method
JP2014132406A (en) Synonym extraction system, method and program
JP2019148933A (en) Summary evaluation device, method, program, and storage medium
Kumar et al. An Efficient Approach to Query Reformulation in Web Search
JP4945015B2 (en) Document search system, document search program, and document search method
JP2009277099A (en) Similar document retrieval device, method and program, and computer readable recording medium
KR20160086255A (en) Entity boundary detection apparatus in text by usage-learning on the entity&#39;s surface string candidates and mtehod thereof
Yosef et al. AIDArabic A Named-Entity Disambiguation Framework for Arabic Text
JP5995219B2 (en) Bilingual dictionary generation device, method, and program
KR101359039B1 (en) Analysis device and method for analysis of compound nouns
US10678827B2 (en) Systematic mass normalization of international titles
JP4148247B2 (en) Vocabulary acquisition method and apparatus, program, and computer-readable recording medium
JP2008129662A (en) Device, method and program for extracting information
El-Shishtawy et al. A lemma based evaluator for semitic language text summarization systems
JP4314271B2 (en) Inter-word relevance calculation device, inter-word relevance calculation method, inter-word relevance calculation program, and recording medium recording the program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160816

R150 Certificate of patent or registration of utility model

Ref document number: 5995219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250