JP2012133689A - Information processing apparatus, method and program - Google Patents

Information processing apparatus, method and program Download PDF

Info

Publication number
JP2012133689A
JP2012133689A JP2010286867A JP2010286867A JP2012133689A JP 2012133689 A JP2012133689 A JP 2012133689A JP 2010286867 A JP2010286867 A JP 2010286867A JP 2010286867 A JP2010286867 A JP 2010286867A JP 2012133689 A JP2012133689 A JP 2012133689A
Authority
JP
Japan
Prior art keywords
language
bilingual
dictionary
word
bilingual dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010286867A
Other languages
Japanese (ja)
Other versions
JP5351879B2 (en
Inventor
Ikuo Kitagishi
郁雄 北岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010286867A priority Critical patent/JP5351879B2/en
Publication of JP2012133689A publication Critical patent/JP2012133689A/en
Application granted granted Critical
Publication of JP5351879B2 publication Critical patent/JP5351879B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To automatically create a new bilingual dictionary, on the basis of more various bilingual dictionaries, with appropriate precision.SOLUTION: For both first and second languages for which a new bilingual dictionary is to be created, the same or similar material texts are prepared, the same or similar words are extracted between translated sentences translated into a third language, and words in both the first and second languages corresponding to the extracted word are made correspondent as a bilingual dictionary. Thus, if there are first→third and second→third bilingual dictionaries with appropriate precision, even in the case where there is no third→second bilingual dictionary or precision is reduced, on the basis of the similarity of words translated into the third language, the first→second bilingual dictionary can be automatically created with appropriate precision.

Description

本発明は、機械翻訳に関する。   The present invention relates to machine translation.

従来、インターネットのウェブサイトなどにおいて、入力された原文を他の言語に変換して表示する、いわゆる機械翻訳のサービスが提供されている。この種の機械翻訳の精度を向上する工夫として、原文に基づく翻訳文の候補をウェブ検索エンジンに入力して検索結果のヒット数が多いものを、よく使う表現として優先的に採用する提案が知られている(例えば、特許文献1参照)。   2. Description of the Related Art Conventionally, a so-called machine translation service has been provided in which an input original text is converted into another language and displayed on an Internet website or the like. As a device to improve the accuracy of this type of machine translation, there is a proposal to preferentially adopt a frequently used expression as a search result by inputting candidate translations based on the original sentence into a web search engine. (For example, refer to Patent Document 1).

ところで、従来、機械翻訳には、ある言語の語に、他の言語におけるその訳語を対応付けたデータである対訳コーパス(「対訳辞書」などとも俗称されるので、以下「対訳辞書」とも呼ぶ)が必要である。なお、対訳辞書は、上記のように訳語を対応付けたデータである狭義の対訳辞書に限らず、これに加え対訳ルールや用例、確率モデルなども含んだシステムとして機能するもの(データ、データ構造、装置、システム、プログラムなど)を広く意味する。そして、そのような対訳辞書については、人手で作成していたため労力などの負担が多大であり、その自動化が潜在的に望まれていた。   By the way, conventionally, in machine translation, a bilingual corpus, which is data in which a word in a certain language is associated with a translation in another language (hereinafter also referred to as “a bilingual dictionary”, is also referred to as “a bilingual dictionary” hereinafter). is required. The bilingual dictionary is not limited to the narrow-sense bilingual dictionary in which the translated words are associated with each other as described above. In addition, the bilingual dictionary functions as a system including bilingual rules, examples, and probability models (data and data structure). , Device, system, program, etc.). And since such a bilingual dictionary was created manually, the burden of labor etc. was great, and the automation was potentially desired.

特開2007−87157号JP 2007-87157 A

Kishore Papineni, “BLUE: a Method for Automatic Evaluation of Machine Translation,” ACL pp.311-318 (2002)Kishore Papineni, “BLUE: a Method for Automatic Evaluation of Machine Translation,” ACL pp.311-318 (2002)

この場合、既存の対訳辞書を用いて、新たな言語の組合せでの対訳辞書を作成することも考えられる。例えば、日本語(日)、英語(英)、中国語(中)のうち、日→英、英→中という二種の対訳辞書があれば、英語を中継ぎとして両者を組み合わせ、日→中という対訳辞書を作成することができる。   In this case, it may be possible to create a bilingual dictionary using a new language combination using an existing bilingual dictionary. For example, if there are two types of bilingual dictionaries of Japanese (English), English (English), and Chinese (Medium): Japanese → English, English → Chinese, combine both with English as a relay, and say Japanese → Chinese. A bilingual dictionary can be created.

但し、対訳辞書には方向があるため、日→中という方向の対訳辞書を新たに作成する基礎としては、日→英、英→中という方向の対訳辞書が必要となる。したがって、対応付けの前半となる日→英の対訳辞書はあるが、後半となる英→中という順方向の対訳辞書が無いか又は精度が不十分な場合、中→英という逆方向の対訳辞書では適切な精度であっても利用できず、対訳辞書の組合せによる新たな対訳辞書を適切な精度で自動生成できないという課題があった。   However, since there is a direction in the bilingual dictionary, a bilingual dictionary in the direction of Japanese → English and English → Central is required as a basis for newly creating a bilingual dictionary of Japanese → China. Therefore, if there is a bilingual dictionary for the first half of the correspondence, the bilingual dictionary for English → English, but there is no bilingual bilingual dictionary for the second half, or if the accuracy is not sufficient, the bilingual dictionary for the reverse direction, middle → english, is used. However, there is a problem that a new bilingual dictionary based on a combination of bilingual dictionaries cannot be automatically generated with appropriate accuracies.

上記の課題に対し、本発明の目的は、より多様な対訳辞書を基礎として新たな対訳辞書を適切な精度で自動生成することである。   In view of the above problems, an object of the present invention is to automatically generate a new bilingual dictionary with appropriate accuracy based on a more diverse bilingual dictionary.

上記の目的をふまえ、本発明の一態様(1)は、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理装置において、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段と、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得手段と、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳手段と、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出手段と、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出手段と、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録手段と、を有することを特徴とする。   Based on the above object, one aspect (1) of the present invention provides a new bilingual dictionary for translating a first language into a second language, and a bilingual dictionary according to the first language and the second language. A first bilingual dictionary for translating the first language into a third language, and a second for translating the second language into the third language. Storage means for the new bilingual dictionary, a first material text in the first language, and content identical to or related to the first material text, Material acquisition means for acquiring the second material text in the language, and the acquired first material text is translated into the first translation in the third language using the first bilingual dictionary Use the second bilingual dictionary for the acquired second material text Translation means for translating into a second translation in the third language, and similarity for extracting words having a predetermined similarity between the translated first translation and the second translation as similar words A word extraction means, a word in the first language corresponding to the extracted similar word in the first material text, and the second corresponding to the extracted similar word in the second material text It is characterized by comprising: bilingual word extracting means for extracting a language word as a set of parallel translation words; and dictionary registration means for registering the extracted parallel word set in the new bilingual dictionary.

本発明の他の態様(8)は、上記態様を方法のカテゴリで捉えたもので、コンピュータを用いて、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理方法において、コンピュータが、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現しており、コンピュータが、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得処理と、コンピュータが、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳処理と、コンピュータが、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出処理と、コンピュータが、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出処理と、コンピュータが、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録処理と、を含むことを特徴とする。   According to another aspect (8) of the present invention, the above aspect is captured by a method category, and a new bilingual dictionary for translating a first language into a second language using a computer is provided. In an information processing method generated based on a bilingual dictionary related to one language and a second language, a computer translates the first language into a third language, the first bilingual dictionary, and the second bilingual dictionary Storage means for translating the second language into the third language and the new bilingual dictionary, and the computer implements the first language in the first language. A material acquisition process for acquiring a material text and a second material text in the second language that is the same as or related to the first material text; The first bilingual dictionary of material text A translation process that translates the second material text into the second translation in the third language using the second bilingual dictionary using the second translation text A similar word extraction process in which a computer extracts a word having a predetermined similarity between the translated first translated sentence and the second translated sentence as a similar word, and the computer extracts the similar A set of parallel translations of a word in the first language corresponding to a word in the first material text and a word in the second language corresponding to the extracted similar word in the second material text And a bilingual word extraction process for extracting the pair of bilingual words extracted in the new bilingual dictionary.

本発明の他の態様(9)は、上記態様をコンピュータ・プログラムのカテゴリで捉えたもので、コンピュータを制御することにより、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成させる情報処理プログラムであって、そのプログラムは、コンピュータに、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現させ、コンピュータに、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得させ、コンピュータに、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳させるとともに、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳させ、コンピュータに、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出させ、コンピュータに、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出させ、コンピュータに、抽出された前記対訳語の組を前記新たな対訳辞書に登録させることを特徴とする。   Another aspect (9) of the present invention is a new bilingual dictionary for translating the first language into the second language by controlling the computer by capturing the above aspect in the category of a computer program. Is an information processing program that is generated based on a bilingual dictionary related to the first language and the second language, the program for translating the first language into a third language on a computer Storage means for the first bilingual dictionary, the second bilingual dictionary for translating the second language into the third language, and the new bilingual dictionary are realized, and the computer The first material text in the first language and the second material text in the second language that is the same as or related to the first material text, and obtained by the computer in front The first material text is translated into the first translation in the third language using the first bilingual dictionary, and the acquired second material text is translated using the second bilingual dictionary A second translation in a third language is translated, and the computer is caused to extract words having a predetermined similarity between the translated first translation and the second translation as similar words, and the computer A word in the first language corresponding to the extracted similar word in the first material text; a word in the second language corresponding to the extracted similar word in the second material text; Are extracted as a set of parallel translation words, and the computer is caused to register the extracted pair of parallel translation words in the new parallel translation dictionary.

このように、新たな対訳辞書を作成したい第一と第二の両言語について同一又は類似の素材テキストを用意し、それぞれを第三の言語に翻訳した翻訳文の間で同一類似の語を抽出し、抽出した語に対応する第一と第二の両言語の語同士を対応付けて対訳辞書とする。これにより、適切な精度で第一→第三及び第二→第三の対訳辞書があれば、第三→第二の対訳辞書が無いか又は精度が劣る場合でも、第三の言語に翻訳した語同士の類似度に基づいて、第一→第二の対訳辞書が適切な精度で自動作成できる。   In this way, the same or similar material text is prepared for both the first and second languages for which a new bilingual dictionary is to be created, and the same and similar words are extracted between the translated sentences translated into the third language. Then, words in both the first and second languages corresponding to the extracted words are associated with each other to form a bilingual dictionary. As a result, if there is a first → third and second → third bilingual dictionary with appropriate accuracy, even if there is no third → second bilingual dictionary or the accuracy is inferior, it is translated into the third language. Based on the similarity between words, a first-to-second bilingual dictionary can be automatically created with appropriate accuracy.

本発明の他の態様(2)は、上記いずれかの態様において、前記素材取得手段は、所定のウェブ検索システムから一のキーワードに基づいて、前記第一の言語のウェブページを複数含む第一のウェブ検索結果を取得し、所定のウェブ検索システムから前記キーワードに基づいて、前記第二の言語のウェブページを複数含む第二のウェブ検索結果を取得し、前記第一の言語のウェブページと前記第二の言語のウェブページのうち、互いに所定の共通する特徴を有する第一の言語のウェブページ及び第二の言語のウェブページを、それぞれ前記第一の素材テキスト及び前記第二の素材テキストとして取得することを特徴とする。   According to another aspect (2) of the present invention, in any one of the above aspects, the material acquisition unit includes a plurality of web pages in the first language based on one keyword from a predetermined web search system. A second web search result including a plurality of web pages in the second language based on the keywords from a predetermined web search system, and a web page in the first language Among the second language web pages, a first language web page and a second language web page having predetermined common features are respectively designated as the first material text and the second material text. It is characterized by acquiring as.

このように、ウェブ検索システムで同じキーワードに基づいて検索しヒットした第一の言語のウェブページ群と第二の言語のウェブページ群のなかから、共通性を基に選択した各ページを、翻訳対象となる第一の素材テキストと第二の素材テキストとして取得することにより、それぞれの文書や訳文で類似語やそれに対応する語が相互に似た用法や文脈で登場する確率が高くなるので、それに基づく対訳辞書の精度が向上する。   In this way, each page selected based on commonality from the web page group of the first language and the web page group of the second language searched and hit based on the same keyword in the web search system is translated. By obtaining the first material text and the second material text as the target, the probability that similar words and corresponding words will appear in similar usage and context in each document and translation will be high, The accuracy of the bilingual dictionary based on it is improved.

本発明の他の態様(3)は、上記いずれかの態様において、前記所定の共通する特徴は、前記第一の言語のウェブページ及び前記第二の言語のウェブページが相互に同一又は類似の画像を含んでいることであることを特徴とする。   In another aspect (3) of the present invention, in any of the above aspects, the predetermined common feature is that the web page in the first language and the web page in the second language are the same or similar to each other. It is characterized by including an image.

このように、画像の共通性に基づき第一の素材テキストと第二の素材テキストの組を取得することにより、画像は話題を端的に特定する場合が多いことから、共通の話題に関する文書の組に基づく的確な対訳辞書の作成を容易に実現することができる。   In this way, by acquiring a set of the first material text and the second material text based on the commonality of the images, the image often specifies a topic in a straightforward manner. Therefore, it is possible to easily create an accurate bilingual dictionary based on.

本発明の他の態様(4)は、上記いずれかの態様において、前記所定の共通する特徴は、前記第一のウェブ検索結果又は前記第二のウェブ検索結果におけるクリック率の相対順位の近さであることを特徴とする。   In another aspect (4) of the present invention, in any one of the above aspects, the predetermined common feature is that the relative rank of the click rate in the first web search result or the second web search result is close. It is characterized by being.

このように、第一の言語又は第二の言語のウェブ検索結果をアクセス元の端末に表示した場合におけるクリック率の相対順位が共通する第一の素材テキストと第二の素材テキストの組を取得することにより、人気度や注目度などの位置付けが似た文書の組に基づいて、的確な対訳辞書を容易に作成することが可能となる。   In this way, a set of the first material text and the second material text having the same relative click rate when the web search result of the first language or the second language is displayed on the access source terminal is acquired. By doing so, it is possible to easily create an accurate bilingual dictionary based on a set of documents having similar positions such as popularity and attention.

本発明の他の態様(5)は、上記いずれかの態様において、前記素材取得手段は、一の前記第一の素材テキストに対して複数の前記第二の素材テキストを取得し、前記翻訳手段は、抽出された前記複数の前記第二の素材テキストをそれぞれ前記第二の訳文に翻訳し、前記類似語抽出手段は、前記第一の訳文と、翻訳された複数の前記第二の訳文と、の間で所定の類似性がある語をそれぞれ類似語として抽出することを特徴とする。   In another aspect (5) of the present invention, in any one of the above aspects, the material acquisition unit acquires a plurality of the second material texts for one first material text, and the translation unit Respectively translate the plurality of the extracted second material texts into the second translation, and the similar word extraction means includes the first translation and the plurality of translated second translations. , Each word having a predetermined similarity is extracted as a similar word.

このように、一つの原語文書に対して複数の第二の素材テキスト(例えば、ある日本語のページに対し、類似性の高さを表わす類似度1位から10位までの中国語ページを抽出するなど)を取得して対訳辞書の作成に用いることにより、一つの第一の言語の語に対し、第二の言語の多様な語を対応付けたり、逆に多くの第二の素材テキストで用いられた語を対応付けるなど、対訳辞書の多様性や普遍性が改善できる。   In this way, a plurality of second material texts for one source language document (for example, Chinese pages with the first to tenth similarities representing the high degree of similarity are extracted for a certain Japanese page) Etc.) and used to create a bilingual dictionary, by associating various words in the second language with one first language word, or conversely with many second material texts The diversity and universality of the bilingual dictionary can be improved by matching the words used.

本発明の他の態様(6)は、上記いずれかの態様において、前記素材取得手段は、複数の前記第一の素材テキストを取得するとともに、取得した複数の前記第一の素材テキストごとに、対応する前記第二の素材テキストを一又は二以上取得し、取得された前記第一の素材テキストと対応する前記第二の素材テキストの組合せごとに、前記翻訳手段が前記翻訳を行い、前記類似語抽出手段が前記類似語の抽出を行い、前記対訳語抽出手段が前記対訳語の組について抽出を行い、前記辞書登録手段が前記新たな対訳辞書への登録を行うことを特徴とする。   In another aspect (6) of the present invention, in any one of the above aspects, the material acquisition unit acquires a plurality of the first material texts, and for each of the acquired plurality of the first material texts, One or more corresponding second material texts are acquired, and for each combination of the acquired first material text and the corresponding second material text, the translation means performs the translation, and the similarity The word extraction unit extracts the similar words, the parallel translation extraction unit extracts the pair of parallel translations, and the dictionary registration unit registers in the new parallel translation dictionary.

このように、第一の素材テキストを複数取得すると共に、個々の第一の素材テキストごとに一つ又は複数の第二の素材テキストを取得し、第一の素材テキストと第二の素材テキストの組合せごとに翻訳、類似語の抽出、対訳辞書への登録を行うことにより、第一の言語と第二の言語の間における語のより多様な組合せを登録でき、より実用性の高い対訳辞書が得られる。   In this way, a plurality of first material texts are acquired, and one or more second material texts are acquired for each first material text, and the first material text and the second material text are obtained. By translating each combination, extracting similar words, and registering them in the bilingual dictionary, you can register more diverse combinations of words between the first language and the second language, creating a more practical bilingual dictionary. can get.

本発明の他の態様(7)は、上記いずれかの態様において、前記辞書登録手段は、前記第一の言語の一の語に係る前記対訳語の組であって前記第二の言語の異なる語に係るものが前記対訳語抽出手段により複数抽出された場合、その抽出の回数が多い前記対訳語の組を優先して前記対訳辞書に加えることを特徴とする。   According to another aspect (7) of the present invention, in any one of the above aspects, the dictionary registration unit is a set of the parallel translation words related to one word of the first language, and is different in the second language. When a plurality of words related to a word are extracted by the parallel word extraction unit, the pair of parallel words that are frequently extracted are preferentially added to the parallel dictionary.

このように、第一の素材テキストと第二の素材テキストの一つの組合せ又は複数の組合せから、第一の言語の同じ語に対し、第二の言語での表現が何通りも抽出され、対訳語の組の候補が複数ある場合、抽出すなわち登場の回数が多い対訳語の組を優先して対訳辞書に登録することにより、頻繁に用いられる語が優先的に対訳辞書に登録されるので、より多く使われる普遍的な言語表現に基づき、汎用性と精度に優れた対訳辞書を得ることができる。   In this way, several expressions in the second language are extracted for the same word in the first language from one or a plurality of combinations of the first material text and the second material text. When there are multiple word set candidates, frequently used words are registered in the bilingual dictionary by preferentially registering a pair of bilingual words extracted, that is, appearing frequently, in the bilingual dictionary. A bilingual dictionary with excellent versatility and accuracy can be obtained based on more commonly used universal language expressions.

なお、上記の各態様とは異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。異なるカテゴリについては、「手段」を「処理」又は「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は上記のものに限定されず、適宜変更したりまとめて処理するなど、変更可能である。   It should be noted that a category (method for the apparatus, program for the method, etc.) different from each of the above-described modes and more specific modes described below are also included in the present invention. For different categories, “means” shall be appropriately read as “process” or “step”. Further, the order of execution of processes and steps is not limited to the above, and can be changed as appropriate or can be processed collectively.

本発明によれば、より多様な対訳辞書を基礎として新たな対訳辞書を適切な精度で自動生成することが可能となる。   According to the present invention, a new bilingual dictionary can be automatically generated with appropriate accuracy on the basis of a more diverse bilingual dictionary.

本発明の実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of embodiment of this invention. 本発明の実施形態で用いる情報(データ)を例示する図。The figure which illustrates the information (data) used by embodiment of this invention. 本発明の実施形態における処理手順を示すフローチャート。The flowchart which shows the process sequence in embodiment of this invention. 本発明の実施形態の作用を表す概念図。The conceptual diagram showing the effect | action of embodiment of this invention.

次に、本発明を実施するための形態(「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。   Next, modes for carrying out the present invention (referred to as “embodiments”) will be described with reference to the drawings. It should be noted that assumptions common to those already described in the background art and problems are omitted as appropriate.

〔1.構成〕
本実施形態は、図1に示す対訳辞書生成装置1(以下「本装置1」又は「本装置」と略称する)に関するもので、本装置1は、第一の言語(ここでは日本語とし、以下「原語」とも呼ぶ)を第二の言語(ここでは中国語とし、以下「対象言語」とも呼ぶ)に翻訳するための対訳辞書(以下「新たな対訳辞書」と呼ぶ)を生成する情報処理装置である。本装置1は、一般的なコンピュータの構成として少なくとも、CPUなどの演算制御部6と、主メモリや補助記憶装置等の記憶装置7と、通信ネットワークN(インターネット、携帯電話網、LANなど)との通信手段8(LANアダプタや通信ゲートウェイ装置など)と、を有する。
[1. Constitution〕
The present embodiment relates to the bilingual dictionary generation device 1 (hereinafter abbreviated as “this device 1” or “this device”) shown in FIG. 1, and this device 1 is a first language (here, Japanese, Information processing for generating a bilingual dictionary (hereinafter referred to as a “new bilingual dictionary”) for translating a “language” (hereinafter also referred to as “original language”) into a second language (herein, Chinese, hereinafter also referred to as “target language”) Device. The apparatus 1 has a general computer configuration including at least an arithmetic control unit 6 such as a CPU, a storage device 7 such as a main memory and an auxiliary storage device, and a communication network N (Internet, mobile phone network, LAN, etc.) Communication means 8 (such as a LAN adapter or a communication gateway device).

そして、本装置1では、記憶装置7に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(10,20など)を実現する。これら各要素のうち、情報の記憶手段は、記憶装置7において各種のデータベース(「DB」とも表す)やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。   In the apparatus 1, a predetermined computer program (not shown) stored (installed) in advance in the storage device 7 controls the arithmetic control unit 6 so that elements (10, 20, etc.) shown in FIG. Is realized. Among these elements, the information storage means can be realized in the storage device 7 in any format such as various databases (also referred to as “DB”), variables such as files and arrays, various stacks and registers, and system setting values.

このような記憶手段のうち、対訳辞書記憶手段15は、原語である日本語を第三の言語(ここでは英語とし、以下「仮言語」とも呼ぶ)に翻訳するための第一の対訳辞書JEと、対象言語である中国語を仮言語である英語に翻訳するための第二の対訳辞書CEと、新たな対訳辞書JC(例えば図2(1))と、をデータとして記憶する記憶手段である。   Among such storage means, the bilingual dictionary storage means 15 is a first bilingual dictionary JE for translating the original Japanese into a third language (herein, English, also referred to as “provisional language” hereinafter). And a second bilingual dictionary CE for translating Chinese as the target language into English as the temporary language and a new bilingual dictionary JC (for example, FIG. 2 (1)) as data. is there.

これらの対訳辞書のうち、第一の対訳辞書JE及び第二の対訳辞書CEは予め記憶されているが、従来と同様でよいので詳細は省略する。また、新たな対訳辞書JCは後述の処理によって生成され、図示しない自動翻訳システムなどが利用する。また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。   Among these bilingual dictionaries, the first bilingual dictionary JE and the second bilingual dictionary CE are stored in advance. A new bilingual dictionary JC is generated by a process described later and used by an automatic translation system (not shown). Each means other than the storage means is a processing means for realizing and executing the following information processing functions and operations.

〔2.作用及び効果〕
上記のように構成した本装置1が対訳辞書を生成する処理手順を図3のフローチャートに示す。また、この処理手順に対応する処理の例を図4の概念図に示す。
〔2−1.素材テキストの取得〕
図3の処理手順では、まず、素材取得手段10が、原語である日本語による第一の素材テキストJ(以下「原語文書」又は「原語文書J」と呼ぶ)と、この原語文書Jと同一又は関連する内容であって対象言語である中国語による第二の素材テキストC(以下「対象文書」又は「対象文書C」と呼ぶ)と、を取得する(ステップS1)。
[2. Action and effect)
FIG. 3 is a flowchart showing a processing procedure in which the apparatus 1 configured as described above generates a bilingual dictionary. An example of processing corresponding to this processing procedure is shown in the conceptual diagram of FIG.
[2-1. (Get material text)
In the processing procedure of FIG. 3, first, the material acquisition means 10 is the same as the first material text J (hereinafter referred to as “source language document” or “source language document J”) in Japanese as the source language, and this source language document J. Alternatively, the second material text C (hereinafter referred to as “target document” or “target document C”) in Chinese which is the related language and the target language is acquired (step S1).

〔2−2.ウェブ検索による取得〕
ここで、原語文書Jと対象文書Cは、予め用意された素材テキストでもよいが、ウェブ検索システムから取得することが望ましい。この場合、素材取得手段10は、日本語に対応している所定のウェブ検索システムWから一のキーワードKWに基づいて、図4にも示すように、原語のウェブページ(以下「原語ページ」又は「日本語ページ」とも呼ぶ)を複数含む第一のウェブ検索結果P1を取得し(ステップS11)、また、所定のウェブ検索システムW(前記ウェブ検索システムと同一でも異なっても良いが、中国語に対応しているもの)からキーワードKWに基づいて、対象言語のウェブページ(以下「対象言語ページ」と呼ぶ)を複数含む第二のウェブ検索結果P2を取得する(ステップS12)。
[2-2. (Acquired by web search)
Here, the source language document J and the target document C may be material texts prepared in advance, but it is desirable to obtain them from a web search system. In this case, as shown in FIG. 4, the material acquisition unit 10 generates a source language web page (hereinafter, “source language page” or “source language page”) based on one keyword KW from a predetermined web search system W corresponding to Japanese. A first web search result P1 including a plurality of “Japanese pages” is acquired (step S11), and a predetermined web search system W (which may be the same as or different from the web search system, Chinese Based on the keyword KW, a second web search result P2 including a plurality of web pages in the target language (hereinafter referred to as “target language page”) is acquired (step S12).

そのうえで、素材取得手段10は、第一のウェブ検索結果P1に含まれる原語ページと、第二のウェブ検索結果P2に含まれる対象言語ページのうち、互いに所定の共通する特徴を有する原語ページ及び対象言語ページ(実際には、ウェブページに含まれるテキスト)を、それぞれ原語文書J及び対象文書Cとして取得する(ステップS13)。   In addition, the material acquisition unit 10 includes a source language page and a target having a predetermined common characteristic among the source language page included in the first web search result P1 and the target language page included in the second web search result P2. A language page (actually, text included in a web page) is acquired as a source language document J and a target document C, respectively (step S13).

このように、ウェブ検索システムで同じキーワードに基づいて検索しヒットした原語ページ群と対象言語ページ群のなかから、共通性を基に選択した各ページを、翻訳対象となる原語文書と対象文書として取得することにより、それぞれの文書や訳文で類似語やそれに対応する語が相互に似た用法や文脈で登場する確率が高くなるので、それに基づく対訳辞書の精度が向上する。   In this way, each page selected based on the commonality among the source language page group and the target language page group searched and hit based on the same keyword in the web search system is used as the source language document and target document to be translated. Acquiring it increases the probability that similar words and corresponding words appear in similar usages and contexts in each document and translation, so the accuracy of the bilingual dictionary based on it increases.

〔2−3.共通する特徴の例〕
上記のようにウェブ検索により原語文書Jと対象文書Cを取得する基準となる前記所定の共通する特徴の一例は、原語ページ及び対象言語ページが相互に同一又は類似の画像を含んでいることである。画像間における同一類似の判断については、画像の部分ごとの特徴量を表す特徴ベクトルの類似性などを用いてそれら同一や類似を判断する従来技術を適宜選択して判断すればよい。そして、例えば、それぞれの検索結果中で上位(例えば20位まで)の原語ページと対象言語ページのうち、同一の画像を含むものがあればそれらを原語文書Jと対象文書Cとして取得し、同一の画像が無ければ次に類似度の高い画像を含むもの同士を原語文書Jと対象文書Cとして取得するなどが考えられる。
[2-3. Examples of common features)
As described above, an example of the predetermined common feature that is a reference for acquiring the source document J and the target document C by web search is that the source language page and the target language page include the same or similar images. is there. The determination of the same similarity between images may be made by appropriately selecting a conventional technique for determining the sameness or similarity using the similarity of feature vectors representing the feature amount of each part of the image. And, for example, if there is an upper page (for example, up to 20th) source language page and target language page that include the same image in each search result, they are acquired as the source language document J and target document C, and the same If there is no such image, it may be possible to obtain the documents having the next highest similarity as the source language document J and the target document C.

このように、画像の共通性に基づき原語文書と対象文書の組を取得することにより、画像は話題を端的に特定する場合が多いことから、共通の話題に関する文書の組に基づく的確な対訳辞書の作成を容易に実現することができる。   In this way, by acquiring a set of a source language document and a target document based on commonality of images, images often specify topics in a straightforward manner, so an accurate bilingual dictionary based on a set of documents related to a common topic Can be easily realized.

また、所定の共通する特徴の他の一例は、第一のウェブ検索結果又は第二のウェブ検索結果におけるクリック率の相対順位の近さであり、より具体的には、第一のウェブ検索結果P1中における原語ページのクリック率の相対順位と、第二のウェブ検索結果P2中における対象言語ページのクリック率の相対順位とが、近いことである。相対順位は、例えば、クリック率が首位であることに限らず、例えば、所定の順位範囲(例えば2位から5位に含まれている)などでもよい。   Another example of the predetermined common feature is the closeness of the relative ranking of the click rate in the first web search result or the second web search result, more specifically, the first web search result. The relative rank of the click rate of the original language page in P1 and the relative rank of the click rate of the target language page in the second web search result P2 are close. For example, the relative rank is not limited to the top click rate, but may be a predetermined rank range (for example, included in the second to fifth ranks).

このようなクリック率は、例えば、ウェブ検索システムWで図2(2)に例示するようなウェブ検索ログを蓄積し、キーワード(検索キーワード)KWに基づく検索結果P1やP2のページからいずれかのウェブページへのリンクがクリックされるたびに更新してゆくクリック数やCTRなどのクリック情報に基づいて、取得したり計算することが考えられる。   Such a click rate is obtained by, for example, accumulating a web search log as illustrated in FIG. 2 (2) in the web search system W, and selecting either of the search results P1 and P2 pages based on the keyword (search keyword) KW. It is conceivable to obtain or calculate based on click information such as the number of clicks and CTR updated each time a link to a web page is clicked.

このように、原語又は対象言語のウェブ検索結果をアクセス元の端末に表示した場合におけるクリック率の相対順位が共通する原語文書と対象文書の組を取得することにより、人気度や注目度などの位置付けが似た文書の組に基づいて、的確な対訳辞書を容易に作成することが可能となる。   In this way, by acquiring a pair of a source document and a target document having a common relative click rate when the web search result of the source language or target language is displayed on the access source terminal, the degree of popularity, the degree of attention, etc. An accurate bilingual dictionary can be easily created based on a set of documents with similar positioning.

〔2−4.文書の翻訳と類似語の抽出〕
続いて、翻訳手段20が、以上のように取得された原語文書Jを第一の対訳辞書JEを用いて仮言語である英語による第一の訳文E1に翻訳し、また、取得された対象文書Cを第二の対訳辞書CEを用いて仮言語である英語による第二の訳文E2に翻訳する(ステップS2)。そして、類似語抽出手段30が、翻訳された第一の訳文E1と第二の訳文E2との間で所定の類似性がある語を類似語として抽出する(ステップS3)。
[2-4. (Translation of documents and extraction of similar words)
Subsequently, the translation unit 20 translates the original language document J acquired as described above into the first translation E1 in English as a temporary language using the first parallel translation dictionary JE, and the acquired target document. C is translated into a second translation E2 in English, which is a provisional language, using the second bilingual dictionary CE (step S2). Then, the similar word extraction unit 30 extracts words having a predetermined similarity between the translated first translated sentence E1 and the second translated sentence E2 as similar words (step S3).

例えば、図4の例では、「4WD」という同じキーワードKWに基づき、日本語ウェブサイトに関する第一の検索結果P1と、中国語ウェブサイトに関する第二の検索結果P2とが得られ、そこから取得した原語文書Jと対象文書Cの各訳文E1とE2から、類似語として、互いに同一の語「car」が抽出された場合を考える。   For example, in the example of FIG. 4, based on the same keyword KW of “4WD”, a first search result P1 related to the Japanese website and a second search result P2 related to the Chinese website are obtained and acquired from there. Consider a case where the same word “car” is extracted as a similar word from the translated sentences E1 and E2 of the original document J and the target document C.

〔2−5.対訳語の抽出と登録〕
続いて、対訳語抽出手段40が、抽出された類似語(ここでは「car」)に原語文書Jで対応する日本語の語(例えば「自動車」)と、抽出された類似語(「car」)に対象文書Cで対応する中国語の語(例えば「汽車」)と、を対訳語の組として抽出する(ステップS4)。なお、中国語の例については文字の制限により、ここでは「汽車」のように繁体字で示すが、図4の例で簡体字で示すものと対応する。このように抽出された対訳語の組(「自動車」→「汽車」)を辞書登録手段50が、新たな対訳辞書JCに登録する(ステップS5)。
[2-5. (Extraction and registration of bilingual words)
Subsequently, the bilingual word extraction means 40 uses the Japanese word (for example, “car”) corresponding to the extracted similar word (here “car”) in the source language document J, and the extracted similar word (“car”). ) And a Chinese word (for example, “train”) corresponding to the target document C is extracted as a pair of parallel words (step S4). Note that the Chinese example is represented in traditional characters such as “train” due to character restrictions, but corresponds to the simplified character in the example of FIG. The dictionary registration unit 50 registers the pair of parallel translations extracted in this way ("automobile" → "train") in the new parallel translation dictionary JC (step S5).

〔2−6.基本的な効果〕
以上のように、新たな対訳辞書を作成したい第一と第二の両言語(ここでは日本語と中国と)について同一又は類似の素材テキストを用意し、それぞれを第三の言語(ここでは英語)に翻訳した翻訳文の間で同一類似の語を抽出し、抽出した語に対応する日本語と中国語の語同士を対応付けて対訳辞書とする。これにより、適切な精度で日→英及び中→英の対訳辞書があれば、英→中の対訳辞書が無いか又は精度が劣る場合でも、英語に翻訳した語同士の類似度に基づいて、日→中の対訳辞書が適切な精度で自動作成できる。
[2-6. Basic effect)
As mentioned above, prepare the same or similar material text for both the first and second languages (here, Japanese and Chinese) for which you want to create a new bilingual dictionary, ) Are extracted from the translated sentences translated into (), and Japanese and Chinese words corresponding to the extracted words are associated to form a bilingual dictionary. Thus, if there is a bilingual dictionary of Japanese → English and Chinese → English with appropriate accuracy, even if there is no English → Chinese bilingual dictionary or the accuracy is inferior, based on the similarity between words translated into English, A bilingual dictionary between Japanese and Chinese can be automatically created with appropriate accuracy.

〔2−7.複数の対象文書を用いる例〕
また、原語文書Jに対して複数の対象文書Cを用いて対訳語を抽出してもよい。この場合、素材取得手段10は、一の原語文書Jに対して複数の対象文書Cを取得し、翻訳手段20は、抽出された複数の対象文書Cをそれぞれ第二の訳文E2に翻訳し、類似語抽出手段30は、第一の訳文E1と、翻訳された複数の第二の訳文E2と、の間で所定の類似性がある語をそれぞれ類似語として抽出する。
[2-7. Example using multiple target documents)
In addition, parallel translation words may be extracted from the source language document J using a plurality of target documents C. In this case, the material acquisition unit 10 acquires a plurality of target documents C for one source language document J, and the translation unit 20 translates the extracted plurality of target documents C into the second translated sentence E2, respectively. The similar word extraction unit 30 extracts words having a predetermined similarity between the first translated sentence E1 and the plurality of translated second translated sentences E2 as similar words.

このように、一つの原語文書Jに対して複数の対象文書C(例えば、ある日本語のページに対し、類似性の高さを表わす類似度1位から10位までの中国語ページを抽出するなど)を取得して対訳辞書の作成に用いることにより、一つの原語の語に対し、対象言語の多様な語を対応付けたり(例えば、「車」→「汽車」と、「車」→「車子」)、逆に多くの対象文書で用いられた語を対応付けるなど、対訳辞書の多様性や普遍性が改善できる。   As described above, a plurality of target documents C (for example, Chinese pages having the first to the tenth similarities representing the high degree of similarity with respect to a certain Japanese page are extracted for one source language document J. Etc.) and used for the creation of a bilingual dictionary, various words of the target language can be associated with one source word (for example, “car” → “train”, “car” → “ "Carriage"), and conversely, words used in many target documents can be matched to improve the diversity and universality of the bilingual dictionary.

〔2−8.原語文書を複数用いる例〕
上に複数の対象文書Cを用いる例を示したが、原語文書Jを複数用いてもよい。この場合、素材取得手段10は、複数の原語文書Jを取得するとともに、取得した複数の原語文書Jごとに、対応する対象文書Cを一又は二以上取得し、このように取得された原語文書Jと対応する対象文書Cの組合せごとに、翻訳手段20が翻訳を行い、類似語抽出手段30が類似語の抽出を行い、対訳語抽出手段40が対訳語の組について抽出を行い、辞書登録手段50が新たな対訳辞書への登録を行う。
[2-8. Example of using multiple source language documents)
Although an example using a plurality of target documents C has been shown above, a plurality of source language documents J may be used. In this case, the material acquisition unit 10 acquires a plurality of source language documents J, acquires one or more corresponding target documents C for each of the acquired source language documents J, and the source language documents thus acquired. For each combination of target document C corresponding to J, translation means 20 translates, similar word extraction means 30 extracts similar words, parallel translation word extraction means 40 extracts a pair of parallel translation words, and registers the dictionary. The means 50 registers in a new bilingual dictionary.

このように、原語文書Jを複数取得すると共に、個々の原語文書Jごとに一つ又は複数の対象文書Cを取得し、原語文書Jと対象文書Cの組合せごとに翻訳、類似語の抽出、対訳辞書への登録を行うことにより、原語と対象言語の間における語のより多様な組合せを登録でき、より実用性の高い対訳辞書が得られる。   In this way, a plurality of source language documents J are acquired, one or more target documents C are acquired for each source language document J, translation is performed for each combination of source language document J and target document C, and similar words are extracted. By registering in the bilingual dictionary, more various combinations of words between the original language and the target language can be registered, and a more practical bilingual dictionary can be obtained.

〔2−9.抽出数に基づく登録〕
また、原語の一語に対し対象言語の語の候補が複数ある場合は、抽出数が多いものを優先することが望ましい。この場合、辞書登録手段50は、原語の一の語に係る対訳語の組であって対象言語の異なる語に係るものが対訳語抽出手段40により複数抽出された場合(例えば、「車」→「汽車」と、「車」→「車子」)、その抽出の回数が多い対訳語の組を優先して新たな対訳辞書に加える。
[2-9. (Registration based on the number of extractions)
In addition, when there are a plurality of candidate words of the target language with respect to one word of the original word, it is desirable to prioritize the one with a large number of extractions. In this case, the dictionary registration means 50 is a case where a plurality of parallel word extraction means 40 that are pairs of parallel words related to one word of the original language and that are different from the target language are extracted (for example, “car” → ("Train" and "car"->"car")), the pair of translated words with a high number of extractions will be given priority and added to the new bilingual dictionary.

このように、原語文書Jと対象文書Cの一つの組合せ又は複数の組合せから、原語の同じ語に対し、対象言語での表現が何通りも抽出され、対訳語の組の候補が複数ある場合、抽出すなわち登場の回数が多い対訳語の組を優先して対訳辞書に登録することにより、頻繁に用いられる語が優先的に対訳辞書に登録されるので、より多く使われる普遍的な言語表現に基づき、汎用性と精度に優れた対訳辞書を得ることができる。   In this way, when the source language document J and the target document C are combined in one or more combinations, the expression in the target language is extracted for the same word in the source language, and there are a plurality of pairs of parallel word combinations. By registering a pair of translated words with a high number of times of extraction or appearance in the bilingual dictionary, frequently used words are preferentially registered in the bilingual dictionary. Based on the above, a bilingual dictionary with excellent versatility and accuracy can be obtained.

〔2−10.翻訳精度の判定について〕
なお、本発明は、対訳辞書として日→英の他に、中→英しかないか、又は中→英と英→中があるが英→中より中→英の方が高精度であるような場合を対象としている。このような翻訳精度については、英→中と中→英それぞれの対訳辞書を用いる翻訳システムにより、例えばあるページ、ある単語の列を翻訳してみて、正解率を比べることで測ることができる。
[2-10. (Judgment of translation accuracy)
In the present invention, there are only bilingual dictionaries other than Japanese → English, and there are only middle → English, or middle → English and English → middle, but English → medium is more accurate than middle → English. Intended for cases. Such translation accuracy can be measured by, for example, translating a certain page or string of words by using a translation system using bilingual dictionaries of English-> Medium and Middle-> English, and comparing the correct answer rates.

このような翻訳結果の精度を示す指標として、BLUE(非特許文献1),NIST,WER(Word Error Rate)などを用いることが考えられる。これらは翻訳結果と模範解答を比較することで数値化するもので、例えば、対訳辞書として日→英の他に、中→英と英→中がある場合、中→英より英→中の方が高精度であれば日→英と英→中を組み合わせて日→中の新たな対訳辞書を作成し、英→中より中→英の方が高精度であれば、以上説明してきたように日→英に中→英を組み合わせて日→中の新たな対訳辞書を作成することが考えられる。   It is conceivable to use BLUE (Non-Patent Document 1), NIST, WER (Word Error Rate) or the like as an index indicating the accuracy of such a translation result. These are quantified by comparing the translation result with the model answer. For example, if there are Japanese → English as well as Japanese → English as a bilingual dictionary, middle → English and English → middle, English → middle rather than English → middle If it is highly accurate, create a new bilingual dictionary for Japanese → English by combining Japanese → English and English → Chinese. If English → Chinese → English → Middle is more accurate, as explained above It is conceivable to create a new bilingual dictionary for Japanese → Chinese by combining Japanese → English and Chinese → English.

〔3.他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本発明は、日本語と中国語、日本語と他の言語(韓国語、フランス語他)の対訳辞書に限らず、他の言語同士の対訳辞書にも適用可能である。また、本出願における対訳に関する「語」は、単語や単文節に限らず、複数の語からなる定型句など、任意の単位としてよい。
[3. Other embodiments]
In addition, said each embodiment is only an illustration, and this invention includes what is illustrated below and other embodiment other than that. For example, the present invention can be applied not only to bilingual dictionaries of Japanese and Chinese, Japanese and other languages (Korean, French, etc.), but also to bilingual dictionaries of other languages. In addition, the “word” related to the bilingual translation in the present application is not limited to a word or a single phrase, and may be an arbitrary unit such as a fixed phrase composed of a plurality of words.

また、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。また、各構成図、データの図、フローチャートの図などは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。例えば、本装置1は、ウェブ検索システムWと一体に構成してもよいし、また逆に、サーバなどの装置を複数用いて実現してもよい。個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。   In addition, each element such as means relating to the present invention may be realized by other information processing mechanisms such as a physical electronic circuit without being limited to the arithmetic control unit of the computer. Further, each configuration diagram, data diagram, flowchart diagram, and the like are merely examples, and the presence / absence of each element, the order of arrangement and processing execution, specific contents, and the like can be changed as appropriate. For example, the apparatus 1 may be configured integrally with the web search system W, or conversely, may be realized by using a plurality of apparatuses such as servers. A configuration in which each storage means is realized by a separate and independent server device or system is also common. Depending on the function, the configuration can be flexibly changed, for example, by calling an external platform or the like with an API (application program interface) or network computing (so-called cloud or the like).

1 対訳辞書生成装置(本装置)
W ウェブ検索システム
6 演算制御部
7 記憶装置
8 通信手段
10 素材取得手段
15 対訳辞書記憶手段
20 翻訳手段
30 類似語抽出手段
40 対訳語抽出手段
50 辞書登録手段
KW キーワード
J 原語文書
C 対象文書
E1,E2 訳文
JE 第一の対訳辞書
CE 第二の対訳辞書
JC 新たな対訳辞書
N 通信ネットワーク
1 Bilingual dictionary generation device (this device)
W Web search system 6 Arithmetic control unit 7 Storage device 8 Communication means 10 Material acquisition means 15 Bilingual dictionary storage means 20 Translation means 30 Similar word extraction means 40 Bilingual word extraction means 50 Dictionary registration means KW Keyword J Original language document C Target document E1, E2 Translation JE First Bilingual Dictionary CE Second Bilingual Dictionary JC New Bilingual Dictionary N Communication Network

Claims (9)

第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理装置において、
前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段と、
前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得手段と、
取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳手段と、
翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出手段と、
抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出手段と、
抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録手段と、
を有することを特徴とする情報処理装置。
In an information processing apparatus that generates a new bilingual dictionary for translating a first language into a second language based on the bilingual dictionary according to the first language and the second language,
A first bilingual dictionary for translating the first language into a third language; a second bilingual dictionary for translating the second language into the third language; and the new bilingual dictionary And storage means for,
Material acquisition means for acquiring a first material text in the first language and a second material text in the second language that is the same as or related to the first material text;
The obtained first material text is translated into a first translation in the third language using the first bilingual dictionary, and the obtained second material text is translated into the second bilingual dictionary. Translation means for translating into a second translation in the third language,
Similar word extraction means for extracting a word having a predetermined similarity between the translated first translated sentence and the second translated sentence as a similar word;
A word in the first language corresponding to the extracted similar word in the first material text; a word in the second language corresponding to the extracted similar word in the second material text; Bilingual word extraction means for extracting
Dictionary registration means for registering the extracted pair of parallel translation words in the new parallel dictionary;
An information processing apparatus comprising:
前記素材取得手段は、
所定のウェブ検索システムから一のキーワードに基づいて、前記第一の言語のウェブページを複数含む第一のウェブ検索結果を取得し、
所定のウェブ検索システムから前記キーワードに基づいて、前記第二の言語のウェブページを複数含む第二のウェブ検索結果を取得し、
前記第一の言語のウェブページと前記第二の言語のウェブページのうち、互いに所定の共通する特徴を有する第一の言語のウェブページ及び第二の言語のウェブページを、それぞれ前記第一の素材テキスト及び前記第二の素材テキストとして取得する
ことを特徴とする請求項1記載の情報処理装置。
The material acquisition means includes
Obtaining a first web search result including a plurality of web pages in the first language based on one keyword from a predetermined web search system;
Obtaining a second web search result including a plurality of web pages in the second language based on the keyword from a predetermined web search system;
Of the web page in the first language and the web page in the second language, the web page in the first language and the web page in the second language having predetermined common features are respectively connected to the first language web page. The information processing apparatus according to claim 1, wherein the information processing apparatus acquires the material text and the second material text.
前記所定の共通する特徴は、前記第一の言語のウェブページ及び前記第二の言語のウェブページが相互に同一又は類似の画像を含んでいることである
ことを特徴とする請求項2記載の情報処理装置。
3. The predetermined common feature is that the web page in the first language and the web page in the second language include images that are the same or similar to each other. Information processing device.
前記所定の共通する特徴は、前記第一のウェブ検索結果又は前記第二のウェブ検索結果におけるクリック率の相対順位の近さである
ことを特徴とする請求項2又は3記載の情報処理装置。
The information processing apparatus according to claim 2, wherein the predetermined common feature is a closeness of a relative rank of a click rate in the first web search result or the second web search result.
前記素材取得手段は、一の前記第一の素材テキストに対して複数の前記第二の素材テキストを取得し、
前記翻訳手段は、抽出された前記複数の前記第二の素材テキストをそれぞれ前記第二の訳文に翻訳し、
前記類似語抽出手段は、前記第一の訳文と、翻訳された複数の前記第二の訳文と、の間で所定の類似性がある語をそれぞれ類似語として抽出する
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
The material acquisition means acquires a plurality of the second material texts for one first material text,
The translation means translates the plurality of the extracted second material texts into the second translated text,
The similar word extracting unit extracts words having a predetermined similarity between the first translated sentence and the plurality of translated second translated sentences as similar words, respectively. The information processing apparatus according to any one of 1 to 4.
前記素材取得手段は、複数の前記第一の素材テキストを取得するとともに、取得した複数の前記第一の素材テキストごとに、対応する前記第二の素材テキストを一又は二以上取得し、
取得された前記第一の素材テキストと対応する前記第二の素材テキストの組合せごとに、前記翻訳手段が前記翻訳を行い、前記類似語抽出手段が前記類似語の抽出を行い、前記対訳語抽出手段が前記対訳語の組について抽出を行い、前記辞書登録手段が前記新たな対訳辞書への登録を行う
ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
The material acquisition means acquires a plurality of the first material texts, acquires one or more corresponding second material texts for each of the plurality of acquired first material texts,
For each combination of the second material text corresponding to the acquired first material text, the translation unit performs the translation, the similar word extraction unit extracts the similar word, and the bilingual word extraction The information processing apparatus according to any one of claims 1 to 5, wherein means extracts the pair of translated words and the dictionary registration means registers in the new parallel dictionary.
前記辞書登録手段は、
前記第一の言語の一の語に係る前記対訳語の組であって前記第二の言語の異なる語に係るものが前記対訳語抽出手段により複数抽出された場合、その抽出の回数が多い前記対訳語の組を優先して前記対訳辞書に加える
ことを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
The dictionary registration means
In the case where a plurality of bilingual word extraction means that extract a pair of parallel words related to one word of the first language and related to different words of the second language, the number of times of extraction is large. The information processing apparatus according to any one of claims 1 to 6, wherein a pair of parallel translation words is preferentially added to the parallel translation dictionary.
コンピュータを用いて、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成する情報処理方法において、
コンピュータが、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現し、
コンピュータが、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得する素材取得処理と、
コンピュータが、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳し、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳する翻訳処理と、
コンピュータが、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出する類似語抽出処理と、
コンピュータが、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出する対訳語抽出処理と、
コンピュータが、抽出された前記対訳語の組を前記新たな対訳辞書に登録する辞書登録処理と、
を含むことを特徴とする情報処理方法。
In an information processing method for generating a new bilingual dictionary for translating a first language into a second language using a computer based on the bilingual dictionary according to the first language and the second language,
A first bilingual dictionary for translating the first language into a third language; a second bilingual dictionary for translating the second language into the third language; A bilingual dictionary and storage means for
A material acquisition process in which the computer acquires a first material text in the first language and a second material text in the second language that is the same as or related to the first material text. When,
The computer translates the acquired first material text into the first translation in the third language using the first bilingual dictionary, and converts the acquired second material text into the second translation text. A translation process for translating into a second translation in the third language using a bilingual dictionary;
A similar word extraction process in which the computer extracts a word having a predetermined similarity between the translated first translated sentence and the second translated sentence as a similar word;
A computer in which the first language word corresponds to the extracted similar word in the first material text, and the second language word corresponds to the extracted similar word in the second material text. Bilingual word extraction processing for extracting a word as a pair of bilingual words;
A dictionary registration process in which the computer registers the extracted pair of bilingual words in the new bilingual dictionary;
An information processing method comprising:
コンピュータを制御することにより、第一の言語を第二の言語に翻訳するための新たな対訳辞書を、前記第一の言語及び第二の言語に係る対訳辞書に基づいて生成させる情報処理プログラムであって、そのプログラムは、
コンピュータに、前記第一の言語を第三の言語に翻訳するための第一の対訳辞書と、前記第二の言語を前記第三の言語に翻訳するための第二の対訳辞書と、前記新たな対訳辞書と、のための記憶手段を実現させ、
コンピュータに、前記第一の言語による第一の素材テキストと、前記第一の素材テキストと同一又は関連する内容であって前記第二の言語による第二の素材テキストと、を取得させ、
コンピュータに、取得された前記第一の素材テキストを前記第一の対訳辞書を用いて前記第三の言語による第一の訳文に翻訳させるとともに、取得された前記第二の素材テキストを前記第二の対訳辞書を用いて前記第三の言語による第二の訳文に翻訳させ、
コンピュータに、翻訳された前記第一の訳文と前記第二の訳文との間で所定の類似性がある語を類似語として抽出させ、
コンピュータに、抽出された前記類似語に前記第一の素材テキストで対応する前記第一の言語の語と、抽出された前記類似語に前記第二の素材テキストで対応する前記第二の言語の語と、を対訳語の組として抽出させ、
コンピュータに、抽出された前記対訳語の組を前記新たな対訳辞書に登録させる
ことを特徴とする情報処理プログラム。
An information processing program for generating a new bilingual dictionary for translating a first language into a second language based on the bilingual dictionary according to the first language and the second language by controlling a computer And the program is
A first bilingual dictionary for translating the first language into a third language; a second bilingual dictionary for translating the second language into the third language; A bilingual dictionary and storage means for
Causing the computer to obtain a first material text in the first language and a second material text in the second language that is the same as or related to the first material text;
The computer causes the acquired first material text to be translated into a first translation in the third language using the first bilingual dictionary, and the acquired second material text is converted to the second Translated into a second translation in the third language using the bilingual dictionary of
Causing the computer to extract words having a predetermined similarity between the translated first translated sentence and the second translated sentence as similar words;
The computer further includes the first language word corresponding to the extracted similar word in the first material text, and the second language word corresponding to the extracted similar word in the second material text. Words and words as a pair of translated words,
An information processing program for causing a computer to register the extracted pair of translated words in the new parallel dictionary.
JP2010286867A 2010-12-24 2010-12-24 Information processing apparatus, method, and program Active JP5351879B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010286867A JP5351879B2 (en) 2010-12-24 2010-12-24 Information processing apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010286867A JP5351879B2 (en) 2010-12-24 2010-12-24 Information processing apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2012133689A true JP2012133689A (en) 2012-07-12
JP5351879B2 JP5351879B2 (en) 2013-11-27

Family

ID=46649193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010286867A Active JP5351879B2 (en) 2010-12-24 2010-12-24 Information processing apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5351879B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312383A (en) * 1997-03-11 1998-11-24 Toshiba Corp Translation system, translation processing method, and recording medium for translation processing
JP2006053867A (en) * 2004-08-16 2006-02-23 Advanced Telecommunication Research Institute International Bilingual dictionary creation method and device, and computer program
JP2007026420A (en) * 2006-03-24 2007-02-01 Fujitsu Ltd Word-to-word correspondence determining program and method for parallel translation example dictionary of first language and second language
JP2012043233A (en) * 2010-08-20 2012-03-01 Yahoo Japan Corp Parallel translation dictionary generation device, method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312383A (en) * 1997-03-11 1998-11-24 Toshiba Corp Translation system, translation processing method, and recording medium for translation processing
JP2006053867A (en) * 2004-08-16 2006-02-23 Advanced Telecommunication Research Institute International Bilingual dictionary creation method and device, and computer program
JP2007026420A (en) * 2006-03-24 2007-02-01 Fujitsu Ltd Word-to-word correspondence determining program and method for parallel translation example dictionary of first language and second language
JP2012043233A (en) * 2010-08-20 2012-03-01 Yahoo Japan Corp Parallel translation dictionary generation device, method and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200701374009; 玉村 真一 外2名: '第3言語を介した対訳辞書の自動生成' 情報処理学会研究報告 第2007巻第113号, 20071119, P.87-92, 社団法人情報処理学会 *
JPN6012061406; 玉村 真一 外2名: '第3言語を介した対訳辞書の自動生成' 情報処理学会研究報告 第2007巻第113号, 20071119, P.87-92, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JP5351879B2 (en) 2013-11-27

Similar Documents

Publication Publication Date Title
FI124000B (en) Method and arrangement for processing data retrieval results
US9195644B2 (en) Short phrase language identification
JP2007257644A (en) Program, method and device for acquiring translation word based on translation word candidate character string prediction
US9984166B2 (en) Systems and methods of de-duplicating similar news feed items
US20090024599A1 (en) Method for multi-lingual search and data mining
JP2001043236A (en) Synonym extracting method, document retrieving method and device to be used for the same
US20020152258A1 (en) Method and system of intelligent information processing in a network
CN111459977B (en) Conversion of natural language queries
JP5204244B2 (en) Apparatus and method for supporting detection of mistranslation
US11537795B2 (en) Document processing device, document processing method, and document processing program
EP3441887B1 (en) Translation system
CN110678868A (en) Translation support system and the like
Duc et al. Cross-language latent relational search: Mapping knowledge across languages
CN110209781A (en) A kind of text handling method, device and relevant device
US10303747B2 (en) Method, apparatus and system for controlling address input
JP5153839B2 (en) Bilingual dictionary generation apparatus, method and program
US11301441B2 (en) Information processing system and information processing method
KR101505673B1 (en) Multi-language searching system, multi-language searching method, and image searching system based on meaning of word
JP2006201873A (en) Device for automatically extracting unregistered word and program, and device for automatically registering unregistered word and program
JP5351879B2 (en) Information processing apparatus, method, and program
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
Batjargal et al. Providing universal access to Japanese humanities digital libraries: an approach to federated searching system using automatic metadata mapping
Marimuthu et al. Automatic conversion of dialectal Tamil text to standard written Tamil text using FSTs
JP5746912B2 (en) Method, system and computer readable recording medium for refining a web document using text pattern extraction

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20121204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130823

R150 Certificate of patent or registration of utility model

Ref document number: 5351879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350