JP2006053867A - Bilingual dictionary creation method and apparatus, and computer program - Google Patents
Bilingual dictionary creation method and apparatus, and computer program Download PDFInfo
- Publication number
- JP2006053867A JP2006053867A JP2004236641A JP2004236641A JP2006053867A JP 2006053867 A JP2006053867 A JP 2006053867A JP 2004236641 A JP2004236641 A JP 2004236641A JP 2004236641 A JP2004236641 A JP 2004236641A JP 2006053867 A JP2006053867 A JP 2006053867A
- Authority
- JP
- Japan
- Prior art keywords
- language
- dictionary
- bilingual
- entry
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004590 computer program Methods 0.000 title claims description 5
- 230000006870 function Effects 0.000 claims abstract description 67
- 238000013519 translation Methods 0.000 claims abstract description 66
- 238000000605 extraction Methods 0.000 claims description 43
- 230000014616 translation Effects 0.000 abstract description 65
- 238000012545 processing Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 235000001954 papillon Nutrition 0.000 description 3
- 244000229285 papillon Species 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002546 agglutinic effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】任意の言語の組合せに対し自動的に対訳辞書を作成できるようにする。
【解決手段】この方法は、第1言語の話者のための、第1言語から第3言語への方向性を持つ第1の辞書と、第2言語の話者のための、第2言語から第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するステップ52と、第1の辞書の内容語に関する各エントリと第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップ54と、抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するステップ56とを含む。
【選択図】 図1
A bilingual dictionary can be automatically created for a combination of arbitrary languages.
The method includes a first dictionary for a first language speaker having a direction from a first language to a third language, and a second language for a second language speaker. Preparing a second dictionary having directionality from the first language to the third language in an electronically readable form, each entry relating to a content word in the first dictionary, and a content word in the second dictionary A step 54 of extracting an entry pair whose similarity value determined as a predetermined function with respect to the set of translations of the third language included in each entry is equal to or greater than a predetermined threshold, among the entry pairs composed of each entry; And step 56 for storing the content word pairs corresponding to the entry pairs extracted in the extracting step in an electronically readable form.
[Selection] Figure 1
Description
この発明は自然言語に関する電子的辞書の自動構築技術に関し、特に、言語の組合せを問わず、自動的に機械翻訳に適した対訳辞書を構築することができる辞書作成方法および装置に関する。 The present invention relates to an automatic construction technique for an electronic dictionary relating to a natural language, and more particularly to a dictionary creation method and apparatus capable of automatically constructing a bilingual dictionary suitable for machine translation regardless of the combination of languages.
機械翻訳においては、対訳辞書は最も基本的かつ重要な資源である。しかし、対訳辞書の構築には長い時間と多大なコストとを要する。今後、様々な言語の間での自動翻訳に対する需要が増大することが予測されるが、言語の組合せは言語の数に応じて指数関数的に増大するため、いかにして対訳辞書を構築するかが重要な課題である。 In machine translation, the bilingual dictionary is the most basic and important resource. However, it takes a long time and a great cost to construct a bilingual dictionary. In the future, the demand for automatic translation between various languages is expected to increase, but the number of language combinations increases exponentially with the number of languages, so how to build a bilingual dictionary Is an important issue.
電子的な対訳辞書の構築方法には様々な手法が存在する。従来の手法のうち、最も興味深いものとして、パピヨンプロジェクト(The Papillon Project:非特許文献1)がある。この文献は、大規模、詳細、かつ一定原則にしたがった辞書を作成するための多言語語彙データを構築することに主眼をおいている。多言語辞書を作成するための主たる資源は単言語辞書である。それら単言語辞書を言語間のリンクに関連付け、多言語辞書作成のためのデータベースとする。このような方法により多言語辞書を作成する場合には数多くの協力者および専門家を必要とする。 There are various methods for constructing an electronic bilingual dictionary. Among the conventional methods, the most interesting one is the Papillon Project (Non-Patent Document 1). This document focuses on building multilingual vocabulary data for creating a large-scale, detailed, and compliant dictionary. The primary resource for creating a multilingual dictionary is a monolingual dictionary. These monolingual dictionaries are associated with links between languages and are used as a database for creating a multilingual dictionary. When a multilingual dictionary is created by such a method, a large number of collaborators and experts are required.
このプロジェクトに関連した研究として、英仏辞書および日英辞書から日仏辞書を作成する試みが非特許文献2に開示されている。
上記したような多言語間の機械翻訳を実現する場合には、多くの言語の組合せに対する対訳辞書が必要となる。しかもそのための時間およびコストを最小限に抑える必要がある。また、通常は対訳辞書の作成には両言語に精通した専門家が必要とされるが、言語の組合せが多様になると、そのような専門家を探すことも困難になる。そのため、対訳の対象となる言語に精通していない作業者であっても、任意の言語の組合せに対して対訳辞書を効率よく作成できるように、自動的に対訳辞書を作成するための技術が必要とされている。 In order to realize machine translation between multiple languages as described above, bilingual dictionaries for many language combinations are required. Moreover, it is necessary to minimize the time and cost for that purpose. In addition, an expert who is familiar with both languages is usually required to create a bilingual dictionary. However, when there are various combinations of languages, it becomes difficult to find such experts. Therefore, there is a technology for automatically creating a bilingual dictionary so that even a worker who is not familiar with the language to be translated can efficiently create a bilingual dictionary for any combination of languages. is needed.
上記した従来技術では、対訳辞書を作成する技術の必要性と、そのための試みとは示されているものの、任意の言語の組合せに対して、自動的にかつ効率よく対訳辞書を作成するための方策は示されていない。また、機械翻訳の性質上、利用可能な資源からできるだけ多くのエントリを抽出できることが望ましいが、そのための方策も従来技術には示されていない。 Although the prior art described above shows the necessity of a technique for creating a bilingual dictionary and an attempt to do so, it is possible to automatically and efficiently create a bilingual dictionary for any combination of languages. No strategy is shown. In addition, it is desirable that as many entries as possible can be extracted from available resources because of the nature of machine translation, but no measures for that purpose are shown in the prior art.
それゆえに本発明の目的は、任意の言語の組合せに対しても、自動的に対訳辞書を作成することが可能な対訳辞書作成方法および装置を提供することである。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a bilingual dictionary creation method and apparatus capable of automatically creating a bilingual dictionary for any combination of languages.
本発明のほかの目的は、任意の言語の組合せに対しても,自動的にできるだけ多くのエントリを持つ対訳辞書を作成できる対訳辞書作成方法および装置を提供することである。 Another object of the present invention is to provide a bilingual dictionary creation method and apparatus capable of automatically creating a bilingual dictionary having as many entries as possible for any combination of languages.
本発明の第1の局面に係る対訳辞書作成方法は、第1言語と第2言語との間の対訳辞書を、第3言語を仲介として自動的に作成するための対訳辞書作成方法であって、第1言語の話者のための、第1言語から第3言語への方向性を持つ第1の辞書と、第2言語の話者のための、第2言語から第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するステップと、第1の辞書の内容語に関する各エントリと第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップと、抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積する第1のステップとを含む。 A bilingual dictionary creating method according to a first aspect of the present invention is a bilingual dictionary creating method for automatically creating a bilingual dictionary between a first language and a second language with a third language as an intermediary. A first dictionary with directionality from the first language to the third language for speakers of the first language and a direction from second language to the third language for speakers of the second language A second dictionary having the characteristics in an electronically readable form, and an entry pair comprising each entry relating to the content word of the first dictionary and each entry relating to the content word of the second dictionary Of these, a step of extracting an entry pair whose similarity value defined as a predetermined function for the set of translations of the third language included in each entry is equal to or greater than a predetermined threshold, and an entry extracted in the extracting step The content word pair corresponding to the pair can be read electronically And a first step of storing by the formula.
上のような方向性を持つ第1および第2の辞書を選択し、それら辞書から、類似度の値がしきい値以上となるエントリ対に対応する内容語対を抽出することにより、それらと異なる方向性を持つ辞書を使用した場合と比較して、より高い精度でかつ多くの見出しを含む第1言語と第2言語の対訳辞書を作成できることが実験により確かめられた。辞書の作成手順は自動的で、利用者は対訳辞書の言語の組合せを指定するだけでよい。したがって、多くの言語の組合せに対して、精度の高い対訳辞書を短時間に作成できる。また、この方法によれば第1言語と第2言語との双方に精通した専門家は不要であり、非常に多くの言語の組合せに対しても、容易に対訳辞書を作成できる。 By selecting the first and second dictionaries having the above directionality and extracting the content word pairs corresponding to the entry pairs having a similarity value equal to or greater than a threshold value from these dictionaries, Experiments have confirmed that bilingual dictionaries for the first language and the second language can be created with higher accuracy and more headlines than when using dictionaries with different directions. The dictionary creation procedure is automatic, and the user only needs to specify the language combination of the bilingual dictionary. Therefore, a highly accurate bilingual dictionary can be created in a short time for many combinations of languages. Further, according to this method, an expert who is familiar with both the first language and the second language is unnecessary, and a bilingual dictionary can be easily created even for a very large number of language combinations.
好ましくは、準備するステップは、各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の2言語辞書を準備するステップと、第1言語および第2言語に関する指定を受けるステップと、複数個の2言語辞書から、指定を受けるステップで指定された第1言語から他言語への方向性を持つ辞書と、指定を受けるステップで指定された第2言語から上記他言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む。 Preferably, the preparing step includes preparing a plurality of electronically readable bilingual dictionaries each having a predetermined direction for a predetermined language speaker, and a first language and a second language. A step of receiving a specification related to a language, a dictionary having directionality from the first language specified in the step of receiving a specification to a different language from a plurality of bilingual dictionaries, and a second language specified in the step of receiving the specification Selecting a dictionary pair consisting of a dictionary having a direction to the other language.
より好ましくは、準備するステップは、各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の2言語辞書を準備するステップと、第1言語および第2言語、ならびに第3言語に関する指定を受けるステップと、複数個の2言語辞書から、指定を受けるステップで指定された第1言語から第3言語への方向性を持つ辞書と、指定を受けるステップで指定された第2言語から第3言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む。 More preferably, the preparing step comprises: preparing a plurality of electronically readable bilingual dictionaries each having a predetermined direction for a predetermined language speaker; Receiving a designation relating to two languages and a third language; a dictionary having directionality from the first language to the third language designated in the designation receiving step from a plurality of two-language dictionaries; and receiving the designation Selecting a dictionary pair consisting of a dictionary having directionality from the second language to the third language specified in (1).
さらに好ましくは、選択するステップでは、複数個の辞書対が選択されることがあり、準備するステップはさらに、選択するステップで選択された複数個の辞書対のうち、各辞書対に含まれるエントリ数の和が最も大きなものを選択するステップを含む。 More preferably, a plurality of dictionary pairs may be selected in the selecting step, and the preparing step further includes an entry included in each dictionary pair among the plurality of dictionary pairs selected in the selecting step. Selecting the one with the largest sum of numbers.
好ましくは、抽出するステップは、第1の辞書の各エントリxと、第2の辞書の各エントリyとの間の類似度S1(x,y)を次の式によって算出するステップを含む。 Preferably, the extracting step includes a step of calculating a similarity S 1 (x, y) between each entry x in the first dictionary and each entry y in the second dictionary by the following equation.
より好ましくは、予め定めるしきい値は、エントリ対(x,y)に含まれる、第3言語の共通訳語数の関数である。 More preferably, the predetermined threshold value is a function of the number of common translation words of the third language included in the entry pair (x, y).
さらに好ましくは、共通訳語数の関数は、共通訳語数に対する単調減少関数である。 More preferably, the function of the number of common translations is a monotonically decreasing function with respect to the number of common translations.
共通訳語数の関数は、共通訳語数が4以上のときには0に設定されるようにしてもよい。 The function of the number of common translations may be set to 0 when the number of common translations is 4 or more.
好ましくは、対訳辞書作成方法は、第1言語の話者のための、第3言語から第1言語への方向性を持つ第3の辞書と、第2言語の話者のための、第3言語から第2言語への方向性を持つ第4の辞書とを、電子的に読取可能な形で準備するステップと、第3言語の見出しに対応する、第3の辞書のエントリと第4の辞書のエントリとの双方から、所定条件を充足する第3言語の例文とその訳文とを抽出し、対訳文対を作成するステップと、対訳文対を作成するステップで作成された対訳文対のうち、訳文同士のアライメントを採るステップと、アライメントを採るステップで互いにアラインされたチャンクから、機能語対を抽出し電子的に読取可能な形式で蓄積する第2のステップと、電子的に読取可能な形式で蓄積する第1および第2のステップで蓄積された内容語対と機能語対とをマージするステップとをさらに含む。 Preferably, the bilingual dictionary creation method includes a third dictionary having a direction from the third language to the first language for a speaker in the first language and a third dictionary for a speaker in the second language. Preparing a fourth dictionary having directionality from the language to the second language in an electronically readable form, a third dictionary entry corresponding to the third language heading, and a fourth dictionary The third language example sentence that satisfies the predetermined condition and its translation are extracted from both the dictionary entries, and the parallel sentence pair created in the step of creating the parallel sentence pair and the step of creating the parallel sentence pair Of these, the second step of extracting the functional word pairs from the chunks aligned with each other in the alignment step and the step of taking the alignment, and storing them in an electronically readable form, and electronically readable The first and second steps stored in various formats Further comprising the step of merging up in stored content words paired with a function word pairs.
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの対訳辞書作成方法の全てのステップを実施するように当該コンピュータを制御する。 When the computer program according to the second aspect of the present invention is executed by a computer, the computer program controls the computer to perform all the steps of any of the above-described bilingual dictionary creation methods.
本発明の第3の局面に係る対訳辞書作成装置は、第1言語と第2言語との間の対訳辞書を、第3言語を仲介として自動的に作成するための対訳辞書作成装置であって、第1言語の話者のための、第1言語から第3言語への方向性を持つ第1の辞書と、第2言語の話者のための、第2言語から第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するための辞書準備手段と、第1の辞書の内容語に関する各エントリと第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するためのエントリ対抽出手段と、エントリ対抽出手段により抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するための内容語対記憶手段とを含む。 A bilingual dictionary creation device according to a third aspect of the present invention is a bilingual dictionary creation device for automatically creating a bilingual dictionary between a first language and a second language, using the third language as an intermediary. A first dictionary with directionality from the first language to the third language for speakers of the first language and a direction from second language to the third language for speakers of the second language A dictionary preparing means for preparing the second dictionary having the characteristics in an electronically readable form, each entry relating to the content word of the first dictionary, and each entry relating to the content word of the second dictionary Entry pair extraction means for extracting an entry pair whose similarity value determined as a predetermined function for a set of translated words in the third language included in each entry is equal to or greater than a predetermined threshold value Corresponds to the entry pair extracted by the entry pair extraction means That the content words pairs and a content word pair storage means for storing in electronically readable form.
[辞書の性質について]
従来の技術では、辞書の性質についてはあまり考慮されていない。しかし、実際には辞書の性質は対訳辞書の自動作成において非常に重要な意味を持つ。辞書の性質の典型的なものとしては、辞書が想定する母語と、辞書の方向性とがある。
[Dictionary properties]
In the prior art, the nature of the dictionary is not considered much. In practice, however, the nature of the dictionary is very important in the automatic creation of a bilingual dictionary. Typical characteristics of the dictionary include the native language assumed by the dictionary and the directionality of the dictionary.
本明細書において「辞書の方向性」とは、どの言語のエントリからどの言語の語を引くか、という意味の方向性を示す。本明細書ではこの方向性を「⇒」で表す。例えば英和辞書の方向性は英語⇒日本語であり、和英辞書の方向性は「日本語⇒英語」である。韓英辞書であれば「韓国語⇒英語」であり、英韓辞書であれば「英語⇒韓国語」である。なお、以下の説明では、記載を簡易にするために言語について略号を用いる。例えば日本語は「J」、英語は「E」、韓国語は「K」などと記載する。したがって和英辞書は「J⇒E」、英和辞書は「E⇒J」と表す。 In this specification, “dictionary directionality” indicates a directionality meaning which language word is drawn from which language entry. In this specification, this directionality is represented by “⇒”. For example, the direction of the English-Japanese dictionary is English → Japanese, and the direction of the Japanese-English dictionary is “Japanese → English”. The Korean-English dictionary is “Korean → English”, and the English-Korean dictionary is “English → Korean”. In the following description, abbreviations are used for languages in order to simplify the description. For example, “J” for Japanese, “E” for English, “K” for Korean, etc. Therefore, the Japanese-English dictionary is expressed as “J → E”, and the English-Japanese dictionary is expressed as “E → J”.
辞書が想定する母語とは、辞書が想定している利用者の母語のことをいう。通常、日本で作成されている英和辞書も和英辞書も、日本語を母語とし、英語を外国語とする話者(以下「日本語話者」と呼ぶ。)を利用者として想定している。一方、例えばイギリスで作成された英和辞書があるとすれば、想定している利用者は英語を母語とする話者(「英語話者」と呼ぶ。以下、他の言語についても同様である。)である。本明細書では、辞書が想定している母語を表す略号を、辞書の方向性の前に小さな文字で付すこととする。したがって、日本語話者のための英和辞書は「JE⇒J」、日本語話者のための和英辞書は「JJ⇒E」、韓国語話者のための韓英辞書は「KK⇒E」、韓国語話者のための英韓辞書は「KE⇒K」と表す。本明細書では、一般的に、言語Zの話者を対象として作成された、言語Xから言語Yへの辞書を「ZX⇒Y」と表す。 The native language assumed by the dictionary refers to the user's native language assumed by the dictionary. In general, both English-Japanese and Japanese-English dictionaries created in Japan are assumed to be users who speak Japanese as their mother tongue and English as a foreign language (hereinafter referred to as “Japanese speakers”). On the other hand, for example, if there is an English-Japanese dictionary created in the United Kingdom, an assumed user is called a speaker whose native language is English ("English speaker". The same applies to other languages hereinafter. ). In the present specification, an abbreviation representing a native language assumed by the dictionary is given in small letters before the directionality of the dictionary. Therefore, the English-Japanese dictionary for Japanese speakers "J E⇒J", Japanese-English dictionary for Japanese speakers "J J⇒E", Korean-English dictionary for the Korean speaker is "K K ⇒E ”, the English-Korean dictionary for Korean speakers is expressed as“ K E⇒K ”. In this specification, a dictionary from language X to language Y, which is generally created for speakers of language Z, is represented as “ Z X => Y”.
辞書の方向性については、従来技術では考慮されていない。しかし、方向性は実は対訳辞書作成の上で非常に重要な概念である。例えば、日本語話者が使用する和英辞書(JJ⇒E)は、日本語話者が主として英語の文を書いたり英語で話したりするときに使用される。そうした状況では、当然のことながら日本語話者は、自分が英語に翻訳しようとする日本語の単語の意味を良く知っている。したがってその単語に関する詳細な説明を辞書に記載する必要はない。例外として、日本語にあって英語に対応する概念が存在しない単語の場合には、日本語のその概念を英語で表現するための説明的な記載が載せられていることがある。また、日本語に対応する英語を和英辞書で調べようとする場合、訳語の品詞(POS)に関する情報も二次的なものとなり、それほど重要ではない。 The directionality of the dictionary is not considered in the prior art. However, directionality is actually a very important concept in creating a bilingual dictionary. For example, Japanese-English dictionary (J J⇒E) that Japanese speaker to be used is used when a Japanese speaker or speak in English mainly or write a sentence in English. In such a situation, of course, a Japanese speaker knows the meaning of the Japanese word he is trying to translate into English. Therefore, it is not necessary to write a detailed explanation about the word in the dictionary. As an exception, in the case of a word in Japanese that does not have a concept corresponding to English, an explanatory description for expressing the concept in Japanese in English may be provided. In addition, when trying to look up English corresponding to Japanese with a Japanese-English dictionary, information on the part of speech (POS) of the translation is also secondary and is not so important.
一方、日本語話者のための英和辞書(JE⇒J)は、日本語話者の観点から見て英語の単語の意味および用法などを知るために使用される。そのため、各エントリには、訳語だけではなく、語法、用法などの説明的情報、例文、および品詞などの文法的情報が付されていることが多い。 On the other hand, English-Japanese dictionary (J E⇒J) for Japanese speakers, as seen from the point of view of the Japanese speaker is used to know, such as English the meaning and usage of the word. For this reason, not only the translated words but also grammatical information such as descriptive information such as wording and usage, example sentences, and parts of speech are often attached to each entry.
例えば図4に示すように、日本語と英語において互いに対応する単語である「タンゴ」と「tango」とについて、和英辞書での「タンゴ」のエントリ160と、英和辞書の「tango」のエントリ162とは、その内容が大きく異なっている。エントリ160はごく簡単に訳語のみを挙げているのに対し、エントリ162の記載は詳細である。訳語だけではなく、その単語に関する説明、複数形および品詞などの文法的情報、例文などの情報が記載されている。言語間の対訳辞書を作成する場合、エントリ160のように訳語のみを挙げている場合の方が機械処理上では複雑さがなく、効率よく精度の高い対訳辞書を作成できる。一方、エントリ162のように訳語に関する説明文が多く含まれているものは、対訳辞書を作成する上での不要な情報を含むため、必要な機械処理が複雑になり、また誤りも多くなる。
For example, as shown in FIG. 4, for the words “tango” and “tango” that correspond to each other in Japanese and English, an
したがって、機械翻訳のための対訳辞書作成では、このような辞書の方向性と、その対象としている話者の言語とを考慮する必要がある。 Therefore, in creating a bilingual dictionary for machine translation, it is necessary to consider the directionality of such a dictionary and the language of the target speaker.
本願発明の発明者は、方向性を考慮し、英語を中間言語として日本語と韓国語との対訳辞書(以下「日韓対訳辞書」と呼ぶ。)を作成する実験を行なった。その結果、JJ⇒EとKK⇒Eという辞書の組合せで日韓対訳辞書を作成すると、それ以外の組合せを用いた場合と比較してはるかによい結果を得ることができた。辞書の方向性には普遍性があると考えられるので、このように辞書の方向性を考慮した作成方法は、日韓対訳辞書だけでなく任意の言語の組合せにおいても有効であると考えられる。以下、そのような対訳辞書自動作成装置の実施の形態について述べる。 The inventor of the present invention conducted an experiment to create a bilingual dictionary of Japanese and Korean (hereinafter referred to as “Japanese-Korean bilingual dictionary”) using English as an intermediate language in consideration of the directionality. As a result, it is creating a Japanese-Korean translation dictionary in combination dictionary that J J⇒E and K K⇒E, it was possible to obtain much better results in comparison with the case of using the other combinations. Since the directionality of the dictionary is considered to have universality, the creation method considering the directionality of the dictionary in this way is considered to be effective not only in a Japanese-Korean bilingual dictionary but also in any combination of languages. Hereinafter, an embodiment of such a bilingual dictionary automatic creation apparatus will be described.
[構成]
図1は、本発明の一実施の形態に係る辞書自動作成システム20のブロック図である。図1を参照して、辞書自動作成システム20は、種々の組合せの2言語間の辞書を多数格納した辞書記憶装置38と、それら辞書の方向性などに関する属性情報を記憶した辞書属性記憶装置36と、利用者から与えられる、作成する辞書の言語の組合せ情報(第1言語Xを指定する情報30および第2言語Yを指定する情報32)を受け、辞書属性記憶装置36を参照して辞書記憶装置38に格納された辞書の中から第1言語Xと第2言語Yとによって最適な辞書の組合せを選択し、第1言語Xと第2言語Yとの間の電子対訳辞書40を自動的に作成するための辞書自動作成装置34とを含む。
[Constitution]
FIG. 1 is a block diagram of an automatic
図2に、辞書記憶装置38の内容を示す。図2に示すように、辞書記憶装置38は、様々な言語の各々について、その言語を母語とする利用者のための、他言語との間の辞書群80、82、84、…を含む。例えば辞書群80は日本語話者のための辞書群であって、和英辞書90、英和辞書92、…を含む。同様に辞書群82は韓国語話者のための辞書群であって、韓英辞書100、英韓辞書102、…を含む。辞書群84は英語話者のための辞書群であって、和英辞書110、英和辞書112、…を含む。
FIG. 2 shows the contents of the
辞書90と辞書110とはいずれも和英辞書であるが、辞書90は日本語話者のためのものであり、辞書110は英語話者のためのものであるという相違がある。同様に辞書92と辞書112とはいずれも英和辞書であるが、辞書92は日本語話者のためのものであり、辞書112は英語話者のためのものである。
Both the
図3は、図1に示す辞書属性記憶装置36の構成を示す。図3を参照して、辞書属性記憶装置36は、複数の辞書の属性情報140、142、144、146、…を記憶している。それら属性情報は、図3に示す属性情報130のフォーマットにしたがう。属性情報130は、辞書ファイル名と、辞書ファイルまでのパス名(辞書ファイルがネットワーク上にある場合にはURL。以下単に「パス名」と呼ぶ。)と、その辞書がどの言語を母語とする話者のための辞書であるかを示す母語種別情報と、エントリを構成する第1言語の種別と、訳語を構成する第2言語の種別と、辞書に含まれるエントリ数とを含む。
FIG. 3 shows a configuration of the dictionary
例えば、辞書JJ⇒Eの場合、母語種別は日本語(J)、第1言語種別は日本語(J)、第2言語種別は英語(E)となる。辞書JE⇒Jの場合、母語種別は日本語(J)、第1言語種別は英語(E)、第2言語種別は日本語(J)となる。 For example, in the case of a dictionary J J⇒E, native types are Japanese (J), the first language type is Japanese (J), the second language type is the English (E). In the case of a dictionary J E⇒J, native types are Japanese (J), the first language type is English (E), the second language type is a Japanese (J).
再び図1を参照して、辞書自動作成装置34は、第1言語Xを指定する情報30と第2言語Yを指定する情報32との入力を利用者から受取るための入力装置50と、入力装置50が受取った言語の組合せに応じ、対訳辞書のうち、内容語に関するエントリを抽出するための辞書の組合せを辞書属性記憶装置36を参照して選択するための内容語用辞書選択部52と、辞書記憶装置38内の、内容語用辞書選択部52により選択された2つの辞書を参照して内容語に関する対訳(内容語対)を抽出するための内容語訳抽出処理部54と、内容語訳抽出処理部54により抽出された内容語対を電子的に蓄積するための内容語対記憶部56とを含む。
Referring again to FIG. 1, the dictionary
辞書自動作成装置34はさらに、内容語用辞書選択部52と同様に入力装置50が受取った言語の組合せに応じ、対訳辞書のうち、機能語に関するエントリを抽出するための辞書の組合せを辞書属性記憶装置36を参照して選択するための機能語用辞書選択部60と、辞書記憶装置38内の辞書のうち、機能語用辞書選択部60により選択された2つの辞書を参照して機能語に関する対訳(機能語対)を抽出するための機能語訳抽出処理部62と、機能語訳抽出処理部62により抽出された機能語対を電子的に蓄積するための機能語対記憶部64とを含む。
The dictionary
辞書自動作成装置34はさらに、内容語対記憶部56に記憶された内容語対と、機能語対記憶部64に記憶された機能語対とをマージして第1言語から第2言語への対訳辞書40を作成するためのマージ処理部70を含む。なお、ここで「マージ」とは、内容語対の集合と機能語対の集合とを互いに1つの集合にまとめ、さらに何らかの順序、例えば日本語であればあいうえお順、英語などアルファベットを使用する言語であればアルファベット順に、内容語対および機能語対を配列することをいう。順序の基準となる言語は、第1言語と第2言語のどちらでもよいし、それぞれを基準としてマージしたものを2つ作成してもよい。
The dictionary
内容語用辞書選択部52は、第1言語X、第2言語Yが指定されたものとすると、辞書属性記憶装置36を参照して、XX⇒Z、YY⇒Zとなるような2つの辞書を選択する機能を持つ。言語Zは任意の言語であり、該当する辞書が辞書記憶装置38に存在するものであれば、どのような言語でもよい。つまり、内容語用辞書選択部52は、第1言語Xを母語とする話者用の、第1言語Xから第3言語Zへの辞書と、第2言語Yを母語とする話者用の、第2言語Yから第3言語Zへの辞書とを選択する。
Assuming that the first language X and the second language Y are designated, the content word
一方機能語用辞書選択部60は、第1言語X,第2言語Yが指定されたものとすると、辞書属性記憶装置36を参照して、XZ⇒X、YZ⇒Yとなるような2つの辞書を選択する。つまり、機能語用辞書選択部60は、第1言語Xを母語とする話者用の、第3言語Zから第1言語Xへの辞書と、第2言語Yを母語とする話者用の、第3言語Zから第2言語Yへの辞書とを選択する。
On the other hand the function word
図5は、図1に示す内容語訳抽出処理部54のより詳細なブロック図である。図5を参照して、内容語訳抽出処理部54は、内容語用辞書選択部52により選択された2つの辞書170のエントリと、辞書172のエントリとの全ての組合せを抽出するための単語対抽出部180と、単語対抽出部180により抽出された単語対のうち、辞書170から抽出されたエントリ内の訳語と辞書172から抽出されたエントリ内の訳語との内容に基づいて、両エントリ間の類似度S1を次の式によって算出するための類似度算出部182とを含む。
FIG. 5 is a more detailed block diagram of the content word translation
内容語訳抽出処理部54はさらに、2つのエントリ間に含まれる共通の訳語数に応じて内容語対の選択または棄却を適切に行なえるように予め実験により定められた、類似度のしきい値テーブルを記憶するしきい値テーブル記憶部186と、単語対抽出部180により抽出された単語対の各々に対し、類似度算出部182により算出されたしきい値が、しきい値テーブル記憶部186に記憶されたしきい値以上か否かにしたがって当該単語対を選択するか棄却するかを決定し、選択した単語対を内容語対記憶部56に出力するための内容語対選択部184とを含む。
The content word translation
図6に、単語対抽出部180による単語対抽出結果を、韓国語と日本語との対訳辞書を英語を中間言語として作成する場合を例として示す。この場合、辞書170および172としてはそれぞれKK⇒EとJJ⇒Eが選択される。図6を参照して、KK⇒Eを参照することにより、韓国語の単語190と単語192との双方に対して、例えば2つの英語の訳語(checkおよびcheque)が抽出されたものとする。一方、日本語の単語「小切手」に対しても同じ2つの英語の訳語(checkおよびcheque)が抽出され、「防止する」に対しては3つの訳語(check, prevent, prevent from)が抽出され、「点検する」に対しては2つの訳語(examine, check)が抽出されたものとする。同様に、「照合」に対して訳語checkが、「預ける」に対して4つの訳語(leave, deposit, check, entrust)が、それぞれ抽出されたものとする。
FIG. 6 shows an example of a word pair extraction result by the word
この場合、韓国語の単語190、192と日本語の各単語との間で、式(1)にしたがって類似度を算出し、かつ各エントリ内の訳語内で共通するものの数にしたがって分類した結果を図7に示す。 In this case, the similarity is calculated according to the expression (1) between the Korean words 190 and 192 and the Japanese words, and is classified according to the number of common words in the translated words in each entry. Is shown in FIG.
例えば、韓国語190と日本語「小切手」との間では、2つの訳語(check, cheque)が共通している。また双方とも訳語は2つずつなので、類似度=2×2/(2+2)=1.000である。韓国語192と日本語「小切手」の間の関係も同様である。 For example, two translated words (check, check) are common between Korean 190 and Japanese “cheque”. In addition, since both have two translations, similarity = 2 × 2 / (2 + 2) = 1.000. The relationship between Korean 192 and Japanese “cheque” is similar.
一方、韓国語190と日本語「照合する」との間では、共通する訳語は1つである。また韓国語190の訳語は2つ、「照合する」の訳語は1つなので、類似度=2×1/(2+1)=0.667となる。図7の他の行の類似度も同様に算出される。 On the other hand, there is one common translation between Korean 190 and Japanese “match”. Further, since there are two translations of Korean 190 and one translation of “verify”, similarity = 2 × 1 / (2 + 1) = 0.667. Similarities in other rows in FIG. 7 are calculated in the same manner.
図7を参照して、仮に韓国語K1に対する英語の訳語と日本語J1に対する英語の訳語とが完全に一致した場合、単語K1とJ1とが互いに対応するものである可能性は非常に高い。しかし、図7に示すように、共有される訳語数が少なくなるにしたがい、単語K1、J1が対応するものである可能性は低くなっていく。図7に示す例では、例えばグループ(3)に属するものは採用しない方が好ましい。 Referring to FIG. 7, if the English translation for Korean K1 and the English translation for Japanese J1 completely match, it is very likely that words K1 and J1 correspond to each other. However, as shown in FIG. 7, as the number of translated words to be shared decreases, the possibility that the words K1 and J1 correspond to each other decreases. In the example shown in FIG. 7, for example, it is preferable not to use one belonging to the group (3).
そこで、共通訳語数によって、内容語対として採用するか否かを判定するための類似度のしきい値を変えることにする。具体的には、種々の実験によって大体90パーセントの精度で内容語対を採用できるようにしきい値を決定した。日本語と韓国語との対訳辞書を英語を仲介として作成する場合の共通訳語数と、共通訳語数により変化する類似度のしきい値τとを図8に示す。図8に示すように、しきい値τは共通訳語数の単調減少関数である。そして、共通訳語数が4以上になるとしきい値τは0とする。すなわち、共通訳語数が4以上の内容語対は無条件で採用している。 Therefore, the similarity threshold for determining whether or not to adopt as a content word pair is changed according to the number of common translation words. Specifically, the threshold value was determined so that the content word pair could be adopted with an accuracy of about 90 percent by various experiments. FIG. 8 shows the number of common translation words when a bilingual dictionary of Japanese and Korean is created using English as an intermediary, and the threshold value τ of similarity that varies depending on the number of common translation words. As shown in FIG. 8, the threshold τ is a monotonically decreasing function of the number of common translation words. The threshold τ is set to 0 when the number of common translation words is 4 or more. In other words, content word pairs having a common translation word count of 4 or more are used unconditionally.
図8に示すしきい値テーブル記憶部186のしきい値を使用して、韓国語と日本語との間で、英語を仲介として内容語対を抽出する実験を行なった。韓国語と日本語とのエントリの組合せの数は157,618である。この組合せには、使用した韓国語辞書(50,826エントリ)のうち、28,479エントリを使用し、日本語辞書(28,310エントリ)のうち、17,687エントリを使用した。これらのうち、90パーセントの精度で韓国語−日本語間の対訳辞書のエントリとして抽出された内容語対の数は25,703であった。
Using the threshold values stored in the threshold
一方、内容語対だけでなく、機能語対も抽出できるとさらに好ましい。図1に示す機能語訳抽出処理部62はそのためのものである。その詳細な構成を図9に示す。
On the other hand, it is more preferable that not only content word pairs but also function word pairs can be extracted. The functional word translation
図9を参照して、機能語訳抽出処理部62は、前述したように機能語用辞書選択部60により選択された2つの辞書210(XZ⇒X)および212(YZ⇒Y)の言語Zの同一の単語エントリの組合せを全て調べ、そこに記載されている言語Zの例文または熟語(以下単に「例文」と呼ぶ。)、およびその訳文を全て抽出するための例文抽出部220と、例文抽出部220により抽出された同一の言語Zのエントリ中の言語Zの例文のうち、辞書210から抽出されたものと辞書212から抽出されたものとで全く一致するもの、または類似するものを、その例文に対して2つの辞書に記載されていた訳文ととともに抽出するための一致文抽出部222とを含む。ここでは、2つの辞書に記載されている言語Zの例文の対のうち、互いに完全に一致するもの、または一致する語数が7以上の類似のものを採用し、その訳文を抽出することにする。
Referring to FIG. 9, a functional translation
なお、互いに完全に一致する言語Zの例文については無条件で抽出するようにしてもよい。また、類似する文として選択する際の一致語数のしきい値は7以上が好ましく、8以上としてもよい。 Note that example sentences in language Z that completely match each other may be extracted unconditionally. Further, the threshold of the number of matching words when selecting as similar sentences is preferably 7 or more, and may be 8 or more.
機能語訳抽出処理部62はさらに、内容語対記憶部56の内容を参照して、一致文抽出部222により抽出された2つの訳文の間で、内容語を中心としたチャンク単位でのアライメントをとるためのアライメント処理部224と、アライメント処理部224によるアライメントにより、互いに対応付けられた2つの言語X、Yのチャンクから内容語対記憶部56に記憶されている内容語を取り除くことにより、当該チャンク内に残る機能語のみの対を生成するための機能語対選択部226とを含む。機能語対選択部226は、互いにアラインされたチャンク対のうち、対応する言語Zのチャンクが互いに完全に一致するもののみを採用し、互いに異なっているものは採用しない。機能語対選択部226は、採用した機能語対を機能語対記憶部64に書込む。
The function word translation
図10を参照して、機能語対選択部226による処理について説明する。以下では、理解を容易にするために、韓国語と日本語との間で、英語を仲介として機能語対を抽出する場合について説明する。図10には、例文対240および242が示されている。
Processing performed by the function word
例文対240は、英和辞書から抽出された例文250と英韓辞書から抽出された例文252との英語の文が完全に一致している場合を示す。例文対240の文頭に記載されている記号「=」は、英文が互いに完全に一致していることを示し、「10」はその例文に含まれる単語数を示す。
The
例文対240の場合、アライメントにより日本語のチャンク「私としては」270と、韓国語のチャンク280とが対応付けられる。また日本語のチャンク「自由が」272と、韓国語のチャンク282とが対応付けられる。このようにチャンク同士が対応付けられれば、それぞれのチャンクから内容語を差し引けば、互いに対応付けられる機能語同士が残ることになる。そうした機能語同士を機能語対として採用すればよい。
In the case of the
例文対242の場合、英和辞書からの例文260の英文と、英韓辞書からの例文262の英文とは完全には一致しない。文頭の記号は、両者の英文が類似しているが完全には一致していないことを示す。その後の数字「8」は、英語の例文のうち、一致している単語数を示す。この例では、英和辞書から抽出されたチャンク290と、英韓辞書から抽出されたチャンク292とが互いに異なっている。また「class」の前の前置詞にも相違がある。
In the case of the
機能語対選択部226はこの場合、対応する英文部分に相違があるときには、その部分に対応するチャンクから機能語対を抽出することはしない。単に両者が完全に一致した部分に対応するチャンクから、機能語対を抽出する。
In this case, when there is a difference in the corresponding English part, the function word
[動作]
図1〜図10を参照して、以上に構成を説明した辞書自動作成システム20は以下のように動作する。まず、図1を参照して、利用者が第1言語Xを指定する情報30および第2言語Yを指定する情報32を入力装置50に対して入力する。入力装置50は、与えられた情報を内容語用辞書選択部52および機能語用辞書選択部60に与える。
[Operation]
With reference to FIGS. 1 to 10, the dictionary
内容語用辞書選択部52は、辞書属性記憶装置36を参照し、XX⇒Z,YY⇒Zなる辞書が存在するような言語Zを決定する。言語Zを決定するにあたっては、辞書に含まれるエントリ数を基準に、2つの辞書のエントリ数の合計が最も大きなものを選択する方法などがある。
The content word
一方、機能語用辞書選択部60は、辞書属性記憶装置36を参照し、XW⇒X,YW⇒Yなる辞書が存在するような言語Wを決定する。言語Wとしては上記した言語Zと同じものでもよいが、異なるものでもよい。説明を簡単にするため、以下では言語W=言語Zとする。なお、このようにしても一般性は失われない。
On the other hand, the function word
内容語用辞書選択部52は、選択された辞書に関する情報、すなわちファイル名およびパス名を内容語訳抽出処理部54に与える。内容語訳抽出処理部54は、このファイル名およびパス名を受取ると、辞書記憶装置38内(またはネットワーク上)のその2つの辞書にアクセスし、内容語対を作成して内容語対記憶部56に格納する。
The content word
より具体的には内容語訳抽出処理部54は、以下のように動作する。図5を参照して、単語対抽出部180は、指定された辞書170および172から、全ての単語対を抽出し類似度算出部182に与える。類似度算出部182は、全ての単語対(x,y)に対し、辞書XX⇒Zから抽出されたエントリx内の言語Zの訳語の集合Z(x)と、辞書YY⇒Zから抽出されたエントリy内の言語Zの訳語Z(y)との間で、上記した式(1)にしたがって類似度S1(x,y)を算出し、内容語対選択部184に与える。
More specifically, the content word translation
内容語対選択部184は、しきい値テーブル記憶部186を参照し、両者に共通する言語Zの単語の集合Z(x)∩Z(y)の要素数に応じたしきい値を得て、類似度算出部182から与えられた類似度S1とこのしきい値とを比較する。内容語対選択部184は、類似度S1(x,y)がしきい値より大きければこの単語対x、yを内容語対として採用し、内容語対記憶部56に書込む。類似度S1(x,y)がしきい値以下であれば内容語対選択部184はこの単語対を棄却する。
The content word
以上の処理を単語対抽出部180によって抽出された全ての単語対に対し繰返すことにより、内容語対記憶部56に言語Xと言語Yとの内容語対の集合が蓄積されていく。
By repeating the above processing for all the word pairs extracted by the word
内容語対記憶部56への内容語対の蓄積が完了すると、図1に示す機能語訳抽出処理部62によって、機能語対の抽出が行なわれる。より具体的には、機能語訳抽出処理部62は以下のように動作する。
When the accumulation of the content word pairs in the content word
図9を参照して、例文抽出部220は、機能語用辞書選択部60により選択された2つの辞書210(XZ⇒X)および212(YZ⇒Y)について、言語Zの単語zに対応する2つのエントリから例文を抽出する処理を、全ての単語zについて行ない、抽出された例文を一致文抽出部222に与える。一致文抽出部222は、単語zに対応する2つのエントリから得られた例文のうち、互いに全く一致する、または類似する言語Zの例文があるか否かを判定し、そうした例文をアライメント処理部224に与える。
Referring to FIG. 9, example
アライメント処理部224は、一致文抽出部222から与えられた例文のうち、言語Zの同じ例文に対する訳文である言語X及び言語Yの例文対に対し、内容語対記憶部56に記憶されている内容語対を用いてアライメントをとる。アライメント処理部224は、アライメントをとった例文対を機能語対選択部226に与える。機能語対選択部226は、アライメントをとった例文のうち、対応する言語Zの部分が完全に一致するチャンク同士から、内容語対記憶部56を参照してそれぞれの言語の内容語を取り除き、残った機能語同士を対にして機能語対記憶部64に与える。
The
こうした処理を例文抽出部220によって抽出されたすべての例文に対し繰返すことにより、機能語対記憶部64に言語Xと言語Yとの機能語対が蓄積される。
By repeating such processing for all the example sentences extracted by the example
図1を参照して、マージ処理部70は、内容語対記憶部56に記憶されている多数の内容語対と、機能語対記憶部64に記憶されている多数の機能語対とを互いにマージして1つの辞書形式のファイルとし、言語Xと言語Yとの間の電子対訳辞書40を作成する。
Referring to FIG. 1, merge processing
以上のように本実施の形態に係る辞書自動作成システム20によれば、最初に2つの言語XおよびYを指定することにより、内容語対作成、および機能語対作成のために適した特定の方向性を持った辞書をそれぞれ選択し、内容語対と機能語対とが作成される。さらにそれらをマージすることで電子対訳辞書40が作成される。辞書はそれぞれの処理に対応して、できるだけ多数のエントリ対が得られるように選択されるので、最終的に得られる電子対訳辞書40のエントリ数も多く、機械翻訳に利用する際に有用である。
As described above, according to the dictionary
なお、上記実施の形態では、内容語対と機能語対との双方を用いて電子対訳辞書を作成している。しかし本発明はそうした実施の形態には限定されない。例えば内容語対のみの辞書を作成するようにしてもよい。例えば日本語と韓国語のように膠着語に属する言語同士の場合には、上記した実施の形態の方法により機能語対が比較的高い精度で抽出できるが、言語の組合せによっては精度が低くなることもあり得る。そうした場合には、機能語対の抽出を止めるような選択ができるようにしてもよい。 In the above embodiment, an electronic bilingual dictionary is created using both content word pairs and function word pairs. However, the present invention is not limited to such an embodiment. For example, a dictionary of only content word pairs may be created. For example, in the case of languages belonging to an agglutinative language such as Japanese and Korean, function word pairs can be extracted with a relatively high accuracy by the method of the above-described embodiment, but the accuracy may be lowered depending on the combination of languages. It can happen. In such a case, a selection may be made to stop the extraction of function word pairs.
また上記実施の形態では、仲介する言語Zは辞書自動作成システム20が決定している。この決定の基準としては、上記したようにエントリ数(の和)が多くなるものを選ぶほかに、言語により優先順位を付けたり、言語の種類を考慮したり、辞書の作成された時代または年号などを考慮したりしてもよい。また、仲介する言語Zを辞書自動作成システム20が決定するのではなく、利用者が明示的に指定するようにしてもよい。この場合にも、複数の辞書の組合せが可能な場合には、エントリ数の和が最大となるような辞書の組合せを選択すると好ましい。
Moreover, in the said embodiment, the language Z to mediate is determined by the dictionary
さらに、内容語対を作成する際の仲介言語と、機能語対を作成する際の仲介言語とを互いに一致させるようにしてもよい。 Furthermore, the mediation language when creating the content word pair and the mediation language when creating the function word pair may be made to coincide with each other.
さらに、上記実施の形態では、利用可能な辞書は全て辞書記憶装置38に予め記憶してあるものとしたが、本発明はそのような実施の形態には限定されない。例えば辞書が遠隔地にあり、ネットワークでアクセス可能なものでもよいし、または何らかの蓄積メディアに格納されたものを、辞書自動作成システム20からの指定にしたがって人間が読取装置にセットするような方法も可能である。
Furthermore, in the above-described embodiment, all available dictionaries are stored in the
[コンピュータによる実現]
この実施の形態に係る辞書自動作成システム20は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現可能である。図11はこのコンピュータシステム330の外観を示し、図12はコンピュータシステム330の内部構成を示す。
[Realization by computer]
The dictionary
図11を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
Referring to FIG. 11, a
図12を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
Referring to FIG. 12, in addition to FD drive 352 and CD-
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Although not shown here, the
コンピュータシステム330にこの実施の形態に係る辞書自動作成システム20としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
A computer program for causing the
このプログラムは、コンピュータ340にこの実施の形態に係る辞書自動作成システム20としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の辞書自動作成システム20としての動作を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した辞書自動作成システム20としての動作を実現する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰り返さない。
This program includes a plurality of instructions for causing the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
20 辞書自動作成システム、30 第1言語を指定する情報、32 第2言語を指定する情報、34 辞書自動作成装置、36 辞書属性記憶装置、38 辞書記憶装置、40 電子対訳辞書、50 入力装置、52 内容語用辞書選択部、54 内容語訳抽出処理部、56 内容語対記憶部、60 機能語用辞書選択部、62 機能語訳抽出処理部、64 機能語対記憶部、70 マージ処理部、180 単語対抽出部、182 類似度算出部、184 内容語対選択部、186 しきい値テーブル記憶部、220 例文抽出部、222 一致文抽出部、224 アライメント処理部、226 機能語対選択部 20 dictionary automatic creation system, 30 information specifying the first language, 32 information specifying the second language, 34 dictionary automatic creation device, 36 dictionary attribute storage device, 38 dictionary storage device, 40 electronic bilingual dictionary, 50 input device, 52 content word dictionary selection unit, 54 content word translation extraction processing unit, 56 content word pair storage unit, 60 function word dictionary selection unit, 62 function word translation extraction processing unit, 64 function word pair storage unit, 70 merge processing unit , 180 word pair extraction unit, 182 similarity calculation unit, 184 content word pair selection unit, 186 threshold value table storage unit, 220 example sentence extraction unit, 222 matching sentence extraction unit, 224 alignment processing unit, 226 function word pair selection unit
Claims (6)
前記第1言語の話者のための、前記第1言語から前記第3言語への方向性を持つ第1の辞書と、前記第2言語の話者のための、前記第2言語から前記第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するステップと、
前記第1の辞書の内容語に関する各エントリと前記第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる前記第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するステップと、
前記抽出するステップで抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積する第1のステップとを含む、対訳辞書作成方法。 A bilingual dictionary creation method for automatically creating a bilingual dictionary between a first language and a second language by using a third language as an intermediary,
A first dictionary with directionality from the first language to the third language for the first language speaker, and the second language to the second language for the second language speaker; Preparing an electronically readable second dictionary having directionality to three languages;
Of entry pairs consisting of entries related to content words in the first dictionary and entries related to content words in the second dictionary, defined as a predetermined function for a set of translated words in the third language included in each entry Extracting an entry pair whose similarity value is greater than or equal to a predetermined threshold;
A bilingual dictionary creation method including a first step of storing the content word pairs corresponding to the entry pairs extracted in the extracting step in an electronically readable form.
各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の2言語辞書を準備するステップと、
前記第1言語および前記第2言語に関する指定を受けるステップと、
前記複数個の2言語辞書から、前記指定を受けるステップで指定された前記第1言語から他言語への方向性を持つ辞書と、前記指定を受けるステップで指定された前記第2言語から前記他言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む、請求項1に記載の対訳辞書作成方法。 The step of preparing comprises
Providing a plurality of electronically readable bilingual dictionaries, each having a predetermined direction, for a predetermined language speaker;
Receiving a designation for the first language and the second language;
A dictionary having a direction from the first language to another language designated in the step of receiving the designation from the plurality of bilingual dictionaries, and the other language from the second language designated in the step of receiving the designation. The bilingual dictionary creation method according to claim 1, further comprising a step of selecting a dictionary pair including a dictionary having directionality to a language.
各々、所定の言語話者のための、所定の方向性を持つ、電子的に読取可能な複数個の2言語辞書を準備するステップと、
前記第1言語および前記第2言語、ならびに前記第3言語に関する指定を受けるステップと、
前記複数個の2言語辞書から、前記指定を受けるステップで指定された前記第1言語から前記第3言語への方向性を持つ辞書と、前記指定を受けるステップで指定された前記第2言語から前記第3言語への方向性を持つ辞書とからなる辞書対を選択するステップとを含む、請求項1に記載の対訳辞書作成方法。 The step of preparing comprises
Providing a plurality of electronically readable bilingual dictionaries, each having a predetermined direction, for a predetermined language speaker;
Receiving designations for the first language and the second language, and the third language;
From the plurality of bilingual dictionaries, a dictionary having a direction from the first language to the third language designated in the step of receiving the designation, and from the second language designated in the step of receiving the designation The bilingual dictionary creation method of Claim 1 including the step of selecting the dictionary pair which consists of a dictionary with the directionality to the said 3rd language.
同一の前記第3言語の見出しに対応する、前記第3の辞書のエントリと前記第4の辞書のエントリとの双方から、所定条件を充足する前記第3言語の例文とその訳文とを抽出し、対訳文対を作成するステップと、
前記対訳文対を作成するステップで作成された対訳文対のうち、訳文同士のアライメントを採るステップと、
前記アライメントを採るステップで互いにアラインされたチャンクから、機能語対を抽出し電子的に読取可能な形式で蓄積する第2のステップと、
前記電子的に読取可能な形式で蓄積する第1および第2のステップで蓄積された前記内容語対と前記機能語対とをマージするステップとをさらに含む、請求項1〜請求項3のいずれかに記載の対訳辞書作成方法。 A third dictionary with direction from the third language to the first language for speakers of the first language and a third dictionary from the third language for speakers of the second language; Preparing a fourth dictionary with directionality in two languages in an electronically readable form;
Extracting the third language example sentence that satisfies a predetermined condition and its translation from both the third dictionary entry and the fourth dictionary entry corresponding to the same third language heading Creating a bilingual sentence pair;
Of the bilingual sentence pairs created in the step of creating the bilingual sentence pair, taking the alignment between the translated sentences;
A second step of extracting function word pairs from the chunks aligned with each other in the step of taking the alignment and storing them in an electronically readable form;
4. The method according to claim 1, further comprising: merging the content word pairs accumulated in the first and second steps and the function word pairs accumulated in the electronically readable form. How to create a bilingual dictionary as described in Crab.
前記第1言語の話者のための、前記第1言語から前記第3言語への方向性を持つ第1の辞書と、前記第2言語の話者のための、前記第2言語から前記第3言語への方向性を持つ第2の辞書とを、電子的に読取可能な形で準備するための辞書準備手段と、
前記第1の辞書の内容語に関する各エントリと前記第2の辞書の内容語に関する各エントリとからなるエントリ対のうち、各エントリに含まれる前記第3言語の訳語の集合に対する所定の関数として定められる類似度の値が予め定めるしきい値以上であるエントリ対を抽出するためのエントリ対抽出手段と、
前記エントリ対抽出手段により抽出されたエントリ対に対応する内容語対を電子的に読取可能な形式で蓄積するための内容語対記憶手段とを含む、対訳辞書作成装置。 A bilingual dictionary creation device for automatically creating a bilingual dictionary between a first language and a second language, using the third language as an intermediary,
A first dictionary with directionality from the first language to the third language for the first language speaker, and the second language to the second language for the second language speaker; Dictionary preparing means for preparing a second dictionary having directionality to three languages in an electronically readable form;
Of entry pairs consisting of entries related to content words in the first dictionary and entries related to content words in the second dictionary, defined as a predetermined function for a set of translated words in the third language included in each entry An entry pair extraction means for extracting an entry pair whose similarity value is equal to or greater than a predetermined threshold value;
A bilingual dictionary creation device comprising: content word pair storage means for storing content word pairs corresponding to the entry pairs extracted by the entry pair extraction means in an electronically readable form.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004236641A JP2006053867A (en) | 2004-08-16 | 2004-08-16 | Bilingual dictionary creation method and apparatus, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004236641A JP2006053867A (en) | 2004-08-16 | 2004-08-16 | Bilingual dictionary creation method and apparatus, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006053867A true JP2006053867A (en) | 2006-02-23 |
Family
ID=36031296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004236641A Pending JP2006053867A (en) | 2004-08-16 | 2004-08-16 | Bilingual dictionary creation method and apparatus, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006053867A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010061643A (en) * | 2008-09-01 | 2010-03-18 | Toshiba Corp | Method and device for improving word alignment quality of multi-language corpus |
JP2012133689A (en) * | 2010-12-24 | 2012-07-12 | Yahoo Japan Corp | Information processing apparatus, method and program |
JP2016525250A (en) * | 2013-11-05 | 2016-08-22 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Bilingual corpus data expansion method, apparatus and storage medium |
-
2004
- 2004-08-16 JP JP2004236641A patent/JP2006053867A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010061643A (en) * | 2008-09-01 | 2010-03-18 | Toshiba Corp | Method and device for improving word alignment quality of multi-language corpus |
JP2012133689A (en) * | 2010-12-24 | 2012-07-12 | Yahoo Japan Corp | Information processing apparatus, method and program |
JP2016525250A (en) * | 2013-11-05 | 2016-08-22 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Bilingual corpus data expansion method, apparatus and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5235344B2 (en) | Apparatus, method and program for machine translation | |
US8812296B2 (en) | Method and system for natural language dictionary generation | |
JP4404211B2 (en) | Multilingual translation memory, translation method and translation program | |
US8131536B2 (en) | Extraction-empowered machine translation | |
WO2003056450A1 (en) | Syntax analysis method and apparatus | |
JP4319860B2 (en) | Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system | |
US20120259621A1 (en) | Translating Texts Between Languages | |
Scherrer et al. | Neural morphosyntactic tagging for Rusyn | |
CN107861937B (en) | Method and apparatus for updating translation corpus, and recording medium | |
Ali | Artificial intelligence and natural language processing: the Arabic corpora in online translation software | |
Al-Gaphari et al. | A method to convert Sana’ani accent to Modern Standard Arabic | |
Erdmann et al. | Complementary strategies for low resourced morphological modeling | |
JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus | |
JP2006251843A (en) | Synonym pair extraction apparatus and computer program therefor | |
JP2006053867A (en) | Bilingual dictionary creation method and apparatus, and computer program | |
JP2006004366A (en) | Machine translation system and computer program therefor | |
JP5194920B2 (en) | Example sentence set-based translation device, method and program, and phrase translation device including the translation device | |
JP3752535B2 (en) | Translation selection device and translation device | |
Rapp | A Part-of-Speech-Based Search Algorithm for Translation Memories. | |
Driscoll | Computational methods for name normalization using hypocoristic personal name variants | |
Singla | Methods for Leveraging Lexical Information in SMT | |
Samir et al. | Training and evaluation of TreeTagger on Amazigh corpus | |
Khedkar et al. | A survey of machine translation and parts of speech tagging for indian languages | |
JP2007087157A (en) | Translation system, translation device, translation method, and program | |
JP2008225744A (en) | Machine translation apparatus and program |