JP6599188B2 - Bilingual dictionary creation device, bilingual dictionary creation method and program - Google Patents
Bilingual dictionary creation device, bilingual dictionary creation method and program Download PDFInfo
- Publication number
- JP6599188B2 JP6599188B2 JP2015185421A JP2015185421A JP6599188B2 JP 6599188 B2 JP6599188 B2 JP 6599188B2 JP 2015185421 A JP2015185421 A JP 2015185421A JP 2015185421 A JP2015185421 A JP 2015185421A JP 6599188 B2 JP6599188 B2 JP 6599188B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- bilingual dictionary
- term
- language
- bilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 230000008707 rearrangement Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、異なる言語間の対訳辞書を作成する技術に関する。 The present invention relates to a technique for creating a bilingual dictionary between different languages.
従来、異なる言語間において、同一の意味内容の単語対を作成することが知られている。例えば、公知の辞書自動作成方式では、対訳コーパスから、原言語と目的言語との間の対応データを読み込み、対応データに示された原言語の単語と目的言語の単語との尤度に基づいてそれらの単語間の対応付けを行うものがある(特許文献1)。 Conventionally, it is known to create word pairs having the same semantic content between different languages. For example, in a known automatic dictionary creation method, correspondence data between a source language and a target language is read from a bilingual corpus, and based on the likelihood of the source language word and the target language word indicated in the correspondence data. There is one that associates these words (Patent Document 1).
従来の辞書自動作成方式では、異なる言語間の単語対を尤度に基づいて作成する。しかしながら、対訳コーパスに出現する頻度が少ない単語については、出現頻度に基づく尤度(=確からしさ)が同じ値または同等の値になるので、正しい単語対を作成するために必要な尤度が得られず、正確な対訳辞書を作成することができないという問題があった。 In the conventional dictionary automatic creation method, word pairs between different languages are created based on likelihood. However, for words that appear infrequently in the bilingual corpus, the likelihood (= probability) based on the appearance frequency is the same value or an equivalent value, so the likelihood necessary to create a correct word pair is obtained. In other words, there was a problem that an accurate bilingual dictionary could not be created.
本発明は、上述した状況においてなされたものであり、出現頻度の少ない語についても正確な対訳辞書を作成することができる対訳辞書作成装置等を提供することにある。 The present invention has been made in the above-described situation, and it is an object of the present invention to provide a bilingual dictionary creation device and the like that can create an accurate bilingual dictionary even for words with a low appearance frequency.
上記の課題を解決するための本発明は、コンピュータが対訳辞書を作成する対訳辞書作成方法であって、第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得するステップと、 前記対応文の中から抽出された異なる言語間の用語対を、対訳辞書作成対象として決定するステップと、前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価するステップと、前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力するステップとを含む。 The present invention for solving the above problems is a bilingual dictionary creation method in which a computer creates a bilingual dictionary, from a bilingual corpus in which a first language sentence and a second language sentence are associated in advance in sentence units, Obtaining a correspondence sentence; determining a term pair between different languages extracted from the correspondence sentence as a bilingual dictionary creation target; and a first language term relating to the term pair as the first language. Based on the appearance position appearing in the sentence and the appearance position where the second language character string related to the term pair appears in the second language sentence, the strength of the correspondence between the terms constituting the term pair is determined. And a step of creating and outputting the term pair as a bilingual dictionary between different languages according to an evaluation result by the evaluation unit.
ここで、前記文字列の出現位置は、前記異なる言語間の文構造的特徴が同一となるように並び替えられるようにしてもよい。 Here, the appearance positions of the character strings may be rearranged so that sentence structural features between the different languages are the same.
前記用語の出現位置は、対応する言語文中における当該用語の出現順であり、前記評価するステップは、前記対応する言語文に含まれる形態素または複数の形態素をまとめあげた用語と、前記用語の出現順との関係に基づいて、前記対応関係の強さを表すスコアを計算し、前記出力するステップは、前記スコアに応じて、前記異なる言語間の対訳辞書を作成するようにしてもよい。 The appearance position of the term is the order of appearance of the term in the corresponding language sentence, and the evaluating step includes a term that summarizes the morpheme or plural morphemes included in the corresponding language sentence, and the order of appearance of the term. Based on the relationship, a score representing the strength of the correspondence may be calculated, and the outputting step may create a bilingual dictionary between the different languages according to the score.
前記評価するステップは、異なる対応文から同一の用語対が取得された場合には、前記同一の用語対に対するすべてのスコアを計算して、当該同一の用語対に対する最終的なスコアを決定するようにしてもよい。 The evaluating step may calculate all scores for the same term pair and determine a final score for the same term pair when the same term pair is obtained from different corresponding sentences. It may be.
上記の課題を解決するための本発明は、第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得する取得部と、前記対応文の中から抽出された異なる言語間の用語対を、対訳辞書作成対象として決定する決定部と、前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価する評価部と、前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力する出力部とを含む。 The present invention for solving the above-described problems includes an acquisition unit that acquires a corresponding sentence from a bilingual corpus in which a first language sentence and a second language sentence are associated in advance on a sentence basis; A determining unit that determines the extracted term pairs between different languages as a bilingual dictionary creation target, an appearance position where a term in the first language related to the term pair appears in the first language sentence, and a term related to the term pair Based on the appearance position at which the character string of the second language appears in the second language sentence, the evaluation unit that evaluates the strength of the correspondence between the terms constituting the term pair, and the evaluation result by the evaluation unit And an output unit that generates and outputs the term pair as a bilingual dictionary between different languages.
本発明によれば、出現頻度の少ない単語についても正確な対訳辞書を作成することができる。 According to the present invention, it is possible to create an accurate bilingual dictionary even for words with a low appearance frequency.
以下、本発明の一実施形態における対訳辞書作成装置を含む対訳辞書作成システム全体の概略構成について図1を参照して説明する。図1は、対訳辞書作成システム1全体の概要構成例を示す図である。
Hereinafter, a schematic configuration of an entire bilingual dictionary creation system including a bilingual dictionary creation device according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a diagram showing a schematic configuration example of the entire bilingual
図1において、対訳辞書作成システム1は、通信端末10と、通信端末10と例えばインターネット等の通信網20を介して接続可能な対訳辞書作成装置30と、対訳辞書作成装置30と接続可能な外部システムとしての対訳コーパス40とを含んで構成されている。
In FIG. 1, a bilingual
対訳辞書作成システム1では、通信端末10と対訳辞書作成装置30との間は、HTTP(HyerText Transfer Protocol)通信が行われるようになっているが、それ以外の通信方式もとり得る。
In the bilingual
通信端末10は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、液晶ディスプレイ等の表示装置と、タッチパネル等の入力装置とを備える。この実施形態では、通信端末10は、一例として、ラップトップパソコン(Laptop computer)とするが、携帯端末、PDA(Personal Digital Assist)、パーソナルコンピュータなどでもよい。
The
対訳コーパス40は、例えばネットワークの伝送路上に設けられ、ネットワーク上の対訳辞書作成装置30との間で通信可能な文書データベースである。後述するように、対訳コーパス40は、異なる言語(英語、日本語など)間の同じ意味内容を有する文同士を互いに対応付けて記憶している。なお、対訳コーパス40は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含む。
The
[対訳辞書作成装置のハードウエア構成]
次に、図1に示した対訳辞書作成装置30のハードウエア構成例について、図2を参照して説明する。図2は、対訳辞書作成装置30の構成例を示す図である。
[Hardware configuration of bilingual dictionary creation device]
Next, a hardware configuration example of the bilingual
対訳辞書作成装置30は、図2に示すように、CPU(Central Processing Unit)31と、ROM(Read Only Memory)32と、RAM(Random Access Memory)33と、通信インターフェース34と、外部アクセス部35とを含むサーバ装置である。
As shown in FIG. 2, the bilingual
CPU31は、各構成要素とバスで接続されて制御信号やデータの転送を行うとともに、対訳辞書作成装置30全体の処理を実現するためのプログラムの実行、演算処理等を行う。
The
ROM32には、対訳辞書作成装置30全体の動作に必要な対訳辞書作成プログラムが記憶されており、本実施形態の対訳辞書作成装置30は、当該プログラムが実行されることにより実現される。このようなROM33に変えて、クラウドサービスを用いて必要なプログラムおよびデータを取り込むことももちろん可能である。
The
上述したプログラムは、CD−ROM等の記憶媒体に格納されていてもよい。 The above-described program may be stored in a storage medium such as a CD-ROM.
RAM33には、後述する対訳辞書作成処理を行うためのプログラムおよび各種のデータが一時的に保持される。
The
通信インターフェース34は、ネットワークインターフェース機能を有しており、通信端末10との通信を行う。
The
外部アクセス部35は、CPU31が対訳コーパス40にアクセスして対訳コーパス40と通信を行うためのインターフェースである。この実施形態では、対訳コーパス40内の後記する対応文が外部アクセス部35を介してCPU31へ伝送される。なお、対訳辞書作成装置30は、対訳コーパス40内における異なる言語文の対訳を読み込む機能を兼ね備える単一のサーバ装置として構成してもよい。
The
[対訳辞書作成の概略]
次に、対訳辞書作成装置30によって実現される対訳辞書作成の概要について、図1〜図3を参照して説明する。図3は、対訳辞書作成の概略を説明するための図であって、(a)は予め対応付けられた異なる言語文A,Bと、(b)形態素の解析処理と、(c)用語の抽出処理と、(d)用語対の決定処理と、(e)用語の並び替え処理と、(f)用語対の評価処理と、(g)対訳辞書作成処理とを示している。なお、図3(a)〜(g)は、対訳辞書作成処理を例示的に示しているに過ぎない。
[Outline of bilingual dictionary creation]
Next, an outline of bilingual dictionary creation realized by the bilingual
先ず、この対訳辞書作成装置30において、対訳辞書作成の処理時には、異なる言語文が文単位であらかじめ対応付けられた対応文(対訳文)が対訳コーパス40から読み込まれる。図3(a)の例では、対訳辞書作成装置30のCPU31が、「彼は、東京にある会社で働いている。」という日本語文Aと、「He works for a company in Tokyo」という英語文Bとを含む対応文を読み込む。
First, in this bilingual
次に、図3(b)に示すように、CPU31は、日本語文Aおよび英語文Bの各々を、言語学的に意味を持つ最小単位の形態素に区切る処理として、例えば形態素解析を行う。そして、CPU31は、各文A,B中の用語(この実施形態では、例えば、その用語自体で意味を表すことができる自立語)として、例えば図3(c)に示すように、「彼」、「東京」、「会社」、「働い」、「he」、「works」、「company」および「tokyo」という文字列を抽出し、さらに例えば図3(d)に示すように、それらの用語を組み合わせた用語対(「彼」と「he」の対など)を作成する。
Next, as illustrated in FIG. 3B, the
図3(e)に示すように、CPU31は、日本語と英語との間の文構造的特徴(文法構造、用語の意味内容など)が同一となるように、「he works for a company in Tokyo」という英語文Bの用語を並び替えて、「He ga Tokyo in company for works」という並び替え文B1に変換する。換言すれば、上記並び替え文B1は、日本語文Aの語順と整合するように、英語文Bを主辞後置変換したものである。なお、異なる言語間の文構造的特徴が同一または類似する場合には、CPU31は、上記並び替え処理を行わないようにしてもよい。
As shown in FIG. 3E, the
そして、図3(f)に示すように、CPU31は、日本語文A中の「会社」の出現位置(文頭からの出現が7語目)と、並び替え文B1中の「company」の出現位置(文頭からの出現が5語目)とから、「会社」と「company」の用語対を構成する2つの用語間の対応関係の強さを評価する。なお、以下の説明では、文頭から何番目の形態素として出現するかを示した上記「5語目」および「7語目」を、「出現順」と称する。
Then, as shown in FIG. 3 (f), the
この実施形態では、対応関係の強さを評価する一例として、{(日本語Aに含まれる用語の出現順)/(日本語文Aに含まれる形態素の総数)−(並び替え文B1に含まれる用語の出現順)/(並び替え文B1に含まれる形態素の総数)}の式(1)で与えられる値の絶対値がスコアとして求められる。図3(f)の例では、日本語Aの「会社」の出現順=7語目;日本語Aに含まれる形態素の総数=12語;並び替え文B1の「company」の出現順=5語目;並び替え文B1に含まれる形態素の総数=8語、となるので、上記スコアは、{(7/12)−(5/8)}から、約0.04となる。 In this embodiment, as an example of evaluating the strength of the correspondence, {(order of appearance of terms included in Japanese A) / (total number of morphemes included in Japanese sentence A) − (included in rearrangement sentence B1) The absolute value of the value given by the expression (1) of the order of appearance of terms / (total number of morphemes contained in the rearrangement sentence B1)} is obtained as a score. In the example of FIG. 3F, the appearance order of “company” in Japanese A = seventh word; the total number of morphemes contained in Japanese A = 12 words; the appearance order of “company” in rearrangement sentence B1 = 5 Word: Since the total number of morphemes contained in the rearranged sentence B1 is 8, the score is about 0.04 from {(7/12)-(5/8)}.
図3(g)の例によれば、CPU31は、他の用語対のスコアについても求め、例えば、0.04のスコアを有する用語対((彼、he)、(東京、tokyo)、(会社、company))を、対訳辞書として採用する。すなわち、スコアが小さいほど、用語対を構成する用語間の対応関係が強いと評価することができるので、スコアの値を考慮することで、正しい対訳辞書を作成することができる。
According to the example of FIG. 3G, the
[対訳辞書作成装置の機能構成]
次に、対訳辞書作成装置30の機能構成について図4を参照して説明する。図4は、図2に示したハードウエア構成上で実現される対訳辞書作成装置30の機能構成の一例を示す図である。
[Functional structure of bilingual dictionary creation device]
Next, the functional configuration of the bilingual
図4において、対訳辞書作成装置30は、取得部301と、決定部302と、評価部303と、出力部304とを備える。決定部302は、用語抽出部3021と、用語対作成部3022とを含む。これらの構成要素については、以下の対訳辞書作成装置30の処理説明において適宜参照される。
In FIG. 4, the bilingual
[対訳辞書作成装置の処理]
以下、この対訳辞書作成を実現するために実行される対訳辞書作成装置30の処理について、図1〜図5を参照して説明する。図5は、対訳辞書作成装置30における処理全体の一例を示すフローチャートである。
[Processing of bilingual dictionary creation device]
Hereinafter, the process of the bilingual
図5において、CPU31は、対訳コーパス40から、異なる言語間の対応文を取得する(ステップS10)。対応文は、図3(a)に一例を示すように、「彼は、東京にある会社で働いている。」という日本語文Aと、「He works for a company in Tokyo」という英語文Bである。 In FIG. 5, CPU31 acquires the correspondence sentence between different languages from the bilingual corpus 40 (step S10). As shown in the example in Fig. 3 (a), the correspondence sentences are Japanese sentence A "He works for a company in Tokyo" and English sentence B "He works for a company in Tokyo". is there.
ステップS10において、CPU31は、外部アクセス部35と協働して、取得部301として機能する。
In step S <b> 10, the
次にCPU31は、ステップS10で取得された異なる言語間の対応文の中から抽出された用語対を、対訳辞書作成対象として決定する(ステップS11)。図3(d)では、(彼、he)などの用語対が決定されて、その用語対が作成されることになるが、その決定の前に、CPU31は、図3(b)および図3(c)に一例を示すように、日本語文Aと英語文Bとをそれぞれ形態素解析し、「彼」、「he」などの自立語を、用語として抽出することになる。
Next, the
ステップS11の決定処理において、CPU31は、決定部302として機能する。また、上記用語の抽出処理において、CPU31は用語抽出部3021として機能し、上記用語対の作成処理において、CPU31は用語対作成部3022として機能する。
In the determination process of step S <b> 11, the
CPU31は、ステップS11で決定された用語対のすべてを対象として、対応する用語対のスコアを計算する。この場合、CPU31は、スコアを計算する前に、日本語の文構造的特徴(文法構造、意味内容)に合わせるため、英語文Bの並び替えを行う。図3(e)では、例えば、英語文Bが主辞後置変換されて並び替え文B1として設定され、この並び替え文B1では、「company」の出現順が文頭から5番目になる(図3(f))。この並び替えが行われた後に、CPU31は、日本語文Aの「会社」の出現順(=7語目)と、並び替え文B1の「company」の出現順(=5語目)とに基づいて、「会社」と「company」の用語対のスコアを計算する。このときのスコアは、上記式(1)に示したように、{(日本語Aに含まれる「会社」の出現順)/(日本語文Aに含まれる形態素の総数)−(並び替え文B1に含まれる「company」の出現順)/(並び替え文B1に含まれる形態素の総数)}の関係式から、{(7/12)−(5/8)}=約0.04となる。
CPU31 calculates the score of a corresponding term pair for all the term pairs determined in step S11. In this case, the
上述したスコアが小さいほど、用語対を構成する用語間の対応関係が強くなるので、スコアによって、用語対の対応関係が強いか否かを評価することができる。 The smaller the score described above, the stronger the correspondence between the terms constituting the term pair, so it is possible to evaluate whether the correspondence between the term pairs is strong or not based on the score.
ステップS12において、CPU31は、評価部303として機能する。
In step S <b> 12, the
図5において、CPU31は、ステップS10で対訳コーパス40から取得されたすべての対応文を対象として、ステップS11およびステップS12の処理を逐次繰り返し実行する。
In FIG. 5, the
なお、対象はすべての対応文ではなく、一部の指定した対応文のみであってもよい。 The target may not be all the corresponding sentences but only a part of the specified corresponding sentences.
なお、上記並び替え処理は、ステップS12で行われることになるが、スコアが計算される前(ステップS10またはステップS11)に行われるようにしてもよい。 The rearrangement process is performed in step S12, but may be performed before the score is calculated (step S10 or step S11).
CPU31は、ステップS12で計算されたスコアに基づいて、用語対を対訳辞書として作成して出力する(ステップS13)。例えば、スコアが予め設定された閾値以上の場合に、用語対を対訳辞書として作成して出力される。図3(g)では、例えば、上記閾値が0.04で設定されているので、0.04のスコアを有する用語対((彼、he)、(東京、tokyo)、(会社、company))が対訳辞書として作成されて出力される。対訳辞書の作成は、用語対を対訳辞書として示すものであればよく、例えば一覧表や辞書形式など種々の方法によって実施することができる。出力先は、例えば通信端末10である。
The
ステップS13において、CPU31は、通信インターフェース34と協働して、出力部304として機能する。
In step S <b> 13, the
以上説明したように、本実施形態の対訳辞書作成装置30によれば、異なる言語文の対応文中の用語対の各々の用語の出現位置に基づいて、その用語対に対するスコアを計算することにより、異なる言語間の対訳辞書が作成される。ここで、スコアは、出現頻度とは異なり、出現位置に基づいて計算されるので、出現頻度の少ない用語に対しても出現位置次第で異なる値が得られる。これにより、出現頻度の少ない用語についても正確な対訳辞書を作成することができる。
As described above, according to the bilingual
なお、上記実施形態は、変更するようにしてもよい。 The above embodiment may be changed.
例えば、図5のスコア計算処理(ステップS12)において、異なる対応文から同一の用語対が取得された場合には、同一の用語対に対するすべてのスコアを計算して、当該同一の用語対に対する最終的なスコアを決定する。最終的なスコアは、例えば、相加平均、相乗平均などの値を適用する。 For example, in the score calculation process of FIG. 5 (step S12), when the same term pair is acquired from different corresponding sentences, all scores for the same term pair are calculated, and the final term for the same term pair is calculated. A reasonable score. As the final score, for example, an arithmetic mean, a geometric mean, or the like is applied.
上述したスコアの計算において、用語対にかかる用語の出現頻度に応じて重みを付けるようにしてもよい。 In the above-described score calculation, a weight may be given according to the appearance frequency of the term in the term pair.
以上では、上記式(1)を参照して、(言語文に含まれる形態素の総数)を用いたスコアを計算する処理について説明したが、これに代えて、(複数の形態素をまとめあげた用語の総数)を用いるようにしてもよい。例えば、言語文を形態素で区切った後に、連続する複数の形態素からなる文章が名詞となる場合には、CPU31は、複数の形態素からなる形態素群を一つの用語として認識して上記スコアを計算することができる。
In the above, the processing for calculating the score using (the total number of morphemes contained in the language sentence) has been described with reference to the above formula (1), but instead of this, ( The total number) may be used. For example, when a sentence composed of a plurality of continuous morphemes becomes a noun after dividing a language sentence by morphemes, the
上述した対訳辞書作成処理は、出現位置に基づくスコアを考慮して対訳辞書を作成するものであればよい、日本語と英語以外の言語についても適用することができる。 The bilingual dictionary creation process described above may be applied to languages other than Japanese and English as long as the bilingual dictionary is created in consideration of the score based on the appearance position.
10 通信端末
30 対訳辞書作成装置
40 対訳コーパス
301 対訳取得部
302 決定部
303 評価部
305 出力部
3021 用語抽出部
3022 用語対作成部
DESCRIPTION OF
Claims (5)
第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得するステップと、
前記対応文の中から抽出された異なる言語間の用語対を、対訳作成対象として決定するステップと、
前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価するステップであって、前記文字列の出現位置は、前記異なる言語間の文構造的特徴が同一となるように並び替えられる、ステップと、
評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力するステップと
を含むことを特徴とする対訳辞書作成方法。 A bilingual dictionary creation method in which a computer creates a bilingual dictionary,
Obtaining a corresponding sentence from a bilingual corpus in which the first language sentence and the second language sentence are associated in advance in sentence units;
Determining a pair of terms between different languages extracted from the corresponding sentence as a translation target;
Based on the appearance position where the term of the first language related to the term pair appears in the first language sentence, and the appearance position where the character string of the second language related to the term pair appears in the second language sentence, A step of evaluating the strength of the correspondence between terms constituting the term pair , wherein the appearance positions of the character strings are rearranged so that sentence structural features between the different languages are the same When,
Creating a bilingual dictionary between different languages according to the evaluation result, and outputting the bilingual dictionary as a bilingual dictionary between different languages.
前記評価するステップは、前記対応する言語文に含まれる形態素または複数の形態素をまとめあげた用語と、前記用語の出現順との関係に基づいて、前記対応関係の強さを表すスコアを計算し、
前記出力するステップは、前記スコアに応じて、前記異なる言語間の対訳辞書を作成することを特徴とする請求項1に記載の対訳辞書作成方法。 The appearance position of the term is the appearance order of the term in the corresponding language sentence,
The evaluating step calculates a score representing the strength of the correspondence relationship based on a relationship between a morpheme or a morpheme included in the corresponding language sentence and an appearance order of the terms,
The bilingual dictionary creation method according to claim 1 , wherein the outputting step creates a bilingual dictionary between the different languages according to the score.
前記対応文の中から抽出された異なる言語間の用語対を、対訳辞書作成対象として決定する決定部と、
前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価する評価部であって、前記文字列の出現位置は、前記異なる言語間の文構造的特徴が同一となるように並び替えられる、評価部と、
前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力する出力部と
を含むことを特徴とする対訳辞書作成装置。 An acquisition unit for acquiring a correspondence sentence from a parallel corpus in which a first language sentence and a second language sentence are associated in advance in sentence units;
A determination unit for determining a term pair between different languages extracted from the corresponding sentence as a bilingual dictionary creation target;
Based on the appearance position where the term of the first language related to the term pair appears in the first language sentence, and the appearance position where the character string of the second language related to the term pair appears in the second language sentence, An evaluation unit that evaluates the strength of the correspondence between terms constituting the term pair , wherein the appearance positions of the character strings are rearranged so that sentence structural features between the different languages are the same; An evaluation unit ;
A bilingual dictionary creation device, comprising: an output unit that creates and outputs the term pairs as bilingual dictionaries between different languages according to the evaluation result by the evaluation unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015185421A JP6599188B2 (en) | 2015-09-18 | 2015-09-18 | Bilingual dictionary creation device, bilingual dictionary creation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015185421A JP6599188B2 (en) | 2015-09-18 | 2015-09-18 | Bilingual dictionary creation device, bilingual dictionary creation method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017059151A JP2017059151A (en) | 2017-03-23 |
JP6599188B2 true JP6599188B2 (en) | 2019-10-30 |
Family
ID=58390618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015185421A Active JP6599188B2 (en) | 2015-09-18 | 2015-09-18 | Bilingual dictionary creation device, bilingual dictionary creation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6599188B2 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012177972A (en) * | 2011-02-25 | 2012-09-13 | National Institute Of Information & Communication Technology | Term translation extraction device, term translation extraction method, and production method for term translation dictionary |
-
2015
- 2015-09-18 JP JP2015185421A patent/JP6599188B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017059151A (en) | 2017-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9916306B2 (en) | Statistical linguistic analysis of source content | |
KR102025968B1 (en) | Phrase-based dictionary extraction and translation quality evaluation | |
US10789431B2 (en) | Method and system of translating a source sentence in a first language into a target sentence in a second language | |
US9575965B2 (en) | Translation assessment based on computer-generated subjective translation quality score | |
US20160267073A1 (en) | Performance detection and enhancement of machine translation | |
KR101573854B1 (en) | Method and system for statistical context-sensitive spelling correction using probability estimation based on relational words | |
WO2024207587A1 (en) | Question answering scoring method, question answering scoring apparatus, electronic device and storage medium | |
US10402497B2 (en) | Processing method, processing apparatus, and recording medium | |
CN103678285A (en) | Machine translation method and machine translation system | |
CN110678868B (en) | Translation support system, translation support apparatus, translation support method, and computer-readable medium | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
WO2016147034A1 (en) | Method of and system for processing a text stream | |
EP2851809A2 (en) | Machine translation apparatus and method | |
JP2017010274A (en) | Associating device and program | |
JP5911931B2 (en) | Predicate term structure extraction device, method, program, and computer-readable recording medium | |
JP2007317000A (en) | Machine translation device, its method, and program | |
JP6599188B2 (en) | Bilingual dictionary creation device, bilingual dictionary creation method and program | |
JP5106431B2 (en) | Machine translation apparatus, program and method | |
JP5944859B2 (en) | Evaluation information extracting apparatus, certainty degree learning apparatus, method, and program | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
JP7243818B2 (en) | Reading disambiguation device, reading disambiguation method, and reading disambiguation program | |
JP2017091382A (en) | Paginal translation dictionary creation device, paginal translation dictionary creation method, and program | |
Huu et al. | Dependency-based pre-ordering of preposition phrases in Chinese-Vietnamese machine translation | |
Castro Mamani et al. | Allin Qillqay! A Free Online Web Spell Checking Service for Quechua | |
JP5363178B2 (en) | Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6599188 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |