JP2017059151A - Bilingual dictionary creation device, bilingual dictionary creation method and program - Google Patents

Bilingual dictionary creation device, bilingual dictionary creation method and program Download PDF

Info

Publication number
JP2017059151A
JP2017059151A JP2015185421A JP2015185421A JP2017059151A JP 2017059151 A JP2017059151 A JP 2017059151A JP 2015185421 A JP2015185421 A JP 2015185421A JP 2015185421 A JP2015185421 A JP 2015185421A JP 2017059151 A JP2017059151 A JP 2017059151A
Authority
JP
Japan
Prior art keywords
sentence
bilingual dictionary
term
language
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015185421A
Other languages
Japanese (ja)
Other versions
JP6599188B2 (en
Inventor
正吾 新海
Shogo Shinkai
正吾 新海
佐藤 大輔
Daisuke Sato
大輔 佐藤
松永 務
Tsutomu Matsunaga
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2015185421A priority Critical patent/JP6599188B2/en
Publication of JP2017059151A publication Critical patent/JP2017059151A/en
Application granted granted Critical
Publication of JP6599188B2 publication Critical patent/JP6599188B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a bilingual dictionary creation device and the like capable of creating a correct bilingual dictionary even for words whose frequency of appearance is small.SOLUTION: A bilingual dictionary creation method includes steps of: acquiring a corresponding sentence in which a Japanese sentence and an English sentence are associated with each other; determining a term pair between different languages out of the corresponding sentence; calculating a score which shows strength of correspondence with respect to the term pair, based on the appearance position of the term in Japanese related to the term pair appearing in the Japanese sentence and the appearance position of the term in English related to the term pair appearing in the English sentence; and creating the term pair as a bilingual dictionary between different languages according to the score and outputting it.SELECTED DRAWING: Figure 5

Description

本発明は、異なる言語間の対訳辞書を作成する技術に関する。   The present invention relates to a technique for creating a bilingual dictionary between different languages.

従来、異なる言語間において、同一の意味内容の単語対を作成することが知られている。例えば、公知の辞書自動作成方式では、対訳コーパスから、原言語と目的言語との間の対応データを読み込み、対応データに示された原言語の単語と目的言語の単語との尤度に基づいてそれらの単語間の対応付けを行うものがある(特許文献1)。   Conventionally, it is known to create word pairs having the same semantic content between different languages. For example, in a known automatic dictionary creation method, correspondence data between a source language and a target language is read from a bilingual corpus, and based on the likelihood of the source language word and the target language word indicated in the correspondence data. There is one that associates these words (Patent Document 1).

特開平7−28819号公報JP 7-28819 A

従来の辞書自動作成方式では、異なる言語間の単語対を尤度に基づいて作成する。しかしながら、対訳コーパスに出現する頻度が少ない単語については、出現頻度に基づく尤度(=確からしさ)が同じ値または同等の値になるので、正しい単語対を作成するために必要な尤度が得られず、正確な対訳辞書を作成することができないという問題があった。   In the conventional dictionary automatic creation method, word pairs between different languages are created based on likelihood. However, for words that appear infrequently in the bilingual corpus, the likelihood (= probability) based on the appearance frequency is the same value or an equivalent value, so the likelihood necessary to create a correct word pair is obtained. In other words, there was a problem that an accurate bilingual dictionary could not be created.

本発明は、上述した状況においてなされたものであり、出現頻度の少ない語についても正確な対訳辞書を作成することができる対訳辞書作成装置等を提供することにある。   The present invention has been made in the above-described situation, and it is an object of the present invention to provide a bilingual dictionary creation device and the like that can create an accurate bilingual dictionary even for words with a low appearance frequency.

上記の課題を解決するための本発明は、コンピュータが対訳辞書を作成する対訳辞書作成方法であって、第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得するステップと、 前記対応文の中から抽出された異なる言語間の用語対を、対訳辞書作成対象として決定するステップと、前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価するステップと、前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力するステップとを含む。   The present invention for solving the above problems is a bilingual dictionary creation method in which a computer creates a bilingual dictionary, from a bilingual corpus in which a first language sentence and a second language sentence are associated in advance in sentence units, Obtaining a correspondence sentence; determining a term pair between different languages extracted from the correspondence sentence as a bilingual dictionary creation target; and a first language term relating to the term pair as the first language. Based on the appearance position appearing in the sentence and the appearance position where the second language character string related to the term pair appears in the second language sentence, the strength of the correspondence between the terms constituting the term pair is determined. And a step of creating and outputting the term pair as a bilingual dictionary between different languages according to an evaluation result by the evaluation unit.

ここで、前記文字列の出現位置は、前記異なる言語間の文構造的特徴が同一となるように並び替えられるようにしてもよい。   Here, the appearance positions of the character strings may be rearranged so that sentence structural features between the different languages are the same.

前記用語の出現位置は、対応する言語文中における当該用語の出現順であり、前記評価するステップは、前記対応する言語文に含まれる形態素または複数の形態素をまとめあげた用語と、前記用語の出現順との関係に基づいて、前記対応関係の強さを表すスコアを計算し、前記出力するステップは、前記スコアに応じて、前記異なる言語間の対訳辞書を作成するようにしてもよい。   The appearance position of the term is the order of appearance of the term in the corresponding language sentence, and the evaluating step includes a term that summarizes the morpheme or plural morphemes included in the corresponding language sentence, and the order of appearance of the term. Based on the relationship, a score representing the strength of the correspondence may be calculated, and the outputting step may create a bilingual dictionary between the different languages according to the score.

前記評価するステップは、異なる対応文から同一の用語対が取得された場合には、前記同一の用語対に対するすべてのスコアを計算して、当該同一の用語対に対する最終的なスコアを決定するようにしてもよい。   The evaluating step may calculate all scores for the same term pair and determine a final score for the same term pair when the same term pair is obtained from different corresponding sentences. It may be.

上記の課題を解決するための本発明は、第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得する取得部と、前記対応文の中から抽出された異なる言語間の用語対を、対訳辞書作成対象として決定する決定部と、前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価する評価部と、前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力する出力部とを含む。   The present invention for solving the above-described problems includes an acquisition unit that acquires a corresponding sentence from a bilingual corpus in which a first language sentence and a second language sentence are associated in advance on a sentence basis; A determining unit that determines the extracted term pairs between different languages as a bilingual dictionary creation target, an appearance position where a term in the first language related to the term pair appears in the first language sentence, and a term related to the term pair Based on the appearance position at which the character string of the second language appears in the second language sentence, the evaluation unit that evaluates the strength of the correspondence between the terms constituting the term pair, and the evaluation result by the evaluation unit And an output unit that generates and outputs the term pair as a bilingual dictionary between different languages.

本発明によれば、出現頻度の少ない単語についても正確な対訳辞書を作成することができる。   According to the present invention, it is possible to create an accurate bilingual dictionary even for words with a low appearance frequency.

本発明の実施形態の対訳辞書作成装置を含む対訳辞書作成システム全体の概要構成例を示す図である。It is a figure which shows the example of a schematic structure of the whole bilingual dictionary creation system containing the bilingual dictionary creation apparatus of embodiment of this invention. 図1の対訳辞書作成装置のハードウエア上の構成例を示す図である。It is a figure which shows the structural example on the hardware of the bilingual dictionary creation apparatus of FIG. 対訳辞書作成装置によって実現される対訳辞書作成の概略を説明するための図である。It is a figure for demonstrating the outline of bilingual dictionary creation implement | achieved by the bilingual dictionary creation apparatus. 対訳辞書作成装置の機能構成の一例を示す図である。It is a figure which shows an example of a function structure of a bilingual dictionary creation apparatus. 対訳辞書作成装置における処理全体の一例を示すフローチャートである。It is a flowchart which shows an example of the whole process in a bilingual dictionary creation apparatus.

以下、本発明の一実施形態における対訳辞書作成装置を含む対訳辞書作成システム全体の概略構成について図1を参照して説明する。図1は、対訳辞書作成システム1全体の概要構成例を示す図である。   Hereinafter, a schematic configuration of an entire bilingual dictionary creation system including a bilingual dictionary creation device according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a diagram showing a schematic configuration example of the entire bilingual dictionary creation system 1.

図1において、対訳辞書作成システム1は、通信端末10と、通信端末10と例えばインターネット等の通信網20を介して接続可能な対訳辞書作成装置30と、対訳辞書作成装置30と接続可能な外部システムとしての対訳コーパス40とを含んで構成されている。   In FIG. 1, a bilingual dictionary creating system 1 includes a communication terminal 10, a bilingual dictionary creating device 30 that can be connected to the communication terminal 10 via a communication network 20 such as the Internet, and an external that can be connected to the bilingual dictionary creating device 30. The system includes a parallel corpus 40 as a system.

対訳辞書作成システム1では、通信端末10と対訳辞書作成装置30との間は、HTTP(HyerText Transfer Protocol)通信が行われるようになっているが、それ以外の通信方式もとり得る。   In the bilingual dictionary creation system 1, HTTP (HyerText Transfer Protocol) communication is performed between the communication terminal 10 and the bilingual dictionary creation device 30, but other communication methods may be used.

通信端末10は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、液晶ディスプレイ等の表示装置と、タッチパネル等の入力装置とを備える。この実施形態では、通信端末10は、一例として、ラップトップパソコン(Laptop computer)とするが、携帯端末、PDA(Personal Digital Assist)、パーソナルコンピュータなどでもよい。   The communication terminal 10 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), a display device such as a liquid crystal display, and an input device such as a touch panel. In this embodiment, the communication terminal 10 is a laptop computer as an example, but may be a portable terminal, a PDA (Personal Digital Assist), a personal computer, or the like.

対訳コーパス40は、例えばネットワークの伝送路上に設けられ、ネットワーク上の対訳辞書作成装置30との間で通信可能な文書データベースである。後述するように、対訳コーパス40は、異なる言語(英語、日本語など)間の同じ意味内容を有する文同士を互いに対応付けて記憶している。なお、対訳コーパス40は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含む。   The bilingual corpus 40 is a document database that is provided on, for example, a network transmission path and can communicate with the bilingual dictionary creation device 30 on the network. As will be described later, the bilingual corpus 40 stores sentences having the same semantic content between different languages (such as English and Japanese) in association with each other. The bilingual corpus 40 includes a central processing unit (CPU), a read only memory (ROM), and a random access memory (RAM).

[対訳辞書作成装置のハードウエア構成]
次に、図1に示した対訳辞書作成装置30のハードウエア構成例について、図2を参照して説明する。図2は、対訳辞書作成装置30の構成例を示す図である。
[Hardware configuration of bilingual dictionary creation device]
Next, a hardware configuration example of the bilingual dictionary creation device 30 shown in FIG. 1 will be described with reference to FIG. FIG. 2 is a diagram illustrating a configuration example of the bilingual dictionary creation device 30.

対訳辞書作成装置30は、図2に示すように、CPU(Central Processing Unit)31と、ROM(Read Only Memory)32と、RAM(Random Access Memory)33と、通信インターフェース34と、外部アクセス部35とを含むサーバ装置である。   As shown in FIG. 2, the bilingual dictionary creation apparatus 30 includes a CPU (Central Processing Unit) 31, a ROM (Read Only Memory) 32, a RAM (Random Access Memory) 33, a communication interface 34, and an external access unit 35. Is a server device.

CPU31は、各構成要素とバスで接続されて制御信号やデータの転送を行うとともに、対訳辞書作成装置30全体の処理を実現するためのプログラムの実行、演算処理等を行う。   The CPU 31 is connected to each component via a bus and transfers control signals and data, and executes a program for realizing the entire processing of the bilingual dictionary creation device 30 and performs arithmetic processing.

ROM32には、対訳辞書作成装置30全体の動作に必要な対訳辞書作成プログラムが記憶されており、本実施形態の対訳辞書作成装置30は、当該プログラムが実行されることにより実現される。このようなROM33に変えて、クラウドサービスを用いて必要なプログラムおよびデータを取り込むことももちろん可能である。   The ROM 32 stores a bilingual dictionary creating program necessary for the operation of the entire bilingual dictionary creating device 30. The bilingual dictionary creating device 30 of the present embodiment is realized by executing the program. Of course, it is possible to take in necessary programs and data using a cloud service instead of the ROM 33.

上述したプログラムは、CD−ROM等の記憶媒体に格納されていてもよい。   The above-described program may be stored in a storage medium such as a CD-ROM.

RAM33には、後述する対訳辞書作成処理を行うためのプログラムおよび各種のデータが一時的に保持される。   The RAM 33 temporarily stores a program for performing a bilingual dictionary creation process, which will be described later, and various data.

通信インターフェース34は、ネットワークインターフェース機能を有しており、通信端末10との通信を行う。   The communication interface 34 has a network interface function and performs communication with the communication terminal 10.

外部アクセス部35は、CPU31が対訳コーパス40にアクセスして対訳コーパス40と通信を行うためのインターフェースである。この実施形態では、対訳コーパス40内の後記する対応文が外部アクセス部35を介してCPU31へ伝送される。なお、対訳辞書作成装置30は、対訳コーパス40内における異なる言語文の対訳を読み込む機能を兼ね備える単一のサーバ装置として構成してもよい。   The external access unit 35 is an interface for the CPU 31 to access the parallel corpus 40 and communicate with the parallel corpus 40. In this embodiment, a corresponding sentence to be described later in the parallel corpus 40 is transmitted to the CPU 31 via the external access unit 35. The bilingual dictionary creation device 30 may be configured as a single server device that also has a function of reading parallel translations of different language sentences in the bilingual corpus 40.

[対訳辞書作成の概略]
次に、対訳辞書作成装置30によって実現される対訳辞書作成の概要について、図1〜図3を参照して説明する。図3は、対訳辞書作成の概略を説明するための図であって、(a)は予め対応付けられた異なる言語文A,Bと、(b)形態素の解析処理と、(c)用語の抽出処理と、(d)用語対の決定処理と、(e)用語の並び替え処理と、(f)用語対の評価処理と、(g)対訳辞書作成処理とを示している。なお、図3(a)〜(g)は、対訳辞書作成処理を例示的に示しているに過ぎない。
[Outline of bilingual dictionary creation]
Next, an outline of bilingual dictionary creation realized by the bilingual dictionary creating apparatus 30 will be described with reference to FIGS. FIG. 3 is a diagram for explaining the outline of bilingual dictionary creation. (A) shows different language sentences A and B associated in advance, (b) morpheme analysis processing, and (c) terminology An extraction process, (d) a term pair determination process, (e) a term rearrangement process, (f) a term pair evaluation process, and (g) a bilingual dictionary creation process are shown. 3A to 3G merely illustrate the bilingual dictionary creation process.

先ず、この対訳辞書作成装置30において、対訳辞書作成の処理時には、異なる言語文が文単位であらかじめ対応付けられた対応文(対訳文)が対訳コーパス40から読み込まれる。図3(a)の例では、対訳辞書作成装置30のCPU31が、「彼は、東京にある会社で働いている。」という日本語文Aと、「He works for a company in Tokyo」という英語文Bとを含む対応文を読み込む。   First, in this bilingual dictionary creation device 30, at the time of bilingual dictionary creation processing, corresponding sentences (parallel translation sentences) in which different language sentences are associated in advance in units of sentences are read from the bilingual corpus 40. In the example of FIG. 3A, the CPU 31 of the bilingual dictionary creation device 30 performs the Japanese sentence A “He works for a company in Tokyo” and the English sentence “He works for a company in Tokyo”. A corresponding sentence including B is read.

次に、図3(b)に示すように、CPU31は、日本語文Aおよび英語文Bの各々を、言語学的に意味を持つ最小単位の形態素に区切る処理として、例えば形態素解析を行う。そして、CPU31は、各文A,B中の用語(この実施形態では、例えば、その用語自体で意味を表すことができる自立語)として、例えば図3(c)に示すように、「彼」、「東京」、「会社」、「働い」、「he」、「works」、「company」および「tokyo」という文字列を抽出し、さらに例えば図3(d)に示すように、それらの用語を組み合わせた用語対(「彼」と「he」の対など)を作成する。   Next, as illustrated in FIG. 3B, the CPU 31 performs, for example, morphological analysis as a process of dividing each of the Japanese sentence A and the English sentence B into morphemes of the smallest unit that has linguistic meaning. Then, the CPU 31 uses “he” as a term in each sentence A and B (in this embodiment, for example, an independent word whose meaning can be expressed by the term itself), for example, as shown in FIG. , “Tokyo”, “Company”, “Work”, “he”, “works”, “company” and “tokyo” are extracted, and for example, as shown in FIG. Create a pair of terms (such as a pair of “he” and “he”).

図3(e)に示すように、CPU31は、日本語と英語との間の文構造的特徴(文法構造、用語の意味内容など)が同一となるように、「he works for a company in Tokyo」という英語文Bの用語を並び替えて、「He ga Tokyo in company for works」という並び替え文B1に変換する。換言すれば、上記並び替え文B1は、日本語文Aの語順と整合するように、英語文Bを主辞後置変換したものである。なお、異なる言語間の文構造的特徴が同一または類似する場合には、CPU31は、上記並び替え処理を行わないようにしてもよい。   As shown in FIG. 3E, the CPU 31 “he works for a company in Tokyo” so that sentence structural features (grammatical structure, meaning of terms, etc.) are the same between Japanese and English. The English sentence B term "" is rearranged and converted into a rearranged sentence B1 "Hega Tokyo in company for works". In other words, the rearranged sentence B1 is obtained by subjecting the English sentence B to postfix conversion so that it matches the word order of the Japanese sentence A. Note that if the sentence structural features between different languages are the same or similar, the CPU 31 may not perform the rearrangement process.

そして、図3(f)に示すように、CPU31は、日本語文A中の「会社」の出現位置(文頭からの出現が7語目)と、並び替え文B1中の「company」の出現位置(文頭からの出現が5語目)とから、「会社」と「company」の用語対を構成する2つの用語間の対応関係の強さを評価する。なお、以下の説明では、文頭から何番目の形態素として出現するかを示した上記「5語目」および「7語目」を、「出現順」と称する。   Then, as shown in FIG. 3F, the CPU 31 determines the appearance position of “company” in the Japanese sentence A (the appearance from the beginning of the sentence is the seventh word) and the appearance position of “company” in the rearrangement sentence B1. (Appearance from the beginning of the sentence is the fifth word), the strength of the correspondence between the two terms constituting the term pair of “company” and “company” is evaluated. In the following description, the “fifth word” and “seventh word” indicating the number of morphemes that appear from the beginning of the sentence are referred to as “order of appearance”.

この実施形態では、対応関係の強さを評価する一例として、{(日本語Aに含まれる用語の出現順)/(日本語文Aに含まれる形態素の総数)−(並び替え文B1に含まれる用語の出現順)/(並び替え文B1に含まれる形態素の総数)}の式(1)で与えられる値の絶対値がスコアとして求められる。図3(f)の例では、日本語Aの「会社」の出現順=7語目;日本語Aに含まれる形態素の総数=12語;並び替え文B1の「company」の出現順=5語目;並び替え文B1に含まれる形態素の総数=8語、となるので、上記スコアは、{(7/12)−(5/8)}から、約0.04となる。   In this embodiment, as an example of evaluating the strength of the correspondence, {(order of appearance of terms included in Japanese A) / (total number of morphemes included in Japanese sentence A) − (included in rearrangement sentence B1) The absolute value of the value given by the expression (1) of the order of appearance of terms / (total number of morphemes contained in the rearrangement sentence B1)} is obtained as a score. In the example of FIG. 3F, the appearance order of “company” in Japanese A = seventh word; the total number of morphemes contained in Japanese A = 12 words; the appearance order of “company” in rearrangement sentence B1 = 5 Word: Since the total number of morphemes contained in the rearranged sentence B1 is 8, the score is about 0.04 from {(7/12)-(5/8)}.

図3(g)の例によれば、CPU31は、他の用語対のスコアについても求め、例えば、0.04のスコアを有する用語対((彼、he)、(東京、tokyo)、(会社、company))を、対訳辞書として採用する。すなわち、スコアが小さいほど、用語対を構成する用語間の対応関係が強いと評価することができるので、スコアの値を考慮することで、正しい対訳辞書を作成することができる。   According to the example of FIG. 3G, the CPU 31 also obtains scores of other term pairs, for example, term pairs ((he, he), (Tokyo, tokyo), (company) having a score of 0.04. , Company)) as a bilingual dictionary. That is, it can be evaluated that the smaller the score is, the stronger the correspondence between the terms constituting the term pair is. Therefore, the correct bilingual dictionary can be created by considering the score value.

[対訳辞書作成装置の機能構成]
次に、対訳辞書作成装置30の機能構成について図4を参照して説明する。図4は、図2に示したハードウエア構成上で実現される対訳辞書作成装置30の機能構成の一例を示す図である。
[Functional structure of bilingual dictionary creation device]
Next, the functional configuration of the bilingual dictionary creation device 30 will be described with reference to FIG. FIG. 4 is a diagram illustrating an example of a functional configuration of the bilingual dictionary creation device 30 realized on the hardware configuration illustrated in FIG. 2.

図4において、対訳辞書作成装置30は、取得部301と、決定部302と、評価部303と、出力部304とを備える。決定部302は、用語抽出部3021と、用語対作成部3022とを含む。これらの構成要素については、以下の対訳辞書作成装置30の処理説明において適宜参照される。   In FIG. 4, the bilingual dictionary creation device 30 includes an acquisition unit 301, a determination unit 302, an evaluation unit 303, and an output unit 304. The determination unit 302 includes a term extraction unit 3021 and a term pair creation unit 3022. These components are appropriately referred to in the following description of the processing of the bilingual dictionary creation device 30.

[対訳辞書作成装置の処理]
以下、この対訳辞書作成を実現するために実行される対訳辞書作成装置30の処理について、図1〜図5を参照して説明する。図5は、対訳辞書作成装置30における処理全体の一例を示すフローチャートである。
[Processing of bilingual dictionary creation device]
Hereinafter, the process of the bilingual dictionary creation device 30 executed to realize this bilingual dictionary creation will be described with reference to FIGS. FIG. 5 is a flowchart showing an example of the entire processing in the bilingual dictionary creation device 30.

図5において、CPU31は、対訳コーパス40から、異なる言語間の対応文を取得する(ステップS10)。対応文は、図3(a)に一例を示すように、「彼は、東京にある会社で働いている。」という日本語文Aと、「He works for a company in Tokyo」という英語文Bである。   In FIG. 5, CPU31 acquires the correspondence sentence between different languages from the bilingual corpus 40 (step S10). As shown in the example in Fig. 3 (a), the correspondence sentences are Japanese sentence A "He works for a company in Tokyo" and English sentence B "He works for a company in Tokyo". is there.

ステップS10において、CPU31は、外部アクセス部35と協働して、取得部301として機能する。   In step S <b> 10, the CPU 31 functions as the acquisition unit 301 in cooperation with the external access unit 35.

次にCPU31は、ステップS10で取得された異なる言語間の対応文の中から抽出された用語対を、対訳辞書作成対象として決定する(ステップS11)。図3(d)では、(彼、he)などの用語対が決定されて、その用語対が作成されることになるが、その決定の前に、CPU31は、図3(b)および図3(c)に一例を示すように、日本語文Aと英語文Bとをそれぞれ形態素解析し、「彼」、「he」などの自立語を、用語として抽出することになる。   Next, the CPU 31 determines a term pair extracted from the correspondence sentences between different languages acquired in step S10 as a bilingual dictionary creation target (step S11). In FIG. 3 (d), a term pair such as (he, he) is determined and the term pair is created. Before the determination, the CPU 31 performs processing shown in FIG. 3 (b) and FIG. As shown in (c), for example, Japanese sentence A and English sentence B are each subjected to morphological analysis, and independent words such as “he” and “he” are extracted as terms.

ステップS11の決定処理において、CPU31は、決定部302として機能する。また、上記用語の抽出処理において、CPU31は用語抽出部3021として機能し、上記用語対の作成処理において、CPU31は用語対作成部3022として機能する。   In the determination process of step S <b> 11, the CPU 31 functions as the determination unit 302. In the term extraction process, the CPU 31 functions as the term extraction unit 3021. In the term pair creation process, the CPU 31 functions as the term pair creation unit 3022.

CPU31は、ステップS11で決定された用語対のすべてを対象として、対応する用語対のスコアを計算する。この場合、CPU31は、スコアを計算する前に、日本語の文構造的特徴(文法構造、意味内容)に合わせるため、英語文Bの並び替えを行う。図3(e)では、例えば、英語文Bが主辞後置変換されて並び替え文B1として設定され、この並び替え文B1では、「company」の出現順が文頭から5番目になる(図3(f))。この並び替えが行われた後に、CPU31は、日本語文Aの「会社」の出現順(=7語目)と、並び替え文B1の「company」の出現順(=5語目)とに基づいて、「会社」と「company」の用語対のスコアを計算する。このときのスコアは、上記式(1)に示したように、{(日本語Aに含まれる「会社」の出現順)/(日本語文Aに含まれる形態素の総数)−(並び替え文B1に含まれる「company」の出現順)/(並び替え文B1に含まれる形態素の総数)}の関係式から、{(7/12)−(5/8)}=約0.04となる。   CPU31 calculates the score of a corresponding term pair for all the term pairs determined in step S11. In this case, the CPU 31 rearranges the English sentence B in order to match Japanese sentence structure characteristics (grammatical structure, semantic content) before calculating the score. In FIG. 3 (e), for example, English sentence B is subject to postfix conversion and set as rearrangement sentence B1, and in this rearrangement sentence B1, the appearance order of “company” is the fifth from the beginning of the sentence (FIG. 3). (F)). After this rearrangement is performed, the CPU 31 is based on the appearance order of the “company” in the Japanese sentence A (= the seventh word) and the appearance order of “company” in the rearrangement sentence B1 (= the fifth word). Then, the score of the term pair “company” and “company” is calculated. The score at this time is, as shown in the above formula (1), {(order of appearance of “company” included in Japanese A) / (total number of morphemes included in Japanese sentence A) − (sort sentence B1 {(7/12) − (5/8)} = about 0.04 from the relational expression “order of appearance of“ company ”included in” / (total number of morphemes included in rearrangement sentence B1)}.

上述したスコアが小さいほど、用語対を構成する用語間の対応関係が強くなるので、スコアによって、用語対の対応関係が強いか否かを評価することができる。   The smaller the score described above, the stronger the correspondence between the terms constituting the term pair, so it is possible to evaluate whether the correspondence between the term pairs is strong or not based on the score.

ステップS12において、CPU31は、評価部303として機能する。   In step S <b> 12, the CPU 31 functions as the evaluation unit 303.

図5において、CPU31は、ステップS10で対訳コーパス40から取得されたすべての対応文を対象として、ステップS11およびステップS12の処理を逐次繰り返し実行する。   In FIG. 5, the CPU 31 sequentially and repeatedly executes the processes of steps S <b> 11 and S <b> 12 for all corresponding sentences acquired from the bilingual corpus 40 in step S <b> 10.

なお、対象はすべての対応文ではなく、一部の指定した対応文のみであってもよい。   The target may not be all the corresponding sentences but only a part of the specified corresponding sentences.

なお、上記並び替え処理は、ステップS12で行われることになるが、スコアが計算される前(ステップS10またはステップS11)に行われるようにしてもよい。   The rearrangement process is performed in step S12, but may be performed before the score is calculated (step S10 or step S11).

CPU31は、ステップS12で計算されたスコアに基づいて、用語対を対訳辞書として作成して出力する(ステップS13)。例えば、スコアが予め設定された閾値以上の場合に、用語対を対訳辞書として作成して出力される。図3(g)では、例えば、上記閾値が0.04で設定されているので、0.04のスコアを有する用語対((彼、he)、(東京、tokyo)、(会社、company))が対訳辞書として作成されて出力される。対訳辞書の作成は、用語対を対訳辞書として示すものであればよく、例えば一覧表や辞書形式など種々の方法によって実施することができる。出力先は、例えば通信端末10である。   The CPU 31 creates and outputs a term pair as a bilingual dictionary based on the score calculated in step S12 (step S13). For example, when the score is equal to or higher than a preset threshold, a term pair is created and output as a bilingual dictionary. In FIG. 3G, for example, since the threshold is set at 0.04, a term pair having a score of 0.04 ((he, he), (Tokyo, tokyo), (company, company)) Is created and output as a bilingual dictionary. The bilingual dictionary may be created as long as the term pair is shown as a bilingual dictionary, and can be implemented by various methods such as a list or a dictionary format. The output destination is, for example, the communication terminal 10.

ステップS13において、CPU31は、通信インターフェース34と協働して、出力部304として機能する。   In step S <b> 13, the CPU 31 functions as the output unit 304 in cooperation with the communication interface 34.

以上説明したように、本実施形態の対訳辞書作成装置30によれば、異なる言語文の対応文中の用語対の各々の用語の出現位置に基づいて、その用語対に対するスコアを計算することにより、異なる言語間の対訳辞書が作成される。ここで、スコアは、出現頻度とは異なり、出現位置に基づいて計算されるので、出現頻度の少ない用語に対しても出現位置次第で異なる値が得られる。これにより、出現頻度の少ない用語についても正確な対訳辞書を作成することができる。   As described above, according to the bilingual dictionary creation device 30 of the present embodiment, by calculating the score for a term pair based on the appearance position of each term pair in the corresponding sentence of different language sentences, A bilingual dictionary between different languages is created. Here, since the score is calculated based on the appearance position, unlike the appearance frequency, a different value is obtained depending on the appearance position even for a term having a low appearance frequency. This makes it possible to create an accurate bilingual dictionary even for terms that appear less frequently.

なお、上記実施形態は、変更するようにしてもよい。   The above embodiment may be changed.

例えば、図5のスコア計算処理(ステップS12)において、異なる対応文から同一の用語対が取得された場合には、同一の用語対に対するすべてのスコアを計算して、当該同一の用語対に対する最終的なスコアを決定する。最終的なスコアは、例えば、相加平均、相乗平均などの値を適用する。   For example, in the score calculation process of FIG. 5 (step S12), when the same term pair is acquired from different corresponding sentences, all scores for the same term pair are calculated, and the final term for the same term pair is calculated. A reasonable score. As the final score, for example, an arithmetic mean, a geometric mean, or the like is applied.

上述したスコアの計算において、用語対にかかる用語の出現頻度に応じて重みを付けるようにしてもよい。   In the above-described score calculation, a weight may be given according to the appearance frequency of the term in the term pair.

以上では、上記式(1)を参照して、(言語文に含まれる形態素の総数)を用いたスコアを計算する処理について説明したが、これに代えて、(複数の形態素をまとめあげた用語の総数)を用いるようにしてもよい。例えば、言語文を形態素で区切った後に、連続する複数の形態素からなる文章が名詞となる場合には、CPU31は、複数の形態素からなる形態素群を一つの用語として認識して上記スコアを計算することができる。   In the above, the processing for calculating the score using (the total number of morphemes contained in the language sentence) has been described with reference to the above formula (1), but instead of this, ( The total number) may be used. For example, when a sentence composed of a plurality of continuous morphemes becomes a noun after dividing a language sentence by morphemes, the CPU 31 recognizes a group of morphemes composed of a plurality of morphemes as one term and calculates the score be able to.

上述した対訳辞書作成処理は、出現位置に基づくスコアを考慮して対訳辞書を作成するものであればよい、日本語と英語以外の言語についても適用することができる。   The bilingual dictionary creation process described above may be applied to languages other than Japanese and English as long as the bilingual dictionary is created in consideration of the score based on the appearance position.

10 通信端末
30 対訳辞書作成装置
40 対訳コーパス
301 対訳取得部
302 決定部
303 評価部
305 出力部
3021 用語抽出部
3022 用語対作成部
DESCRIPTION OF SYMBOLS 10 Communication terminal 30 Bilingual dictionary creation apparatus 40 Bilingual corpus 301 Bilingual acquisition part 302 Determination part 303 Evaluation part 305 Output part 3021 Term extraction part 3022 Term pair creation part

Claims (6)

コンピュータが対訳辞書を作成する対訳辞書作成方法であって、
第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得するステップと、
前記対応文の中から抽出された異なる言語間の用語対を、対訳作成対象として決定するステップと、
前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価するステップと、
前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力するステップと
を含むことを特徴とする対訳辞書作成方法。
A bilingual dictionary creation method in which a computer creates a bilingual dictionary,
Obtaining a corresponding sentence from a bilingual corpus in which the first language sentence and the second language sentence are associated in advance in sentence units;
Determining a pair of terms between different languages extracted from the corresponding sentence as a translation target;
Based on the appearance position where the term of the first language related to the term pair appears in the first language sentence, and the appearance position where the character string of the second language related to the term pair appears in the second language sentence, Evaluating the strength of the correspondence between terms that make up the term pair;
Creating a bilingual dictionary between different languages and outputting the term pair according to an evaluation result by the evaluating unit.
前記文字列の出現位置は、前記異なる言語間の文構造的特徴が同一となるように並び替えられることを特徴とする請求項1に記載の対訳辞書作成方法。   The bilingual dictionary creation method according to claim 1, wherein the appearance positions of the character strings are rearranged so that sentence structural features between the different languages are the same. 前記用語の出現位置は、対応する言語文中における当該用語の出現順であり、
前記評価するステップは、前記対応する言語文に含まれる形態素または複数の形態素をまとめあげた用語と、前記用語の出現順との関係に基づいて、前記対応関係の強さを表すスコアを計算し、
前記出力するステップは、前記スコアに応じて、前記異なる言語間の対訳辞書を作成することを特徴とする請求項1または2に記載の対訳辞書作成方法。
The appearance position of the term is the appearance order of the term in the corresponding language sentence,
The evaluating step calculates a score representing the strength of the correspondence relationship based on a relationship between a morpheme or a morpheme included in the corresponding language sentence and an appearance order of the terms,
3. The bilingual dictionary creating method according to claim 1, wherein the outputting step creates a bilingual dictionary between the different languages according to the score.
前記評価するステップは、異なる対応文から同一の用語対が取得された場合には、前記同一の用語対に対するすべてのスコアを計算して、当該同一の用語対に対する最終的なスコアを決定することを特徴とする請求項3に記載の対訳辞書作成方法。   In the evaluation step, when the same term pair is obtained from different corresponding sentences, all the scores for the same term pair are calculated to determine a final score for the same term pair. The method of creating a bilingual dictionary according to claim 3. 第1言語文と第2言語文とが文単位であらかじめ対応付けられた対訳コーパスから、対応文を取得する取得部と、
前記対応文の中から抽出された異なる言語間の用語対を、対訳辞書作成対象として決定する決定部と、
前記用語対にかかる第1言語の用語が前記第1言語文中に出現する出現位置と、前記用語対にかかる第2言語の文字列が前記第2言語文中に出現する出現位置とに基づいて、当該用語対を構成する用語間の対応関係の強さを評価する評価部と、
前記評価部による評価結果に応じて、前記用語対を、異なる言語間の対訳辞書として作成して出力する出力部と
を含むことを特徴とする対訳辞書作成装置。
An acquisition unit for acquiring a correspondence sentence from a parallel corpus in which a first language sentence and a second language sentence are associated in advance in sentence units;
A determination unit for determining a term pair between different languages extracted from the corresponding sentence as a bilingual dictionary creation target;
Based on the appearance position where the term of the first language related to the term pair appears in the first language sentence, and the appearance position where the character string of the second language related to the term pair appears in the second language sentence, An evaluation unit that evaluates the strength of the correspondence between terms constituting the term pair;
A bilingual dictionary creation device, comprising: an output unit that creates and outputs the term pairs as bilingual dictionaries between different languages according to the evaluation result by the evaluation unit.
請求項1ないし4のいずれか1項に記載の対訳辞書作成方法をコンピュータに実行させるための対訳辞書作成プログラム。   A bilingual dictionary creating program for causing a computer to execute the bilingual dictionary creating method according to any one of claims 1 to 4.
JP2015185421A 2015-09-18 2015-09-18 Bilingual dictionary creation device, bilingual dictionary creation method and program Active JP6599188B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015185421A JP6599188B2 (en) 2015-09-18 2015-09-18 Bilingual dictionary creation device, bilingual dictionary creation method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015185421A JP6599188B2 (en) 2015-09-18 2015-09-18 Bilingual dictionary creation device, bilingual dictionary creation method and program

Publications (2)

Publication Number Publication Date
JP2017059151A true JP2017059151A (en) 2017-03-23
JP6599188B2 JP6599188B2 (en) 2019-10-30

Family

ID=58390618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015185421A Active JP6599188B2 (en) 2015-09-18 2015-09-18 Bilingual dictionary creation device, bilingual dictionary creation method and program

Country Status (1)

Country Link
JP (1) JP6599188B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012177972A (en) * 2011-02-25 2012-09-13 National Institute Of Information & Communication Technology Term translation extraction device, term translation extraction method, and production method for term translation dictionary

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012177972A (en) * 2011-02-25 2012-09-13 National Institute Of Information & Communication Technology Term translation extraction device, term translation extraction method, and production method for term translation dictionary

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
越前谷博 他3名: "局所着目方式によるアイヌ語−日本語名詞対訳語の抽出について", 電子情報通信学会技術研究報告, vol. Vol.103 No.408, JPN6019008484, 31 October 2003 (2003-10-31), JP, pages 93−98頁 *

Also Published As

Publication number Publication date
JP6599188B2 (en) 2019-10-30

Similar Documents

Publication Publication Date Title
US10157171B2 (en) Annotation assisting apparatus and computer program therefor
US9916306B2 (en) Statistical linguistic analysis of source content
KR102025968B1 (en) Phrase-based dictionary extraction and translation quality evaluation
US9575965B2 (en) Translation assessment based on computer-generated subjective translation quality score
KR20190073525A (en) Implicit bridging of machine learning tasks
US20160267073A1 (en) Performance detection and enhancement of machine translation
US20190205396A1 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
KR101573854B1 (en) Method and system for statistical context-sensitive spelling correction using probability estimation based on relational words
US11288460B2 (en) Translation support system, etc
US10402497B2 (en) Processing method, processing apparatus, and recording medium
US20150161109A1 (en) Reordering words for machine translation
CN113657100A (en) Entity identification method and device, electronic equipment and storage medium
EP2851809A2 (en) Machine translation apparatus and method
WO2016147034A1 (en) Method of and system for processing a text stream
RU2595531C2 (en) Method and system for generating definition of word based on multiple sources
JP2017010274A (en) Associating device and program
JP6599188B2 (en) Bilingual dictionary creation device, bilingual dictionary creation method and program
JP5911931B2 (en) Predicate term structure extraction device, method, program, and computer-readable recording medium
JP2007317000A (en) Machine translation device, its method, and program
JP2010170303A (en) Machine translation device and program
JP6656894B2 (en) Bilingual dictionary creation device, bilingual dictionary creation method and program
JP5944859B2 (en) Evaluation information extracting apparatus, certainty degree learning apparatus, method, and program
JP7243818B2 (en) Reading disambiguation device, reading disambiguation method, and reading disambiguation program
Huu et al. Dependency-based pre-ordering of preposition phrases in Chinese-Vietnamese machine translation
JP2017091100A (en) Predicate-argument structure extraction device, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191002

R150 Certificate of patent or registration of utility model

Ref document number: 6599188

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350