JP2005038074A - Device and method for process of creating bilingual dictionary data, process program thereof, and recording medium for recording this program - Google Patents

Device and method for process of creating bilingual dictionary data, process program thereof, and recording medium for recording this program Download PDF

Info

Publication number
JP2005038074A
JP2005038074A JP2003198244A JP2003198244A JP2005038074A JP 2005038074 A JP2005038074 A JP 2005038074A JP 2003198244 A JP2003198244 A JP 2003198244A JP 2003198244 A JP2003198244 A JP 2003198244A JP 2005038074 A JP2005038074 A JP 2005038074A
Authority
JP
Japan
Prior art keywords
language
translation
dictionary data
bilingual
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003198244A
Other languages
Japanese (ja)
Inventor
Gyokuketsu Cho
玉潔 張
Sei Ba
青 馬
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2003198244A priority Critical patent/JP2005038074A/en
Publication of JP2005038074A publication Critical patent/JP2005038074A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a process device for automatically creating bilingual dictionary data in a certain language and another language via bilingual data with regard to a third language. <P>SOLUTION: A translation candidate obtaining means 2 obtains an English translation of a keyword (Japanese) in bilingual dictionary data 6 from a Japanese-English dictionary 41 and obtains translation candidates (Chinese) for the obtained English translation from an English-Chinese dictionary 51. A translation evaluating/selecting means 3 uses a word class correspondence evaluating part 31 to evaluate the correspondence between the word class of each translation candidate and the word class of the keyword according to the correspondence between Japanese and Chinese word classes; the translation candidate which is evaluated to be equal to or higher than a predetermined value is extracted as a translation of the keyword in the bilingual dictionary data 6. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、ある自然言語から別の自然言語への訳語を記述する対訳辞書データを作成する対訳辞書データ作成処理技術に係り、特に、第一の言語と第二の言語との対訳データを記述した電子化された第一辞書データと、第二の言語と第三の言語との対訳データを記述した電子化された第二辞書データとを用いて、第一の言語から第三の言語への対訳辞書データを作成する対訳辞書データ作成処理装置、その処理方法、対訳辞書データ作成処理プログラム、および対訳辞書データ作成処理プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
ある言語の語句について別の言語への対訳データを獲得する処理において、対訳を獲得したい語句の言語を基言語といい、獲得する訳語の言語を目的言語という。
【0003】
ある言語の語句について別の言語への訳語を調べたいが、言語によっては、基言語から目的言語への対訳辞書が存在しないという状況が生ずる。このような状況では、基言語および目的言語に対してそれぞれ対訳辞書を備えるような、より国際的な言語を中継言語として利用することが行われる。先ず、基言語と中継言語との対訳辞書(第一辞書データ)を利用して、基言語から中継言語の訳語を獲得する。その後、中継言語と目的言語との対訳辞書(第二辞書データ)を利用して、既に獲得した中継言語の訳語から目的言語の訳語を獲得する。
【0004】
このような、より国際性の高い言語との対訳データを中継させて基言語から目的言語への対訳辞書データを自動的に作成する処理を、電子化された第一辞書データおよび第二辞書データを利用して、コンピュータにより自動的に行う方法が提案されている(非特許文献1参照)。
【0005】
【非特許文献1】
田中(石井)久美子、梅村恭司、岩崎英哉著、
「第三言語を介した対訳辞書の作成」、情報処理学会論文誌、
1998年6 月、Vol.39、No.6、pp.1915−1924
【0006】
【発明が解決しようとする課題】
自然言語の一つの語句が複数の意義を持つこと、言語により語句が持つ意義の概念範囲が異なることは、よく知られている。
【0007】
中継言語を介して基言語と目的言語との対訳辞書データを作成する場合に、中継言語の訳語を獲得する処理では、基言語の語句の複数の意義に対する訳語を獲得し、さらに獲得した訳語をもとに目的言語の訳語を獲得する。
【0008】
そのため、基言語の語句、中継言語の訳語、および目的言語の訳語について、これらの語句が持つ意義の概念範囲のずれが生じることがある。この意味の概念範囲のずれによって、最終的に獲得した目的言語の訳語に不適切なものが含まれ、対訳辞書データの精度を低下させるという問題が生じる。
【0009】
上記の非特許文献1に記述された従来の処理手法では、獲得した目的言語の訳語から基言語の語を逆引きすることにより、不適当な訳語を排除している。しかし、獲得した目的言語の訳語の全てについて逆引きを行い、対訳の適否を決定する処理は膨大な計算量となるために負担が大きい。
【0010】
本発明は、上記の点に鑑みてなされたものであり、基言語および目的言語と中継言語との2つの対訳辞書データを利用して、基言語と目的言語との対訳辞書データをコンピュータを用いて自動作成する場合に、処理量を増大させず、かつ精度の良い対訳辞書データを作成することができる対訳辞書データ作成処理装置、その処理方法、対訳辞書データ作成処理プログラム、およびその処理プログラムを記録した記録媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記の目的を達成するため、本発明は、第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理装置であって、以下のような構成をとる。
【0012】
本発明は、第一言語と第二言語との対訳データを記述した第一辞書データを記憶する手段と、第二言語と第三言語との対訳データを記述した第二辞書データを記憶する手段と、前記第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、前記第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする訳語候補獲得手段と、前記第一言語と前記第三言語との品詞の対応のしやすさを示す品詞対応情報にもとづいて、前記訳語候補の品詞と前記見出し語の品詞との対応関係を評価し、前記対応関係の評価が所定の値以上である場合に、その訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する訳語選択手段とを備える。
【0013】
または、本発明は、前記第一辞書データを記憶する手段と、前記第二辞書データを記憶する手段と、前記第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、前記第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする訳語候補獲得手段と、前記見出し語の第二言語の訳語と前記訳語候補の第二言語の訳語において共通する訳語数を求め、所定数以上で共通する訳語数の訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する訳語評価・選択手段とを備える。
【0014】
または、本発明は、前記第一辞書データを記憶する手段と、前記第二辞書データを記憶する手段と、前記第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、前記第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする訳語候補獲得手段と、前記訳語候補の文字列数を求め、前記文字列数が所定数より少ない訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する訳語評価・選択手段とを備える。
【0015】
さらに、本発明は、上記の対訳辞書データ作成処理装置において実行される処理方法、またはその処理方法における処理をコンピュータに実行させるための処理プログラム、またはその処理プログラムを記録した記録媒体である。
【0016】
本発明は、例えば、基言語である第一言語を日本語、目的言語である第三言語を中国語、中継言語である第二言語を英語として、日本語と中国語との対訳辞書データを作成する場合に、以下のように作用する。
【0017】
本発明では、第一辞書データである日英辞書データと、第二辞書データである英中辞書データとを記憶する。日英辞書データから、対訳辞書データの見出し語となる日本語の単語について英訳を獲得する。さらに、英中辞書データから前記英訳について中国語の訳語を獲得して訳語候補とする。
【0018】
そして、獲得した訳語候補について、以下のような評価を行い、一定の評価を得た訳語候補を、対訳辞書データにおける見出し語の訳語として抽出する。
【0019】
日本語と中国語との品詞の対応のしやすさを示す品詞対応情報にもとづいて、前記訳語候補の品詞と前記見出し語の品詞との対応関係を評価し、前記対応関係の評価が所定の値以上である場合に、その訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する。
【0020】
一般的に、異なる言語間の品詞には、一定の拘束的な対応関係がある。本発明では、この品詞の対応関係の拘束性を利用して、例えば、対応関係が密接でない品詞、すなわち対応関係がないと考えられる品詞の訳語候補に低い評価を与えて、適切でない訳語候補を排除するものである。
【0021】
または、本発明は、日本語の英訳と中国語の訳語候補の英訳において共通する訳語数を求め、所定数以上で共通する訳語数の訳語候補を対訳辞書データにおける日本語の訳語として抽出する。
【0022】
見出し語の英訳と獲得された訳語候補の英訳とが共通する場合には、その見出し語と訳語候補との意味的なつながりが強いと考えられる。本発明では、見出し語と訳語候補との意味的関係の強さを示すと考えられる共通する第二言語の訳語(英訳)を利用し、見出し語の英訳と共通する英訳を所定数以上で持つ訳語候補を高く評価し、評価のよい訳語候補を抽出する。
【0023】
または、本発明は、獲得した中国語の訳語候補の文字列数を求め、前記文字列数が所定数より少ない訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する。
【0024】
辞書データは、単語や句などの訳語の他に、見出し語の説明文を含む場合がある。一般的に、説明文より単語や語句の方が訳語として好ましいと考えられるため、獲得した訳語候補の文字列をもとに、説明文と思われる訳語候補の評価を低くして、単語や句などの訳語として適切な訳語候補を抽出する。
【0025】
本発明では、上記のような評価基準を用いて、獲得した訳語候補の適切さを評価する。これにより、獲得された訳語候補から、不適切な訳語や誤った訳語を排除し、適切な訳語候補を対訳辞書データの訳語として抽出することができ、精度の良い対訳辞書データを自動作成することが可能となる。
【0026】
【発明の実施の形態】
以下、本発明の実施の一形態として、基言語である日本語から目的言語である中国語への対訳辞書データを作成する場合に、基言語と目的言語との中継言語として、より国際的な言語である英語を用いた場合の対訳辞書データ作成処理を説明する。
【0027】
図1に、本発明にかかる対訳辞書データ作成処理装置の構成例を示す。対訳辞書データ作成処理装置1は、訳語候補獲得手段2および訳語評価・選択手段3を備える。対訳辞書データ作成処理装置1は、第1辞書記憶部4および第2辞書記憶部5にアクセスして、データを獲得することが可能である。
【0028】
第1辞書記憶部4は、作成する対訳辞書データ6の基言語から中継言語への対訳データを記述した第一辞書データ(日英辞書)41を記憶する手段である。
【0029】
図2に、日英辞書41の例を示す。日英辞書41には、日本語(基言語)の見出し語ごとに、少なくとも、見出し語の品詞、英語(中継言語)による訳語およびその訳語の品詞が記述される。
【0030】
図2に示す日英辞書41では、見出し語に対し、レコード番号、品詞、意味コード、意味概念情報、訳語(英語)などの情報が対応づけられている。例えば、日本語の見出し語「アーミン」について、以下のような情報が格納される。
【0031】
「品詞:名詞、
意味概念情報:ermine、オコジョ、an animal called ermine 、
訳語:stout(ad) /ermine(n) 」
第2辞書記憶部5は、第1辞書記憶部4の第一辞書データ41で採用されている中継言語から目的言語への対訳データを記述した第二辞書データ(英中辞書)51を記憶する手段である。
【0032】
図3に、英中辞書51の例を示す。英中辞書51には、英語(中継言語)の見出し語ごとに、少なくとも、見出し語の品詞、中国語(目的言語)による訳語およびその訳語の品詞が記述される。
【0033】
例えば、英語の見出し語「ermine」について、以下のような情報が格納される。
「品詞:名詞、
訳語:貂/貂的白毛皮(名詞)」
訳語候補獲得手段2は、日英辞書41の見出し語ごとに、その訳語を取り出し、取り出した訳語(第二言語の訳語)をキーに英中辞書51の見出し語を検索し、さらに中国語の訳語を獲得して訳語候補とする手段である。
【0034】
訳語評価・選択手段3は、訳語候補獲得手段2が獲得した訳語候補を所定の評価規則にもとづいて評価し、一定の評価を得た訳語候補を選択して対訳辞書データ6の訳語とする手段である。
【0035】
訳語評価・選択手段3は、品詞対応関係評価部31、共通語数評価部32、または訳語長評価部33のいずれか一つまたは二つまたはすべての処理部を備える。
【0036】
品詞対応関係評価部31は、2つの自然言語間における品詞同士の対応関係の密接度を記述する品詞対応関係情報を参照して、日本語の見出し語の品詞と中国語の訳語候補の品詞との対応関係にもとづいて、訳語候補を評価する処理部である。
【0037】
ここでは、日本語と中国語での品詞対応関係情報であって、日本語(基言語)の品詞は37個の品詞に分類され、中国語(目的言語)の品詞は39個の品詞に分類される場合に、2つの言語間の全ての品詞の組み合わせについて、対応関係の成りやすさの程度を定義したものを使用する。
【0038】
図4に品詞対応関係情報の例を示す。品詞の対応関係の成りやすさの程度を、「対応、準対応、不対応、未定」の4つに分類する。例えば、日本語から中国語への翻訳において、日本語の普通名詞が、中国語の名詞に対応する程度は非常に高い。このように品詞間の対応関係が高いものを「対応」とする。また、日本語の普通名詞が、中国語の助詞などと対応する程度は、以上に低い。このような対応関係を「不対応」とする。また、日本語の普通名詞は、中国語において名詞を生成する語素である「名詞語素」と対応することもある。このような対応関係を「準対応」とする。これら3つの対応関係以外の関係を「未定」とする。
【0039】
また、対応関係には、所定の条件を設定することもできる。例えば、日本語の「形容動詞」と、中国語の訳語候補の最後の単語の品詞が助詞でかつ「最後の文字が”的”である」ものとの条件を満たす対応関係についてのみ「対応」と設定してもよい。
【0040】
そして、品詞対応関係評価部31は、このような品詞対応関係情報において定義される4つの対応関係の程度にもとづいて、日本語の見出し語に対する中国語の訳語候補の評価を行う。なお、訳語候補が複数の単語(形態素)で構成される場合には、最後の単語(形態素)の品詞を評価対象とする。
【0041】
共通語数評価部32は、見出し語の英訳と、獲得された訳語候補の英訳とにおいて共通する訳語の数にもとづいて獲得された訳語候補を評価する処理部である。
【0042】
日本語の見出し語の英訳と、その訳語候補の英訳とがより多く共通していれば、訳語候補が日本語の見出し語に意味的に近く、より適切な訳語であると考えられるからである。
【0043】
図5に、日本語の見出し語の英訳と中国語の訳語候補との英訳の共通性の例を示す。ここで、日本語の見出し語「アーミン」に対する英訳として「ermine、stout」があり、見出し語の中国語の4つの訳語候補の英訳として「ermine、marten、sable」、「ermine」、「strong、powerful」、「firm、solid」があり、「ermine」は2つの訳語候補に共通する。
【0044】
この場合に、英訳「ermine」が共通する見出し語と訳語候補とは意味的な関係が近いと考えられる。このような関係にある訳語候補は適切な訳語である可能性が高いので、英訳「ermine」を持つ訳語候補を高く評価する。
【0045】
訳語長評価部33は、獲得された訳語候補の文字列の長さをもとに、所定の算出式F3(C)により、獲得された訳語候補を評価する処理部である。
【0046】
訳語候補を獲得する英中辞書51のように辞書データには、見出し語に対する訳語の他に見出し語の説明文が含まれる場合があるため、訳語候補の文字列の長さにもとづいて訳語候補を評価して、単語や語句などの適切な訳語を抽出できるようにする。
【0047】
訳語評価・選択手段3は、例えば、以下のようなペナルティ値(Pen(J,C))を算出する式を用いて、訳語候補獲得手段2により獲得された訳語候補のそれぞれを評価する。
【0048】
Pen(J,C)=F1(J,C)+F2(C)−F3(J,C)
[J=日本語の見出し語,C=中国語の訳語候補]
上記のPen(J,C)のうち、F1(J,C)により、見出し語Jと訳語候補Cとの品詞の対応関係にもとづいた評価値を取得する。
【0049】
例えば、4つの対応関係[対応、準対応、不対応、未定」に対して、以下のような関係となる所定の値を定めておき、その値を取得する。
【0050】
「対応」:一番小さい値
「準対応」:二番目に小さい値
「不対応」:一番大きい値
「未定」:二番目に大きい値
したがって、品詞が対応するほどF1の値が小さくなる。よって、ペナルティ値Pen(J,C)は小さくなり、その訳語候補の評価はよくなる。
【0051】
また、F2(C)は、訳語候補Cの長さと正比例するように定める。よって、訳語候補の文字列が短いほどF2の値が小さくなり、ペナルティ値Pen(J,C)が小さくなって、その訳語候補の評価はよくなる。
【0052】
また、F3(J,C)は、見出し語Jと訳語候補Cのそれぞれの英訳が共通する単語の数と正比例になるように定める。よって、共通する単語数が多いほど、F3の値は大きくなり、ペナルティ値Pen(J,C)が小さくなって、その訳語候補の評価は良くなる。
【0053】
図6を用いて、本発明の処理の概略を説明する。
【0054】
まず、訳語候補獲得手段2は、第1辞書記憶部4の日英辞書41を参照して、見出し語Jである単語(例えば「(名詞)アーミン」)について、英訳をすべて獲得する。
【0055】
さらに、訳語候補獲得手段2は、第2辞書記憶部5の英中辞書51を参照して、獲得した英訳それぞれに対する訳語(中国語)をすべて獲得し、訳語候補Cとする。例えば、以下の「名詞」の訳語および「形容詞」の訳語が獲得される。
【0056】
【外1】

Figure 2005038074
【0057】
訳語評価・選択手段3は、獲得したすべての訳語候補Cについて上記のペナルティ値Pen(J,C)を算出する。
【0058】
品詞対応関係評価部31により、上記のF1(J,C)が算出される。例えば、獲得された訳語候補のうち、名詞の訳語候補は適切な訳語であるが、形容詞の訳語候補は適切ではない。形容詞の訳語候補は、英語の訳語「stout」の形容詞の意味にもとづいて獲得されたものだからである。日本語「アーミン」の品詞(名詞)と対応関係の評価が高い名詞の訳語候補に対する値は低くなる。一方、対応関係の評価が低い形容詞の訳語候補に対する値は高くなる。
【0059】
さらに、共通語数評価部32により、上記のF3(J,C)が算出される。見出し語および訳語候補の英訳の集合中に最も多く現れる英訳「ermine」と対応する訳語候補の値が高くなる。
【0060】
さらに、訳語長評価部33により、F2(C)が算出される。獲得された訳語候補が説明文であるような訳語候補の値が低くなる。
【0061】
そして、訳語評価・選択手段3は、F1、F2、F3のそれぞれの値からペナルティ値Pen(J,C)を算出する。そして、ペナルティ値Pen(J,C)が一定の値より小さい訳語候補を良い訳語であると評価し、この訳語候補を対訳辞書データ6における見出し語「アーミン」の訳語として抽出する。
【0062】
次に、日本語の単語「重大だ」を見出し語とする場合の処理の具体例にもとづき本発明の効果を説明する。
【0063】
ここでは、日英辞書41としてEDR辞書データ(日本電子化辞書研究所)を用い、英中辞書51としてLDC英中・中英単語対応表データ(http://www.ldc.upenn.edu/Projects/Chinese/)を用いて、日本語の各見出し語について中国語の訳語候補を獲得した。なお、LDC英中・中英単語対応表データには、品詞情報が付与されていないため、中国語単語分割ツールにより、各単語に品詞情報を付与して用いた。
【0064】
処理の結果、中国語の訳語候補を20個以上獲得し、かつ、獲得した訳語候補中に正しい訳語が含まれていることが検証できた見出し語は172語あった。そのうち、最も訳語候補数が多い見出し語は、形容詞「重大だ」であった。
【0065】
図7(A)に示すように、本発明の対訳辞書データ作成処理装置1は、訳語候補獲得手段2において、見出し語「重大だ」に対して、英訳「major、importantなど」を介して145個の中国語の訳語候補を獲得した。
【0066】
しかし、1つの見出し語に対して145個の訳語候補が存在するという状態は、適切な訳語も獲得されているが、不適切もしくは誤った訳語も多数獲得されているという状態を意味し、これらの訳語候補にもとづいて作成した対訳辞書データ6を機械翻訳処理に利用することはできない。
【0067】
本発明の対訳辞書データ作成処理装置1は、訳語評価・選択手段3において、獲得された145個の訳語候補全てについて、その訳語候補が適切な訳語であるかどうかの評価を行い、さらに、一定の評価を得た訳語候補を対訳辞書データ6における訳語として抽出した。
【0068】
ここで、品詞対応関係情報による評価と、共通する中継言語の訳語による評価との効果を比較するために、2つの異なる処理を行ってみた。正しい訳語候補「重大」を指標とした。
【0069】
(1)処理例I
まず、処理例Iとして、訳語評価・選択手段3は、訳語候補の品詞対応関係(F1)および訳語候補の文字列長(F2)を評価手法として用いて、以下のようなペナルティ値Pen(J,C)を算出し、算出したペナルティ値の順位で訳語候補を並べた。
【0070】
Pen(J,C)=F1(J,C)+F2(C)
図7(B)に、所定の評価を得た訳語候補を含むまでの順位と、含まれる訳語候補の一部とを示す。所定の評価を得た訳語候補が含まれる候補数は、1位において27個、7位において16個、8位において33個であった。この処理例Iでは、正しい訳語候補「重大」を獲得するために27個の訳語候補が獲得されることになる。そして、正しい訳語「重大」は1位に含まれ、以下のような動詞、名詞の訳語は、低い順位となった。
【0071】
【外2】
Figure 2005038074
【0072】
(2)処理例II
また、別の処理例IIとして、訳語候補の品詞対応関係(F1)および訳語候補の文字列長(F2)および共通する英訳数(F3)を評価手法として用いて、以下のようなペナルティ値Pen(J,C)を算出し、算出したペナルティ値の順位で訳語候補を並べた。
【0073】
Pen(J,C)=F1(J,C)+F2(C)−F3(J,C)
図7(C)に、所定の評価を得た訳語候補を含むまでの順位と、含まれる訳語候補の一部とを示す。
【0074】
処理例IIでは、所定の評価を得た訳語候補が含まれる候補数は、1位において2個、2位において3個であった。また、1位および2位の訳語候補は、すべて正しいものであり、正しい訳語「重大」は1位に含まれた。
【0075】
【発明の効果】
以上の説明のように、本発明によれば、第二の中継言語を介して、基言語および目的言語について対訳辞書データを自動作成する場合に、自動的に獲得された多数の訳語候補を、所定の評価式を用いて絞り込むことにより、不適切な訳語候補や誤った訳語候補を排除して、適切な訳語候補のみを対訳辞書データの訳語として抽出する。
【0076】
これにより、あまり国際的でない基言語および目的言語についても精度のよい対訳辞書データを自動的に作成する処理装置、処理方法、または処理プログラムなどを提供でき、対訳辞書データ作成処理における種々のコスト軽減を図ることができる。
【図面の簡単な説明】
【図1】本発明にかかる対訳辞書データ作成処理装置の構成例を示す図である。
【図2】第一辞書データ(日英辞書)の例を示す図である。
【図3】第二辞書データ(英中辞書)の例を示す図である。
【図4】品詞対応関係情報の例を示す図である。
【図5】共通する英訳の数にもとづく評価処理を説明するための図である。
【図6】本発明の処理の概略を説明するための図である。
【図7】獲得した訳語候補の例を示す図である。
【符号の説明】
1 対訳辞書データ作成処理装置
2 訳語候補獲得手段
3 訳語評価・選択手段
31 品詞対応関係評価部
32 共通語数評価部
33 訳語長評価部
4 第1辞書記憶部
41 第一辞書データ(日英辞書)
5 第2辞書記憶部
51 第二辞書データ(英中辞書)
6 対訳辞書データ(日中辞書)[0001]
BACKGROUND OF THE INVENTION
The present invention relates to bilingual dictionary data creation processing technology for creating bilingual dictionary data that describes translations from one natural language to another, and particularly describes bilingual data between a first language and a second language. From the first language to the third language using the digitized first dictionary data and the digitized second dictionary data describing the parallel translation data of the second language and the third language The present invention relates to a bilingual dictionary data creation processing apparatus for creating bilingual dictionary data, a processing method thereof, a bilingual dictionary data creation processing program, and a recording medium on which the bilingual dictionary data creation processing program is recorded.
[0002]
[Prior art]
In the process of acquiring bilingual data for a word in a certain language, the language of the word / phrase that the user wants to obtain the bilingual is called a base language, and the language of the acquired word is called a target language.
[0003]
I want to look up a translation of a phrase in one language into another language, but depending on the language, there is a situation where there is no bilingual dictionary from the base language to the target language. In such a situation, a more international language having a bilingual dictionary for the base language and the target language is used as a relay language. First, using the bilingual dictionary (first dictionary data) of the base language and the relay language, the translation language of the relay language is acquired from the base language. Thereafter, using the bilingual dictionary (second dictionary data) of the relay language and the target language, the target language translation is acquired from the already acquired relay language translation.
[0004]
The first dictionary data and second dictionary data that have been digitized are the processes for automatically creating bilingual dictionary data from the base language to the target language by relaying the bilingual data with a more international language. There has been proposed a method of automatically using a computer and using a computer (see Non-Patent Document 1).
[0005]
[Non-Patent Document 1]
By Tanaka (Ishii) Kumiko, Umemura Koji, Iwasaki Hideya,
"Creating a bilingual dictionary via a third language," IPSJ Journal,
In June 1998, Vol. 39, no. 6, pp. 1915-1924
[0006]
[Problems to be solved by the invention]
It is well known that a phrase in a natural language has multiple meanings, and that the conceptual scope of the meaning of a phrase varies from language to language.
[0007]
When creating bilingual dictionary data of the base language and the target language via the relay language, in the process of acquiring the translation of the relay language, the translation for the multiple meanings of the words in the base language is acquired, and the acquired translation is Based on the target language translation.
[0008]
For this reason, there may be a shift in the conceptual range of significance of these words / phrases for the words / phrases in the base language, the translated words in the relay language, and the translated words in the target language. Due to the shift in the conceptual range of this meaning, there is a problem that the finally acquired translation of the target language includes inappropriate words and the accuracy of the bilingual dictionary data is lowered.
[0009]
In the conventional processing method described in Non-Patent Document 1 described above, inappropriate translations are eliminated by reversely retrieving the base language words from the acquired translations of the target language. However, the process of performing reverse lookup on all acquired translations of the target language and determining the appropriateness of the parallel translation requires a large amount of calculation, and thus the load is large.
[0010]
The present invention has been made in view of the above points, and uses bilingual dictionary data of a base language, a target language, and a relay language, and uses bilingual dictionary data of the base language and the target language using a computer. A bilingual dictionary data creation processing device, a processing method thereof, a bilingual dictionary data creation processing program, and a processing program thereof that can create accurate bilingual dictionary data without increasing the processing amount when automatically creating It is an object to provide a recorded recording medium.
[0011]
[Means for Solving the Problems]
In order to achieve the above-mentioned object, the present invention describes the first electronic dictionary data describing the parallel translation data of the first language and the second language, and the parallel translation data of the second language and the third language. A bilingual dictionary data creation processing apparatus that creates bilingual dictionary data from a first language to a third language using electronic second dictionary data, and has the following configuration.
[0012]
The present invention stores means for storing first dictionary data describing parallel translation data between a first language and a second language, and means for storing second dictionary data describing parallel translation data between a second language and a third language. A translation of the second language for the headword that is a word in the first language is obtained from the first dictionary data, and a translation of the third language is obtained for the translation of the second language from the second dictionary data. Correspondence between the part-of-speech of the candidate word and the part-of-speech of the entry word based on the part-of-speech correspondence information indicating the ease of correspondence of the part-of-speech between the first language and the third language A translation selection unit that evaluates a relationship and extracts a translation word candidate as a translation of the entry word in the bilingual dictionary data when the evaluation of the correspondence is equal to or greater than a predetermined value;
[0013]
Alternatively, the present invention provides a means for storing the first dictionary data, a means for storing the second dictionary data, and a translation of a second language for a headword that is a word of the first language from the first dictionary data. A translation candidate acquisition means for acquiring a translation candidate of the third language from the second dictionary data and obtaining a translation candidate of the third language from the second dictionary data, and a second translation of the entry word and a second candidate of the translation candidate A translation evaluation / selection unit that obtains the number of translations common in the bilingual translations and extracts translation candidates with the translations that are common in a predetermined number or more as translations of the entry words in the bilingual dictionary data;
[0014]
Alternatively, the present invention provides a means for storing the first dictionary data, a means for storing the second dictionary data, and a translation of a second language for a headword that is a word of the first language from the first dictionary data. A translation candidate acquisition means for acquiring a translation candidate in a third language for a translation in the second language from the second dictionary data, and determining the number of character strings of the translation candidate, Translation word evaluation / selection means is provided for extracting less than a predetermined number of translation candidates as translations of the entry word in the bilingual dictionary data.
[0015]
Furthermore, the present invention is a processing method executed in the bilingual dictionary data creation processing apparatus, a processing program for causing a computer to execute processing in the processing method, or a recording medium on which the processing program is recorded.
[0016]
The present invention provides, for example, bilingual dictionary data between Japanese and Chinese, where the first language as the base language is Japanese, the third language as the target language is Chinese, and the second language as the relay language is English. When creating, it works as follows.
[0017]
In the present invention, Japanese-English dictionary data as first dictionary data and English-Chinese dictionary data as second dictionary data are stored. The English translation is acquired from the Japanese-English dictionary data for the Japanese word that is the headword of the bilingual dictionary data. Further, a Chinese translation is acquired for the English translation from English-Chinese dictionary data, and a translation candidate is obtained.
[0018]
Then, the acquired translation word candidate is evaluated as follows, and the translation word candidate that has obtained a certain evaluation is extracted as a translation of the headword in the bilingual dictionary data.
[0019]
Based on the part-of-speech correspondence information indicating the ease of correspondence between parts of speech between Japanese and Chinese, the correspondence between the part-of-speech of the candidate word and the part-of-speech of the headword is evaluated, and the evaluation of the correspondence is predetermined. If it is greater than or equal to the value, the translation candidate is extracted as the translation of the entry word in the bilingual dictionary data.
[0020]
In general, parts of speech between different languages have a certain restrictive correspondence. In the present invention, by using the restriction of the correspondence relationship between the parts of speech, for example, by giving a low evaluation to a part of speech that has a close correspondence, that is, a part of speech that is considered to have no correspondence, It is something to exclude.
[0021]
Alternatively, the present invention obtains the number of translation words common in the English translation of the Japanese translation and the Chinese translation candidate, and extracts a translation candidate with the number of translations common in a predetermined number or more as the Japanese translation in the bilingual dictionary data.
[0022]
If the English translation of the entry word and the English translation of the acquired translation candidate are in common, it is considered that the semantic connection between the entry word and the translation candidate is strong. In the present invention, a common second language translation (English translation) that is considered to indicate the strength of the semantic relationship between the headword and the translation word candidate is used, and the English translation common to the English translation of the headword has a predetermined number or more. The candidate words are highly evaluated, and candidate words having good evaluation are extracted.
[0023]
Alternatively, the present invention obtains the number of character strings of the acquired Chinese translation candidates and extracts the translation candidates having the number of character strings less than a predetermined number as the translation of the entry word in the bilingual dictionary data.
[0024]
The dictionary data may include a description of a headword in addition to translated words such as words and phrases. Generally, a word or phrase is considered preferable as a translated word rather than an explanatory sentence. Therefore, based on the acquired candidate word string, the evaluation of the candidate word that seems to be an explanatory sentence is lowered, and the word or phrase is Extract appropriate word candidates as translated words.
[0025]
In the present invention, the suitability of acquired translation word candidates is evaluated using the above evaluation criteria. As a result, inappropriate or incorrect translations can be eliminated from the acquired translation candidates, and appropriate translation candidates can be extracted as translations of bilingual dictionary data, and accurate bilingual dictionary data can be automatically created. Is possible.
[0026]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, as one embodiment of the present invention, when creating bilingual dictionary data from Japanese as a base language to Chinese as a target language, a more international as a relay language between the base language and the target language. A bilingual dictionary data creation process when English as a language is used will be described.
[0027]
FIG. 1 shows a configuration example of a bilingual dictionary data creation processing apparatus according to the present invention. The bilingual dictionary data creation processing device 1 includes a translated word candidate acquisition unit 2 and a translated word evaluation / selection unit 3. The bilingual dictionary data creation processing device 1 can access the first dictionary storage unit 4 and the second dictionary storage unit 5 to acquire data.
[0028]
The first dictionary storage unit 4 is means for storing first dictionary data (Japanese-English dictionary) 41 describing parallel translation data from the base language to the relay language of the parallel translation dictionary data 6 to be created.
[0029]
FIG. 2 shows an example of the Japanese-English dictionary 41. In the Japanese-English dictionary 41, at least the part of speech of the head word, the translation in English (relay language), and the part of speech of the translation are described for each Japanese (base language) head word.
[0030]
In the Japanese-English dictionary 41 shown in FIG. 2, information such as record numbers, parts of speech, semantic codes, semantic concept information, and translated words (English) are associated with headwords. For example, the following information is stored for the Japanese headword “Armin”.
[0031]
“Part of speech: noun,
Semantic concept information: ermine, okojo, an animal called ermine,
Translation: stout (ad) / ermine (n)
The second dictionary storage unit 5 stores second dictionary data (English-Chinese dictionary) 51 describing parallel translation data from the relay language to the target language adopted in the first dictionary data 41 of the first dictionary storage unit 4. Means.
[0032]
FIG. 3 shows an example of the English-Chinese dictionary 51. The English-Chinese dictionary 51 describes at least the part-of-speech of the headword, the translation in Chinese (target language), and the part-of-speech of the translation for each headword in English (relay language).
[0033]
For example, the following information is stored for the English headword “ermine”.
“Part of speech: noun,
Translation: 貂 / 貂 的 White fur (noun) ”
The translation candidate acquisition means 2 takes out the translation word for each entry word in the Japanese-English dictionary 41, searches for the entry word in the English-Chinese dictionary 51 using the extracted translation word (translation in the second language) as a key, and further searches for the Chinese word. This is a means for acquiring translations and making them translation candidates.
[0034]
The translation evaluation / selection means 3 evaluates the translation candidate acquired by the translation candidate acquisition means 2 based on a predetermined evaluation rule, and selects a translation candidate that has obtained a certain evaluation as a translation of the bilingual dictionary data 6 It is.
[0035]
The translation evaluation / selection means 3 includes any one, two, or all of the processing units of the part of speech correspondence evaluation unit 31, the common word number evaluation unit 32, or the translation word length evaluation unit 33.
[0036]
The part-of-speech correspondence evaluation unit 31 refers to the part-of-speech correspondence information describing the closeness of the correspondence between parts-of-speech between two natural languages, and the part-of-speech of a Japanese headword and the part-of-speech of a candidate for a Chinese translation. This is a processing unit for evaluating candidate translations based on the correspondence relationship.
[0037]
Here, it is the part-of-speech correspondence information in Japanese and Chinese, and the part of speech of Japanese (base language) is classified into 37 parts of speech, and the part of speech of Chinese (target language) is classified into 39 parts of speech. In such a case, the combination of all parts of speech between the two languages, which defines the degree of ease of correspondence, is used.
[0038]
FIG. 4 shows an example of part of speech correspondence information. The degree of ease of correspondence of part of speech is classified into four categories: “corresponding, semi-corresponding, non-corresponding, undecided”. For example, in the translation from Japanese to Chinese, the level of Japanese common nouns corresponding to Chinese nouns is very high. A thing with a high correspondence between parts of speech in this way is defined as “correspondence”. In addition, the degree to which Japanese common nouns correspond to Chinese particles is even lower. Such correspondence is referred to as “non-correspondence”. Japanese common nouns may also correspond to “noun word elements”, which are word elements that generate nouns in Chinese. Such correspondence is referred to as “semi-correspondence”. Assume that relationships other than these three correspondence relationships are “undecided”.
[0039]
A predetermined condition can also be set for the correspondence. For example, “Correspondence” is only applied to the correspondence relationship that satisfies the condition of “adjective verb” in Japanese and the part of speech of the last word of the Chinese candidate word is a particle and “the last character is“ target ”” May be set.
[0040]
Then, the part-of-speech correspondence evaluation unit 31 evaluates Chinese translation word candidates for Japanese headwords based on the degree of the four correspondences defined in such part-of-speech correspondence information. When the translation candidate is composed of a plurality of words (morphemes), the part of speech of the last word (morpheme) is set as an evaluation target.
[0041]
The common word number evaluation unit 32 is a processing unit that evaluates the translation word candidates acquired based on the number of translation words common to the English translation of the entry word and the English translation of the acquired translation word candidate.
[0042]
This is because if the English translations of Japanese headwords and the English translations of the translation candidates are more common, the translation candidates are closer to the Japanese headwords and are considered to be more appropriate translations. .
[0043]
FIG. 5 shows an example of commonality between English translations of Japanese headwords and Chinese translation candidates. Here, there is “ermine, stout” as an English translation for the Japanese headword “Armin”, and “ermine, marten, stable”, “ermine”, “strong” "powerful", "firm, solid", and "ermine" is common to two candidate words.
[0044]
In this case, it is considered that the headwords with common English translation “ermine” and the translation word candidates have a close semantic relationship. Since the translation candidate having such a relationship is highly likely to be an appropriate translation, the translation candidate having the English translation “ermine” is highly evaluated.
[0045]
The translated word length evaluation unit 33 is a processing unit that evaluates the acquired translated word candidate by a predetermined calculation formula F3 (C) based on the length of the acquired character string of the translated word candidate.
[0046]
Like English-Chinese dictionary 51 that acquires translation word candidates, the dictionary data may include a description text of the head word in addition to the translation for the head word, so the translation word candidate based on the length of the character string of the translation word candidate So that appropriate translations such as words and phrases can be extracted.
[0047]
The translation evaluation / selection means 3 evaluates each of the translation word candidates acquired by the translation word candidate acquisition means 2 using, for example, the following formula for calculating a penalty value (Pen (J, C)).
[0048]
Pen (J, C) = F1 (J, C) + F2 (C) -F3 (J, C)
[J = Japanese headword, C = Chinese translation candidate]
Among the above Pen (J, C), an evaluation value based on the part-of-speech correspondence between the entry word J and the translation word candidate C is acquired by F1 (J, C).
[0049]
For example, for four correspondence relationships [corresponding, semi-corresponding, non-corresponding, undecided], predetermined values having the following relationships are determined, and the values are acquired.
[0050]
“Correspondence”: smallest value “semi-correspondence”: second smallest value “non-correspondence”: largest value “undecided”: second largest value Therefore, the value of F1 becomes smaller as the part of speech corresponds. Therefore, the penalty value Pen (J, C) is reduced, and the evaluation of the translation candidate is improved.
[0051]
F2 (C) is determined so as to be directly proportional to the length of the translation word candidate C. Therefore, the shorter the character string of the translated word candidate, the smaller the value of F2, the smaller the penalty value Pen (J, C), and the better the evaluation of the translated word candidate.
[0052]
Further, F3 (J, C) is determined so that the English translations of the entry word J and the translation word candidate C are in direct proportion to the number of common words. Therefore, as the number of common words increases, the value of F3 increases, the penalty value Pen (J, C) decreases, and the evaluation of the candidate translation is improved.
[0053]
The outline of the processing of the present invention will be described with reference to FIG.
[0054]
First, the translation candidate acquisition unit 2 refers to the Japanese-English dictionary 41 in the first dictionary storage unit 4 and acquires all English translations of the word (eg, “(noun) armin”) that is the headword J.
[0055]
Further, the translation candidate acquisition means 2 refers to the English / Chinese dictionary 51 of the second dictionary storage unit 5, acquires all translations (Chinese) for each acquired English translation, and sets it as a translation candidate C. For example, the following “noun” translation and “adjective” translation are acquired.
[0056]
[Outside 1]
Figure 2005038074
[0057]
The translation evaluation / selection means 3 calculates the penalty value Pen (J, C) for all acquired translation word candidates C.
[0058]
The part-of-speech correspondence evaluation unit 31 calculates F1 (J, C). For example, among the acquired translation candidates, the noun translation candidate is an appropriate translation, but the adjective translation candidate is not appropriate. This is because the adjective translation candidates are acquired based on the meaning of the adjective of the English translation “stout”. The value for a candidate noun that has a high evaluation of the correspondence between the part of speech (noun) of Japanese “Armin” is low. On the other hand, the value for an adjective candidate with a low evaluation of the correspondence relationship is high.
[0059]
Further, the common word number evaluation unit 32 calculates the above F3 (J, C). The value of the translation candidate corresponding to the English translation “ermine” that appears most frequently in the set of English translations of the headwords and translation candidates becomes high.
[0060]
Further, the translated word length evaluation unit 33 calculates F2 (C). The value of the candidate word for which the acquired candidate word is an explanatory sentence becomes low.
[0061]
Then, the translated word evaluation / selection means 3 calculates a penalty value Pen (J, C) from the respective values of F1, F2, and F3. Then, a translation candidate whose penalty value Pen (J, C) is smaller than a certain value is evaluated as a good translation, and this translation candidate is extracted as a translation of the entry word “Armin” in the parallel translation dictionary data 6.
[0062]
Next, the effect of the present invention will be described based on a specific example of processing when the Japanese word “serious” is used as an entry word.
[0063]
Here, EDR dictionary data (Japan Electronic Dictionary Laboratory) is used as the Japanese-English dictionary 41, and LDC English-Chinese / English dictionary correspondence data (http://www.ldc.upenn.edu/ Using Projects / Chinese /), Chinese translation candidates were obtained for each Japanese headword. Note that the part-of-speech information is not given to the LDC English / Chinese English-language correspondence table data, so the part-of-speech information is given to each word using a Chinese word segmentation tool.
[0064]
As a result of the processing, there were 172 headwords that acquired 20 or more Chinese translation candidates and verified that the acquired translation candidates contained the correct translation. Among them, the headword with the largest number of candidate translations was the adjective “serious”.
[0065]
As shown in FIG. 7A, the bilingual dictionary data creation processing device 1 of the present invention uses the English translation “major, important, etc.” 145 for the headword “serious” in the translated word candidate acquisition means 2. Acquired Chinese candidate words.
[0066]
However, the state that there are 145 candidate translations for one headword means that a proper translation has been acquired but many inappropriate or incorrect translations have been acquired. The bilingual dictionary data 6 created based on the translated word candidates cannot be used for the machine translation process.
[0067]
The bilingual dictionary data creation processing device 1 of the present invention evaluates whether or not the translation candidate is an appropriate translation for all 145 translation candidates obtained by the translation evaluation / selection means 3, and further The translated word candidates obtained with the above evaluation were extracted as translated words in the bilingual dictionary data 6.
[0068]
Here, in order to compare the effect of the evaluation based on the part-of-speech correspondence information and the evaluation based on the translation of the common relay language, two different processes were performed. The correct translation candidate “serious” was used as an index.
[0069]
(1) Processing example I
First, as processing example I, the translation evaluation / selection means 3 uses the part-of-speech correspondence (F1) of the translation word candidate and the character string length (F2) of the translation word candidate as evaluation methods, and the following penalty value Pen (J , C), and translated word candidates are arranged in the order of the calculated penalty value.
[0070]
Pen (J, C) = F1 (J, C) + F2 (C)
FIG. 7B shows the ranks until the translation candidate candidates that have obtained the predetermined evaluation are included, and some of the translation word candidates that are included. The number of candidates including translated word candidates having a predetermined evaluation was 27 in the 1st place, 16 in the 7th place, and 33 in the 8th place. In this processing example I, 27 candidate words are acquired in order to acquire a correct candidate word “serious”. The correct translation “serious” was included in the first place, and the following verb and noun translations were ranked low.
[0071]
[Outside 2]
Figure 2005038074
[0072]
(2) Processing example II
Also, as another processing example II, the following penalty value Pen is used by using the part-of-speech correspondence (F1) of the translation candidate, the character string length (F2) of the translation candidate and the number of common English translations (F3) as evaluation methods. (J, C) was calculated, and translation word candidates were arranged in the order of the calculated penalty value.
[0073]
Pen (J, C) = F1 (J, C) + F2 (C) -F3 (J, C)
FIG. 7C shows the ranks until the translation candidate candidates obtained with a predetermined evaluation are included, and some of the translation candidate candidates included.
[0074]
In the processing example II, the number of candidates including the translated word candidates obtained with the predetermined evaluation was 2 in the first place and 3 in the second place. In addition, the first and second candidate translations were all correct, and the correct translation “serious” was included in the first place.
[0075]
【The invention's effect】
As described above, according to the present invention, when automatically creating bilingual dictionary data for the base language and the target language via the second relay language, a large number of translation word candidates that are automatically acquired, By narrowing down using a predetermined evaluation formula, inappropriate translation candidates and incorrect translation candidates are excluded, and only appropriate translation candidates are extracted as translation words in the bilingual dictionary data.
[0076]
As a result, it is possible to provide a processing device, a processing method, a processing program, or the like that automatically creates accurate bilingual dictionary data even in a base language and target language that are not very international, thereby reducing various costs in bilingual dictionary data creation processing. Can be achieved.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration example of a bilingual dictionary data creation processing apparatus according to the present invention.
FIG. 2 is a diagram showing an example of first dictionary data (Japanese-English dictionary).
FIG. 3 is a diagram showing an example of second dictionary data (English-Chinese dictionary).
FIG. 4 is a diagram illustrating an example of part of speech correspondence information.
FIG. 5 is a diagram for explaining an evaluation process based on the number of common English translations.
FIG. 6 is a diagram for explaining the outline of processing of the present invention.
FIG. 7 is a diagram illustrating an example of acquired translation word candidates.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Bilingual dictionary data creation processing apparatus 2 Translation word candidate acquisition means 3 Translation word evaluation / selection means 31 Part-of-speech correspondence evaluation part 32 Common word number evaluation part 33 Translation word length evaluation part 4 1st dictionary memory | storage part 41 1st dictionary data (Japanese-English dictionary)
5 Second dictionary storage 51 Second dictionary data (English-Chinese dictionary)
6 Bilingual dictionary data (Japanese-Chinese dictionary)

Claims (12)

第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理装置において、
第一言語と第二言語との対訳データを記述した第一辞書データを記憶する手段と、
第二言語と第三言語との対訳データを記述した第二辞書データを記憶する手段と、
前記第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、前記第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする訳語候補獲得手段と、
前記第一言語と前記第三言語との品詞の対応のしやすさを示す品詞対応情報にもとづいて、前記訳語候補の品詞と前記見出し語の品詞との対応関係を評価し、前記対応関係の評価が所定の値以上である場合に、その訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する訳語選択手段とを備えることを特徴とする対訳辞書データ作成処理装置。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language In the bilingual dictionary data creation processing device for creating bilingual dictionary data from the first language to the third language,
Means for storing first dictionary data describing parallel translation data of the first language and the second language;
Means for storing second dictionary data describing parallel translation data of the second language and the third language;
A translation of a second language is obtained from the first dictionary data for a headword that is a word of the first language, and a translation of a third language is obtained from the second dictionary data for a translation of the second language. Means for acquiring candidate translations,
Based on the part of speech correspondence information indicating the ease of correspondence of the part of speech between the first language and the third language, the correspondence between the part of speech of the candidate word and the part of speech of the headword is evaluated, and the correspondence A bilingual dictionary data creation processing device comprising: a translation selection unit that extracts a translation candidate as a translation of the entry word in the bilingual dictionary data when the evaluation is equal to or higher than a predetermined value.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理装置において、
第一言語と第二言語との対訳データを記述した第一辞書データを記憶する手段と、
第二言語と第三言語との対訳データを記述した第二辞書データを記憶する手段と、
前記第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、前記第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする訳語候補獲得手段と、
前記見出し語の第二言語の訳語と前記訳語候補の第二言語の訳語において共通する訳語数を求め、所定数以上で共通する訳語数の訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する訳語評価・選択手段とを備えることを特徴とする対訳辞書データ作成処理装置。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language In the bilingual dictionary data creation processing device for creating bilingual dictionary data from the first language to the third language,
Means for storing first dictionary data describing parallel translation data of the first language and the second language;
Means for storing second dictionary data describing parallel translation data of the second language and the third language;
A translation of a second language is obtained from the first dictionary data for a headword that is a word of the first language, and a translation of a third language is obtained from the second dictionary data for a translation of the second language. Means for acquiring candidate translations,
The number of translation words common in the second language translation of the entry word and the second language translation of the translation candidate is obtained, and the translation word candidate having the number of translation words common in a predetermined number or more is extracted as the translation of the entry word in the bilingual dictionary data A bilingual dictionary data creation processing device comprising: a translation word evaluation / selection means for performing translation.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理装置において、
第一言語と第二言語との対訳データを記述した第一辞書データを記憶する手段と、
第二言語と第三言語との対訳データを記述した第二辞書データを記憶する手段と、
前記第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、前記第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする訳語候補獲得手段と、
前記訳語候補の文字列数を求め、前記文字列数が所定数より少ない訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する訳語評価・選択手段とを備えることを特徴とする対訳辞書データ作成処理装置。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language In the bilingual dictionary data creation processing device for creating bilingual dictionary data from the first language to the third language,
Means for storing first dictionary data describing parallel translation data of the first language and the second language;
Means for storing second dictionary data describing parallel translation data of the second language and the third language;
A translation of a second language is obtained from the first dictionary data for a headword that is a word of the first language, and a translation of a third language is obtained from the second dictionary data for a translation of the second language. Means for acquiring candidate translations,
Bilingual dictionary data, comprising: a translation word evaluation / selection unit that obtains the number of character strings of the translation word candidates and extracts translation word candidates whose number of character strings is less than a predetermined number as translations of the entry words in the translation dictionary data Creation processing device.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理方法において、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とし、
前記第一言語と前記第三言語との品詞の対応のしやすさを示す品詞対応情報にもとづいて、前記訳語候補の品詞と前記見出し語の品詞との対応関係を評価し、前記対応関係の評価が所定の値以上である場合に、その訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出することを特徴とする対訳辞書データ作成処理方法。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language In the bilingual dictionary data creation processing method for creating bilingual dictionary data from the first language to the third language,
The translation of the second language is acquired from the first dictionary data describing the parallel translation data of the first language and the second language for the headword that is the word of the first language,
From the second dictionary data describing the bilingual data of the second language and the third language, the translation of the third language is obtained as the translation candidate for the translation of the second language,
Based on the part of speech correspondence information indicating the ease of correspondence of the part of speech between the first language and the third language, the correspondence between the part of speech of the candidate word and the part of speech of the headword is evaluated, and the correspondence A bilingual dictionary data creation processing method, wherein, when the evaluation is equal to or higher than a predetermined value, the translated word candidate is extracted as a translated word of the headword in bilingual dictionary data.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理方法において、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とし、
前記見出し語の第二言語の訳語と前記訳語候補の第二言語の訳語において共通する訳語数を求め、
所定数以上で共通する訳語数の訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出することを特徴とする対訳辞書データ作成処理方法。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language In the bilingual dictionary data creation processing method for creating bilingual dictionary data from the first language to the third language,
The translation of the second language is acquired from the first dictionary data describing the parallel translation data of the first language and the second language for the headword that is the word of the first language,
From the second dictionary data describing the bilingual data of the second language and the third language, the translation of the third language is obtained as the translation candidate for the translation of the second language,
Find the number of translations common in the second language translation of the headword and the second language translation of the translation candidate,
A bilingual dictionary data creation processing method, wherein a number of translation candidates with a common number of translations equal to or greater than a predetermined number are extracted as translations of the headword in bilingual dictionary data.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理方法において、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得し、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とし、
前記訳語候補の文字列数を求め、
前記文字列数が所定数より少ない訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出することを特徴とする対訳辞書データ作成処理方法。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language In the bilingual dictionary data creation processing method for creating bilingual dictionary data from the first language to the third language,
The translation of the second language is acquired from the first dictionary data describing the parallel translation data of the first language and the second language for the headword that is the word of the first language,
From the second dictionary data describing the bilingual data of the second language and the third language, the translation of the third language is obtained as the translation candidate for the translation of the second language,
Obtain the number of character strings of the translation candidates,
6. A bilingual dictionary data creation processing method, wherein translated word candidates having a number of character strings smaller than a predetermined number are extracted as translated words of the headword in bilingual dictionary data.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理を、コンピュータに実行させるためのプログラムであって、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得する処理と、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする処理と、
前記第一言語と前記第三言語との品詞の対応のしやすさを示す品詞対応情報にもとづいて、前記訳語候補の品詞と前記見出し語の品詞との対応関係を評価する処理と、
前記対応関係の評価が所定の値以上である場合に、その訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する処理とを、コンピュータに実行させるための対訳辞書データ作成処理プログラム。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language , A program for causing a computer to execute bilingual dictionary data creation processing for creating bilingual dictionary data from a first language to a third language,
A process of obtaining a translation of the second language for a headword that is a word of the first language from the first dictionary data describing the parallel translation data of the first language and the second language;
Processing to acquire a translation of the third language from the second dictionary data describing the parallel translation data of the second language and the third language, and to obtain a translation candidate of the third language;
A process of evaluating the correspondence between the part of speech of the candidate word and the part of speech of the headword based on the part of speech correspondence information indicating the ease of correspondence of the part of speech between the first language and the third language;
A bilingual dictionary data creation processing program for causing a computer to execute a process of extracting a translation word candidate as a translation of the entry word in bilingual dictionary data when the evaluation of the correspondence relationship is a predetermined value or more.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理を、コンピュータに実行させるためのプログラムであって、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得する処理と、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする処理と、
前記見出し語の第二言語の訳語と前記訳語候補の第二言語の訳語において共通する訳語数を求める処理と、
所定数以上で共通する訳語数の訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する処理とを、
コンピュータに実行させるための対訳辞書データ作成処理プログラム。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language , A program for causing a computer to execute bilingual dictionary data creation processing for creating bilingual dictionary data from a first language to a third language,
A process of obtaining a translation of the second language for a headword that is a word of the first language from the first dictionary data describing the parallel translation data of the first language and the second language;
Processing to acquire a translation of the third language from the second dictionary data describing the parallel translation data of the second language and the third language, and to obtain a translation candidate of the third language;
A process of calculating the number of translations common in the second language translation of the headword and the second language translation of the translation candidate;
A process of extracting translation candidates of the number of translations common in a predetermined number or more as translations of the entry word in the parallel translation dictionary data,
A bilingual dictionary data creation processing program to be executed by a computer.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理を、コンピュータに実行させるためのプログラムであって、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得する処理と、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする処理と、
前記訳語候補の文字列数を求める処理と、
前記文字列数が所定数より少ない訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する処理とを、コンピュータに実行させるための対訳辞書データ作成処理プログラム。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language , A program for causing a computer to execute bilingual dictionary data creation processing for creating bilingual dictionary data from a first language to a third language,
A process of obtaining a translation of the second language for a headword that is a word of the first language from the first dictionary data describing the parallel translation data of the first language and the second language;
Processing to acquire a translation of the third language from the second dictionary data describing the parallel translation data of the second language and the third language, and to obtain a translation candidate of the third language;
Processing for obtaining the number of character strings of the translation candidates;
A bilingual dictionary data creation processing program for causing a computer to execute a process of extracting candidate words whose number of character strings is smaller than a predetermined number as translated words of the headword in bilingual dictionary data.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理を、コンピュータに実行させるためのプログラムを記録した記録媒体であって、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得する処理と、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする処理と、
前記第一言語と前記第三言語との品詞の対応のしやすさを示す品詞対応情報にもとづいて、前記訳語候補の品詞と前記見出し語の品詞との対応関係を評価する処理と、
前記対応関係の評価が所定の値以上である場合に、その訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する処理とを、コンピュータに実行させるための対訳辞書データ作成処理プログラムを記録した記録媒体。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language , A recording medium recording a program for causing a computer to execute parallel dictionary data creation processing for creating parallel dictionary data from a first language to a third language,
A process of obtaining a translation of the second language for a headword that is a word of the first language from the first dictionary data describing the parallel translation data of the first language and the second language;
Processing to acquire a translation of the third language from the second dictionary data describing the parallel translation data of the second language and the third language, and to obtain a translation candidate of the third language;
A process of evaluating the correspondence between the part of speech of the candidate word and the part of speech of the headword based on the part of speech correspondence information indicating the ease of correspondence of the part of speech between the first language and the third language;
When the evaluation of the correspondence relationship is equal to or higher than a predetermined value, a bilingual dictionary data creation processing program for causing a computer to execute a process of extracting the translation word candidate as a translation of the headword in bilingual dictionary data is recorded recoding media.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理を、コンピュータに実行させるためのプログラムを記録した記録媒体であって、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得する処理と、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする処理と、
前記見出し語の第二言語の訳語と前記訳語候補の第二言語の訳語において共通する訳語数を求める処理と、
所定数以上で共通する訳語数の訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する処理とを、コンピュータに実行させるための対訳辞書データ作成処理プログラムを記録した記録媒体。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language , A recording medium recording a program for causing a computer to execute parallel dictionary data creation processing for creating parallel dictionary data from a first language to a third language,
A process of obtaining a translation of the second language for a headword that is a word of the first language from the first dictionary data describing the parallel translation data of the first language and the second language;
Processing to acquire a translation of the third language from the second dictionary data describing the parallel translation data of the second language and the third language, and to obtain a translation candidate of the third language;
A process of calculating the number of translations common in the second language translation of the headword and the second language translation of the translation candidate;
A recording medium on which a bilingual dictionary data creation processing program for causing a computer to execute a process of extracting as many translated word candidates as a translation of the entry word in bilingual dictionary data at a predetermined number or more is used.
第一言語と第二言語との対訳データを記述した電子化された第一辞書データと、第二言語と第三言語との対訳データを記述した電子化された第二辞書データとを用いて、第一言語から第三言語への対訳辞書データを作成する対訳辞書データ作成処理を、コンピュータに実行させるためのプログラムを記録した記録媒体であって、
第一言語と第二言語との対訳データを記述した第一辞書データから第一言語の単語である見出し語について第二言語の訳語を獲得する処理と、
第二言語と第三言語との対訳データを記述した第二辞書データから前記第二言語の訳語について第三言語の訳語を獲得して訳語候補とする処理と、
前記訳語候補の文字列数を求める処理と、
前記文字列数が所定数より少ない訳語候補を対訳辞書データにおける前記見出し語の訳語として抽出する処理とを、コンピュータに実行させるための対訳辞書データ作成処理プログラムを記録した記録媒体。
Using the computerized first dictionary data describing the bilingual data of the first language and the second language, and the computerized second dictionary data describing the bilingual data of the second language and the third language , A recording medium recording a program for causing a computer to execute parallel dictionary data creation processing for creating parallel dictionary data from a first language to a third language,
A process of obtaining a translation of the second language for a headword that is a word of the first language from the first dictionary data describing the parallel translation data of the first language and the second language;
Processing to acquire a translation of the third language from the second dictionary data describing the parallel translation data of the second language and the third language, and to obtain a translation candidate of the third language;
A process for obtaining the number of character strings of the translation candidates;
A recording medium recording a bilingual dictionary data creation processing program for causing a computer to execute a process of extracting translated word candidates having a number of character strings smaller than a predetermined number as translated words of the headword in bilingual dictionary data.
JP2003198244A 2003-07-17 2003-07-17 Device and method for process of creating bilingual dictionary data, process program thereof, and recording medium for recording this program Pending JP2005038074A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003198244A JP2005038074A (en) 2003-07-17 2003-07-17 Device and method for process of creating bilingual dictionary data, process program thereof, and recording medium for recording this program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003198244A JP2005038074A (en) 2003-07-17 2003-07-17 Device and method for process of creating bilingual dictionary data, process program thereof, and recording medium for recording this program

Publications (1)

Publication Number Publication Date
JP2005038074A true JP2005038074A (en) 2005-02-10

Family

ID=34208077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003198244A Pending JP2005038074A (en) 2003-07-17 2003-07-17 Device and method for process of creating bilingual dictionary data, process program thereof, and recording medium for recording this program

Country Status (1)

Country Link
JP (1) JP2005038074A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061643A (en) * 2008-09-01 2010-03-18 Toshiba Corp Method and device for improving word alignment quality of multi-language corpus
JP2016525250A (en) * 2013-11-05 2016-08-22 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Bilingual corpus data expansion method, apparatus and storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061643A (en) * 2008-09-01 2010-03-18 Toshiba Corp Method and device for improving word alignment quality of multi-language corpus
JP2016525250A (en) * 2013-11-05 2016-08-22 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Bilingual corpus data expansion method, apparatus and storage medium

Similar Documents

Publication Publication Date Title
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
Pecina Lexical association measures and collocation extraction
US6233544B1 (en) Method and apparatus for language translation
Burchardt et al. Machine translation quality in an audiovisual context
JP2007257644A (en) Program, method and device for acquiring translation word based on translation word candidate character string prediction
WO2005059771A1 (en) Translation judgment device, method, and program
JP5497048B2 (en) Transliteration of proper expressions using comparable corpus
JP2007241764A (en) Syntax analysis program, syntax analysis method, syntax analysis device, and computer readable recording medium recorded with syntax analysis program
Wynne Searching and concordancing
JP4001283B2 (en) Morphological analyzer and natural language processor
JP2006343925A (en) Related-word dictionary creating device, related-word dictionary creating method, and computer program
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium
Ogrodniczuk et al. Connecting data for digital libraries: the library, the dictionary and the corpus
Nwesri Effective retrieval techniques for Arabic text
JP4401269B2 (en) Parallel translation judgment device and program
JP5679400B2 (en) Category theme phrase extracting device, hierarchical tagging device and method, program, and computer-readable recording medium
JP2005038074A (en) Device and method for process of creating bilingual dictionary data, process program thereof, and recording medium for recording this program
JP4088718B2 (en) Dictionary registration device, dictionary registration method, and computer program
JP2005326952A (en) Method and device for word registration in concept dictionary, and program
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
Morris et al. Welsh automatic text summarisation
JPH07244665A (en) Method and device for dictionary and rule learning for machine translation system
KR102519955B1 (en) Apparatus and method for extracting of topic keyword
JP2004280316A (en) Field determination device and language processor
Ezeani et al. Introducing the Welsh text summarisation dataset and baseline systems

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051025