JPH02294779A - Machine translation system - Google Patents

Machine translation system

Info

Publication number
JPH02294779A
JPH02294779A JP1114926A JP11492689A JPH02294779A JP H02294779 A JPH02294779 A JP H02294779A JP 1114926 A JP1114926 A JP 1114926A JP 11492689 A JP11492689 A JP 11492689A JP H02294779 A JPH02294779 A JP H02294779A
Authority
JP
Japan
Prior art keywords
sentence
language
bilingual
language sentence
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1114926A
Other languages
Japanese (ja)
Inventor
Hiroyuki Nakajima
弘之 中島
Hiroyuki Kaji
梶 博行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1114926A priority Critical patent/JPH02294779A/en
Publication of JPH02294779A publication Critical patent/JPH02294779A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To automatically acquire language knowledge from a translated sentence by finding out translating relation in each sentence between the 2nd language writing obtained by post-editing the 1st language writing and the 1st language writing. CONSTITUTION:The machine translation system is constituted of a Japanese dictionary storage device 04, an English dictionary storage device 05, a Japanese grammar frame storage device 06, an English grammar frame storage device 07, Japanese-English/English-Japanese conversion dictionary storage device 08, a Japanese coocurrence relation dictionary storage device 09, and English occurrence relation dictionary storage device 10, a Japanese writing file storage device 11, an English writing file storage device 12, and so on. The set of translated sentences of the 1st language sentences included in the 1st language writing can be found out from the 2nd language writing in the 1st and 2nd language writings having translating relation. Consequently, the translating relation in each sentence can be automatically determined from the input writing and the writing post-edited in each writing after translation, so that the knowledge of various levels can be automatically registered in a translation dictionary.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は機械翻訳システムなどの自然言語処理システム
に係り,特に自動学習機能を有する機械翻訳システムに
関する. 〔従来の技術〕 機械翻訳システムに用いる知識の自動学習方式について
は,いくつかの方式が提案されている。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a natural language processing system such as a machine translation system, and particularly to a machine translation system having an automatic learning function. [Prior Art] Several methods have been proposed for automatic knowledge learning methods used in machine translation systems.

たとえば,特願昭63−192751は、入力文解析結
果である中間表現から曖昧性のないものを抽出すること
により、語と語の共起関係知識を獲得し、利用する方式
である.また、特開昭62−219165は,定型文を
入力することにより、共起関係やイディオムなどの訳語
選択用の知識を獲得する方式である.また、特願昭63
 − 263934は,対訳例文から、語と語の対訳関
係、イディオム,語と語の共起関係などを抽出する方式
である.さらに、「日英翻訳システムにおけるポストエ
ディット情報のフィードバック」 (情報処理学会第3
7回全国大会、pp.976〜977)に述べられてい
る方法は、日英翻訳システムの出力英文の後編集結果か
ら,日英中間表現の変換規則や英文生成規則を学習する
技術である. 〔発明が解決しようとする課題〕 しかしながら,特願昭63−192751の方法は、獲
得できる共起関係知識が原言語に関するもののみである
.また、特開昭62−219165は,定型文を入力す
ることにより、訳語選択用の共起関係知識や、イディオ
ムを学習する方式であるが、大量の定型文のセットを用
意しておく必要があり,共起関係の学習は事実上不可能
であると言える.また、特願昭63 − 263934
および、前記論文「日英翻訳システムにおけるポストエ
ディット情報のフィードバック」は、対訳関係が決定し
た、第一言語文と第二言語文から言語知識を獲得する方
法であり、後編集で第二言語文の分割や結合が行なわれ
た場合には、利用できない.後編集は,通常,文章単位
で行なわれるので、第二言語文の分割・結合は、頻繁に
行なわれる. 本発明の目的は、機械翻訳システムの学習機能において
,後編集さ九た第二言語文章と5人力文章である第一言
語文章の、文単位での対訳舅係を決定し、対訳文からの
言語知識の自動獲得を可能にすることである. 〔課題を解決するための手段〕 上記目的は、対訳関係にある第一言語文章と第二言語文
章から、第一言語文章に含まれる第一言語文の対訳文の
集合を、第二言語文章の中から求めるステップを設ける
ことにより達成される.該ステップは、第一言語文章に
含まれる第一言語文の数Mと、第二言語文章に含まれる
第二言語文の数Nをカウントするステップと,該第一言
語文S(1)〜S (M)の仮対訳文T(1)〜T (
M)を求めるステップと、m=1〜Mについて、T (
m)を中心として、その前後の第二言語文に含まれる単
語とS(m)に含まれる単語との対訳関係から、S(m
)の対訳文集合tr(m)を求めるステップと、n =
 1 〜Nについて,  t r(1) 〜t r(M
)の何れにも含まれなかったT(n)をt r (1)
〜tr(M )の何れかに含めるステップより構成され
る.〔作用〕 対訳関係にある第一言語文章に含まれる文の数Mと、第
二言語文章に含まれる文の数Nをそれぞれ求める.この
第一言語文の集合を{S(1),・・・S (M))と
し,第二言語文の集合を(’1’(1).・・・T(N
))とする。
For example, Japanese Patent Application No. 63-192751 proposes a method for acquiring and utilizing knowledge of co-occurrence relationships between words by extracting unambiguous intermediate expressions that are the result of input sentence analysis. Furthermore, Japanese Patent Application Laid-Open No. 62-219165 is a method of acquiring knowledge for selecting translations, such as co-occurrence relationships and idioms, by inputting fixed sentences. In addition, the special request for
-263934 is a method for extracting bilingual relationships between words, idioms, co-occurrence relationships between words, etc. from bilingual example sentences. Furthermore, “Feedback of post-editing information in Japanese-English translation systems” (Information Processing Society of Japan, Vol. 3)
7th National Convention, pp. The method described in 976-977) is a technique that learns conversion rules for Japanese-English intermediate representations and English sentence production rules from the results of post-editing of output English sentences from a Japanese-English translation system. [Problems to be Solved by the Invention] However, in the method of Japanese Patent Application No. 1982-19275, the co-occurrence relationship knowledge that can be acquired is only related to the source language. In addition, Japanese Patent Application Laid-open No. 62-219165 uses a method to learn co-occurrence relationship knowledge and idioms for selecting translations by inputting fixed sentences, but it is necessary to prepare a large set of fixed sentences. Therefore, it can be said that learning co-occurrence relationships is virtually impossible. Also, patent application No. 63-263934
The paper "Feedback of post-editing information in a Japanese-English translation system" describes a method for acquiring linguistic knowledge from first language sentences and second language sentences whose bilingual relationship has been determined. It cannot be used if the file is divided or combined. Post-editing is usually done on a sentence-by-sentence basis, so second language sentences are frequently divided and combined. The purpose of the present invention is to use the learning function of a machine translation system to determine the bilingual relationship of a post-edited second language text and a human-written first language text on a sentence-by-sentence basis, and to The goal is to enable automatic acquisition of language knowledge. [Means for solving the problem] The above purpose is to convert a set of parallel sentences of the first language sentence included in the first language sentence into a second language sentence from a first language sentence and a second language sentence that have a bilingual relationship. This is achieved by providing a step to find from among. This step includes counting the number M of first language sentences included in the first language sentences and the number N of second language sentences included in the second language sentences, and counting the first language sentences S(1) to Provisional parallel translations of S (M) T(1)~T (
M) and for m=1 to M, T (
Centering on S(m), from the bilingual relationship between the words included in the second language sentences before and after it and the words included in S(m),
), a step of finding a bilingual sentence set tr(m) of n =
1 to N, t r(1) to t r(M
) T(n) that is not included in any of t r (1)
~tr(M). [Operation] Find the number M of sentences included in the first language text and the number N of sentences included in the second language text that are in a bilingual relationship, respectively. Let the set of first language sentences be {S(1),...S (M)), and the set of second language sentences be ('1'(1)...T(N
)).

次に.m=1〜Mについて、F(m)= [m×N/M
lで定義する関数F(m)を用いて、S (m)の仮対
訳文T(F(m))を求める([]は小数点以下切り上
げを意味する). 次に,m=1〜Mについて、文S(m)を構成する単語
の訳語を含む第二言語文を、第二言語文の集合(T(w
ax(F(m)−r,1)),−,T(win(F(a
+)+r,N)))の中から求め、文S(m)を構成す
る単語の訳語を含む第二言語文の集合をtr(m)とす
る.ここでrは、0≦r≦Nを濶たす整数とする。tr
(m)=φであれば、t r(m)= (T(F(m)
))とする。
next. For m=1~M, F(m)=[m×N/M
Using the function F(m) defined by l, find the tentative translation sentence T(F(m)) of S(m) ([] means rounding up to the nearest whole number). Next, for m = 1 to M, the second language sentences containing the translations of the words constituting the sentence S(m) are defined as the set of second language sentences (T(w
ax(F(m)-r,1)),-,T(win(F(a)
+)+r, N))), and let tr(m) be the set of second language sentences containing translations of the words that make up the sentence S(m). Here, r is an integer satisfying 0≦r≦N. tr
If (m)=φ, then t r(m)= (T(F(m)
)).

次に、n=1〜Nについて− tr (1)〜t r 
(M)の何れにも含まれない第二言語文T ( n )
があれば、t r(m 1)= t r(m 1)LJ
(T(n))、t r(m2)=t r(m2)LJ(
T(n))、として、T(n)をtr(ml)とtr(
m2)に含める.ここで.tr(ml)は、T(n)よ
り前の文で、T(nl)を含むtr(m)が存在する最
大の01について、T(nl)を含む集合である.また
、tr(m2)は.T(n)より後の文で、T(n2)
を含むtr(yn.)が存在する最小のn2について.
T(n2)を含む集合である.ml,m2が複数ある場
合は、すべてのml,m2について、上記のtr(ml
),tr(m2)の拡大操作を行なう。
Next, for n = 1 to N - tr (1) to tr
Second language sentence T (n) that is not included in any of (M)
If so, t r (m 1) = t r (m 1) LJ
(T(n)), t r(m2)=t r(m2)LJ(
T(n)), T(n) is tr(ml) and tr(
m2). here. tr(ml) is a set containing T(nl) for the maximum 01 in which there is a tr(m) containing T(nl) in the sentence before T(n). Also, tr(m2) is . In the sentence after T(n), T(n2)
For the smallest n2 such that there is a tr(yn.) containing .
It is a set containing T(n2). If there are multiple ml, m2, the above tr(ml
), tr(m2) is enlarged.

以上のようにして、S(1)〜S (M)の対訳文集合
tr(1)からtr(M)を決定する。
As described above, tr(M) is determined from the bilingual sentence set tr(1) of S(1) to S(M).

〔実施例〕〔Example〕

以下,本発明の一実施例である日英・英日双方向機械翻
訳システムについて説明する.第2図は、実施例のハー
ドウエア構成図で、処理装[201,入力装置02,出
力装置03,日本語辞書記憶装置04,英語辞書記憶装
1!05,日本語格フレーム記憶装置06,英語格フレ
ーム記憶装置07,El英・英日変換辞書記憶装置08
,日本語共起関係辞書記憶装置09,英語共起関係辞書
記憶装置10,日本語文章ファイル記憶装置11,英語
文章ファイル記憶装置12から成る.日本語辞書記憶装
置内の日本語辞書は,第3図に示すようなレコードで構
成される.レコードは、日本語見出し041,品詞04
2,意味コード043,日本語格フレームコード044
から成る.レコードは日本語見出し041をキーとして
検索できる. 英語辞書記憶装置内の英語辞書は、第4図に示すような
レコードで構成される.レコードは,英語見出し051
,品詞052,意味コード053,英語格フレームコー
ド054から成る。レコードは英語見出し051をキー
として検索できる。
The following describes a Japanese-English and English-Japanese bidirectional machine translation system that is an embodiment of the present invention. FIG. 2 is a hardware configuration diagram of the embodiment, showing a processing unit [201, input device 02, output device 03, Japanese dictionary storage device 04, English dictionary storage device 1!05, Japanese case frame storage device 06, English case frame storage device 07, El English/English-Japanese conversion dictionary storage device 08
, a Japanese co-occurrence relationship dictionary storage device 09, an English co-occurrence relationship dictionary storage device 10, a Japanese sentence file storage device 11, and an English sentence file storage device 12. The Japanese dictionary in the Japanese dictionary storage device consists of records as shown in Figure 3. The record is Japanese heading 041, part of speech 04
2, Semantic code 043, Japanese case frame code 044
Consists of. Records can be searched using Japanese heading 041 as a key. The English dictionary in the English dictionary storage device is composed of records as shown in Figure 4. The record is English heading 051
, part of speech 052, meaning code 053, and English case frame code 054. Records can be searched using English heading 051 as a key.

日本語格フレーム記憶装置内の日本語格フレームは、第
5図に示すようなレコードで構成される。
The Japanese case frame in the Japanese case frame storage device is composed of records as shown in FIG.

レコードは、日本語格フレームコード名061,深層格
062,表層格o63,格要素の意味コード064から
成る.深層格はコードで表わす.コードA,O,Iはそ
れぞれ,動作主格,対象格,道具格を表わしている。表
層格は深層格に対応する日本語の助詞を表わしている。
The record consists of Japanese case frame code name 061, deep case 062, surface case o63, and case element meaning code 064. Deep cases are represented by codes. Codes A, O, and I represent the nominative, object, and instrumental cases, respectively. Surface cases represent Japanese particles that correspond to deep cases.

格要素の意味コードは,格要素の持つべき意味的特徴を
表すコードであり.HUM,OBJ,INSTはそれぞ
れ、人間,動作の対象となる物,道具を表す.レコード
は日本語格フレームコード名061をキーとして検索で
きる. 英語格フレーム記憶装置内の英語格フレームは,第6図
に示すようなレコードで構成される.レコードは、英語
格フレームコード名071,深層格o72,表層格o7
3,格要素の意味コード074から成る.深層格は日本
語格フレームの場合と同じコードで表わす。表層格は深
層格に対応する英語の構文的役割または前置詞を表おし
ており、Sは主語、D○は直接目的語を表す.格要素の
意味コードは日本語格フレームの場合と同じコードで表
す.レコードは英語格フレームコード名071をキーと
して検索できる. 日英・英日変換辞書記憶装置内の日英・英日変換辞書は
第7図に示すようなレコードで構成される.レコードは
、日本語概念構造081,英語概念構造082から成る
.同一レコード内の日本語概念構造と英語概念構造は対
訳関係にある.各概念構造は,単一の単語の場合もあれ
ば、2つの単語とその間の意味的関係(深層格コードで
表現する)の集合で構成される場合もある.第7図では
、簡単のため、[彼』とrheJ、「工具」とrtoo
lJなど単語同士の対訳関係のみ登録している.レコー
ドは日本語概念構造081と英語概念構造082のいず
れをキーとしても検索することができる。
The semantic code of a case element is a code that represents the semantic features that the case element should have. HUM, OBJ, and INST represent a person, an object, and a tool, respectively. Records can be searched using the Japanese case frame code name 061 as a key. The English case frame in the English case frame storage device consists of records as shown in Figure 6. The record is English case frame code name 071, deep case o72, surface case o7
3. Consists of case element semantic code 074. Deep cases are expressed using the same codes as for Japanese case frames. The surface case represents the English syntactic role or preposition that corresponds to the deep case, S represents the subject, and D○ represents the direct object. The semantic codes of case elements are expressed using the same codes as for Japanese case frames. Records can be searched using the English case frame code name 071 as a key. The Japanese-English/English-Japanese conversion dictionary in the Japanese-English/English-Japanese conversion dictionary storage device consists of records as shown in Figure 7. The record consists of a Japanese conceptual structure 081 and an English conceptual structure 082. Japanese conceptual structures and English conceptual structures in the same record have a bilingual relationship. Each conceptual structure may be a single word, or it may consist of a set of two words and a semantic relationship (expressed by a deep case code) between them. In Figure 7, for simplicity, [he] and rheJ, and "tool" and rtoo
Only bilingual relationships between words such as lJ are registered. Records can be searched using either the Japanese conceptual structure 081 or the English conceptual structure 082 as a key.

日本語共起関係辞書記憶装置内の日本語共起関係辞書は
、第8図に示すようなレコードで構成される.レコード
は,日本語動詞091,日本語名詞092,深層格09
3から成る.レコードは日本語動詞091と日本語名詞
092の連接をキーとして検索できる. 英語共起関係辞書記憶装置内の英語共起関係辞書は,第
9図に示すようなレコードで構成される.レコードは、
英語動詞101,英語名詞102,深層格103から成
る.レコードは英語動詞101と日本語名詞102の連
接をキーとして検索できる. 日本語共起関係辞書および英語共起関係辞書は、格フレ
ームでは表現できない動詞固有の共起関係を,動詞,名
詞,深層格の3項関係として登録しており,解析・生成
処理においては格フレームに優先して使用される. 日本語文章記憶装置内の日本語文章ファイルは、第10
図に示すようなレコードで構成さわる.レコードは,日
本文番号111,日本文112,対訳英文番号113か
ら成る. 英語文章記憶装置内の英語文章ファイルは、第11図に
示すようなレコードで構成される.レコードは,英文番
号121,英文122,対訳日本文番号123から成る
, 日本語文章記憶装置および英語文章記憶装置は、それぞ
九の文章を簿成する文が、文章中に呪われる順序で文番
号を付されて、1文1レコード単位で記憶されている. 次に処理装置01で実行さ九る処理について.第lrj
!Iによって説明する. まず、入力装置02から処理選択パラメータを入力する
.処理選択パラメータとしては、本システムを、日英機
械翻訳に用いる場合は「翻訳」を,翻訳用辞書保守に用
いる場合は、「保守」を入力する(0101)− 次に、日本語文章ファイルから,日本語文章を読み込む
.すなわち、日本語文章ファイルに記憶されている日本
語文レコードをすべてよみ込む(0102).ステップ
0102で読み込んだ日本語文の集合を(SN(1),
・・・,SN(M))として,以下のステップ0103
からステップ0106をm=l〜Mについて繰り返す.
日本語辞書と日本語格フレームと日本語共起関係辞書を
参照して日本語文SN(m)の構文解析を行なう.解析
結果は,ノードが内容語を表わし、意味的に関係を持つ
語の対を結ぶアークでその意味的関係(深層格コード)
を表わす木構造グラフで表現する。複数の解析が可能な
場合は,すべての解を求める.日本文SN(m)の解析
結果の集合を(N(m,1),++,N(m,I))で
表わす(0103).解析結果を処理装置内の作業メモ
リに格納する(0104).ステップ0101で入力さ
れた処理選択パラメータを判定し,パラメータが「翻訳
」であれば,ステップ0106に進み、パラメータが「
保守』であれば,ステップ0103〜0106の繰返し
処理の最初に戻る(0105).日英・英日変換辞書,
英語共起関係辞書,英語格フレーム辞書を参照して,日
本語解析結果N (m,1)・・・N (m,I)から
,それぞれの解析結果に対する英文を生成する(010
6). ステップ0101で入力された処理選択パラメータを判
定し,パラメータが「翻訳』であれば、ステップ010
8に進み、「保守』であれば、ステップ0111に進む
(0107).ステップ0106で出力された英語翻訳
文章を出力装置より出力する(0108).英語翻訳文
章の後編集を受け付ける(0109).後編集された英
語文章を英語文章ファイルに出力する(0110).英
語文章ファイルより,英語文章を入力する.この英語文
章は、翻訳処理の場合は,ステップ0109で後編集さ
れた翻訳文章であり,ステップ0102で入力された日
本語文章の対訳文章である.辞書保守処理の場合も、英
語文章ファイルに予め記憶された,ステップ0102で
入力された日本語文章の対訳文章である(0111).
ステップ0111で読み込んだ英文の集合を(SE(1
),・・・,SE (N))として、以下のステツプ0
112からステップ0エエ3をn = 1〜Nについて
繰り返す.英語辞書と英語格フレームと英語共起関係辞
書を参照して英文SE(n)の構文解析を行なう.解析
結果は、ノードが内容語を表わし,意味的に関係を持つ
語の対を結ぶアークでその意味的関係(aI層格コード
)を表わす木構造グラフで表現する.複数の解析が可能
な場合は、すべての解を求める.英文SE(n)の解析
結果の集合を(E(n,1),・・E (m , J 
))で表わす(0 1 1 2).解析結果を処理装置
内の作業メモリに格納する(0113). 次に、後述する対訳文決定ルーチンにより,日本語文章
と英語文章の文単位での対訳関係を求める.対訳関係は
,後述するように,日本文SN(1)〜SN(M)の対
訳英文の集合を、それぞれ.tr(1)〜tr(M)と
して表現してお<(0114).ステップ0114で求
めた対訳文関係により,ステップ0104で格納した日
本語文解析結果と、ステップ0113で格納した英文解
析結果の対応関係を求め,前記特願昭63 − 263
934に述べられている方法により,語と語の対訳関係
,語と語の共起関係、イディオムなどの知識を抽出する
.すなわち、m=1〜Mについて、ステップ0103で
求めたSN(m)の解析結果N (m , 1 )〜N
 (m,I)と,tr(m)に含まれるSN(m)の訳
文SR(n)の解析結果E (n,1)〜E (no 
J)を比較して、そのパターンマッチ処理に基づいて,
最も良くパターンの一致した解析結果N(m,i)とE
(n,j)を比較することにより,知識を抽出する.t
r(m)が複数の英文を含む場合と一つの英文が複数の
tr(m)に含まれる場合,すなわち,対訳文関係が1
対1でない場合は、特願昭63−263934に述べら
れている方法を若干改良する必要があるが、後に具体例
で述べるように,接続語(または副詞)の情報を用いる
ことにより,簡単に改良できる(0115). ステップo115で抽出した知識に基づき、日英・英日
変換辞書記憶,日本語共起関係辞書,英語共起関係辞書
を更新する(0116).ステップ0116で求めた対
訳文関係を日本語文章ファイル,英語文章ファイルに出
力する(0 1 1 7). 以上が本発明の処理の流九である. 次に,上記ステップ0114の対訳文決定ルーチンの処
理内容を第12図に従って詳述する.まず.m−1〜M
について、F (m) = [m×N/M]で定義する
関数F(m)を用いて、日本文SN(m)の対訳文候補
SE(F(m))を求める([コは/I1数点以下切り
上げを意味する).これは,第13図に示すように,日
本文番号の朶合(1,・・・,M)と英文番号の集合(
1+mtN)の直積集合をM×Nのマトリクスで表した
場合、対訳文関係は、該マトリクスの対角線上にほぼ分
布する部分集合になる可能性が高いことに基づく(01
141) . 次に,m=1〜Mについて、文SN(m)を構成する単
語の訳語を含む英文を、英文の集合,{ S E (+
iax(F(m)−r,1)), S E (wax(
F(m)−r,1)÷1),− ,  S  E (s
in(F(+*)+r,N)))の中かヘ委め、文SN
(m)を構成する単語の訳語を含む英文の集合をtr(
m)とする.この処理は,文SN(m)の対訳文の集合
をステップ01141で求めた対訳文候補の前後±r文
の中から、求めることを意味する.rは,0≦r≦Nを
満たす整数とする.重11Nおよびwinは、mが1ま
たはMに近い場合に対処するため用いている.単語分割
は、ステップ0103および,0112で行われており
,この結果を利用する.単語の対訳関係は,日英・英日
変換辞書を検索して求める.ここで、tr(m)=φで
あれば,tr(m)=(SE(F(m)))とする(0
1142), 次に、n=1〜Nについて、t r (1)〜t r 
(m)の何れにも含まれない英文SE(n)があれば、
t r(ml)=t r(ml)U(SE(n))、t
 r(m2)=t r(m2)U(SE(n)).とし
て,SE(n)をtr(ml)とtr(m2)に含める
.ここで,tr(ml)は、sE(n)より前の英文で
、SE(nl)を含むtr(m)が存在する最大のn1
について,SE(nl)を含め集合である.また,tr
(m2)は,SE(n)より後の英文で,SE(n2)
を含むtr(m)が存在する最小のn2について、SE
(n2)を含む集合である.m1,m2が複数ある場合
は、すべてのml,m2について,上記のt r(ml
),t r(m2)の拡大操作を行なう (01143
). 以上のようにして、求められたtr(1)〜tr(M)
を、それぞれ、SN(1)〜SN(M)の訳文集合とす
る. 次に、第3図の日本語辞書,第4図の英語辞書,第5図
の日本語格フレーム,第6図の英語格フレーム、第7図
の日英・英日変換辞書,第8図の日本語共起関係辞書、
第9図の英語共起関係辞書、第10図の日本語文章ファ
イル、第11図の英語文章ファイルを用いた場合の、自
動学習機械翻訳の過程を、例をあげて詳しく説明する.
まず、処理選択パラメータとして,「保守」を入力した
ときについて説明する. 日本語文章記憶装置内には、「私がその工具でプリンタ
を作ったあと、彼はその工具でキーボードを作った.」
の1文のみが登録されているので、この1文をSN(1
)として日本語辞書,日本語格フレーム,日本語共起関
係辞書を用いて解析し,第14図に示した解析結果を得
る.深層格コードMは修飾関係,Lは述語間の連続関係
を表す.英語文章記憶装置内には、{SN(1))の対
訳文章(r工 made  ths  printer
  with  the  tool.J、 rThe
n,ha made the keyboard wi
th the tool.J)が登録されている.そこ
で、この2文をSE(1).SE(2)として入力し、
英文解析を行ない,第15図,第16図に示した解析結
果を得る.動詞r @ake Jの格フレームはE1と
E2の2つがあるため,S E (1)とS E (2
)の解析結果は,それぞれ,第15図(a),(b)、
第16図(a),(b)の2通りずつ求められる. 次に対訳文決定ルーチンに進む.今,日本文の数M=1
,英文の数N=2であるので、F(1)=[1x2/1
1 =2である.従って、SN(1)の対訳文候補はS
 E (2)である.次に.SE(2)を中心とする前
後の英文から.SN(1)の対訳文集合を単語の対訳関
係により求める.r=1とすると、検索範囲は(S E
 (1), S E (2))である.日英・英日変換
辞書に登録された対訳関係(私、工),(彼,he),
(作る、make) +  (工具、tool) ,(
プリンタ, printer)により、t r(1)=
 {SE(1) , SE(2))になる.すべての英
文がtr(1)に含まれたので5対訳文決定ルーチンは
終了する.次に、知識抽出処理に移る.このときステッ
プ0115の処理の説明で触れたように、対訳文関係が
1対2になっているので、第14図に示したSN(1)
の解析結果を表すグラフと、第15図2第16図にそれ
ぞれ示したSE(1),SE(2)の解析結果を表すグ
ラフの対をパターンマッチさせる必要がある,この場合
は,日英・英日変換辞書に登録された対訳関係(あと、
then)を用いることにより、第15図と、第16図
のグラフは,第17図のグラフにまとめることができ,
パターンマッチは、第14図のグラフと第17図(a)
 (b) (c) (d)のグラフについて行なえばよ
い.前記特願昭63−263934に述べられているパ
ターンマッチング方法にヰ2.すなわち,第14図のグ
ラフと最も良くマツチする第17図(a)のグラフと、
第14図のグラフの概念関係を比較することにより,単
語の対訳関係(キーボード, keyboard)と,
日本語共起関係(作る,キーボード,0)、(作る,彼
,A),(作る,工具,I),(作る,プリンタ,0)
と英語共起関係(make, keyboarcL O
) +  (maketI , A) ,  (mak
8, tool,  I ) , (make, pr
inter,0)が抽出され,辞書に登録される(Wi
単のため,述語と格要素の共起関係のみを抽出している
).最後に、対訳文決定ルーチンで求めた文単位の対訳
関係を日本語文章記憶装置,英語文章記憶装置に、それ
ぞれ、第18図,第19図のように登録し、処理を終了
する. 上記の例では,処理選択パラメータとして、r保守]を
入力した場合を取り上げたが,「翻訳」を選択した場合
も、英文生成と後IIi集のステップを経ることにより
、対訳文章が英語文章記憶装置に格納されるので、対訳
文決定以降の処理は、「保守』の場合と全く同様に行な
える.以上、本発明の一実施例を示した. 上記実施例によれば,機械翻訳システムで翻訳し、人手
による後編集を受けた英語文章と,機械翻訳システムに
入力された日本語文章から、文単位での対訳関係を自動
的に決定し、日英の単語としての対訳関係,および共起
関係を自動的かつ適切に抽出し,辞書登録することがで
きる.このため,機械翻訳システムに辞書の自己増殖機
能を持たせることができる. [拡張例l] また、上記実施例の拡張例として,対訳文決定の処理に
おいて、日本文SN(m)の対訳文候補SE(F(m)
)を中心として、その前後のr個の英文の中からSN(
m)の対訳文を検出するステップにおいて、日本文の数
Mと英文の数Nの大小関係に基づいてrの値を決定する
ステップを追加することにより,対訳文決定の精度と能
率を向上させる方法が考えられる.すなわち.MANで
あれば、日本語文1文当りに対応する英文の数は少なく
なるので,rを小さ<L,.M<Nであれば,rを大き
くする.たとえば、r=[N/M]と計算するステップ
を設ける([]は小数点以下切り上げを意味する). [拡張例2] また、上記実施例や、[拡張例1]のrを変化させる方
法では、M)Nの場合.tr(m)の拡大操作(ステッ
プ01143)を用いるケースが多くなり.対訳文決定
の精度が若干落ちると考えられる.そこで,対訳文決定
処理の前に、MとNの大小関係を判定し,M>Nの場合
は、訳文決定の方向を日英から英日に変更するステップ
を追加する.すなわち.MANの場合は、英文S E 
(1)〜SE(N)の日本語対訳文集合を求める方向に
対訳文決定を変更するステップを設けることにより,上
記の問題を解決できる.対訳文決定の方向の変更が可能
であることは、システムの対称性より,明らかである. [拡張例3] また、上記実施例において、日本文SN(m)の対訳文
を対訳文候補SE (F(m))の中から,単語間の対
訳関係に基づいて決定するステップ(ステップ0114
2)では,すべての内容語について,対訳関係を求めて
いるが,単語の品詞を限定し(たとえば,名詞)、限定
した単語についてのみ対訳関係を検出することにより,
処理を高速化する方法が考えらわる. [拡張例4コ また、上記実施例において、日本語文章ファイルおよび
英語文章ファイルのレコードに段落管理情報を第20図
,第21図のように設け、対訳文決定処理を文章単位で
はなく、段落単位で行なうことにより、決定精度を向上
させる方法が考えられる. [拡張例5コ また、上記実施例の英文生成処理および知識獲得処理に
おいて,日本文の単語のあとに括弧で括られたアルファ
ベット文字列を該単語の訳語として選択するステップを
設け、該訳語が日英・英日変換辞書に登録されていない
場合は、辞書変更時にその対訳関係を登録するステップ
を設けることにより,訳語選択および知識獲得能力を高
めることができる.たとえば,日本文「私はプログラム
(progra■)を作った.』が入力された場合、「
プログラムJの訳語として、rprogramJを選択
し、(プログラム, prograya)の対訳関係が
日英・英日変換辞書に登録されていなければ,該対訳関
係を登録する. [拡張例6] また、上記実施例において,対訳文決定ルーチンのステ
ップ01142で,単語の対訳関係に基づいて日本文S
N(m)の対訳文集合を求める処理を,次のように実行
する方法も考えられる.すなわち,しきい値θ≧Oを設
定し,英文SE(n)に含まれる内容語の数Y(n)に
対する、SN(m)に含まれる内容語の訳語のうちSE
(n)に含まれるものの数T(m,n)の比, R(m,n)=T(m,n)/Y(n)が.R(m,n
)>θを満たしていればSE(n)をtr(m)に含め
るという方法である.上記実施例は,本拡張例において
,θ=0とした場合に相当する.また,本拡張例では,
しきい値θを設けることにより精度向上を図っているた
め、上記実施例のステップ01141を省略することも
できる。
The Japanese co-occurrence relationship dictionary in the Japanese co-occurrence relationship dictionary storage device is composed of records as shown in Figure 8. The records are Japanese verbs 091, Japanese nouns 092, deep cases 09
Consists of 3. Records can be searched using the conjunction of Japanese verb 091 and Japanese noun 092 as a key. The English co-occurrence relationship dictionary in the English co-occurrence relationship dictionary storage device consists of records as shown in Figure 9. The record is
It consists of 101 English verbs, 102 English nouns, and 103 deep cases. Records can be searched using the conjunction of English verbs 101 and Japanese nouns 102 as keys. The Japanese co-occurrence relationship dictionary and the English co-occurrence relationship dictionary register verb-specific co-occurrence relationships that cannot be expressed in case frames as ternary relationships of verbs, nouns, and deep cases. Used in preference to frames. The Japanese text file in the Japanese text storage device is the 10th
It consists of records as shown in the figure. The record consists of Japanese sentence number 111, Japanese sentence 112, and bilingual English sentence number 113. The English text file in the English text storage device consists of records as shown in Figure 11. The record consists of English sentence number 121, English sentence 122, and parallel Japanese sentence number 123. The Japanese sentence storage device and the English sentence storage device each record the sentences that make up the nine sentences in the sentence in the cursed order. Each sentence is numbered and stored in one record unit. Next, let's talk about the processing executed by processing device 01. No. lrj
! Explain by I. First, process selection parameters are input from the input device 02. As the process selection parameter, enter "translation" if you want to use this system for Japanese-English machine translation, or "maintenance" if you want to use it for translation dictionary maintenance (0101) - Next, from the Japanese text file , reads the Japanese text. That is, all Japanese sentence records stored in the Japanese sentence file are read (0102). The set of Japanese sentences read in step 0102 is (SN(1),
..., SN(M)), the following step 0103
Step 0106 is repeated for m=l~M.
Parse the Japanese sentence SN(m) by referring to the Japanese dictionary, Japanese case frame, and Japanese co-occurrence relationship dictionary. The analysis result is that nodes represent content words, and arcs that connect pairs of semantically related words represent their semantic relationships (deep case codes).
It is expressed as a tree-structured graph representing . If multiple analyzes are possible, find all solutions. The set of analysis results of the Japanese sentence SN(m) is expressed as (N(m, 1), ++, N(m, I)) (0103). The analysis results are stored in the working memory within the processing device (0104). The input processing selection parameter is determined in step 0101, and if the parameter is "translation", the process proceeds to step 0106, and the parameter is "translation".
If it is 'Maintenance', the process returns to the beginning of the iterative process of steps 0103 to 0106 (0105). Japanese-English/English-Japanese conversion dictionary,
Refer to the English co-occurrence relationship dictionary and the English case frame dictionary to generate English sentences for each analysis result from the Japanese analysis results N (m, 1)...N (m, I) (010
6). The process selection parameter input in step 0101 is determined, and if the parameter is "translation", step 010
Proceed to step 8, and if it is "maintenance", proceed to step 0111 (0107).The English translated text output in step 0106 is output from the output device (0108).Post-editing of the English translated text is accepted (0109). Output the post-edited English text to the English text file (0110). Input the English text from the English text file. In the case of translation processing, this English text is the translated text that was post-edited in step 0109. , the bilingual text of the Japanese text input in step 0102.In the case of dictionary maintenance processing, this is also the bilingual text of the Japanese text input in step 0102, which is stored in advance in the English text file (0111).
The set of English sentences read in step 0111 is (SE(1
),...,SE (N)), the following step 0
Steps 0 and 3 from step 112 are repeated for n = 1 to N. Parse the English sentence SE(n) by referring to the English dictionary, English case frame, and English co-occurrence relationship dictionary. The analysis results are expressed as a tree structure graph in which nodes represent content words and arcs connecting pairs of semantically related words represent their semantic relationships (aI stratification codes). If multiple analyzes are possible, find all solutions. The set of analysis results of English sentence SE(n) is expressed as (E(n, 1),...E (m, J
)) (0 1 1 2). The analysis results are stored in the working memory within the processing device (0113). Next, the bilingual sentence determination routine described later is used to find the bilingual relationship between the Japanese sentence and the English sentence on a sentence-by-sentence basis. As described later, the bilingual relationship is a set of bilingual English sentences for Japanese sentences SN(1) to SN(M), respectively. Expressed as tr(1) to tr(M)<(0114). Based on the bilingual sentence relationship obtained in step 0114, the correspondence relationship between the Japanese sentence analysis result stored in step 0104 and the English sentence analysis result stored in step 0113 is determined, and the above-mentioned patent application No. 1988-263 is obtained.
Using the method described in 934, knowledge such as bilingual relationships between words, co-occurrence relationships between words, and idioms is extracted. That is, for m=1 to M, the analysis results of SN(m) obtained in step 0103 are N (m, 1) to N
(m, I) and the analysis result E (n, 1) to E (no
J) and based on the pattern matching process,
Analysis results N(m,i) and E with the best pattern matching
Knowledge is extracted by comparing (n, j). t
When r(m) includes multiple English sentences and when one English sentence is included in multiple tr(m), in other words, the bilingual sentence relationship is 1.
If the ratio is not 1, it is necessary to slightly improve the method described in Japanese Patent Application No. 63-263934, but as will be explained later in a specific example, it is possible to easily Can be improved (0115). Based on the knowledge extracted in step o115, the Japanese-English/English-Japanese conversion dictionary memory, the Japanese co-occurrence relationship dictionary, and the English co-occurrence relationship dictionary are updated (0116). The bilingual sentence relationship obtained in step 0116 is output to the Japanese text file and the English text file (0 1 1 7). The above is the process flow of the present invention. Next, the processing contents of the bilingual sentence determination routine in step 0114 will be described in detail with reference to FIG. first. m-1~M
, find the bilingual sentence candidate SE(F(m)) of the Japanese sentence SN(m) using the function F(m) defined by F(m) = [m×N/M] ([kowa/ I mean rounding up to the next few points). As shown in Figure 13, this is a combination of Japanese numbers (1,...,M) and a set of English numbers (1,...,M).
1+mtN) is represented by an M×N matrix, the bilingual sentence relationship is based on the fact that there is a high possibility that the set will be a subset distributed approximately on the diagonal of the matrix (01
141). Next, for m = 1 to M, the English sentences containing the translations of the words constituting the sentence SN(m) are divided into a set of English sentences, { S E (+
iax(F(m)-r,1)), S E(wax(
F(m)-r,1)÷1),-, S E (s
in (F(+*)+r,N))), sentence SN
tr(
m). This process means finding a set of bilingual sentences for sentence SN(m) from ±r sentences before and after the bilingual sentence candidate obtained in step 01141. Let r be an integer satisfying 0≦r≦N. Weight 11N and win are used to deal with cases where m is close to 1 or M. Word segmentation is performed in steps 0103 and 0112, and the results are used. The bilingual relationship between words is determined by searching Japanese-English and English-Japanese conversion dictionaries. Here, if tr(m)=φ, then tr(m)=(SE(F(m)))(0
1142), Next, for n=1 to N, t r (1) to t r
If there is an English sentence SE(n) that is not included in any of (m), then
t r (ml) = t r (ml) U (SE (n)), t
r(m2)=t r(m2)U(SE(n)). As, SE(n) is included in tr(ml) and tr(m2). Here, tr(ml) is the maximum n1 in English sentences before sE(n) where tr(m) including SE(nl) exists.
is a set including SE(nl). Also, tr
(m2) is an English sentence after SE(n), and SE(n2)
For the smallest n2 such that there exists a tr(m) containing SE
This is a set containing (n2). If there are multiple m1 and m2, the above t r(ml
), t r (m2) is expanded (01143
). As described above, tr(1) to tr(M) obtained
Let be the translation sets of SN(1) to SN(M), respectively. Next, the Japanese dictionary in Figure 3, the English dictionary in Figure 4, the Japanese case frame in Figure 5, the English case frame in Figure 6, the Japanese-English/English-Japanese conversion dictionary in Figure 7, and the English-Japanese conversion dictionary in Figure 8. Japanese co-occurrence relationship dictionary,
The process of automatic learning machine translation when using the English co-occurrence relationship dictionary shown in Figure 9, the Japanese text file shown in Figure 10, and the English text file shown in Figure 11 will be explained in detail using examples.
First, we will explain what happens when "maintenance" is input as the process selection parameter. In the Japanese text storage device, it says, ``After I made a printer with that tool, he made a keyboard with that tool.''
Only one sentence is registered, so this one sentence is SN(1
) using a Japanese dictionary, Japanese case frame, and Japanese co-occurrence relationship dictionary to obtain the analysis results shown in Figure 14. The deep case code M represents a modification relationship, and L represents a continuous relationship between predicates. In the English sentence storage device, there is a bilingual sentence of {SN(1))
with the tool. J, rThe
n,ha made the keyboard wi
th the tool. J) is registered. Therefore, these two sentences are SE(1). Enter as SE(2),
Analyze the English text and obtain the analysis results shown in Figures 15 and 16. The verb r @ake J has two case frames, E1 and E2, so S E (1) and S E (2
) are shown in Figures 15(a), (b), and 15(b), respectively.
Two methods are obtained in each of Figures 16 (a) and (b). Next, proceed to the bilingual sentence determination routine. Now, the number of Japanese sentences M = 1
, the number of English sentences N=2, so F(1)=[1x2/1
1 = 2. Therefore, the parallel sentence candidate for SN(1) is S
E (2). next. From the English sentences before and after SE (2). Find the set of translated sentences for SN(1) based on the translated relationships between words. If r=1, the search range is (S E
(1), S E (2)). Bilingual relations registered in the Japanese-English and English-Japanese conversion dictionaries (I, 工), (He, he),
(make, make) + (tool), (
t r(1)=
becomes {SE(1), SE(2)). Since all the English sentences are included in tr(1), the 5-parallel sentence determination routine ends. Next, we move on to knowledge extraction processing. At this time, as mentioned in the explanation of the process of step 0115, since the bilingual sentence relationship is 1:2, the SN(1) shown in FIG.
It is necessary to pattern match the graph representing the analysis results of SE(1) and SE(2) shown in Figure 15 and Figure 16, respectively.・Bilingual translations registered in the English-Japanese conversion dictionary (and
then), the graphs in Figures 15 and 16 can be combined into the graph in Figure 17,
Pattern matching is performed using the graph in Figure 14 and Figure 17 (a).
You can do this for the graphs in (b), (c), and (d). 2. The pattern matching method described in the above-mentioned Japanese Patent Application No. 63-263934. In other words, the graph in FIG. 17(a) that best matches the graph in FIG. 14,
By comparing the conceptual relationships in the graph in Figure 14, we can determine the bilingual relationship between words (keyboard, keyboard),
Japanese co-occurrence relationship (make, keyboard, 0), (make, him, A), (make, tool, I), (make, printer, 0)
and English co-occurrence relationship (make, keyboardL O
) + (maketI, A), (mak
8, tool, I), (make, pr
inter, 0) is extracted and registered in the dictionary (Wi
For simplicity, only the co-occurrence relationships between predicates and case elements are extracted). Finally, the sentence-by-sentence bilingual relationship obtained in the bilingual sentence determination routine is registered in the Japanese sentence storage device and the English sentence storage device, respectively, as shown in FIGS. 18 and 19, and the process ends. In the above example, we have taken up the case where "r maintenance" is input as the process selection parameter, but even if "translation" is selected, the bilingual text will be stored in the English text memory by going through the steps of English sentence generation and Volume IIi. Since the information is stored in the device, the processing after bilingual text determination can be performed in exactly the same way as in the case of "maintenance".An embodiment of the present invention has been described above.According to the above embodiment, the machine translation system Automatically determines the bilingual relationship on a sentence-by-sentence basis from the translated English text that has undergone manual post-editing and the Japanese text input into the machine translation system, and calculates the bilingual relationship as Japanese and English words, and the Japanese text input into the machine translation system. Origin relations can be automatically and appropriately extracted and registered in a dictionary.For this reason, a machine translation system can be provided with a dictionary self-propagation function. [Extended example 1] Also, an extended example of the above embodiment. In the process of determining parallel sentences, the parallel sentence candidates SE(F(m)
), select SN(
m) In the step of detecting parallel sentences, the accuracy and efficiency of determining parallel sentences is improved by adding a step of determining the value of r based on the magnitude relationship between the number M of Japanese sentences and the number N of English sentences. There are ways to do this. In other words. If it is MAN, the number of English sentences corresponding to one Japanese sentence will be small, so let r be small<L, . If M<N, increase r. For example, provide a step to calculate r = [N/M] ([] means rounding up to the nearest whole number). [Extension Example 2] Furthermore, in the above embodiment and the method of changing r in [Extension Example 1], in the case of M)N. There are many cases where the enlarging operation of tr(m) (step 01143) is used. It is thought that the accuracy of determining bilingual sentences will be slightly lower. Therefore, before the bilingual sentence determination process, a step is added in which the magnitude relationship between M and N is determined, and if M>N, the direction of the translation sentence determination is changed from Japanese to English to English. In other words. For MAN, English S E
The above problem can be solved by providing a step of changing the bilingual sentence determination in the direction of finding the set of Japanese bilingual sentences from (1) to SE(N). It is clear from the symmetry of the system that it is possible to change the direction of bilingual sentence determination. [Extended Example 3] Furthermore, in the above embodiment, a step (step 0114) of determining the bilingual sentence of the Japanese sentence SN(m) from among the bilingual sentence candidates SE (F(m)) is performed based on the bilingual relationship between words.
In 2), the bilingual relationships are found for all content words, but by limiting the parts of speech of the words (for example, nouns) and detecting the bilingual relationships only for the limited words,
I can't think of a way to speed up the processing. [Extended example 4] Also, in the above example, paragraph management information is provided in the records of the Japanese text file and the English text file as shown in Figures 20 and 21, and the parallel sentence determination process is performed not on a sentence basis but on a paragraph basis. One possible method is to improve the decision accuracy by doing it in units. [Expansion Example 5] Furthermore, in the English sentence generation process and knowledge acquisition process of the above embodiment, a step is provided to select an alphabetic character string enclosed in parentheses after a word in the Japanese sentence as a translation of the word, and the translation is If it is not registered in the Japanese-English/English-Japanese conversion dictionary, by providing a step to register the bilingual relationship when changing the dictionary, the ability to select translated words and acquire knowledge can be improved. For example, if the Japanese sentence "I created a program (progra■)." is input, "
Select rprogramJ as the translation word for program J, and if the bilingual relationship of (program, prograya) is not registered in the Japanese-English/English-Japanese conversion dictionary, register the bilingual relationship. [Extended Example 6] Furthermore, in the above embodiment, in step 01142 of the bilingual sentence determination routine, the Japanese sentence S is determined based on the bilingual relationship of the words.
It is also possible to perform the process of finding N(m) bilingual sentence sets as follows. In other words, by setting a threshold value θ≧O, the number of content words Y(n) included in the English sentence SE(n) is determined by the SE
The ratio of the number T (m, n) of things included in (n), R (m, n) = T (m, n) / Y (n) is. R(m, n
) > θ, SE(n) is included in tr(m). The above example corresponds to the case where θ=0 in this extended example. Also, in this extended example,
Since accuracy is improved by providing the threshold value θ, step 01141 in the above embodiment can be omitted.

すなわち,ステップ01142のSN(m)に対する対
訳文検索範囲を、英語文章全体、すなわち,(SE(1
),・・・,SE(N))とすることも可能である. [拡張例7] また,上記実施例において、対訳文から知識を抽出する
ステップで、対訳文関係が1対1である対訳文のみを求
め、1対1の対訳文からのみ知識を抽出することにより
、知識の抽出精度を向上させる方式も可能である. [変形例1] また、上記実施例の対訳文決定方式は、単語間の対訳関
係に基づいた方式である.しかし,対訳関係にある文集
合と文集合は,ほぼ同数の内容語を含むと考えられるの
で,対訳文決定は,以下に述べるように、内容語の数の
一致する文集合を対訳文章の先頭の文から求めていく方
法も可能である.まず、m=1〜Mについて、日本文S
N(m)に含まれる内容語の数を、それぞれ.X(m)
と定義する.また、n=1〜Nについて、英文SE(n
)に含まれる内容語の数をY(n)と定義する.そこで
,対訳文決定処理を以下第22図に従って説明するよう
に行なう. まず、SRT(1)=1とする.SRT(m)はSN(
rn)の対訳文集合tr(m)の先頭の英文の番号であ
る(0114A)。変数ENDN=Oとする.ENDN
は、以下のステップ0114C〜0114Jのループの
終了を表わすフラグである(01 14B).m=1〜
Mについて(m=MまたはENDN=1になるまで)、
以下のステップ0 1 14C〜0114Lを繰り返す
.変数SUM=Oとする。SUMは、英文の内容語数を
カウントする変数である(0114G)。n=SRT(
m)とする(0 1 1 4 D). X(m)≧SU
N、かつ,n≦Nである間、次の2つのステップ011
4E,0114Fを繰り返す。
That is, the bilingual sentence search range for SN(m) in step 01142 is set to the entire English sentence, that is, (SE(1
), ..., SE(N)). [Extension Example 7] Furthermore, in the above embodiment, in the step of extracting knowledge from bilingual sentences, only bilingual sentences with a one-to-one bilingual sentence relationship are obtained, and knowledge is extracted only from the one-to-one bilingual sentences. It is also possible to improve the accuracy of knowledge extraction. [Modification 1] Furthermore, the bilingual sentence determination method of the above embodiment is a method based on the bilingual relationship between words. However, since it is thought that a sentence set and a sentence set in a bilingual relationship contain almost the same number of content words, bilingual sentence determination is performed by selecting the sentence set that has the same number of content words at the beginning of the bilingual sentence, as described below. It is also possible to find it from the sentence . First, for m = 1 to M, the Japanese sentence S
Let the number of content words included in N(m) be respectively . X (m)
It is defined as Also, for n = 1 to N, English SE (n
) is defined as Y(n). Therefore, the bilingual sentence determination process is performed as explained below in accordance with FIG. 22. First, let SRT(1)=1. SRT(m) is SN(
This is the number of the first English sentence in the bilingual sentence set tr(m) of rn) (0114A). Set the variable ENDN=O. ENDN
is a flag indicating the end of the loop of steps 0114C to 0114J below (01 14B). m=1~
For M (until m=M or ENDN=1),
Repeat steps 0 1 14C to 0114L below. Let variable SUM=O. SUM is a variable that counts the number of words in an English sentence (0114G). n=SRT(
m) (0 1 1 4 D). X(m)≧SU
N, and while n≦N, the next two steps 011
Repeat 4E, 0114F.

SUMにY(n)を加える(0114E).nに1を加
kへ、(0 114 F) . 0 1 14E,01
14F (7)ステップをぬけた後、変数END(m)
=n−1とする.END(m)は、tr(rn)に含ま
れる最後の英文番号である(0 1 14G) . t
 r(m.)=(S E (S R T(m)), ・
=, S E (E ND(m)))とする(0114
H). n < Nであるかどうかを判定し.n<Nであれば、
ステップ0114Jに進み、n < Nでなければ,ス
テップ0114Kに進t/ (0114I).S R 
T ( m + 1 ) = nとする(0114J)
.ENDN=1とする(0 1 1 4 K)。tr(
m+1)=,−−−,= t r (M)= t r 
(m)とする(0 1 1 4 L).以上の、011
4C〜0114Jのループが終了すれば、処理を終える
. [変形例2] 上記変形例1の対訳文決定方式は,文に含まれる内容語
の数に基づいた方式であるが,文に含まれる文字数に基
づいた方式すなわち,文字数の一致する文集合を対訳文
章の先頭から求めていく方式も可能である.実行方式は
、上記変形例1のX(m),Y(n)の定義をそれぞれ
.SN(m)に含まれる文字数、SE (n)に含まれ
る文字数に変更すれば、上記変形例1の方法がそのまま
使える.本変形例は,上記変形例1に比べて、精度は若
干落ちると考えられるが、英語,仏語のように比較的近
い言語間の対訳文決定には有効である.〔発明の効果〕 本発明によれば,対訳文から言語知識を獲得する双方向
機械翻訳システムにおいて,入力文章と、翻訳後,文章
単位で後編集された文章から、文単位での対訳関係を自
動的に決定することができるので、文単位での解析結果
のパターンマッチにより,単語間の対訳関係、イディオ
ムとしての対訳関係,共起関係および語のもつ意味的性
質を抽出し、辞書に登録することができ,翻訳用辞書に
種種のレベルの知識を自動的かつ適切に登録していくこ
とが可能になり、辞書の精度を自動的に向上させること
ができる.特に,マニュアル等の大量文の一括翻訳に対
して有効である。
Add Y(n) to SUM (0114E). Add 1 to n to k, (0 114 F) . 0 1 14E,01
14F (7) After passing through step, variable END (m)
=n-1. END(m) is the last English number included in tr(rn) (0 1 14G). t
r(m.)=(S E (S R T(m)), ・
=, S E (E ND(m))) (0114
H). Determine whether n < N. If n<N,
Proceed to step 0114J, and if n < N, proceed to step 0114K t/ (0114I). S.R.
Set T (m + 1) = n (0114J)
.. Set ENDN=1 (0 1 1 4 K). tr(
m+1)=,−−−,= t r (M)= t r
(m) (0 1 1 4 L). Above, 011
When the loop from 4C to 0114J ends, the process ends. [Modification 2] The bilingual sentence determination method in Modification 1 above is a method based on the number of content words included in a sentence. It is also possible to calculate from the beginning of the bilingual text. The execution method is based on the definitions of X(m) and Y(n) in Modification 1 above. By changing the number of characters included in SN (m) and the number of characters included in SE (n), the method of Modification 1 above can be used as is. Although the accuracy of this modification is considered to be slightly lower than that of modification 1 above, it is effective in determining parallel sentences between relatively similar languages such as English and French. [Effects of the Invention] According to the present invention, in a bidirectional machine translation system that acquires linguistic knowledge from bilingual sentences, it is possible to determine the bilingual relationship on a sentence-by-sentence basis from an input sentence and a post-edited sentence on a sentence-by-sentence basis after translation. Since it can be determined automatically, by pattern matching the analysis results for each sentence, the bilingual relationships between words, bilingual relationships as idioms, co-occurrence relationships, and semantic properties of words can be extracted and registered in the dictionary. This makes it possible to automatically and appropriately register knowledge at various levels in a translation dictionary, and automatically improve the accuracy of the dictionary. It is particularly effective for batch translation of large amounts of text such as manuals.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実旅例の日英・英日機械翻訳システ
ムの処理の概略を示すPAD、第2図は本発明の一実施
例の日英・英日機械翻訳システムのハードウエア構成図
、第3図は日本語辞書のレコード内容の例を示す図,第
4図は英語辞帯レコード内容の例を示す図,第5図は日
本語格フレームのレコード内容の例を示す図,第6図は
英語格フレームのレコード内容の例を示す図、@7図は
日英・英日変換辞書のレコード内容の例を示す図,第8
図は日本語共起関係辞書のレコード内容の例を示す図、
第9図は英語共起関係辞書のレコード内容の例を示す図
、第10図,第18図,第20図は日本語文章ファイル
のレコード内容の例を示す図、第11図,第19図,第
21図は英語文章のファイルのレコード内容の例を示す
図,第12図は単語の対訳関係に基づいた対訳文決定処
理の詳細を示すPAD、第13図は日本文番号の集合と
英文番号の集合の直積集合を示す概念図、第14図〜第
17図は日本文および英文の解析結果を表す木構造グラ
フの例を示す図,第22図は文の含む内容語の数に基づ
いた対訳文決定処理の詳細を示すPADである. 01・・・入力装置、02・・・処理装置,03・・・
出力装置、04・・・日本語辞書記憶装置.05・・・
英語辞書記憶装置、06・・・日本語格フレーム記憶装
置、07・・・英語格フレーム記憶装置、08・・・日
英・英日変換辞書記憶装置、09・・・日本語共起関係
辞書記憶装置、10・・・英語共起関係辞書記憶装置、
11・・・日本語文章ファイル記憶装置、12・・・英
語あ ヒ fi   梓托割 猶 霞 第 霞 力 ■ m詔 循 口 バρ81 〆ρ82 第 lθ ロ Z 口 猶 // 閉 循 口 2      1heyt.hexJetkekeyb
oa>tj  WltHhetpa/,    一拓 ロ 遁 l7  口 (a) 猶 口 Z I4 囚 偵) 第 l5 (b) (の (b冫 招 /g 口 拓 tq ■ 2θ 口 力 図
Figure 1 is a PAD showing an outline of the processing of a Japanese-English/English-Japanese machine translation system as an example of the present invention, and Figure 2 is the hardware of a Japanese-English/English-Japanese machine translation system as an example of the present invention. Configuration diagram, Figure 3 shows an example of record contents of a Japanese dictionary, Figure 4 shows an example of English dictionary record contents, and Figure 5 shows an example of record contents of a Japanese case frame. , Figure 6 is a diagram showing an example of the record contents of an English case frame, @ Figure 7 is a diagram showing an example of the record contents of a Japanese-English/English-Japanese conversion dictionary, and Figure 8 is a diagram showing an example of record contents of an English case frame.
The figure shows an example of the record contents of a Japanese co-occurrence relationship dictionary.
Figure 9 is a diagram showing an example of the record contents of the English co-occurrence relationship dictionary, Figures 10, 18, and 20 are diagrams showing examples of the record contents of the Japanese text file, Figures 11, and 19. , Figure 21 is a diagram showing an example of the record contents of a file of English sentences, Figure 12 is a PAD showing details of the bilingual sentence determination process based on the bilingual relationship of words, and Figure 13 is a set of Japanese sentence numbers and English sentences. A conceptual diagram showing a Cartesian product set of a set of numbers. Figures 14 to 17 are diagrams showing examples of tree structure graphs representing the analysis results of Japanese and English sentences. Figure 22 is a diagram showing the number of content words included in a sentence. This is a PAD showing details of the bilingual sentence determination process. 01... Input device, 02... Processing device, 03...
Output device, 04...Japanese dictionary storage device. 05...
English dictionary storage device, 06...Japanese case frame storage device, 07...English case frame storage device, 08...Japanese-English/English-Japanese conversion dictionary storage device, 09...Japanese co-occurrence relationship dictionary Storage device, 10...English co-occurrence relationship dictionary storage device,
11...Japanese text file storage device, 12...English ahi fi Azusa Takuwari Yuka dai Kasiriku ■ m edict circulation bar ρ81 〆ρ82 th lθ ro Z mouth order // closed circulation mouth 2 1 heyt. hexJetkeyb
oa>tj WltHhetpa/, Ittakuroton l7 Mouth (a) Yukuchi Z I4 Prisoner) No. 15 (b) (of (b invitation/g Kuchitakutq ■ 2θ Kuchirokuzu)

Claims (1)

【特許請求の範囲】 1、第一言語文章の翻訳結果を後編集した第二言語文章
と第一言語文章との文単位の対訳関係を求めるステップ
を設けたことを特徴とする機械翻訳システム。 2、請求項1記載の機械翻訳システムにおいて、第一言
語文章と第二言語文章の文単位の対訳関係を求めるステ
ップが、第一言語文章中の各第一言語文SNに対し、第
二言語文章中の第二言語文SEで、SEに含まれる内容
語の数に対する、SNに含まれる内容語の訳語のうちS
Eに含まれるものの数の比を求めるサブステップと、該
比が一定のしきい値を超えていれば、SEをSNの対訳
文集合に含めるサブステップにより構成されることを特
徴とする機械翻訳システム。 3、請求項1記載の機械翻訳システムにおいて、第一言
語文章と第二言語文章の文単位の対訳関係を求めるステ
ップが、第一言語文の数Mと第二言語文の数Nを求め、
第一言語文章のm番目の第一言語文に対し、m×N/M
を整数化した番号を持つ第一言語文章の文をm番目の第
一言語文の対訳文候補として決定するサブステップと、
第二言語文章の中の該対訳文候補の前後の数文中から、
m番目の第一言語文に含まれる単語の訳語を含む文の集
合を求め、該集合をm番目の第一言語文の対訳文集合と
するサブステップと、前記サブステップの処理では第一
言語文章の中の何れの第一言語文の対訳文集合にも含ま
れないような第二言語文章中の第二言語文が存在するか
どうかを判定し、第一言語文章の中の何れの第一言語文
の対訳文集合にも含まれないような第一言語文章中の第
二言語文を、第一言語文章中の何れかの第一言語文の対
訳文集合に含めるサブステップにより構成されることを
特徴とする機械翻訳システム。 4、請求項3記載の機械翻訳システムにおいて、第一言
語文の対訳文候補の前後数文の中から該第一言語文の対
訳文集合を求めるサブステップで、対訳文集合を求める
範囲を第一言語文の数Mと第二言語文の数Nの大小関係
に基づいて決定することを特徴とする機械翻訳システム
。 5、請求項3記載の機械翻訳システムにおいて、第一言
語文章と第二言語文章との文単位の対訳関係を求めるス
テップの前に、第一言語文の数Mと第二言語文の数Nと
の大小関係を判定し、M>Nであれば、文単位の対訳関
係決定の方向を、第二言語文章中の第二言語文の対訳文
集合を第一言語文章中の第一言語文の中から決定する方
向に変換するステップを設けたことを特徴とする機械翻
訳システム。 6、請求項3記載の機械翻訳システムにおいて、第一言
語文の対訳文集合を該第一言語文に含まれる単語の訳語
を含む第二言語文の中から求めるステップで、該重態の
品詞を限定することを特徴とする機械翻訳システム。 7、請求項1記載の機械翻訳システムにおいて、文単位
の対訳関係を段落単位の対訳関係から求めることを特徴
とする機械翻訳システム。 8、機械翻訳システムにおいて、第一言語文章の翻訳結
果を人手により後編集した第二言語文章と第一言語文章
との文単位の対訳関係を求めるステップを設けたことを
特徴とする機械翻訳システム用辞書保守方式。 9、対訳関係にある第一言語文章と第二言語文章との文
単位の対訳関係を求めるステップを設けたことを特徴と
する機械翻訳システム用辞書保守方式。 10、機械翻訳システムにおいて、第一言語文章の翻訳
結果を人手により後編集した第二言語文章と第一言語文
章との文単位の対訳関係を求めるステップを設けたこと
を特徴とする対訳文ファイル作成方式。 11、対訳関係にある第一言語文章と第二言語文章との
文単位の対訳関係を求めるステップを設けたことを特徴
とする対訳文ファイル作成方式。 12、請求項1記載の機械翻訳システムにおいて、第二
言語文生成時に訳語選択で、第一言語文中の単語の後に
、括弧で括られた第二言語文字列が第一言語文中に存在
する場合は、該文字列を訳語として選択するステップを
設けたことを特徴とする機械翻訳システム。 13、請求項12記載の機械翻訳システムにおいて、第
一言語文中の単語の後に、括弧で括られた第二言語文字
列が第一言語文中に存在し、かつ、該文字列が該単語の
訳語として、辞書に登録されているかどうかを判定し、
登録されていなければ、該文字列を該単語の訳語として
登録するステップを設けたことを特徴とする機械翻訳シ
ステム。 14、請求項1記載の機械翻訳システムにおいて、第一
言語文章と第二言語文章の文単位の対訳関係を求めるス
テップが、第一言語文章中の文集合と第二言語文章中の
文集合で、その文集合に含まれる内容語の数の一致する
文集合の対を、第一言語文章と第二言語文章の先頭から
求めていくステップであることを特徴とする機械翻訳シ
ステム。 15、請求項1記載の機械翻訳システムにおいて、第一
言語文章と第二言語文章の文単位の対訳関係を求めるス
テップが、第一言語文章中の文集合と第二言語文章中の
文集合で、その文集合に含まれる文字数の一致する文集
合の対を、第一言語文章と第二言語文章の先頭から求め
ていくステップであることを特徴とする機械翻訳システ
ム。 16、請求項1記載の機械翻訳システムにおいて、対訳
関係が1対1になつた文についてのみ、知識の獲得を行
なうことを特徴とする機械翻訳システム。
[Scope of Claims] 1. A machine translation system characterized by the step of determining a sentence-by-sentence bilingual relationship between a second language sentence obtained by post-editing the translation result of the first language sentence and the first language sentence. 2. In the machine translation system according to claim 1, the step of determining the sentence-by-sentence bilingual relationship between the first language sentence and the second language sentence is performed for each first language sentence SN in the first language sentence. In the second language sentence SE in a sentence, S among the translations of content words included in SN relative to the number of content words included in SE
A machine translation characterized by comprising a substep of calculating the ratio of the number of items included in E, and a substep of including SE in a bilingual sentence set of SN if the ratio exceeds a certain threshold. system. 3. In the machine translation system according to claim 1, the step of determining the sentence-by-sentence bilingual relationship between the first language sentence and the second language sentence includes determining the number M of first language sentences and the number N of second language sentences;
For the mth first language sentence of the first language sentences, m×N/M
a substep of determining a first language sentence having an integer number as a bilingual sentence candidate for the m-th first language sentence;
From several sentences before and after the parallel translation candidate in the second language sentence,
a substep of determining a set of sentences containing translations of words included in the m-th first language sentence and making this set a bilingual sentence set of the m-th first language sentence; It is determined whether there is a second language sentence in the second language sentence that is not included in the bilingual sentence set of any first language sentence in the sentence, and It consists of a substep of including a second language sentence in a first language sentence that is not included in a set of parallel sentences of a monolingual sentence into a set of parallel sentences of any first language sentence in the first language sentence. A machine translation system characterized by: 4. In the machine translation system according to claim 3, in the substep of obtaining a parallel translation set of the first language sentence from several sentences before and after a parallel translation candidate of the first language sentence, the range for obtaining the parallel translation set is A machine translation system characterized in that the determination is made based on the magnitude relationship between the number M of monolingual sentences and the number N of second language sentences. 5. In the machine translation system according to claim 3, the number M of first language sentences and the number N of second language sentences are determined before the step of determining the sentence-by-sentence bilingual relationship between the first language sentence and the second language sentence. If M>N, the direction of determining the bilingual relationship for each sentence is determined by changing the bilingual sentence set of the second language sentences in the second language sentence to the first language sentence in the first language sentence. A machine translation system characterized by providing a step of converting in a direction determined from among. 6. In the machine translation system according to claim 3, in the step of obtaining a bilingual sentence set of the first language sentence from among the second language sentences including translations of words included in the first language sentence, the part of speech in the critical state is determined. A machine translation system characterized by: 7. The machine translation system according to claim 1, wherein the bilingual translation relationship in sentence units is determined from the bilingual translation relationship in paragraph units. 8. A machine translation system, characterized in that the machine translation system includes a step of determining a sentence-by-sentence bilingual relationship between a second language sentence and a first language sentence, which are obtained by manually post-editing the translation result of the first language sentence. dictionary maintenance method. 9. A dictionary maintenance method for a machine translation system, comprising a step of determining a sentence-by-sentence bilingual relationship between a first language sentence and a second language sentence that are in a bilingual relationship. 10. In a machine translation system, a bilingual sentence file characterized by providing a step of obtaining a sentence-by-sentence bilingual relationship between a second language sentence and a first language sentence, which are obtained by manually post-editing the translation result of the first language sentence. Creation method. 11. A method for creating a bilingual text file, which is characterized by providing a step of obtaining a bilingual relationship in sentence units between a first language sentence and a second language sentence that are in a bilingual relationship. 12. In the machine translation system according to claim 1, when a second language string enclosed in parentheses is present in the first language sentence after a word in the first language sentence when selecting a translation word when generating a second language sentence. A machine translation system comprising a step of selecting the character string as a translated word. 13. The machine translation system according to claim 12, wherein a second language character string enclosed in parentheses exists in the first language sentence after a word in the first language sentence, and the character string is a translation word of the word. , determine whether it is registered in the dictionary,
A machine translation system comprising the step of registering the character string as a translation of the word if the character string is not registered. 14. In the machine translation system according to claim 1, the step of determining the bilingual relationship between sentence units of the first language sentence and the second language sentence includes a sentence set in the first language sentence and a sentence set in the second language sentence. , a step of finding pairs of sentence sets in which the number of content words included in the sentence sets matches, starting from the beginning of a first language sentence and a second language sentence. 15. In the machine translation system according to claim 1, the step of determining the bilingual relationship between sentence units of the first language text and the second language text includes a sentence set in the first language text and a sentence set in the second language text. , a machine translation system characterized in that the step is to find a pair of sentence sets that have the same number of characters in the sentence sets, starting from the beginning of a first language sentence and a second language sentence. 16. The machine translation system according to claim 1, wherein knowledge is acquired only for sentences with a one-to-one bilingual relationship.
JP1114926A 1989-05-10 1989-05-10 Machine translation system Pending JPH02294779A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1114926A JPH02294779A (en) 1989-05-10 1989-05-10 Machine translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1114926A JPH02294779A (en) 1989-05-10 1989-05-10 Machine translation system

Publications (1)

Publication Number Publication Date
JPH02294779A true JPH02294779A (en) 1990-12-05

Family

ID=14650081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1114926A Pending JPH02294779A (en) 1989-05-10 1989-05-10 Machine translation system

Country Status (1)

Country Link
JP (1) JPH02294779A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0855121A (en) * 1994-08-09 1996-02-27 Nec Corp Sentence correspondence device and corresponding method between original and translated sentence
JP2017010274A (en) * 2015-06-22 2017-01-12 日本電信電話株式会社 Associating device and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0855121A (en) * 1994-08-09 1996-02-27 Nec Corp Sentence correspondence device and corresponding method between original and translated sentence
JP2017010274A (en) * 2015-06-22 2017-01-12 日本電信電話株式会社 Associating device and program

Similar Documents

Publication Publication Date Title
US5406480A (en) Building and updating of co-occurrence dictionary and analyzing of co-occurrence and meaning
US5408410A (en) Method of and an apparatus for automatically evaluating machine translation system through comparison of their translation results with human translated sentences
US5895446A (en) Pattern-based translation method and system
EP0180888B1 (en) Method and apparatus for natural language processing
US5528491A (en) Apparatus and method for automated natural language translation
US6473729B1 (en) Word phrase translation using a phrase index
JPH0447364A (en) Natural language analying device and method and method of constituting knowledge base for natural language analysis
KR100530154B1 (en) Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system
JPH02308370A (en) Machine translation system
JPH05314166A (en) Electronic dictionary and dictionary retrieval device
US5608623A (en) Special cooccurrence processing method and apparatus
JP2815714B2 (en) Translation equipment
JP2609173B2 (en) Example-driven machine translation method
Smadja et al. Translating collocations for use in bilingual lexicons
JPH0261763A (en) Mechanical translation equipment
JPH02294779A (en) Machine translation system
Hanane et al. A model of a generic Arabic language interface for multimodel database
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
JPH0561902A (en) Mechanical translation system
Khoroshilov et al. Machine phraseological translation of scientific-technical texts based on the model of generalized syntagmas
JP3892227B2 (en) Machine translation system
Kamali et al. Evaluating Persian Tokenizers
JPH0320866A (en) Text base retrieval system
JPH1031676A (en) Retrieval device for bilingual example sentence
JP2004086919A (en) Mechanical translation system