JPH10312382A - Similar example translation system - Google Patents

Similar example translation system

Info

Publication number
JPH10312382A
JPH10312382A JP9137425A JP13742597A JPH10312382A JP H10312382 A JPH10312382 A JP H10312382A JP 9137425 A JP9137425 A JP 9137425A JP 13742597 A JP13742597 A JP 13742597A JP H10312382 A JPH10312382 A JP H10312382A
Authority
JP
Japan
Prior art keywords
sentence
translation
original
database
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9137425A
Other languages
Japanese (ja)
Inventor
Keiichi Shinoda
恵壱 信田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP9137425A priority Critical patent/JPH10312382A/en
Publication of JPH10312382A publication Critical patent/JPH10312382A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To perform standardized translation fast with simple constitution by a machine translation system which makes use of an example data base. SOLUTION: In the example data base 8 many translation sentences are stored and identical or similar sentences are extracted for translation. When no similar sentence is found, the original text is divided and identical or similar examples are extracted for the divided sentences for translation. When no similar sentence is found for a divided sentence, translation is carried out by words or idioms by performing retrieval from a dictionary data base 9. The translation result is postedited by referring to the example data base 8 and dictionary data base 9. The completed translation sentences are stored in the example data base 8 together with the original text. Each time translation is performed, example data are stored, so the example data base is automatically enriched. The standardized translation is performed fast only by using simple grammatical rules 3, 5, and 6, the example data base 8, and the dictionary data base 9.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、インターネットを
使ったネットワークコンピューティング(NC)に適し
た機械翻訳システムに関し、特に、用例データベースか
ら完全一致文または類似文を検索し、その対訳文を利用
して翻訳を行なう類似用例翻訳システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a machine translation system suitable for network computing (NC) using the Internet, and more particularly, to searching for an exact matching sentence or a similar sentence from an example database and using a bilingual sentence thereof. And a similar example translation system that performs translation.

【0002】[0002]

【従来の技術】機械で翻訳しようという考えは、コンピ
ュータが発明される以前からあったし、コンピュータを
使って翻訳をする試みは、コンピュータが発明されると
すぐ始まった。
BACKGROUND OF THE INVENTION The idea of translating by machine had existed before the invention of the computer, and attempts to translate using a computer began as soon as the computer was invented.

【0003】第一段階の機械翻訳システムとしては、図
11に示すような、語と対訳の語を辞書引きするダイレク
ト方式の機械翻訳システムがある。これは、1950年代〜
1960年代に研究開発が行なわれた。この段階の翻訳処理
技術は、原文を解析し、原文の中の語ないしはいくつか
の少数の語の集まりを単位として認識し、その認識され
た単位で原言語から翻訳先言語への置き換えを行ない、
最後にこれらの単位の順序を並べ換えることによって訳
文を作り上げるというものである。このとき、認識の単
位は、一つの語と同等に扱える程度のものである。した
がって、この時期の翻訳処理を語対語翻訳という。ま
た、認識の内容は、品詞や極めて単純な文法的機能につ
いてである。そのため、原文の中の語を訳語に置き換え
て翻訳するのとあまり変わらない。このような翻訳処理
の方法を直接翻訳と呼ぶ。
[0003] As the first stage machine translation system,
As shown in FIG. 11, there is a direct-type machine translation system for dictionary lookup of words and translated words. This is from the 1950s
Research and development took place in the 1960s. The translation processing technology at this stage analyzes the source sentence, recognizes a word or a set of a few words in the source sentence as a unit, and performs replacement from the source language to the target language in the recognized unit. ,
Finally, rearrange the sentences by rearranging the order of these units. At this time, the unit of recognition is of such a degree that it can be treated as equivalent to one word. Therefore, the translation process at this time is called word-to-word translation. The content of recognition is about parts of speech and extremely simple grammatical functions. Therefore, it is not much different from translating a word in the original sentence into a translated word. Such a translation processing method is called direct translation.

【0004】この時期の機械翻訳システムが辞書にもっ
ていた単語の数はせいぜい数百くらいまでであり、か
つ、辞書の内容も極めて単純であった。そのため、文法
情報以外に語の出現頻度を使うことも考えられた。ま
た、翻訳処理を簡単化するために、後で述べるピボット
方式も考えられた。
At this time, the number of words that the machine translation system had in the dictionary was at most several hundreds, and the contents of the dictionary were extremely simple. Therefore, it was considered to use the frequency of appearance of words in addition to grammatical information. In order to simplify the translation process, a pivot method described later has been considered.

【0005】機械翻訳システムを使うという観点から
は、翻訳処理がしやすいように原文を人間が修正する前
編集、及び訳文における誤りや不十分な点を人間が修正
する後編集が考えられた。このように、今日に見られる
機械翻訳システムの処理方法及び利用方法に関する基本
的な考え方のほとんどは、既にこの時期に考えられてい
た。
[0005] From the viewpoint of using a machine translation system, pre-editing in which a human corrects an original sentence so as to facilitate translation processing, and post-editing in which a human corrects an error or an insufficient point in a translated sentence have been considered. As described above, most of the basic ideas regarding the processing method and the use method of the machine translation system which are seen today were already considered at this time.

【0006】第二段階の機械翻訳システムとしては、図
12に示すような、文書の構文変換(文法解析と言語生
成)をするトランスファ方式の機械翻訳システムと、図
13に示すような、中間言語を使って翻訳するピボット方
式の機械翻訳システムがある。これらは、1960年代〜19
70年代に研究開発が行なわれた。この段階の翻訳処理技
術は、1950年代の終わりに米国MITの言語学者N.Chom
skyにより提案された変形生成句構造文法理論という言
語理論及びそれに基づく構文解析法に基礎をおいてい
る。すなわち、原文を文法的に解析した結果を構文構造
表現として表し、その構文構造表現を翻訳先言語と構文
構造表現に変換し、変換された構文構造表現から訳文を
作り上げる。このように、構文構造表現という間接的な
中間表現を経由して翻訳するため、このような翻訳処理
の方法を間接翻訳と呼ぶ。すなわち、第二段階の機械翻
訳技術は、第一段階の語の置き換えという単純なものと
は異なり、文の構造を解析するものである。したがっ
て、言語データとしても、辞書だけでなく構造に関する
文法も使うようになった。
[0006] The machine translation system in the second stage is shown in FIG.
A transfer-type machine translation system that performs document syntax conversion (grammar analysis and language generation) as shown in Fig. 12,
As shown in FIG. 13, there is a pivot type machine translation system that translates using an intermediate language. These are from the 1960s to 19
Research and development took place in the 1970s. This stage of translation processing technology was introduced by the MIT linguist N. Chom in the late 1950s.
It is based on the linguistic theory of transformation-producing phrase structure grammar theory proposed by sky and the parsing method based on it. That is, the result of grammatically analyzing the original sentence is represented as a syntax structure expression, the syntax structure expression is converted into a target language and a syntax structure expression, and a translated sentence is created from the converted syntax structure expression. As described above, since the translation is performed via an indirect intermediate expression called a syntax structure expression, such a translation processing method is called indirect translation. That is, the second-stage machine translation technology analyzes the structure of a sentence, unlike the simple one of the first-stage word replacement. Therefore, as language data, not only dictionaries but also grammars related to structures have been used.

【0007】構文構造表現は言語の文法的特性に依存し
ており、同一の内容を表す文であっても言語が異なれば
それぞれ文の構文構造表現も異なってくる。そのため、
翻訳するには、構文構造表現の変換が必要となる。した
がって、このような翻訳処理の方式をトランスファ方式
と呼ぶ。
[0007] The syntax structure expression depends on the grammatical characteristics of the language, and even if the sentences have the same contents, the syntax structure expression of the sentence will be different if the language is different. for that reason,
Translation requires a conversion of the syntax expression. Therefore, such a translation processing method is called a transfer method.

【0008】これに対して、構文構造表現の代わりに言
語の特性に依存しない一つの表現手段を設定し、その表
現手段を使って記述した中間表現から変換という処理を
経ないで直接的に訳文を作り出す翻訳処理の方式をピボ
ット方式(中間言語方式)と呼ぶ。また、そのような表
現手段を与える記述言語をピボット言語と呼ぶ。ピボッ
ト言語としては、構文的な情報を表すもの、意味的な情
報を表すものなどのいろいろな種類がある。ピボット方
式の翻訳処理も、中間表現という間接的な表現を経由し
て翻訳するため、間接翻訳の一種である。
On the other hand, instead of the syntax structure expression, one expression means independent of the language characteristics is set, and the translated expression is directly converted from the intermediate expression described using the expression means without conversion. Is called a pivot method (intermediate language method). A description language that provides such an expression means is called a pivot language. There are various types of pivot languages, such as those representing syntactic information and those representing semantic information. The pivot type translation process is also a type of indirect translation because translation is performed via an indirect expression called an intermediate expression.

【0009】ダイレクト方式、トランスファ方式、ピボ
ット方式の何れも、70%以上の翻訳結果を得るには、基
本語辞書、専門用語辞書やユーザ辞書を充実したり、文
法ルールを充実させるなどの必要がある。これらの翻訳
方式ではシステムの構築にかなりの困難があり、システ
ムが複雑で大規模になるにもかかわらず、完全な翻訳は
難しく、人間による後編集などの修正作業が必要にな
り、100%の完全翻訳は依然として達成されない。そこ
で、最近では、従来の方式と異なった翻訳方式が見直さ
れてきた。コンピュータの高速化、記憶装置の大容量化
により、大量の例文をデータベースに記憶しておき、原
文に一致または類似する例文を検索し、対訳文を利用し
て翻訳することが可能になってきた。この例文データベ
ースを利用する翻訳方式の例としては、特開平8-221422
号公報、佐藤理史著「アナロジーによる機械翻訳」(19
97年4月共立出版株式会社発行)、長尾真編「岩波講座
ソフトウエア科学15自然言語処理」(1996年4月株式会
社岩波書店発行)、長尾真・牧野武則編著「コンピュー
タで翻訳する」(1995年2月共立出版株式会社発行)に
記載されたものなどがある。
[0009] In any of the direct method, transfer method, and pivot method, in order to obtain a translation result of 70% or more, it is necessary to enrich the basic word dictionary, the technical term dictionary, the user dictionary, and the grammar rules. is there. With these translation methods, there are considerable difficulties in constructing the system, and despite the complexity and scale of the system, complete translation is difficult, requiring human post-editing and other corrections, and 100% Full translation is still not achieved. Therefore, recently, a translation method different from the conventional method has been reviewed. With the speeding up of computers and the increase in capacity of storage devices, it has become possible to store a large amount of example sentences in a database, search for example sentences that match or resemble the original sentence, and translate them using bilingual sentences. . Japanese Patent Application Laid-Open No. 8-221422 describes an example of a translation method using this example sentence database.
Issue, Satoshi Sato, "Machine Translation by Analogy" (19
April 1997, published by Kyoritsu Shuppan Co., Ltd.), Makoto Nagao, "Iwanami Koza Software Science 15 Natural Language Processing" (published by April, 1996, Iwanami Shoten Co., Ltd.), edited by Makoto Nagao and Takenori Makino, "Translate by Computer" ( Published by Kyoritsu Shuppan Co., Ltd. in February 1995).

【0010】例文利用翻訳の第1の例は、特開平8-2214
22号公報に開示された、一文一致により翻訳する機械翻
訳システムである。この機械翻訳システムは、図14に示
すように、機械翻訳装置が、通信ネットワークに接続さ
れた対訳データベースを検索して、一致する文があれば
その訳文を取り出して翻訳文とするものである。
A first example of the translation using example sentences is disclosed in Japanese Patent Application Laid-Open No. Hei 8-2214.
No. 22 discloses a machine translation system for translating by matching one sentence. In this machine translation system, as shown in FIG. 14, a machine translation apparatus searches a bilingual database connected to a communication network, and if there is a matching sentence, extracts the translated sentence to obtain a translated sentence.

【0011】例文利用翻訳の第2の例は、<パターン翻
訳>とよばれる、対訳パターンによる翻訳方式である。
「詳細が知りたい場合は第3章を見てください。」とい
う原文に対して、“Refer to Chapter 3 for the detai
ls.”という訳文の関係を、対訳パターンとして登録す
る。「<X>が知りたい場合は<Y>を見てください」という
文に対して、“Refer to <Y> for <X>.”という訳文を
出力するようにする。<X>と<Y>は、いろいろな表現が入
る変数部分である。<X>や<Y>の部分にどんな言葉が入っ
ても、“Refer to <Y> for <X>.”という訳文を出力で
きるようになる。類似する翻訳が数多く現れる場合には
効率的である。
A second example of the translation using example sentences is a translation method using a bilingual pattern, which is called <pattern translation>.
“Refer to Chapter 3 for the detai” for the original text “For more information, see Chapter 3.”
ls. ”is registered as a bilingual pattern. For the sentence“ If you want to know <X>, see <Y> ”,“ Refer to <Y> for <X>. ” Is output. <X> and <Y> are variable parts that contain various expressions. No matter what word you enter in the <X> or <Y> part, you will be able to output the translated text "Refer to <Y> for <X>." It is efficient when many similar translations appear.

【0012】例文利用翻訳の第3の例は、用例に基づく
翻訳あるいは実例型機械翻訳(Example-Based Machine
Translation;EBMT)と呼ばれるものである。これ
は、1980年代半ばに提案された手法であるが、実際に計
算機上に実現されたのは1980年代の終わりごろである。
用例に基づく翻訳とは、あらかじめ翻訳された「翻訳
対」を用意して、その中からよく似た文を手本として、
翻訳を行なおうとするものである。しかし、一文まるご
とがよく似た文であることはあまりないから、文の一部
分であっても、それとよく似た部分を用例から見つけ
て、それをもとに翻訳しようとしている。このとき、翻
訳は、単なる単語の置き換えではなく、その単語が用い
られている環境に大きく左右されるから、どの部分を、
翻訳に意味のあるひとつの単位として認定し、部分訳と
して利用するか、また、どの程度似ているのかを判定す
る類似度の定義が、大きな課題となっている。
A third example of the translation using an example sentence is a translation based on an example or an example-based machine translation.
Translation; EBMT). This was a method proposed in the mid-1980s, but was actually implemented on a computer in the late 1980s.
Example-based translation means that a translated "translation pair" is prepared in advance, and similar sentences are used as examples.
It is intended to be translated. However, since the whole sentence is not very similar, even if it is a part of the sentence, we find a similar part from the example and try to translate it based on it. At this time, the translation is not merely a replacement of the word, but depends largely on the environment in which the word is used.
A major issue is to define whether similarity is recognized as a meaningful unit for translation and used as a partial translation, and how similarity is determined.

【0013】現在、日本国内だけでも既に10種以上の機
械翻訳システム(Machine Translation、略してMT)
がユーザに提供されている。数年前までシステムの多く
は、数百万円もするワークステーションの上で稼働する
高価なものであった。そのためユーザは、翻訳会社や企
業の翻訳部門など大規模な文書の翻訳を行なうオフィス
に限られていた。しかし最近ではパソコンの上で稼働す
るシステムが販売されるようになり、またパソコンネッ
トで機械翻訳のサービスがなされるなど、個人ユーザが
増えてきている。
At present, there are already 10 or more machine translation systems (Machine Translation, MT for short) in Japan alone.
Is provided to the user. A few years ago, many systems were expensive running on workstations that cost millions of yen. Therefore, users are limited to offices that translate large documents, such as translation companies and translation departments of companies. Recently, however, the number of personal users is increasing, as systems running on personal computers have been sold, and machine translation services have been provided on personal computer nets.

【0014】[0014]

【発明が解決しようとする課題】従来の機械翻訳システ
ムは、複雑な構文解析をして翻訳をするものか、大量の
例文をあらかじめ用意しておいて翻訳するものであった
ために、大規模なシステムを構築する必要があり、翻訳
のコストと時間がかかった。または、小規模なシステム
で翻訳するものは、実用的な翻訳文を作成することが困
難であり、翻訳文の修正作業が負担となっていた。
A conventional machine translation system translates by performing a complicated syntax analysis or prepares and translates a large number of example sentences in advance. A system had to be built, which was costly and time consuming to translate. Alternatively, it is difficult to create a practical translation for a translation using a small-scale system, and the work of correcting the translation is a burden.

【0015】また、用例データベースを利用する翻訳に
おいても、実用的な翻訳を行なうためには百万程度の文
例を用意する必要がある。従来の用例データのひとつ
の、英国のバーミンガム大学と辞書出版のコリンズ社と
の共同で作成した「バーミンガムコーパス」は、1960年
代のイギリス英語の、特に社会科学を中心とした約27万
例のデータから始まって現在では2億語のコーパスとな
っている。James Murray氏を中心にして50年の歳月をか
けて作成した「オックスフォード・ディクショナリ」に
は、500万の用例データがある。しかし、両方とも自然
科学、医学、バイオ、原子力、情報、航空、宇宙分野な
どの用例データはほとんど含まれていない。専門分野の
翻訳を行なうにはそれぞれの分野の用例データを大量に
用意しなければならない。
[0015] In the translation using the example database, it is necessary to prepare about one million sentence examples in order to perform practical translation. The Birmingham Corpus, created in collaboration with the University of Birmingham in the United Kingdom and Collins Publishing, a dictionary publishing system, is one of the traditional example data. Since then, it has become a corpus of 200 million words. The Oxford Dictionary, created by James Murray over the course of 50 years, has 5 million example data. However, both contain little example data from the natural sciences, medicine, biotechnology, nuclear power, information, aviation, and space. In order to translate a specialized field, a large amount of example data in each field must be prepared.

【0016】[0016]

【課題を解決するための手段】上記の課題を解決するた
めに、本発明では、用例データベースと辞書データベー
スと、完全一致文翻訳手段と、類似用例翻訳手段と、文
分割手段と、分割文完全一致文翻訳手段と、分割文類似
用例翻訳手段と、新規文翻訳手段と、を設けて、以前に
翻訳した文と同一か類似の文は用例データベースを利用
して翻訳することにより、簡単な構成で高速に統一のと
れた翻訳を行なえるようにする。また、用例データベー
スと辞書データベースを利用する全文後編集手段を設け
て、人間による後編集が容易にできるようにする。
In order to solve the above-mentioned problems, according to the present invention, an example database, a dictionary database, a perfect matching sentence translating means, a similar example translating means, a sentence dividing means, and a divided sentence perfecting means are provided. By providing a matching sentence translating unit, a segmented sentence similar example translating unit, and a new sentence translating unit, a sentence that is the same as or similar to a previously translated sentence is translated using an example database, thereby achieving a simple configuration. To enable fast and consistent translation. In addition, a full-text post-editing means using an example database and a dictionary database is provided so that post-editing by a human can be easily performed.

【0017】用例データベースには、翻訳が完了した原
文と翻訳文を対にした対訳文を自動的に格納し、対訳文
を集積するようにしておく。完全一致文翻訳手段は、原
文と完全に一致する用例を用例データベースから検索し
て、その対訳文を出力する。類似用例翻訳手段は、用例
データベースを検索して、原文と一語ないし数語が不一
致となる例文を抽出し、原文と一致しない用例文の語に
対応する対訳文の語を、原文の語の訳を使って変更する
ことにより翻訳を行なう。文分割手段は、用例データベ
ースを検索して、原文と半分以上の語が一致する例文を
発見できなかった場合に、原文をコンマなどの区切りに
よって分割する。分割文完全一致文翻訳手段は、用例デ
ータベースを検索して、分割原文と完全に一致した例文
の対訳文を出力する。分割文類似用例翻訳手段は、用例
データベースを検索して、分割原文と一語ないし数語が
不一致となる例文を抽出し、分割原文と一致しない用例
文の語に対応する対訳文の語を、分割原文の語の訳を使
って変更することにより翻訳を行なう。新規文翻訳手段
は、用例データベースを検索して分割原文と半分以上の
語が一致する例文を発見できなかった場合に、辞書デー
タベースを検索して、語対語あるいは熟語単位の翻訳を
する。全文後編集手段は、用例データベースを参照して
関連する例文を表示する手段と辞書データベースを参照
して関連する語を表示する手段とを有する。
The example database automatically stores a translated sentence in which the translated original sentence and the translated sentence are paired, and accumulates the translated sentences. The perfect matching sentence translating means searches the example database for an example that completely matches the original sentence, and outputs the bilingual sentence. The similar example translating means searches the example database, extracts an example sentence in which one or a few words do not match the original sentence, and extracts a bilingual sentence word corresponding to the example sentence word that does not match the original sentence into the original sentence word. Perform the translation by making changes using the translation. The sentence dividing means searches the example database and, when it cannot find an example sentence in which more than half of the words match the original sentence, divides the original sentence by a comma or the like. The divided sentence perfect matching sentence translating means searches the example database and outputs a bilingual sentence of an example sentence that completely matches the divided original sentence. The divided sentence similar example translation unit searches the example database, extracts an example sentence in which one or a few words do not match the divided original sentence, and extracts a bilingual sentence corresponding to the example sentence that does not match the divided original sentence, The translation is performed by changing the translation of the words of the original segment. The new sentence translating means searches the example database and finds no example sentence in which more than half of the words match the divided original sentence, searches the dictionary database and translates word-by-word or idiom units. The full-text post-editing means includes means for displaying a related example sentence with reference to the example database and means for displaying a related word with reference to the dictionary database.

【0018】専門分野の用例データについては、その分
野のマニュアルや用語辞典などで対訳があるものを入力
して作成しておく。
The example data of a specialized field is prepared by inputting a bilingual manual or a term dictionary in the field.

【0019】[0019]

【発明の実施の形態】本発明の請求項1記載の発明は、
翻訳すべき原文章を入力する入力装置と、入力された原
文章を文単位に切り出し原文を出力する一文切出手段
と、辞書データベースおよび例文とその対訳文を対にし
て記憶した用例データベースからなるデータベース部
と、用例データベースを検索して原文と完全に一致した
例文の対訳文を出力する完全一致文翻訳手段と、用例デ
ータベースを検索して原文と一部不一致となる例文を抽
出し、その対訳文を原文に従って変更することにより翻
訳を行なう類似用例翻訳手段と、用例データベースを検
索して原文と所定率以上一致する例文を発見できなかっ
た場合に、原文を所定の規則に従って分割する文分割手
段と、用例データベースを検索して分割原文と完全に一
致した例文の対訳文を出力する分割文完全一致文翻訳手
段と、用例データベースを検索して分割原文と一部不一
致となる例文を抽出し、その対訳文を分割原文に従って
変更することにより翻訳を行なう分割文類似用例翻訳手
段と、用例データベースを検索して分割原文と所定率以
上一致する例文を発見できなかった場合に、辞書データ
ベースを検索して翻訳する新規文翻訳手段と、分割原文
のそれぞれの翻訳文を組み立てて原文の翻訳文を出力す
る分割翻訳文組立手段と、を具備する類似用例翻訳シス
テムであり、以前に翻訳した原文に対しては同じ翻訳文
が出力されるので、高速に統一した翻訳ができるという
作用を有する。
BEST MODE FOR CARRYING OUT THE INVENTION
An input device for inputting an original sentence to be translated, one sentence extracting means for cutting out the input original sentence in units of sentences and outputting the original sentence, and a dictionary database and an example database storing example sentences and their parallel translations in pairs. A database part, a perfect-matching sentence translating means for searching the example database and outputting a bilingual sentence of an example sentence that completely matches the original sentence, and extracting an example sentence that partially matches the original sentence by searching the example database and translating the translated sentence Similar example translating means for performing translation by changing the sentence according to the original sentence, and sentence dividing means for dividing the original sentence according to a predetermined rule when an example database is searched and an example sentence that matches the original sentence by a predetermined rate or more cannot be found. A sentence translation unit that searches the example database and outputs a bilingual sentence of an example sentence that completely matches the divided original sentence; To extract an example sentence that is partially inconsistent with the divided original sentence, and to translate the translated sentence by changing the translated sentence according to the divided original sentence. When a matching example sentence cannot be found, a new sentence translating means for searching and translating a dictionary database, a divided translation assembling means for assembling each translated sentence of the divided original sentence and outputting a translated sentence of the original sentence, This is a similar example translation system having the following feature. The same translated sentence is output to the previously translated original sentence.

【0020】本発明の請求項2記載の発明は、請求項1
記載の類似用例翻訳システムにおいて、用例データベー
スを参照して関連する例文を表示する手段と辞書データ
ベースを参照して関連する語を表示する手段とを有する
全文後編集手段を設けたものであり、用例を参照しなが
ら後編集ができるので、翻訳文の修正が容易になるとい
う作用を有する。
The second aspect of the present invention is the first aspect.
In the similar example translation system described above, a full-text post-editing means having means for displaying a related example sentence by referring to an example database and means for displaying a related word by referring to a dictionary database is provided. Since the post-editing can be performed while referring to the translation, the translation sentence can be easily corrected.

【0021】以下、本発明の実施の形態を図1〜図10を
参照しながら詳細に説明する。
Hereinafter, embodiments of the present invention will be described in detail with reference to FIGS.

【0022】(第1の実施の形態)本発明の第1の実施
の形態は、用例データベースから原文と完全に一致する
用例を検索して、その対訳文を訳文とし、完全一致の例
文がない場合は、1語ないし数語が一致しない例文を検
索して、その対訳文を変更して訳文とし、原文と半分以
上の語が一致する例文がない場合は、原文をコンマなど
の位置で分割し、分割原文について用例データベースを
検索し、分割原文と完全に一致する用例があればその対
訳文を訳文とし、完全一致の例文がない場合は、1語な
いし数語が一致しない例文を検索して、その対訳文を変
更して訳文とし、分割原文と半分以上の語が一致する例
文がない場合は、語単位または熟語単位で辞書データベ
ースを検索して訳語を出力する、類似用例翻訳システム
である。
(First Embodiment) In a first embodiment of the present invention, an example that completely matches the original sentence is searched from the example database, and the translated sentence is used as a translated sentence, and there is no example sentence that is completely matched. In this case, search for an example sentence that does not match one or a few words, change the bilingual sentence to a translated sentence, and if there is no example sentence that matches the original sentence with more than half the words, split the original sentence at a position such as a comma Then, the example database is searched for the divided original text, and if there is an example that completely matches the divided original text, the translated text is used as the translated sentence. If there is no exact matched example sentence, the example sentence that does not match one or several words is searched. If the translated sentence is changed to a translated sentence, and there is no example sentence in which more than half the words match the divided original sentence, a similar example translation system that searches the dictionary database for each word or phrase and outputs the translated word. is there.

【0023】以下、図1〜図8を参照して第1の実施の
形態を説明する。図1は、本発明の第1の実施の形態の
類似用例翻訳システムの装置構成図である。
Hereinafter, the first embodiment will be described with reference to FIGS. FIG. 1 is an apparatus configuration diagram of a similar example translation system according to the first embodiment of this invention.

【0024】入力装置1は、キーボード、OCRなどの
入力手段を介して、翻訳すべき原文章を入力するもので
ある。フロッピーディスクなどの記録媒体から入力して
もよいし、LAN、FAXなどの通信手段を介して入力
してもよい。入力バッファー2は、入力された原文章を
格納するものである。一文切出ルールテーブル3は、入
力バッファー2に入力された原文章から1文を切り出す
際に参照される。編集バッファー4は、切り出された1
分を格納するものである。出力装置11は、翻訳文を出力
するものである。出力手段はLANなどの通信手段でも
よいし、ディスクなどの記憶手段でもよい。置換ルール
テーブル5は、原文と例文の不一致の単語や熟語などを
置換するための規則を格納した表である。文分割ルール
テーブル6は、文を分割するための規則を格納した表で
ある。CPU10は、演算手段と主記憶手段を有し、検索
や翻訳処理を行なう処理手段である。
The input device 1 inputs an original sentence to be translated via input means such as a keyboard and an OCR. The information may be input from a recording medium such as a floppy disk, or may be input via communication means such as a LAN and a facsimile. The input buffer 2 stores the input original text. One sentence extraction rule table 3 is referred to when one sentence is extracted from the original sentence input to input buffer 2. The editing buffer 4 contains the extracted 1
It stores the minutes. The output device 11 outputs a translation. The output unit may be a communication unit such as a LAN or a storage unit such as a disk. The replacement rule table 5 is a table storing rules for replacing words and idioms that do not match the original sentence and the example sentence. The sentence division rule table 6 is a table that stores rules for dividing a sentence. The CPU 10 is a processing unit that includes a calculation unit and a main storage unit and performs search and translation processing.

【0025】データベース部7は、用例データベース部
8と辞書データベース部9とからなる。用例データベー
ス部8は、例文とその対訳文を対にして記憶している。
1文ごとに構文解析データを記憶しておき、原文の1語
または熟語が訳文のどの部分に対応するかがすぐにわか
るようにしておく。慣用表現などで、原文と訳文の単語
の間に対応が取れないような場合は、対応関係は不明と
しておく。このような文は、単語が変わることはないの
で、実用上の障害はない。
The database section 7 comprises an example database section 8 and a dictionary database section 9. The example database section 8 stores an example sentence and its translation in pairs.
The syntactic analysis data is stored for each sentence so that it can be immediately known to which part of the translated sentence a word or idiom of the original sentence corresponds. If there is no correspondence between the words in the original sentence and the translated sentence due to idiomatic expressions, the correspondence is left unclear. In such a sentence, there is no practical obstacle because the words do not change.

【0026】例文は、例えば文字コードのハッシュ値を
キーとして記憶しておく。対訳文は、1つの例文に複数
あってもよい。1語ずつをポインタでリンクした木構造
のデータとして記憶しておいてもよい。あるいは、リレ
ーショナルデータベースとして格納しておけば、検索が
容易にできる。
The example sentence is stored, for example, using a hash value of a character code as a key. A plurality of bilingual sentences may be present in one example sentence. Each word may be stored as tree-structured data linked by a pointer. Alternatively, if the information is stored as a relational database, the search can be easily performed.

【0027】すべての例文のすべての単語を抽出して、
単語辞書を作成し、各単語がどの例文のどの位置にある
かという索引を作成しておく。全文検索の手法を使っ
て、部分的に単語が一致する例文を高速に検索できるよ
うにしておく。単語辞書を圧縮辞書として例文を圧縮す
れば、ディスク装置や主記憶装置を小型にできる。対訳
文についても、圧縮辞書を使って圧縮することができ
る。
Extracting all words of all example sentences,
A word dictionary is created, and an index is created in which each sentence is located in which example sentence. By using a full-text search method, it is possible to search for example sentences that partially match words at high speed. By compressing the example sentences using the word dictionary as a compression dictionary, the disk device and the main storage device can be reduced in size. A bilingual sentence can also be compressed using a compression dictionary.

【0028】各例文に技術分野などの分野のデータを付
与しておく。
Each example sentence is given data in a field such as a technical field.

【0029】辞書データベース9は、単語辞書とColloc
ation辞書とIdiom辞書からなる。単語辞書は、通常の英
和辞書とほぼ同じものである。Collocation辞書とIdiom
辞書は、連語、慣用句、熟語を収めた辞書である。
The dictionary database 9 includes a word dictionary and Colloc
It consists of an ation dictionary and an Idiom dictionary. The word dictionary is almost the same as a normal English-Japanese dictionary. Collocation dictionary and Idiom
The dictionary is a dictionary containing collocations, idioms, and idioms.

【0030】図2は、一文翻訳の手順を示すフローチャ
ートである。図2に従って、一文翻訳の各機能手段と処
理手順を説明する。 (1)一文切出手段 まず、一文切出ルールテーブルを参照して、原文章から
所定の規則に従って一文を切り出す。通常は、英文の場
合ピリオドを区切りとして切り出す。その他、コロンや
セミコロンや括弧も文の区切りとしてもよい。コロンな
どで一文として切り出すか、コロンなどは文分割の際に
切る区切りとするかは、対象の文章の種類などに応じて
決める。 (2)用例データベース検索手段 切り出した文について、ハッシュ法か全文検索法によ
り、用例データベースを検索し、完全一致の例文を探
す。例えば、原文の文字コードのハッシュ値を求めて、
それをキーとして用例データベースを検索する。100%
一致した例文が発見できた場合は、対訳文を完全一致文
翻訳手段に出力する。この段階で部分一致の例文をすべ
て抽出してもよいが、部分一致の例文を検索する処理量
は、完全一致の例文を検索する処理量に比較して格段に
多いので、完全一致の例文の検索のみを行なったほうが
無駄が少ない。 (3)完全一致文翻訳手段 原文と完全に一致した例文の対訳文を出力する。複数の
対訳文があれば、すべて翻訳文の候補として出力する。
その際に、直前に登録された翻訳文に最も高い点数を付
与し、最も過去に登録された翻訳文に最も低い点数を付
与して出力する。また、技術分野の関連度を付けてお
き、関連度の高い翻訳文を優先して出力する。例えば、
情報処理分野は電気分野と関連度が高く、化学分野とは
関連度が低いとする。 (4)一致語マトリクス作成手段 完全一致文が発見できなかった場合は、再び全文検索法
などにより、用例データベースを検索する。その結果を
図3の一致語マトリクスにして出力する。
FIG. 2 is a flowchart showing the procedure for translating one sentence. With reference to FIG. 2, each functional means and processing procedure of one-sentence translation will be described. (1) One sentence extraction unit First, one sentence is extracted from an original sentence according to a predetermined rule with reference to a one sentence extraction rule table. Normally, English text is cut out using a period as a delimiter. In addition, colons, semicolons and parentheses may be used as sentence delimiters. Whether to cut out a sentence with a colon or the like or to separate a colon or the like at the time of sentence division is determined according to the type of the target sentence. (2) Example database search means For the cut-out sentence, an example database is searched by a hash method or a full-text search method, and an example sentence that matches perfectly is searched. For example, find the hash value of the character code of the original text,
The example database is searched using that as a key. 100%
If a matched example sentence is found, the bilingual sentence is output to the completely matched sentence translating means. At this stage, all the partial sentence example sentences may be extracted, but the processing amount of searching for the partial match example sentence is much larger than the processing amount of searching for the perfect match example sentence. Performing only the search is less wasteful. (3) Perfectly matched sentence translation means Outputs a bilingual sentence of an example sentence that completely matches the original sentence. If there are a plurality of parallel translations, all are output as translation candidates.
At this time, the highest score is given to the translation sent immediately before, and the lowest score is given to the translation sent most recently. In addition, the degree of relevance in the technical field is added, and a translation with a high degree of relevance is output with priority. For example,
It is assumed that the information processing field has a high degree of relevance to the electrical field and has a low degree of relevance to the chemical field. (4) Matching word matrix creating means If a perfect matching sentence cannot be found, the example database is searched again by the full-text search method or the like. The result is output as a match word matrix in FIG.

【0031】原文の各単語について、用例データベース
を検索し、一致する単語を含む例文を抽出し、対応する
単語の位置に合わせて、例文を記入して行く。どのよう
な検索手法を用いても可能であるが、単語辞書索引を予
め作成して検索する全文検索方法が高速である。このマ
トリクスは、一語のみ一致する例文まですべて記入して
作成すると無駄が多くなるので、一致率が所定値以上の
例文のみとするか、一致率の大きい上位の所定数の例文
のみとするのがよい。所定値をいくらにするかは、用例
データベースの大きさなどにより決める。図3の例で
は、入力原文に対して例文が短いもののみであるが、原
文より長い例文であってもよい。例文をすべてカバーす
る例文のときは、一致率が100%になるが、完全一致で
はないので、類似用例翻訳処理を行なう。
For each word of the original sentence, the example database is searched, an example sentence containing a matching word is extracted, and an example sentence is written in accordance with the position of the corresponding word. Although any search method can be used, a full-text search method in which a word dictionary index is created and searched in advance is fast. If this matrix is created by filling in all the example sentences that match only one word, it is wasteful. Therefore, only the example sentences with a match rate equal to or more than a predetermined value or only the upper number of example sentences with a high match rate are used. Is good. The value of the predetermined value is determined according to the size of the example database. In the example of FIG. 3, the example sentence is shorter than the input sentence, but may be longer than the original sentence. In the case of an example sentence that covers all the example sentences, the matching rate becomes 100%, but it is not an exact match, so a similar example translation process is performed.

【0032】一致語マトリクスに50%以上の一致率の例
文があれば、類似用例翻訳を行なう。50%以上の一致率
の例文がなければ、文分割を行なう。 (5)類似用例翻訳手段 原文と一部不一致となる例文の対訳文を、原文に従って
変更することにより翻訳を行なう。
If there is an example sentence with a matching rate of 50% or more in the matching word matrix, similar example translation is performed. If there is no example sentence with a matching rate of 50% or more, the sentence is segmented. (5) Similar example translation means Translates a bilingual sentence of an example sentence that is partially inconsistent with the original sentence according to the original sentence.

【0033】まず、一致語マトリクスから最も一致率の
高い例文を抽出し、不一致の単語を調べる。置換ルール
テーブルを参照して、数字や記号の不一致、代名詞の不
一致、固有名詞の異なり、動詞の変化形、名詞の複数形
について、違いを見つけたら、辞書を検索して訳語を作
成し、対訳文を変更して出力する。
First, an example sentence having the highest matching rate is extracted from the matching word matrix, and a mismatching word is examined. Refer to the substitution rule table to find differences in numbers and symbols, mismatches in pronouns, differences in proper nouns, variations in verbs, plural forms of nouns, search the dictionary, create translations, and translate. Change the statement and output.

【0034】不一致の1語が単数形と複数形の違いであ
れば、対訳文をそのまま出力する。不一致の1語が数字
であれば、対訳文の対応する数字を原文の数字と入れ替
え、翻訳文を作成する。不一致の1語が記号であれば、
対訳文の対応する記号を原文の記号と入れ替え、翻訳文
を作成する。不一致の1語が主語代名詞であれば、原文
の主語代名詞を翻訳して、対訳文の対応語をそれと入れ
替え、翻訳文を作成する。その他の代名詞の場合もほぼ
同様に翻訳処理する。不一致の1語が固有名詞であれ
ば、原文の固有名詞を翻訳(あるいは音訳)して、対訳
文の対応語をそれと入れ替え、翻訳文を作成する。不一
致の1語が動詞の時制の違いであれば、対訳文の対応す
る動詞の時制を原文の動詞の時制に変えて、翻訳文を作
成する。その他の動詞の変化形についても同様に処理す
る。この処理によって未処理の単語がなければ、翻訳終
了として訳文を出力する。
If the mismatched word is the difference between the singular and the plural, the bilingual sentence is output as it is. If one word that does not match is a number, the corresponding number in the bilingual sentence is replaced with the number in the original sentence to create a translated sentence. If one word that does not match is a symbol,
Replace the corresponding symbol in the bilingual sentence with the symbol in the original sentence, and create a translated sentence. If the one word that does not match is the subject pronoun, the subject pronoun of the original sentence is translated, and the corresponding word of the bilingual sentence is replaced with it to create a translated sentence. In the case of other pronouns, translation processing is performed in substantially the same manner. If the one word that does not match is a proper noun, the proper noun of the original sentence is translated (or transliterated), and the corresponding word of the bilingual sentence is replaced with it, thereby creating a translated sentence. If one of the disagreement words is different in the tense of the verb, the translated sentence is created by changing the tense of the corresponding verb in the bilingual sentence to the tense of the verb in the original sentence. The same applies to other verb variations. If there is no unprocessed word by this process, the translated sentence is output as the end of translation.

【0035】未処理の単語があれば、Collocation辞書
とIdiom辞書を参照して、連語、慣用句、熟語について
訳語を求め、対訳文を変更する。この処理によって未処
理の単語がなければ、翻訳終了として訳文を出力する。
If there is an unprocessed word, a translation is obtained for collocations, idioms, and idioms by referring to the Collocation dictionary and Idiom dictionary, and the bilingual sentence is changed. If there is no unprocessed word by this process, the translated sentence is output as the end of translation.

【0036】未処理の単語があれば、辞書を参照して訳
語を求め、対訳文を変更する。この処理によって未処理
の単語がなければ、翻訳終了として訳文を出力する。未
処理の単語があれば、原語のまま残し、翻訳を終了す
る。
If there is an unprocessed word, a translated word is obtained by referring to the dictionary, and the bilingual sentence is changed. If there is no unprocessed word by this process, the translated sentence is output as the end of translation. If there is an unprocessed word, the original word is left as it is, and the translation ends.

【0037】不完全一致の場合に、対訳文を変更するこ
とにより、不一致語句をすべて翻訳できたときは、完全
一致していない旨を白菱形マークを付して表示する。ま
た、原文の何%の語が例文と一致したかをヒット率で表
示する。
In the case of an incomplete match, if all the unmatched words can be translated by changing the bilingual sentence, the fact that they do not completely match is displayed with a white diamond mark. Also, the percentage of words in the original sentence that matches the example sentence is displayed by the hit rate.

【0038】1文の翻訳が完了するごとに、自動的に原
文とその訳文を1対の対訳文として用例データベースに
格納する。 (6)文分割手段 原文を文分割ルールに従って分割する。文分割は、an
d、that、関係代名詞、カンマ、括弧処理などの部分で
行なう。分割できる語やコンマがない場合は分割不可能
として、文の分割はしない。分割の際に、文の構造を記
憶しておき、訳文の組立てに用いる。関係代名詞、代名
詞、定冠詞を代名詞、名詞、不定冠詞に変換しておき、
訳文の再構成の際にもとに戻せるようにしておく。
Each time the translation of one sentence is completed, the original sentence and its translated sentence are automatically stored in the example database as a pair of translated sentences. (6) Sentence division means The original sentence is divided according to the sentence division rule. Sentence division is an
This is performed in d, that, relative pronouns, commas, parenthesis processing, and the like. If there are no words or commas that can be divided, the sentence is not divided and the statement is not divided. At the time of division, the structure of a sentence is stored and used for assembling a translated sentence. Relative pronouns, pronouns, and definite articles are converted to pronouns, nouns, and indefinite articles,
It should be possible to return to the original when reconstructing the translation.

【0039】分割された各分割文について、一致語マト
リクスを参照して、100%一致する例文があれば、分割
文完全一致文翻訳処理をする。分割文の一致率が50〜99
%であれば、類似用例翻訳と同じ処理をする。分割文の
一致率が49%以下であれば、新規文翻訳の処理をする。
文分割が不可能な場合は新規文翻訳処理となる。 (7)分割文完全一致文翻訳手段 用例データベースを検索して分割原文と完全に一致した
例文の対訳文を出力する。この翻訳処理は完全一致文翻
訳手段と同様である。翻訳文は分割翻訳文組立手段に渡
す。 (8)分割文類似用例翻訳手段 用例データベースを検索して分割原文と一部不一致とな
る例文を抽出し、その対訳文を分割原文に従って変更す
ることにより翻訳を行なう。この翻訳処理は、類似用例
翻訳手段と同様である。翻訳文は分割翻訳文組立手段に
渡す。 (9)新規文翻訳手段 辞書データベースを参照して、連語、慣用句、熟語、単
語の単位で訳語を求め、文法規則に従って並び替え、助
詞などを補って訳文を作成する。この処理によって未処
理の単語がなければ、翻訳終了として訳文を出力する。
辞書にない単語の場合は、原語のまま残し、翻訳を終了
する。訳文の作成が不可能な場合は、訳語または原語を
並べたものを、その旨を表示して出力する。辞書を参照
して単語レベルで翻訳したことを示すために、黒菱形マ
ークを付して出力する。また、同時に例文との一致率で
あるヒット率も表示する。翻訳文は分割翻訳文組立手段
に渡す。 (10)分割翻訳文組立手段 文分割の際の構文データに従って、各分割翻訳文を組み
立て、翻訳文を再構成する。
For each of the divided sentences, if there is an example sentence that matches 100% with reference to the matching word matrix, the sentence is completely translated. Matching rate of split statements is 50 to 99
If it is%, the same processing as the similar example translation is performed. If the matching rate of the divided sentences is 49% or less, a new sentence translation process is performed.
If sentence division is not possible, a new sentence translation process is performed. (7) Split sentence perfect match sentence translation means Searches the example database and outputs a bilingual sentence of an example sentence that completely matches the split original sentence. This translation processing is the same as that of the perfect matching sentence translation means. The translated sentence is passed to the divided translated sentence assembling means. (8) Example of translating a sentence similar to a divided sentence The example database is searched to extract an example sentence that partially disagrees with the divided original sentence, and translation is performed by changing the bilingual sentence according to the divided original sentence. This translation processing is the same as the similar example translation means. The translated sentence is passed to the divided translated sentence assembling means. (9) New Sentence Translation Means Referring to the dictionary database, translations are obtained in units of collocations, idioms, idioms, and words, rearranged according to grammatical rules, and supplemented with particles, etc., to create translated sentences. If there is no unprocessed word by this process, the translated sentence is output as the end of translation.
If the word is not in the dictionary, leave the original language and end the translation. If it is not possible to create a translated sentence, the translated or original words are arranged and displayed to that effect. In order to indicate that the translation was performed at the word level with reference to the dictionary, the information is output with a black diamond mark. At the same time, a hit rate, which is a match rate with the example sentence, is also displayed. The translated sentence is passed to the divided translated sentence assembling means. (10) Split translation sentence assembling means Each split translation is assembled according to the syntax data at the time of sentence splitting, and the translation is reconstructed.

【0040】英語から日本語に翻訳する例を説明する。An example of translating from English to Japanese will be described.

【0041】“She is my sister.”という原文を入力
する場合を考える。ハッシュ値で検索するときは、スペ
ースコードとピリオドを含めたすべての文字コードを加
算してハッシュ値を求め、その値が一致する用例をすべ
て抽出する。その中から、すべての語と語順が一致する
例文を探し、あれば対応する訳文を取り出す。リレーシ
ョナルデータベースの場合は、各語をキーとして、[Sh
e]*[is]*[my]*[sister]という検索式で検索
する。ヒットすれば回答の中から語順が一致するものを
探す。あれば対応する訳文を取り出す。
Consider a case where an original sentence "She is my sister." Is input. When searching by a hash value, a hash value is obtained by adding all character codes including a space code and a period, and all examples having matching values are extracted. From these, search for example sentences whose word order matches all the words, and if so, extract the corresponding translation. In the case of a relational database, [Sh
Search by the search expression e] * [is] * [my] * [sister]. If a hit is found, a search is made for answers that match the word order. If so, retrieve the corresponding translation.

【0042】完全一致の例文がない場合に、部分一致の
例文から翻訳する例を説明する。
An example of translating from an example sentence of partial match when there is no example sentence of perfect match will be described.

【0043】“The blonde girl who is wearing blue
jeans is my sister.”という原文を入力する場合を考
える。用例データベースには“The girl is my siste
r.”と“She is wearing blue jeans.”と“She is my
sister.”が格納されているとする。リレーショナルデ
ータベースの場合は、各語をキーとして、[The]*[b
londe]*[girl]*・・・という検索式で検索する。
ヒットした回答の中から語順が一致するものを探す。単
語辞書索引を予め作成して全文検索を行なう手法を用い
る場合は、原文の各単語について例文の番号を求め、各
単語に共通する例文の番号があれば、その例文について
語順を確認して、一致する例文を抽出する。このように
して用例データベースを検索した結果を、図3の一致語
マトリクスにする。
"The blonde girl who is wearing blue
Consider the case where you enter the original text “jeans is my sister.” The example database contains “The girl is my siste.”
r. "and" She is wearing blue jeans. "and" She is my
sister. ”is stored. In the case of a relational database, [The] * [b
londe] * [girl] *...
Search for answers that match the word order from the hit answers. When using the method of creating a word dictionary index in advance and performing a full-text search, obtain the number of an example sentence for each word of the original sentence, and if there is an example sentence number common to each word, check the word order for the example sentence, Extract matching example sentences. The result of searching the example database in this way is used as the matching word matrix in FIG.

【0044】この例の場合、半分以上の語が一致しない
ので、原文を分割する。“The blonde girl is my sist
er.”と“who is wearing blue jeans”について用例デ
ータベースを検索し、類似文を求める。“who is weari
ng blue jeans”については、“She is wearing blue j
eans.”の対訳文の主語を変更して、部分訳文とする。
“The blonde girl is my sister.”については、“The
girl is my sister.”と“blonde”の1語を除いて一
致するので、辞書を引いて“blonde”の訳語を求め、対
訳文を変更して部分訳文とする。2つの部分訳文を、構
文データに従って結合して訳文とする。
In this example, since more than half of the words do not match, the original sentence is divided. “The blonde girl is my sist
Search the example database for "er." and "who is wearing blue jeans" to find similar sentences.
ng blue jeans ”is“ She is wearing blue j
eans. "is changed to a partial translation.
"The blonde girl is my sister."
"girl is my sister." and one word of "blonde" are matched, so the dictionary is searched for a translation of "blonde", and the bilingual translation is changed to a partial translation. Combine according to the data to create a translation.

【0045】上記のように、本発明の第1の実施の形態
の類似用例翻訳システムでは、過去の翻訳文を用例デー
タベースから検索して利用することにより、簡単な構成
で高速に翻訳文を生成することができる。また、同一原
文に対しては同じ翻訳文を生成するので、翻訳文を統一
することができる。
As described above, in the similar example translation system according to the first embodiment of the present invention, a translation is quickly generated with a simple configuration by retrieving and using past translations from an example database. can do. Also, since the same translated sentence is generated for the same original sentence, the translated sentence can be unified.

【0046】なお、例文の半分以上の単語が原文と一致
しない場合に原文を分割したが、どのような割合のとき
に原文を分割するかは、翻訳の条件に応じて適宜決めれ
ばよい。この割合を任意に指定できるようにしてもよ
い。
Note that the original sentence is divided when more than half of the words of the example sentence do not match the original sentence, but the ratio at which the original sentence is divided may be appropriately determined according to the translation conditions. This ratio may be arbitrarily specified.

【0047】(第2の実施の形態)本発明の第2の実施
の形態は、類似用例翻訳システムに全文後編集手段を設
け、用例データベースを参照して関連する例文を表示す
るとともに、辞書データベースを参照して関連する語を
表示するものである。
(Second Embodiment) In a second embodiment of the present invention, a similar example translation system is provided with a full-sentence post-editing means, and a related example sentence is displayed with reference to an example database, and a dictionary database is displayed. To display related words.

【0048】以下、図9を参照して第2の実施の形態を
説明する。
Hereinafter, the second embodiment will be described with reference to FIG.

【0049】類似用例翻訳システムが、完全一致の対訳
文を発見した場合は、最も最近に登録または参照された
対訳文を原文とともに出力するので、翻訳の適不適をチ
ェックすることができる。適切な翻訳であればそのまま
採用して次に進む。不適切な翻訳であれば、次の候補を
選択する。適切な翻訳がなければ、最も近い翻訳文を候
補として、一部の単語または熟語を修正する。その際
に、単語をキーワードとして用例データベースを検索し
て、複数の翻訳文の候補を表示させることができる。ま
たは、辞書データベースを検索して訳語を見つけて修正
することもできる。あるいは、原文を修正して再度翻訳
させることもできる。
When the similar example translation system finds a completely matched bilingual sentence, the most recently registered or referenced bilingual sentence is output together with the original sentence, so that the suitability of translation can be checked. If it is an appropriate translation, it will be adopted as it is and proceed to the next. If the translation is inappropriate, select the next candidate. If there is no appropriate translation, some words or idioms are corrected with the closest translation as a candidate. At this time, the example database can be searched using the word as a keyword, and a plurality of translation candidates can be displayed. Alternatively, a translation can be found by searching the dictionary database and correcting it. Alternatively, the original text can be corrected and translated again.

【0050】類似用例翻訳システムが、完全一致の対訳
文を発見しなかった場合は、類似文に基づく翻訳文と原
文を、どの部分が不一致であってどのように変更したか
を注記して出力するので、翻訳の適不適を容易にチェッ
クすることができる。不適切な翻訳であれば、完全一致
の場合と同様にして翻訳文の修正を行なう。
If the similar example translation system does not find a completely matched bilingual sentence, the translated sentence based on the similar sentence and the original sentence are output by noting which part is inconsistent and how it was changed. Therefore, the appropriateness of the translation can be easily checked. If the translation is inappropriate, the translated sentence is corrected in the same manner as in the case of perfect matching.

【0051】類似用例翻訳システムが、完全一致の対訳
文も不完全一致の対訳文も発見しなかった場合は、文分
割による翻訳文の複数の候補を原文とともに、どのよう
に翻訳したかを注記して表示するので、それらを参考に
して翻訳文の修正を行なう。この場合の翻訳文は不完全
であることが多いので、用例データベースと辞書データ
ベースを検索しながら、適切な翻訳文を作成して行くこ
とになる。
If the similar example translation system finds neither a completely matched bilingual sentence nor an incompletely matched bilingual sentence, it notes how the plurality of candidate translations by sentence segmentation were translated together with the original sentence. The translation is corrected by referring to them. In this case, since the translated sentence is often incomplete, an appropriate translated sentence is created while searching the example database and the dictionary database.

【0052】いずれの場合も、翻訳文が確定すると、用
例データベースに自動的に格納される。完全一致の対訳
文が採用された場合は、登録日時が更新される。あるい
は、翻訳者や専門分野などの属性情報を付加して、同一
の翻訳文でもすべて登録するようにしてもよい。その他
の場合は、原文と翻訳文と構文データがセットになった
ものが登録され、キーテーブルも更新される。
In any case, when the translated sentence is determined, it is automatically stored in the example database. When a completely matched bilingual sentence is adopted, the registration date and time are updated. Alternatively, attribute information such as a translator and a specialty field may be added, and all the same translated sentences may be registered. In other cases, a set of the original sentence, the translated sentence, and the syntax data is registered, and the key table is also updated.

【0053】(第3の実施の形態)本発明の第3の実施
の形態は、類似用例翻訳システムをインターネットを介
して利用できるようにしたものである。
(Third Embodiment) In a third embodiment of the present invention, a similar example translation system can be used via the Internet.

【0054】以下、図10を参照して第3の実施の形態を
説明する。
Hereinafter, a third embodiment will be described with reference to FIG.

【0055】上記第1と第2の実施の形態の機械翻訳シ
ステムをインターネットを介して利用できるようにした
ものを、図10に示す。機械翻訳サーバを1カ所に設置し
ておき、インターネットを通じて端末機からアクセスし
て翻訳できるようにする。端末機は、インターネットに
アクセスする機能さえあればよいので、どのような端末
からでも、どのようなところからでも、機械翻訳を利用
することができる。
FIG. 10 shows the machine translation system of the first and second embodiments which can be used via the Internet. A machine translation server is set up in one place so that a terminal can access and translate through the Internet. Since the terminal only needs to have a function of accessing the Internet, machine translation can be used from any terminal and from any place.

【0056】[0056]

【発明の効果】本発明は、用例データベースを検索して
完全一致する例文から対訳を求めたり、類似の例文を利
用して翻訳するので、簡単な構成で高速に翻訳すること
ができる。また、以前に翻訳した文を用いるので、重複
した翻訳作業を省くことができるとともに、翻訳文の統
一を図ることができる。
According to the present invention, a translation can be obtained from a completely matching example sentence by searching the example database, or translation can be performed using a similar example sentence. In addition, since a previously translated sentence is used, redundant translation work can be omitted and translated sentences can be unified.

【0057】さらに、後編集の際にも用例データベース
を参照して翻訳文を修正するので、簡単に編集作業がで
きる。
In addition, since the translated sentence is corrected with reference to the example database at the time of post-editing, editing can be easily performed.

【0058】また、インターネットを介して翻訳処理が
できるので、利用者は小型の端末機だけでどこからでも
機械翻訳を利用することができる。
Further, since translation processing can be performed via the Internet, a user can use machine translation from anywhere with only a small terminal.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態の類似用例翻訳シス
テムの機器構成図である。
FIG. 1 is a device configuration diagram of a similar example translation system according to a first embodiment of this invention.

【図2】本発明の第1の実施の形態の一文翻訳処理のフ
ローチャートである。
FIG. 2 is a flowchart of a single sentence translation process according to the first embodiment of this invention;

【図3】本発明の第1の実施の形態で作成する、一部不
一致となる例文の一致語マトリクスである。
FIG. 3 is a matched word matrix of an example sentence that is partially mismatched, which is created in the first embodiment of the present invention.

【図4】本発明の第1の実施の形態の完全一致文翻訳処
理のフローチャートである。
FIG. 4 is a flowchart of a complete matching sentence translation process according to the first embodiment of this invention;

【図5】本発明の第1の実施の形態の類似用例翻訳処理
のフローチャートである。
FIG. 5 is a flowchart of a similar example translation process according to the first embodiment of this invention.

【図6】本発明の第1の実施の形態の文分割処理のフロ
ーチャートである。
FIG. 6 is a flowchart of a sentence division process according to the first embodiment of this invention.

【図7】本発明の第1の実施の形態の新規文翻訳処理の
フローチャートである。
FIG. 7 is a flowchart of a new sentence translation process according to the first embodiment of this invention.

【図8】本発明の第1の実施の形態の分割翻訳文組立処
理のフローチャートである。
FIG. 8 is a flowchart of a divided translation assembly processing according to the first embodiment of this invention.

【図9】本発明の第2の実施の形態のブロック図であ
る。
FIG. 9 is a block diagram of a second embodiment of the present invention.

【図10】本発明の第3の実施の形態のブロック図であ
る。
FIG. 10 is a block diagram of a third embodiment of the present invention.

【図11】従来の直接方式の機械翻訳の概念図である。FIG. 11 is a conceptual diagram of conventional direct machine translation.

【図12】従来のトランスファ方式の機械翻訳の概念図
である。
FIG. 12 is a conceptual diagram of conventional transfer-type machine translation.

【図13】従来のピボット方式の機械翻訳の概念図であ
る。
FIG. 13 is a conceptual diagram of conventional pivot-type machine translation.

【図14】従来の一文一致方式の機械翻訳のブロック図
である。
FIG. 14 is a block diagram of conventional one-sentence matching machine translation.

【符号の説明】[Explanation of symbols]

1 入力装置 2 入力バッファー 3 文切出ルールテーブル 4 編集バッファー 5 置換ルールテーブル 6 文分割ルールテーブル 7 データベース部 8 用例データベース 9 辞書データベース 10 CPU 11 出力装置 DESCRIPTION OF SYMBOLS 1 Input device 2 Input buffer 3 Sentence extraction rule table 4 Editing buffer 5 Replacement rule table 6 Sentence division rule table 7 Database part 8 Example database 9 Dictionary database 10 CPU 11 Output device

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 (1)翻訳すべき原文章を入力する入力
装置と、(2)入力された原文章を文単位に切り出し原
文を出力する一文切出手段と、(3)辞書データベース
および例文とその対訳文を対にして記憶した用例データ
ベースからなるデータベース部と、(4)用例データベ
ースを検索して原文と完全に一致した例文の対訳文を出
力する完全一致文翻訳手段と、(5)用例データベース
を検索して原文と一部不一致となる例文を抽出し、その
対訳文を原文に従って変更することにより翻訳を行なう
類似用例翻訳手段と、(6)用例データベースを検索し
て原文と所定率以上一致する例文を発見できなかった場
合に、原文を所定の規則に従って分割する文分割手段
と、(7)用例データベースを検索して分割原文と完全
に一致した例文の対訳文を出力する分割文完全一致文翻
訳手段と、(8)用例データベースを検索して分割原文
と一部不一致となる例文を抽出し、その対訳文を分割原
文に従って変更することにより翻訳を行なう分割文類似
用例翻訳手段と、(9)用例データベースを検索して分
割原文と所定率以上一致する例文を発見できなかった場
合に、辞書データベースを検索して翻訳する新規文翻訳
手段と、(10)分割原文のそれぞれの翻訳文を組み立て
て原文の翻訳文を出力する分割翻訳文組立手段と、を具
備することを特徴とする類似用例翻訳システム。
1. An input device for inputting an original sentence to be translated, (2) a single sentence extracting means for cutting out the input original sentence in units of sentences and outputting the original sentence, (3) a dictionary database and an example sentence And (4) a perfect matching sentence translating means for searching the example database and outputting a bilingual sentence of an example sentence that completely matches the original sentence, and (5) A similar example translating means for searching the example database to extract an example sentence that is partially inconsistent with the original sentence, and performing translation by changing the bilingual sentence according to the original sentence, and (6) searching the example database for the original sentence and a predetermined ratio. If a matching example sentence cannot be found, a sentence dividing unit that divides the original sentence according to a predetermined rule, and (7) a bilingual translation of an example sentence that completely matches the divided original sentence by searching the example database A sentence translation unit that outputs a sentence, and (8) a search unit that searches the example database to extract an example sentence that is partially inconsistent with the divided original sentence, and performs translation by changing the bilingual sentence according to the divided original sentence. (9) a new sentence translating means for searching and translating a dictionary database when an example sentence that matches the divided original sentence by a predetermined ratio or more cannot be found by searching the example database; A translation unit for assembling each of the divided original sentences to output a translated sentence of the original sentence.
【請求項2】 用例データベースを参照して関連する例
文を表示する手段と辞書データベースを参照して関連す
る語を表示する手段とを有する全文後編集手段を設けた
ことを特徴とする請求項1記載の類似用例翻訳システ
ム。
2. A full-text post-editing means comprising means for displaying a related example sentence by referring to an example database and means for displaying a related word by referring to a dictionary database. A similar example translation system as described.
JP9137425A 1997-05-13 1997-05-13 Similar example translation system Pending JPH10312382A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9137425A JPH10312382A (en) 1997-05-13 1997-05-13 Similar example translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9137425A JPH10312382A (en) 1997-05-13 1997-05-13 Similar example translation system

Publications (1)

Publication Number Publication Date
JPH10312382A true JPH10312382A (en) 1998-11-24

Family

ID=15198338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9137425A Pending JPH10312382A (en) 1997-05-13 1997-05-13 Similar example translation system

Country Status (1)

Country Link
JP (1) JPH10312382A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006012168A (en) * 2004-06-24 2006-01-12 Sharp Corp Method for improving coverage and quality in translation memory system
JP2008065395A (en) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd Translation device, translation method and translation program
JP2008090709A (en) * 2006-10-04 2008-04-17 Yafoo Japan Corp Common translation apparatus
JP2008262587A (en) * 2002-06-28 2008-10-30 Microsoft Corp Example based machine translation system
JP2009245053A (en) * 2008-03-31 2009-10-22 Funai Electric Advanced Applied Technology Research Institute Inc Translation program, translation system, and bilingual data generation method
JP2010515123A (en) * 2006-12-20 2010-05-06 マイクロソフト コーポレーション Chinese banner generation
JP2011022924A (en) * 2009-07-17 2011-02-03 Fuji Xerox Co Ltd Translation device and translation program
CN103189859A (en) * 2010-08-26 2013-07-03 谷歌公司 Conversion of input text strings
JP2014056492A (en) * 2012-09-13 2014-03-27 Nec Corp Translation support device, translation support method, and translation support program
WO2018146864A1 (en) * 2017-02-07 2018-08-16 パナソニックIpマネジメント株式会社 Translation device and translation method
JP2019508824A (en) * 2016-01-11 2019-03-28 陳勇 Voice converter
CN113191162A (en) * 2021-04-21 2021-07-30 零壹人工智能科技研究院(南京)有限公司 Medical translation system based on artificial intelligence AI translation

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262587A (en) * 2002-06-28 2008-10-30 Microsoft Corp Example based machine translation system
JP2006012168A (en) * 2004-06-24 2006-01-12 Sharp Corp Method for improving coverage and quality in translation memory system
JP2008065395A (en) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd Translation device, translation method and translation program
JP2008090709A (en) * 2006-10-04 2008-04-17 Yafoo Japan Corp Common translation apparatus
JP2010515123A (en) * 2006-12-20 2010-05-06 マイクロソフト コーポレーション Chinese banner generation
US8862459B2 (en) 2006-12-20 2014-10-14 Microsoft Corporation Generating Chinese language banners
JP2009245053A (en) * 2008-03-31 2009-10-22 Funai Electric Advanced Applied Technology Research Institute Inc Translation program, translation system, and bilingual data generation method
JP2011022924A (en) * 2009-07-17 2011-02-03 Fuji Xerox Co Ltd Translation device and translation program
JP2013540304A (en) * 2010-08-26 2013-10-31 グーグル・インコーポレーテッド Input text string conversion
CN103189859A (en) * 2010-08-26 2013-07-03 谷歌公司 Conversion of input text strings
US10133737B2 (en) 2010-08-26 2018-11-20 Google Llc Conversion of input text strings
JP2014056492A (en) * 2012-09-13 2014-03-27 Nec Corp Translation support device, translation support method, and translation support program
JP2019508824A (en) * 2016-01-11 2019-03-28 陳勇 Voice converter
WO2018146864A1 (en) * 2017-02-07 2018-08-16 パナソニックIpマネジメント株式会社 Translation device and translation method
JPWO2018146864A1 (en) * 2017-02-07 2019-04-25 パナソニックIpマネジメント株式会社 Translation apparatus and translation method
CN113191162A (en) * 2021-04-21 2021-07-30 零壹人工智能科技研究院(南京)有限公司 Medical translation system based on artificial intelligence AI translation

Similar Documents

Publication Publication Date Title
Hutchins The origins of the translator's workstation
Hutchins Machine translation over fifty years
US5895446A (en) Pattern-based translation method and system
US7565281B2 (en) Machine translation
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
US20050137853A1 (en) Machine translation
US20040254781A1 (en) Machine translation
KR100530154B1 (en) Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system
CA2562366A1 (en) A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
EP1497752A2 (en) Machine translation
JPS62163173A (en) Mechanical translating device
JP2001043236A (en) Synonym extracting method, document retrieving method and device to be used for the same
JPH10312382A (en) Similar example translation system
Wong Example-based machine translation
Meyers et al. A multilingual procedure for dictionary-based sentence alignment
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
Freigang Automation of translation: past, presence, and future
JP3236027B2 (en) Machine translation equipment
JP3972697B2 (en) Natural language processing system, natural language processing method, and computer program
Chorozoglou et al. Review of Parsing in Modern Greek-A New Approach
JPS63109572A (en) Derivative processing system
Tien Machine Translation and Vernacular: Interpreting the Informal
EP1306773A1 (en) Machine translation
EP1306774A1 (en) Machine translation
JPH04130577A (en) Natural language processor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060801

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061017