JP2003122748A - Automatic translation pre-processing system, pre- processing method, program for pre-processing or recording medium in which the same program is recorded - Google Patents

Automatic translation pre-processing system, pre- processing method, program for pre-processing or recording medium in which the same program is recorded

Info

Publication number
JP2003122748A
JP2003122748A JP2001317863A JP2001317863A JP2003122748A JP 2003122748 A JP2003122748 A JP 2003122748A JP 2001317863 A JP2001317863 A JP 2001317863A JP 2001317863 A JP2001317863 A JP 2001317863A JP 2003122748 A JP2003122748 A JP 2003122748A
Authority
JP
Japan
Prior art keywords
term
translation
terms
sentence
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001317863A
Other languages
Japanese (ja)
Inventor
Naoyuki Asaka
尚之 淺香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOKYO THINK SERVICE KK
JNC Corp
Original Assignee
TOKYO THINK SERVICE KK
Chisso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TOKYO THINK SERVICE KK, Chisso Corp filed Critical TOKYO THINK SERVICE KK
Priority to JP2001317863A priority Critical patent/JP2003122748A/en
Publication of JP2003122748A publication Critical patent/JP2003122748A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a pre-processing system, a pre-processing method, a program for the pre-processing for contriving efficient translation by performing automatic pre-processing before applying a Japanese document having terms and codes to inhibit machine translation to the machine translation and for further realizing enhancement of quality or a recording medium in which the same program is recorded. SOLUTION: The pre-processing such as (1) converting terms to inhibit the machine translation, terms having unnecessary phrasing and redundant terms, etc., into brief terms and converting KANA (Japanese syllabary) terms and abbreviated terms into normal KANJI (Chinese character) terms, (2) inserting translation unnecessity control codes into unit codes, codes and Greek characters, etc., (3) inserting control codes for forced sentence division into titles, etc., and complicated long sentences, etc., is performed to the Japanese document having terms, codes and complicated long sentences to inhibit the machine translation by using the automatic pre-processing system. Enhancement of efficiency of a translation work and enhancement of quality of the translation are achieved by applying the pre-processed document to general purpose machine translation.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、プログラム化され
たコンピュ−タによって翻訳を阻害する用語、記号や複
雑な長文を有する日本語文書の自動翻訳前処理システ
ム、前処理方法およびコンピュ−タに前処理させるため
のプログラムもしくは該プログラムを記録した記録媒体
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an automatic translation preprocessing system, a preprocessing method and a computer for a Japanese document having terms, symbols and complicated long sentences that inhibit translation by a programmed computer. The present invention relates to a program for preprocessing or a recording medium recording the program.

【0002】[0002]

【従来の技術】現在、市販されているパソコン用翻訳ソ
フトでは、文章の自動文切り処理はできるが、得られる
翻訳文の質の向上には、殆ど役立っていない。翻訳すべ
き文章の前処理は人による手作業で行われており、大変
な労力と技能を必要とし、特に大量の文書を処理する際
の大きな障害となっている。機械翻訳を阻害する用語、
記号や長文を有する日本語文書を前処理を割愛してその
まま機械翻訳すると、得られる翻訳文の質が著しく悪
く、加筆、修正等の後処理に多大の労力を要する。
2. Description of the Related Art Currently, commercially available translation software for personal computers can perform automatic sentence segmentation processing, but it is hardly useful for improving the quality of translations obtained. The preprocessing of sentences to be translated is performed manually by a person, which requires a great deal of labor and skill, which is a big obstacle especially when processing a large amount of documents. Terms that hinder machine translation,
If a Japanese document having symbols or long sentences is omitted and pre-processed and machine-translated as it is, the quality of the obtained translated sentence is remarkably low, and a great deal of labor is required for post-processing such as correction and correction.

【0003】[0003]

【発明が解決しょうとする課題】本発明の目的は、コン
ピュ−タによって、機械翻訳を阻害する用語、記号や複
雑な長文を有する日本語文書を、機械翻訳に先だって前
処理することにより、多大な労力と技能を必要とせず、
得られる翻訳文の質を向上させることのできる前処理シ
ステム、前処理方法および前処理させるためのプログラ
ムもしくは該プログラムを記録した記録媒体を提供する
ことである。
SUMMARY OF THE INVENTION The object of the present invention is to achieve a great deal by pre-processing a Japanese document having terms, symbols and complicated long sentences that hinder machine translation by a computer, prior to machine translation. Does not require great effort and skill,
It is an object of the present invention to provide a preprocessing system, a preprocessing method, a program for preprocessing, or a recording medium recording the program, which can improve the quality of the obtained translated text.

【0004】[0004]

【課題を解決するための手段】本発明は、ビジュアル
ベ−シック(VB)ツールを用いて前処理用のプログラム
を構築し、機械翻訳に先立って日本語文書をこのプログ
ラムを通して処理する。
SUMMARY OF THE INVENTION The present invention is visual
A program for preprocessing is constructed using a basic (VB) tool, and Japanese documents are processed through this program prior to machine translation.

【0005】具体的には、以下の(1)〜(3)からな
る。 (1)プログラム化されたコンピュ−タによって、機械
翻訳を阻害する用語、記号や複雑な長文を有する日本語
文書を前処理するシステムであって、入力された文書お
よび出力された文書を表示する表示手段と、機械翻訳を
阻害する用語、記号や長文を蓄積したデ−タベ−スと、
該阻害用語に対応する翻訳しやすい用語を蓄積したデ−
タベ−スと、機械翻訳を阻害する用語、記号や長文を蓄
積したデ−タベ−スに基づいて、入力された文書中の機
械翻訳を阻害する用語を検索する第1の検索手段と、該
阻害用語が検索された場合、該阻害用語に対応する翻訳
しやすい用語を蓄積したデ−タベ−スに基づいて、翻訳
しやすい用語に置換する手段と、入力された文書中の記
号を検索するための第2の検索手段と、該記号が検索さ
れた場合、該記号の該当個所に翻訳不要処理の制御コ−
ドを自動挿入する手段と、入力された文書中の長文を検
索する第3の検索手段と、該長文が検索された場合、該
当個所の文章を強制分割処理するための制御コ−ドを自
動挿入する手段と、前処理の終了した文書を出力する手
段、を備えたことを特徴とする自動翻訳前処理システ
ム。
Specifically, it is composed of the following (1) to (3). (1) A system for preprocessing a Japanese document having terms, symbols, and complicated long sentences that obstruct machine translation by a programmed computer, and displays an input document and an output document Display means and database that accumulates terms, symbols and long sentences that hinder machine translation,
Data that accumulates easily translated terms corresponding to the inhibitory term
A table, a first search means for searching a term that inhibits machine translation in an input document based on a database that inhibits machine translation, and a database that accumulates symbols and long sentences; When an inhibitory term is retrieved, a means for substituting the term into an easily translatable term and a symbol in the input document are retrieved based on the accumulated database of the terms easily translated corresponding to the inhibitory term. Second search means for searching and a control code for a translation-unnecessary process at a corresponding position of the symbol when the symbol is searched.
Means for automatically inserting a code, a third searching means for searching a long sentence in an input document, and a control code for forcibly dividing the sentence at the corresponding portion when the long sentence is searched. An automatic translation preprocessing system comprising means for inserting and means for outputting a document for which preprocessing has been completed.

【0006】(2)機械翻訳を阻害する用語、記号や長
文を蓄積したデ−タベ−スおよび該阻害用語に対応する
翻訳しやすい用語を蓄積したデ−タベ−スが構築され、
プログラム化されたコンピュ−タによって、機械翻訳を
阻害する用語、記号や長文を有する日本語文書を前処理
する方法であって、入力された文書および出力された文
書を表示する表示工程と、機械翻訳を阻害する用語、記
号や長文を蓄積したデ−タベ−スに基づいて、入力され
た文書中の機械翻訳を阻害する用語を検索する工程と、
該阻害用語が検索された場合、該阻害用語に対応する翻
訳しやすい用語を蓄積したデ−タベ−スに基づいて、翻
訳しやすい用語に置換する工程と、次いで、入力された
文書中の記号を検索する第2の検索工程と、該記号が検
索された場合、該記号の該当個所に翻訳不要処理の制御
コ−ドを自動挿入する工程と、次いで、入力された文書
中の長文を検索する工程と、長文が検索された場合、該
当個所の文章を強制分割処理するための制御コ−ドを自
動挿入する工程と、前処理の終了した文書を出力する工
程、を含むことを特徴とする自動翻訳前処理方法。
(2) A database that accumulates terms that inhibit machine translation, symbols and long sentences, and a database that accumulates easily translatable terms corresponding to the inhibiting terms are constructed.
A method for preprocessing a Japanese document having a term, a symbol or a long sentence, which inhibits machine translation by a programmed computer, comprising a display step of displaying an input document and an output document, and a machine. A step of retrieving a term that inhibits machine translation in an input document based on a term that inhibits translation, a database that accumulates symbols and long sentences,
When the inhibitory term is searched, a step of replacing the easily translatable term corresponding to the inhibitory term with an easily translatable term, and then a symbol in the input document And a second search step of searching for the symbol, a step of automatically inserting a control code for the translation-unnecessary process at the relevant portion of the symbol when the symbol is searched, and then searching for a long sentence in the input document. And a step of automatically inserting a control code for forcibly dividing the sentence at the relevant position when a long sentence is retrieved, and a step of outputting the document for which preprocessing is completed. Automatic translation preprocessing method.

【0007】(3)機械翻訳を阻害する用語、記号や長
文を蓄積したデ−タベ−スおよび該阻害用語に対応する
翻訳しやすい用語を蓄積したデ−タベ−スが構築された
コンピュ−タを用いて、該コンピュ−タに、機械翻訳を
阻害する用語、記号や長文を有する日本語文書を前処理
させるためのプログラムであって、該プログラムは、コ
ンピュ−タに、機械翻訳を阻害する用語、記号や長文を
蓄積したデ−タベ−スに基づいて、入力された文書中の
機械翻訳を阻害する用語を検索させ、該阻害用語が検索
された場合、該阻害用語に対応する翻訳しやすい用語を
蓄積したデ−タベ−スに基づいて、翻訳しやすい用語に
置換させ、次いで、入力された文書中の記号を検索さ
せ、該記号が検索された場合、該記号の該当個所に翻訳
不要処理の制御コ−ドを自動的に挿入させ、次いで、入
力された文書中の長文を検索させ、長文が検索された場
合、該当個所の文章を強制分割処理するための制御コ−
ドを自動的に挿入させ、前処理の終了した文書を出力さ
せることを特徴とする日本語文書を前処理させるための
プログラムもしくは該プログラムを記録した記録媒体。
(3) A computer database constructed by accumulating terms that inhibit machine translation, symbols and long sentences, and accumulating easily translatable terms corresponding to the inhibiting terms. Is a program for causing a computer to pre-process a Japanese document having a term, a symbol or a long sentence that inhibits machine translation, wherein the program inhibits the machine translation. Based on the database that accumulates terms, symbols and long sentences, search for a term that inhibits machine translation in the input document, and if the inhibiting term is found, translate it corresponding to the inhibiting term. Based on the accumulated database of easy terms, replace them with easy-to-translate terms, then search for the symbol in the input document, and if the symbol is found, translate it to the corresponding part of the symbol. Control of unnecessary processing Automatically injects the, then, to find the long sentence in the input document, if the long sentence has been retrieved, control to enforce division processing sentences relevant sections co -
A program for preprocessing a Japanese document, or a recording medium having the program recorded therein, characterized in that a document is automatically inserted and a preprocessed document is output.

【0008】[0008]

【発明の実施の形態】翻訳を阻害する用語、記号や長文
等の用語は、日本語文書の機械翻訳試験の繰り返しによ
り、大量の試験データから抽出し、統計的に確立の高い
ものをリストアップしてデ−タベ−ス化し、これに基づ
いて自動変換前処理を行わせるものである。勿論これと
平行してユーザー辞書への用語登録の蓄積も必要で、両
者の併用により本発明の目的を達成するものである。
BEST MODE FOR CARRYING OUT THE INVENTION Terms that inhibit translation, terms such as symbols and long sentences are extracted from a large amount of test data by repeating a machine translation test of Japanese documents, and those with a high statistical probability are listed. Then, the data is converted into a database, and the automatic conversion preprocessing is performed based on this. Of course, in parallel with this, it is necessary to store the term registration in the user dictionary, and the use of both will achieve the object of the present invention.

【0009】以下、具体例に基づいて本発明を説明す
る。 <システムの構成>使用するコンピュ−タは、パ−ソナ
ルコンピュ−タで汎用のものを使用すればよい。前処理
用のプログラムは構築用ツールとして、マイクロソフト
(Microsoft)社Visual Basic V.6.0(Professional Edi
tion)を用いて構築することができる。このプログラム
は、コンピュ−タに、機械翻訳を阻害する用語、記号や
長文を蓄積したデ−タベ−スに基づいて、入力された文
書中の機械翻訳を阻害する用語を検索させ、該阻害用語
が検索された場合、該阻害用語に対応する翻訳しやすい
用語を蓄積したデ−タベ−スに基づいて、翻訳しやすい
用語に置換させ、次いで、入力された文書中の記号を検
索させ、該記号が検索された場合、該記号の該当個所に
翻訳不要処理の制御コ−ドを自動的に挿入させ、次い
で、入力された文書中の長文を検索させ、長文が検索さ
れた場合、該当個所の文章を強制分割処理するための制
御コ−ドを自動的に挿入させ、前処理の終了した文書を
出力させることから構成されている。ここで、機械翻訳
を阻害する用語、記号や長文を蓄積したデ−タベ−スお
よび該阻害用語に対応する翻訳しやすい用語を蓄積した
デ−タベ−スは予め用いるコンピュ−タに構築してお
く。
The present invention will be described below based on specific examples. <System Configuration> As the computer to be used, a general-purpose personal computer may be used. The preprocessing program is a Visual Basic V.6.0 (Professional Edition
option). This program causes a computer to search for a term that inhibits machine translation in an input document on the basis of a database that accumulates symbols and long sentences that inhibit machine translation, and Is searched for, the translatable term corresponding to the inhibitory term is replaced with the translatable term based on the accumulated database, and then the symbol in the input document is searched for. When a symbol is searched, a control code for the translation-free process is automatically inserted at the corresponding position of the symbol, and then a long sentence in the input document is searched. When a long sentence is searched, the corresponding position is searched. The control code for forcibly dividing the sentence is automatically inserted, and the document for which the preprocessing is completed is output. Here, terms that inhibit machine translation, databases that accumulate symbols and long sentences, and databases that accumulate easy-to-translate terms corresponding to the inhibiting terms are constructed in advance in a computer. deep.

【0010】本発明において、機械翻訳を阻害する用語
とは、後述の表1に例示した翻訳阻害用語、表2に例示
した不要な言い回し用語、冗長な用語や特許明細書特有
の言い回し用語等を意味し、記号としては単位記号、数
字の付いた記号、ギリシャ文字、数式に使用される等
号、不等号記号加減乗除記号、化学構造式、化学反応式
式等翻訳する必要のないものを意味する。また、長文と
は、特許明細書等の表題や文字通りの複雑な長文を意味
する。また制御コードは使用する翻訳ソフトによって異
なるので使用する翻訳ソフトによって変更することが必
要である。本発明にあっては、具体例で使用した翻訳ソ
フトは、東芝ザ翻訳プロフェッショナルV.6.0を用い
た。
In the present invention, the term that inhibits machine translation includes the term for translation inhibition exemplified in Table 1 below, unnecessary terminology exemplified in Table 2, redundant term and terminology peculiar to patent specification. Means a unit symbol, a numbered symbol, Greek letters, equal signs used in mathematical formulas, inequality sign addition, subtraction, multiplication and division symbols, chemical structural formulas, chemical reaction formulas, etc. that do not need to be translated. . In addition, the long sentence means a complicated long sentence such as a title of a patent specification or the like. Further, since the control code differs depending on the translation software used, it is necessary to change it according to the translation software used. In the present invention, the translation software used in the specific examples is Toshiba The Translation Professional V.6. 6.0 was used.

【0011】<文書例>翻訳を阻害する用語、記号や長
文を有する日本語文書として、公開特許公報の要約を用
いた。これは大量処理が必要で、かつ翻訳阻害用語、不
要な言い回し用語、冗長な用語、また特許特有の言い回
し用語、記号等が非常に多く、このまま機械翻訳して
も、使用に耐える質の翻訳文は得られない。特許公報CD
-ROM等から要約文をダウンロードしたものを使用した。
<Document Example> As a Japanese document having terms, symbols, and long sentences that hinder translation, the abstract of the published patent publication was used. This requires a large amount of processing, and there are a large number of translation-inhibiting terms, unnecessary terminology, redundant terms, and patent-specific terminology, symbols, etc. Can't get Patent Gazette CD
-The one that downloaded the abstract from ROM etc. was used.

【0012】<前処理>公開特許公報の要約文をプログ
ラム化されたコンピュ−タに読み込み、該コンピュ−タ
内に蓄積してある翻訳を阻害する用語、記号や複雑な長
文のデ−タベ−スに基づいて、該文章を検索し、阻害す
る用語が検索された場合には、該用語を予め設定した用
語に自動的に置換させる処理を、また、記号が検索され
た場合には、該記号の該当個所に、翻訳不要処理をする
制御コード(以下、翻訳不要処理コ−ドという)を自動
的に挿入する処理を、さらに、複雑な長文が検索された
場合には、文章の該当個所に文章を強制分割処理するた
めの制御コ−ド(以下、強制文章分割処理コ−ドとい
う)を自動的に挿入する処理をコンピュ−タに行わせ
る。制御コードには、上述の翻訳不要処理コード、強制
文章分割処理コードがあり、該強制文章分割処理コ−ド
には、並列句指定コード、挿入句指定コード等も含まれ
る。この強制文章分割処理コ−ドは、文章分割個所の指
定および特定の文体指定のための制御コードを挿入する
ものである。強制文章分割の目的は、機械翻訳に際し出
来るだけ文章中の句の係りの混乱が少なくなるように、
予め設定した条件に基づいて処理を行うものである。
<Pre-Processing> The abstract sentence of the Japanese Patent Laid-Open Publication is read into a programmed computer, and a database for accumulating words, symbols and complicated long sentences which inhibit the translation accumulated in the computer are read. Based on the text, the sentence is searched, and when a disturbing term is found, a process of automatically replacing the term with a preset term is performed. Also, when a symbol is searched, the process is performed. A process that automatically inserts a control code that does not require translation (hereinafter referred to as a translation-unnecessary processing code) to the relevant part of the symbol, and when a complex long sentence is searched, the relevant part of the sentence A computer is caused to automatically insert a control code for forcibly dividing a sentence (hereinafter referred to as a forced sentence dividing process code). The control code includes the above-mentioned translation unnecessary processing code and the forced sentence division processing code, and the forced sentence division processing code also includes the parallel phrase designation code, the insertion phrase designation code and the like. This compulsory text division processing code inserts a control code for designating a text division location and a specific style. The purpose of compulsory sentence division is to reduce confusion of phrases in sentences as much as possible during machine translation,
The processing is performed based on a preset condition.

【0013】これまでに発行されている特許公報要約文
の標準スタイルは
[0013] The standard styles of patent publication abstracts issued so far are:

【課題】と[Problem] and

【解決手段】からなるが、これ以外にIt consists of, but in addition to this

【課題】と[Problem] and

【解決手段】及びSOLUTION: and

【効果】、【effect】,

【解決手段】と[Solution] and

【効果】、これらの前に全文の付いたもの、項分けがな
く一文のもの等多種類で統一されていない。また表現も
[Effect] These are not unified in many types, such as those with full text in front of them, and those with no sentence division. Also the expression

【目的】【Purpose】

【構成】となっているものもある。このうちThere is also a structure. this house

【課題】文の欠如した要約は[Issue] A summary of missing sentences

【効果】文を[Effect] sentence

【課題】文として差し替えて翻訳するように、強制文章
分割処理コ−ドを挿入する。
PROBLEM TO BE SOLVED: To insert a compulsory sentence division processing code so that a sentence is replaced and translated.

【0014】特許公報要約文に相当する英語版はPAJ(Pa
tent Abstract of Japan)であるが、これは様式が統一
されており、TITLE(発明の名称)、PURPOSE(課題)、
CONSTITUTION(解決手段)で構成されている。また、PU
RPOSE文は、文頭がTo+(動詞の原形)の不定詞で始ま
る文体に統一されている。 強制文章分割処理コ−ドで
この文体指定のための処理を同時に行う。
The English version corresponding to the abstract of the patent publication is PAJ (Pa
tent abstract of Japan), but this has a unified style, TITLE (name of invention), PURPOSE (issue),
It is composed of CONSTITUTION. Also, PU
The RPOSE sentence is unified into a style that begins with the infinitive To + (the original form of the verb). At the same time, the process for designating the style is performed by the compulsory sentence division process code.

【0015】機械翻訳の終了した翻訳文は通常の方法で
後処理を行うが、前述の特許公報要約の様式が特殊であ
るものは手直しが必要である。特に項分けのないもの、
項はあるが文章の欠如したもの、従来の問題点の記述の
みで終わっているもの等については、大幅な手直しが必
要となり、特許公報要約が改善されない限り解決出来な
い問題である。しかし、これらのものを除いた大部分の
特許公報要約については、本発明の前処理を行うことに
より翻訳作業の時間が大幅に改善可能である。
The translated sentence that has been machine-translated is post-processed by a usual method. However, if the above-mentioned summary of the patent publication has a special format, it needs to be reworked. Items that are not classified,
Items that have some paragraphs but are lacking in sentences, and those that only describe the conventional problems, etc., require significant reworking and cannot be solved unless the patent gazette abstract is improved. However, for most of the abstracts of patent publications excluding these, the translation work time can be significantly improved by performing the preprocessing of the present invention.

【0016】機械翻訳を阻害する用語例としては、後述
の表1に例を上げたが、例えば「含有してなる」或いは
「含有されてなる」は機械翻訳に掛けると「含有する」
或いは「含有される」と「なる」の2個の動詞として訳
され、全体の訳文を乱すことになる。勿論それぞれの単
語に対する対応訳語をユーザー辞書に登録すれば良い
が、大量の用語を全て登録するのは非常に効率が悪い。
それぞれ用語の語尾のみを入れ替え出来れば、例えば
「してなる」を「する」に、「されてなる」を「した」
に置換すれば、前処理作業の効率が非常に改善される。
[0016] Examples of terms that inhibit machine translation are given in Table 1 below. For example, "contains" or "contains" means "contains" when subjected to machine translation.
Alternatively, it is translated as two verbs "contained" and "naru", which disturbs the whole translated sentence. Of course, it is only necessary to register the corresponding translated words for each word in the user dictionary, but it is very inefficient to register all the large numbers of terms.
If you can replace only the ending of each term, for example, "do" is changed to "do", and "do" is "do"
If replaced with, the efficiency of the pretreatment work is greatly improved.

【0017】<不要な言い回し用語例>後述の表2、表
3に例を上げたが、例えば「溶融金属を浸透させる方法
であることとした複合材料の製造方法」は「The manufa
cturing method of the composite material it was pr
esupposed that it is the method of infiltrating mo
lten metal 」となり無意味な訳文となってしまう。こ
れを「であることとした」を「からなる」に置き換える
と「The manufacturing method of the composite mate
rial which constitutes the method of infiltrating
a molten metal」のように簡明な訳文が得られる。 ま
た特許明細書特有の言い回しは、厳密を要する特許全文
翻訳では必要になるものもあるが、要約文では文章が複
雑となるだけで、簡単な用語に置き換えるか、はずした
方が翻訳文が簡明で、分かり易くなる。例えば、「させ
る構成とすることができる」、「することを目的とする
ものである」、「提案することを目的とする」、「低下
することを低減できる」、「発生するというようなこと
がなくなる」等。
<Examples of Unnecessary Wording Terms> Examples are given in Tables 2 and 3 described later. For example, "a method for manufacturing a composite material which is a method of infiltrating a molten metal" is "The manufa
cturing method of the composite material it was pr
esupposed that it is the method of infiltrating mo
It becomes a lten metal "and becomes a meaningless translation. Replacing this with "consisting of" with "consisting of" means "the manufacturing method of the composite mate"
rial which composed the method of infiltrating
You can get a simple translation like "a molten metal". In addition, some wording peculiar to a patent specification is necessary for a full-text translation of a patent that requires strictness, but in the abstract sentence, the sentence is complicated, so it is easier to replace it with simple terms Then, it becomes easy to understand. For example, "it can be configured", "is intended", "proposes", "reduces can be reduced", "occurs" Will disappear ”etc.

【0018】<単位記号等>例えば「体積%」の訳は
「volume」と「%」が離れてしまい意味をなさない。こ
れは置換処理と翻訳不要コード挿入処理で解決できる。
数字を含む単位は全体の訳に悪影響を与える。m2、m
m2等の訳はm [two ormore]とかm・・・・by 2.等
となる。これらを前処理工程で翻訳不要処理コードを挿
入することで、解決できる。また元素記号でもスペルで
なく記号で残したい場合は翻訳不要処理コードを挿入す
れば解決できる。
<Unit symbol etc.> For example, the translation of "volume%" does not make sense because "volume" and "%" are separated from each other. This can be solved by the replacement process and the translation unnecessary code insertion process.
Units containing numbers adversely affect the overall translation. m2, m
The translation of m2 etc. is m [two or more] or m ... ・ by 2. etc. These can be solved by inserting a translation unnecessary processing code in the preprocessing step. In addition, if you want to leave the element symbol as a symbol instead of spelling, you can solve it by inserting a translation unnecessary processing code.

【0019】<記号間の空白>例えば「JIS G 0561」の
訳はJIS. G・・・・by 0561とかけ離れ、全体の訳に悪影響
を与える。これも前処理段階で空白の検索を行い、検出
された場合、空白の自動除去処理を行うことで解決でき
る。
<Blank between symbols> For example, the translation of “JIS G 0561” is far from JIS. G ... by 0561, which adversely affects the overall translation. This can also be solved by performing a blank search in the preprocessing stage and, if detected, performing a blank automatic removal process.

【0020】<体言止め文章>課題文や解決手段文で文
章の最後が体言止めになっているものがあるが、このよ
うな体言止め文章では翻訳がうまく行かない。この場合
は前処理で適切な用語を補うことにより解決できる。例
えば、「の提供。」を「を提供する。」に、「方法。」
を「方法を提供する。」に、「装置。」を「装置を提供
する。」等に変換する。
<Sentence-stopped sentence> Some of the problem sentences and solution sentences have a sentence stop at the end, but such a sentence-stopped sentence does not translate well. In this case, it can be solved by supplementing appropriate terms in preprocessing. For example, “providing.” Becomes “providing.” And “method.”
To “provide a method”, “device.” To “provide a device”, and the like.

【0021】<強制文章分割>前述のように、特許公報
CD-ROMから出力した翻訳のための要約文は、特許出願公
開番号、発明の名称、要約(課題、解決手段等からな
る。)である。但し、翻訳の目的によっては他の項目も
追加できる。この出力した要約文をそのまま機械翻訳に
掛けると、市販の翻訳ソフトのもつ自動文章分割機能で
は充分でなく、「項部分」と文章が分割されずにつなが
るものが、多数出現する。このまま翻訳するとこの「項
部分」が翻訳文章の「主語」や「目的語」に取り込ま
れ、訳文が混乱する場合が多発する。従って予め前処理
で強制分割のための制御コードを挿入することでこの問
題を解決することができる。
<Forced Text Division> As mentioned above, the patent publication
The abstract for translation output from the CD-ROM is the patent application publication number, the title of the invention, and the abstract (consisting of the problem, the solution, etc.). However, other items can be added depending on the purpose of translation. When this output summary sentence is directly subjected to machine translation, the automatic sentence segmentation function of commercially available translation software is not sufficient, and many "term parts" and sentences are connected without being segmented. When translated as it is, this “term part” is taken into the “subject” and “object” of the translated sentence, and the translated sentence is often confused. Therefore, this problem can be solved by inserting a control code for forcible division in advance in advance.

【0022】例えば、(1)「For example, (1) "

【解決手段】本発明の超合金溶接組成物は、・・・」の
訳はThe superalloy welding composition of CONSTITU
TION : the invention is・・・となる。 この
SOLUTION: The superalloy welding composition of CONSTITU is ...
TION: the invention is ... this

【解決手段】の後に “。“コードを自動挿入して強制
文章分割すると、訳は CONSTITUTION : The superalloy
welding composition ofthe invention is ・・・とな
る。
[Solution] After "." Code is inserted automatically and compulsory sentence division, the translation is CONSTITUTION: The superalloy
welding composition of the invention is ...

【0023】(2)「(2) "

【課題】一般に土木もしくは建築分野における比較的大
型の構造物の主要部分には、・・・」の訳は、 ・・・f
or the main sections of the comparatively large si
zed structure in engineering works or a constructi
on fieldat the general PURPOSE :. となる。同様
に、
PROBLEM TO BE SOLVED: Generally, in the main part of a relatively large structure in the field of civil engineering or construction ...
or the main sections of the comparatively large si
zed structure in engineering works or a constructi
on fieldat the general PURPOSE:. Similarly,

【課題】の後に“。“コードを自動挿入して強制文章分
割すると、訳は PURPOSE : Generally・・・for the ma
in sections of the comparatively large sized struc
ture in engineering works or a construction field.
となる。
[Problem] After "." Code is automatically inserted and compulsory sentence division, the translation is PURPOSE: Generally ... for the ma
in sections of the comparatively large sized struc
ture in engineering works or a construction field.
Becomes

【0024】(3)「(3) "

【課題】板厚20mm以下で高い衝撃吸収エネルギーを有す
る高強度鋼板。」の訳は High-strength sheet steel w
hich has high impact-absorption energy by 20mm or
less of PURPOSE : plate thicknesses. となる。同
様に、
A high-strength steel sheet having a plate thickness of 20 mm or less and high impact absorption energy. Translation for "High-strength sheet steel w
hich has high impact-absorption energy by 20mm or
less of PURPOSE: plate thicknesses. Similarly,

【課題】の後に“。“コードを自動挿入して強制文章分
割し、同時に体言止め文章を修正するため、「鋼板」
の後に ”を提供する“ という用語を自動挿入し、
更に訳文の文体をPAJ方式(To + 不定詞)とするために”
*“コード並びに、並列句指定コード”「{ }」“を文
章検索によって指定した所定の位置に自動挿入する。即
ち、「
[Problem] After "." Code is automatically inserted to compulsorily divide sentences, and at the same time to correct sentence-stop sentences, "steel plate"
Automatically inserts the term "provide" after
Furthermore, in order to use the PAJ method (To + infinitive) for the style of translation
* The code and the parallel phrase designating code "{}" are automatically inserted at the specified position designated by the text search.

【課題】。*「{板厚20mm以下で高い衝撃吸収エネルギ
ーを有する高強度鋼板}」を提供する。」とする。この
訳は、「To provide the high-strength sheet steel
which has high impact-absorption energy in 20mm or
less of plate thicknesses.」となる。
【Task】. * Provide "{High-strength steel plate with a thickness of 20 mm or less and high impact absorption energy}". ". This translation is `` To provide the high-strength sheet steel
which has high impact-absorption energy in 20mm or
less of plate thicknesses. "

【0025】(4)発明の名称を大文字表現とするため
「金属−セラミックス複合材料の製造方法」の訳は「Ma
nufacturing method of a metal/ceramic composite ma
terial」となるのを、“*”コ−ドを文頭に自動挿入す
ると、訳は「MANUFACTURINGMETHOD OF METAL/CERAMIC C
OMPOSITE MATERIAL」となる。
(4) In order to capitalize the title of the invention, the translation of "metal-ceramic composite material manufacturing method" is "Ma
nufacturing method of a metal / ceramic composite ma
"*" code is automatically inserted at the beginning of the sentence, the translation is "MANUFACTURING METHOD OF METAL / CERAMIC C
OMPOSITE MATERIAL ”.

【0026】[0026]

【表1】機械翻訳を阻害する用語例 (翻訳阻害用語例) (置換用語例) 行なわしめ得る 行える させずとも させなくても させうる 出来る されていく される されてなる された してなる した するべく するように 少ならしめる 少なくする ようになし ようにし[Table 1] Examples of terms that inhibit machine translation (Example of translation inhibition term) (Example of replacement term) You can do it With or without Can be done Will be done Was done Done Do as you can Lesser less less Do it like

【0027】[0027]

【表2】不要な言い回し用語例 (不要な言い回し語例)(置換用語例) させることにある させる させるようにする させる するものである する することにある する することになる する することである する であることとした である なるようにする する[Table 2] Examples of unnecessary phrases (Example of unnecessary wording) (Example of replacement term) To let Let me let you let me To do To do Will do To do Was decided to be Try to be

【0028】[0028]

【表3】特許特有の言い回し用語例 (特許特有の言い回し語例) (置換用語例) させる構成とすることができる させる 得ることを目的にする 得る 実現することを課題とする 実現する することを目的とするものである する 可能なものとすること 可能にする 備えたことを特徴とする 備える 提供することを目的としている 提供する 低下することを低減できる 低下させない 施してなるようにする 施す[Table 3] Examples of wording specific to patents (Example of wording unique to patent) (Example of replacement term) Can be configured to Get to get The challenge is to achieve Is intended to Make possible make possible Equipped with Is intended to provide Can be reduced, not reduced Give it to give

【0029】[0029]

【発明の効果】特許公開公報の要約のような大量の文章
の機械翻訳に際し、翻訳を阻害する用語や記号の因子を
事前に前処理で修正することが必要となる。本発明の自
動翻訳前処理システム、自動翻訳前処理方法もしくは自
動翻訳前処理のためのプログラムを用いることにより、
この作業効率及び作業時間が大幅に改善され、同時に機
械翻訳の質も良くなるので後処理に要する作業も大幅に
軽減できる。
EFFECTS OF THE INVENTION In machine translation of a large amount of sentences such as the abstract of a patent publication, it is necessary to correct in advance the factors of terms and symbols that hinder translation. By using the automatic translation preprocessing system, the automatic translation preprocessing method or the program for automatic translation preprocessing of the present invention,
This work efficiency and work time are greatly improved, and at the same time, the quality of machine translation is improved, so the work required for post-processing can be greatly reduced.

【図面の簡単な説明】[Brief description of drawings]

【図1】自動翻訳前処理システムの構成図である。FIG. 1 is a configuration diagram of an automatic translation preprocessing system.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】プログラム化されたコンピュ−タによっ
て、機械翻訳を阻害する用語、記号や複雑な長文を有す
る日本語文書を前処理するシステムであって、 入力された文書および出力された文書を表示する表示手
段と、機械翻訳を阻害する用語、記号や長文を蓄積した
デ−タベ−スと、該阻害用語に対応する翻訳しやすい用
語を蓄積したデ−タベ−スと、機械翻訳を阻害する用
語、記号や長文を蓄積したデ−タベ−スに基づいて、 入力された文書中の機械翻訳を阻害する用語を検索する
第1の検索手段と、該阻害用語が検索された場合、該阻
害用語に対応する翻訳しやすい用語を蓄積したデ−タベ
−スに基づいて、 翻訳しやすい用語に置換する置換手段と、 入力された文書中の記号を検索するための第2の検索手
段と、該記号が検索された場合、該記号の該当個所に翻
訳不要処理制御コ−ドを自動挿入する手段と、 入力された文書中の長文を検索する第3の検索手段と、
長文が検索された場合、該当個所の文章を強制分割処理
するための強制文章分割処理制御コ−ドを自動挿入する
手段と、 前処理の終了した文書を出力する手段を備えたことを特
徴とする自動翻訳前処理システム。
1. A system for preprocessing a Japanese document having a term, a symbol, or a complex long sentence that impedes machine translation by a programmed computer, which processes an input document and an output document. Display means for displaying, database for accumulating terms, symbols and long sentences that inhibit machine translation, database for accumulating easy-to-translate terms corresponding to the inhibiting term, and inhibiting machine translation First searching means for searching for a term that inhibits machine translation in an input document based on a database that accumulates a term, a symbol or a long sentence, and if the inhibiting term is found, A replacing means for replacing the easily translatable term corresponding to the obstructing term into the easily translatable term, and a second searching means for retrieving the symbol in the inputted document; , The symbol was searched In this case, means for automatically inserting a translation unnecessary processing control code at the relevant portion of the symbol, and third searching means for searching for a long sentence in the input document,
When a long sentence is searched, a means for automatically inserting a compulsory sentence segmentation control code for forcibly segmenting the sentence at the corresponding position and a means for outputting the document for which preprocessing has been completed are provided. Automatic translation preprocessing system.
【請求項2】機械翻訳を阻害する用語、記号や長文を蓄
積したデ−タベ−スおよび該阻害用語に対応する翻訳し
やすい用語を蓄積したデ−タベ−スが構築され、プログ
ラム化されたコンピュ−タによって、機械翻訳を阻害す
る用語、記号や長文を有する日本語文書を前処理する方
法であって、 入力された文書および出力された文書を表示する表示工
程と、機械翻訳を阻害する用語、記号や長文を蓄積した
デ−タベ−スに基づいて、入力された文書中の機械翻訳
を阻害する用語を検索する工程と、該阻害用語が検索さ
れた場合、該阻害用語に対応する翻訳しやすい用語を蓄
積したデ−タベ−スに基づいて、 翻訳しやすい用語に置換する工程と、次いで、入力され
た文書中の記号を検索する工程と、該記号が検索された
場合、 該記号の該当個所に翻訳不要処理制御コ−ドを自動挿入
する工程と、次いで、入力された文書中の長文を検索す
る第3の検索工程と、長文が検索された場合、該当個所
の文章を強制分割処理するための強制文章分割処理制御
コ−ドを自動挿入する工程と、 前処理の終了した文書を出力する工程を含むことを特徴
とする自動翻訳前処理方法。
2. A database for accumulating terms that inhibit machine translation, symbols and long sentences, and a database for accumulating easily translatable terms corresponding to the inhibition terms have been constructed and programmed. A method of preprocessing a Japanese document having a term, a symbol or a long sentence, which inhibits machine translation, by a computer, a display step of displaying an input document and an output document, and a machine translation inhibiting process. A step of searching for a term that inhibits machine translation in an input document based on a database that accumulates terms, symbols and long sentences, and, if the inhibiting term is searched, corresponds to the inhibiting term A step of substituting a term that is easy to translate into a term that is easy to translate based on the accumulated database, a step of searching a symbol in the input document, and a step of searching the symbol when the symbol is searched, Where the symbol applies A step of automatically inserting a translation-free processing control code, then a third search step of searching for a long sentence in the input document, and a forced division processing of the sentence at the corresponding portion when a long sentence is searched. An automatic translation preprocessing method comprising: a step of automatically inserting the control code for forced sentence segmentation processing, and a step of outputting a document for which preprocessing has been completed.
【請求項3】機械翻訳を阻害する用語、記号や長文を蓄
積したデ−タベ−スおよび該阻害用語に対応する翻訳し
やすい用語を蓄積したデ−タベ−スが構築されたコンピ
ュ−タを用いて、該コンピュ−タに、機械翻訳を阻害す
る用語、記号や長文を有する日本語文書を前処理させる
ためのプログラムであって、 該プログラムはコンピュ−タに、機械翻訳を阻害する用
語、記号や長文を蓄積したデ−タベ−スに基づいて、入
力された文書中の機械翻訳を阻害する用語を検索させ、 該阻害用語が検索された場合、該阻害用語に対応する翻
訳しやすい用語を蓄積したデ−タベ−スに基づいて、翻
訳しやすい用語に置換させ、 次いで、入力された文書中の記号を検索させ、該記号が
検索された場合、該記号の該当個所に翻訳不要処理の制
御コ−ドを自動的に挿入させ、 次いで、入力された文書中の長文を検索させ、長文が検
索された場合、該当個所の文章を強制分割処理するため
の強制文章分割処理制御コ−ドを自動的に挿入させ、 前処理の終了した文書を出力させる、ことを特徴とする
日本語文書を前処理させるためのプログラムもしくは該
プログラムを記録した記録媒体。
3. A computer in which a database for accumulating terms that inhibit machine translation, symbols and long sentences and a database for accumulating easy-to-translate terms corresponding to the inhibiting terms are constructed. A program for causing a computer to pre-process a Japanese document having a term that inhibits machine translation, a symbol or a long sentence, the program being a term that inhibits machine translation, Based on a database that accumulates symbols and long sentences, search for a term that inhibits machine translation in an input document, and when the inhibiting term is searched, a term that is easy to translate corresponding to the inhibiting term Is replaced with a term that is easy to translate based on the accumulated database, and then the symbol in the input document is searched, and when the symbol is searched, the translation-free processing is performed at the corresponding position of the symbol. Control code of When a long sentence is searched for, the forced sentence segmentation control code for forcibly segmenting the sentence at the corresponding position is automatically inserted. A program for preprocessing a Japanese document or a recording medium recording the program, which is characterized in that the preprocessed document is output.
JP2001317863A 2001-10-16 2001-10-16 Automatic translation pre-processing system, pre- processing method, program for pre-processing or recording medium in which the same program is recorded Pending JP2003122748A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001317863A JP2003122748A (en) 2001-10-16 2001-10-16 Automatic translation pre-processing system, pre- processing method, program for pre-processing or recording medium in which the same program is recorded

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001317863A JP2003122748A (en) 2001-10-16 2001-10-16 Automatic translation pre-processing system, pre- processing method, program for pre-processing or recording medium in which the same program is recorded

Publications (1)

Publication Number Publication Date
JP2003122748A true JP2003122748A (en) 2003-04-25

Family

ID=19135666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001317863A Pending JP2003122748A (en) 2001-10-16 2001-10-16 Automatic translation pre-processing system, pre- processing method, program for pre-processing or recording medium in which the same program is recorded

Country Status (1)

Country Link
JP (1) JP2003122748A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170094A (en) * 2014-03-06 2015-09-28 株式会社Nttドコモ Translation device and translation method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170094A (en) * 2014-03-06 2015-09-28 株式会社Nttドコモ Translation device and translation method

Similar Documents

Publication Publication Date Title
Boudchiche et al. AlKhalil Morpho Sys 2: A robust Arabic morpho-syntactic analyzer
Lita et al. Truecasing
JP3254642B2 (en) How to display the index
JP3983265B1 (en) Dictionary creation support system, method and program
US20050119875A1 (en) Identifying related names
EP1076861A1 (en) Machine-assisted translation tools
JP2009093503A (en) Schedule registration support system, schedule registration support method and program
US20070067291A1 (en) System and method for negative entity extraction technique
JP2003122748A (en) Automatic translation pre-processing system, pre- processing method, program for pre-processing or recording medium in which the same program is recorded
JPH0944523A (en) Relative word display device
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
JP3398729B2 (en) Automatic keyword extraction device and automatic keyword extraction method
JP2536633B2 (en) Compound word extraction device
Reinel et al. Sentiment phrase generation using statistical methods
JP2004265440A (en) Unknown word registration device and method and record medium
JPS61248160A (en) Document information registering system
JP2002073656A (en) Method and device for normalizing and developing different notation, method and device for retrieving document by using the method, and program recording medium
Myskiv et al. Peculiarities of medical slang translation into Ukrainian: corpus-based approach (on the material of Adam Kay's book" This is Going to Hurt: Secret Diaries of a Junior Doctor")
JP2893239B2 (en) Translation support dictionary search and display system
JP5262190B2 (en) Input completion device and input completion program
JPH07334526A (en) Dictionary retrieval and display device
Svendsen et al. An automatically generated Danish Renaissance Dictionary
JPH03260764A (en) Register system for translation dictionary
JPH03271962A (en) Compound word extracting device
Arkhangelskiy Corpus of usage examples: What is it good for?