JPH08185405A - Machine translating device - Google Patents

Machine translating device

Info

Publication number
JPH08185405A
JPH08185405A JP6326088A JP32608894A JPH08185405A JP H08185405 A JPH08185405 A JP H08185405A JP 6326088 A JP6326088 A JP 6326088A JP 32608894 A JP32608894 A JP 32608894A JP H08185405 A JPH08185405 A JP H08185405A
Authority
JP
Japan
Prior art keywords
text
tag
markup
symbol
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6326088A
Other languages
Japanese (ja)
Inventor
Hidezo Kugimiya
秀造 釘宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP6326088A priority Critical patent/JPH08185405A/en
Publication of JPH08185405A publication Critical patent/JPH08185405A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE: To prevent the sequence of a mark-up symbol to provide no effect from being generated in a text by detecting the sequences of mark-up symbols to be canceled each other inside the text to be generated and generating the text in a second language while excluding the detected sequences of mark-up symbols. CONSTITUTION: It is discriminated whether a translated word is equipped with a tag in a buffer B or not. When there is any tag, it is discriminated whether that tag is equal with a tag provided for the translated word at present or not. When both the tags are equal, a tag flag is set to '1' but a tag symbol is not stored in a buffer E at such a time. When both the tags are not equal, an end tag is stored in the buffer E. Since the text in the second language is generated like this, the sequences of mark-up symbols to be canceled each other and to provide no effect can be prevented from being generated inside the text in the second language.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は機械翻訳装置に関し、
特に、RTF(Rich Text Format)、SGML(Standa
rd Generalized Markup Langage )、TeX等を含むマ
ークアップ記号等を含む文書を他の言語に翻訳すること
が可能な機械翻訳装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a machine translation device,
Especially RTF (Rich Text Format), SGML (Standa
rd Generalized Markup Langage), a machine translation device capable of translating a document including a markup symbol such as TeX into another language.

【0002】[0002]

【従来の技術】従来から機械翻訳装置として次のような
ものが実用化されている。従来の機械翻訳装置は、たと
えばキーボードなどから入力されたソース言語の文書
を、CPU(中央演算処理装置)の制御により翻訳モジ
ュールに入力する。翻訳モジュールは、入力されたソー
ス言語のテキストを、メモリに記憶されている基本辞書
や、ユーザの登録によって準備されるユーザ辞書からな
る辞書群と、文法規則とを用いて解析し、構造解析木を
生成する。同様に、メモリに予め記憶されている、ソー
ス言語からターゲット言語への木構造変換規則を利用し
て、ソース言語のテキストの構造解析木をターゲット言
語の構造解析木に変換した上、各単語に適切な訳語を割
当て、さらに必要な部分を補ってターゲット言語のテキ
ストを生成する。
2. Description of the Related Art Conventionally, the following machine translation devices have been put into practical use. A conventional machine translation device inputs a source language document input from a keyboard or the like into a translation module under the control of a CPU (central processing unit). The translation module analyzes the input source language text using a basic dictionary stored in a memory, a dictionary group including a user dictionary prepared by user registration, and grammatical rules, and a structure analysis tree. To generate. Similarly, by using the tree structure conversion rules from the source language to the target language, which are stored in advance in the memory, the structure analysis tree of the text of the source language is converted into the structure analysis tree of the target language, and each word is converted into each word. Appropriate translations are assigned and the necessary parts are supplemented to generate the target language text.

【0003】一方、最近では、小型のコンピュータを用
いて印刷の版下までも作成するようなDTP(Desk Top
Puplishing )機能を持った文書編集システムが普及し
てきている。そのため、文章からなるテキスト以外に図
や表を含む文書が多く作成されるようになっている。ま
た、TeXのように、テキスト中に、書体やフォントの
サイズ等の組版のための指定など、印刷のための付随情
報が含まれている場合がある。そのような情報は、たと
えばタイトルとそれ以外の部分との指定、使用する書
体、フォントのサイズなどの指定、索引として採用すべ
き語の指定情報などを含む。
On the other hand, recently, a DTP (Desk Top
Document editing systems with Puplishing) functions are becoming popular. Therefore, many documents including figures and tables in addition to texts are formed. Further, like TeX, the text may include accompanying information for printing, such as designation for typesetting such as typeface and font size. Such information includes, for example, designation of a title and other portions, designation of a typeface to be used, font size, etc., designation information of a word to be adopted as an index, and the like.

【0004】これらの情報は、マークアップ記号とし
て、処理の対象となる文書の本文中にテキスト本体と混
在している。文書中にこのようなマークアップ記号を含
ませておくことにより、そのマークアップ情報に従った
体裁、書体、フォントのサイズなどを用いて自動的にそ
の文書を印刷することができる。また、索引用語の指定
を行なった場合には、そのようなマークアップ記号が付
された単語または単語群を検索していくことにより容易
に索引を作成することができる。
These pieces of information, as markup symbols, are mixed with the text body in the text of the document to be processed. By including such a markup symbol in the document, the document can be automatically printed using the format, typeface, font size, etc. according to the markup information. Further, when the index term is specified, the index can be easily created by searching for a word or a word group to which such a markup symbol is added.

【0005】このようなマークアップ記号の体系として
マークアップ言語があり、ISO(国際標準化機構)で
制定されたSGMLがその一例である。SGMLは、文
書の論理的な構造、たとえば章立て、段落、箇条書きな
どといった論理的な構成の指定を行なうためのものであ
る。実際にSGMLによって作成された文書を印刷する
際には、より具体的にフォーマットを決定するためのマ
ークアップ言語を用いることが多い。そのようなマーク
アップ言語の一例がTeXと呼ばれるものである。
There is a markup language as a system of such markup symbols, and SGML established by ISO (International Organization for Standardization) is one example. SGML is for designating a logical structure of a document, for example, a logical structure such as chapters, paragraphs, and bullets. When actually printing a document created by SGML, a markup language for more specifically determining a format is often used. An example of such a markup language is called TeX.

【0006】このようにマークアップ言語を用いて印刷
の指定がされた文書の数が増大した結果、これらの文書
を他の言語に翻訳する技術に対する需要が増大してい
る。
As a result of the increase in the number of documents designated to be printed using the markup language, there is an increasing demand for a technique for translating these documents into other languages.

【0007】これに対応して、RTF、SGML、Te
X等のように文中にマークアップ記号を含む特別な原文
の場合でも、マークアップ記号を含まない通常の原文と
同様な翻訳をし、さらにタグ記号を翻訳結果に復元でき
る機械翻訳装置も実現されつつある。
Corresponding to this, RTF, SGML, Te
Even in the case of a special source text that includes markup symbols in the sentence such as X, a machine translation device that can perform the same translation as a normal source text that does not include markup symbols and restore the tag symbol to the translation result is also realized. It's starting.

【0008】[0008]

【発明が解決しようとする課題】しかし、上述のような
マークアップ記号を含む文書を従来の機械翻訳装置で翻
訳しようとすれば、ソース言語とは異質のマークアップ
記号が文書に含まれているために、翻訳が適正に行なわ
れず、翻訳不能となったり、あるいは誤訳などが発生し
たりしてしまう。そのため従来は、機械翻訳装置にテキ
ストを入力する前に、エディタ等によりその入力テキス
トにマークアップ記号が含まれているか否かを手操作で
調べ、含まれている場合には1つ1つ削除し、その後に
機械翻訳装置に入力する必要があった。このため、従来
の機械翻訳装置でマークアップ記号を含む文書を翻訳す
る場合の効率は非常に悪かった。
However, when attempting to translate a document containing a markup symbol as described above by a conventional machine translation device, a markup symbol different from the source language is included in the document. Therefore, the translation is not performed properly, and the translation becomes impossible, or an incorrect translation occurs. Therefore, conventionally, before inputting text to a machine translation device, it is manually checked by an editor or the like whether or not the input text includes a markup symbol, and if the markup symbol is included, each is deleted one by one. Then, it was necessary to input to the machine translation device after that. Therefore, the efficiency of translating a document including a markup symbol with a conventional machine translation device has been very poor.

【0009】このような問題を解決するために、文書に
含まれる形式情報などの非言語データを意識せずに行な
うための文書処理システムが、特開平4−259057
号公報に開示されている。この公報に開示されたシステ
ムでは、非言語データと言語データとが混在する文書デ
ータから言語データのみが抽出され、この抽出された言
語データに対して所定の編集処理が行なわれる。さら
に、この編集処理により編集された言語データと、元々
入力された文書データ中の言語データとが比較対照さ
れ、それぞれの対応箇所が決定される。そして、入力文
書データの言語データを、編集後の言語データの対応す
るものにより置換える。このようにすることにより、非
言語データの存在を意識せずに、言語データと形式情報
とが混在する文書データの編集を行なうことができる、
とされている。
In order to solve such a problem, a document processing system for performing non-linguistic data such as format information contained in a document without being aware of it is disclosed in Japanese Patent Laid-Open No. 259057/1992.
No. 6,086,045. In the system disclosed in this publication, only the language data is extracted from the document data in which the non-language data and the language data are mixed, and a predetermined editing process is performed on the extracted language data. Further, the language data edited by this editing process and the language data in the document data originally input are compared and compared to determine corresponding portions. Then, the language data of the input document data is replaced with the corresponding one of the edited language data. By doing so, it is possible to edit document data in which linguistic data and format information are mixed without being aware of the presence of non-language data.
It has been.

【0010】ところが、マークアップ記号を含む文の翻
訳において、単に原文でマークアップ記号の付いていた
単語に対応する翻訳結果の訳語の各々に、対応のマーク
アップ記号を付加して出力するだけでは、訳文中にマー
クアップ記号が多くなりすぎて訳文が読みにくくなって
しまうという問題がある。また同時に、そうした無駄な
情報が増える結果余分なメモリや表示スペースを使用す
るため、システムとして効率が悪いという問題点があ
る。
However, in the translation of a sentence including a markup symbol, it is not necessary to simply add the corresponding markup symbol to each of the translated words of the translation result corresponding to the word having the markup symbol in the original sentence and output it. , There is a problem that the translated text becomes difficult to read because there are too many markup symbols in the translated text. At the same time, there is a problem in that the system is inefficient because extra memory and display space are used as a result of increasing such useless information.

【0011】また、現在の翻訳システムの多くは、翻訳
は1文を単位として行なわれている。そのため前の文の
情報が次の文に引き継がれることはない。対となるマー
クアップ記号が複数の文に跨がっている場合、それらマ
ークアップ記号の情報が翻訳文から欠落してしまい、マ
ークアップ情報を正確に反映した翻訳に失敗するという
問題点がある。たとえば連続する複数の文のうち最初の
文にマークアップ情報の開始を示す記号のみがあって終
了を示す記号がなく、最後の文にはマークアップ情報の
開始を示す記号がなく終了の記号のみがある場合、これ
ら複数の文の先頭と最後については正しく訳すことがで
きず翻訳に失敗してしまうという問題がある。
Further, in most current translation systems, translation is performed in units of one sentence. Therefore, the information of the previous sentence is not carried over to the next sentence. When the markup symbol to be paired spans multiple sentences, the information of those markup symbols is missing from the translated sentence, and there is a problem that the translation that accurately reflects the markup information fails. . For example, in a sequence of multiple sentences, the first sentence has only the mark that indicates the start of markup information and does not have the symbol that indicates the end, and the last sentence does not have the mark that indicates the start of markup information and only the end symbol. , There is a problem that the beginning and end of these plural sentences cannot be correctly translated and the translation fails.

【0012】また、これらマークアップ情報が付されて
いる部分は、テキスト原文の構造上一定のまとまりがあ
る部分であると考えられる。そうした情報は翻訳の1段
階としての原文の構造解析上有用であると考えられるの
で、マークアップ情報をも含んだ形で翻訳処理を行なう
ことが望ましい。
Further, the part to which the markup information is added is considered to be a part having a certain unity in the structure of the text original sentence. Since such information is considered to be useful for structural analysis of the original sentence as one step of translation, it is desirable to perform translation processing in a form that also includes markup information.

【0013】それゆえに本発明の目的は、ソース言語の
入力テキストにマークアップ記号が含まれる場合でも、
従来よりさらに効率よく翻訳を行なうことができる機械
翻訳装置を提供することである。
Therefore, it is an object of the present invention, even if the source language input text contains markup symbols,
It is an object of the present invention to provide a machine translation device that can perform translation more efficiently than ever before.

【0014】請求項2に記載の発明の目的は、マークア
ップ記号を含むテキスト原文を、通常のテキスト原文と
同様に、より効率よく、かつより正確に原文内のマーク
アップ記号を反映して翻訳することができる機械翻訳装
置を提供することである。
An object of the present invention as set forth in claim 2 is to translate a text original text including a markup symbol more efficiently and more accurately as a normal text original sentence by reflecting the markup symbol in the original text. A machine translation device is provided.

【0015】請求項3に記載の発明の目的は、マークア
ップ記号を含むテキスト原文を、通常のテキスト原文と
同様に、より効率よく、より高速に、かつより正確に原
文内のマークアップ記号を反映して翻訳することができ
る機械翻訳装置を提供することである。
The object of the present invention as defined in claim 3 is to convert a text original text including a markup symbol into a text original text in a more efficient, faster and more accurate manner as in a normal text original text. It is to provide a machine translation device capable of reflecting and translating.

【0016】[0016]

【課題を解決するための手段】本発明に係る機械翻訳装
置は、マークアップ記号を含む第1の言語のテキスト原
文を、第2の言語のテキストに翻訳するための機械翻訳
装置である。この機械翻訳装置は、テキスト原文をマー
クアップ記号とマークアップ記号を含まないテキスト本
体とに分離するための分離手段と、各マークアップ記号
を、各マークアップ記号が付されていた単語と関連づけ
て記憶するための記憶手段と、分離手段によりマークア
ップ記号と分離されたテキスト本体に所定の文法処理を
行なって、テキスト本体に対応する第1の言語の構造解
析木を作成するための手段と、第1の言語の構造解析木
を、予め準備された変換規則を用いて第2の言語の構造
解析木に変換するための手段と、第2の構造解析木と記
憶手段の記憶内容とに基づいて、テキスト原文において
マークアップ記号が付されていた単語に対応する訳語
に、該訳語に付されていたマークアップ記号と等価なマ
ークアップ記号を付した第2の言語のテキストを生成す
るためのテキスト生成手段とを含む。テキスト生成手段
は、生成されるテキスト内において、互いに相殺し合う
マークアップ記号のシーケンスを検出する手段と、検出
されたマークアップ記号のシーケンスを除外して第2の
言語のテキストを生成するための手段とを含む。
A machine translation apparatus according to the present invention is a machine translation apparatus for translating a text original text of a first language including a markup symbol into a text of a second language. This machine translation device associates each markup symbol with the word to which each markup symbol is attached, and a separating means for separating the original text into a markup symbol and a text body not containing the markup symbol. Storage means for storing, means for performing a predetermined grammatical process on the text body separated from the markup symbol by the separation means, and creating a structural analysis tree of the first language corresponding to the text body; Based on the means for converting the structure analysis tree of the first language into the structure analysis tree of the second language by using a prepared conversion rule, and the stored contents of the second structure analysis tree and the storage means. And a second word in which a markup symbol equivalent to the markup symbol attached to the translated word is attached to the translated word corresponding to the word to which the markup symbol is attached in the original text. And a text generation means for generating the text. The text generation means detects a sequence of markup symbols that cancel each other in the generated text, and excludes the detected sequence of markup symbols to generate the text in the second language. And means.

【0017】請求項2に記載の発明に係る機械翻訳装置
は、請求項1に記載の装置であって、テキスト原文内に
おいて、対となるマークアップ記号が異なる文内に配置
されていることを判別する手段と、対となるマークアッ
プ記号が異なる文内に配置されていると判別されたこと
に応答して、対となるマークアップ記号のうちの第1の
マークアップ記号が含まれる文の所定位置に、対となる
マークアップ記号のうちの第2のマークアップ記号を補
充し、第2のマークアップ記号が含まれる文の所定位置
に、第1のマークアップ記号を補充して、記憶手段に記
憶させるためのマークアップ記号補充手段と、テキスト
生成手段によるテキストの生成において、マークアップ
記号補充手段により補充されたマークアップ記号を、生
成されるテキスト内の、マークアップ記号が補充された
位置によって定まる位置にさらに補充して生成する手段
とをさらに含む。
A machine translation device according to a second aspect of the present invention is the device according to the first aspect, wherein the pair of markup symbols are arranged in different sentences in the original text of the text. In response to the determination means and the determination that the pair of markup symbols is arranged in a different sentence, the sentence of the sentence including the first markup symbol of the pair of markup symbols is detected. A second markup symbol of a pair of markup symbols is supplemented at a predetermined position, and a first markup symbol is supplemented at a predetermined position of a sentence including the second markup symbol and stored. A markup symbol replenishing means for storing in the means, and a text generated by the text generating means, wherein the markup symbol replenished by the markup symbol replenishing means is generated. And further including means for generating further replenished position determined by the position of the mark-up symbols supplemented.

【0018】請求項3に記載の発明に係る機械翻訳装置
は、請求項1または2に記載の装置であって、構造解析
木を作成するための手段は、テキスト原文の、記憶手段
に記憶された対となるマークアップ記号に挟まれた部分
を1つのフレーズと仮定して構造解析木の作成を行なう
ことを特徴とする。
A machine translation device according to a third aspect of the present invention is the device according to the first or second aspect, wherein the means for creating the structural analysis tree is stored in the storage means of the text original text. It is characterized in that the structure analysis tree is created on the assumption that a part sandwiched between paired markup symbols is one phrase.

【0019】[0019]

【作用】本発明に係る機械翻訳装置では、分離手段がテ
キスト原文をマークアップ記号とマークアップ記号を含
まないテキスト本体とに分離する。記憶手段は、各マー
クアップ記号を記憶する。各マークアップ記号は、それ
が付されていた単語と互いに関連づけられる。構造解析
木を作成するための手段がテキスト本体に所定の文法処
理を行なって、第1の言語の構造解析木を作成する。変
換手段がこの構造解析木を第2の言語の構造解析木に変
換する。そして、生成手段が、第2の構造解析木と記憶
手段の記憶内容とに基づいて、第2の言語のテキストを
生成する。生成されるテキストでは、テキスト原文にお
いてマークアップ記号が付されていた単語に対応する訳
語には、該訳語に付されていたマークアップ記号と等価
なマークアップ記号がテキスト生成手段により付され
る。このときテキスト生成手段は、生成されるテキスト
内において、互いに相殺し合うマークアップ記号のシー
ケンスを検出し、検出されたマークアップ記号のシーケ
ンスを除外して第2の言語のテキストを生成する。相互
に相殺し合って何の効果ももたらさないマークアップ記
号のシーケンスは第2の言語のテキスト内には生成され
ない。
In the machine translation device according to the present invention, the separating means separates the text original sentence into a markup symbol and a text body not containing the markup symbol. The storage means stores each markup symbol. Each markup symbol is associated with the word to which it was attached. The means for creating a structural analysis tree performs a predetermined grammar process on the text body to create a structural analysis tree for the first language. The conversion means converts this structural analysis tree into a structural analysis tree of the second language. Then, the generation unit generates the text of the second language based on the second structural analysis tree and the storage content of the storage unit. In the generated text, the translated word corresponding to the word to which the markup symbol is attached in the original text of text is attached by the text producing means with a markup symbol equivalent to the markup symbol attached to the translated word. At this time, the text generation unit detects a sequence of markup symbols that cancel each other out in the generated text and excludes the detected sequence of markup symbols to generate the text of the second language. Sequences of markup symbols that offset each other and have no effect are not generated in the text of the second language.

【0020】請求項2に記載の発明に係る機械翻訳装置
においては、テキスト原文内において、対となるマーク
アップ記号が異なる文内に配置されていると判別される
と、対となるマークアップ記号のうちの第1のマークア
ップ記号が含まれる文の所定位置に、対となるマークア
ップ記号のうちの第2のマークアップ記号が補充され、
第2のマークアップ記号が含まれる文の所定位置に、第
1のマークアップ記号が補充される。第2の言語のテキ
ストの生成においては、生成されるテキスト内の、マー
クアップ記号が補充された位置によって定まる位置に、
対応のマークアップ記号が補充される。必要なマークア
ップ記号が、原文において異なる文内に配置されている
ため、翻訳文において復元されない、ということがな
い。
In the machine translation apparatus according to the second aspect of the invention, when it is determined that the markup symbols to be paired are arranged in different sentences in the original text of the text, the markup symbol to be paired is determined. A second markup symbol of the pair of markup symbols is supplemented at a predetermined position of the sentence including the first markup symbol of
The first markup symbol is supplemented at a predetermined position of the sentence including the second markup symbol. In the generation of the text of the second language, in the generated text, at a position determined by the position where the markup symbol is supplemented,
The corresponding markup symbols are supplemented. Since the required markup symbols are placed in different sentences in the original sentence, they will not be restored in the translated sentence.

【0021】請求項3に記載の発明に係る機械翻訳装置
においては、テキスト原文の、対となるマークアップ記
号に挟まれた部分が1つのフレーズであると仮定して構
造解析木の作成を行なうので、テキスト原文の解析がよ
り正確かつ高速に行なえる。
In the machine translation device according to the third aspect of the present invention, the structure analysis tree is created on the assumption that the portion of the original text that is sandwiched between the pair of markup symbols is one phrase. Therefore, the text original text can be analyzed more accurately and at higher speed.

【0022】[0022]

【実施例】以下、本発明の一実施例の機械翻訳装置を図
を参照しながら説明する。以下の実施例の機械翻訳装置
は英語から日本語への英日機械翻訳装置が例として示さ
れる。しかし本発明はこれには限定されず、他のいかな
る言語間の機械翻訳装置に対しても適用できる。また以
下の説明では、本発明をマークアップ記号としてTeX
というマークアップ言語に用いられるマークアップ記号
(「タグ記号」と呼ばれる)を例にとって説明するが、
本発明はこの言語には限定されず、一般的にマークアッ
プ記号を用いる言語に対して適用可能である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A machine translation apparatus according to an embodiment of the present invention will be described below with reference to the drawings. The machine translation device of the following embodiment is shown as an example of an English-Japanese machine translation device from English to Japanese. However, the present invention is not limited to this, and can be applied to a machine translation device between any other languages. Further, in the following description, the present invention is referred to as a markup symbol TeX
The markup symbol used in the markup language (called "tag symbol") will be described as an example.
The present invention is not limited to this language and is generally applicable to languages that use markup symbols.

【0023】実施例の説明の前に、機械翻訳の概念につ
いて簡単に説明する。図1を参照して、機械翻訳におい
て行なわれる解析処理には、様々な解析レベルがある。
機械翻訳は、図1の左上に示されるソース言語が入力さ
れると、各レベルの処理を順に行なって最終的に図1の
右側に示されるターゲット言語を得るための処理であ
る。たとえばソース言語のテキストが入力されると、ま
ずレベルL1の辞書引き処理、レベルL2の形態素解析
処理、レベルL3の構文解析処理、…と処理が進めら
れ、最終的にレベルL10の形態素生成処理が行なわれ
てターゲット言語のテキストが生成される。
Before explaining the embodiments, the concept of machine translation will be briefly described. Referring to FIG. 1, analysis processing performed in machine translation has various analysis levels.
The machine translation is a process for inputting the source language shown in the upper left of FIG. 1 to sequentially perform the processing of each level to finally obtain the target language shown on the right side of FIG. For example, when a text in the source language is input, first, the level L1 dictionary lookup process, the level L2 morphological analysis process, the level L3 syntactic analysis process, ... Done to generate text in the target language.

【0024】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の2つに分けられる。第1
は、レベルL6に示される中間言語まで解析し、そこか
らターゲット言語のテキストを生成していくピボット方
式である。第2は、上述のレベルL2〜レベルL5のい
ずれかまで解析を行なってソース言語の内部構造を得、
次に、得られたソース言語の内部構造と同じレベルのタ
ーゲット言語の内部構造に変換した後、ターゲット言語
のテキストを生成するトランスファ方式である。
Machine translation is roughly divided into the following two types, depending on what level of analysis processing is performed. First
Is a pivot method that analyzes up to the intermediate language shown at level L6 and generates text in the target language from there. Secondly, the internal structure of the source language is obtained by performing analysis on any of the levels L2 to L5 described above.
Next, it is a transfer method in which after converting the obtained internal structure of the source language into the internal structure of the target language at the same level, the text of the target language is generated.

【0025】ピボット方式において用いられる中間言語
とは、ソース言語およびターゲット言語のどちらにも依
存しない概念である。したがってソース言語の解析処理
を一度行なって中間言語を得れば、この中間言語から複
数の言語を生成することができるため、多言語間翻訳に
有利であるとされる。しかし、このようなピボット方式
では、その基本的概念である中間言語を本当に設定でき
るかどうかという点が未解決である。
The intermediate language used in the pivot system is a concept that does not depend on either the source language or the target language. Therefore, if the source language is analyzed once to obtain an intermediate language, a plurality of languages can be generated from this intermediate language, which is advantageous for multilingual translation. However, in such a pivot method, it is still unsolved whether the intermediate language which is the basic concept can be really set.

【0026】トランスファ方式はピボット方式のこのよ
うな問題に対する妥協案であって、現在の多くのシステ
ムはこのトランスファ方式を採っている。以下の説明は
トランスファ方式についてのものであり、後述する実施
例の機械翻訳装置もトランスファ方式を用いたものであ
る。
The transfer system is a compromise solution to such a problem of the pivot system, and many current systems adopt this transfer system. The following description is for the transfer method, and the machine translation device of the embodiment described later also uses the transfer method.

【0027】以下、図1に示される各解析処理の内容に
ついて説明する。 (1) 辞書引き、形態素解析 この処理においては、入力された文章に対して、形態素
が格納された辞書を参照しながらたとえば最長一致法な
どを用いて形態素列(単語列)に分割する処理がまず行
なわれる。そして、得られた各単語に対する品詞などの
文法情報および訳語を得、さらに時制・人称・数などを
解析する処理が行なわれる。
The contents of each analysis process shown in FIG. 1 will be described below. (1) Dictionary lookup, morpheme analysis In this process, the process of dividing the input sentence into morpheme strings (word strings) using the longest matching method or the like while referring to the dictionary in which the morphemes are stored First done. Then, a process of obtaining grammatical information such as a part of speech and a translated word for each of the obtained words and further analyzing tense, personal name, and number are performed.

【0028】(2) 構文解析 この処理においては、品詞・変化形などに基づき、単語
間のかかり受けなどの文章の構造(構造解析木)を組立
て、決定する処理が行なわれる。この処理においては、
得られた文章の構造が正しい意味を表わすかどうかにつ
いての判断は行なわれない。
(2) Syntactic Analysis In this process, a process of assembling and determining a structure of a sentence (structure analysis tree) such as a crossing between words based on the part-of-speech / variant and the like is performed. In this process,
No judgment is made as to whether the structure of the obtained sentence represents the correct meaning.

【0029】(3) 意味解析 構文解析処理の結果得られた複数の構造解析木から、意
味的に正しいものとそうでないものとを判別し、正しい
もののみを採用する処理が行なわれる。
(3) Semantic Analysis From a plurality of structural analysis trees obtained as a result of the syntactic analysis process, semantically correct and improper ones are discriminated and only the correct ones are adopted.

【0030】(4) 文脈解析 文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。
(4) Context Analysis In the context analysis process, a process of understanding the topic of the input sentence and removing abbreviated parts and ambiguities contained in the input sentence is performed.

【0031】以下で説明する本発明の一実施例の機械翻
訳装置の翻訳モジュールにおいては、レベルL3までの
解析処理を行なうものとする。すなわち、本実施例の機
械翻訳装置の翻訳モジュールは、図2に示されるような
構造を有する。この翻訳モジュールは、図2を参照し
て、ソース言語のテキスト原文を、タグ記号とテキスト
自体に分離するとともに、後述するようにテキスト原文
において異なる文内に開始タグ記号と終了タグ記号とが
含まれている場合に、開始タグ記号が含まれている文の
最終部分に終了タグ記号を補充し、終了タグ記号が含ま
れている文の先頭部分に開始タグ記号を補充するための
タグ記号判別補充部101と、タグ記号をそれが付され
ていた単語と関連づけて記憶するための記憶部17と、
テキスト本体に対して辞書引き・形態素解析処理を行な
うための辞書引き・形態素解析部11と、形態素解析さ
れた入力文章に対して構文解析を行なうための構文解析
部12と、構文解析の結果を変換してターゲット言語の
構造解析木を生成するための変換部13と、変換部13
によって生成されたターゲット言語の構造解析木に基づ
き、かつ記憶部17の内容を参照して、タグ記号が挿入
されたターゲット言語の翻訳文を生成するための翻訳文
生成部14とを含む。
In the translation module of the machine translation device according to the embodiment of the present invention described below, it is assumed that analysis processing up to level L3 is performed. That is, the translation module of the machine translation device of this embodiment has a structure as shown in FIG. With reference to FIG. 2, this translation module separates the source language text source text into a tag symbol and the text itself, and includes a start tag symbol and an end tag symbol in different sentences in the text source text as described later. If the end tag symbol is included, the end tag symbol is supplemented to the end of the sentence that contains the start tag symbol, and the start tag symbol is supplemented to the beginning part of the sentence that contains the end tag symbol. A replenishing unit 101, a storage unit 17 for storing the tag symbol in association with the word to which the tag symbol is attached,
A dictionary lookup / morpheme analysis unit 11 for performing a dictionary lookup / morpheme analysis process on the text body, a syntax analysis unit 12 for performing a syntax analysis on the input sentence subjected to the morpheme analysis, and a result of the syntax analysis. A conversion unit 13 for converting and generating a structure analysis tree of the target language;
And a translation sentence generation unit 14 for generating a translation sentence of the target language in which the tag symbol is inserted, based on the structure analysis tree of the target language generated by and referring to the contents of the storage unit 17.

【0032】さらにこの翻訳モジュールは、辞書引き・
形態素解析部11による解析の結果からタグ記号を抽出
して記憶部17に格納するタグ記号抽出部102と、同
様に辞書引き・形態素解析部11の解析結果に対してタ
グ情報を適用し翻訳に有用な情報を記憶部17に格納す
るためのタグ情報適用部103と、記憶部17の格納内
容を参照して、翻訳文生成部14における翻訳文内に必
要なタグ記号を復元するためのタグ記号復元部104と
を含む。各部で行なわれる処理については、実施例にお
いて詳しく説明する。
Furthermore, this translation module uses a dictionary lookup
A tag symbol extraction unit 102 that extracts a tag symbol from the result of analysis by the morpheme analysis unit 11 and stores it in the storage unit 17, and similarly applies tag information to the analysis result of the dictionary lookup / morpheme analysis unit 11 for translation. A tag for applying necessary information in the translated sentence in the translated sentence in the translated sentence generating unit 14 by referring to the tag information application unit 103 for storing useful information in the memory unit 17 and the stored content in the memory unit 17 The symbol restoration unit 104 is included. The processing performed by each unit will be described in detail in the embodiments.

【0033】図3は、この発明の一実施例の機械翻訳装
置のブロック図である。図3を参照して、この機械翻訳
装置は、メインCPU(中央処理装置)1と、メインC
PU1が接続されたバス7と、バス7に接続されたメイ
ンメモリ2と、バス7に接続されたCRT(陰極線管)
やLCD(液晶表示装置)などからなる表示装置3と、
キーボード4と、バス7に接続された翻訳モジュール5
と、翻訳モジュール5に接続された翻訳用の辞書・文法
規則および木変換構造規則などの知識ベースを格納して
いるメモリ6とを含む。
FIG. 3 is a block diagram of a machine translation apparatus according to an embodiment of the present invention. Referring to FIG. 3, this machine translation device includes a main CPU (central processing unit) 1 and a main C.
A bus 7 to which the PU 1 is connected, a main memory 2 connected to the bus 7, and a CRT (cathode ray tube) connected to the bus 7.
A display device 3 including an LCD or a liquid crystal display device (LCD),
Keyboard 4 and translation module 5 connected to bus 7
And a memory 6 that is connected to the translation module 5 and stores a knowledge base such as a dictionary / grammar rule for translation and a tree conversion structure rule for translation.

【0034】翻訳モジュール5は、ソース言語のテキス
トが入力されると、それを所定の手順で翻訳してターゲ
ット言語のテキストを出力するためのものである。図4
を参照して、翻訳モジュール5は、バス7に接続され、
バス7を介して入力されるソース言語(本実施例の場合
には英語)のテキストを、所定の翻訳プログラムに従っ
て翻訳してターゲット言語(本実施例の場合には日本
語)のテキストとしてバス7に出力するための翻訳CP
U15と、バス7に接続され、翻訳CPU15で実行さ
れる翻訳プログラムを格納するための翻訳プログラムメ
モリ16と、入力されたソース言語のテキスト原文を各
単語ごとに格納するためのバッファAと、バッファAに
格納された各単語につき、メモリ6に含まれる辞書を参
照して得た各単語の品詞、訳語などの情報を格納するた
めのバッファBと、ソース言語の構造解析木に関する情
報を格納するためのバッファCと、バッファCに格納さ
れたソース言語の構造解析木が変換されたターゲット言
語の構造解析木を格納するためのバッファDと、バッフ
ァDに格納された日本語の構造解析木に適切な助詞を助
動詞などを補充して、日本語の形として整えられた文章
を格納するためのバッファEと、後述するタグ除去処理
の際に用いられる、タグや、そのタグが付されている単
語数等を記憶するためのバッファFと、図2に示すタグ
記号判別補充部101で使用されるスタック19とを含
む。これらバッファが記憶部17(図2)に相当する。
When the source language text is input, the translation module 5 translates the text in a predetermined procedure and outputs the target language text. FIG.
And the translation module 5 is connected to the bus 7,
The text in the source language (English in this embodiment) input via the bus 7 is translated according to a predetermined translation program to be used as the text in the target language (Japanese in this embodiment) as the bus 7. Translation CP for output to
U15, a translation program memory 16 connected to the bus 7 for storing a translation program executed by the translation CPU 15, a buffer A for storing an input source language text original text for each word, and a buffer For each word stored in A, a buffer B for storing information such as the part of speech and translation of each word obtained by referring to the dictionary included in the memory 6, and information regarding the structure analysis tree of the source language are stored. Buffer C for storing, a buffer D for storing the structure analysis tree of the target language in which the structure analysis tree of the source language stored in buffer C is converted, and a Japanese structure analysis tree stored in buffer D. A buffer E for storing sentences prepared in Japanese by supplementing appropriate verbs with auxiliary verbs, etc., and used in the tag removal processing described later. Tags and includes a buffer F for storing the number of words such as the tag is attached, and a stack 19 for use in the tag symbol determination replenishment section 101 shown in FIG. These buffers correspond to the storage unit 17 (FIG. 2).

【0035】以下、図2〜図9を参照して、本実施例の
機械翻訳装置による英日翻訳の動作を説明する。なお、
翻訳CPU15で実行される翻訳プログラムの詳細につ
いては後に具体例を用いて詳述する。
The operation of English-Japanese translation by the machine translation apparatus of this embodiment will be described below with reference to FIGS. In addition,
Details of the translation program executed by the translation CPU 15 will be described later using a specific example.

【0036】まず、読込まれたテキスト原文は形態素解
析によって形態素に分解され、タグ記号判別補充部10
1(図2)により、タグ記号とそれ以外のテキスト本体
とに分離される。テキスト本体は図5に示されるように
バッファA(図4参照)に格納される。タグ記号はバッ
ファFに格納される。なおこのときタグ記号判別補充部
101は、テキスト原文において異なる文内に対となる
タグ記号が含まれているか否かを判別する。そして異な
る文内に対となるタグ記号が含まれていると判別された
場合には、それらの文のそれぞれに、マークアップ記号
を補充する。どのようにしてマークアップ記号を補充す
るかについては、図23〜図25などを参照して後述す
る。
First, the read text original sentence is decomposed into morphemes by morphological analysis, and the tag symbol discrimination supplementing unit 10
1 (FIG. 2) separates the tag symbol and the other text body. The text body is stored in buffer A (see FIG. 4) as shown in FIG. The tag symbol is stored in the buffer F. At this time, the tag symbol discrimination supplementing unit 101 discriminates whether or not the text original sentence includes a pair of tag symbols in different sentences. Then, when it is determined that the paired tag symbols are included in the different sentences, the markup symbol is supplemented to each of those sentences. How to supplement the markup symbol will be described later with reference to FIGS.

【0037】続いて翻訳プログラム16に基づく翻訳C
PU15の制御の下に、図2に示される辞書引き・形態
素解析部11が、バッファAに格納された原文の各単語
につき、メモリ6に格納されている辞書を参照すること
により各単語の訳語や品詞情報などの情報を得る。この
情報は図4に示されるバッファBに格納される。これら
の情報の一部として、各単語の品詞情報が含まれるが、
これら品詞情報は図6に示されるように格納される。す
なわち“this”は多品詞語であって代名詞、指示形
容詞の2つの品詞を持つ。また“is”の品詞は動詞で
ある。同様に“a”、“pen”についてもそれぞれの
品詞がバッファBに格納される。“this”は多品詞
語であるが、文中の品詞が何であるかについては、図2
に示される構文解析部12に相当する処理によって一意
に決定される。
Subsequently, a translation C based on the translation program 16
Under the control of the PU 15, the dictionary lookup / morpheme analysis unit 11 shown in FIG. 2 refers to the dictionary stored in the memory 6 for each word of the original sentence stored in the buffer A, and translates each word. And get information such as part-of-speech information. This information is stored in buffer B shown in FIG. As part of this information, part-of-speech information for each word is included,
These parts of speech information are stored as shown in FIG. That is, "this" is a multi-part-of-speech word and has two parts of speech, a pronoun and a referential adjective. The part of speech of "is" is a verb. Similarly, the parts of speech for "a" and "pen" are also stored in the buffer B. Although “this” is a multi-part-of-speech word, the part-of-speech in a sentence is shown in
Is uniquely determined by the process corresponding to the syntax analysis unit 12 shown in FIG.

【0038】翻訳プログラムのうち図2に示される構文
解析部12に相当する処理においては、メモリ6に格納
された辞書および文法規則に従って、各単語間の修飾・
被修飾関係を示す構造解析木がたとえば図7に示される
ように決定される。この構文解析結果は図4のバッファ
Cに格納される。
In the process corresponding to the syntax analysis unit 12 shown in FIG. 2 of the translation program, the modification / interval between each word according to the dictionary and the grammatical rules stored in the memory 6.
The structural analysis tree indicating the modified relationship is determined as shown in FIG. 7, for example. The result of this parsing is stored in the buffer C in FIG.

【0039】構造解析木の決定は次のようにして行なわ
れる。メモリ6に格納された文法規則のうち、英語に関
する文法規則は次のようなものから成り立っている。
The structure analysis tree is determined as follows. Among the grammatical rules stored in the memory 6, the grammatical rules for English are made up of the following.

【0040】文→主部、述部 主部→名詞句 述部→動詞、名詞句 名詞句→代名詞 名詞句→冠詞、名詞 この規則のうちたとえば1つ目の規則は、「文は主部と
述部からできている。」ということを表わす。他の規則
についても同様である。これらの規則に従って構造解析
木が決定されるのである。なお、このような文法規則は
同じように日本語についても用意されており、英語の文
法規則と日本語の文法規則との間で対応づけがなされて
いる。なおこの構造解析において、タグ情報を用いてい
るが、詳細は後述する。
Sentence → main part, predicate main part → noun phrase predicate → verb, noun phrase noun phrase → pronoun noun phrase → article, noun For example, the first rule of these rules is that "sentence is main part" It is made up of predicates. " The same applies to other rules. The structural analysis tree is determined according to these rules. It should be noted that such grammatical rules are similarly prepared for Japanese, and correspondence is made between English grammatical rules and Japanese grammatical rules. Note that tag information is used in this structural analysis, but details will be described later.

【0041】翻訳プログラムのうち、図2に示される変
換部13に相当する処理においては、入力された英文の
構造解析木(図7参照)の構造が、図8に示される日本
文に対する構文解析木の構造に変換される。この変換に
おいては、上述の構文解析部12が利用したのと同様
に、メモリ6に格納されている「木構造変換規則」が用
いられる。この変換は、図1でいえばレベルL3からタ
ーゲット言語のレベルL9への変換に相当する。得られ
た結果は図4に示されるバッファDに格納される。この
説明において用いられている例文“This is a
pen”は、この変換によって日本語文字列「これ
ペン である」に変換されたことになる。
In the process corresponding to the conversion unit 13 shown in FIG. 2 in the translation program, the structure of the input structural analysis tree (see FIG. 7) of the English sentence is parsed for the Japanese sentence shown in FIG. Converted to a tree structure. In this conversion, the “tree structure conversion rule” stored in the memory 6 is used in the same manner as that used by the syntax analysis unit 12 described above. This conversion corresponds to the conversion from the level L3 to the target language level L9 in FIG. The obtained result is stored in the buffer D shown in FIG. The example sentence "This is a" used in this description
"pen" is a Japanese character string "kore
It has been converted to a pen.

【0042】翻訳プログラムのうち図2の翻訳文生成部
14に相当する処理を行なう部分は、得られた日本語文
字列「これ ペン である」に適切な助詞「は」や助動
詞をつけることにより、図9に示されるような文法的な
日本語の形にし、図4に示されるバッファEに格納す
る。この処理は、図1に示されるレベルL9からレベル
L10への変換に相当する。得られた日本文「これはペ
ンである。」は、図4に示される翻訳モジュール5から
出力され、メインメモリ2に格納されるとともに、表示
装置3に表示される。
The portion of the translation program that performs the processing corresponding to the translated sentence generator 14 of FIG. 2 is created by adding an appropriate particle "ha" or auxiliary verb to the obtained Japanese character string "this is a pen". , And stores it in the buffer E shown in FIG. 4 in the grammatical Japanese form as shown in FIG. This process corresponds to the conversion from level L9 to level L10 shown in FIG. The obtained Japanese sentence “This is a pen.” Is output from the translation module 5 shown in FIG. 4, stored in the main memory 2, and displayed on the display device 3.

【0043】次に、図10〜図18を用いて、タグ記号
を含む原文を翻訳する際の処理の詳細を示す。この処理
は、翻訳に先立って、原文に含まれるタグ記号を除去
し、タグ記号を除去した原文を翻訳モジュールの入力と
することに特徴がある。除去したタグ記号は、原文の、
そのタグ記号が付加されていた単語と関連付けて記憶し
ておき、翻訳後の文の、原単語に対応する単語にさらに
この除去されたタグ記号を付加する。
Next, the details of the process for translating the original sentence including the tag symbol will be described with reference to FIGS. This process is characterized in that the tag symbol included in the original sentence is removed prior to translation and the original sentence from which the tag symbol is removed is input to the translation module. The removed tag symbol is the original
The removed tag symbol is added to the word corresponding to the original word in the translated sentence in association with the word to which the tag symbol was added.

【0044】図11は、SGML文書で使用されるタグ
記号の一例を示す。各タグ記号は、開始タグと終了タグ
との組からなり、開始タグと終了タグとによって挟まれ
る単語群をマークアップする。
FIG. 11 shows an example of tag symbols used in an SGML document. Each tag symbol is composed of a set of a start tag and an end tag, and marks up a group of words sandwiched between the start tag and the end tag.

【0045】図11に示されるタグ記号<term><
\term>は、このタグ記号に挟まれた単語群が、特
定の用途に用いられる単語群、たとえば索引として採用
される単語群であることを示す。またタグ記号<emp
h><\emph>は、このタグ記号に挟まれる単語群
を、強調して印刷することを示す。たとえば、このタグ
記号に挟まれる単語群は、印刷時にはボールド体などで
印刷される。
The tag symbol <term><shown in FIG.
\ Term> indicates that the word group sandwiched between the tag symbols is a word group used for a specific purpose, for example, a word group adopted as an index. Also, tag symbol <emp
h><\emph> indicates that the word group sandwiched between the tag symbols is emphasized and printed. For example, the word group sandwiched between the tag symbols is printed in bold type when printing.

【0046】なおタグ記号は文書の形式によって異な
る。たとえば前述のRTFは文書データ交換のためのフ
ォーマットであるが、RTF形式の文書では、開始タグ
は「{\」で始まる文字列であり、終了タグは「}」で
ある。TeX文書においてもタグ記号は同様である。
The tag symbol differs depending on the document format. For example, the RTF described above is a format for exchanging document data, but in a document in the RTF format, the start tag is a character string starting with "{\" and the end tag is "}". The tag symbols are the same in the TeX document.

【0047】図12は、以下の説明で翻訳対象となる英
語のテキスト原文の一例である。この原文は、図4およ
び図5に示すバッファAに格納される。図12に示され
る原文においては、タグ記号<term><\term
>に挟まれた単語または単語群としては、“Tag”と
“table chart”とがある。この2つの単語
または単語群は、たとえばこの文を含む文書についての
索引を作成する際の見出し語となる。かつこのタグ記号
によって挟まれて出現する部分が、索引における各単語
群の出現ページとして記録される。またタグ記号<em
ph><\emph>で挟まれた2つの単語“prod
uce”と“specifying”とは、ともに印刷
時には他の部分と異なる字体、たとえば前述のようなボ
ールド体で印刷される。
FIG. 12 is an example of an English text original sentence to be translated in the following description. This original text is stored in the buffer A shown in FIGS. In the original text shown in FIG. 12, tag symbols <term><\ term
The word or group of words sandwiched between> includes “Tag” and “table chart”. These two words or groups of words serve as headwords when creating an index for a document including this sentence, for example. In addition, the part that appears by being sandwiched between the tag symbols is recorded as the appearance page of each word group in the index. Also, tag symbol <em
Two words “prod” sandwiched between ph><\emph>
Both "use" and "specifying" are printed in a font different from the other portions at the time of printing, for example, the bold font described above.

【0048】図10は、図3に示される翻訳モジュール
5の分離部10および辞書引き形態素解析部11(図
2)によって行なわれる、タグ記号処理の詳細なフロー
チャートである。図10を参照して、まずステップS0
1で、図12に示される入力文がバッファA(図4、5
参照)に格納される。
FIG. 10 is a detailed flowchart of the tag symbol processing performed by the separation unit 10 and the dictionary lookup morpheme analysis unit 11 (FIG. 2) of the translation module 5 shown in FIG. Referring to FIG. 10, first, step S0
1, the input sentence shown in FIG. 12 is buffer A (see FIGS.
Stored).

【0049】ステップS02で、バッファA内に格納さ
れた原文の処理対象となる単語位置を示す単語位置ポイ
ンタが0にセットされる。これにより単語位置ポインタ
によって指し示される原文単語は、“One”である。
In step S02, the word position pointer indicating the word position to be processed in the original sentence stored in the buffer A is set to 0. As a result, the original word pointed by the word position pointer is "One".

【0050】ステップS03では、図11に示されるよ
うなタグ記号のテーブルを参照しながら、現在単語位置
ポインタがポイントしている単語の先頭が開始タグか否
かについての判断が行なわれる。開始タグでないと判断
されれば処理はステップS04に進み、開始タグと判断
された場合には処理はステップS09に進む。
In step S03, it is determined whether or not the beginning of the word currently pointed to by the word position pointer is the start tag while referring to the tag symbol table as shown in FIG. If it is determined that the tag is not the start tag, the process proceeds to step S04, and if it is determined to be the start tag, the process proceeds to step S09.

【0051】ステップS03で開始タグではないと判断
された場合、ステップS04では、単語位置ポインタに
よってポイントしている単語が終了タグか否かについて
の判断が行なわれる。終了タグであれば処理はステップ
S08に進み,終了タグでない場合は処理はステップS
05に進む。
When it is determined in step S03 that the word is not the start tag, it is determined in step S04 whether the word pointed by the word position pointer is the end tag. If it is an end tag, the process proceeds to step S08. If it is not the end tag, the process is step S08.
Go to 05.

【0052】単語位置ポインタによってポイントされて
いる単語が開始タグでも終了タグでもない場合にはステ
ップS05で、現在単語位置ポインタによってポイント
されている単語をバッファB(図4参照)に格納する処
理が行なわれ、処理はステップS06に進む。終了タグ
であると判断された場合にはステップS08で、その終
了タグを削除したうえ単語位置ポインタによってポイン
トされている単語をバッファBに格納する処理が行なわ
れて処理はステップS06に進む。
If the word pointed by the word position pointer is neither a start tag nor an end tag, a process of storing the word currently pointed by the word position pointer in the buffer B (see FIG. 4) in step S05. After that, the process proceeds to step S06. When it is determined that the tag is the end tag, in step S08, the process of deleting the end tag and storing the word pointed by the word position pointer in the buffer B is performed, and the process proceeds to step S06.

【0053】一方、ステップS03で単語位置ポインタ
によってポイントされている単語の先頭が開始タグであ
ると判断された場合には、ステップS09でその開始タ
グをバッファF(図4参照)に格納する処理が行なわれ
る。
On the other hand, when it is determined in step S03 that the beginning of the word pointed by the word position pointer is the start tag, the start tag is stored in the buffer F (see FIG. 4) in step S09. Is performed.

【0054】そしてステップS10で、この開始タグが
検出された文中の単語位置(すなわち単語位置ポインタ
の値)を、ステップS09で格納された開始タグに関連
付けてバッファFに格納する処理が行なわれる。
Then, in step S10, the word position (that is, the value of the word position pointer) in the sentence in which the start tag is detected is stored in the buffer F in association with the start tag stored in step S09.

【0055】ステップS11では、終了タグがあるかど
うかについての判断が行なわれる。終了タグが存在する
場合には処理はステップS12に進み、存在しない場合
には処理はステップS14に進む。
In step S11, it is determined whether or not there is an end tag. If the end tag exists, the process proceeds to step S12, and if not, the process proceeds to step S14.

【0056】ステップS12では、単語数「1」を、ス
テップS09で格納された開始タグに関連付けてバッフ
ァFに格納する処理が行なわれる。
In step S12, the word number "1" is stored in the buffer F in association with the start tag stored in step S09.

【0057】さらにステップS13では、入力原文の、
単語位置ポインタによって指定された単語に付加されて
いる開始タグおよび終了タグを削除した上、バッファB
に格納する処理が行なわれ、処理はステップS06に進
む。
Further, in step S13,
The start tag and end tag attached to the word designated by the word position pointer are deleted, and the buffer B is deleted.
Processing is performed, and the processing proceeds to step S06.

【0058】一方、ステップS14に処理が進んだ場
合、まず終了タグまでの単語数をカウントする処理が行
なわれる。カウントされた単語数はステップS09でバ
ッファFに格納された開始タグに関連付けて、同様にバ
ッファFに格納される。
On the other hand, when the process proceeds to step S14, the number of words up to the end tag is first counted. The counted number of words is similarly stored in the buffer F in association with the start tag stored in the buffer F in step S09.

【0059】さらにステップS15で、単語位置ポイン
タによって指し示される単語に付加されている開始タグ
を削除した上この単語をバッファBに格納する処理が行
なわれる。処理はステップS06に進む。
Further, in step S15, a process of deleting the start tag added to the word pointed by the word position pointer and storing this word in the buffer B is performed. The process proceeds to step S06.

【0060】ステップS06では、バッファA内に次の
単語が存在しているか否かについての判断が行なわれ
る。存在する場合には処理はステップS07に進み、そ
れ以外の場合には処理はステップS16に進む。
In step S06, it is determined whether or not the next word is present in buffer A. If it exists, the process proceeds to step S07, and if not, the process proceeds to step S16.

【0061】ステップS07では、単語位置ポインタを
インクリメントする処理が行なわれ、処理はステップS
03に戻る。以下、上述した処理が繰返し行なわれる。
そしてバッファA内に処理対象の単語が存在しなくなる
と処理がステップS16に進む。
In step S07, a process of incrementing the word position pointer is performed, and the process proceeds to step S07.
Return to 03. Hereinafter, the above-mentioned processing is repeated.
When the word to be processed does not exist in the buffer A, the process proceeds to step S16.

【0062】ステップS16では、バッファBに格納さ
れている各見出し語に対して辞書引き処理が行なわれ
る。この結果、各見出し語に対して品詞および単語数の
情報がバッファB内に格納される。
In step S16, a dictionary lookup process is performed on each entry word stored in buffer B. As a result, the information on the part of speech and the number of words for each headword is stored in the buffer B.

【0063】さらにステップS17では、辞書引き処理
が行なわれたバッファBの結果に、さらにバッファFに
格納されているタグ記号についての情報を付加する処理
が行なわれる。このタグ記号の付加は、各見出し語のう
ち、原文内でタグ記号が付加されていた見出し語に、そ
の付加されていたタグ記号を示す情報を付加する処理で
ある。
Further, in step S17, a process of further adding information about the tag symbol stored in the buffer F to the result of the buffer B subjected to the dictionary lookup process is performed. The addition of the tag symbol is a process of adding information indicating the added tag symbol to the entry word to which the tag symbol is added in the original sentence, among the entry words.

【0064】以下、図12に示される原文につき、図1
0に示される処理を行なった場合の処理の経過について
説明する。まず、単語位置ポインタを0にセットするこ
とにより単語“One”が単語位置ポインタによってポ
イントされる。ステップS03、ステップS04の判断
の結果はいずれも“NO”となるため、ステップS05
でこの単語“One”がバッファBに格納される。ステ
ップS06では、次の単語が存在するために判断の答は
YESとなり処理はステップS07に進む。単語位置ポ
インタの値が1インクリメントされるため、単語位置ポ
インタによってポイントされる単語は次の単語“of”
となる。
The original text shown in FIG. 12 is shown in FIG.
The progress of processing when the processing indicated by 0 is performed will be described. First, the word "One" is pointed to by the word position pointer by setting the word position pointer to zero. Since the results of the determinations in step S03 and step S04 are both "NO", step S05
Then, the word "One" is stored in the buffer B. In step S06, the determination result is YES because the next word exists, and the process proceeds to step S07. Since the value of the word position pointer is incremented by 1, the word pointed by the word position pointer is the next word "of".
Becomes

【0065】以下、単語“of”〜“this”まで、
上述と同様の処理が繰返され、バッファBにはこれらの
単語が順にその単語位置とともに格納される。
Hereinafter, from the words "of" to "this",
The same processing as described above is repeated, and these words are sequentially stored in buffer B together with their word positions.

【0066】単語位置ポインタが8となった場合、ステ
ップS03における判断の答かYESとなり、処理はス
テップS09に進む。ステップS09では、検出された
開始タグ(この場合<term>)をバッファFに格納
する処理が行なわれ、さらにステップS10で、その単
語位置も同様にバッファFに格納される。ステップS1
1の判断はYESとなるため、ステップS12の処理に
より単語数「1」がバッファFに格納される。この結
果、バッファFに格納される、単語“Tag”に関する
タグ記号情報は、図13の第1行目に示されるものとな
る。さらにステップS13では、開始タグおよび終了タ
グを削除した上、単語“Tag”をバッファBに格納す
る処理が行なわれる。
If the word position pointer is 8, the answer is YES or NO in step S03, and the process proceeds to step S09. In step S09, the process of storing the detected start tag (<term> in this case) in buffer F is performed, and in step S10, the word position is also stored in buffer F. Step S1
Since the determination of 1 is YES, the word number “1” is stored in the buffer F by the processing of step S12. As a result, the tag symbol information regarding the word "Tag" stored in the buffer F becomes the information shown in the first line of FIG. Further, in step S13, the processing of deleting the start tag and the end tag and storing the word "Tag" in the buffer B is performed.

【0067】以下このように単語位置ポインタをインク
リメントしながら各単語につき開始タグ、終了タグの有
無を判断し、タグ記号を除去しながら各単語をバッファ
Bに格納していく。これにより、バッファBには図14
に示される情報が得られる。またバッファFには、図1
3に示されるようなタグ記号に関する情報が得られる。
The presence or absence of the start tag and end tag for each word is determined while incrementing the word position pointer in this way, and each word is stored in the buffer B while removing the tag symbol. As a result, the buffer B shown in FIG.
The information shown in is obtained. Further, in the buffer F, as shown in FIG.
Information about the tag symbol as shown in 3 is obtained.

【0068】図13および図14を参照して、単語位置
8の単語、すなわち単語“Tag”には、タグ記号<t
erm>が付加されており、このタグ記号によって挟ま
れている単語はこの一語のみであることがわかる。同様
に単語“produce”にもタグ記号<emph>が
付加されている。また単語群“table char
t”は、この2語の前後をタグ記号<term><\t
erm>で挟まれている。さらに単語位置25の単語
“specifying”も、その前後をタグ記号<e
mph><\emph>で挟まれている。
Referring to FIGS. 13 and 14, the tag symbol <t is added to the word at word position 8, that is, the word “Tag”.
erm> is added, and it is understood that this word is the only word sandwiched by the tag symbols. Similarly, the tag symbol <emph> is added to the word "produce". In addition, the word group "table char
t "is the tag symbol <term><\ t before and after these two words.
It is sandwiched by erm>. Furthermore, the word "specifying" at the word position 25 has the tag symbol <e before and after it.
It is sandwiched between mph><\emph>.

【0069】さらにステップS16において行なわれる
辞書引き処理により、バッファBの格納内容は図15に
示されるようになる。すなわち各見出し語には、辞書引
き処理によって得られた品詞および単語数に関する情報
が付加される。ただし、図15においては各見出し語に
付加される品詞および単語数の具体的な内容については
図の簡単化のために省略している。
Further, as a result of the dictionary lookup processing performed in step S16, the contents stored in the buffer B are as shown in FIG. That is, the information about the part of speech and the number of words obtained by the dictionary lookup process is added to each headword. However, in FIG. 15, specific contents of the part of speech and the number of words added to each headword are omitted for simplification of the drawing.

【0070】ステップS17では、図13に示されるバ
ッファFの内容を、バッファB内の各見出し語に付加す
る処理が行なわれる。この処理は、図13のバッファF
の単語位置によって示されるバッファB内の単語に、バ
ッファFに保存されているタグ記号を付加することによ
って行なわれる。すなわち、第8番目の単語“Tag”
にはタグ記号<term>が付加される。同様に単語位
置14の単語“produce”にはタグ記号<emp
h>が付加される。また単語位置15番目から始まる2
つの単語“table chart”にも各々タグ記号
<term>が付加される。この図13に示されるバッ
ファFの情報において、単語位置15から始まる2つの
単語にタグ記号<term>を付加することが示されて
いるからである。また単語位置25の単語“speci
fying”にも、タグ記号<emph>が付加され
る。
In step S17, the process of adding the contents of buffer F shown in FIG. 13 to each entry word in buffer B is performed. This process is performed by the buffer F in FIG.
This is done by adding the tag symbol stored in buffer F to the word in buffer B indicated by the word position of. That is, the 8th word "Tag"
Is added with a tag symbol <term>. Similarly, for the word "produce" at word position 14, the tag symbol <emp
h> is added. Also, 2 starting from the 15th word position
The tag symbol <term> is also added to each of the two words “table chart”. This is because the information of the buffer F shown in FIG. 13 indicates that the tag symbol <term> is added to two words starting from the word position 15. In addition, the word "speci
The tag symbol <emph> is also added to "fying".

【0071】以下、バッファBに格納されている各見出
し語と、その品詞、単語数などに基づいて図3の構文解
析部12、変換部13によって通常どおりの翻訳処理が
行なわれる。そして最終的に生成部14によって訳文が
生成される。
Thereafter, based on each headword stored in the buffer B, its part of speech, the number of words, and the like, the parsing unit 12 and the conversion unit 13 in FIG. 3 perform the usual translation processing. Finally, the generation unit 14 generates a translated sentence.

【0072】このとき、生成部14は、生成しようとす
る単語に対応する入力部の単語がタグの情報をもつ場合
には、その訳語の前後に、図16に示されるバッファB
の内容によって示される開始タグおよび終了タグを生成
する。対応する単語にタグの情報がない場合には通常ど
おり訳語だけが生成される。
At this time, when the word in the input section corresponding to the word to be generated has tag information, the generating section 14 inserts the buffer B shown in FIG. 16 before and after the translated word.
Generates the start and end tags indicated by the contents of. If the corresponding word has no tag information, only the translated word is generated as usual.

【0073】この生成処理につき、図17および図18
を参照して以下に説明する。図17に示されるステップ
S21〜S27の処理は、構造解析木の「葉」の部分の
各単語について行なわれる。まずステップS21で、或
る単語につき、バッファB内のその単語に対応する「タ
グ情報」の欄(図16参照)を調べ、タグ情報が存在す
るか否かについての判断を行なう。存在する場合には制
御はステップS22に、そうでない場合には制御はステ
ップS26にそれぞれ進む。
This generation processing will be described with reference to FIGS. 17 and 18.
Will be described below. The processing of steps S21 to S27 shown in FIG. 17 is performed for each word in the “leaf” portion of the structure analysis tree. First, in step S21, for a certain word, the column of "tag information" (see FIG. 16) corresponding to the word in the buffer B is checked to determine whether or not the tag information exists. If so, the control proceeds to step S22, and if not, the control proceeds to step S26.

【0074】ステップS22では、バッファBに格納さ
れていた開始タグをまずバッファEに格納する処理が行
なわれる。
In step S22, the start tag stored in buffer B is first stored in buffer E.

【0075】続いてステップS23で、処理中の単語に
対応する訳語をバッファBからバッファEに格納する処
理が行なわれる。
Subsequently, in step S23, a process of storing the translated word corresponding to the word being processed in the buffer B to the buffer E is performed.

【0076】続いてステップS24で、終了タグをバッ
ファBからバッファEに格納する処理が行なわれる。
Subsequently, in step S24, a process of storing the end tag in the buffer B to the buffer E is performed.

【0077】ステップS24の後ステップS25で、こ
の訳語に付加するべき適当な助詞が選ばれ、バッファE
に格納される。ステップS25の後、制御はステップS
27に進む。
In step S25 after step S24, an appropriate particle to be added to this translated word is selected, and the buffer E
Stored in. After step S25, the control is step S
Proceed to 27.

【0078】一方、ステップS21でバッファBにタグ
情報が存在しないと判断された場合、制御はステップS
26に進む。ステップS26では、タグ情報に関する処
理は行なわれない。すなわちステップS22、S24に
対応する処理は行なわれず、単に訳語をバッファBから
バッファEに格納する処理が行なわれる。ステップS2
6の後、制御はステップS25に進む。
On the other hand, if it is determined in step S21 that the tag information does not exist in the buffer B, the control is performed in step S
Proceed to 26. In step S26, no processing regarding tag information is performed. That is, the process corresponding to steps S22 and S24 is not performed, but the process of simply storing the translated word from buffer B to buffer E is performed. Step S2
After 6, the control proceeds to step S25.

【0079】ステップS27では、処理対象となってい
る構造解析木の最後の単語まで到達したかどうかについ
ての判断が行なわれる。到達していない場合には制御は
ステップS21に戻り、ステップS21以下の処理が繰
返し行なわれる。もし終了であればこの生成処理も終了
する。
In step S27, it is determined whether or not the last word of the structure analysis tree to be processed has been reached. If it has not reached, control returns to step S21, and the processing from step S21 onward is repeated. If it is finished, this generation process is also finished.

【0080】このようにして生成されたバッファEの内
容を図18に示す。この図18に示される翻訳文は、図
12に示される原文に対応するものである。なお、連続
する複数個の単語について同一のタグ情報が付されてい
る場合には、その先頭の単語に対応する訳語の前に開始
タグを、最後の単語の後に終了タグをそれぞれ付加す
る。図18はそのようにして得られたものである。
The contents of the buffer E thus generated are shown in FIG. The translated sentence shown in FIG. 18 corresponds to the original sentence shown in FIG. When the same tag information is attached to a plurality of consecutive words, a start tag is added before the translated word corresponding to the first word and an end tag is added after the last word. FIG. 18 is thus obtained.

【0081】図9は、本発明の機械翻訳装置の構成を示
すブロック図であり、概略は図2を参照して既に述べた
とおりである。なおタグ記号判別補充部101は、入力
されるテキスト原文内の異なる文に対となるタグ記号が
存在するか否かを判別するためのタグ記号判別部101
aと、タグ記号判別部101aにより、テキスト原文の
異なる文内に、対となるタグ記号が存在していると判別
された場合に、必要なタグ記号を補充するためのタグ記
号補充部101bとを含む。
FIG. 9 is a block diagram showing the configuration of the machine translation apparatus of the present invention, and the outline is as already described with reference to FIG. The tag symbol discrimination supplementing unit 101 discriminates whether or not there is a pair of tag symbols in different sentences in the input text original sentence.
a and a tag symbol supplementing unit 101b for supplementing a necessary tag symbol when the tag symbol discriminating unit 101a discriminates that there is a pair of tag symbols in different sentences of the text original sentence. including.

【0082】記憶部17は、タグ記号を記憶するタグ記
号記憶部171とタグ情報を記憶するタグ情報記憶部1
72とを含む。
The storage unit 17 includes a tag symbol storage unit 171 for storing tag symbols and a tag information storage unit 1 for storing tag information.
72 and 72.

【0083】ソース言語のテキスト原文は入力部31に
よりタグ記号判別補充部101に与えられる。またター
ゲット言語の翻訳文は翻訳モジュール5から出力部32
に与えられる。
The source text original text is given to the tag symbol discrimination supplementing section 101 by the input section 31. In addition, the translation sentence of the target language is output from the translation module 5 to the output unit 32.
Given to.

【0084】図20および図21は、図17の生成処理
にさらに改良を加えた、本発明の実施例に従う生成処理
のフローチャートである。このフローチャートに従った
生成処理を行なうことにより、タグ記号を含む文の翻訳
で翻訳結果の訳語ごとにタグ記号を復元する場合に、同
じタグ記号が連続する場合には中間のタグ記号を省略し
て出力することができる。この場合同じタグ記号が連続
するとは、たとえば同一種類のタグ記号のタグ終了記号
とタグ開始記号とが連続して含まれるような場合、相互
にその効果を相殺できるような場合をいう。
20 and 21 are flowcharts of the generation process according to the embodiment of the present invention, which is a modification of the generation process of FIG. By performing the generation process according to this flowchart, when restoring the tag symbol for each translated word of the translation result in the translation of the sentence including the tag symbol, if the same tag symbol continues, the intermediate tag symbol is omitted. Can be output. In this case, the fact that the same tag symbol is continuous means, for example, that the tag end symbol and the tag start symbol of the same type of tag symbol are consecutively included, and the effects thereof can be offset each other.

【0085】まずステップS201でタグフラグを0に
セットする。この場合のタグフラグとは、タグ記号を復
元するか省略するかを後で判断するためのフラグであ
る。
First, in step S201, the tag flag is set to 0. The tag flag in this case is a flag for later determining whether to restore or omit the tag symbol.

【0086】続いてステップS202で、訳語ポインタ
を木変換バッファDの先頭にセットする。
Then, in step S202, the translated word pointer is set at the head of the tree conversion buffer D.

【0087】さらにステップS203で、訳語ポインタ
の指す訳語が、バッファBに対応のタグ情報を持ってい
るかどうかを判別する。すなわちバッファBの、訳語ポ
インタの指す訳語に対応するタグ部分にタグがあるか、
あるいは空白かを判断する。
Further, in step S203, it is determined whether or not the translated word pointed by the translated word pointer has the corresponding tag information in the buffer B. That is, whether there is a tag in the tag portion of the buffer B corresponding to the translated word pointed by the translated word pointer,
Or it is determined whether it is blank.

【0088】タグ情報がない場合には通常と同じくステ
ップS213で訳語をバッファBから読出してバッファ
Eに格納する。この後制御は図21のステップS214
に続くが、その部分は後述する。
If there is no tag information, the translated word is read from the buffer B and stored in the buffer E in step S213 as usual. After this, the control is step S214 in FIG.
, Which will be described later.

【0089】一方タグ情報が存在する場合には、ステッ
プS204でタグフラグが1かどうかを判別する。タグ
フラグとは後述するように、現在の訳語がタグを持って
いて、次の訳語もタグを持っていて、かつ両方のタグが
同じものであるときに1になる。これについてはステッ
プS211を参照して後述する。タグフラグが1であれ
ばタグ記号を省略し、1でなければ該当のタグ符号を復
元すればよい。
On the other hand, when the tag information exists, it is determined in step S204 whether the tag flag is 1 or not. As will be described later, the tag flag is 1 when the current translation has a tag, the next translation also has a tag, and both tags are the same. This will be described later with reference to step S211. If the tag flag is 1, the tag symbol may be omitted, and if it is not 1, the corresponding tag code may be restored.

【0090】タグフラグが1でなければステップS20
5でタグをバッファBから取出し、バッファEに格納す
る。最初にこの処理を行なう場合にはタグフラグは0で
あるので必ずタグが復元されることになる。
If the tag flag is not 1, step S20
In step 5, the tag is fetched from buffer B and stored in buffer E. When this process is performed first, the tag flag is 0, so the tag is always restored.

【0091】一方ステップS204でタグフラグが1で
あればタグをバッファBから読出してバッファEに格納
することなく、単にタグフラグを0にセットする。ステ
ップS205およびS206の後制御はステップS20
7に進む。
On the other hand, if the tag flag is 1 in step S204, the tag is read from the buffer B and stored in the buffer E, and the tag flag is simply set to 0. The control after step S205 and S206 is step S20.
Proceed to 7.

【0092】ステップS207では、訳語をバッファB
からバッファEに格納する処理を行なう。
In step S207, the translated word is stored in the buffer B.
To the buffer E.

【0093】続いて図21のステップS208を参照し
て、次の訳語がバッファBにタグを持っているかどうか
についての判別を行なう。タグがあれば、現在の訳語が
持っているタグと、次の訳語が持っているタグとが等し
いかどうかをステップS209で判別する。両者が等し
くなければ制御はステップS210に進む。両者が等し
ければ制御はステップS211に進む。
Subsequently, with reference to step S208 in FIG. 21, it is determined whether or not the next translated word has a tag in the buffer B. If there is a tag, it is determined in step S209 whether the tag possessed by the current translation and the tag possessed by the next translation are equal. If they are not equal, control proceeds to step S210. If the two are equal, control proceeds to step S211.

【0094】ステップS210には、次の訳語がタグを
持っていない場合、または次の訳語がタグを持ってはい
るが現在の訳語が持っているタグとは等しくない場合に
制御が進む。この場合には現在の訳語が持っているタグ
に対応する終了タグを対応表(図11)から求める。
In step S210, if the next translated word has no tag, or if the next translated word has a tag but is not equal to the tag held by the current translated word, control proceeds. In this case, the end tag corresponding to the tag of the current translated word is obtained from the correspondence table (FIG. 11).

【0095】続いてステップS212で、求められた終
了タグをバッファEに格納して制御はステップS214
に進む。
Subsequently, in step S212, the obtained end tag is stored in the buffer E, and control is performed in step S214.
Proceed to.

【0096】一方ステップS211ではタグフラグに1
をセットする。すなわち次の訳語がタグを持っていて、
かつ現在の訳語を持っているタグと次の訳語が持ってい
るタグとが等しい場合に、タグフラグが1にセットされ
る。このときタグ記号はバッファEには格納されない。
ステップS211の後制御はステップS214に進む。
ステップS214では、適当な助詞をバッファEに格納
する。
On the other hand, in step S211, the tag flag is set to 1
Set. That is, the following translation has a tag,
The tag flag is set to 1 when the tag having the current translation and the tag having the next translation are equal. At this time, the tag symbol is not stored in the buffer E.
After step S211, control proceeds to step S214.
In step S214, an appropriate particle is stored in the buffer E.

【0097】続いてステップS215で訳語ポインタを
1つ進める。さらにステップS216では、1つ進めら
れた訳語ポインタの指す場所にデータ(訳語)が存在す
るかどうかを判別する。データがあれば再び図20のス
テップS203に制御を戻し、上述の処理を繰返し行な
う。訳語が存在しなければこの処理を終了する。
Subsequently, in step S215, the translation word pointer is advanced by one. Further, in step S216, it is determined whether or not the data (translated word) exists at the position pointed to by the translated word pointer that is advanced by one. If there is data, the control is returned to step S203 of FIG. 20 again, and the above processing is repeated. If there is no translated word, this process ends.

【0098】このようにして得られた翻訳結果のバッフ
ァEの内容を示すのが図22である。図18に示した、
改良前のタグ記号復元処理では、図18に示したように
「<term>テーブル<\term><term>チ
ャート<\term>」の部分で同じタグ記号が繰返し
現れている。しかし第22図に示される本発明の結果で
は、改行部分は「<term>テーブルチャート<\t
erm>」となっており、タグ記号が省略されているこ
とがわかる。
FIG. 22 shows the contents of the translation result buffer E thus obtained. As shown in FIG.
In the tag symbol restoration process before improvement, the same tag symbol repeatedly appears in the portion of “<term> table <\ term><term> chart <\ term>” as shown in FIG. However, in the result of the present invention shown in FIG. 22, the line feed portion is "<term> table chart <\ t
erm> ”, it can be seen that the tag symbol is omitted.

【0099】以上のように、タグ記号を含む文の翻訳
で、翻訳結果の訳語ごとにタグ記号を復元するとき、同
じタグ記号が連続する場合には中間のタグ記号を省略し
て出力することができる。このように中間のタグ記号を
省略して出力しても、得られる翻訳結果には、元のタグ
記号が正しく反映されていると考えられる。しかも余分
なタグ記号が省略されているので、記憶領域が節約でき
るとともに、処理の高速化を図ることができる。
As described above, in the translation of a sentence including a tag symbol, when the tag symbol is restored for each translated word of the translation result, when the same tag symbol continues, the intermediate tag symbol is omitted and output. You can Thus, even if the intermediate tag symbol is omitted and output, it is considered that the obtained translation result correctly reflects the original tag symbol. Moreover, since the extra tag symbols are omitted, the storage area can be saved and the processing speed can be increased.

【0100】続いてタグ記号判別補充部101の動作を
図23〜図25を参照して説明する。図23〜図25
は、タグ記号判別補充部101で行なわれる処理の内容
を示す。
Next, the operation of the tag symbol discrimination replenishing unit 101 will be described with reference to FIGS. 23 to 25
Indicates the contents of the processing performed by the tag symbol discrimination supplementation unit 101.

【0101】まずステップS221で文ポインタを1に
セットする。文ポインタとは、文書内の1文ごとを指す
ポインタである。
First, in step S221, the sentence pointer is set to 1. A sentence pointer is a pointer that points to each sentence in a document.

【0102】図26に入力文書の一例を示す。この入力
文書では、開始タグ1と終了タグ1、開始タグ2と終了
タグ2がそれぞれ対応するものとする。文ポインタはま
ず最初の文にセットされる。
FIG. 26 shows an example of the input document. In this input document, the start tag 1 and the end tag 1 correspond to each other, and the start tag 2 and the end tag 2 correspond to each other. The statement pointer is set to the first statement first.

【0103】再び図23を参照して、ステップS222
で、単語ポインタを1にセットする。単語ポインタと
は、1文内の単語を先頭から文末まで順に指していくポ
インタである。
Referring again to FIG. 23, step S222
Then, the word pointer is set to 1. The word pointer is a pointer that sequentially points the words in one sentence from the beginning to the end of the sentence.

【0104】ステップS223でスタックポインタを1
にセットする。このスタックは図4に示されるスタック
19である。スタック19にはタグ記号がスタックさ
れ、これを参照することによりタグが複数の文に跨がっ
ているか否かが判断される。
In step S223, the stack pointer is set to 1
Set to. This stack is the stack 19 shown in FIG. Tag symbols are stacked on the stack 19, and it is determined by referring to them whether or not the tag spans a plurality of sentences.

【0105】ステップS224で、単語ポインタが指す
単語位置にあるものが開始タグかどうかを判別する。開
始タグである場合にはステップS225でタグをスタッ
クへ入れ、ステップS226でスタックポインタを1加
算してステップS233に進む。
In step S224, it is determined whether the one at the word position pointed to by the word pointer is the start tag. If it is a start tag, the tag is put on the stack in step S225, the stack pointer is incremented by 1 in step S226, and the process proceeds to step S233.

【0106】図27にスタックの一例を簡略に示す。ス
テップS224で、単語ポインタが指す位置に存在する
ものが開始タグではないと判断された場合、制御は図2
4のステップS227に進む。ステップS227では、
単語ポインタが指す位置に終了タグが存在するかどうか
についての判断が行なわれる。終了タグでない場合には
制御は図23のステップS233に進む。
FIG. 27 schematically shows an example of the stack. When it is determined in step S224 that the one existing at the position pointed by the word pointer is not the start tag, the control is performed as shown in FIG.
4 proceeds to step S227. In step S227,
A determination is made as to whether there is an end tag at the position pointed to by the word pointer. If it is not the end tag, the control proceeds to step S233 in FIG.

【0107】終了タグである場合には、ステップS22
8でスタック内に開始タグが存在するかどうかを判別す
る。スタックに開始タグがある場合にはその開始タグを
ステップS229で取出し、ステップS230でスタッ
クポインタを1減算する。ステップS230の後制御は
ステップS233(図23)に進む。
If it is the end tag, step S22.
At 8 it is determined whether there is a start tag in the stack. If the stack has a start tag, the start tag is taken out in step S229, and the stack pointer is decremented by 1 in step S230. After step S230, the control proceeds to step S233 (FIG. 23).

【0108】一方ステップS228でスタック内に開始
タグがないと判断された場合、制御はステップS231
に進み、終了タグをスタックへコピーし、ステップS2
32でスタックポインタを1加算して図23のステップ
S233に進む。
On the other hand, if it is determined in step S228 that there is no start tag in the stack, control proceeds to step S231.
Go to, copy the end tag to the stack, step S2
At 32, the stack pointer is incremented by 1, and the process proceeds to step S233 in FIG.

【0109】ステップS233では、単語ポインタを1
加算する。続いてステップS234で、単語ポインタが
指す場所に単語があれば制御をステップS224に戻
し、以下ステップS224〜S234の処理を繰返す。
In step S233, the word pointer is set to 1
to add. Subsequently, in step S234, if there is a word at the location pointed to by the word pointer, the control is returned to step S224, and the processes of steps S224 to S234 are repeated.

【0110】単語ポインタが進んで文末までくると処理
は図25のステップS235に進む。ステップS235
では、スタックにタグがあるかどうかを判別する。タグ
がなければ制御はステップS244に進む。タグがなけ
れば制御はステップS236に進む。
When the word pointer advances to the end of the sentence, the process proceeds to step S235 in FIG. Step S235
Now, determine if there is a tag on the stack. If there is no tag, control proceeds to step S244. If there is no tag, control proceeds to step S236.

【0111】ステップS236では、そのタグが開始タ
グかどうかについての判別を行なう。そのタグが開始タ
グであれば制御はステップS237に進む。
In step S236, it is determined whether the tag is a start tag. If the tag is a start tag, control proceeds to step S237.

【0112】ステップS237では、その開始タグに対
応する終了タグを図11の対応表から求める処理が行な
われる。
In step S237, a process of obtaining the end tag corresponding to the start tag from the correspondence table of FIG. 11 is performed.

【0113】続いてステップS238でこの終了タグを
文末に付加する処理が行なわれる。たとえば図26に示
される例では、2番目の文が開始タグ2だけを含むため
に、このステップS237、S238の処理が行なわれ
る。ここでステップS238で終了タグを文末に付加し
た結果が図29の2番目の文である。
Subsequently, in step S238, processing for adding the end tag to the end of the sentence is performed. For example, in the example shown in FIG. 26, since the second sentence includes only start tag 2, the processes of steps S237 and S238 are performed. Here, the result of adding the end tag to the end of the sentence in step S238 is the second sentence in FIG.

【0114】続いてステップS239で開始タグをスタ
ックから取出し、この開始タグをステップS240でタ
グ記憶バッファに保存する。この状態を図28に示す。
Subsequently, in step S239, the start tag is extracted from the stack, and this start tag is stored in the tag storage buffer in step S240. This state is shown in FIG.

【0115】さらにステップS241でスタックポイン
タを1減算して制御はステップS244に進む。
Further, in step S241, the stack pointer is decremented by 1, and the control proceeds to step S244.

【0116】一方ステップS236でスタックにあるタ
グが開始タグでないと判断された場合制御はステップS
242に進む。この場合スタックには終了タグが存在し
ている。ステップS242ではタグ記憶バッファに保存
していた開始タグを取出し、その開始タグを文頭に付加
する(ステップS243)。この結果が図29の3番目
の文に示されている。ステップS243の後制御はステ
ップS244に進む。
On the other hand, if it is determined in step S236 that the tag on the stack is not the start tag, control proceeds to step S236.
Proceed to 242. In this case, there is an end tag in the stack. In step S242, the start tag stored in the tag storage buffer is taken out and the start tag is added to the beginning of the sentence (step S243). The result is shown in the third sentence of FIG. After step S243, control proceeds to step S244.

【0117】ステップS244では文ポインタを1加算
し、ステップS245でさらに処理すべき文があるかど
うかについての判断を行なう。文があれば制御は図23
のステップS222に戻り、以上の処理を繰返し行な
う。処理対象となる文が無くなればこの処理は終了す
る。
In step S244, the sentence pointer is incremented by 1, and it is determined in step S245 whether or not there is a sentence to be further processed. If there is a sentence, control is shown in FIG.
Returning to step S222, the above processing is repeated. If there is no sentence to be processed, this process ends.

【0118】以上のようにして図26に示される入力文
書を処理した結果が図29に示されている。入力文書に
おいてタグが複数の文に跨がっている場合、以上の処理
により個々の文で開始タグと終了タグとの対応が取れる
ようにタグが補充される。そのようにタグが補充された
文に対して翻訳処理が行なわれる。したがってタグが複
数の文に跨がっている場合にも、タグの情報を失うこと
なく翻訳文にタグ情報を復元して翻訳文を生成すること
ができる。図30に、図2の辞書引き形態素解析部11
で行なわれる処理において、タグ情報を抽出し利用する
ことにより、構文解析部12で行なわれる構文解析をよ
り正確かつ高速に行なう処理である。図30はタグ情報
適用部103で行なわれる処理を示すフローチャートで
ある。
FIG. 29 shows the result of processing the input document shown in FIG. 26 as described above. When the tags span a plurality of sentences in the input document, the tags are supplemented by the above processing so that the start tag and the end tag can be associated with each sentence. The translation processing is performed on the sentence in which the tag is supplemented in this way. Therefore, even when the tag spans a plurality of sentences, the tag information can be restored to the translated sentence to generate the translated sentence without losing the tag information. FIG. 30 shows the dictionary lookup morpheme analysis unit 11 of FIG.
In the process performed in step S1, the syntactic analysis performed by the syntactic analysis unit 12 is performed more accurately and at high speed by extracting and using the tag information. FIG. 30 is a flowchart showing the processing performed by the tag information application unit 103.

【0119】まずステップS271でタグ記号記憶バッ
ファを読込む処理が行なわれる。この場合タグ記号記憶
バッファとしては図13に示すバッファFが対応する。
First, in step S271, a process of reading the tag symbol storage buffer is performed. In this case, the buffer F shown in FIG. 13 corresponds to the tag symbol storage buffer.

【0120】ステップS272でバッファポインタを1
にセットする。バッファポインタはバッファFの先頭か
らのデータを順に指定するポインタである。
In step S272, the buffer pointer is set to 1
Set to. The buffer pointer is a pointer that sequentially designates data from the beginning of the buffer F.

【0121】ステップS273でバッファポインタの指
すデータの単語数が1より大きいかどうかを判別する。
1より大きければ制御はステップS274に進み、さも
なければ制御はステップS275に進む。
In step S273, it is determined whether the number of words in the data pointed to by the buffer pointer is greater than one.
If it is greater than 1, control proceeds to step S274, otherwise control proceeds to step S275.

【0122】ステップS274では、単語数、単語位置
をタグ情報記憶バッファに格納する。続いてステップS
275でバッファポインタを1加算する。単語数が1で
ある場合にはバッファポインタを1加算する処理以外は
何も行なわない。
In step S274, the number of words and the word position are stored in the tag information storage buffer. Then step S
At 275, the buffer pointer is incremented by 1. When the number of words is 1, nothing is done except the process of adding 1 to the buffer pointer.

【0123】続いてステップS276でバッファポイン
タの指す場所にデータがあるかどうかを判別する。デー
タがあれば制御をステップS273に戻し、データがな
くなるまで上記の処理を繰返し行なう。データがなくな
ればこの処理を終了する。
Then, in step S276, it is determined whether or not there is data at the location pointed to by the buffer pointer. If there is data, control is returned to step S273, and the above processing is repeated until there is no data. If there is no data, this process ends.

【0124】このようにして図13に示されるタグ記号
記憶バッファを処理した結果、図31に示されるような
タグ情報記憶バッファが得られる。
As a result of processing the tag symbol storage buffer shown in FIG. 13 in this way, a tag information storage buffer as shown in FIG. 31 is obtained.

【0125】辞書引き形態素解析処理が終了した後、図
2に示される構文解析部12は、図31に示されるタグ
情報記憶バッファを参照しながら、辞書と文法規則とを
用いて構文を解析する。文法規則の適用に当たっては、
タグ情報記憶バッファの「単語位置」から数えて「単語
数」分の単語には、この部分を1まとまりの「フレー
ズ」(句)とする文法規則を優先して適用するようにす
る。1まとまりの複合語のようなものをタグ記号で挟む
ことが多いため、こうすることにより正しい構文解析結
果が早く得られる可能性が高くなる。
After the dictionary lookup morpheme analysis processing is completed, the syntax analysis unit 12 shown in FIG. 2 analyzes the syntax using the dictionary and the grammatical rules while referring to the tag information storage buffer shown in FIG. . When applying grammar rules,
A grammatical rule in which this portion is regarded as one "phrase" (phrase) is preferentially applied to "word number" words counted from the "word position" in the tag information storage buffer. Since things such as a group of compound words are often sandwiched between tag symbols, this increases the possibility that a correct parsing result can be obtained quickly.

【0126】このように本発明によれば、原文にタグ記
号などのマークアップ記号が挿入されていても、タグ記
号を一旦除去して自動的に翻訳することができる。さら
に本実施例のように訳文にも等価なタグ記号を付加する
ことにより、タグ記号が挿入されている原文をそのまま
翻訳処理することができる。その結果、翻訳に先立って
人間によりタグ記号を手作業で除去する処理が不要とな
り、効率よく翻訳を行なうことができる。しかも、不要
なタグ記号まで翻訳文内に復元することがないため、記
憶領域を節減でき、処理が高速になる。また異なる文に
タグ記号が跨がって使用されていても、翻訳文内にはそ
れに対応するタグ記号を正しく復元できる。さらに原文
内に含まれているタグ記号を構文解析にも使用すること
により、構文解析がより正しく、かつ高速に行なえるよ
うになる。
As described above, according to the present invention, even if a markup symbol such as a tag symbol is inserted in the original sentence, the tag symbol can be removed once and automatically translated. Furthermore, by adding an equivalent tag symbol to the translated sentence as in the present embodiment, the original sentence in which the tag symbol is inserted can be directly translated. As a result, it is not necessary for a human to manually remove the tag symbol prior to translation, and translation can be performed efficiently. Moreover, since unnecessary tag symbols are not restored in the translated text, the storage area can be saved and the processing speed can be increased. Even if the tag symbols are used across different sentences, the corresponding tag symbols can be correctly restored in the translated sentence. Furthermore, by using the tag symbol included in the original sentence for parsing, the parsing can be performed more correctly and at high speed.

【0127】[0127]

【発明の効果】以上のようにこの発明に係る機械翻訳装
置では、テキスト本体は自動的にマークアップ記号と分
離され、その分離されたテキスト本体に基づいて従来と
同様に第1の言語の構造解析木が作成される。その第1
の言語の構造解析木は、従来と同様に第2の言語の構造
解析木に変換される。一方各マークアップ記号は、それ
が付されていた単語と関連づけて記憶される。第2の言
語の構造解析木から第2の言語のテキストが生成される
ときには、テキスト原文においてマークアップ記号が付
されていた単語に対応する訳語には、該単語に付されて
いたマークアップ記号と等価なマークアップ記号が付さ
れる。そのため、マークアップ記号が適切な位置に付さ
れることになる。マークアップ記号をテキスト原文から
手操作により削除したり、翻訳結果のテキストにマーク
アップ記号を手操作により挿入する必要がなく、かつ入
力テキストに対応したマークアップ記号を含む翻訳結果
を得ることができる。しかも、相互に相殺し合って何の
効果ももたらさないマークアップ記号のシーケンスは第
2の言語のテキスト内には生成されない。その結果、マ
ークアップ記号を含むテキスト原文を、通常のテキスト
原文と同様に、かつより効率よく翻訳することができる
機械翻訳装置を提供できる。
As described above, in the machine translation apparatus according to the present invention, the text body is automatically separated from the markup symbol, and based on the separated text body, the structure of the first language is the same as the conventional one. A parse tree is created. The first
The structure analysis tree of the language is converted into the structure analysis tree of the second language as in the conventional case. On the other hand, each markup symbol is stored in association with the word to which it is attached. When the text of the second language is generated from the structure analysis tree of the second language, the translated word corresponding to the word to which the markup symbol is attached in the original text of the text is the markup symbol attached to the word. A markup symbol equivalent to is added. Therefore, the markup symbol is attached at an appropriate position. It is not necessary to manually delete the markup symbol from the original text of the text or manually insert the markup symbol in the translated text, and you can obtain the translation result that includes the markup symbol corresponding to the input text. . Moreover, sequences of markup symbols that offset each other and have no effect are not generated in the text of the second language. As a result, it is possible to provide a machine translation device capable of efficiently translating a text original text including a markup symbol in the same manner as a normal text original text.

【0128】請求項2に記載の発明に係る機械翻訳装置
によれば、請求項1に記載の発明の効果に加え、テキス
ト原文内において、対となるマークアップ記号が異なる
文内に配置されている場合であっても、第2の言語のテ
キストの生成に当たっては、生成されるテキスト内の各
文の、マークアップ記号が補充された位置によって定ま
る位置に、対応のマークアップ記号が挿入される。その
ため必要なマークアップ記号が、原文において異なる文
内に配置されていても、翻訳文に確実に復元される。そ
の結果、マークアップ記号を含むテキスト原文を、通常
のテキスト原文と同様に、より効率よく、かつより正確
に原文内のマークアップ記号を反映して翻訳することが
できる機械翻訳装置を提供できる。
According to the machine translation apparatus of the second aspect of the invention, in addition to the effect of the first aspect of the invention, a pair of markup symbols are arranged in different sentences in a text original sentence. Even in the case where the text of the second language is generated, the corresponding markup symbol is inserted at the position determined by the position where the markup symbol is supplemented in each sentence in the generated text. . Therefore, even if the necessary markup symbols are arranged in different sentences in the original sentence, they are surely restored in the translated sentence. As a result, it is possible to provide a machine translation device that can translate a text original sentence including a markup symbol more efficiently and more accurately and reflecting the markup symbol in the original sentence, like a normal text original sentence.

【0129】請求項3に記載の発明に係る機械翻訳装置
によれば、請求項1または2に記載の発明の効果に加
え、テキスト原文の、対となるマークアップ記号に挟ま
れた部分が1つのフレーズであると仮定して構造解析木
の作成を行なうので、テキスト原文の解析がより正確か
つ高速に行なえる。その結果、マークアップ記号を含む
テキスト原文を、通常のテキスト原文と同様に、より効
率よく、より高速に、かつより正確に原文内のマークア
ップ記号を反映して翻訳することができる機械翻訳装置
を提供できる。
According to the machine translation apparatus of the third aspect of the invention, in addition to the effect of the first or second aspect of the invention, the portion of the original text that is sandwiched between the pair of markup symbols is one. Since the structural analysis tree is created assuming that the phrase is one phrase, the text original text can be analyzed more accurately and at high speed. As a result, a machine translation device that can translate a text original text including a markup symbol in a more efficient, faster, and more accurate manner by reflecting the markup symbol in the original text as in a normal text original sentence. Can be provided.

【図面の簡単な説明】[Brief description of drawings]

【図1】機械翻訳の概念を模式的に示す図である。FIG. 1 is a diagram schematically showing the concept of machine translation.

【図2】トランスファ方式による機械翻訳の構成を示す
模式図である。
FIG. 2 is a schematic diagram showing a configuration of machine translation by a transfer method.

【図3】本発明の一実施例の機械翻訳装置のブロック図
である。
FIG. 3 is a block diagram of a machine translation device according to an embodiment of the present invention.

【図4】図3に示される翻訳モジュール5の詳細なブロ
ック図である。
FIG. 4 is a detailed block diagram of the translation module 5 shown in FIG.

【図5】バッファAの格納内容を模式的に示す図であ
る。
5 is a diagram schematically showing the stored contents of a buffer A. FIG.

【図6】バッファBの格納内容を模式的に示す図であ
る。
FIG. 6 is a diagram schematically showing stored contents of a buffer B.

【図7】バッファCの格納内容を模式的に示す図であ
る。
FIG. 7 is a diagram schematically showing stored contents of a buffer C.

【図8】バッファDの格納内容を模式的に示す図であ
る。
FIG. 8 is a diagram schematically showing stored contents of a buffer D.

【図9】バッファEの格納内容を模式的に示す図であ
る。
FIG. 9 is a diagram schematically showing stored contents of a buffer E.

【図10】タグ記号処理のフローチャートである。FIG. 10 is a flowchart of tag symbol processing.

【図11】SGML言語におけるタグ記号の例を示す模
式図である。
FIG. 11 is a schematic diagram showing an example of tag symbols in the SGML language.

【図12】バッファAに格納された入力テキスト原文を
示す模式図である。
12 is a schematic diagram showing an input text original sentence stored in a buffer A. FIG.

【図13】バッファFの格納内容を示す模式図である。FIG. 13 is a schematic diagram showing storage contents of a buffer F.

【図14】バッファBの格納内容を示す模式図である。FIG. 14 is a schematic diagram showing stored contents of a buffer B.

【図15】辞書引き処理後のバッファBの格納内容を示
す模式図である。
FIG. 15 is a schematic diagram showing stored contents of a buffer B after dictionary lookup processing.

【図16】タグ記号情報付加後のバッファBの格納内容
を示す模式図である。
FIG. 16 is a schematic diagram showing stored contents of a buffer B after adding tag symbol information.

【図17】生成処理のサブルーチンプログラムのフロー
チャートである。
FIG. 17 is a flowchart of a subroutine program of generation processing.

【図18】生成処理後のバッファEの格納内容を示す模
式図である。
FIG. 18 is a schematic diagram showing stored contents of a buffer E after generation processing.

【図19】本発明の一実施例の機械翻訳装置のブロック
図である。
FIG. 19 is a block diagram of a machine translation device according to an embodiment of the present invention.

【図20】本発明の一実施例におけるタグ記号復元処理
のフローチャートである。
FIG. 20 is a flowchart of tag symbol restoration processing according to an embodiment of the present invention.

【図21】本発明の一実施例におけるタグ記号復元処理
のフローチャートである。
FIG. 21 is a flowchart of a tag symbol restoration process in the embodiment of the present invention.

【図22】翻訳結果のバッファの内容を示す図である。FIG. 22 is a diagram showing the contents of a translation result buffer.

【図23】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。
FIG. 23 is a flowchart showing a process performed by a tag symbol discrimination supplementing unit according to an embodiment of the present invention.

【図24】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。
FIG. 24 is a flowchart showing a process performed by a tag symbol discrimination supplementing unit according to an embodiment of the present invention.

【図25】本発明の一実施例のタグ記号判別補充部で行
なわれる処理を示すフローチャートである。
FIG. 25 is a flowchart showing a process performed by a tag symbol discrimination supplementing unit according to an embodiment of the present invention.

【図26】入力文書の一例を示す模式図である。FIG. 26 is a schematic diagram showing an example of an input document.

【図27】タグ記号判別補充部で使用するスタックを模
式的に示す図である。
FIG. 27 is a diagram schematically showing a stack used in the tag symbol discrimination supplement unit.

【図28】タグ記号判別補充部で使用するタグ記憶バッ
ファの模式図である。
FIG. 28 is a schematic diagram of a tag storage buffer used in the tag symbol determination supplement unit.

【図29】図26に示される入力文書を処理した後の出
力文書を模式的に示す図である。
FIG. 29 is a diagram schematically showing an output document after processing the input document shown in FIG. 26.

【図30】本発明の一実施例に係るタグ情報適用部で行
なわれる処理を示すフローチャートである。
FIG. 30 is a flowchart showing processing performed by a tag information application unit according to an embodiment of the present invention.

【図31】図13のタグ記号記憶バッファを処理した結
果のタグ情報記憶バッファを模式的に示す図である。
31 is a diagram schematically showing a tag information storage buffer as a result of processing the tag symbol storage buffer of FIG.

【符号の説明】[Explanation of symbols]

1 メインCPU 2 メインメモリ 3 表示装置 4 キーボード 5 翻訳モジュール 6 メモリ 11 辞書引き・形態素解析部 12 構文解析部 13 変換部 14 翻訳文生成部 15 翻訳CPU 16 翻訳プログラムメモリ 17 記憶部 101 タグ記号判別補充部 102 タグ記号抽出部 103 タグ情報適用部 104 タグ記号復元部 1 main CPU 2 main memory 3 display device 4 keyboard 5 translation module 6 memory 11 dictionary lookup / morphological analysis unit 12 syntactic analysis unit 13 conversion unit 14 translation sentence generation unit 15 translation CPU 16 translation program memory 17 storage unit 101 tag symbol discrimination supplement Part 102 Tag symbol extraction unit 103 Tag information application unit 104 Tag symbol restoration unit

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 マークアップ記号を含む第1の言語のテ
キスト原文を、第2の言語のテキストに翻訳するための
機械翻訳装置であって、 テキスト原文をマークアップ記号とマークアップ記号を
含まないテキスト本体とに分離するための分離手段と、 各マークアップ記号を、各マークアップ記号が付されて
いた単語と関連づけて記憶するための記憶手段と、 前記分離手段によりマークアップ記号と分離された前記
テキスト本体に所定の文法処理を行なって、前記テキス
ト本体に対応する前記第1の言語の構造解析木を作成す
るための手段と、 前記第1の言語の構造解析木を、予め準備された変換規
則を用いて前記第2の言語の構造解析木に変換するため
の手段と、 前記第2の構造解析木と前記記憶手段の記憶内容とに基
づいて、前記テキスト原文においてマークアップ記号が
付されていた単語に対応する訳語に、前記訳語に付され
ていた前記マークアップ記号と等価なマークアップ記号
を付して前記第2の言語のテキストを生成するためのテ
キスト生成手段とを含み、 前記テキスト生成手段は、生成されるテキスト内におい
て、互いに相殺し合うマークアップ記号のシーケンスを
検出する手段と、 検出されたマークアップ記号のシーケンスを除外して前
記第2の言語のテキストを生成するための手段とを含
む、機械翻訳装置。
1. A machine translation device for translating a text source text of a first language containing a markup symbol into a text of a second language, the text source text not including a markup symbol and a markup symbol. Separation means for separating the markup symbol into a text body, a storage means for storing each markup symbol in association with a word to which each markup symbol is attached, and a separation means for separating each markup symbol from the markup symbol Means for performing a predetermined grammatical process on the text body to create a structure analysis tree of the first language corresponding to the text body, and a structure analysis tree of the first language are prepared in advance. Means for converting into a structural analysis tree of the second language using a conversion rule; and the text based on the stored content of the second structural analysis tree and the storage means. To generate a text in the second language by attaching a markup symbol equivalent to the markup symbol attached to the translated word to the translated word corresponding to the word to which the markup symbol is attached in the sentence Text generating means, wherein the text generating means detects a sequence of markup symbols that cancel each other in the generated text, and excludes the detected sequence of markup symbols. A machine translation device including means for generating text in the language of.
【請求項2】 テキスト原文内において、対となるマー
クアップ記号が異なる文内に配置されていることを判別
する手段と、 対となるマークアップ記号が異なる文内に配置されてい
ると判別されたことに応答して、前記対となるマークア
ップ記号のうちの第1のマークアップ記号が含まれる文
の所定位置に、前記対となるマークアップ記号のうちの
第2のマークアップ記号を補充し、前記対となるマーク
アップ記号のうちの前記第2のマークアップ記号が含ま
れる文の所定位置に、前記第1のマークアップ記号を補
充して、前記記憶手段に記憶させるためのマークアップ
記号補充手段と、 前記テキスト生成手段によるテキストの生成において、
前記マークアップ記号補充手段により補充されたマーク
アップ記号を、生成されるテキスト内の、前記マークア
ップ記号が補充された位置によって定まる位置にさらに
補充する手段とをさらに含む、請求項1に記載の機械翻
訳装置。
2. A means for determining that a pair of markup symbols are arranged in different sentences in a text original sentence, and a means of determining that a pair of markup symbols is arranged in different sentences. In response to this, the second markup symbol of the pair of markup symbols is supplemented at a predetermined position of the sentence including the first markup symbol of the pair of markup symbols. Of the pair of markup symbols, the markup for supplementing the first markup symbol at a predetermined position of the sentence including the second markup symbol and storing it in the storage means. In the text generation by the text supplementing means and the text generating means,
The means according to claim 1, further comprising means for further supplementing the markup symbol supplemented by the markup symbol supplementing means to a position in the generated text which is determined by the position where the markup symbol is supplemented. Machine translation device.
【請求項3】 構造解析木を作成する前記手段は、前記
テキスト原文の、前記記憶手段に記憶された対となるマ
ークアップ記号に挟まれた部分を1つのフレーズと仮定
して構造解析木の作成を行なうことを特徴とする、請求
項1または2に記載の機械翻訳装置。
3. The structure analysis tree is created on the assumption that a portion of the text original sentence sandwiched between paired markup symbols stored in the storage means is one phrase. The machine translation device according to claim 1, wherein the machine translation device is created.
JP6326088A 1994-12-27 1994-12-27 Machine translating device Pending JPH08185405A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6326088A JPH08185405A (en) 1994-12-27 1994-12-27 Machine translating device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6326088A JPH08185405A (en) 1994-12-27 1994-12-27 Machine translating device

Publications (1)

Publication Number Publication Date
JPH08185405A true JPH08185405A (en) 1996-07-16

Family

ID=18183977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6326088A Pending JPH08185405A (en) 1994-12-27 1994-12-27 Machine translating device

Country Status (1)

Country Link
JP (1) JPH08185405A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266085A (en) * 2004-03-17 2005-09-29 Advanced Telecommunication Research Institute International Speech synthesizer, character allocating device, and computer program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266085A (en) * 2004-03-17 2005-09-29 Advanced Telecommunication Research Institute International Speech synthesizer, character allocating device, and computer program

Similar Documents

Publication Publication Date Title
JP3220560B2 (en) Machine translation equipment
McKeown Paraphrasing questions using given and new information
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP3377290B2 (en) Machine translation device with idiom processing function
Planas et al. Formalizing translation memories
JPH0782498B2 (en) Machine translation system
JPH05314166A (en) Electronic dictionary and dictionary retrieval device
Gakis et al. Design and construction of the Greek grammar checker
WO2003079224A1 (en) Text generation method and text generation device
JPH05120324A (en) Language processing system
Baldwin et al. EAGLE: An Extensible Architecture for General Linguistic Engineering.
JPH0855123A (en) Machine translation system with idiom registering function
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
JP3876014B2 (en) Machine translation device
JP3300142B2 (en) Natural language processor
WO1997048058A9 (en) Automated translation of annotated text
JPH08185405A (en) Machine translating device
JPH052605A (en) Machine translation system
Krstev et al. Morpho-Syntactic Descriptions in MULTEXT-East-the Case of Serbian.
JP3136973B2 (en) Language analysis system and method
Bamutura Ry/Rk-Lex: A Computational Lexicon for Runyankore and Rukiga Languages
Vasuki et al. English to Tamil machine translation system using parallel corpus
JP3233800B2 (en) Machine translation equipment
Watanabe et al. Improving natural language processing by linguistic document annotation
JPS62267872A (en) Language analyzing device

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020827