JPH09325960A - Document processing system - Google Patents

Document processing system

Info

Publication number
JPH09325960A
JPH09325960A JP8141644A JP14164496A JPH09325960A JP H09325960 A JPH09325960 A JP H09325960A JP 8141644 A JP8141644 A JP 8141644A JP 14164496 A JP14164496 A JP 14164496A JP H09325960 A JPH09325960 A JP H09325960A
Authority
JP
Japan
Prior art keywords
document
tag
output
translation
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8141644A
Other languages
Japanese (ja)
Inventor
Toshiyuki Sugio
俊之 杉尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8141644A priority Critical patent/JPH09325960A/en
Publication of JPH09325960A publication Critical patent/JPH09325960A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To extract a non-language document or a link destination document as well by extracting a section matched with the specified pattern of format designation information to extract a character string and generating the output document by arranging the extracted section or arranging the post-processed extracted section. SOLUTION: A machine translation system is connected through an input/ output means 2 to a network 1, and an input document 3 is defined as a document with tag inputted from the network 1 through the input/output means 2 or inputted from a user through the input/output means 2. A tag identifying means 4 identifies tag information contained in the input document 3 and extracts a translation object expression containing the tag information, and a translation object tag information storage means 5 stores the translation object tag information to be referred to when the tag identifying means 4 identifies the tag information. A translating means 6 translates the document with tag into a document in a target language, and an output document generating means 7 generates the document with tag in the target language from the output result of the translating means 6.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は文書処理システムに
関し、例えば、文書が表示、印刷出力されたときの形式
を指定するようなタグ情報を含んだ文書を計算機システ
ムを利用して翻訳する機械翻訳システムに適用して好適
なものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document processing system, for example, a machine translation for translating a document including tag information for designating a format when the document is displayed and printed out by using a computer system. It is suitable for application to a system.

【0002】[0002]

【従来の技術】最近、計算機ネットワークシステムが充
実し、電子化された文書の流通が盛んになっている。計
算機ネットワークシステムは世界中に張り巡らされ、流
通する文書には自国語(日本語)のみならず、英語等の
外国語の文書も多く含まれ、外国語に精通しない利用者
には言語の違いが情報受信又は情報発信の大きな障壁と
なっている。このように、異なる言語が入り交じる計算
機ネットワークシステムの利用者は、海外からの情報受
信又は海外への情報発信に際して、対象となる文書を翻
訳する必要性が出てくるが、翻訳のためのコストは決し
て安価であるとは言い難い。
2. Description of the Related Art Recently, computer network systems have been enhanced and electronic documents have become popular. Computer network systems are spread all over the world, and the documents that are distributed include not only their own language (Japanese) but also foreign language documents such as English, which makes the language difference for users who are not familiar with foreign languages. Is a major obstacle to receiving or transmitting information. In this way, users of computer network systems that mix different languages will need to translate the target documents when receiving or transmitting information from overseas, but the cost of translation Is by no means cheap.

【0003】そこで、情報を海外から受信し、又は、海
外へ発信する場合に、情報を必要最小限に限定して翻訳
することにより翻訳にかかるコストを低減することが重
要になる。ある文書の情報を必要最小限に限定するに
は、文書を要約する技術が必要である。
Therefore, when receiving or transmitting information from abroad, it is important to reduce the cost of translation by translating the information while limiting the information to the necessary minimum. To limit the information in a document to the minimum necessary, a technique for summarizing the document is necessary.

【0004】従来、この種の装置としては、特開平6−
149876号公報に開示されるものがある。この装置
は、文書の構造を図式化することにより、分かり易い文
書の作成を支援し、また、既存の文書の内容を瞬時に理
解できるようにすることを目的にしている。そして、こ
の目的を達成するために、(1) 入力文書を文単位に分け
る文書切り出し手段と、(2) 切り出し手段から入力文を
1文毎に受けて、所定のキーワード辞書を参照してキー
ワードを抽出しつつ、入力文を語単位に分けるキーワー
ド抽出手段と、(3) キーワード抽出手段から入力文を語
単位で受けて、文の構造を定型化して記憶している所定
の関係辞書を参照して入力文の構造を抽出すると共に、
抽出した文の構造を表す所定の関係記号と、入力文を構
成する語のうち図形中に表示すべき語とからなる中間結
果を作成する関係抽出手段と、(4) 中間結果に含まれる
関係記号に所定の図形を対応させると共に、図形と表示
すべき語の大きさ及び配置を決定し、決定した結果を表
す所定形式の図形情報を作成するキーワード配置手段
と、(5) 図形情報を受けて、受けた図形情報の内容に応
じて入力文書を図形化して表示する表示部とを備えてい
る。
Conventionally, as an apparatus of this kind, Japanese Patent Laid-Open No. 6-
There is one disclosed in Japanese Patent No. 149876. This device aims to support the creation of an easy-to-understand document by graphically representing the structure of the document, and to make it possible to instantly understand the contents of the existing document. In order to achieve this purpose, (1) a document cutout unit that divides the input document into sentence units, and (2) an input sentence is received from the cutout unit for each sentence, and a keyword is referred to by referring to a predetermined keyword dictionary. (3) A keyword extraction unit that separates the input sentence into word units while extracting the input sentence, and (3) Receives the input sentence from the keyword extraction unit in word units, and standardizes and stores the sentence structure. And extract the structure of the input sentence,
Relationship extraction means that creates an intermediate result consisting of a predetermined relationship symbol that represents the structure of the extracted sentence and words that should be displayed in the figure among the words that make up the input sentence, and (4) the relationship included in the intermediate result. In addition to associating a predetermined graphic with a symbol, determine the size and layout of the graphic and the word to be displayed, and create keyword information in a predetermined format that represents the result of the determination, and (5) receive the graphic information. And a display unit for displaying the input document as a graphic according to the content of the received graphic information.

【0005】[0005]

【発明が解決しようとする課題】ところで、電子化され
た文書には、その文書が印刷されたときの形式を指定す
るようなタグ情報を含んだもの(以下、タグ付き文書と
呼ぶ)もあり、従来のキャラクタセットコードのみから
構成される文書とは区別される。タグ情報には、他の文
書との関係(以下、リンクと呼ぶ)を示すことにより、
文書間のつながりを規定するものや、文書中の任意の部
分を強調したり、任意の部分が図や表であることを示す
といったものがある。
By the way, some electronic documents include tag information (hereinafter referred to as a tagged document) that specifies the format in which the document was printed. , Documents that are composed only of conventional character set codes are distinguished. By indicating the relationship with other documents (hereinafter referred to as links) in the tag information,
There are things that define the connection between documents, emphasize any part in a document, and indicate that any part is a figure or table.

【0006】このタグ付き文書を要約して翻訳する場
合、上記構成の従来装置では、 (1)文書を構成する構成要素には、テキストに限らず
図や表といった非言語情報も含まれるので、それらの情
報が欠落する (2)複数の文書がリンクにより関係をもつことを想定
していないので、リンク先の文書の情報が欠落する という課題が発生し、要約された結果は文書全体の意図
を正確に把握できない。つまり、上記構成の従来装置で
は、元の文書の内容を正確に理解できるように翻訳する
ことができないという課題があった。
In the case of summarizing and translating this tagged document, in the conventional apparatus having the above-mentioned structure, (1) the constituent elements of the document include not only text but also non-language information such as figures and tables. The information is missing. (2) Since it is not assumed that multiple documents are related by a link, the problem of missing the information of the linked document occurs, and the summarized result is the intention of the entire document. I can't figure out exactly. That is, the conventional apparatus having the above configuration has a problem in that the content of the original document cannot be translated so that it can be accurately understood.

【0007】なお、翻訳処理を実行しないで単に要約文
書を作成する場合、要約文書に対して翻訳以外の処理を
施す場合でも、非言語文書やリンク先文書の情報が欠落
するという同様な課題が生じている。
[0007] In the case of simply creating a summary document without executing the translation process, the same problem that the information of the non-language document or the linked document is lost even when the process other than translation is performed on the summary document. Has occurred.

【0008】[0008]

【課題を解決するための手段】かかる課題を解決するた
め、本発明においては、表示、印刷出力時の形式を指定
する形式指定情報を伴なう文書を処理する文書処理シス
テムにおいて、(1) 入力文書における所定種類の文字列
を抽出するための、形式指定情報の特定パターンを格納
している抽出対象特定情報記憶手段と、(2) 入力文書に
おいて、抽出対象特定情報記憶手段に格納されている形
式指定情報の特定パターンに合致している部分を抽出す
る形式指定情報識別抽出手段と、(3) 抽出された部分を
整備して、又は、その後処理された抽出部分を整備して
出力文書を生成する出力文書生成手段とを有することを
特徴とする。
In order to solve such a problem, according to the present invention, in a document processing system for processing a document accompanied by format designation information for designating a format at the time of display and print output, (1) An extraction target specific information storage unit that stores a specific pattern of format specification information for extracting a character string of a predetermined type in the input document; and (2) an input target specific information storage unit that stores the extraction target specific information storage unit in the input document. Output document with format specification information identification and extraction means that extracts the part that matches the specified pattern of the format specification information, and (3) prepare the extracted part, or prepare the extracted part that has been processed thereafter. And an output document generating means for generating.

【0009】これにより、抽出対象特定情報記憶手段の
記憶内容によっては、入力文書の所定部分だけでなく、
非言語文書やリンク先文書も取出すことができる構成に
することもでき、それら特殊な文書情報をも反映させた
出力文書を形成させることができる。
As a result, depending on the storage contents of the extraction target specific information storage means, not only the predetermined portion of the input document but
A non-language document or a linked document can also be taken out, and an output document that reflects such special document information can be formed.

【0010】[0010]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

(A)第1の実施形態 以下、本発明による文書処理システムを、タグ付き文書
の機械翻訳システムに適用した第1の実施形態を図面を
参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment in which the document processing system according to the present invention is applied to a machine translation system for tagged documents will be described in detail with reference to the drawings.

【0011】この第1の実施形態の機械翻訳システム
は、タグ付き文書のタグ情報が付与された部分には、当
該文書の作者の何らかの意図が働いていると考え、その
部分のみに限定して要約を実施することにより、入力文
書の必要最小限の情報を抽出して翻訳するものである。
In the machine translation system of the first embodiment, it is considered that the tag information of the tagged document has some intention of the author of the document, and is limited to that part. By performing the abstract, the minimum necessary information of the input document is extracted and translated.

【0012】(A−1)第1の実施形態の構成 第1の実施形態の機械翻訳システムは、例えば、入力装
置や処理装置や記憶装置(補助記憶装置を含む)や出力
装置や通信装置を備えたワークステーションやパーソナ
ルコンピュータ等の情報処理装置上に構築されるが、機
能的には図1に示す構成を有する。
(A-1) Configuration of the First Embodiment The machine translation system of the first embodiment includes, for example, an input device, a processing device, a storage device (including an auxiliary storage device), an output device, and a communication device. Although it is constructed on an information processing apparatus such as a workstation or a personal computer provided, it functionally has the configuration shown in FIG.

【0013】図1において、第1の実施形態の機械翻訳
システムは、入出力手段2、入力文書(バッファ)3、
タグ識別手段4、翻訳対象タグ情報格納手段5、翻訳手
段6、出力文書生成手段7及び出力文書(バッファ)8
から構成されており、この機械翻訳システムは、入出力
手段2を介して、ネットワーク1に接続されている。
In FIG. 1, the machine translation system according to the first embodiment has an input / output unit 2, an input document (buffer) 3,
Tag identification means 4, translation target tag information storage means 5, translation means 6, output document generation means 7 and output document (buffer) 8
This machine translation system is connected to the network 1 via the input / output means 2.

【0014】ネットワーク1は、例えば世界中に接続さ
れているネットワークであり、タグ付文書を各装置(実
施形態の機械翻訳システムを含む)間で授受できるもの
である。
The network 1 is, for example, a network that is connected all over the world, and is capable of exchanging a tagged document between each device (including the machine translation system of the embodiment).

【0015】入出力手段2は、実施形態の機械翻訳シス
テムとネットワーク1とのインタフェース、及び、利用
者とのインタフェースを行なうものであり、すなわち、
タグ付き文書等の入出力を実施するものである。入力文
書(バッファ)3は、入出力手段(の通信構成)2を介
して、ネットワーク1から入力されたタグ付き文書、又
は、入出力手段(の入力構成)2によって利用者から入
力されたタグ付き文書である。タグ識別手段4は、入力
文書2に含まれるタグ情報を識別し、タグ情報を含む翻
訳対象表現を抽出するものである。翻訳対象タグ情報格
納手段5は、タグ識別手段4が、タグ情報を識別する際
に参照する翻訳対象タグ情報を格納するものである。翻
訳手段6は、タグ付き文書を目的言語の文書に翻訳する
ものである。出力文書生成手段7は、翻訳手段6の出力
結果から目的言語のタグ付き文書を生成するものであ
る。出力文書(バッファ)8は、出力文書生成手段7に
よって生成された目的言語のタグ付き文書である。
The input / output unit 2 serves as an interface between the machine translation system of the embodiment and the network 1 and an interface with the user, that is,
Input / output of documents with tags is performed. The input document (buffer) 3 is a tagged document input from the network 1 via the input / output means (communication configuration) 2 or a tag input from the user by the input / output means 2 (input configuration). It is an attached document. The tag identifying means 4 identifies tag information included in the input document 2 and extracts a translation target expression including the tag information. The translation target tag information storage unit 5 stores the translation target tag information that the tag identifying unit 4 refers to when identifying the tag information. The translation means 6 translates the tagged document into a document in the target language. The output document generation means 7 generates a tagged document in the target language from the output result of the translation means 6. The output document (buffer) 8 is a target language tagged document generated by the output document generating means 7.

【0016】図2は、翻訳対象タグ情報格納手段5に格
納されている翻訳対象タグ情報の構成を示す説明図であ
る。
FIG. 2 is an explanatory diagram showing the structure of the translation target tag information stored in the translation target tag information storage means 5.

【0017】タグ付き文書の場合、タグ情報が付与され
ている文字列は、タイトルであったり、重要であるため
に下線付与や強調字体出力等が指示されたりしているも
のであり、その文書の特徴的文字列である。従って、こ
のような文字列部分だけを入力文書から抽出した場合、
タグ付き文書の要約文書を得ることができる。この第1
の実施形態の場合、利用者は必ずしも入力文書全体の情
報を必要としていないことに着目し、このような要約文
書の訳文文書を得ることとしている。
In the case of a document with a tag, the character string to which the tag information is added is a title, and since it is important, an underline addition, an emphasized font output, etc. are instructed. Is a characteristic character string of. Therefore, if only such a character string part is extracted from the input document,
You can get a summary of tagged documents. This first
In the case of the above embodiment, the user does not necessarily need the information of the entire input document, and obtains a translated document of such a summary document.

【0018】翻訳対象タグ情報格納手段5に格納されて
いる翻訳対象タグ情報は、要約文書の要素となり得る文
字列部分を抽出できる情報となっている。
The translation target tag information stored in the translation target tag information storage means 5 is information capable of extracting a character string portion that can be an element of the summary document.

【0019】図2において、翻訳対象タグ情報200
は、複数(図2では9個については具体的に示してい
る)のタグパターン201〜209、…からなってい
る。各タグパターンは、入力文書3に出現する可能性が
あるタグ情報を含む表現のパターンをそれぞれ定義して
いる。各タグパターンには、任意の1文字を表す「.」
や、1回以上の繰り返しを表す「+」等の正規表現も適
宜含まれており、入力文書3に出現する文字列と照合す
べき文字列の定義となっている。
In FIG. 2, translation target tag information 200
Is composed of a plurality of (nine in FIG. 2 are specifically shown) tag patterns 201 to 209, .... Each tag pattern defines an expression pattern including tag information that may appear in the input document 3. Each tag pattern has a "."
Alternatively, a regular expression such as “+” indicating one or more repetitions is also included as appropriate, and is a definition of a character string to be collated with the character string that appears in the input document 3.

【0020】例えば、「<I>.+</I>」というタ
グパターン201において、「<I>」と「</I>」
に挟まれる「.+」は、任意の1文字の1回以上の繰り
返しを意味し、「parsing」というような文字列
が照合することになる。また、「<H[0−9]>.+
</H[0−9]>」というタグパターン202におい
て、「[0−9]」の部分には、任意の数字1文字が照
合するので、例えば、「<H1>Recent Tre
nd of Research And Develo
pment</H1>」という文字列が照合することに
なる。同様に、他の各タグパターン203、…、209
にも適合する文字列がそれぞれ存在する。
For example, in the tag pattern 201 "<I>. + </ I>", "<I>" and "</ I>"
The ". +" Sandwiched between "" means one or more repetitions of any one character, and a character string such as "parsing" is matched. In addition, “<H [0-9]>. +
In the tag pattern 202 "</ H [0-9]>", since one arbitrary numeral is collated with "[0-9]", for example, "<H1> Recent Tre"
nd of Research And Develo
The character string "pment </ H1>" is matched. Similarly, each of the other tag patterns 203, ..., 209
There are character strings that match

【0021】なお、図2においては、翻訳対象タグ情報
200として9個のタグパターン201〜209が記述
されいるが、翻訳対象タグ情報200に、入出力手段2
を介して利用者によりタグパターンを適宜追加修正でき
るようにしておくことが好ましい。すなわち、入力文書
3に出現するHTML(HyperText Markup Language)
等のタグ付き文書の種類により記載内容を任意に変更で
きるようにしておくことが好ましい。この実施形態は、
翻訳対象タグ情報200に記述されるタグパターを編集
可能であるとする。従って、定義対象となるタグ付き文
書の種類に応じてタグパターンを増減することができ
る。
In FIG. 2, nine tag patterns 201 to 209 are described as the translation target tag information 200, but the translation target tag information 200 includes the input / output means 2.
It is preferable that the user can appropriately add and correct the tag pattern via the. That is, HTML (HyperText Markup Language) that appears in the input document 3
It is preferable that the description content can be arbitrarily changed according to the type of the tagged document such as. This embodiment is
It is assumed that the tag pattern described in the translation target tag information 200 can be edited. Therefore, the tag pattern can be increased or decreased according to the type of the tagged document to be defined.

【0022】図3は、後述する動作説明で利用する入力
文書3(301)の例を示す図である。この実施形態で
対象としている文書は、例えば、HTMLで記述された
タグ付き文書301である。このタグ付き文書301に
は、図(イメージ)情報302にリンクする(<IMG
SRC=”...”>)や、他のHTML記述文書3
03へのリンクを示すタグ(<A HREF
=”...”>...</A>)等のリンクタグが含ま
れている。
FIG. 3 is a diagram showing an example of the input document 3 (301) used in the description of the operation described later. The target document in this embodiment is, for example, the tagged document 301 described in HTML. This tagged document 301 is linked to the figure (image) information 302 (<IMG
SRC = "...">) and other HTML description documents 3
Tag indicating the link to 03 (<A HREF
= "...">. . . </A>) and other link tags are included.

【0023】図4は、入力文書3(301)の表示例を
示す図である。上述したタグ付き文書301は、入出力
手段2を介して表示された場合、図4に示す表示画面4
00のようになる。表示域401は、入力文書301の
「<TITLE>Recent Trend ...D
evelopment</TITLE>」の部分に対応
するものである。表示域402は、入力文書301の
「<BODY>」と「</BODY>」に挟まれた部分
の記述に対応するものである。なお、図4中の挿入図面
は、図3のそれと同様の図(イメージ)情報であり、入
力文書301の「<IMG SRC=”TRANSFE
R.gif”>」に対応して表示されている。また、図
4には、図3の文書303に対応する表示としては、入
力文書301の「<A HREF=”ambiguit
y.html”>ambiguity problem
</A>」に対応し、表示域402の下線が施された
「ambiguity problem」の部分が相当
し、リンク先である文書303の実体は表示されていな
い。このように、タグ付き文書は、リンクタグによっ
て、図表を当該文書に埋め込んで表示したり、逆に、リ
ンク情報のみを表示することにより、リンク先の文書は
隠蔽して表示しない場合がある。
FIG. 4 is a diagram showing a display example of the input document 3 (301). When the above-mentioned tagged document 301 is displayed via the input / output unit 2, the display screen 4 shown in FIG.
00. In the display area 401, “<TITLE> Recent Trend ... D of the input document 301 is displayed.
This corresponds to the "environment </ TITLE>" portion. The display area 402 corresponds to the description of the part sandwiched between “<BODY>” and “</ BODY>” of the input document 301. Note that the inserted drawing in FIG. 4 is the same drawing (image) information as that in FIG. 3, and “<IMG SRC =” TRANSFE of the input document 301.
R. It is displayed corresponding to "gif">". Further, in FIG. 4, as a display corresponding to the document 303 of FIG. 3, “<A HREF =” ambiguit of the input document 301 is displayed.
y. html ”> ambiguity problem
"/ A>" corresponding to the underlined "ambiguity problem" portion of the display area 402, and the entity of the document 303 that is the link destination is not displayed. As described above, in the tagged document, the diagram may be embedded in the document by the link tag and displayed, or conversely, only the link information may be displayed, and the linked document may not be hidden and displayed.

【0024】なお、この例の入力文書301(3)を、
この第1の実施形態の機械翻訳システムで処理した出力
文書8(900)を図9を示し、その出力文書8(90
0)の表示画面を図10に示している。
The input document 301 (3) of this example is
An output document 8 (900) processed by the machine translation system of the first embodiment is shown in FIG. 9, and the output document 8 (90) is shown.
The display screen of 0) is shown in FIG.

【0025】(A−2)第1の実施形態の動作 次に、以上のようなタグ付き文書を翻訳処理する第1の
実施形態の機械翻訳システムの動作を説明する。
(A-2) Operation of the First Embodiment Next, the operation of the machine translation system of the first embodiment for translating a tagged document as described above will be described.

【0026】図5は、第1の実施形態の機械翻訳システ
ム全体の動作を示すフローチャートである。
FIG. 5 is a flow chart showing the operation of the entire machine translation system of the first embodiment.

【0027】第1の実施形態の機械翻訳システムは、上
述したように、タグ付き文書のタグ情報が付与された部
分には、当該文書の作者の何らかの意図が働いていると
考え、その部分のみに限定して要約を実施することによ
り、入力文書3の必要最小限の情報を抽出して翻訳する
ものであり、そのために、入力文書3に含まれるタグ情
報に着目し、タグ情報が付与された表現を翻訳対象とし
てそれを翻訳し、出力文書8を生成して表示する。
As described above, the machine translation system of the first embodiment considers that the portion of the tagged document to which the tag information is added has some intention of the author of the document, and only that portion is considered. By performing the abstraction limited to, the minimum necessary information of the input document 3 is extracted and translated. Therefore, the tag information included in the input document 3 is focused and the tag information is added. The above expression is used as a translation target and translated, and the output document 8 is generated and displayed.

【0028】まず、タグ識別手段4が、入出力手段2を
介して、ネットワーク1からタグ付きの入力文書3を入
力する(ステップ501)。入力文書3にはタグ情報が
含まれているので、タグ識別手段4は、翻訳対象タグ情
報格納手段5から、翻訳対象タグ情報200を得て、入
力文書3の翻訳対象を識別し、それを翻訳手段6に渡す
(ステップ502)。翻訳手段6は、タグ識別手段4か
ら得た翻訳対象を翻訳し、その結果を出力文書生成手段
7に渡す(ステップ503)。出力文書生成手段7は、
翻訳手段6から得た翻訳結果を入力文書3を参照しなが
ら整形して出力文書8として格納する(ステップ50
4)。
First, the tag identifying means 4 inputs the input document 3 with a tag from the network 1 via the input / output means 2 (step 501). Since the input document 3 includes the tag information, the tag identifying means 4 obtains the translation target tag information 200 from the translation target tag information storage means 5, identifies the translation target of the input document 3, and identifies it. It is passed to the translation means 6 (step 502). The translation unit 6 translates the translation target obtained from the tag identification unit 4, and passes the result to the output document generation unit 7 (step 503). The output document generation means 7
The translation result obtained from the translation means 6 is shaped with reference to the input document 3 and stored as the output document 8 (step 50).
4).

【0029】これらステップ501〜504の動作は、
タグ識別手段4が入力文書3の全てを処理し、出力文書
生成手段7が翻訳手段6から全ての翻訳結果を受け取
り、出力文書8の整形が完了するまで繰り返される(ス
テップ505)。
The operation of these steps 501 to 504 is as follows.
The tag identification means 4 processes all of the input document 3, the output document generation means 7 receives all the translation results from the translation means 6, and the process is repeated until the shaping of the output document 8 is completed (step 505).

【0030】入力文書3が全て処理され、出力文書8の
整形が完了したならば、出力文書生成手段7は、出力文
書8を入出力手段2を介して表示し(ステップ50
6)、この機械翻訳システムは動作を終了する(ステッ
プ507)。
When the input document 3 is all processed and the shaping of the output document 8 is completed, the output document generating means 7 displays the output document 8 via the input / output means 2 (step 50).
6) The machine translation system ends the operation (step 507).

【0031】次に、タグ識別手段4の動作を図面を参照
しながら説明する。ここで、図6が、タグ識別手段4の
動作を示すフローチャートである。
Next, the operation of the tag identifying means 4 will be described with reference to the drawings. Here, FIG. 6 is a flowchart showing the operation of the tag identifying means 4.

【0032】タグ識別手段4は、まず、入出力手段2を
介して、ネットワーク1から入力文書3を得る(ステッ
プ501)。
The tag identifying means 4 first obtains the input document 3 from the network 1 via the input / output means 2 (step 501).

【0033】次に、得られた入力文書3のタグ情報に関
わる表現を抽出するために、翻訳対象タグ情報格納手段
5によって格納されている翻訳対象タグ情報200の1
個のタグパターンを得る(ステップ601)。次に、得
られたタグパターンに適合する文字列を入力文書3から
検索する(ステップ602)。ここで、当該タグパター
ンに適合する文字列が入力文書3に存在するならば(ス
テップ603)、適合した文字列を翻訳対象として翻訳
手段6へ転送する(ステップ604)。ステップ603
で、適合する文字列が入力文書3に存在しない場合に
は、ステップ604の動作は省略される。
Next, in order to extract the expression related to the tag information of the obtained input document 3, 1 of the translation target tag information 200 stored by the translation target tag information storage means 5 is extracted.
The individual tag patterns are obtained (step 601). Next, the input document 3 is searched for a character string that matches the obtained tag pattern (step 602). If a character string matching the tag pattern is present in the input document 3 (step 603), the matched character string is transferred to the translation means 6 as a translation target (step 604). Step 603
If the matching character string does not exist in the input document 3, the operation of step 604 is omitted.

【0034】しかる後に、翻訳対象タグ情報格納手段5
によって格納されている翻訳対象タグ情報200の全て
のタグパターンで、入力文書3を検索したか否かをチェ
ックし、まだ、検索していないタグパターンが存在する
ならば(ステップ605)、上述したステップ601〜
604の処理を繰り返す。一方、全てのタグパターンに
よる検索が完了したならば(ステップ605)、タグ識
別手段4は動作を終了する(ステップ606)。
Thereafter, the translation target tag information storage means 5
It is checked whether or not the input document 3 has been searched for in all the tag patterns of the translation target tag information 200 stored by, and if there is a tag pattern that has not been searched yet (step 605), the above-mentioned is performed. Step 601-
The processing of 604 is repeated. On the other hand, if the search by all the tag patterns is completed (step 605), the tag identifying means 4 ends the operation (step 606).

【0035】次に、翻訳手段6の動作を図面を参照しな
がら説明する。ここで、図7が、翻訳手段6の動作を示
すフローチャートである。なお、この翻訳手段6は、当
然にタグ付き文書を翻訳できるものであり、例えば、下
記文献に記載のものを適用できる。
Next, the operation of the translation means 6 will be described with reference to the drawings. Here, FIG. 7 is a flowchart showing the operation of the translation means 6. It should be noted that the translation means 6 can naturally translate a tagged document, and, for example, the one described in the following document can be applied.

【0036】文献『石川直太、檜山正幸共著、「タグ付
き文書の英日機械翻訳支援システム」、CALS Japan '9
4, S2-1』 まず、翻訳手段6は、タグ識別手段4がステップ604
で転送した翻訳対象を得て(ステップ701)、タグ情
報に対応した翻訳を実施する(ステップ702)。タグ
情報に対応した翻訳は、タグ部分を隠蔽した後に、タグ
部分以外の部分を通常の機械翻訳方法により翻訳し、そ
の結果に隠蔽していたタグ部分を復元することで実現さ
れる。最後に、翻訳手段6は、タグを含む翻訳結果を出
力文書生成手段7へ転送し(ステップ703)、動作を
終了する(ステップ704)。
Reference “Naoto Ishikawa, Masayuki Hiyama”, “English-Japanese Machine Translation Support System for Tagged Documents”, CALS Japan '9
4, S2-1 ”First, in the translating means 6, the tag identifying means 4 performs step 604.
The translation target transferred in (1) is obtained (step 701), and the translation corresponding to the tag information is performed (step 702). The translation corresponding to the tag information is realized by hiding the tag portion, translating a portion other than the tag portion by an ordinary machine translation method, and restoring the concealed tag portion as a result. Finally, the translation unit 6 transfers the translation result including the tag to the output document generation unit 7 (step 703) and ends the operation (step 704).

【0037】次に、出力文書生成手段7の動作を図面を
参照しながら説明する。ここで、図8は、出力文書生成
手段7の動作を示すフローチャートである。
Next, the operation of the output document generating means 7 will be described with reference to the drawings. Here, FIG. 8 is a flowchart showing the operation of the output document generation means 7.

【0038】まず、出力文書生成手段7は、翻訳手段6
が、ステップ703で転送した翻訳結果を受け取る(ス
テップ801)。次に、受け取った翻訳結果を、入力文
書3の書式を参照しながら、出力文書8に格納する(ス
テップ802)。以上のステップ801及びステップ8
02の動作は、タグ識別手段4が入力文書3の全てを処
理し、出力文書生成手段7が翻訳手段6から全ての翻訳
結果を受け取り、出力文書8の整形が完了するまで繰り
返される(ステップ505)。
First, the output document generation means 7 is the translation means 6
Receives the translation result transferred in step 703 (step 801). Next, the received translation result is stored in the output document 8 with reference to the format of the input document 3 (step 802). Step 801 and step 8 above
The operation of 02 is repeated until the tag identifying means 4 processes all of the input document 3, the output document generating means 7 receives all the translation results from the translating means 6, and the shaping of the output document 8 is completed (step 505). ).

【0039】入力文書3が全て処理され、出力文書8の
整形が完了したならば(ステップ505)、出力文書生
成手段7は、出力文書8を入出力手段2を介して表示し
(ステップ506)、動作を終了する(ステップ80
3)。
When all the input documents 3 are processed and the shaping of the output document 8 is completed (step 505), the output document generation means 7 displays the output document 8 via the input / output means 2 (step 506). , End the operation (step 80)
3).

【0040】以下では、図3に示したタグ付き文書30
1を入力文書3の例として、また、図2に示した翻訳対
象タグ情報200を翻訳対象タグ情報格納手段5が格納
しているとして、第1の実施形態の機械翻訳システムの
動作を具体的に説明する。
In the following, the tagged document 30 shown in FIG.
1 as an example of the input document 3 and the translation target tag information storage unit 5 storing the translation target tag information 200 shown in FIG. 2, the operation of the machine translation system of the first embodiment will be described in detail. Explained.

【0041】まず、タグ識別手段4は入力文書301を
得る(ステップ501)。次に、タグ識別手段4は、翻
訳対象タグ情報格納手段5が格納する翻訳対象タグ情報
200の第1のタグパターン201を得る(ステップ6
01)。得られたタグパターンは「<I>.+</I
>」であるので、これに適合する文字列を入力文書30
1から検索する(ステップ602)。その結果、「<I
>parsing</I>」、「<I>transfe
rring</I>」、「<I>generating
</I>」及び「<I>transfer metho
d</I>」がタグパターン201に適合する文字列と
して抽出される(ステップ603)ので、タグ識別手段
4は、それらの文字列を翻訳対象として翻訳手段6に転
送する(ステップ604)。
First, the tag identifying means 4 obtains the input document 301 (step 501). Next, the tag identifying means 4 obtains the first tag pattern 201 of the translation target tag information 200 stored in the translation target tag information storage means 5 (step 6).
01). The obtained tag pattern is "<I>. + </ I
> ”, A character string matching this is input document 30
Search from 1 (step 602). As a result, "<I
> Parsing </ I>, “<I> transfer
"ring </ I>", "<I>generation"
</ I> ”and“ <I> transfer method ”
Since "d </ I>" is extracted as a character string that matches the tag pattern 201 (step 603), the tag identification means 4 transfers these character strings to the translation means 6 as a translation target (step 604).

【0042】翻訳手段6は、これらの4つの翻訳対象を
得て(ステップ701)、それらを翻訳し、それぞれ
「<I>解析</I>」、「<I>変換</I>」、
「<I>生成</I>」、「<I>トランスファ方式<
/I>」なる翻訳結果を得る(ステップ702)。翻訳
手段6は、これら4つの翻訳結果を出力文書生成手段7
に転送する(ステップ703)。
The translation means 6 obtains these four translation objects (step 701), translates them, and then respectively translates them into "<I> analysis </ I>", "<I> transformation </ I>",
“<I> Generation </ I>”, “<I> Transfer method <
/ I> ”is obtained (step 702). The translation means 6 outputs these four translation results to the output document generation means 7
(Step 703).

【0043】出力文書生成手段7は、翻訳手段6から得
た4つの翻訳結果を、入力文書301の書式を参照しな
がら出力文書900の所定の位置(図9参照)に格納す
る(ステップ802)。
The output document generation means 7 stores the four translation results obtained from the translation means 6 in a predetermined position (see FIG. 9) of the output document 900 with reference to the format of the input document 301 (step 802). .

【0044】その後、タグ識別手段4において、翻訳対
象タグ情報200の次のタグパターンが残されているの
で(ステップ605)、第2のタグパターン202を得
る(ステップ601)。得られたタグパターンは「<H
[0−9]>.+</H[0−9]>」であるので、こ
れに適合する文字列を入力文書301から検索する(ス
テップ602)。その結果、「<H1>Recent
Trend of Research And Dev
elopment</H1>」及び「<H2>The
Latest Technological Tren
d</H2>」がタグパターン202に適合する文字列
として抽出される(ステップ603)ので、タグ識別手
段4は、それらの文字列を翻訳対象として翻訳手段6に
転送する(ステップ604)。
After that, the tag identification means 4 obtains the second tag pattern 202 (step 601) because the tag pattern next to the translation target tag information 200 remains (step 605). The obtained tag pattern is "<H
[0-9]>. + </ H [0-9]> ”, a character string matching this is retrieved from the input document 301 (step 602). As a result, “<H1> Recent
Trend of Research And Dev
"Epment </ H1>" and "<H2> The
Latest Technological Tren
Since "d </ H2>" is extracted as a character string that matches the tag pattern 202 (step 603), the tag identification means 4 transfers these character strings to the translation means 6 as a translation target (step 604).

【0045】翻訳手段6は、これらの2つの翻訳対象を
得て(ステップ701)、それらを翻訳し、それぞれ
「<H1>最近の研究開発動向</H1>」、「<H2
>最新技術動向</H2>」なる翻訳結果を得る(ステ
ップ702)。翻訳手段6は、これら2つの翻訳結果を
出力文書生成手段7に転送する(ステップ703)。
The translation means 6 obtains these two objects to be translated (step 701), translates them and translates them into "<H1> Recent research and development trends </ H1>" and "<H2
A translation result "> latest technological trend </ H2>" is obtained (step 702). The translation means 6 transfers these two translation results to the output document generation means 7 (step 703).

【0046】出力文書生成手段7は、翻訳手段6から得
た4つの翻訳結果を、入力文書301の書式を参照しな
がら出力文書900の所定の位置(図9参照)に格納す
る(ステップ802)。
The output document generation means 7 stores the four translation results obtained from the translation means 6 in a predetermined position (see FIG. 9) of the output document 900 with reference to the format of the input document 301 (step 802). .

【0047】以下同様にして、入力文書301の各タグ
パターン203、…、209に適合する文字列が順次翻
訳され、出力文書900に格納され、最終的に図10に
示す出力文書の表示画面1000が入出力手段2を介し
て表示される(ステップ506)。
.., 209 of the input document 301 are sequentially translated, stored in the output document 900, and finally displayed in the output document display screen 1000 shown in FIG. Is displayed via the input / output unit 2 (step 506).

【0048】(A−3)第1の実施形態の効果 以上に説明したように、第1の実施形態の機械翻訳シス
テムによれば、翻訳対象となり得る入力文書3の部分を
特定する翻訳対象タグ情報を記述して格納しておき、こ
の翻訳対象タグ情報に該当する入力文書3の部分だけを
翻訳するようにしたので、入力文書3を要約して翻訳し
た結果である出力文書8を得ることができる。
(A-3) Effects of First Embodiment As described above, according to the machine translation system of the first embodiment, a translation target tag that specifies a portion of the input document 3 that can be a translation target. Since the information is described and stored, and only the part of the input document 3 corresponding to this translation target tag information is translated, the output document 8 which is the result of translating the input document 3 is obtained. You can

【0049】かくするにつき、翻訳対象タグ情報に図や
表を規定する情報を記述しておくことにより、翻訳結果
に図や表といった非言語情報も含めることができ、ま
た、翻訳対象タグ情報にリンク先の文書を指定する情報
を記述しておくことにより、翻訳結果にリンク先の文書
情報を含めることができる。すなわち、入力文書3の作
者の意図を損なうことなく必要最小限の情報に要約され
た翻訳結果を得ることができる。
In this way, by describing the information defining the figure or table in the translation target tag information, the translation result can include non-language information such as the figure or table, and the translation target tag information can be included. By describing the information designating the document of the link destination, the document information of the link destination can be included in the translation result. That is, it is possible to obtain the translation result summarized into the minimum necessary information without impairing the intention of the author of the input document 3.

【0050】いま、図3に示す入力文書301と、図9
に示す出力文書900を比べてみると、入力文書301
のタグ情報に関わる表現のみに限定された部分が抽出さ
れて翻訳されているので、入力文書301の作者の意図
を損なうことなく必要最小限の情報に要約された翻訳が
実施されていることが判る。このことは、図10に示す
出力文書900の表示画面1000を参照することで更
に明らかである。
Now, the input document 301 shown in FIG. 3 and FIG.
Comparing the output document 900 shown in FIG.
Since the part limited to only the expressions related to the tag information of is extracted and translated, it is possible that the translation summarized into the minimum necessary information is performed without impairing the intention of the author of the input document 301. I understand. This is further apparent by referring to the display screen 1000 of the output document 900 shown in FIG.

【0051】なお、図10の表示域1001は、出力文
書900の「<TITLE>最近の研究開発動向</T
ITLE>」の部分に対応するものである。表示域10
02は、出力文書900の「<BODY>」と「</B
ODY>」に挟まれた部分の記述に対応する表示域であ
る。なお、図10にある図302は、図3のそれと同様
の図(イメージ)情報であり、出力文書900の「<I
MG SRC=”TRANSFER.gif”>」に対
応して表示されている。また、図10には、図3のリン
ク先文書303に対応する表示として、出力文書900
の「<A HREF=”ambiguity.htm
l”>曖昧性の問題</A>」に対応した下線が施され
た「曖昧性の問題」の部分も表示されている。
Note that the display area 1001 of FIG. 10 shows the “<TITLE> Recent research and development trend </ T> of the output document 900.
This corresponds to the part of "ITLE>". Display area 10
02 is "<BODY>" and "</ B
It is a display area corresponding to the description of the part sandwiched between ODY> ”. Note that FIG. 302 in FIG. 10 is the same diagram (image) information as that of FIG.
MG SRC = “TRANSFER.gif”> ”is displayed. Further, in FIG. 10, an output document 900 is displayed as a display corresponding to the link destination document 303 in FIG.
“<A HREF =” ambiguity. htm
The underlined "ambiguity problem" part corresponding to "l"> ambiguity problem </A>"is also displayed.

【0052】(B)第2の実施形態 次に、本発明による文書処理システムを、タグ付き文書
の機械翻訳システムに適用した第2の実施形態を図面を
参照しながら詳述する。
(B) Second Embodiment Next, a second embodiment in which the document processing system according to the present invention is applied to a machine translation system for tagged documents will be described in detail with reference to the drawings.

【0053】この第2の実施形態の機械翻訳システム
は、第1の実施形態と同様に、タグ付き文書を要約した
翻訳結果を得るようにしたものである。これに加えて、
要約に含まれる図や表に存在する単語の訳語も、翻訳結
果に含めるようにしたものである。
As with the first embodiment, the machine translation system of the second embodiment is adapted to obtain a translation result summarizing a tagged document. In addition to this,
The translations of the words existing in the figures and tables included in the abstract are also included in the translation result.

【0054】(B−1)第2の実施形態の構成 図11は、この第2の実施形態の機械翻訳システムのブ
ロック図であり、上述した第1の実施形態に係る図1と
の同一、対応部分には同一符号を付して示している。
(B-1) Configuration of the Second Embodiment FIG. 11 is a block diagram of the machine translation system of the second embodiment, which is the same as FIG. 1 according to the first embodiment described above. Corresponding parts are designated by the same reference numerals.

【0055】図11及び図1との比較から明らかなよう
に、第2の実施形態の機械翻訳システムは、第1の実施
形態の機械翻訳システムの構成に加えて、リンクオブジ
ェクト獲得手段9及び符号化手段10を備えている。
As is clear from comparison with FIG. 11 and FIG. 1, the machine translation system of the second embodiment has the link object acquisition means 9 and the code in addition to the configuration of the machine translation system of the first embodiment. It is provided with a conversion means 10.

【0056】リンクオブジェクト獲得手段9は、タグ識
別手段4が抽出したイメージタグにより、入出力手段2
を介してネットワーク1からイメージタグが参照する実
体(以下、リンクオブジェクトと呼ぶ)を獲得するもの
である。符号化手段10は、リンクオブジェクト獲得手
段9が得たリンクオブジェクトのイメージから文字情報
を認識するものである。符号化手段10としては、ドッ
トパターンでなるイメージ情報からその中に含まれてい
る文字を認識する既存の文字認識装置を適用することが
できる。
The link object acquisition means 9 uses the image tag extracted by the tag identification means 4 to input / output means 2
The entity referred to by the image tag (hereinafter referred to as a link object) is acquired from the network 1 via the. The encoding means 10 recognizes character information from the image of the link object obtained by the link object acquisition means 9. As the encoding means 10, it is possible to apply an existing character recognition device for recognizing a character contained in the dot pattern image information.

【0057】なお、第2の実施形態のタグ識別手段4
は、入力文書2に含まれるタグ情報を識別し、タグ情報
を含む翻訳対象表現を抽出するだけでなく、入力文書2
に含まれる非言語情報(図表やイメージ情報)を参照す
るためのタグ情報(以下、イメージタグと呼ぶ)も抽出
する。
The tag identifying means 4 of the second embodiment
Not only identifies the tag information included in the input document 2 and extracts the translation target expression including the tag information, but also the input document 2
Tag information (hereinafter referred to as an image tag) for referring to non-language information (figure or image information) included in is also extracted.

【0058】この第2の実施形態の機械翻訳システム
は、上述したリンクオブジェクト獲得手段9及び符号化
手段10を第1の実施形態のシステム構成に追加するこ
とにより、入力文書3の非言語情報(図表やイメージ情
報)を言語情報に変換して翻訳できるようになってい
る。
In the machine translation system of the second embodiment, by adding the link object acquisition means 9 and the encoding means 10 described above to the system configuration of the first embodiment, the non-language information of the input document 3 ( (Figures and image information) can be converted into language information and translated.

【0059】なお、図3に示した入力文書301(3)
を、この第2の実施形態の機械翻訳システムで処理した
出力文書8(1600)を図16を示し、その出力文書
8(1600)の表示画面を図17に示している。これ
ら図16及び図17を、上述した図8及び図9と比較す
ることにより、この第2の実施形態の機械翻訳システム
によれば、第1の実施形態では実行できなかった、入力
文書3の非言語情報(図表やイメージ情報)を言語情報
に変換して翻訳することができていることが分かる。
The input document 301 (3) shown in FIG.
FIG. 16 shows an output document 8 (1600) processed by the machine translation system of the second embodiment, and FIG. 17 shows a display screen of the output document 8 (1600). By comparing these FIGS. 16 and 17 with FIGS. 8 and 9 described above, according to the machine translation system of the second embodiment, the input document 3 of the input document 3 which could not be executed in the first embodiment is displayed. It can be seen that non-linguistic information (figure and image information) can be converted into linguistic information and translated.

【0060】(B−2)第2の実施形態の動作 次に、以上のようなタグ付き文書を翻訳処理する第2の
実施形態の機械翻訳システムの動作を説明する。
(B-2) Operation of the Second Embodiment Next, the operation of the machine translation system of the second embodiment for translating a tagged document as described above will be described.

【0061】図12は、第2の実施形態の機械翻訳シス
テム全体の動作を示すフローチャートである。
FIG. 12 is a flow chart showing the operation of the entire machine translation system of the second embodiment.

【0062】第2の実施形態の機械翻訳システムも、上
述したように、タグ付き文書のタグ情報が付与された部
分には、当該文書の作者の何らかの意図が働いていると
考え、その部分のみに限定して要約を実施することによ
り、入力文書3の必要最小限の情報を抽出して翻訳する
ものであり、そのために入力文書3に含まれるタグ情報
に着目し、タグ情報が付与された表現を翻訳対象として
それを翻訳して出力文書8を生成して表示させる。加え
て、入力文書3の非言語情報(図表やイメージ情報)か
ら言語情報を認識して翻訳し、作者の意図を更に正確に
伝達することを実現する。
Also in the machine translation system of the second embodiment, as described above, it is considered that some part of the tagged document to which the tag information is added has some intention of the author of the document, and only that part is considered. By performing the summary only in the above, the minimum necessary information of the input document 3 is extracted and translated. Therefore, the tag information included in the input document 3 is focused and the tag information is added. The expression is used as a translation target and is translated to generate and display the output document 8. In addition, it recognizes linguistic information from the non-linguistic information (figure or image information) of the input document 3 and translates it, thereby more accurately transmitting the author's intention.

【0063】まず、タグ識別手段4が、入出力手段2を
介して、ネットワーク1からタグ付きの入力文書3を入
力する(ステップ501)。入力文書3にはタグ情報が
含まれているので、タグ識別手段4は、翻訳対象タグ情
報格納手段5から、翻訳対象タグ情報200を得て、入
力文書3の翻訳対象部分を識別する(ステップ120
1)。
First, the tag identifying means 4 inputs the input document 3 with a tag from the network 1 via the input / output means 2 (step 501). Since the input document 3 contains the tag information, the tag identifying means 4 obtains the translation target tag information 200 from the translation target tag information storage means 5 and identifies the translation target part of the input document 3 (step 120
1).

【0064】ここで、識別されたタグが非言語情報(図
表やイメージ情報)を参照するイメージタグであれば
(ステップ1202)、リンクオブジェクト獲得手段9
が、入出力手段2を介して、ネットワーク1から当該リ
ンクタグに対応するリンクオブジェクトを得る(ステッ
プ1203)。しかる後に、符号化手段10が、当該リ
ンクオブジェクトから言語情報、すなわち、文字列を認
識する(ステップ1204)。タグ識別手段4は、符号
化手段10が認識した文字列をリンクオブジェクト獲得
手段9を介して得て、リンクタグの文字列と認識文字列
を翻訳対象として翻訳手段6へ渡す(ステップ120
5)。
If the identified tag is an image tag that refers to non-language information (table or image information) (step 1202), the link object acquisition means 9
Acquires the link object corresponding to the link tag from the network 1 via the input / output unit 2 (step 1203). Thereafter, the encoding means 10 recognizes the language information, that is, the character string, from the link object (step 1204). The tag identification means 4 obtains the character string recognized by the encoding means 10 via the link object acquisition means 9, and passes the character string of the link tag and the recognized character string to the translation means 6 as a translation target (step 120).
5).

【0065】一方、上述のステップ1202の判断で、
タグ識別手段4が識別したタグ情報がイメージタグでな
いならば、タグ識別手段4は、それを翻訳手段6に渡す
(ステップ1206)。
On the other hand, in the judgment at step 1202 described above,
If the tag information identified by the tag identifying means 4 is not an image tag, the tag identifying means 4 passes it to the translating means 6 (step 1206).

【0066】翻訳手段6は、タグ識別手段4から得た翻
訳対象を翻訳し、その結果を出力文書生成手段7に渡す
(ステップ503)。出力文書生成手段7は、翻訳手段
6から得た翻訳結果を入力文書3を参照しながら整形し
て出力文書8に格納する(ステップ504)。
The translation means 6 translates the translation object obtained from the tag identification means 4 and transfers the result to the output document generation means 7 (step 503). The output document generation means 7 shapes the translation result obtained from the translation means 6 while referring to the input document 3 and stores it in the output document 8 (step 504).

【0067】以上のステップ501〜ステップ504の
動作は、タグ識別手段4が入力文書3の全てを処理し、
出力文書生成手段7が翻訳手段6から全ての翻訳結果を
受け取り、出力文書8の整形が完了するまで繰り返され
る(ステップ505)。
In the operations of the above steps 501 to 504, the tag identifying means 4 processes all of the input document 3,
The output document generation means 7 receives all the translation results from the translation means 6 and repeats until the shaping of the output document 8 is completed (step 505).

【0068】入力文書3が全て処理され、出力文書8の
整形が完了したならば、出力文書生成手段7は、出力文
書8を入出力手段2を介して表示し(ステップ50
6)、第2の実施形態の機械翻訳システムは動作を終了
する(ステップ1207)。
When all the input documents 3 are processed and the shaping of the output document 8 is completed, the output document generating means 7 displays the output document 8 via the input / output means 2 (step 50).
6), the machine translation system of the second embodiment ends the operation (step 1207).

【0069】次に、タグ識別手段4の動作を図面を参照
しながら説明する。ここで、図13が、タグ識別手段4
の動作を示すフローチャートである。
Next, the operation of the tag identifying means 4 will be described with reference to the drawings. Here, FIG. 13 shows the tag identifying means 4
6 is a flowchart showing the operation of the first embodiment.

【0070】タグ識別手段4は、まず、入出力手段2を
介して、ネットワーク1から入力文書3を得る(ステッ
プ501)。
The tag identifying means 4 first obtains the input document 3 from the network 1 via the input / output means 2 (step 501).

【0071】次に、得られた入力文書3のタグ情報に関
わる表現を抽出するために、翻訳対象タグ情報格納手段
5によって格納されている翻訳対象タグ情報200の1
個のタグパターンを得る(ステップ601)。次に得ら
れたタグパターンに適合する文字列を入力文書3から検
索する(ステップ602)。ここで、当該タグパターン
に適合する文字列が入力文書3に存在するならば(ステ
ップ603)、適合した文字列に含まれるタグ情報がイ
メージタグであるか否かをさらに検査する(ステップ1
202)。
Next, in order to extract the expression related to the tag information of the obtained input document 3, 1 of the translation target tag information 200 stored by the translation target tag information storage means 5 is extracted.
The individual tag patterns are obtained (step 601). Next, the input document 3 is searched for a character string that matches the obtained tag pattern (step 602). If a character string matching the tag pattern is present in the input document 3 (step 603), it is further checked whether the tag information included in the matching character string is an image tag (step 1).
202).

【0072】当該タグ情報がイメージタグであるなら
ば、当該文字列をリンクオブジェクト獲得手段9に転送
する(ステップ1301)。次に、リンクオブジェクト
獲得手段9及び符号化手段10の動作を経て認識された
文字列をリンクオブジェクト獲得手段9から受け取る
(ステップ1302)。そして、イメージタグの文字列
と受け取った認識文字列を翻訳対象として翻訳手段6へ
転送する(ステップ1205)。
If the tag information is an image tag, the character string is transferred to the link object acquisition means 9 (step 1301). Next, the character string recognized through the operations of the link object acquisition means 9 and the encoding means 10 is received from the link object acquisition means 9 (step 1302). Then, the character string of the image tag and the received recognized character string are transferred to the translation means 6 as translation targets (step 1205).

【0073】一方、ステップ1202の判断で、タグ識
別手段4が識別したタグ情報がイメージタグでないとい
う結果を得たならば、タグ識別手段4は、それを翻訳手
段6に渡す(ステップ1206)。
On the other hand, if it is determined in step 1202 that the tag information identified by the tag identifying means 4 is not an image tag, the tag identifying means 4 passes it to the translating means 6 (step 1206).

【0074】また、上述のステップ603で、適合する
文字列が入力文書3に存在しない場合には、ステップ1
206、及び、ステップ1301〜ステップ1205の
動作は省略される。
If there is no matching character string in the input document 3 in the above step 603, step 1
The operations of 206 and steps 1301 to 1205 are omitted.

【0075】しかる後に、翻訳対象タグ情報格納手段5
によって格納されている翻訳対象タグ情報200の全て
のタグパターンで、入力文書3を検索したか否かをチェ
ックし(ステップ605)、未だ検索していないタグパ
ターンが存在するならば、ステップ601〜ステップ1
205、又は、ステップ601〜ステップ1206を繰
り返す。
After that, the translation target tag information storage means 5
It is checked whether or not the input document 3 is searched for in all the tag patterns of the translation target tag information 200 stored by (step 605), and if there is a tag pattern that has not been searched yet, steps 601 to 601 are executed. Step 1
205, or steps 601-1206 are repeated.

【0076】そして、全てのタグパターンによる検索が
完了したならば(ステップ605で肯定結果)、タグ識
別手段4は動作を終了する(ステップ1303)。
When the search using all the tag patterns is completed (Yes in step 605), the tag identifying means 4 ends the operation (step 1303).

【0077】次に、リンクオブジェクト獲得手段9の動
作を図面を参照しながら説明する。ここで、図14が、
リンクオブジェクト獲得手段9の動作を示すフローチャ
ートである。
Next, the operation of the link object acquisition means 9 will be described with reference to the drawings. Here, FIG.
7 is a flowchart showing the operation of the link object acquisition means 9.

【0078】リンクオブジェクト獲得手段9は、まず、
タグ識別手段4が、ステップ1301で転送した当該オ
ブジェクトの参照先を示す文字列(リンク情報)を受け
取る(ステップ1401)。次に、入出力手段2を介し
て、ネットワーク1から当該リンク情報に対応するリン
クオブジェクトを得る(ステップ1203)。そして、
得られたリンクオブジェクトを符号化手段10に転送し
(ステップ1402)、符号化手段10がリンクオブジ
ェクトから認識した認識文字列を符号化手段10から得
る(ステップ1403)。最後に、リンクオブジェクト
獲得手段9は、当該認識文字列を、タグ識別手段4に返
送し(ステップ1404)、動作を終了する(ステップ
1405)。
The link object acquisition means 9 first
The tag identifying means 4 receives the character string (link information) indicating the reference destination of the object transferred in step 1301 (step 1401). Next, the link object corresponding to the link information is obtained from the network 1 via the input / output unit 2 (step 1203). And
The obtained link object is transferred to the encoding means 10 (step 1402), and the recognition character string recognized by the encoding means 10 from the link object is obtained from the encoding means 10 (step 1403). Finally, the link object acquisition means 9 returns the recognized character string to the tag identification means 4 (step 1404) and ends the operation (step 1405).

【0079】ここで、タグ識別手段4とリンクオブジェ
クト獲得手段9とは、ステップ1301とステップ14
01、及び、ステップ1404とステップ1302とで
互いに同期して動作する。
Here, the tag identification means 4 and the link object acquisition means 9 have steps 1301 and 14 respectively.
01, and step 1404 and step 1302 operate in synchronization with each other.

【0080】次に、符号化手段10の動作を図面を参照
しながら説明する。ここで、図15が、符号化手段10
の動作を示すフローチャートである。
Next, the operation of the encoding means 10 will be described with reference to the drawings. Here, FIG. 15 shows the encoding means 10.
6 is a flowchart showing the operation of the first embodiment.

【0081】符号化手段10は、まず、リンクオブジェ
クト獲得手段9が、ステップ1402で転送したリンク
オブジェクトを受け取る(ステップ1501)。次に、
リンクオブジェクト中の文字列を認識する(ステップ1
204)。文字列の認識は、既存のいずれかの文字認識
方法によって実現されている。最後に、符号化手段10
は、認識した文字列をリンクオブジェクト獲得手段9に
返送し(ステップ1502)、動作を終了する(ステッ
プ1503)。
In the encoding means 10, first, the link object acquisition means 9 receives the link object transferred in step 1402 (step 1501). next,
Recognize the character string in the link object (step 1
204). The recognition of the character string is realized by any existing character recognition method. Finally, the encoding means 10
Returns the recognized character string to the link object acquisition means 9 (step 1502) and ends the operation (step 1503).

【0082】リンクオブジェクト獲得手段9と符号化手
段10とは、ステップ1402とステップ1501、及
び、ステップ1502とステップ1403で互いに同期
して動作する。
The link object acquisition means 9 and the encoding means 10 operate in synchronization with each other at step 1402 and step 1501, and at step 1502 and step 1403.

【0083】なお、第2の実施形態における翻訳手段6
は、図7に示すフローチャートに従って、第1の実施形
態における翻訳手段6と同様に動作する。また、第2の
実施形態における出力文書生成手段7も、図8に示すフ
ローチャートに従って、第1の実施形態における出力文
書生成手段7と同様に動作する。
The translation means 6 in the second embodiment
Operates in the same manner as the translation means 6 in the first embodiment according to the flowchart shown in FIG. The output document generation means 7 in the second embodiment also operates in the same manner as the output document generation means 7 in the first embodiment according to the flowchart shown in FIG.

【0084】以下では、図3に示したタグ付き文書30
1を入力文書3の例として、また、図2に示した翻訳対
象タグ情報200を翻訳対象タグ情報格納手段5が格納
しているとして、第2の実施形態の機械翻訳システムの
動作を具体的に説明する。
In the following, the tagged document 30 shown in FIG.
1 as an example of the input document 3 and the translation target tag information storage unit 5 storing the translation target tag information 200 shown in FIG. 2, the operation of the machine translation system of the second embodiment will be described in detail. Explained.

【0085】まず、タグ識別手段4は入力文書301を
得る(ステップ501)。次に、タグ識別手段4は、翻
訳対象タグ情報格納手段5が格納する翻訳対象タグ情報
200の第1のタグパターン201を得る(ステップ6
01)。得られたタグパターンは「<I>.+</I
>」であるので、これに適合する文字列を入力文書30
1から検索する(ステップ602)。その結果、「<I
>parsing</I>」、「<I>transfe
rring</I>」、「<I>generating
</I>」及び「<I>transfer metho
d</I>」とがタグパターン201に適合する文字列
として抽出され(ステップ603)、さらに、それら
は、イメージタグではないので、タグ識別手段4は、そ
れらの文字列を翻訳対象として翻訳手段6に転送する
(ステップ1206)。
First, the tag identifying means 4 obtains the input document 301 (step 501). Next, the tag identifying means 4 obtains the first tag pattern 201 of the translation target tag information 200 stored in the translation target tag information storage means 5 (step 6).
01). The obtained tag pattern is "<I>. + </ I
> ”, A character string matching this is input document 30
Search from 1 (step 602). As a result, "<I
> Parsing </ I>, “<I> transfer
"ring </ I>", "<I>generation"
</ I> ”and“ <I> transfer method ”
d </ I> ”is extracted as a character string that matches the tag pattern 201 (step 603), and since they are not image tags, the tag identifying means 4 translates these character strings as translation targets. Transfer to the means 6 (step 1206).

【0086】翻訳手段6は、これら4つの翻訳対象を得
て(ステップ701)、それらを翻訳し、それぞれ「<
I>解析</I>」、「<I>変換</I>」、「<I
>生成</I>」、「<I>トランスファ方式</I
>」なる翻訳結果を得る(ステップ702)。翻訳手段
6は、これら4つの翻訳結果を出力文書生成手段7に転
送する(ステップ703)。
The translation means 6 obtains these four translation objects (step 701), translates them, and outputs "<
“I> analysis </ I>”, “<I> conversion </ I>”, “<I
> Generation </ I>, “<I> Transfer method </ I>
> ”Is obtained (step 702). The translation means 6 transfers these four translation results to the output document generation means 7 (step 703).

【0087】出力文書生成手段7は、翻訳手段6から得
た4つの翻訳結果を、入力文書301の書式を参照しな
がら出力文書1600の所定の位置(図16参照)に格
納する(ステップ802)。
The output document generation means 7 stores the four translation results obtained from the translation means 6 in a predetermined position (see FIG. 16) of the output document 1600 while referring to the format of the input document 301 (step 802). .

【0088】その後、タグ識別手段4において、翻訳対
象タグ情報200の次のタグパターンが残されているの
で(ステップ605)、以下同様にして、入力文書30
1のタグパターン202、…、207に適合する文字列
が順次翻訳され、出力文書1600に格納される。
Thereafter, since the tag pattern next to the translation target tag information 200 is left in the tag identifying means 4 (step 605), the input document 30 is similarly processed.
, 207 of 1 are sequentially translated and stored in the output document 1600.

【0089】次に、タグ識別手段4は、翻訳対象タグ情
報格納手段5が格納する翻訳対象タグ情報200の第8
のタグパターン208を得る(ステップ601)。その
結果、「<center><IMG SRC=”TRA
NSFER.gif”></center>」がタグパ
ターン208に適合する文字列として抽出される(ステ
ップ603)。ここで、当該文字列に含まれるタグはイ
メージタグ(<IMG...>)であるので(ステップ
1202)、当該文字列が、リンクオブジェクト獲得手
段9に転送される(ステップ1301)。
Next, the tag identifying means 4 determines the eighth of the translation target tag information 200 stored in the translation target tag information storage means 5.
The tag pattern 208 is obtained (step 601). As a result, "<center><IMG SRC =" TRA
NSFER. gif "></center>" is extracted as a character string that matches the tag pattern 208 (step 603). Here, since the tag included in the character string is an image tag (<IMG ...>) (step 1202), the character string is transferred to the link object acquisition means 9 (step 1301).

【0090】リンクオブジェクト獲得手段9は、「<c
enter><IMG SRC=”TRANSFER.
gif”></center>」に適合するリンクオブ
ジェクト302をネットワーク1から入出力手段2を介
して得て(ステップ1203)、さらに、符号化手段1
0が、リンクオブジェクト302から文字列「Orig
inal Sentence」、「Parsing」、
…、「Transfer Method」を得る(ステ
ップ1204)。タグ識別手段4は、こうして得られた
6つの認識文字列と、リンクタグを含む文字列「<ce
nter><IMG SRC=”TRANSFER.g
if”></center>」を翻訳手段6に転送する
(ステップ1205)。
The link object acquisition means 9 displays "<c
enter><IMG SRC = “TRANSFER.
A link object 302 conforming to gif "></center>" is obtained from the network 1 via the input / output unit 2 (step 1203), and further, the encoding unit 1
0 is the character string “Orig from the link object 302.
"internal Sentence", "Parsing",
..., "Transfer Method" is obtained (step 1204). The tag identifying means 4 recognizes the six recognized character strings thus obtained and the character string “<ce which includes the link tag.
inter><IMG SRC = “TRANSFER.g
If "></center>" is transferred to the translation means 6 (step 1205).

【0091】なお、その際、認識文字列に翻訳手段6に
対して非翻訳を指示するタグ(HTMLでは、<PRE
>...</PRE>)を付与して、認識文字列と対応
するイメージとの関係をより明確にするように工夫して
も良い。その結果、「<center><IMG SR
C=”TRANSFER.gif”></center
>」、「<PRE>[Original Senten
ce :</PRE>Original Senten
ce<PRE>]</PRE>」、「<PRE>[Pa
rsing :</PRE>Parsing<PRE
>]</PRE>」、…、「<PRE>[Transf
er Method :</PRE>Transfer
Method<PRE>]</PRE>」とが、翻訳
手段6に渡される。
At this time, a tag (in HTML, <PRE in HTML is used to instruct the translation means 6 to perform non-translation on the recognition character string.
>. . . </ PRE>) may be added to make the relationship between the recognized character string and the corresponding image clearer. As a result, “<center><IMG SR
C = “TRANSFER.gif”></ center
> ”,“ <PRE> [Original Senten
ce: </ PRE> Original Senten
ce <PRE>] </ PRE> ”,“ <PRE> [Pa
rsing: </ PRE> Parsing <PRE
>] </ PRE> ”, ...,“ <PRE> [Transf
er Method: </ PRE> Transfer
Method <PRE>] </ PRE> ”is passed to the translation means 6.

【0092】翻訳手段6は、これらの7つの翻訳対象を
得て(ステップ701)、それらを翻訳し、それぞれ
「<center><IMG SRC=”TRANSF
ER.gif”></center>」、「[Orig
inal Sentence:原文]」、「[Pars
ing:解析]」、…、「[Transfer Met
hod:トランスファ方式]」なる翻訳結果を得る(ス
テップ702)。翻訳手段6は、これら7つの翻訳結果
を出力文書生成手段7に転送する(ステップ703)。
The translating means 6 obtains these seven translation objects (step 701), translates them, and outputs "<center><IMG SRC =" TRANSF.
ER. gif ”></center>”, “[Orig
internal Sentence: original text, ”“ [Pars
ing: Analysis] ”, ...,“ [Transfer Met
"hod: transfer method]" is obtained (step 702). The translation means 6 transfers these seven translation results to the output document generation means 7 (step 703).

【0093】出力文書生成手段7は、翻訳手段6から得
た7つの翻訳結果を、入力文書301の書式を参照しな
がら出力文書1600の所定の位置(図16の符号16
01参照)に格納する(ステップ802)。
The output document generation means 7 refers to the seven translation results obtained from the translation means 6 with reference to the format of the input document 301, and outputs the output document 1600 at a predetermined position (reference numeral 16 in FIG. 16).
No. 01) (step 802).

【0094】以下同様にして、入力文書301のタグパ
ターン209に適合する文字列が順次翻訳され、出力文
書1600に格納され、最終的に図17に示す出力文書
の表示画面1700が入出力手段2を介して表示される
(ステップ506)。
Similarly, the character strings conforming to the tag pattern 209 of the input document 301 are sequentially translated and stored in the output document 1600. Finally, the output document display screen 1700 shown in FIG. Is displayed via (step 506).

【0095】(B−3)第2の実施形態の効果 この第2の実施形態の機械翻訳システムによっても、第
1の実施形態の技術的思想をそのまま有するので、第1
の実施形態が有していた効果を奏することができる。
(B-3) Effect of Second Embodiment The machine translation system of the second embodiment also has the technical idea of the first embodiment as it is.
It is possible to achieve the effect that the embodiment described above has.

【0096】これに加えて、第2の実施形態によれば、
入力文書3を要約して翻訳した結果に、イメージ部分の
文字列情報が翻訳された内容(図16の符号1601参
照)を付加した出力文書8を得ることができ、作者の意
図をより一段と明確にすることができる。
In addition to this, according to the second embodiment,
It is possible to obtain the output document 8 in which the translated content of the character string information of the image portion (see reference numeral 1601 in FIG. 16) is added to the result of the translation of the input document 3 in a summarized manner, and the intention of the author is further clarified. Can be

【0097】図3に示す入力文書301と、図16に示
す出力文書1600を比べてみると、文字列が原言語
(英語)で表示されるイメージ部分302に対しても、
文字列部分が翻訳されて日本語で出力されているので、
作者の意図がより明確になっていることが判る。また、
このことは、図16に示す出力文書1600の表示画面
1700を参照することで更に明らかである。
Comparing the input document 301 shown in FIG. 3 with the output document 1600 shown in FIG. 16, even for the image portion 302 in which the character string is displayed in the original language (English),
Since the character string part is translated and output in Japanese,
It can be seen that the author's intention is clearer. Also,
This is further apparent by referring to the display screen 1700 of the output document 1600 shown in FIG.

【0098】なお、図17にある表示域302は、図3
のそれと同様の図(イメージ)情報であり、その下に、
この表示域302(図)の文字列部分が翻訳された表示
域1601が挿入されている。
The display area 302 shown in FIG. 17 is the same as that shown in FIG.
Figure (image) information similar to that of
A display area 1601 in which a character string portion of this display area 302 (FIG.) Is translated is inserted.

【0099】(C)第3の実施形態 次に、本発明による文書処理システムを、タグ付き文書
の機械翻訳システムに適用した第3の実施形態を図面を
参照しながら詳述する。
(C) Third Embodiment Next, a third embodiment in which the document processing system according to the present invention is applied to a machine translation system for tagged documents will be described in detail with reference to the drawings.

【0100】この第3の実施形態の機械翻訳システム
は、第2の実施形態と同様な機能に加えて、入力文書の
翻訳結果を表示する際に、入力文書で指定されているリ
ンク先文書の翻訳結果をも併せて表示させる機能を有す
るものである。
The machine translation system of the third embodiment has the same function as that of the second embodiment, and in addition to the function of the second embodiment, when displaying the translation result of the input document, the link destination document specified in the input document is displayed. It also has a function of displaying the translation result together.

【0101】(C−1)第3の実施形態の構成 図18は、この第3の実施形態の機械翻訳システムのブ
ロック図であり、上述した第2の実施形態に係る図11
との同一、対応部分には同一符号を付して示している。
(C-1) Configuration of Third Embodiment FIG. 18 is a block diagram of a machine translation system of the third embodiment, and FIG. 11 according to the second embodiment described above.
The same and corresponding parts as those shown in FIG.

【0102】図18及び図11との比較から明らかなよ
うに、第3の実施形態の機械翻訳システムは、第2の実
施形態の機械翻訳システムの構成に加えて、オブジェク
ト格納手段11を備えている。
As is clear from comparison with FIG. 18 and FIG. 11, the machine translation system of the third embodiment has an object storage means 11 in addition to the configuration of the machine translation system of the second embodiment. There is.

【0103】オブジェクト格納手段11は、リンクオブ
ジェクト獲得手段9が得たリンクオブジェクトを新たな
入力文書とするために格納するものである。
The object storage means 11 stores the link object obtained by the link object acquisition means 9 in order to make it a new input document.

【0104】なお、第3の実施形態のタグ識別手段4
は、入力文書2に含まれるタグを識別し、タグを含む翻
訳対象表現及び入力文書2に含まれるメージタグ情報を
抽出するだけでなく、他の文書へのリンクを示すタグ情
報(以下、リンクタグと呼ぶ)も抽出する。
The tag identifying means 4 of the third embodiment is used.
Identifies not only the tag included in the input document 2 and the translation target expression including the tag and the image tag information included in the input document 2, but also tag information indicating a link to another document (hereinafter referred to as a link tag). Also called).

【0105】なお、第3の実施形態の機械翻訳システム
は、第2の実施形態の構成にオブジェクト格納手段11
を追加することにより、入力文書3が参照する文書(リ
ンク先文書)を新たな入力文書として翻訳するできるよ
うにしている。
The machine translation system according to the third embodiment has the same structure as that of the second embodiment except that the object storage means 11 is used.
Is added, the document referred to by the input document 3 (link destination document) can be translated as a new input document.

【0106】ここで、図3に示した入力文書301
(3)を、この第3の実施形態の機械翻訳システムで処
理した出力文書8(2200)を図22に示し、その出
力文書8(2200)の表示画面を図23に示してい
る。これら図22及び図23を、上述した図16及び図
17と比較することにより、この第3の実施形態の機械
翻訳システムによれば、第2の実施形態では実行できな
かった、リンク関係にある複数の文書の翻訳結果の同時
表示ができていることが分かる。
Here, the input document 301 shown in FIG.
An output document 8 (2200) obtained by processing (3) in the machine translation system of the third embodiment is shown in FIG. 22, and a display screen of the output document 8 (2200) is shown in FIG. By comparing these FIG. 22 and FIG. 23 with the above-mentioned FIG. 16 and FIG. 17, the machine translation system of this third embodiment has a link relationship that could not be executed in the second embodiment. It can be seen that the translation results of multiple documents can be displayed simultaneously.

【0107】(C−2)第3の実施形態の動作 次に、以上のようなタグ付き文書を翻訳処理する第3の
実施形態の機械翻訳システムの動作を説明する。
(C-2) Operation of the Third Embodiment Next, the operation of the machine translation system of the third embodiment for translating a tagged document as described above will be described.

【0108】図19は、第3の実施形態の機械翻訳シス
テム全体の動作を示すフローチャートである。
FIG. 19 is a flow chart showing the operation of the entire machine translation system of the third embodiment.

【0109】第3の実施形態の機械翻訳システムは、第
2の実施形態の機械翻訳システムが有する機能を実現す
るように動作するだけでなく、加えて、入力文書3のリ
ンクタグを参照することによりリンクしている文書を獲
得し、それを新たな入力文書として翻訳して、第2の実
施形態ではリンク情報だけしか示されないリンク先の文
書について、その要約翻訳結果もリンク元の入力文書の
翻訳結果に付加して表示するように動作する。
The machine translation system of the third embodiment not only operates so as to realize the functions of the machine translation system of the second embodiment, but also refers to the link tag of the input document 3. A linked document is acquired and translated as a new input document, and the summary translation result of the link destination document in which only the link information is shown in the second embodiment is also the input source document of the link source. It operates to add and display the translation result.

【0110】まず、タグ識別手段4が、入出力手段2を
介してネットワーク1からタグ付きの入力文書3を入力
する(ステップ501)。入力文書3にはタグ情報が含
まれているので、タグ識別手段4は、翻訳対象タグ情報
格納手段5から翻訳対象タグ情報200を得て、入力文
書3の翻訳対象を識別する(ステップ1201)。
First, the tag identifying means 4 inputs the input document 3 with a tag from the network 1 via the input / output means 2 (step 501). Since the input document 3 includes the tag information, the tag identifying unit 4 obtains the translation target tag information 200 from the translation target tag information storage unit 5 and identifies the translation target of the input document 3 (step 1201). .

【0111】ここで、識別されたタグが非言語情報(図
表やイメージ情報)を参照するイメージタグであれば
(ステップ1202)、リンクオブジェクト獲得手段9
が、入出力手段2を介して、ネットワーク1から当該リ
ンクタグに対応するリンクオブジェクトを得る(ステッ
プ1203)。しかる後に、符号化手段10が、当該リ
ンクオブジェクトから言語情報、すなわち、文字列を認
識する(ステップ1204)。タグ識別手段4は、符号
化手段10が認識した文字列をリンクオブジェクト獲得
手段9を介して得て、リンクタグの文字列と認識文字列
を翻訳対象として翻訳手段6へ渡す(ステップ120
5)。
If the identified tag is an image tag that refers to non-language information (figure or image information) (step 1202), the link object acquisition means 9
Acquires the link object corresponding to the link tag from the network 1 via the input / output unit 2 (step 1203). Thereafter, the encoding means 10 recognizes the language information, that is, the character string, from the link object (step 1204). The tag identification means 4 obtains the character string recognized by the encoding means 10 via the link object acquisition means 9, and passes the character string of the link tag and the recognized character string to the translation means 6 as a translation target (step 120).
5).

【0112】一方、上述したステップ1202の判断で
否定結果を得たならば、リンクタグか否かを判断する
(ステップ1901)。タグ識別手段4が識別したタグ
情報がリンクタグであるならば(ステップ1901)、
リンクオブジェクト獲得手段9が、入出力手段2を介し
て、ネットワーク1から当該リンクタグに対応するリン
クオブジェクトを得る(ステップ1902)。しかる後
に、リンクオブジェクト獲得手段9が、獲得したリンク
オブジェクトをオブジェクト格納手段11に転送し、オ
ブジェクト格納手段11は、格納したオブジェクトを新
たな入力文書としてタグ識別手段4に渡す(ステップ1
903)。タグ識別手段4は、オブジェクト格納手段1
1からのリンクオブジェクトの転送を受けると、それま
での動作を保留して、転送されたオブジェクトを新たな
入力文書とした動作を開始する(ステップ1904)。
タグ識別手段4は、新たな入力文書に対する動作を終え
ると、保留していた状態に復帰し、動作を続行する(ス
テップ503へ進む)。
On the other hand, if a negative result is obtained in the above step 1202, it is judged whether or not it is a link tag (step 1901). If the tag information identified by the tag identifying means 4 is a link tag (step 1901),
The link object acquisition unit 9 obtains the link object corresponding to the link tag from the network 1 via the input / output unit 2 (step 1902). After that, the link object acquisition means 9 transfers the acquired link object to the object storage means 11, and the object storage means 11 passes the stored object to the tag identification means 4 as a new input document (step 1).
903). The tag identifying means 4 is the object storing means 1
When the transfer of the link object from No. 1 is received, the operation up to that point is suspended, and the operation of using the transferred object as a new input document is started (step 1904).
When the tag identifying means 4 finishes the operation for the new input document, it returns to the suspended state and continues the operation (proceeds to step 503).

【0113】一方、上述したステップ1901の判断
で、タグ識別手段4が識別したタグ情報がリンクタグで
ないならば、すなわち、タグ識別手段4が識別したタグ
が、イメージタグでもリンクタグでもないならば、タグ
識別手段4は、それを翻訳手段6に渡す(ステップ12
06)。
On the other hand, if the tag information identified by the tag identifying means 4 is not a link tag in the determination in step 1901, that is, if the tag identified by the tag identifying means 4 is neither an image tag nor a link tag. , The tag identification means 4 passes it to the translation means 6 (step 12).
06).

【0114】翻訳手段6は、タグ識別手段4から得た翻
訳対象を翻訳し、その結果を出力文書生成手段7に渡す
(ステップ503)。出力文書生成手段7は、翻訳手段
6から得た翻訳結果を入力文書3を参照しながら整形し
て出力文書8に格納する(ステップ504)。
The translation means 6 translates the translation object obtained from the tag identification means 4 and passes the result to the output document generation means 7 (step 503). The output document generation means 7 shapes the translation result obtained from the translation means 6 while referring to the input document 3 and stores it in the output document 8 (step 504).

【0115】以上のステップ501〜ステップ504の
動作は、タグ識別手段4が入力文書3の全てを処理し、
出力文書生成手段7が翻訳手段6から全ての翻訳結果を
受け取り、出力文書8の整形が完了するまで繰り返され
る(ステップ505)。入力文書3が全て処理され、出
力文書8の整形が完了したならば、出力文書生成手段7
は、出力文書8を入出力手段2を介して表示し(ステッ
プ506)、この機械翻訳システムは動作を終了する
(ステップ1905)。
In the operations of the above steps 501 to 504, the tag identifying means 4 processes all of the input document 3,
The output document generation means 7 receives all the translation results from the translation means 6 and repeats until the shaping of the output document 8 is completed (step 505). When the input document 3 is all processed and the shaping of the output document 8 is completed, the output document generating means 7
Displays the output document 8 via the input / output unit 2 (step 506), and the machine translation system ends the operation (step 1905).

【0116】次に、タグ識別手段4の動作を図面を参照
しながら説明する。ここで、図20が、第3の実施形態
のタグ識別手段4の動作を示すフローチャートである。
Next, the operation of the tag identifying means 4 will be described with reference to the drawings. Here, FIG. 20 is a flowchart showing the operation of the tag identifying means 4 of the third exemplary embodiment.

【0117】タグ識別手段4は、まず、オブジェクト格
納手段11からのオブジェクトの転送があるか否かを判
断する(ステップ2001)。オブジェクトの転送があ
れば、それまでの動作を保留して、オブジェクト格納手
段11から文書を入力し、それを新たな入力文書として
新規に動作を開始するためにステップ601へ進む(ス
テップ2002)。なお、タグ識別手段4は、新たな入
力文書に対する動作を終えると、保留していた状態に復
帰し、動作を続行する。
The tag identifying means 4 first determines whether or not an object is transferred from the object storage means 11 (step 2001). If there is an object transfer, the operation up to that point is suspended, a document is input from the object storage means 11, and the operation proceeds to step 601 in order to newly start the operation as a new input document (step 2002). It should be noted that when the tag identifying means 4 finishes the operation for the new input document, it returns to the suspended state and continues the operation.

【0118】また、オブジェクト格納手段11からのオ
ブジェクトの転送がない間は(ステップ2001)、タ
グ識別手段4は、まず、入出力手段2を介して、ネット
ワーク1から入力文書3を得る(ステップ501)。
While the object is not transferred from the object storage means 11 (step 2001), the tag identification means 4 first obtains the input document 3 from the network 1 via the input / output means 2 (step 501). ).

【0119】次に、得られた入力文書3(オブジェクト
格納手段11からの文書のこともあり得る)のタグ情報
に関わる表現を抽出するために、翻訳対象タグ情報格納
手段5によって格納されている翻訳対象タグ情報200
のタグパターンを得る(ステップ601)。次に得られ
たタグパターンに適合する文字列を入力文書3から検索
し(ステップ602)、適合する文字列の存在の有無を
判断する(ステップ603)。
Next, in order to extract the expression relating to the tag information of the obtained input document 3 (which may be a document from the object storage means 11), it is stored by the translation target tag information storage means 5. Translation target tag information 200
(Step 601). Next, the input document 3 is searched for a character string that matches the obtained tag pattern (step 602), and it is determined whether or not a matching character string exists (step 603).

【0120】ここで、当該タグパターンに適合する文字
列が入力文書3に存在するならば(ステップ603で肯
定結果)、適合した文字列に含まれるタグ情報がイメー
ジタグ又はリンクタグであるか否かを検査し(ステップ
2003)、当該タグ情報がイメージタグ又はリンクタ
グであるならば、当該文字列をリンクオブジェクト獲得
手段9に転送する(ステップ1301)。
If a character string matching the tag pattern is present in the input document 3 (Yes in step 603), whether the tag information included in the matching character string is an image tag or a link tag. It is inspected (step 2003), and if the tag information is an image tag or a link tag, the character string is transferred to the link object acquisition means 9 (step 1301).

【0121】次に、リンクオブジェクト獲得手段9及び
符号化手段10の動作を経て認識された文字列をリンク
オブジェクト獲得手段9から受け取る(ステップ130
2)。そして、イメージタグの文字列と受け取った認識
文字列を翻訳対象として翻訳手段6へ転送する(ステッ
プ1205)。なお、タグ情報がイメージタグの場合に
これらステップ1302及びステップ1205が有効に
機能し、タグ情報がリンクタグの場合には、リンクオブ
ジェクト獲得手段9の動作により、上述したステップ2
002が実行され、これらステップ1302及びステッ
プ1205は機能しない。
Next, the character string recognized through the operations of the link object acquisition means 9 and the encoding means 10 is received from the link object acquisition means 9 (step 130).
2). Then, the character string of the image tag and the received recognized character string are transferred to the translation means 6 as translation targets (step 1205). When the tag information is an image tag, these steps 1302 and 1205 function effectively, and when the tag information is a link tag, the operation of the link object acquisition means 9 causes the above step 2 to be performed.
002 is executed, and these steps 1302 and 1205 do not work.

【0122】一方、上述したステップ2003の判断
で、タグ識別手段4が識別したタグがイメージタグでも
リンクタグでもないならば、タグ識別手段4は、それを
翻訳手段6に渡す(ステップ1206)。
On the other hand, if the tag identified by the tag identifying means 4 is neither an image tag nor a link tag in the judgment of step 2003, the tag identifying means 4 passes it to the translating means 6 (step 1206).

【0123】また、上述したステップ603で、適合す
る文字列が入力文書3に存在しない場合には、ステップ
1206及びステップ1301〜1205の動作は省略
される。
If no matching character string exists in the input document 3 in step 603, the operations of step 1206 and steps 1301 to 1205 are omitted.

【0124】しかる後に、翻訳対象タグ情報格納手段5
によって格納されている翻訳対象タグ情報200の全て
のタグパターンで、入力文書3を検索したか否かをチェ
ックし(ステップ605)、未だ検索していないタグパ
ターンが存在するならば、ステップ601〜ステップ1
205、又は、ステップ601〜ステップ1206を繰
り返す。
After that, the translation target tag information storage means 5
It is checked whether or not the input document 3 is searched for in all the tag patterns of the translation target tag information 200 stored by (step 605), and if there is a tag pattern that has not been searched yet, steps 601 to 601 are executed. Step 1
205, or steps 601-1206 are repeated.

【0125】そして、全てのタグパターンによる検索が
完了したならば、タグ識別手段4は動作を終了する(ス
テップ1303)。
When the search using all the tag patterns is completed, the tag identifying means 4 ends the operation (step 1303).

【0126】次に、第3の実施形態のリンクオブジェク
ト獲得手段9の動作を図面を参照しながら説明する。こ
こで、図21が、第3の実施形態のリンクオブジェクト
獲得手段9の動作を示すフローチャートである。
Next, the operation of the link object acquisition means 9 of the third embodiment will be described with reference to the drawings. Here, FIG. 21 is a flow chart showing the operation of the link object acquisition means 9 of the third exemplary embodiment.

【0127】リンクオブジェクト獲得手段9は、まず、
タグ識別手段4が、ステップ1301で転送した当該オ
ブジェクトの参照先を示す文字列(リンク情報)を受け
取り(ステップ1401)。イメージタグかリンクタグ
かを識別する(ステップ2101)。
The link object acquisition means 9 first
The tag identifying means 4 receives the character string (link information) indicating the reference destination of the object transferred in step 1301 (step 1401). An image tag or a link tag is identified (step 2101).

【0128】ここで、転送されてきたリンク情報がイメ
ージタグであるならば、リンクオブジェクト獲得手段9
は、入出力手段2を介して、ネットワーク1から当該リ
ンク情報に対応するリンクオブジェクトを得る(ステッ
プ1203)。この場合は、リンクオブジェクトとして
イメージ情報が得られる。そして、得られたリンクオブ
ジェクトを符号化手段10に転送し(ステップ140
2)、符号化手段10がリンクオブジェクトから認識し
た認識文字列を符号化手段10から得る(ステップ14
03)。最後に、リンクオブジェクト獲得手段9は、当
該認識文字列を、タグ識別手段4に返送し(ステップ1
404)、動作を終了する(ステップ2103)。
If the transferred link information is an image tag, the link object acquisition means 9
Acquires a link object corresponding to the link information from the network 1 via the input / output unit 2 (step 1203). In this case, image information is obtained as a link object. Then, the obtained link object is transferred to the encoding means 10 (step 140).
2) The recognition character string recognized by the encoding means 10 from the link object is obtained from the encoding means 10 (step 14).
03). Finally, the link object acquisition means 9 returns the recognized character string to the tag identification means 4 (step 1
404), the operation ends (step 2103).

【0129】一方、転送されてきたリンク情報がイメー
ジタグでなく別の文書を参照するリンクタグであるなら
ば(ステップ2101)、リンクオブジェクト獲得手段
9は、入出力手段2を介して、ネットワーク1から当該
リンク情報に対応するリンクオブジェクトを得る(ステ
ップ1203)。この場合は、リンクオブジェクトとし
て参照先のタグ付き文書が得られる。次に、リンクオブ
ジェクト獲得手段9は、得られたリンクオブジェクトを
オブジェクト格納手段11に転送し(ステップ210
2)、動作を終了する(ステップ2103)。
On the other hand, if the transferred link information is not an image tag but a link tag for referencing another document (step 2101), the link object acquisition means 9 causes the network 1 to operate via the input / output means 2. A link object corresponding to the link information is obtained from (step 1203). In this case, the referenced document with a tag is obtained as the link object. Next, the link object acquisition means 9 transfers the obtained link object to the object storage means 11 (step 210).
2) The operation is ended (step 2103).

【0130】なお、タグ識別手段4とリンクオブジェク
ト獲得手段9とは、ステップ1301とステップ140
1、及び、ステップ1404とステップ1302で互い
に同期して動作する。また、リンクオブジェクト獲得手
段9とオブジェクト格納手段11とは、ステップ210
2で同期し、オブジェクト格納手段11は、オブジェク
トが格納された時点で、タグ識別手段4とステップ20
02で同期して動作する。
Note that the tag identifying means 4 and the link object obtaining means 9 perform steps 1301 and 140.
1, and the steps 1404 and 1302 operate in synchronization with each other. Further, the link object acquisition means 9 and the object storage means 11 perform step 210.
2, the object storing means 11 and the tag identifying means 4 and the step 20 at the time when the object is stored.
02 works synchronously.

【0131】この第3の実施形態における翻訳手段6
は、図7に示すフローチャートに従って、第1の実施形
態における翻訳手段6と同様に動作する。また、第3の
実施形態における出力文書生成手段7も、図8に示すフ
ローチャートに従って、第1の実施形態における出力文
書生成手段7と同様に動作する。さらに、第3の実施形
態における符号化手段10は、図15に示すフローチャ
ートに従って、第2の実施形態における符号化手段10
と同様に動作する。
The translation means 6 in this third embodiment
Operates in the same manner as the translation means 6 in the first embodiment according to the flowchart shown in FIG. The output document generation means 7 in the third embodiment also operates in the same manner as the output document generation means 7 in the first embodiment according to the flowchart shown in FIG. Furthermore, the encoding means 10 in the third embodiment follows the flowchart shown in FIG. 15 and the encoding means 10 in the second embodiment.
Works the same as.

【0132】以下では、図3に示したタグ付き文書30
1を入力文書3の例として、また、図2に示した翻訳対
象タグ情報200を翻訳対象タグ情報格納手段5が格納
しているとして、第3の実施形態の機械翻訳システムの
動作を具体的に説明する。
In the following, the tagged document 30 shown in FIG.
1 as an example of the input document 3 and the translation target tag information storage means 5 stores the translation target tag information 200 shown in FIG. 2, the operation of the machine translation system of the third embodiment will be described in detail. Explained.

【0133】まず、タグ識別手段4は入力文書301を
得る(ステップ501)。次に、タグ識別手段4は、翻
訳対象タグ情報格納手段5が格納する翻訳対象タグ情報
200の第1のタグパターン201を得る(ステップ6
01)。得られたタグパターンは「<I>.+</I
>」であるので、これに適合する文字列を入力文書30
1から検索する(ステップ602)。その結果、「<I
>parsing</I>」、「<I>transfe
rring</I>」、「<I>generating
</I>」及び「<I>transfer metho
d</I>」がタグパターン201に適合する文字列と
して抽出され(ステップ603)、さらに、それらは、
イメージタグでもリンクタグはないので、タグ識別手段
4は、それらの文字列を翻訳対象として翻訳手段6に転
送する(ステップ1206)。
First, the tag identifying means 4 obtains the input document 301 (step 501). Next, the tag identifying means 4 obtains the first tag pattern 201 of the translation target tag information 200 stored in the translation target tag information storage means 5 (step 6).
01). The obtained tag pattern is "<I>. + </ I
> ”, A character string matching this is input document 30
Search from 1 (step 602). As a result, "<I
> Parsing </ I>, “<I> transfer
"ring </ I>", "<I>generation"
</ I> ”and“ <I> transfer method ”
"d </ I>" is extracted as a character string that matches the tag pattern 201 (step 603).
Since there is no image tag or link tag, the tag identifying means 4 transfers these character strings to the translation means 6 as translation targets (step 1206).

【0134】翻訳手段6は、これらの4つの翻訳対象を
得て(ステップ701)、それらを翻訳し、それぞれ
「<I>解析</I>」、「<I>変換</I>」、
「<I>生成</I>」、「<I>トランスファ方式<
/I>」なる翻訳結果を得る(ステップ702)。翻訳
手段6は、これら4つの翻訳結果を出力文書生成手段7
に転送する(ステップ703)。
The translation means 6 obtains these four translation objects (step 701), translates them, and then respectively translates them into "<I> analysis </ I>", "<I> transformation </ I>",
“<I> Generation </ I>”, “<I> Transfer method <
/ I> ”is obtained (step 702). The translation means 6 outputs these four translation results to the output document generation means 7
(Step 703).

【0135】出力文書生成手段7は、翻訳手段6から得
た4つの翻訳結果を、入力文書301の書式を参照しな
がら出力文書2200の所定の位置(図22参照)に格
納する(ステップ802)。その後、タグ識別手段4に
おいて、翻訳対象タグ情報200の次のタグパターンが
残されているので(ステップ605で肯定結果)、以下
同様にして、入力文書301のタグパターン202及び
203に適合する文字列が順次翻訳され、出力文書22
00に格納される。
The output document generation means 7 stores the four translation results obtained from the translation means 6 in a predetermined position (see FIG. 22) of the output document 2200 while referring to the format of the input document 301 (step 802). . After that, in the tag identifying means 4, since the tag pattern next to the translation target tag information 200 remains (Yes in step 605), the characters matching the tag patterns 202 and 203 of the input document 301 are similarly processed. Output document 22
00 is stored.

【0136】次に、タグ識別手段4は、翻訳対象タグ情
報格納手段5が格納する翻訳対象タグ情報200の第4
のタグパターン204を得る(ステップ601)。その
結果、「<A HREF=”ambiguity.ht
ml”>ambiguityprogram</A>」
がタグパターン204に適合する文字列として抽出され
る(ステップ603)。ここで、当該文字列に含まれる
タグはリンクタグ(<A HREF...>...</
A>)であるので(ステップ2003)、当該文字列
「<A HREF=”ambiguity.html”
>ambiguity problem</A>」が、
リンクオブジェクト獲得手段9に転送される(ステップ
1301)。
Next, the tag identifying means 4 determines the fourth of the translation target tag information 200 stored in the translation target tag information storage means 5.
The tag pattern 204 is obtained (step 601). As a result, "<A HREF =" ambiguity. ht
ml "> ambiguityprogram </A>"
Is extracted as a character string that matches the tag pattern 204 (step 603). Here, the tags included in the character string are link tags (<A HREF...></
A>) (step 2003), the character string “<A HREF =” ambiguity. html ”
> Ambiguity problem </a> ”
It is transferred to the link object acquisition means 9 (step 1301).

【0137】リンクオブジェクト獲得手段9は、「<A
HREF=”ambiguity.html”>am
biguity problem</A>」に適合する
リンクオブジェクト303をネットワーク1から入出力
手段2を介して得て(ステップ1902)、得られたリ
ンクオブジェクト303をオブジェクト格納手段11に
転送する(ステップ2102)。
The link object acquisition means 9 indicates "<A
HREF = "ambiguity.html"> am
The link object 303 that conforms to the "biquity problem </A>" is obtained from the network 1 via the input / output unit 2 (step 1902), and the obtained link object 303 is transferred to the object storage unit 11 (step 2102).

【0138】しかる後に、オブジェクト格納手段11
は、タグ識別手段4にオブジェクトを転送するので(ス
テップ2001)、タグ識別手段4はそれまでの動作
(すなわち、タグパターン204までを検査した状態で
動作)を保留して、オブジェクト格納手段11からオブ
ジェクト303を入力し、それを新たな入力文書として
新規に動作を開始するためにステップ601へ進む(ス
テップ2002)。
After that, the object storing means 11
Transfers the object to the tag identifying means 4 (step 2001), the tag identifying means 4 suspends the operation up to that point (that is, operates in the state in which the tag patterns 204 are inspected), and the object storing means 11 stores the object. The object 303 is input, and the process proceeds to step 601 in order to start a new operation using it as a new input document (step 2002).

【0139】以下、タグ識別手段4は、翻訳対象タグ情
報格納手段5が格納する翻訳対象タグ情報200の第1
のタグパターン201から第9のタグパターン209の
それぞれに適合する翻訳対象を得て、翻訳手段6によ
り、新規入力文書303のタグに関わる表現の翻訳が実
施され(ステップ503)、さらに、出力文書生成手段
7により、翻訳結果が出力文書2200の所定の位置
(図22の符号2201参照)に格納される(ステップ
504)。
Hereinafter, the tag identification means 4 is the first of the translation target tag information 200 stored in the translation target tag information storage means 5.
From the tag pattern 201 of No. 1 to the ninth tag pattern 209, the translating means 6 obtains the translation object, and the translating means 6 translates the expression related to the tag of the new input document 303 (step 503), and further outputs the output document. The generation unit 7 stores the translation result at a predetermined position (see reference numeral 2201 in FIG. 22) of the output document 2200 (step 504).

【0140】この時点で、タグ識別手段4のオブジェク
ト303に対する動作が完了したので、タグ識別手段4
は、上記で保留していたタグパターン204までを検査
した状態から動作を再開する。
At this point, since the operation of the tag identifying means 4 for the object 303 is completed, the tag identifying means 4
Restarts the operation from the state in which the tag patterns 204 that have been suspended above are inspected.

【0141】以下同様にして、入力文書301のタグパ
ターン205〜207に適合する文字列が順次翻訳さ
れ、出力文書2200に格納され、次に、タグ識別手段
4は、翻訳対象タグ情報格納手段5が格納する翻訳対象
タグ情報200の第8のタグパターン208を得る(ス
テップ601)。その結果、「<center><IM
G SRC=”TRANSFER.gif”></ce
nter>」がタグパターン208に適合する文字列と
して抽出される(ステップ603)。ここで、当該文字
列に含まれるタグはイメージタグ(<IMG...>)
であるので(ステップ2003)、当該文字列「<ce
nter><IMG SRC=”TRANSFER.g
if”></center>」が、リンクオブジェクト
獲得手段9に転送される(ステップ1301)。
In the same manner, character strings conforming to the tag patterns 205 to 207 of the input document 301 are sequentially translated and stored in the output document 2200. Next, the tag identifying means 4 and the translation target tag information storing means 5 Obtains the eighth tag pattern 208 of the translation target tag information 200 stored by (step 601). As a result, "<center><IM
G SRC = "TRANSFER.gif"></ ce
"nter>" is extracted as a character string that matches the tag pattern 208 (step 603). Here, the tag included in the character string is an image tag (<IMG ...>).
(Step 2003), the character string “<ce
inter><IMG SRC = “TRANSFER.g
if "></center>" is transferred to the link object acquisition means 9 (step 1301).

【0142】リンクオブジェクト獲得手段9は、「<c
enter><IMG SRC=”TRANSFER.
gif”></center>」に適合するリンクオブ
ジェクト302をネットワーク1から入出力手段2を介
して得る(ステップ1203)。この得られたリンクオ
ブジェクト(図)に対する、タグ識別手段4、翻訳手段
6、出力文書生成手段7、リンクオブジェクト獲得手段
9及び符号化手段10による具体的動作は、第2の実施
形態と同様であり、出力文書生成手段7によって、翻訳
手段6から得られた翻訳結果が、入力文書301の書式
を参照しながら出力文書2200の所定の位置(図22
の符号1601参照)に格納される。
The link object acquisition means 9 displays "<c
enter><IMG SRC = “TRANSFER.
A link object 302 conforming to gif ">></center>" is obtained from the network 1 via the input / output unit 2 (step 1203). Specific operations performed by the tag identification means 4, the translation means 6, the output document generation means 7, the link object acquisition means 9, and the encoding means 10 for the obtained link object (FIG.) Are the same as those in the second embodiment. Yes, the translation result obtained from the translation unit 6 by the output document generation unit 7 refers to the format of the input document 301 at a predetermined position of the output document 2200 (see FIG. 22).
No. 1601).

【0143】以下同様にして、入力文書301のタグパ
ターン209に適合する文字列が順次翻訳され、出力文
書2200に格納され、最終的に図23に示す出力文書
の表示画面2300が入出力手段2を介して表示される
(ステップ506)。
Similarly, the character strings matching the tag pattern 209 of the input document 301 are sequentially translated, stored in the output document 2200, and finally the output document display screen 2300 shown in FIG. Is displayed via (step 506).

【0144】(C−3)第3の実施形態の効果 この第3の実施形態の機械翻訳システムによっても、第
2の実施形態の技術的思想をそのまま有するので、第2
の実施形態が有していた効果を奏することができる。
(C-3) Effects of the Third Embodiment The machine translation system of the third embodiment also has the technical idea of the second embodiment as it is.
It is possible to achieve the effect that the embodiment described above has.

【0145】これに加えて、第3の実施形態によれば、
入力文書301からリンクタグによって参照されるリン
ク先文書303のタグ情報に関わる表現のみに限定され
た部分が抽出され翻訳されており、従来、利用者が能動
的にリンクタグを辿ってみなければ獲得できなっかた情
報を得ることが可能となり、入力文書301の作者の意
図がより明確になる。このことは、図22に示す出力文
書2200の表示画面2300を参照することで明らか
である。
In addition to this, according to the third embodiment,
A part limited to only the expressions related to the tag information of the link destination document 303 referred to by the link tag from the input document 301 is extracted and translated. Conventionally, unless the user actively follows the link tag. It becomes possible to obtain information that cannot be acquired, and the intention of the author of the input document 301 becomes clearer. This is clear by referring to the display screen 2300 of the output document 2200 shown in FIG.

【0146】なお、図23には、図3の文書303に対
応する表示として、リンクタグ情報2200の「<A>
HREF=”ambiguity.html”>曖昧
性の問題</A>」に対応した下線が施された「曖昧性
の問題」の部分2302と、リンク先の文書303を要
約して翻訳した内容2201も表示されている。
Note that, in FIG. 23, "<A>" in the link tag information 2200 is displayed as a display corresponding to the document 303 in FIG.
The underlined "ambiguity problem" portion 2302 corresponding to "HREF =" ambiguity.html "> ambiguity problem </A>" and the translated content 2201 of the linked document 303 are also included. It is displayed.

【0147】(D)第4の実施形態 次に、本発明による文書処理システムを、タグ付き文書
の機械翻訳システムに適用した第4の実施形態を図面を
参照しながら詳述する。
(D) Fourth Embodiment Next, a fourth embodiment in which the document processing system according to the present invention is applied to a machine translation system for tagged documents will be described in detail with reference to the drawings.

【0148】この第4の実施形態の機械翻訳システム
は、第3の実施形態と同様な機能に加えて、入力文書の
翻訳結果における文字スタイルの変換機能を有するもの
である。ここで、文字スタイルとは、文章を構成する字
体に対する下線、太字、斜体、強調等の修飾をいう。
The machine translation system of the fourth embodiment has a function of converting the character style in the translation result of the input document, in addition to the same function as that of the third embodiment. Here, the character style refers to a modification such as underline, bold, italic, or emphasized with respect to a character that forms a sentence.

【0149】タグ付き文書では、その文章を構成する字
体が下線、太字、斜体、強調等により修飾されることが
多く、このような文書を要約して翻訳した結果も、文字
スタイルの情報を有する。しかし、字体に対する文字ス
タイルは、要約されていない文書の表示、印刷等を意識
しており、要約した翻訳結果に対しては適していないこ
とも生じる。そのため、この第4の実施形態において
は、文字スタイルの変換機能を持たせている。
In a tagged document, the fonts constituting the sentence are often modified by underlining, bold letters, italics, emphasis, etc., and the result of summarizing and translating such a document also has character style information. . However, the character style for the font is conscious of display and printing of unsummarized documents, and may not be suitable for the summarized translation result. Therefore, in the fourth embodiment, a character style conversion function is provided.

【0150】(D−1)第4の実施形態の構成 この第4の実施形態の機械翻訳システムは、第3の実施
形態における出力文書生成手段7及び出力文書(バッフ
ァ)8間に、図24に示す詳細構成を有する文字スタイ
ル変換手段12を設けたものである。
(D-1) Configuration of the Fourth Embodiment The machine translation system of the fourth embodiment has the configuration shown in FIG. 24 between the output document generating means 7 and the output document (buffer) 8 in the third embodiment. The character style conversion means 12 having the detailed configuration shown in FIG.

【0151】図24において、文字スタイル変換手段1
2は、文字スタイル処理制御部20、文字スタイル登録
・編集テーブル21、文字スタイル変換参照テーブル2
2、文字スタイル変換照合テーブル23及び文字スタイ
ル変換判定処理部24から構成されている。
In FIG. 24, the character style conversion means 1
2 is a character style processing control unit 20, a character style registration / edit table 21, and a character style conversion reference table 2
2. The character style conversion collation table 23 and the character style conversion determination processing unit 24 are included.

【0152】文字スタイル変換判定処理部24は、要約
翻訳結果を入力し、文字スタイル変換照合テーブル23
から抽出したデータを用いて、利用者が登録した文字ス
タイルの変更指定した内容を判定し、該当する文字スタ
イルが入力された翻訳結果中に存在している場合には、
利用者の指定する文字スタイルへと変更し、変更後の要
約翻訳結果を出力文書8とするものである。
The character style conversion judgment processing section 24 inputs the summary translation result, and uses the character style conversion collation table 23.
Using the data extracted from, determine the specified contents of the character style change registered by the user, and if the corresponding character style exists in the input translation result,
The character style specified by the user is changed, and the changed summary translation result is used as the output document 8.

【0153】文字スタイル処理制御部20は、入出力手
段2を介して利用者から起動され、利用者が文字スタイ
ル登録・編集テーブル21を用いて翻訳結果における文
字スタイルの変更指定する内容を登録したり編集したり
するための処理や、登録された変更指定内容を用いて文
字スタイル変換参照テーブル22を参照し、文字スタイ
ル変換照合テーブル23にデータをセットしたりする処
理を制御するものである。
The character style processing control unit 20 is activated by the user via the input / output means 2 and registers the contents of the character style change / designation in the translation result by the user using the character style registration / edit table 21. It controls the processing for editing and editing, the processing for referring to the character style conversion reference table 22 using the registered change designation content, and setting the data in the character style conversion collation table 23.

【0154】文字スタイル登録・編集テーブル21は、
利用者が翻訳結果中の文字スタイルを変更指定する内容
を登録したり編集したりするために用いるテーブルであ
る。このテーブルへの登録又は編集では、利用者はタグ
付き文書で扱われる特殊な形態を意識せずに、通常の文
字スタイルの名称で登録することができるようになされ
ている。例えば、文書ではボールド(太字体)はタグ情
報文字列「<B>」、「</B>」で表されるが、この
登録・編集時には、利用者が文字スタイルの種別名「ボ
ールド」と入力すれば良いようになされている。
The character style registration / edit table 21 is
This is a table used by the user to register and edit the content for changing and designating the character style in the translation result. When registering or editing in this table, the user can register with a normal character style name without being aware of the special form handled in the tagged document. For example, in the document, bold (bold typeface) is represented by the tag information character strings "<B>" and "</ B>", but at the time of registration / editing, the user identifies the type name of the character style as "bold". It is designed so that you can enter it.

【0155】文字スタイル変換参照テーブル22は、利
用者が文字スタイル登録・編集テーブル21に登録・編
集した翻訳結果中の文字スタイルの変更指定内容を、こ
れに対応するタグ情報(文字列)に変換するための情報
を格納しているものである。この文字スタイル変換参照
テーブル22の格納内容は、文字スタイル処理制御部2
0が、利用者が文字スタイル登録・編集テーブル21の
格納内容に応じたデータを、文字スタイル変換照合テー
ブル23にセットする際に参照される。
The character style conversion reference table 22 converts the character style change specification contents in the translation result registered / edited by the user in the character style registration / edit table 21 into corresponding tag information (character string). It stores information for doing so. The content stored in the character style conversion reference table 22 is the character style processing control unit 2
0 is referred to when the user sets data according to the stored contents of the character style registration / edit table 21 in the character style conversion / comparison table 23.

【0156】文字スタイル変換照合テーブル23は、利
用者が登録・編集した文字スタイルの変更指定内容に対
応する、タグ付き文書で特殊な形態として扱われるタグ
情報がセットされるものである。セットされたデータ
は、文字スタイル変換判定処理部24で利用される。
The character style conversion and collation table 23 is set with tag information which is treated as a special form in a tagged document, which corresponds to the content of change specification of the character style registered / edited by the user. The set data is used by the character style conversion determination processing unit 24.

【0157】図25は、上述した文字スタイル変換参照
テーブル22の構成例を示す説明図である。
FIG. 25 is an explanatory diagram showing a configuration example of the character style conversion reference table 22 described above.

【0158】文字スタイル変換参照テーブル22は、文
字スタイル参照見出し項目22Aと文字スタイル変換参
照見出し項目22Bとから構成されている。
The character style conversion reference table 22 is composed of a character style reference heading item 22A and a character style conversion reference heading item 22B.

【0159】文字スタイル参照見出し項目22Aには、
通常の文字スタイルの名称(例えば、「ボールド」、
「イタリック」、「アンダーライン」等)が格納されて
おり、文字スタイル変換参照見出し項目22Bには、文
字スタイル参照見出し項目22Aのデータに対応するタ
グ付文書の中で特殊な形態で用いられるタグ情報の見出
し(例えば、「<B>」、「</B>」等)が格納され
ている。
The character style reference heading item 22A includes
The name of a normal character style (for example, "bold",
"Italic", "underline", etc. are stored, and the character style conversion reference heading item 22B is a tag used in a special form in the tagged document corresponding to the data of the character style reference heading item 22A. Information headings (for example, “<B>”, “</ B>”, etc.) are stored.

【0160】図25の例では、文字スタイル参照見出し
項目22Aのデータとして、「デフォルト文字」、「ボ
ールド」、「イタリック」、「アンダーライン」、「強
調」、「強い強調」が格納され、これに対応する文字ス
タイル変換参照見出し項目22Bのデータとして、「デ
フォルト文字」ではデータがなく、「ボールド」では
「<B>」と「</B>」、「イタリック」では「<I
>」と「</I>」、「アンダーライン」では「<U
>」と「</U>」、「強調」では「<EM>」と「<
/EM>」、「強い強調」では「<STRONG>」と
「</STRONG>」が格納されている。また、この
中で、「デフォルト文字」とは文字スタイル(字体修
飾)の指定がないものである。なお、「<B>」はその
直後の文字からボールド(太文字)とすることを表すタ
グ情報であり、「</B>」はその直前の文字までボー
ルドとすることを表すタグ情報であり、他の記号(タグ
情報)も同様である。
In the example of FIG. 25, "default character", "bold", "italic", "underline", "emphasis", and "strong emphasis" are stored as the data of the character style reference headline item 22A. As the data of the character style conversion reference heading item 22B corresponding to, there is no data in "default character", "<B>" and "</ B>" in "bold", and "<I in italic".
> ”And“ </ I> ”, and“ <U ”for“ underline ”
> ”And“ </ U> ”, and“ <EM> ”and“ <
/ EM> and “strong emphasis”, “<STRONG>” and “</ STRONG>” are stored. In addition, the "default character" has no designation of a character style (character style modification). Note that “<B>” is tag information indicating that the character immediately after it is bolded (bold), and “</ B>” is tag information indicating that the character immediately before it is bolded. , And other symbols (tag information).

【0161】図26は、利用者が翻訳結果中の文字スタ
イルを変更指定する内容を登録したり編集したりするた
めに用いる文字スタイル登録・編集テーブル21の構成
及びその登録例を示す説明図である。
FIG. 26 is an explanatory diagram showing the configuration of a character style registration / edit table 21 used by the user to register and edit the contents for changing and designating the character style in the translation result, and an example of the registration. is there.

【0162】文字スタイル登録・編集テーブル21は、
文字スタイル見出し項目21Aと文字スタイル変換見出
し項目21Bとから構成されている。文字スタイル見出
し項目21Aには、利用者が入力した翻訳結果中の変更
したい文字スタイルの名称が格納され、文字スタイル変
換見出し項目21Bには、利用者が入力した文字スタイ
ル見出し項目21Aに登録した翻訳結果中の変更したい
文字スタイルの名称に対応した変更後の文字スタイルの
名称を格納している。
The character style registration / edit table 21 is
It is composed of a character style heading item 21A and a character style conversion heading item 21B. The character style heading item 21A stores the name of the character style to be changed in the translation result input by the user, and the character style conversion heading item 21B stores the translation registered in the character style heading item 21A input by the user. The name of the changed character style corresponding to the name of the character style to be changed in the result is stored.

【0163】図26の例では、文字スタイル見出しデー
タとして、「イタリック」及び「ボールド」が登録さ
れ、これらのそれぞれに対応する文字スタイル変換見出
しデータとして、「ボールド」及び「強調」が登録され
ている。
In the example of FIG. 26, “italic” and “bold” are registered as the character style heading data, and “bold” and “emphasis” are registered as the character style conversion heading data corresponding to each of them. There is.

【0164】図27は、文字スタイル変換照合テーブル
23の構成例及び格納内容例を示す説明図である。な
お、図27は、文字スタイル変換参照テーブル22の格
納内容が図2に示す内容であり、文字スタイル登録・編
集テーブル21の格納内容が図26に示す内容である場
合の文字スタイル変換照合テーブル23の格納内容を示
している。
FIG. 27 is an explanatory diagram showing an example of the structure and stored contents of the character style conversion collation table 23. Note that, in FIG. 27, the content stored in the character style conversion reference table 22 is the content shown in FIG. 2, and the content stored in the character style registration / edit table 21 is the content shown in FIG. 26. Shows the stored contents of.

【0165】文字スタイル変換照合テーブル23には、
図26に示した文字スタイル登録編集テーブル21への
利用者の文字スタイルを変更指定作業が終了したとき
に、文字スタイル処理制御部20が図25に示した文字
スタイル変換参照テーブル22を参照し、利用者が文字
スタイル登録・編集テーブル21に登録・編集した翻訳
結果に対する文字スタイルの変更指定内容を、これに対
応するタグ付き文書で特殊な形態として扱われるタグ情
報に変換したデータがセットされる。
In the character style conversion collation table 23,
When the work of changing and designating the character style of the user to the character style registration edit table 21 shown in FIG. 26 is completed, the character style processing control unit 20 refers to the character style conversion reference table 22 shown in FIG. Data obtained by converting the character style change designation content corresponding to the translation result registered / edited in the character style registration / edit table 21 by the user into tag information handled as a special form in the corresponding tagged document is set. .

【0166】文字スタイル変換照合テーブル23は、文
字スタイル照合見出し項目23A及び文字スタイル変換
照合見出し項目23Bとから構成されている。
The character style conversion collation table 23 is composed of character style conversion collation heading items 23A and character style conversion collation heading items 23B.

【0167】文字スタイル照合見出し項目23Aには、
文字スタイル登録・編集テーブル21の文字スタイル見
出し項目21Aのデータを、文字スタイル変換参照テー
ブル22を参照し、タグ付文書の中で特殊な形態で用い
られる記号に変換したデータがセットされる。一方、文
字スタイル変換照合見出し項目23Bには、文字スタイ
ル登録・編集テーブル21の文字スタイル変換見出し項
目21Bのデータを、文字スタイル変換参照テーブル2
2を参照しタグ付き文書の中で特殊な形態で用いられる
記号に変換したデータがセットされる。
In the character style collation heading item 23A,
The data of the character style heading item 21A of the character style registration / edit table 21 is converted into a symbol used in a special form in the tagged document by referring to the character style conversion reference table 22 and set. On the other hand, in the character style conversion collation heading item 23B, the data of the character style conversion heading item 21B of the character style registration / edit table 21 is stored in the character style conversion reference table 2
2 is set, and data converted into a symbol used in a special form in the tagged document is set.

【0168】図27の例は、文字スタイル照合見出し項
目23Aには、図26の文字スタイル登録・編集テーブ
ル21の文字スタイル見出し項目21Aのデータである
「イタリック」に対しては、図25の文字スタイル変換
参照テーブル22が参照されて「<I>」及び「</I
>」がセットされ、「ボールド」に対しては「<B>」
及び「</B>」がセットされている。
In the example of FIG. 27, in the character style collation heading item 23A, for the character string of FIG. 25, the italic character which is the data of the character style heading item 21A of the character style registration / edit table 21 of FIG. The style conversion reference table 22 is referred to and "<I>" and "</ I
> ”Is set, and for“ bold ”,“ <B> ”
And "</ B>" are set.

【0169】また、文字スタイル変換照合見出し項目2
3Bには、図26の文字スタイル登録・編集テーブル2
1の文字スタイル変換見出し項目21Bのデータである
「ボールド」に対しては、図25の文字スタイル変換参
照テーブル22が参照されて「<B>」及び「</B
>」がセットされ、「強調」に対しては「<EM>」及
び「</EM>」がセットされている。
Character style conversion collation heading item 2
3B includes a character style registration / edit table 2 shown in FIG.
For "bold" which is the data of the character style conversion heading item 21B of No. 1, the character style conversion reference table 22 of FIG. 25 is referred to, and "<B>" and "</ B
> ”Is set, and for“ emphasis ”,“ <EM> ”and“ </ EM> ”are set.

【0170】(D−4)第4の実施形態の動作 以下、この第4の実施形態の特徴的な処理を実行する文
字スタイル処理制御部20及び文字スタイル変換判定処
理部24の動作を順に説明する。
(D-4) Operation of the Fourth Embodiment Hereinafter, the operation of the character style processing control unit 20 and the character style conversion determination processing unit 24 for executing the characteristic processing of the fourth embodiment will be described in order. To do.

【0171】ここで、図28及び図29は、文字スタイ
ル処理制御部20の処理フローチャートである。
Here, FIG. 28 and FIG. 29 are processing flow charts of the character style processing control unit 20.

【0172】利用者が入出力手段2を介して文字スタイ
ルの登録・編集処理を起動すると、文字スタイル処理制
御部20は図28及び図29のフローチャートに示す一
連の処理を開始する。
When the user activates the character style registration / editing process via the input / output means 2, the character style process control unit 20 starts a series of processes shown in the flowcharts of FIGS. 28 and 29.

【0173】まず、文字スタイル登録・編集テーブル2
1から、存在する文字スタイル登録・編集テーブルデー
タを抽出し、利用者が新たに文字スタイルデータを登録
又は編集できるように表示する(ステップ2801)。
First, the character style registration / edit table 2
The existing character style registration / edit table data is extracted from No. 1 and displayed so that the user can newly register or edit the character style data (step 2801).

【0174】その後、利用者とのインタラクティブなデ
ータ授受を通じて、表示された文字スタイル登録・編集
テーブルデータに対し、利用者に文字スタイルを変更指
定する情報の登録・編集作業を実行させ、その登録・編
集作業を完了まで導き、利用者からの完了命令を受信す
ると、次のステップ2804へと制御を移す(ステップ
2802、2803)。なお、上述したように、このテ
ーブルへの登録・編集作業においては、利用者はタグ付
文書で扱われる特殊な記号形態を意識せずに、通常の文
字スタイルの名称で作業を行なうことができる。
After that, through interactive data exchange with the user, the user is allowed to perform the registration / editing work of the information for designating the character style change to the displayed character style registration / edit table data, and registering / editing the information. When the editing work is guided to completion and the completion command from the user is received, the control is moved to the next step 2804 (steps 2802 and 2803). As described above, when registering / editing in this table, the user can carry out the work with the name of a normal character style without being aware of the special symbol form handled in the tagged document. .

【0175】次のステップ2804では、登録・編集作
業を終了した文字スタイル登録・編集テーブルデータを
文字スタイル登録・編集テーブル21に保存する。
At the next step 2804, the character style registration / edit table data for which the registration / edit work has been completed is stored in the character style registration / edit table 21.

【0176】その後、保存した文字スタイル登録・編集
テーブル21のデータと文字スタイル変換参照テーブル
22の文字スタイル参照見出し項目22Aのデータとを
照合し(ステップ2805)、その照合結果を確認し、
文字スタイル登録・編集テーブル21のデータが文字ス
タイル参照見出し項目22Aのデータに該当しているか
判定する(ステップ2806)。
Thereafter, the stored data of the character style registration / edit table 21 is collated with the data of the character style reference heading item 22A of the character style conversion reference table 22 (step 2805), and the collation result is confirmed.
It is determined whether the data of the character style registration / edit table 21 corresponds to the data of the character style reference headline item 22A (step 2806).

【0177】判定した結果、該当するデータが存在しな
い文字スタイル登録・編集テーブル21のデータが1個
でもあると(そのデータにマッチする文字スタイル参照
見出し項目22Aのデータがなければ)、対象とする文
字スタイル登録・編集テーブル21のデータを削除し
(ステップ2807)、ステップ2801に制御を移
し、文字スタイル参照見出し項目22Aに存在しないデ
ータが空の表項目となった文字スタイル登録・編集テー
ブル21から文字スタイル登録・編集テーブルデータを
抽出して表示させ、利用者に正しいデータの登録を促
し、以下、ステップ2802〜2806へと進み、同様
の判定が行なわれ、文字スタイル登録・編集テーブル2
1のデータが全てマッチするまでかかる処理ループを繰
返す。
As a result of the judgment, if there is even one data in the character style registration / edit table 21 for which the corresponding data does not exist (if there is no data of the character style reference headline item 22A matching the data), it is regarded as the target. Data in the character style registration / edit table 21 is deleted (step 2807), control is transferred to step 2801, and the data that does not exist in the character style reference heading item 22A becomes an empty table item. The character style registration / edit table data is extracted and displayed, the user is prompted to register the correct data, the process proceeds to steps 2802 to 2806, and the same determination is performed, and the character style registration / edit table 2 is displayed.
This processing loop is repeated until all the data of 1 match.

【0178】文字スタイル登録・編集テーブル21の全
てのデータ(スタイル名)が文字スタイル参照見出し項
目22Aのデータに該当している場合には、ステップ2
804で保存した文字スタイル登録・編集テーブル21
のデータから1個の未抽出データの抽出動作を行ない
(ステップ2808)、未抽出データが存在するか否か
を判定する(ステップ2809)。
If all the data (style names) in the character style registration / edit table 21 correspond to the data of the character style reference headline item 22A, step 2
Character style registration / edit table 21 saved in 804
One piece of unextracted data is extracted from this data (step 2808), and it is determined whether or not there is unextracted data (step 2809).

【0179】ステップ2808の未抽出データの抽出動
作は、ステップ2808〜ステップ2812である処理
ループが繰返される毎に1回ずつ行なわれるが、その各
回で抽出する未抽出データの抽出順番は、例えば、以下
の通りである。
The unextracted data extraction operation of step 2808 is performed once each time the processing loop of steps 2808 to 2812 is repeated. The extraction order of the unextracted data extracted at each time is, for example, It is as follows.

【0180】まず、文字スタイル登録・編集テーブル2
1の文字スタイル見出し項目21Aのデータから先に抽
出し、次に、このステップ2808に制御が移ったとき
には抽出した文字スタイル見出し項目21Aのデータに
対応する文字スタイル変換見出し項目21Bのデータを
抽出し、その次は文字スタイル見出し項目21Aの次の
データというように変化する。
First, the character style registration / edit table 2
The data of the character style conversion heading item 21B is extracted first from the data of the character style heading item 21A of 1, and then the control is transferred to this step 2808, the data of the character style conversion heading item 21B corresponding to the data of the extracted character style heading item 21A is extracted. , And then the data next to the character style heading item 21A.

【0181】文字スタイル登録・編集テーブル21から
未抽出データが抽出できなければ(全てのデータを抽出
して処理済であって未抽出データが存在しなければ)、
文字スタイル処理制御部20は一連の処理を終了する。
If unextracted data cannot be extracted from the character style registration / edit table 21 (if all data has been extracted and processed and there is no unextracted data),
The character style process control unit 20 ends the series of processes.

【0182】これに対して、文字スタイル登録・編集テ
ーブル21から未抽出データが抽出できた場合には、抽
出したデータ(文字スタイル名)と、文字スタイル変換
参照テーブル22の文字スタイル参照見出し項目22A
のデータ(文字スタイル名)との照合を行なう(ステッ
プ2810)。その後、マッチした文字スタイル参照見
出し項目22Aのデータ(文字スタイル名)に対応する
文字スタイル変換参照見出し項目22Bのデータ(タ
グ)を抽出し、対象データ(文字スタイル名)を抽出し
たデータ(タグ情報)に置換する(ステップ281
1)。
On the other hand, when unextracted data can be extracted from the character style registration / edit table 21, the extracted data (character style name) and the character style reference heading item 22A of the character style conversion reference table 22 are extracted.
Is compared with the data (character style name) (step 2810). Then, the data (tag) of the character style conversion reference headline item 22B corresponding to the data (character style name) of the matched character style reference headline item 22A is extracted, and the target data (character style name) is extracted (tag information). ) (Step 281)
1).

【0183】そして、置換された対象とするデータ(タ
グ情報)を文字スタイル変換照合テーブル23中の文字
スタイル照合見出し項目23A又は文字スタイル変換照
合見出し項目23Bにセットし(ステップ2812)、
上述したステップ2808に戻る。
Then, the replaced target data (tag information) is set in the character style conversion collation heading item 23A or the character style conversion collation heading item 23B in the character style conversion collation table 23 (step 2812).
Returning to step 2808 described above.

【0184】ここで、文字スタイル変換照合テーブル2
3中にセットする順番は、文字スタイル登録・編集テー
ブル21からデータを抽出する順番と対応しており、例
えば、以下の通りである。
Here, the character style conversion collation table 2
The order of setting in 3 corresponds to the order of extracting data from the character style registration / edit table 21, and is as follows, for example.

【0185】最初に文字スタイル照合見出し項目23A
にセットし、次にステップ1012にきたときには、デ
ータを文字スタイル変換照合見出し項目23Bにセット
し、その次にステップ1012にきたときには、データ
を文字スタイル照合見出し項目23Aにセットし、以
下、項目23B及び23Aを交互に切り替えるというよ
うな順番である。
First, the character style collation heading item 23A
, The data is set to the character style conversion collation heading item 23B at the next step 1012, and the data is set to the character style collation heading item 23A at the next step 1012. And 23A are alternately switched.

【0186】これにより、文字スタイル登録・編集テー
ブル21の文字スタイル見出し項目21Aから抽出した
データの置換データは、文字スタイル変換照合テーブル
23の文字スタイル照合見出し項目23Aにセットさ
れ、文字スタイル登録・編集テーブル21の文字スタイ
ル変換見出し項目21Bから抽出したデータの置換デー
タは、文字スタイル変換照合テーブル23の文字スタイ
ル照合見出し項目23Aに対応して文字スタイル変換照
合見出し項目23Bにセットされる。
As a result, the replacement data of the data extracted from the character style heading item 21A of the character style registration / edit table 21 is set in the character style matching heading item 23A of the character style conversion / matching table 23, and the character style registration / editing is performed. The replacement data of the data extracted from the character style conversion heading item 21B in the table 21 is set in the character style conversion heading item 23B corresponding to the character style conversion heading item 23A in the character style conversion heading table 23.

【0187】上述したステップ2808〜ステップ28
12でなる処理ループは、文字スタイル登録・編集テー
ブル21に存在するデータ数だけ繰り返され、文字スタ
イル登録・編集テーブル21から抽出される未抽出デー
タが存在しなくなれば、文字スタイル処理制御部20は
一連の処理を終了する。
Steps 2808 to 28 described above
The processing loop consisting of 12 is repeated by the number of data existing in the character style registration / edit table 21, and if there is no unextracted data extracted from the character style registration / edit table 21, the character style processing control unit 20 A series of processing ends.

【0188】次に、以上のようにしてセットされた文字
スタイル変換照合テーブル23の格納内容を適宜利用す
る文字スタイル変換判定処理部24の動作を、図面を参
照しながら説明する。
Next, the operation of the character style conversion determination processing section 24 that appropriately uses the stored contents of the character style conversion collation table 23 set as described above will be described with reference to the drawings.

【0189】ここで、図30及び図31が、文字スタイ
ル変換判定処理部24の処理フローチャートである。図
30及び図31の処理は、出力文書生成手段7から出力
されたタグ付きの訳文データのある1文に対する処理を
示している。
30 and 31 are processing flow charts of the character style conversion determination processing section 24. The processing of FIGS. 30 and 31 shows the processing for one sentence having the translated text data with the tag output from the output document generation means 7.

【0190】文字スタイル変換判定処理部24は、大き
く言えば、出力文書生成手段7から出力された出力文書
(タグ付き訳文データ)を入力し、文字スタイル変換照
合テーブル23から抽出した文字スタイル変換用のデー
タを用いて、利用者が登録した文字スタイルの変更指定
した内容を判定し、訳文データに該当する文字スタイル
(タグ情報)が存在している場合には、利用者の指定す
る文字スタイルへと変更し、その変更後のデータ(変更
が不要な場合には出力文書生成手段7から出力されたデ
ータ)を出力文書8とするように動作する。
The character style conversion determination processing section 24 is, to put it broadly, for inputting the output document (translated data with tag) output from the output document generating means 7, and for character style conversion extracted from the character style conversion collation table 23. Change the registered character style specified by the user using the data of the specified data, and if the corresponding character style (tag information) exists in the translated data, change to the character style specified by the user. And the changed data (when the change is unnecessary, the data output from the output document generation means 7) is used as the output document 8.

【0191】文字スタイル変換判定処理部24は、図3
0及び図31に示す処理を開始すると、まず、出力文書
生成手段7から出力されたタグ付の訳文データを読み込
む(ステップ3001)。
The character style conversion determination processing section 24 is shown in FIG.
0 and the process shown in FIG. 31 are started, first, the translated text data with a tag output from the output document generation means 7 is read (step 3001).

【0192】その後、文字スタイル変換照合テーブル2
3の文字スタイル照合見出し項目23Aから1データ
(文字スタイルに係るタグ情報)を抽出しようとする
(ステップ3002)。なお、次にこのステップ300
2に制御が移った場合には、文字スタイル変換照合テー
ブル23の文字スタイル照合見出し項目23Aから予め
定まっている順番に従って次のデータを抽出しようとす
る。
Thereafter, the character style conversion collation table 2
One data (tag information related to the character style) is to be extracted from the character style collation heading item 23A of 3 (step 3002). Next, in this step 300
When the control is shifted to 2, the next data is to be extracted from the character style matching index entry 23A of the character style conversion matching table 23 according to a predetermined order.

【0193】このような抽出動作を実行すると、この抽
出動作によって未抽出のデータが抽出できたか否か、言
い換えると、文字スタイル変換照合テーブル23の文字
スタイル照合見出し項目23Aに、抽出されていないデ
ータが存在するか否かを判定する(ステップ300
3)。
When such an extracting operation is executed, it is determined whether or not the unextracted data has been extracted by this extracting operation. In other words, the character style matching heading item 23A of the character style conversion matching table 23 does not include the unextracted data. Is present (step 300).
3).

【0194】ここで、抽出動作によっても、未抽出デー
タが取出せなければ(文字スタイル照合見出し項目23
Aに、抽出されていないデータが存在しなければ)、後
述するステップ3009に進む。
Here, if the unextracted data cannot be extracted even by the extraction operation (the character style collation heading item 23
If there is no unextracted data in A), the process proceeds to step 3009 described later.

【0195】これに対して、文字スタイル変換照合テー
ブル23の文字スタイル照合見出し項目23Aからデー
タ(文字スタイルに係るタグ情報)が抽出できると、出
力文書生成手段7から読み込んだタグ付訳文データにお
ける、今回の抽出データ(文字スタイルに係るタグ情
報)に係る文字列を他のデータ(他の文字スタイルに係
るタグ情報)に置き換えるためのステップ3004〜ス
テップ3008でなる処理ルーチンに移行する。
On the other hand, when the data (tag information relating to the character style) can be extracted from the character style matching heading item 23A of the character style conversion and matching table 23, in the tagged translation data read from the output document generating means 7, The process proceeds to the processing routine of steps 3004 to 3008 for replacing the character string related to the extracted data (tag information related to the character style) this time with other data (tag information related to the other character style).

【0196】かかる処理ルーチンではまず、出力文書生
成手段7から読み込んだタグ付訳文データの先頭側から
文字データを抽出し(ステップ3004)、その文字デ
ータの最後の文字データ(文末データ)でないことを確
認しながら(ステップ3005)、訳文データから抽出
したその文字データと、上述したステップ3002で抽
出した文字スタイル変換照合テーブル23の文字スタイ
ル照合見出し項目23Aのデータ(文字スタイルに係る
タグ情報)とを照合し(ステップ3006)、マッチ
し、しかも実行記号が付与されていないものかをを判定
し(ステップ3007)、マッチしなければ、又は、マ
ッチするが実行記号が付されているならば、上述したス
テップ3004に戻って、タグ付訳文データから次の文
字データを抽出する。
In this processing routine, first, character data is extracted from the head side of the tagged translation text data read from the output document generating means 7 (step 3004), and it is determined that the character data is not the last character data (end-of-sentence data). While checking (step 3005), the character data extracted from the translated text data and the data of the character style matching heading item 23A of the character style conversion matching table 23 extracted in step 3002 (tag information related to the character style) are checked. It is collated (step 3006), and it is judged whether or not they match and the execution symbol is not added (step 3007). If they do not match or if they match but the execution symbol is attached, the above-mentioned is executed. Returning to step 3004, the next character data is extracted from the tagged translation data.

【0197】ここで、実行記号とは、後続のステップ3
008の処理において処理の対象となった文字データに
処理実行済みであることを明示するために付与された記
号であり、これにより対象データの処理の競合を排除す
ることが可能となる。すなわち、ステップ3008で置
き換えられた文字データ(例えば「<I>」から「<B
>」)が、その後に入ったステップ3008で置き換え
られる(例えば「<B>」から「<EM>」)ことを防
止するために、最初の置換え時に付与される記号であ
る。
Here, the execution symbol means the following step 3
This is a symbol added to clearly indicate that the processing has been performed on the character data that has been processed in the processing of 008. This makes it possible to eliminate competition in processing of the target data. That is, the character data replaced in step 3008 (for example, "<I>" to "<B
>)) Is a symbol given at the time of the first replacement in order to prevent the replacement (eg, “<B>” to “<EM>”) in the subsequent step 3008.

【0198】上述したステップ3004〜ステップ30
07の処理ループを繰返すことにより、ステップ300
2で抽出した文字スタイル変換照合テーブル23の文字
スタイル照合見出し項目23Aのあるデータ(文字スタ
イルに係るタグ情報)にマッチする、しかも、実行記号
が付されていない訳文データにおける文字データが見付
かると(ステップ3007で肯定結果)、マッチした文
字スタイル変換照合テーブル23の文字スタイル照合見
出し項目23Aのデータに対応する文字スタイル変換照
合テーブル23の文字スタイル変換照合見出し項目23
Bのデータ(文字スタイルに係るタグ情報)を抽出し、
訳文データのマッチした文字データの部分と置換すると
共に、処理の実行済みであることを明示するために実行
記号を付与する(ステップ3008)。
Steps 3004 to 30 described above
Step 300 is repeated by repeating the processing loop of 07.
When character data in the translated text data that matches the data (tag information related to the character style) with the character style matching heading item 23A of the character style conversion matching table 23 extracted in 2 and is not attached with the execution symbol is found ( Affirmative result in step 3007), the character style conversion collation heading item 23 of the character style conversion collation table 23 corresponding to the data of the matched character style conversion heading item 23A of the character style conversion collation table 23
B data (tag information related to character style) is extracted,
It replaces the matched character data portion of the translated text data, and at the same time, adds an execution symbol to clearly indicate that the processing has been executed (step 3008).

【0199】この処理が終了したときにも、文末側にま
だマッチする文字データがある可能性があるので、ステ
ップ3004に戻って、次の文字データの抽出を行な
う。
Even when this process is completed, there is a possibility that there is still matching character data at the end of the sentence, so the process returns to step 3004 and the next character data is extracted.

【0200】以上のようにして、ステップ3004〜ス
テップ3007の処理ループ、又は、ステップ3004
〜ステップ3008の処理ループを繰返して、今回のス
テップ3002で文字スタイル変換照合テーブル23の
文字スタイル照合見出し項目23Aから抽出したデータ
にマッチする、文頭から文末間の全ての文字データの置
換えを終了したときには、ステップ3005で肯定結果
が得られ、ステップ3002に戻って、文字スタイル変
換照合テーブル23から次の未抽出データを抽出する。
As described above, the processing loop of steps 3004 to 3007, or step 3004
By repeating the processing loop of step 3008, the replacement of all the character data from the beginning of the sentence to the end of the sentence that matches the data extracted from the character style matching heading item 23A of the character style conversion matching table 23 in step 3002 this time is completed. Sometimes, a positive result is obtained in step 3005, and the process returns to step 3002 to extract the next unextracted data from the character style conversion collation table 23.

【0201】ここで、文字スタイル変換照合テーブル2
3の文字スタイル照合見出し項目23Aに格納されてい
る全てのデータについて上述した処理を繰返し、ステッ
プ3002でデータが抽出できなくなると、入力された
データからステップ3009で付与された実行記号を除
去、出力し(ステップ3009)、一連の処理を終了す
る。
Here, the character style conversion collation table 2
The above process is repeated for all the data stored in the character style collation heading item 23A of No. 3, and when the data cannot be extracted in step 3002, the execution symbol given in step 3009 is removed from the input data and output. Then (step 3009), a series of processing is ended.

【0202】具体例での説明は省略するが、出力文書生
成手段7及び出力文書(バッファ)8間に設けられた文
字スタイル変換手段12の動作により、要約した翻訳結
果に対しては適していない字体に対する文字スタイル
を、要約した翻訳結果に適した文字スタイルに変換す
る。
Although not described in a concrete example, it is not suitable for the summarized translation result due to the operation of the character style conversion means 12 provided between the output document generation means 7 and the output document (buffer) 8. Convert the character style for the font to a character style suitable for the summarized translation result.

【0203】(D−3)第4の実施形態の効果 この第4の実施形態の機械翻訳システムによても、第3
の実施形態の技術的思想をそのまま有するので、第3の
実施形態が有していた効果を奏することができる。
(D-3) Effects of the Fourth Embodiment The machine translation system of the fourth embodiment also provides the third embodiment.
Since it has the technical idea of the embodiment as it is, it is possible to obtain the effect that the third embodiment has.

【0204】これに加えて、第4の実施形態によれば、
出力文書生成手段7及び出力文書(バッファ)8間に文
字スタイル変換手段12を設けたので、出力文書生成手
段7から出力された要約翻訳結果において要約書として
は適さない文字スタイルを要約書に適した文字スタイル
に変換できるという効果も奏する。
In addition to this, according to the fourth embodiment,
Since the character style conversion means 12 is provided between the output document generation means 7 and the output document (buffer) 8, a character style that is not suitable as a summary in the summary translation result output from the output document generation means 7 is suitable for the summary. It also has the effect of being converted into a different character style.

【0205】(E)他の実施形態 上記各実施形態においては、要約翻訳処理を常に実行す
るものを示したが、入出力手段2を介して利用者が、要
約翻訳処理又は通常翻訳処理を指定できるようにしても
良い。この場合において、第2の実施形態については、
要約翻訳処理が選択されたときにも、イメージ中の文字
列の翻訳を実行するか否かをも指定できるようにしても
良い。また、第3の実施形態については、要約翻訳処理
が選択されたときにも、イメージ中の文字列の翻訳を実
行するか否かをも指定できるようにしても良く、また、
イメージの翻訳を実行するか及び又はリンク先文書の翻
訳を実行するかをも指定できるようにしても良い。さら
に、第3の実施形態について、リンク先文書を翻訳する
場合においても、どの深さまでのリンク先文書をも翻訳
するかをも指定できるようにしても良い。さらにまた、
第3の実施形態については、当初の入力文書は要約しな
いで全文の翻訳を行ない、リンク先文書は要約した翻訳
を行なうようにしても良い。
(E) Other Embodiments In each of the above embodiments, the summary translation process is always executed. However, the user specifies the summary translation process or the normal translation process via the input / output unit 2. You may allow it. In this case, regarding the second embodiment,
Even when the abstract translation process is selected, whether or not to translate the character string in the image may be designated. Further, in the third embodiment, whether or not to translate the character string in the image may be designated even when the abstract translation process is selected.
It may also be possible to specify whether to translate the image and / or the linked document. Further, regarding the third embodiment, even when the link destination document is translated, it may be possible to specify the depth to which the link destination document is translated. Furthermore,
In the third embodiment, the original input document may be translated in full without being summarized, and the linked document may be translated in summary.

【0206】上記のような処理の切り替えは、利用者が
選択した処理方法を取込み、上述したフローチャートに
示す一連の処理において、取込んだ処理方法に応じて処
理を分岐させる分岐処理を適宜設けることにより達成す
ることができる。
To switch the processing as described above, a branching process for taking in the processing method selected by the user and branching the processing according to the fetched processing method is appropriately provided in the series of processing shown in the above-mentioned flowchart. Can be achieved by

【0207】また、上記各実施形態においては、リンク
オブジェクトをネットワークを介して取込むものを示し
たが、独立した情報処理システム上に機械翻訳システム
を構築した場合には、リンク文書格納手段を設け、この
リンク文書格納手段からリンクオブジェクトを取込むよ
うにしても良い。また、ネットワークからのリンクオブ
ジェクトの取込み、及び、当該機械翻訳システムに設け
られたリンク文書格納手段からリンクオブジェクトを取
込みの双方の取込みを可能にしても良い。
In each of the above embodiments, the link object is fetched via the network. However, when the machine translation system is constructed on an independent information processing system, a link document storage means is provided. The link object may be fetched from this link document storage means. Further, it is possible to allow both the fetching of the link object from the network and the fetching of the link object from the link document storage means provided in the machine translation system.

【0208】さらに、上記第2又は第3の実施形態にお
いては、リンク先文書である非言語文書を出力文書に含
める場合に、常に、その非言語文書中の文字列の訳語を
含めむものを示したが、単に、非言語文書をそのまま含
むものであっても良い。
Further, in the second or third embodiment, when a non-language document which is a link destination document is included in an output document, it always includes a translation of a character string in the non-language document. However, the non-language document may be included as it is.

【0209】さらにまた、上記実施形態においては、翻
訳対象タグ情報格納手段5としてユーザが登録編集でき
るものを示したが、システムが固定的に備えるものであ
っても良く、また、ユーザ編集が可能なものとシステム
固定のものとを備えるようにしても良い。
Furthermore, in the above embodiment, the translation target tag information storage means 5 has been described as one which can be registered and edited by the user, but it may be fixedly provided in the system, and user editing is possible. It is also possible to provide a fixed one and a fixed one.

【0210】また、上記実施形態においては、タグ付き
文書を対象とした機械翻訳システムを示したが、文章部
分と同様なテキストデータ列でなるタグ情報とは異なっ
ていても、タグ付き文書におけるタグ情報と同様な機能
を果たす出力形式やリンク先文書を規定する情報を伴う
文書を機械翻訳するものであれば、本発明の技術思想を
適用することができる。
In the above embodiment, the machine translation system for a document with a tag is shown. However, even if it is different from the tag information consisting of a text data string similar to the text portion, the tag in the document with a tag is different. The technical idea of the present invention can be applied to any machine translation of a document accompanied by an output format that performs the same function as information and information that defines a linked document.

【0211】さらに、上記実施形態においては、本発明
を機械翻訳システムに適用したものを示したが、他の文
書処理システムに本発明を適用することができる。文書
処理システム(自然言語処理システム)の中には、目的
言語への変換は実行しなくても、機械翻訳システムと同
様な解析処理を実行するものは多く、このようなの文書
処理システムに本発明を適用でき、文書の解析対象をタ
グ情報を用いて限定することができる。また、上記実施
形態の機械翻訳システムにおける、タグ情報を用いた文
書の所定部分を抽出する構成だけを備えた文書処理シス
テム(要約作成システム)を構成しても良い。この場合
でも、リンク先文書に対しても同様な処理を実行して、
所定部分を抽出するようにしても良い。
Furthermore, in the above embodiment, the present invention is applied to the machine translation system, but the present invention can be applied to other document processing systems. Many document processing systems (natural language processing systems) execute analysis processing similar to that of a machine translation system without executing conversion to a target language, and the present invention is applied to such a document processing system. Can be applied, and the analysis target of the document can be limited using the tag information. Further, the machine translation system of the above embodiment may be configured with a document processing system (abstract creating system) having only a configuration for extracting a predetermined portion of a document using tag information. Even in this case, perform the same process for the linked document,
You may make it extract a predetermined part.

【0212】上記第4の実施形態においては、タグ情報
に基づいて、要約文書の文字スタイルを変換できるもの
を示したが、文字より大きい単位のスタイルをも変換で
きるようにしても良い。
In the fourth embodiment described above, the character style of the summary document can be converted based on the tag information, but a style of a unit larger than the character may be converted.

【0213】[0213]

【発明の効果】以上のように、本発明によれば、表示、
印刷出力時の形式を指定する形式指定情報を伴なう文書
を処理する文書処理システムにおいて、(1) 入力文書に
おける所定種類の文字列を抽出するための、形式指定情
報の特定パターンを格納している抽出対象特定情報記憶
手段と、(2) 入力文書において、抽出対象特定情報記憶
手段に格納されている形式指定情報の特定パターンに合
致している部分を抽出する形式指定情報識別抽出手段
と、(3) 抽出された部分を整備して、又は、その後処理
された抽出部分を整備して出力文書を生成する出力文書
生成手段とを有するので、抽出対象特定情報記憶手段の
記憶内容によっては、入力文書の所定部分だけでなく、
非言語文書やリンク先文書も取出すことができる構成に
対応でき、それら特殊な文書情報をも反映させた出力文
書を形成させることができる。
As described above, according to the present invention, display,
In a document processing system that processes documents with format specification information that specifies the format for print output, (1) Store a specific pattern of format specification information for extracting a character string of a specified type in the input document. Extraction target specific information storage means, and (2) a format specification information identification extraction means for extracting a portion of the input document that matches a specific pattern of the format specification information stored in the extraction target specific information storage means (3) Since it has an output document generating means for generating an output document by arranging the extracted portion or arranging the extracted portion processed thereafter, depending on the storage content of the extraction target specific information storage means, , Not only a predetermined part of the input document,
A non-language document or a linked document can be taken out, and an output document can be formed in which the special document information is also reflected.

【図面の簡単な説明】[Brief description of drawings]

【図1】第1の実施形態の全体構成を示すブロック図で
ある。
FIG. 1 is a block diagram illustrating an overall configuration of a first embodiment.

【図2】第1の実施形態の翻訳対象タグ情報格納手段の
構成例を示す説明図である。
FIG. 2 is an explanatory diagram showing a configuration example of a translation target tag information storage unit of the first exemplary embodiment.

【図3】第1の実施形態の具体的動作例の説明に用いる
入力文書を示す図面である。
FIG. 3 is a diagram showing an input document used to describe a specific operation example of the first exemplary embodiment.

【図4】図3の入力文書の表示画面を示す図面である。FIG. 4 is a view showing a display screen of the input document of FIG.

【図5】第1の実施形態の全体動作を示すフローチャー
トである。
FIG. 5 is a flowchart showing the overall operation of the first embodiment.

【図6】第1の実施形態のタグ識別手段の動作を示すフ
ローチャートである。
FIG. 6 is a flowchart showing the operation of the tag identifying means of the first embodiment.

【図7】第1の実施形態の翻訳手段の動作を示すフロー
チャートである。
FIG. 7 is a flowchart showing an operation of the translation means according to the first exemplary embodiment.

【図8】第1の実施形態の出力文書生成手段の動作を示
すフローチャートである。
FIG. 8 is a flowchart showing the operation of the output document generation means of the first exemplary embodiment.

【図9】第1の実施形態の動作による出力文書例(図3
の入力文書に対応)を示す図面である。
FIG. 9 is an example of an output document according to the operation of the first embodiment (FIG.
Corresponding to the input document of FIG.

【図10】図9の出力文書の表示画面を示す図面であ
る。
10 is a diagram showing a display screen of the output document of FIG.

【図11】第2の実施形態の全体構成を示すブロック図
である。
FIG. 11 is a block diagram showing an overall configuration of a second embodiment.

【図12】第2の実施形態の全体動作を示すフローチャ
ートである。
FIG. 12 is a flowchart showing the overall operation of the second embodiment.

【図13】第2の実施形態のタグ識別手段の動作を示す
フローチャートである。
FIG. 13 is a flowchart showing the operation of the tag identifying means according to the second embodiment.

【図14】第2の実施形態のリンクオブジェクト獲得手
段の動作を示すフローチャートである。
FIG. 14 is a flowchart showing an operation of the link object acquisition means of the second exemplary embodiment.

【図15】第2の実施形態の符号化手段の動作を示すフ
ローチャートである。
FIG. 15 is a flowchart showing an operation of the encoding means of the second exemplary embodiment.

【図16】第2の実施形態の動作による出力文書例(図
3の入力文書に対応)を示す図面である。
FIG. 16 is a diagram showing an output document example (corresponding to the input document of FIG. 3) according to the operation of the second embodiment.

【図17】図16の出力文書の表示画面を示す図面であ
る。
17 is a diagram showing a display screen of the output document of FIG.

【図18】第3の実施形態の全体構成を示すブロック図
である。
FIG. 18 is a block diagram showing an overall configuration of a third embodiment.

【図19】第3の実施形態の全体動作を示すフローチャ
ートである。
FIG. 19 is a flowchart showing the overall operation of the third embodiment.

【図20】第3の実施形態のタグ識別手段の動作を示す
フローチャートである。
FIG. 20 is a flowchart showing the operation of the tag identifying means of the third exemplary embodiment.

【図21】第3の実施形態のリンクオブジェクト獲得手
段の動作を示すフローチャートである。
FIG. 21 is a flow chart showing the operation of the link object acquisition means of the third exemplary embodiment.

【図22】第3の実施形態の動作による出力文書例(図
3の入力文書に対応)を示す図面である。
FIG. 22 is a diagram showing an output document example (corresponding to the input document in FIG. 3) according to the operation of the third embodiment.

【図23】図22の出力文書の表示画面を示す図面であ
る。
FIG. 23 is a diagram showing a display screen of the output document of FIG. 22.

【図24】第4の実施形態の特徴部分の詳細構成を示す
ブロック図である。
FIG. 24 is a block diagram showing a detailed configuration of a characteristic part of the fourth embodiment.

【図25】第4の実施形態の文字スタイル変換参照テー
ブルの構成例の説明図である。
FIG. 25 is an explanatory diagram of a configuration example of a character style conversion reference table according to the fourth embodiment.

【図26】第4の実施形態の文字スタイル登録・編集テ
ーブルの登録例の説明図である。
FIG. 26 is an explanatory diagram of a registration example of a character style registration / edit table according to the fourth embodiment.

【図27】第4の実施形態の文字スタイル変換照合テー
ブルの構成、登録例の説明図である。
FIG. 27 is an explanatory diagram of a configuration and registration example of a character style conversion matching table according to the fourth embodiment.

【図28】第4の実施形態の文字スタイル処理制御部の
処理フローチャート(1)である。
FIG. 28 is a processing flowchart (1) of a character style processing control unit according to the fourth embodiment.

【図29】第4の実施形態の文字スタイル処理制御部の
処理フローチャート(2)である。
FIG. 29 is a processing flowchart (2) of the character style processing control unit according to the fourth embodiment.

【図30】第4の実施形態の文字スタイル変換判定処理
部の処理フローチャート(1)である。
FIG. 30 is a processing flowchart (1) of a character style conversion determination processing unit according to the fourth embodiment.

【図31】第4の実施形態の文字スタイル変換判定処理
部の処理フローチャート(2)である。
FIG. 31 is a processing flowchart (2) of the character style conversion determination processing unit of the fourth embodiment.

【符号の説明】[Explanation of symbols]

1…ネットワーク、2…入出力手段、3…入力文書(バ
ッファ)、4…タグ識別手段、5…翻訳対象タグ情報格
納手段、6…翻訳手段、7…出力文書生成手段、8…出
力文書(バッファ)、9…リンクオブジェクト獲得手
段、10…符号化手段、11…オブジェクト格納手段、
12…文字スタイル変換手段。
1 ... Network, 2 ... Input / output means, 3 ... Input document (buffer), 4 ... Tag identification means, 5 ... Translation target tag information storage means, 6 ... Translation means, 7 ... Output document generation means, 8 ... Output document ( Buffer), 9 ... link object acquisition means, 10 ... encoding means, 11 ... object storage means,
12 ... Character style conversion means.

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 表示、印刷出力時の形式を指定する形式
指定情報を伴なう文書を処理する文書処理システムにお
いて、 入力文書における所定種類の文字列を抽出するための、
形式指定情報の特定パターンを格納している抽出対象特
定情報記憶手段と、 入力文書において、抽出対象特定情報記憶手段に格納さ
れている形式指定情報の特定パターンに合致している部
分を抽出する形式指定情報識別抽出手段と、 抽出された部分を整備して、又は、その後処理された抽
出部分を整備して出力文書を生成する出力文書生成手段
とを有することを特徴とする文書処理システム。
1. A document processing system for processing a document with format designation information for designating a format at the time of display and print output, for extracting a character string of a predetermined type in an input document,
An extraction target specific information storage unit that stores a specific pattern of format specification information and a format that extracts a part of the input document that matches the specific pattern of the format specification information stored in the extraction target specific information storage unit A document processing system comprising: designated information identifying and extracting means; and output document generating means that prepares an extracted document by preparing an extracted portion or by preparing an extracted portion processed thereafter.
【請求項2】 上記出力文書に含まれている表示、印刷
出力時の修飾状態を規定するスタイル指定用の形式指定
情報を認識し、所定のスタイル指定用の形式指定情報で
ある場合に、他のスタイル指定用の形式指定情報に変換
し、又は、その所定のスタイル指定用の形式指定情報を
消去するスタイル変換手段をさらに有することを特徴と
する請求項1に記載の文書処理システム。
2. The format specification information for style specification, which is included in the output document and defines the modified state at the time of display and print output, is recognized, and when the format specification information for the predetermined style is specified, other 2. The document processing system according to claim 1, further comprising a style conversion unit that converts the style specification information for style specification or deletes the predetermined style specification format specification information.
【請求項3】 ある文書におけるリンク先文書の取出し
起動によりリンク先文書を獲得するリンク先文書獲得手
段をさらに有すると共に、 上記形式指定情報の1種として、当該形式指定情報を含
む文書のリンク先文書を指定する情報があり、このよう
なリンク先文書を指定する形式指定情報が入力文書に含
まれているか否かを抽出できる形式指定情報の特定パタ
ーンを、上記抽出対象特定情報記憶手段に格納してお
き、 上記形式指定情報識別抽出手段が、入力文書において、
抽出対象特定情報記憶手段に格納されているリンク先文
書を指定する形式指定情報の特定パターンに合致してい
る部分があれば、上記リンク先文書獲得手段によるリン
ク先文書の獲得を起動することを特徴とする請求項1又
は2に記載の文書処理システム。
3. A link destination document acquisition means for acquiring a link destination document by extracting and activating a link destination document in a certain document, and a link destination of a document including the format designation information as one type of the format designation information. Storing a specific pattern of the format designation information capable of extracting whether or not the input document includes the format designation information for designating such a linked document, in the extraction target specific information storage means. By the way, in the input document, the format designation information identification and extraction means
If there is a portion that matches the specific pattern of the format designation information for designating the linked document stored in the extraction target specific information storage means, the acquisition of the linked document by the linked document acquisition means is activated. The document processing system according to claim 1, wherein the document processing system is a document processing system.
【請求項4】 上記形式指定情報識別抽出手段が、上記
リンク先文書獲得手段によって獲得されたリンク先文書
が言語文書の場合に、その言語文書に対しても抽出動作
を行ない、 上記出力文書生成手段が、入力文書及び獲得したリンク
先文書から抽出された部分を整備して、又は、抽出後所
定の処理が施された入力文書及び獲得したリンク先文書
からの抽出部分を整備して出力文書を生成することを特
徴とする請求項1〜3のいずれかに記載の文書処理シス
テム。
4. When the link destination document acquired by the link destination document acquisition means is a language document, the format specification information identifying and extracting means also performs an extraction operation for the language document, and the output document generation. Output means prepares a portion extracted from the input document and the acquired link destination document, or prepares an extracted portion from the input document and the acquired link destination document subjected to a predetermined process after extraction The document processing system according to claim 1, wherein the document processing system generates a document.
【請求項5】 上記出力文書生成手段が、上記リンク先
文書獲得手段によって獲得されたリン苦先文書が図や表
等の非言語文書の場合に、その非言語文書を出力文書に
そのまま含めることを特徴とする請求項1〜4のいずれ
かに記載の文書処理システム。
5. The output document generation means, when the link destination document acquired by the link destination document acquisition means is a non-language document such as a figure or a table, includes the non-language document as it is in the output document. The document processing system according to any one of claims 1 to 4, wherein:
【請求項6】 上記形式指定情報識別抽出手段によって
抽出された、入力文書の部分に対して、所定の処理を実
行する処理手段をさらに備えることを特徴とする請求項
1〜5のいずれかに記載の文書処理システム。
6. The method according to claim 1, further comprising processing means for executing a predetermined process on the portion of the input document extracted by the format designation information identifying and extracting means. Document processing system described.
【請求項7】 上記処理手段が、原言語を目的言語に翻
訳する翻訳手段であることを特徴とする請求項1〜6の
いずれかに記載の文書処理システム。
7. The document processing system according to claim 1, wherein the processing means is a translation means for translating a source language into a target language.
【請求項8】 上記リンク先文書獲得手段によって獲得
された非言語文書のイメージデータから、言語情報とな
り得る文字列パターンを認識し、文字データに符号化す
る符号化手段を備えると共に、 上記翻訳手段がこの符号化された文字列に対しても翻訳
を行ない、 上記出力文書生成手段が、符号化文字列の訳語をも出力
文書に含めることを特徴とした請求項7に記載の文書処
理システム。
8. The encoding means for recognizing a character string pattern, which may be linguistic information, from the image data of the non-language document acquired by the linked document acquisition means, and encoding the character string pattern, and the translating means. 9. The document processing system according to claim 7, wherein the output document generation means includes the translated word of the encoded character string in the output document.
【請求項9】 表示、印刷出力時の形式を指定する形式
指定情報を伴なう文書が、形式指定情報が文書の文章本
体と同様なキャラクタコード列で表されているタグ付き
文書であることを特徴とする請求項1〜8のいずれかに
記載の文書処理システム。
9. The document with the format designation information for designating the format at the time of display and print output is a tagged document in which the format designation information is represented by a character code string similar to the text body of the document. The document processing system according to any one of claims 1 to 8.
JP8141644A 1996-06-04 1996-06-04 Document processing system Pending JPH09325960A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8141644A JPH09325960A (en) 1996-06-04 1996-06-04 Document processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8141644A JPH09325960A (en) 1996-06-04 1996-06-04 Document processing system

Publications (1)

Publication Number Publication Date
JPH09325960A true JPH09325960A (en) 1997-12-16

Family

ID=15296845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8141644A Pending JPH09325960A (en) 1996-06-04 1996-06-04 Document processing system

Country Status (1)

Country Link
JP (1) JPH09325960A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231475A (en) * 1999-02-10 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> Vocal reading-aloud method of multimedia information browsing system
JP2001109742A (en) * 1999-08-05 2001-04-20 Toshiba Corp Method for integrating and processing web page parts and client device
JP2003316767A (en) * 2002-04-24 2003-11-07 Murata Mach Ltd Data structure of structured document, and device for program for processing structured document

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000231475A (en) * 1999-02-10 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> Vocal reading-aloud method of multimedia information browsing system
JP2001109742A (en) * 1999-08-05 2001-04-20 Toshiba Corp Method for integrating and processing web page parts and client device
JP2003316767A (en) * 2002-04-24 2003-11-07 Murata Mach Ltd Data structure of structured document, and device for program for processing structured document

Similar Documents

Publication Publication Date Title
US5295068A (en) Apparatus for registering private-use words in machine-translation/electronic-mail system
US6119077A (en) Translation machine with format control
JP3300866B2 (en) Method and apparatus for preparing text for use by a text processing system
US20070294614A1 (en) Visualizing document annotations in the context of the source document
JPS6140673A (en) Method and machine for translation for foreign language composition
JP2004265423A (en) Document translation method
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JPH09325960A (en) Document processing system
JP2848729B2 (en) Translation method and translation device
JPH0442704B2 (en)
Tokuda et al. Towards automatic translation from japanese into japanese sign language
JPH08212216A (en) Natural language processor and natural language processing method
JP2006252164A (en) Chinese document processing device
WO2022118720A1 (en) Device for generating mixed text of images and characters
JPH06251055A (en) Machine translation system
JP2005267117A (en) Machine translation program, machine translation method, and machine translation system
JPH0561902A (en) Mechanical translation system
JPS6395573A (en) Method for processing unknown word in analysis of japanese sentence morpheme
JPH1097539A (en) Document conversion device
JPH09265469A (en) Translation method for hyper text type document and translation device for html document
JPH04330565A (en) Natural language processing system using universal file
JPH09297761A (en) Document transforming system
JP3233800B2 (en) Machine translation equipment
JPH0612453A (en) Unknown word extracting and registering device
JP3447955B2 (en) Machine translation system and machine translation method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050406

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060104