JPH1011449A - 文書処理システム - Google Patents

文書処理システム

Info

Publication number
JPH1011449A
JPH1011449A JP8162805A JP16280596A JPH1011449A JP H1011449 A JPH1011449 A JP H1011449A JP 8162805 A JP8162805 A JP 8162805A JP 16280596 A JP16280596 A JP 16280596A JP H1011449 A JPH1011449 A JP H1011449A
Authority
JP
Japan
Prior art keywords
special symbol
data
document
special
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8162805A
Other languages
English (en)
Inventor
Tadayuki Tsunashima
督之 綱島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8162805A priority Critical patent/JPH1011449A/ja
Publication of JPH1011449A publication Critical patent/JPH1011449A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 特殊記号を有する文書に対して所定の処理を
施した処理結果の品質を向上させると共に、入力文書が
有していた特殊記号を、所定処理後の出力文書にもその
まま残す。 【解決手段】 表示、印刷出力時の表記とは異なる特殊
な形態で記述されて文書中に存在する特殊記号を有する
文書を処理する文書処理本体部を有する文書処理システ
ムに関する。文書処理本体の前段に、特殊な形態で文書
中に存在する特殊記号を、出力時の表記と同じ普通の形
態で文書中に存在するように変換する特殊記号変換手段
を有する。また、特殊記号変換手段によって、特殊の形
態から普通の形態に変換された特殊記号の変換情報を記
憶する特殊記号情報保持手段と、文書処理本体部から出
力された文書に存在する普通の形態の特殊記号を、特殊
記号情報保持手段の格納内容を参照して、特殊な形態の
特殊記号に変換する特殊記号復元手段とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書処理システムに
関し、特に、タグ付文書(ハイパーテキストを含む)を
他の言語に翻訳する機械翻訳システムに適用して好適な
ものである。
【0002】
【従来の技術】文書が表示、印刷出力されたときの形式
(表示、印刷出力されたときに発揮する特殊効果;例え
ば下線付与や、文字強調や、文字部を複数に区分する区
切り罫線付与等)を指定するような文字列でなるタグを
含んだタグ付文書を、計算機システムを用いて翻訳する
方式が既に提案されている(例えば、下記文献参照)。
この方式は、タグの部分を翻訳せずに、タグ以外の文章
部分を翻訳し、訳文にもそのタグを残すという方式であ
る。
【0003】文献『石川直太、檜山正幸共著、「タグ付
き文書の英日機械翻訳支援システム」、CALS Japan '9
4, S2-1』 なお、この明細書においては、タグ情報は、HTML
(Hypertext Markup Language )に準拠して表してい
る。
【0004】ところで、タグ付文書では、例えば、出力
時に「強調文字」で表示又は印刷出力される文字列の開
始位置を規定するタグ情報の文書データ中の表記は「<
EM>」であり、「強調文字」で出力される文字列の終
了位置を規定するタグ情報の文書データ中の表記は「<
/EM>」である。このようなタグ情報の表記に用いら
れる「<」や「>」は、文書データ中において、通常の
括弧情報として用いられることもある。そこで、タグ情
報を規定するキャラクタ(以下、文字と呼ぶ)として用
いられているか、括弧情報としてこの文字が用いられて
いるかを出力処理部等が容易に弁別できるように、表
示、印刷出力時に括弧情報「<」、「>」で表示される
ものに対して、文書データ中は「<」、「>」以外の所
定の文字列(以下、文字列をも文字と呼ぶことがある)
で記述している。このような文書データ中で表記(記
述)が出力時と異なるものを特殊記号と呼んでいる。
【0005】例えば、特殊記号「&」は文書データ中で
は「&」で表され、特殊記号「<」は文書デー
タ中では「<」で表され、特殊記号「>」は文書
データ中では「>」で表される。
【0006】なお、以下の説明において、特殊記号の
「通常の形態」とは、出力時と同じ表記で文書データに
存在する態様を言い、特殊記号の「特殊な形態」とは、
出力時と異なる表記で文書データに存在する態様を言
う。例えば、特殊記号「<」が文書データ中においても
「<」で記述されている場合は「通常の形態」にあり、
特殊記号「<」が文書データ中において「<」で
記述されている場合は「特殊な形態」にある。従って、
文書データにおいては、基本的には、特殊な形態で特殊
記号が表記されている。
【0007】
【発明が解決しようとする課題】ところで、従来のタグ
付文書の機械翻訳方式では、特殊な形態の特殊記号に対
しては、(1) タグ情報の構成要素となっている場合と同
様に、テキストから分離し、翻訳後に訳文中の適切な位
置に付加するか、又は、(2) テキスト中に挿入されたま
ま翻訳するかのいずれかの方法で対応していた。
【0008】しかし、特殊記号は翻訳処理を行なうに際
し文を解析するために必要となる言語情報の一つと考え
られるので、第1の方法のように、テキストから外され
た場合にはその特殊記号が有する情報が欠乏して翻訳処
理の品質を劣化させ、また、第2の方法のように、テキ
スト中に挿入したまま翻訳する場合でも特殊な形態とし
て表現されているため解析処理過程で認識されずに通常
の文字列のように処理される恐れがあり、翻訳処理の品
質を劣化させる原因となり易い。
【0009】このようなタグ付文書における特殊記号の
存在による処理結果の品質劣化の課題は、タグ付文書の
翻訳処理の場合だけでなく、他の文書処理でも同様に生
じている。例えば、タグ付文書を要約する場合において
も、特殊記号の表記部分をその処理過程で認識できず、
要約品質を劣化させる恐れがある。また例えば、タグ付
文書に対して意味解析を行ない、得られた意味に応じた
対応を行なうシステムの場合でも、特殊記号の表記部分
をその意味解析過程で正しく認識できず、解析品質を劣
化させる恐れがある。
【0010】そのため、特殊記号を含む文書を正しく処
理し得る文書処理システムが望まれている。
【0011】
【課題を解決するための手段】かかる課題を解決するた
め、本発明の文書処理システムは、表示、印刷出力時の
表記とは異なる特殊な形態で記述されて文書中に存在す
る特殊記号を有する文書を処理する文書処理本体部を有
する文書処理システムにおいて、文書処理本体の前段
に、特殊な形態で文書中に存在する特殊記号を、出力時
の表記と同じ普通の形態で文書中に存在するように変換
する特殊記号変換手段を有することを特徴とする。
【0012】以上のような特殊記号変換手段を備えるこ
とにより、特殊の形態で表現されている特殊記号を含む
文書を、所定の処理内では通常の形態の特殊記号として
処理でき、処理結果の品質を高めることができる。
【0013】ここで、特殊記号変換手段に加えて、特殊
記号変換手段によって、特殊の形態から普通の形態に変
換された特殊記号の変換情報を記憶する特殊記号情報保
持手段と、文書処理本体部から出力された文書に存在す
る普通の形態の特殊記号を、特殊記号情報保持手段の格
納内容を参照して、特殊な形態の特殊記号に変換する特
殊記号復元手段とをさらに有することが好ましい。
【0014】これにより、特殊記号変換手段へ入力され
た文書が有していた特殊記号を、所定処理が実行された
最終的な出力文書にもそのまま残すことができる。
【0015】
【発明の実施の形態】以下、本発明による文書処理シス
テムを機械翻訳システムに適用した一実施形態を図面を
参照しながら詳述する。
【0016】この実施形態は、タグ付文書で特殊な形態
として扱われる特殊記号を、翻訳処理内では通常の形態
の特殊記号として処理できるようにし、その他の処理で
はタグ付文書で用いられる特殊な形態として処理できる
ようにすることにより、翻訳処理品質の劣化を招かず
に、効果的なタグ付文書の翻訳を可能としたものであ
る。
【0017】この実施形態の機械翻訳システムは、例え
ば、入力装置や処理装置や記憶装置(補助記憶装置を含
む)や出力装置を備えたワークステーション等の情報処
理装置上に構築されるが、機能的には、図1のブロック
図に示す構成を有する。
【0018】図1において、この機械翻訳システムは、
機能的には、入力処理部101、特殊記号変換部10
2、タグ情報抽出部103、翻訳部104、タグ情報合
成部105、特殊記号復元部106、出力処理部10
7、入力バッファ108、特殊記号変換テーブル10
9、タグ情報保持部110、出力バッファ111及び特
殊記号情報保持部112から構成されている。
【0019】入力処理部101は、キーボード等の入力
装置から入力される原文あるいは外部記憶装置内にある
原文を管理し、処理が実行されると必要な原文データを
入力バッファ108に格納し、次段の特殊記号変換部1
02へと必要な原文データを転送するものである。ま
た、入力処理部101は、出力処理部107からの信号
により、次の原文データを特殊記号変換部102に転送
するものである。
【0020】特殊記号変換部102は、タグ付文書が入
力されると特殊記号変換テーブル109内にある特殊記
号の変換データ用いて、特殊の形態で表現されている特
殊記号の原文内での存在を判定し、存在している場合に
は通常の形態の特殊記号に変換して原文データをタグ情
報抽出部103に出力すると共に、用いられた特殊記号
変換テーブル109の特殊記号の変換データを特殊記号
情報保持部112に出力して格納させるものである。
【0021】特殊記号変換テーブル109は、上述のよ
うに、特殊記号変換部102が利用するものであって、
タグ文書内の特殊形態で表現されている特殊記号とこれ
に対応する通常の形態の特殊記号の対応関係を規定した
データとが格納されているテーブルである。特殊記号変
換テーブル109の構成については、図2に示してお
り、後述する。
【0022】タグ情報抽出部103は、特殊記号変換部
102から出力された原文データを入力し、タグ情報を
抽出分離し、その位置情報と共にタグ情報をタグ情報保
持部110に出力して格納させ、また、タグ情報が分離
された原文のテキストデータは翻訳部104に出力する
ものである。
【0023】翻訳部104は、タグ情報抽出部103か
ら出力されたタグが存在しない原文データを入力し、ユ
ーザの指定した目的言語へと翻訳し(例えば、英語から
日本語あるいは日本語から英語)、訳文データをタグ情
報合成部105に出力するものである。
【0024】タグ情報合成部105は、翻訳部104か
ら出力された訳文データを入力し、タグ情報保持部11
0から抽出した原文データに付与されていたタグ情報を
もとに、訳文データにタグ情報を付与合成して、そのタ
グ付の訳文データを特殊記号復元部106に出力するも
のである。
【0025】特殊記号復元部106は、タグ情報合成部
105から出力されたタグ付の訳文データを入力し、特
殊記号情報保持部112から抽出した変換情報を用い
て、訳文データ中における通常の形態の特殊記号の存在
を判定し、存在している場合にはタグ付文書で特殊な形
態として表現される特殊記号に復元して、復元後のデー
タを出力処理部107に出力するものである。
【0026】出力処理部107は、特殊記号復元部10
6から出力された訳文データを入力し、出力バッファ1
11に格納し、ユーザの指示操作によりディスプレイ装
置にデータを表示したり、外部記憶装置にデータを転送
し訳文データを保存したりするものである。また、出力
処理部107は、訳文データの格納が完了したとき等
に、入力処理部101に次の原文データの入力を起動し
たりするものである。
【0027】図2は、特殊記号変換部102が参照す
る、上述した特殊記号変換テーブル109の構成例を示
す説明図である。
【0028】特殊記号変換テーブル109は、特殊記号
照合見出し項目109A及び特殊記号変換見出し項目1
09Bの2項目から構成されている。特殊記号照合見出
し項目109Aには、タグ付文書内の特殊形態で表現さ
れる特殊記号のデータが格納され、特殊記号変換見出し
項目109Bには、特殊記号照合見出し項目109Aの
データに対応して通常の形態である特殊記号のデータが
格納されている。そして、各々のデータは項目間で対応
している。
【0029】図2の例では、特殊記号照合見出し項目1
09Aの特殊な形態の特殊記号データとして、「&am
p;」、「<」及び「>」が格納され、こ
れらにそれぞれ対応する特殊記号変換見出し項目109
Bの普通の形態の特殊記号データとして「&」、
「<」、「>」が格納されている。
【0030】以下、この実施形態の特徴的な処理を実行
する特殊記号変換部102及び特殊記号復元部105の
動作を順に説明する。
【0031】ここで、図3及び図4は、特殊記号変換部
102の処理を示すフローチャートである。
【0032】特殊記号変換部102は、図3及び図4に
示す一連の処理を開始するとまず、入力処理部101か
ら、原文データを入力し(ステップ1001)、また、
特殊記号情報保持部112内にあるデータをリセットす
る(ステップ1002)。
【0033】そして、特殊記号変換テーブル109の特
殊記号照合見出し項目109Aから未だ抽出されていな
い1データ(特殊な形態の特殊記号)の抽出動作を行な
い(ステップ1003)、今回の抽出動作で未抽出デー
タが抽出できたか否か(言い換えると、特殊記号照合見
出し項目109Aから全てのデータを1回ずつ抽出し終
えたか否か)を判定する(ステップ1004)。
【0034】今回の抽出動作で未抽出データが抽出でき
なければ、特殊記号照合見出し項目109Aの全てのデ
ータに対してそれぞれ、後述するステップ1005〜ス
テップ1010でなる処理ルーチンを実行済であるの
で、後述するステップ1011に進み、入力された原文
データ(特殊記号が特殊な形態から普通の形態に変換さ
れていることもあり得る)をタグ情報抽出部103に出
力し、一連の処理を終了する。
【0035】これに対して、特殊記号照合見出し項目1
09Aからデータ(特殊な形態の特殊記号)を抽出でき
たならば、入力された原文データ中における今回の抽出
データ(特殊な形態の特殊記号)と一致する文字データ
の存在の確認、及び、存在時における通常の形態の特殊
記号への置換えを行なうステップ1005以降の処理に
進む。
【0036】このような処理ではまず、入力された原文
データの先頭側から文字データ(正確には文字列デー
タ)の抽出動作を行ない(ステップ1005)、文字デ
ータの抽出が文末に達したか否かを判定する(ステップ
1006)。
【0037】ここで、文字データの抽出が文末まで達し
た場合には、上述したステップ1003に戻り、特殊記
号変換テーブル109の特殊記号照合見出し項目109
Aから次のデータ(特殊な形態の特殊記号)を抽出す
る。
【0038】これに対して、文末に達していなければ、
今回のステップ1003で抽出した特殊記号照合見出し
項目109Aのデータ(特殊な形態の特殊記号;文字デ
ータ)と、ステップ1005で抽出した文字データとを
照合し(ステップ1007)、その照合結果を確認し、
原文データ中に、対象とする特殊記号照合見出し項目1
09Aのデータにマッチする文字データが存在するか否
かを判定する(ステップ1008)。
【0039】この判定の結果、マッチするデータが存在
しなければ、上述したステップ1005に戻り、原文デ
ータより、次の(より文末側の)文字データを抽出す
る。
【0040】一方、原文データ中に、対象とする特殊記
号照合見出し項目109Aのデータにマッチする文字デ
ータが存在すれば、マッチした特殊記号照合見出し項目
109Aのデータ(特殊な形態の特殊記号)に対応する
特殊記号変換見出し項目109Bのデータ(通常の形態
の特殊記号)を特殊記号変換テーブル109の特殊記号
変換見出し項目109Bから抽出し、マッチした原文デ
ータ中の文字データ部分と置換する(ステップ100
9)。
【0041】また、マッチした特殊記号照合見出し項目
109Aのデータと、ステップ1009で抽出した対応
する特殊記号変換見出し項目109Bのデータを組にし
て特殊記号情報保持部112に転送して格納させ(ステ
ップ1010)、その後、上述したステップ1005に
戻り、原文データより、次の(より文末側の)文字デー
タを抽出する。
【0042】以上のようなステップ1005〜ステップ
1008の処理ループ、又は、ステップ1005〜ステ
ップ1010の処理ループを繰返すことにより、原文デ
ータ中における今回のステップ1003での抽出データ
(特殊な形態の特殊記号)と一致する文字データの有無
が確認され、存在する場合には、存在する全ての文字デ
ータが通常の形態の特殊記号へ置換される。そして、原
文データからの抽出が文末まで達したときには、ステッ
プ1006で肯定結果が得られ、ステップ1005〜ス
テップ1008の処理ループ、及び、ステップ1005
〜ステップ1010の処理ループから抜け出てステップ
1003に戻り、特殊記号変換テーブル109の特殊記
号照合見出し項目109Aからの次のデータ(特殊な形
態の特殊記号)の抽出動作を行なう。
【0043】このステップ1003の処理が、特殊記号
変換テーブル109の特殊記号照合見出し項目109A
のデータ数だけ実行された後に再びステップ1003に
進んだときには、未抽出データを抽出できず、このとき
には、入力された原文データ(特殊記号部分が置換えら
れていることもあり得る)をタグ情報抽出部103に出
力し、一連の処理を終了する。
【0044】なお、特殊記号変換部102による一連の
処理が終了したときには、特殊記号情報保持部112に
は、ステップ1007の照合でマッチした特殊記号変換
テーブル109の特殊記号照合見出し項目109Aのデ
ータとこれに対応する特殊記号変換見出し項目109B
のデータの組を一つの単位として、マッチした数の組デ
ータが保持される。従って、マッチした数のデータが格
納されている点を除けば、図示は省略しているが、特殊
記号情報保持部112の格納構成は、特殊記号変換テー
ブル109(図2参照)と同様であり、特殊記号照合見
出し項目と特殊記号変換見出し項目とでなっている。
【0045】次に、このようにして保持された特殊記号
情報保持部112の格納内容を適宜利用しながら処理を
実行する特殊記号復元部106の動作を、図面を参照し
ながら詳述する。ここで、図5及び図6が、特殊記号復
元部106の処理フローチャートである。
【0046】特殊記号復元部106は、図5及び図6に
示す処理を開始するとまず、タグ情報合成部105から
出力されたタグ付の訳文データを読み込む(ステップ2
001)。
【0047】そして、特殊記号情報保持部112にある
特殊記号照合見出し項目のデータと特殊記号変換見出し
項目のデータの組のうち特殊記号変換見出し項目の未だ
抽出されていない1データ(通常の形態の特殊記号)の
抽出動作を行ない(ステップ2002)、今回の抽出動
作で未抽出データが抽出できたか否か(言い換えると、
特殊記号変換見出し項目から全てのデータを1回ずつ抽
出し終えたか否か)を判定する(ステップ2003)。
【0048】今回の抽出動作で未抽出データが抽出でき
なければ、特殊記号変換見出し項目の全データに対して
それぞれ、後述するステップ2004〜ステップ200
8でなる処理ルーチンを実行済であるので、後述するス
テップ2009に進む。
【0049】これに対して、特殊記号情報保持部112
の特殊記号変換見出し項目からデータ(通常の形態の特
殊記号)を抽出できたならば、入力された訳文データ中
における今回の抽出データ(通常の形態の特殊記号)と
一致する文字データの存在の確認、及び、存在時におけ
る特殊な形態の特殊記号への置換えを行なうステップ2
004以降の処理に進む。
【0050】このような処理ではまず、入力された訳文
データの先頭側から文字データ(正確には文字列デー
タ)の抽出動作を行ない(ステップ2004)、文字デ
ータの抽出が文末に達したか否かを判定する(ステップ
2005)。
【0051】ここで、文字データの抽出が文末まで達し
た場合には、上述したステップ2002に戻り、特殊記
号情報保持部112の特殊記号変換見出し項目から次の
データ(通常の形態の特殊記号)を抽出する。
【0052】これに対して、文末に達していなければ、
今回のステップ2002で抽出した特殊記号変換見出し
項目のデータ(通常の形態の特殊記号;文字データ)
と、ステップ2004で抽出した文字データとを照合し
(ステップ2006)、その照合結果を確認し、訳文デ
ータ中に、対象とする特殊記号変換見出し項目のデータ
にマッチする文字データが存在するか否かを判定する
(ステップ2007)。
【0053】なお、マッチしていても、その文字データ
(例えば「<」)がタグ情報を表すデータの一部となっ
ている場合には、マッチしないととらえる。例えば、訳
文データ中に、強調文字で出力する文字列の開始位置を
規定する「<EM>」がある場合において、そのタグ情
報「<EM>」を構成する「<」が見付かってもマッチ
しないととらえる。
【0054】この判定の結果、マッチするデータが存在
しなければ、上述したステップ2004に戻り、訳文デ
ータより、次の(より文末側の)文字データを抽出す
る。
【0055】一方、訳文データ中に、対象とする特殊記
号変換見出し項目のデータにマッチする文字データが存
在すれば、マッチした特殊記号変換見出し項目のデータ
(通常の形態の特殊記号)に対応する、特殊記号情報保
持部112にある特殊記号照合見出し項目(図2の10
9B参照)のデータ(特殊な形態の特殊記号)を特殊記
号情報保持部112から抽出し、マッチした訳文データ
中の文字データ部分と置換する(ステップ2008)。
その後、上述したステップ2004に戻り、訳文データ
より、次の(より文末側の)文字データを抽出する。
【0056】以上のようなステップ2004〜ステップ
2007の処理ループ、又は、ステップ2004〜ステ
ップ2008の処理ループを繰返すことにより、訳文デ
ータ中における今回のステップ2002での抽出データ
(通常の形態の特殊記号)と一致する文字データの有無
が確認され、存在する場合には、存在する全ての文字デ
ータが特殊な形態の特殊記号へ置換される。そして、訳
文データからの抽出が文末まで達したときには、ステッ
プ2005で肯定結果が得られ、ステップ2004〜ス
テップ2007の処理ループ、及び、ステップ2004
〜ステップ2008の処理ループから抜け出てステップ
2002に戻り、特殊記号情報保持部112にある特殊
記号変換見出し項目の次のデータ(通常の形態の特殊記
号)の抽出動作を行なう。
【0057】このステップ2002の処理が、特殊記号
情報保持部112に保持されている、特殊記号照合見出
し項目及び特殊記号変換見出し項目のデータの組数だけ
実行された後に再びステップ2002に進んだときに
は、未抽出データを抽出できず、このときには、特殊記
号情報保持部112のデータをリセットし(ステップ2
009)、また、入力された訳文データ(特殊記号部分
が置換えられていることもあり得る)を出力処理部10
7に出力し、一連の処理を終了する。
【0058】次に、第1の実施形態の機械翻訳システム
による動作を、英文を日本文に翻訳処理する場合につい
て、例文を用いて具体的に説明する。
【0059】ここでは、以下のように画面表示され、文
書データとして以下のように表される英文(原文)を翻
訳処理する場合を説明する。
【0060】画面表示; “The <strong
> tag means strong emphas
is.” 文書データ; “The <strong&g
t; tag means strong empha
sis.” この文書データが入力処理部101の入力データとな
り、入力バッファ108に格納されると共に、次段の特
殊記号変換部102に渡される。
【0061】特殊記号変換部102では、ステップ10
01で入力処理部101からの原文データを受け取り、
ステップ1002で特殊記号情報保持部112内にある
データをリセットする。
【0062】次に、ステップ1003で、特殊記号変換
テーブル109の特殊記号照合見出し項目109Aから
1個の特殊記号照合データを抽出する。特殊記号変換テ
ーブル109の特殊記号照合見出し項目109Aには、
図2に示すように、3種類のデータが格納されており、
まず「&」が抽出される。
【0063】ステップ1004では、抽出した特殊記号
照合データの存在の有無が判定されるが、この場合には
存在するので、次のステップ1005において、入力さ
れた原文データ“The <strong&g
t; tag means strong empha
sis.”から文字データが抽出され、ステップ100
6で文末の有無が判定されるまで文字データの抽出が行
なわれる。
【0064】抽出された文字データは、ステップ100
7で特殊記号変換テーブル109の特殊記号照合見出し
項目109Aから抽出されたデータ「&」と照
合され、ステップ1008で照合結果が判定され、マッ
チしていれば、次のステップ1009へと進む。この例
文では「&」に相当する文字データは存在しな
いので(マッチしないので)、文末まで文字データが抽
出され、ステップ1006で文末と判定され、ステップ
1003へと進む。
【0065】この2回目のステップ1003では特殊記
号変換テーブル109の特殊記号照合見出し項目109
Aから次のデータである「<」が抽出され、以
下、ステップ1004〜ステップ1008へと進む。
【0066】入力原文データ“The <str
ong> tag means strong
emphasis.”には特殊記号変換テーブル109
の特殊記号照合見出し項目109Aから抽出されたデー
タ「<」が一つ存在するので、ステップ1008
で一度マッチすることが判定され、ステップ1009に
おいて、特殊記号変換テーブル109の特殊記号照合見
出し項目109Aのデータ「<」に対応する特殊
記号変換項目109Bのデータ「<」が抽出され、入力
データ“The <strong> ta
g meansstrong emphasis.”の
中でマッチした文字データ「<」と置換される。
この置換処理の結果、“The <strong&g
t; tag means strong empha
sis.”というデータが生成される。
【0067】ステップ1010では、マッチした特殊記
号照合見出し項目109Aのデータ「<」と、上
述のステップ1009で抽出されたそれに対応する特殊
記号変換項目109Bのデータ「<」とを組にして特殊
記号情報保持部112に転送し、保持させる。従って、
今回、特殊記号情報保持部112に転送される組データ
は、図7(A)に示すようになる。
【0068】次にステップ1005へ戻り、原文データ
中から文字データの抽出が行なわれるが、さきほどマッ
チした以降にはマッチする文字データが存在しないの
で、文末に達し、ステップ1006で文末と判定され、
ステップ1003に戻る。
【0069】この3回目のステップ1003では特殊記
号変換テーブル109の特殊記号照合見出し項目109
Aから次のデータである「>」が抽出され、以
下、ステップ1004〜ステップ1008へと進み、入
力データ中にマッチするデータの存在が判定され、ステ
ップ1009で置換処理が行なわれ、“The <st
rong> tag means strong em
phasis.”というデータが生成され、ステップ1
010で、図7(B)に示すマッチした組データが特殊
記号情報保持部112に転送される。次に、ステップ1
005へ戻って、より文末側の文字データの抽出が行な
われるが、マッチする文字データが存在しないので、文
末に達し、ステップ1006で文末と判定され、ステッ
プ1003に進む。
【0070】この4回目のステップ1003において
は、特殊記号変換テーブル109の特殊記号照合見出し
項目109Aから抽出されるデータが存在しないので、
ステップ1004でデータが抽出できなかったと判定さ
れ、ステップ1011に進み、上述のように置換処理が
施された入力データ“The <strong> ta
g means strong emphasis.”
がタグ情報抽出部103に出力され、特殊記号変換部1
02の一連の処理が終了する。
【0071】この終了時においては、上述した2回の転
送処理により、特殊記号情報保持部112には、図7
(C)に示す2組のデータが格納されている。
【0072】次に、特殊記号変換部102から出力され
た原文データ“The <strong> tag m
eans strong emphasis.”がタグ
情報抽出部103に入力され、タグ情報の抽出分離動
作、分離された位置情報を伴うタグ情報のタグ情報保持
部110への出力格納動作、タグ情報が分離されたテキ
ストデータの翻訳部104への出力動作が実行される。
【0073】しかし、今回の入力データには、特殊記号
変換部102の変換動作によって、タグ情報が存在しな
くなっているため、そのまま翻訳部104へと出力さ
れ、翻訳部104で英語から日本語へと翻訳処理が施さ
れ、「<ストロング>タグは、強い強調を意味しま
す。」の訳文データが出力される。この翻訳処理では、
「<」及び「>」のデータは通常の形態のデータとして
扱われる。すなわち、種々ある括弧データの1種類の括
弧データとして扱われる。
【0074】なお、今回の例文には存在しないが、例え
ば、強調文字の出力を指定するようなタグ情報「<EM
>」、「</EM>」が原文データ中にある場合には、
原文データからのタグ情報の分離抽出が実行される。
【0075】翻訳部104から出力された訳文データは
タグ情報合成部105に入力され、タグ情報合成部10
5において、タグ情報保持部110から抽出した原文デ
ータに付与されていたタグ情報をもとに、訳文にタグ情
報を付与合成処理が実行しようとするが、今回の例で
は、タグ情報保持部109になんらデータが格納されて
いないので、タグ情報合成部105は、入力された訳文
データをそのまま特殊記号復元部106へ出力する。
【0076】特殊記号復元部106では、ステップ20
01でタグ情報合成部105から訳文データを受け取
る。ステップ2002で特殊記号情報保持部112にあ
る特殊記号照合見出し項目のデータと特殊記号変換見出
し項目のデータの組のうち特殊記号変換見出し項目のデ
ータを1データだけ抽出する。ここでは、図7(C)に
示すように、特殊記号情報保持部112には、2組のデ
ータが保持されており、まず最初の組データから「<」
が抽出される。
【0077】ステップ2003では、特殊記号変換見出
し項目からデータが抽出できたか否かが判定されるが、
この場合には抽出できたので、次のステップ2004に
おいて、入力された訳文データ「<ストロング>タグ
は、強い強調を意味します。」から文字データが抽出さ
れ、ステップ2005で文末に達したかが判定される
が、抽出が訳文データの途中の場合には、否定結果が得
られる。
【0078】そのため、抽出された文字データは、ステ
ップ2006で特殊記号変換見出し項目のデータ「<」
と照合され、ステップ2007でその照合結果が判定さ
れ、マッチしていれば次のステップ2008へと進む。
今回の入力訳文データ「<ストロング>タグは、強い強
調を意味します。」には、特殊記号変換見出し項目のデ
ータ「<」が一つ存在するので、ステップ2007で一
度マッチすることが判定され、ステップ2008に進
み、特殊記号変換見出し項目のデータ「<」に対応する
特殊記号照合見出し項目のデータ「<」が特殊記
号保持部112から抽出され、入力データ「<ストロン
グ>タグは、強い強調を意味します。」の中でマッチし
た文字データと置換される。この置換処理の結果、「&
lt;ストロング>タグは、強い強調を意味します。」
というデータが生成される。
【0079】次に、ステップ2004に戻り、文字デー
タの抽出が行なわれる。これ以上マッチする文字データ
が存在しないので、ステップ2004〜ステップ200
7の処理ループが繰返され、この繰返しにより、訳文デ
ータの文末に達し、ステップ2005で文末と判定さ
れ、ステップ2002に戻る。
【0080】この2回目のステップ2002では特殊記
号情報保持部112にある特殊記号照合見出し項目のデ
ータと特殊記号変換見出し項目のデータの組のうち次の
特殊記号変換見出し項目のデータ「>」が抽出され、以
下、ステップ2003〜ステップ2007へと進み、入
力訳文データ中にマッチする文字データの存在が判定さ
れ、ステップ2008で置換処理が行なわれ、「&l
t;ストロング>タグは、強い強調を意味しま
す。」というデータが生成される。
【0081】次に、ステップ2004に戻り、文字デー
タの抽出が行なわれる。これ以上マッチする文字データ
が存在しないので、ステップ2004〜ステップ200
7の処理ループが繰返され、この繰返しにより、訳文デ
ータの文末に達し、ステップ2005で文末と判定さ
れ、ステップ2002に戻る。
【0082】この3回目のステップ2002では、特殊
記号保持部112から次の特殊記号変換見出し項目のデ
ータの抽出を行なうが未抽出データが存在しないので抽
出できず、ステップ2003による特殊記号変換見出し
項目の未抽出データの有無の判定で否定結果が得られ、
ステップ2009に進み、特殊記号情報保持部112に
保持されていたデータをリセットする。そして、ステッ
プ2010で置換処理が施された訳文データ「<
ストロング>タグは、強い強調を意味します。」
を出力する。
【0083】出力処理部107は、特殊記号復元部10
6から出力されたデータ「<ストロング>
タグは、強い強調を意味します。」を入力し、出力バッ
ファ111に格納すると共に、入力処理部102に処理
の終了メッセージを発信する。また、出力処理部107
は、出力バッファ111のデータをユーザの指示操作に
よりディスプレイ装置に表示したり、あるいは外部記憶
装置に転送して訳文を保存したりする。
【0084】この訳文データが表示に供した場合には、
「<ストロング>タグは、強い強調を意味します。」と
なる。
【0085】上記実施形態の機械翻訳システムによれ
ば、タグ付文書で特殊の形態で表現される「&」、
「<」、「>」といった特殊記号を含む原文データの翻
訳処理に際し、翻訳処理内では通常の形態の特殊記号と
して処理し、その他の処理においてはタグ付文書の特殊
の形態として処理することを可能としたので、効率良く
適切な言語表現の訳文を得ることができて翻訳品質を従
来に比して向上できると共に、訳文にも原文が有してい
た特殊記号をそのまま残すことができる。
【0086】すなわち、特殊記号を通常の形態に置換え
て翻訳処理を行なうので、特殊記号が有する情報を含め
原文を翻訳できて原文を正しく解析でき、翻訳処理の品
質を向上できる。また、特殊な形態の特殊記号を翻訳処
理した場合においては、特殊な形態として表現されてい
るため解析処理過程で認識されずに通常の文字列のよう
に処理される恐れがあり、翻訳処理の品質を劣化させる
恐れがあるが、この実施形態の場合には、特殊記号を通
常の形態に置換えて翻訳処理を行なうので、このような
不都合を未然に防止することができる。さらに、翻訳後
においては、特殊な形態の特殊記号に復元するので、訳
文にも原文が有していた特殊記号をそのまま残すことが
できる。
【0087】なお、上記実施形態においては、タグ付文
書で特殊の形態で表現される特殊記号が「&」、
「<」、「>」であるものを示したが、他の特殊記号を
含むものであっても良く、特殊な形態と通常の形態とが
存在するものが、記号ではない文字であっても良い。特
許請求の範囲における特殊記号の用語は、このような特
殊文字を含む概念とする。
【0088】また、上記実施形態においては、特殊記号
を含み得るタグ付文書を翻訳するものを示したが、特殊
記号を含む文書であれば翻訳対象文書はタグ付文書に限
定されない。
【0089】さらに、上記実施形態においては、特殊記
号変換部が変換した情報を特殊記号情報保持部に記憶
し、その格納内容を特殊記号復元部が端末に取出すもの
を示したが、特殊記号変換部及び特殊記号情報保持部
間、又は、特殊記号情報保持部及び特殊記号復元部間
に、以下のような処理部を設けて、特殊記号から他の特
殊記号又は文字への変換を行なうようにしても良い。す
なわち、ユーザが登録・編集した特殊記号から他の特殊
記号又は文字への変換情報を格納しているテーブルを内
蔵し、このテーブル内容に応じて、特殊記号情報保持部
へ与えるデータ、又は、特殊記号情報保持部から読出し
たデータを変換する特殊記号他記号変換処理部を設けれ
ば良い。
【0090】さらにまた、上記実施形態においては、特
殊記号復元部を、タグ情報合成部及び出力処理部間に介
挿したものを示したが、特殊記号復元部を、翻訳部及び
タグ情報合成部間に介挿するようにしても良い。
【0091】また、出力処理部の出力方法によっては、
例えば、タグを構成しない普通の形態の「<」や「>」
等をそのまま出力する方法であれば、上記実施形態にお
ける特殊記号情報保持部及び特殊記号復元部を省略する
ことができる。
【0092】さらに、上記実施形態においては、単独の
情報処理装置上に構成したシステムを示したが、ネット
ワークを介して接続されたシステムの端末装置に本発明
に係るシステムを適用するようにしても良い。例えば、
タグ記号等を含むテキスト又はハイパーテキストが、コ
ンピュータネットワーク上の任意のサーバに存在し、他
の任意のクライアントから検索して、クライアント上に
表示するようなシステムにおける機械翻訳システムにお
いても適用可能である。
【0093】さらに、上記実施形態においては、本発明
を、機械翻訳システムに適用したものを示したが、本発
明はこれに限定されず、特殊記号を含む文書を処理する
他の文書処理システムにも適用することができる。例え
ば、特殊記号を含むタグ付文書を要約する要約システム
や、特殊記号を含むタグ付文書に対して意味解析を行な
う意味解析システム等にも適用することができる。
【0094】
【発明の効果】以上のように、本発明によれば、表示、
印刷出力時の表記とは異なる特殊な形態で記述されて文
書中に存在する特殊記号を有する文書を処理する文書処
理本体部を有する文書処理システムにおいて、文書処理
本体の前段に、特殊な形態で文書中に存在する特殊記号
を、出力時の表記と同じ普通の形態で文書中に存在する
ように変換する特殊記号変換手段を有するので、特殊の
形態で表現されている特殊記号を含む文書を、所定の処
理内では通常の形態の特殊記号として処理でき、処理結
果の品質を高めることができる。
【0095】ここで、特殊記号変換手段に加えて、特殊
記号変換手段によって、特殊の形態から普通の形態に変
換された特殊記号の変換情報を記憶する特殊記号情報保
持手段と、文書処理本体部から出力された文書に存在す
る普通の形態の特殊記号を、特殊記号情報保持手段の格
納内容を参照して、特殊な形態の特殊記号に変換する特
殊記号復元手段とをさらに有すると、特殊記号変換手段
へ入力された文書が有していた特殊記号を、所定処理が
実行された最終的な出力文書にもそのまま残すことがで
きる。
【図面の簡単な説明】
【図1】実施形態の機械翻訳システムの全体構成を示す
ブロック図である。
【図2】実施形態の特殊記号変換テーブルの構成を示す
説明図である。
【図3】実施形態の特殊記号変換部の処理フローチャー
ト(1)である。
【図4】実施形態の特殊記号変換部の処理フローチャー
ト(2)である。
【図5】実施形態の特殊記号復元部の処理フローチャー
ト(1)である。
【図6】実施形態の特殊記号復元部の処理フローチャー
ト(2)である。
【図7】実施形態の具体的動作の説明に供する図面であ
る。
【符号の説明】
101…入力処理部、102…特殊記号変換部、103
…タグ情報抽出部、104…翻訳部、105…タグ情報
合成部、106…特殊記号復元部、107…出力処理
部、108…入力バッファ、109…特殊記号変換テー
ブル、110…タグ情報保持部、111…出力バッフ
ァ、112…特殊記号情報保持部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 表示、印刷出力時の表記とは異なる特殊
    な形態で記述されて文書中に存在する特殊記号を有する
    文書を処理する文書処理本体部を有する文書処理システ
    ムにおいて、 上記文書処理本体の前段に、特殊な形態で文書中に存在
    する特殊記号を、出力時の表記と同じ普通の形態で文書
    中に存在するように変換する特殊記号変換手段を有する
    ことを特徴とする文書処理システム。
  2. 【請求項2】 上記特殊記号変換手段によって、特殊の
    形態から普通の形態に変換された特殊記号の変換情報を
    記憶する特殊記号情報保持手段と、 上記文書処理本体部から出力された文書に存在する普通
    の形態の特殊記号を、上記特殊記号情報保持手段の格納
    内容を参照して、特殊な形態の特殊記号に変換する特殊
    記号復元手段とをさらに有することを特徴とする請求項
    1に記載の文書処理システム。
  3. 【請求項3】 上記文書が、表示、印刷出力時の形式を
    規定するタグ情報を含むタグ付文書であることを特徴と
    する請求項1又は2に記載の文書処理システム。
  4. 【請求項4】 上記文書処理本体部が、原言語の文書を
    目的言語の文書に翻訳する翻訳手段であることを特徴と
    する請求項1〜3のいずれかに記載の文書処理システ
    ム。
JP8162805A 1996-06-24 1996-06-24 文書処理システム Pending JPH1011449A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8162805A JPH1011449A (ja) 1996-06-24 1996-06-24 文書処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8162805A JPH1011449A (ja) 1996-06-24 1996-06-24 文書処理システム

Publications (1)

Publication Number Publication Date
JPH1011449A true JPH1011449A (ja) 1998-01-16

Family

ID=15761562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8162805A Pending JPH1011449A (ja) 1996-06-24 1996-06-24 文書処理システム

Country Status (1)

Country Link
JP (1) JPH1011449A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222326A (ja) * 1999-01-28 2000-08-11 Nippon Telegr & Teleph Corp <Ntt> 学習支援方法及びシステム及び学習支援プログラムを格納した記憶媒体
JP2018005367A (ja) * 2016-06-29 2018-01-11 大日本印刷株式会社 編集支援システム、編集支援装置、データ置換装置及び編集支援方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222326A (ja) * 1999-01-28 2000-08-11 Nippon Telegr & Teleph Corp <Ntt> 学習支援方法及びシステム及び学習支援プログラムを格納した記憶媒体
JP2018005367A (ja) * 2016-06-29 2018-01-11 大日本印刷株式会社 編集支援システム、編集支援装置、データ置換装置及び編集支援方法

Similar Documents

Publication Publication Date Title
US6119077A (en) Translation machine with format control
JP3220560B2 (ja) 機械翻訳装置
JPS6089275A (ja) 翻訳方式
US20010029442A1 (en) Translation system, translation processing method and computer readable recording medium
JP2017199363A (ja) 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
EP0357370B1 (en) Computer assisted language translating machine
CN107066438A (zh) 一种文本编辑方法及装置,电子设备
JPH1011449A (ja) 文書処理システム
JP2006252164A (ja) 中国語文書処理装置
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法
JP2001034611A (ja) 読み情報出力装置および記録媒体
JP5026385B2 (ja) 顔文字検出装置、その方法、プログラム及び記録媒体
CN117041660A (zh) 图文视频生成方法和装置、电子设备及存储介质
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置
JPH1063667A (ja) 文書処理システム
JPH0765005A (ja) 文書速読支援表示装置並びに文書処理装置及びディジタル複写装置
JP4007661B2 (ja) 自然言語統計データベース装置
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JPH06251055A (ja) 機械翻訳方式
JPH04330565A (ja) 自然言語処理システム
JP3447955B2 (ja) 機械翻訳システム及び機械翻訳方法
JP2001134418A (ja) ハイパーテキスト中継方法及び装置
JP2650099B2 (ja) ドキュメント抽出装置
JPH1063659A (ja) 文書処理システム
CN118247790A (zh) 用于医学书籍的内容解析系统、方法、设备及介质