JPH05334350A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH05334350A
JPH05334350A JP4144118A JP14411892A JPH05334350A JP H05334350 A JPH05334350 A JP H05334350A JP 4144118 A JP4144118 A JP 4144118A JP 14411892 A JP14411892 A JP 14411892A JP H05334350 A JPH05334350 A JP H05334350A
Authority
JP
Japan
Prior art keywords
sentence
text
translation
translated
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4144118A
Other languages
English (en)
Inventor
Hidezo Kugimiya
秀造 釘宮
Hitoshi Suzuki
等 鈴木
Noriyuki Hirai
徳行 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4144118A priority Critical patent/JPH05334350A/ja
Publication of JPH05334350A publication Critical patent/JPH05334350A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 訳文と原文との対応関係を容易に確認できる
ようなフォーマットで、訳文を自動的に出力できる機械
翻訳装置を提供する。 【構成】 入力原文のレイアウト情報を取得し保存する
部分S2と、原文テキストを他の言語に翻訳する部分S
3と、翻訳結果を、保存されたレイアウト情報にしたが
ってフォーマットし直す部分S4とを含む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、ある言語の原文のレ
イアウト/文字種などの割付情報を保存し、原文を翻訳
して得た訳文を、原文と同じ割付情報に従って出力する
機械翻訳装置に関する。
【0002】
【従来の技術】従来の機械翻訳装置では、まずOCR
(光学式文字読取装置)などにより原文を入力した後、
一文毎の翻訳処理を行なうために、原文を一文ずつに区
分する、一文切出し処理を行なう。そして、切出された
一文ずつを翻訳し、翻訳後の文を順次記憶装置に格納
し、出力している。したがって、翻訳処理終了後の結果
は、原文のレイアウトや文字種とは関係なく、訳文が並
んで配列されているだけであった。そしてその印刷時、
あるいは表示時には、原文で使用されている文字種とは
無関係に、予め定められた文字種での表示・印刷が行な
われるだけであり、原文と同じような文字種を用いて出
力しようと思えば、翻訳後の文を、使用者自身が手作業
で編集する必要があった。
【0003】さらに、英語と日本語との間の翻訳などの
場合からもわかるように、一般に翻訳を行なった場合に
は、原文と、その原文に対応する訳文との長さが互いに
異なる。そのために、訳文と原文とのフォーマットが事
なり、訳文と原文との間の対応関係を確認する際に困難
が生じていた。この問題を解決するために、訳文を原文
と同じフォーマットで表示・印刷しようとすれば、たと
えば訳文が短すぎて文章の後ろに空白が生じてしまった
り、訳文が長すぎて次のブロックやページにまで訳文が
またがってしまう点などの不都合があった。
【0004】
【発明が解決しようとする課題】すなわち、従来の機械
翻訳装置では、原文と訳文との間の対応関係を容易に確
認できるような形で、訳文を自動的にフォーマットして
出力することができないという問題点があった。
【0005】それゆえに請求項1および2に記載の発明
の目的は、訳文と原文との間の対応関係を容易に確認で
きるような訳文を自動的に作成することができる機械翻
訳装置を提供することである。
【0006】
【課題を解決するための手段】請求項1に記載の機械翻
訳装置は、予め定める第1の言語の入力テキストの所定
の割付情報を、入力テキストから取得し保存するための
割付情報取得手段と、入力テキストを、予め定める第2
の言語のテキストに翻訳するための翻訳手段と、翻訳手
段の出力する第2の言語のテキストを、割付情報取得手
段に保存されていた割付情報に従って割付けて出力する
ための割付手段とを含む。
【0007】請求項2に記載の機械翻訳装置は、請求項
1に記載の機械翻訳装置であって、その割付手段は、第
2の言語のテキストを、割付情報取得手段に保存されて
いた割付情報に従って、かつ入力テキストの各ブロック
の面積と、各ブロックに対応する、第2の言語のテキス
トの各ブロックの出力時の面積との間に、所定の関係が
成立するように、各ブロック毎に第2の言語のテキスト
を補正して割付て出力するための面積補正割付手段を含
む。
【0008】
【作用】請求項1に記載の機械翻訳装置においては、入
力テキストの所定の割付情報が割付情報取得手段に保存
され、入力テキストの翻訳文を出力する際に、保存され
ていた割付情報に従って割付が行なわれて出力される。
【0009】請求項2に記載の機械翻訳装置において
は、入力テキストの所定の割付情報が割付情報取得手段
によって保存され、入力テキストの翻訳文を出力する際
には、保存されていた割付情報にしたがって、かつ入力
テキストの各ブロックの面積と、各ブロックに対応す
る、翻訳文のブロックの出力時の面積との間に、所定の
関係が成立するように各ブロック毎に翻訳文の割付が補
正されて出力される。
【0010】
【実施例】以下本発明の第1の実施例につき、図面を参
照しながら説明する、なお、以下の実施例では機械翻訳
装置の一例として英語から日本語への翻訳を扱うものに
ついて説明するが、対象となる言語は英語、日本語に限
られないことは言うまでもない。また、本明細書におい
て「割付情報」とは、テキスト原文の各文字の配列と、
使用される文字の文字種と、各文字の大きさと、各文字
間の間隔など、テキスト印刷の際にレイアウトを決定す
るための要素のいずれをも表わし得るものとする。
【0011】図1は、請求項1に記載の発明の一実施例
にかかる機械翻訳装置のブロック図である。図1を参照
してこの機械翻訳装置は、制御部1と、それぞれ制御部
1に接続された翻訳モジュール4と、辞書・文法規則5
と、表示装置6と、キーボード7と、OCR9と、外部
記憶装置8とを含む。
【0012】制御部1は、CPU(中央処理装置)2
と、メインメモリ3とを含む。
【0013】翻訳モジュール4は、いずれも図示しない
翻訳CPU、翻訳プログラム、バッファなどを含む。
【0014】辞書・文法規則5は、翻訳モジュール5が
原文を翻訳する際に使用する、翻訳用の辞書、文法規則
などを格納しているメモリである。
【0015】表示装置6は、CRT(カソードレイチュ
ーブ)などからなる、文字やイメージを表示することが
できる装置である。
【0016】キーボード7は、入力原文を直接手操作に
より入力したり、本機械翻訳装置に対する操作者からの
指示などを手操作によって入力するためのものである。
【0017】外部記憶装置8は、キーボード7等から入
力された原文を格納するためのファイル(以下「原文フ
ァイル」と呼ぶ)や、翻訳モジュール4によって生成さ
れた翻訳文を格納するためのファイルなどが割付られ
た、固定ディスク装置などからなる補助記憶装置であ
る。
【0018】OCR9は、書籍などの入力テキストを、
光学的に読取ってメインメモリ3に格納するためのもの
である。
【0019】図2を参照して、翻訳モジュール4は、英
語などのソース言語の入力テキストを翻訳して、ターゲ
ット言語(日本語)のテキストを出力するためのもので
あり、図1に示される辞書・文法規則5を参照して、入
力された文章に含まれる各単語の品詞などの文法情報お
よび訳語などを得るとともに、形態素解析を行なうため
の辞書引き形態素解析部11と、辞書引き形態素解析部
11による処理結果を受け、入力テキストの文書に含ま
れる各単語間の係受けなど文章の構造を、辞書・文法規
則5(図1参照)を参照して決定するための構文解析部
12と、構文解析部12によって得られた複数個の構文
解析の結果から、意味的に正しいものとそうでないもの
を判別し、意味的に正しいもののみを採用するための意
味解析部13と、意味解析部13によって採用された構
文解析の結果の内部構造から、訳語辞書および文法規則
に従ってターゲット言語の翻訳文を生成するための翻訳
文生成部14とを含む。
【0020】図3は、図1および図2に示される機械翻
訳装置の動作の概略を示すフローチャートである。まず
ステップS1で、OCR9(図1参照)を用いて入力テ
キストがメインメモリ3に入力される。
【0021】ステップS2で、入力された原文テキスト
から1文ずつ切出す処理が行なわれる。このとき、文章
を構成する各文字についての情報だけではなく、文字の
配列(レイアウト)や、印刷に用いられている文字種の
情報などを、各文と対応づけて外部記憶装置8、あるい
はメインメモリ3などに格納しておく。また1文切出し
処理の結果も外部記憶装置8やメインメモリ3などに格
納する。このとき得られるレイアウト情報については図
8、図11、図12などを参照して後に詳しく説明す
る。
【0022】続いてステップS3で、1文切出し処理に
よって得られた文章の1文ずつを、翻訳モジュール4
(図1参照)によって翻訳する処理が行なわれる。
【0023】さらにステップS4で、ステップS3の翻
訳処理によって得られた訳文に対し、ステップS2の処
理で取得され保存されていたレイアウト/文字種などの
情報に従って割付の処理が行なわれる。
【0024】そしてステップS5で、ステップS4の割
付結果を出力する処理が行なわれる。
【0025】図4、図5は、1文切出し処理(S2)で
行なわれる、レイアウト/文字種情報の取得処理の詳細
を示すフローチャートである。図4を参照して、まずス
テップS11で、処理対象となっている入力テキストの
内、行の長さの最も長いものに含まれる文字数を求める
処理が行なわれる。
【0026】ステップS12で、文字位置を表わす変数
に初期値「1」が代入される。
【0027】ステップS13で、文字位置によって示さ
れる位置に処理対象となる文字があるかどうかについて
の判断が行なわれる。文字が存在していれば処理はステ
ップS14に進み、存在していない場合にはこのプログ
ラムは終了する。
【0028】ステップS14では、文字位置によって示
される位置に存在する文字がスペースかどうかについて
の判断が行なわれる。スペースであれば処理はステップ
S15に進み、スペースでない場合には処理は図5のス
テップS20に進む。
【0029】ステップS15では、処理対象の行の先頭
のスペース数を計算するための変数に初期値として
「1」が代入される。S15の後、処理はS16に進
む。
【0030】S16では、文字位置が1加算される。
【0031】ステップS17では、加算された結果の文
字位置によって示される位置がスペースかどうかについ
ての判断が行なわれる。スペースであればステップS1
8でスペース数に1加算する処理が行なわれ再び処理は
ステップS16に戻る。S17でスペースではないと判
断された場合には処理はステップS19に進む。
【0032】ステップS16〜S18の処理を、ステッ
プS17の判断の答えがNOとなるまで繰返すことによ
り、処理対象となっている行の先頭に存在するスペース
数を計算することができる。したがってステップS19
では、このスペース数を、レイアウト情報の1つとして
予め用意されたバッファに格納する処理が行なわれる。
ステップS19の後処理は図5のステップS20に進
む。
【0033】図5を参照して、ステップS20で、現在
の文字位置が行末かどうかについての判断が行なわれ
る。行末であれば処理はステップS21に進み、それ以
外の場合には処理はステップS24に進む。
【0034】ステップS21では、処理対象となってい
る行の最終の文字位置が、最も長い行より小さいかどう
かについての判断が行なわれる。小さいと判断された場
合には処理はステップS22に、小さくはないと判断さ
れた場合には処理はS23にそれぞれ進む。
【0035】ステップS22では、レイアウト情報を格
納するために準備されたバッファに「改行」を表わす制
御コードを挿入する処理が行なわれ、処理は再び図4の
ステップS12に戻る。
【0036】ステップS23に処理が進んだ場合には、
レイアウト情報を格納するためのバッファにスペースを
挿入する処理が行なわれ、さらに処理は図4のステップ
S12に戻る。
【0037】一方、ステップS20で文字位置が行末で
はないと判断された場合、ステップS24で、現在の文
字位置の文字の文字種を判別するための処理が行なわれ
る。この処理の詳細については図6を参照して後に説明
する。
【0038】続いてステップS25で、現在の文字位置
の文字が句読点であるかどうかについての判断が行なわ
れる。句読点としてはピリオドだけではなく、文の終わ
りを示し得る記号(?,!など)のいずれをも含む。ス
テップS25における判断の答えがNOであれば処理は
ステップS32に、それ以外の場合には処理はステップ
S26に進む。
【0039】ステップS25でNOという判断がされた
場合、処理対象の文字位置に文字が存在するということ
が確認されたため、ステップS32で文字位置を1進
め、次の文字に対する確認を行なうことになる。ステッ
プS32の後処理はステップS20に進む。
【0040】ステップS25でYESという判断がされ
た場合、この文字位置で現在の文が終了している可能性
がある。そこで、ステップS26〜S31の処理で、現
在の文字位置が文の終わりかどうかについての判断が行
なわれる。まずステップS26で、文字位置を1進める
処理が行なわれる。
【0041】ステップS27で、現在の文字位置の文字
がスペースかどうかについて判断が行なわれる。スペー
スでなければS25における文字位置では文は終了して
いないということであるから処理はステップS32に進
む。スペースであればさらにステップS28以下の処理
で文の終わりかどうかについての判定が行なわれる。
【0042】ステップS28では文字位置をさらに1進
める処理が行なわれる。
【0043】ステップS29では、現在の文字位置の文
字がスペースかどうかについての判断が行なわれる。ス
ペースでなければステップS25の文字位置では文が終
了していないと判断されるため、処理はステップS32
に進む。スペースであればステップS25で検出された
句読点でこの文が終了していると判断されるため、ステ
ップS30、S31で文末についての処理が行なわれ
る。
【0044】ステップS30では、ステップS27、S
29で検出された2つのスペースを削除する処理が行な
われる。
【0045】続いてステップS31では、文の終了を示
すコードとして改行コードをバッファに挿入する処理が
行なわれる。ステップS31の後処理はステップS32
に進み、さらに後続する文章について上述の処理が行な
われることになる。
【0046】以上ステップS25〜S31の処理は、英
文においては文末のピリオドなどの後ろには空白が2文
字分置かれるということを考慮して、句読点が検出され
た場合にそれが文の終わりを示すものかどうかを判断す
るものである。もちろんこれは英語に対して有効な処理
であって、それ以外の言語の場合には上述の処理と異な
る処理で文と文の切れ目が判定されることになる。
【0047】図6は、図5のステップS24に示される
文字種判別処理のフローチャートである。まずステップ
S41で、現在の文字位置の文字がローマン体であるか
どうかについての判断が行なわれ、ローマン体であれば
処理はステップS44に進む。同様にステップS42、
S43ではそれぞれ文字種がボールド体か、イタリック
体かについての判断が行なわれ、判断の答えがYESと
なれば処理はステップS44に進み、得られた文字種情
報をバッファに格納する処理が行なわれる。ステップS
43の後にも、判定すべき書体があれば同様の判断が繰
返し行なわれることになる。
【0048】図7は、図3のステップS4で行なわれる
フォーマット処理の詳細のフローチャートである。先ス
テップS51で、文ナンバーを表わす変数に初期値
「0」を代入する処理が行なわれる。
【0049】ステップS52では、文ナンバーを表わす
変数を1加算する処理が行なわれる。
【0050】S53では、この文ナンバーで表わされる
位置に翻訳文が存在するかどうかについての判断が行な
われる。文が存在していなければすべての翻訳文につい
てフォーマット処理が終了したことになるのでステップ
S4の処理は終了する。文が存在している場合には処理
はステップS54に進む。
【0051】ステップS54では、現在の文ナンバーの
文に対応する文字種の情報が存在しているかどうかにつ
いての判断が行なわれる。この文字種情報は、図6の処
理により取得され保存されていたものである。文字種情
報が存在する場合には処理はステップS55に進むが、
存在しない場合には処理は直接ステップS56に進む。
【0052】ステップS55では、保存されていた文字
種情報を現在の文ナンバーで表われる翻訳文に対して適
用する処理が行なわれる。具体的には、翻訳文として出
力するコード化された文字に、印刷時の文字種を表わす
マークアップ情報などを付加することになる。ステップ
S55の後処理はステップS56に進む。
【0053】ステップS56では、現在の文ナンバーで
示される行が空行かどうかについての判断が行なわれ
る。空行であれば処理はステップS52に戻る。空行で
ないと判断された場合には処理はステップS57に進
む。
【0054】ステップS57では、現在の文ナンバーで
表わされる文に対して、文頭情報が入力テキストから取
得されていたかどうかについての判断が行なわれる。こ
の文頭情報は、たとえば図4のような処理によって予め
取得され保存されていたものであり、文の先頭に空白が
いくつ挿入されているか、などのレイアウト情報を表わ
す。文頭情報が存在していないと判断された場合には処
理はステップS59に直接進むが、文頭情報が存在して
いる場合には処理はステップS58に進む。
【0055】ステップS58では、この文頭情報を、現
在処理対象となっている文ナンバーの文に対して適用す
る処理が行なわれる。具体的にはたとえば、文頭情報と
して「文頭にスペース4個」という情報が保存されてい
た場合、現在の文ナンバーの文の先頭に空白を4つ付加
する、というような処理を行なうことになる。
【0056】ステップS59では、文末情報が、現在の
文ナンバーの文に対して予め取得されていたかどうかに
ついての判断が行なわれる。この文末情報は、たとえば
図5のような処理によって取得されていたものである。
文末情報が存在していない場合は処理はステップS52
に戻る。文末情報が存在している場合には処理はステッ
プS60に進む。
【0057】ステップS60では、存在していた文末情
報を現在の文ナンバーの文に対して適用する処理が行な
われる。具体的にはたとえば、文末情報として「文末に
改行挿入」という情報が保存されていた場合、現在の文
番号の訳文の後ろに改行コードを付加するという処理が
行なわれる。
【0058】以上、図4〜図6の処理を入力テキストに
対して適用して文字種情報と、文頭情報と、文末情報と
を各文に関連づけて記憶しておき、図7に示されるよう
な処理によってその文字種情報、文頭情報、文末情報な
どを対応する訳文に適用することにより、入力テキスト
と同様のレイアウトで翻訳文を印刷することが可能とな
る。
【0059】図8(a)は、この請求項1に記載の発明
の一実施例である機械翻訳装置に入力される英文テキス
トの一例である。この英文テキストを、図4〜図6に示
すような文字種情報取得処理を行なうことにより、図8
(b)に示されるようなレイアウト/文字種情報を得る
ことができる。図8(b)は、レイアウト/文字種情報
を格納するためのバッファの模式図である。
【0060】図8(b)を参照して、このバッファに
は、図8(a)に示される入力テキストの各文が、各文
に対して付された文ナンバーと、その文に関するレイア
ウト情報、文字種情報とともに各文毎に格納されてい
る。たとえば図8(a)に示されるテキストの第1行目
は、ボールド体で書かれた文であり、この文の最後で改
行が行なわれるという情報が得られる。同様に文ナンバ
ー3の文に対しては、文頭にスペース4個が挿入される
という文頭情報が得られる。その他、文ナンバー1〜7
の各文につき、空行も含めてそれらのレイアウト/文字
種情報がこのバッファに格納される。
【0061】図9は、ステップ4の処理が行なわれる前
の、訳文の格納されるバッファの内容を示す模式図であ
る。図9においては、本来は訳文は日本文であるが、説
明の便宜のために原文をそのまま訳文として図示してあ
る。
【0062】図9を参照して、フォーマット処理を行な
う前の訳文は、各文ナンバー毎に、図8(b)の各原文
に対応する訳文毎に格納されている。
【0063】図9に示されるバッファ内の訳文を、図8
(b)に示されるレイアウト/文字種情報と、共通の文
ナンバーによって関連づけてそのレイアウト/文字種情
報を適用して出力することにより、図10のような出力
結果が得られる。図10の出力結果も、本来は日本語で
出力されるが、本明細書では説明の便宜のために原文の
ままで示してある。
【0064】以上のように図1、2に示される機械翻訳
装置を用い、図3〜図7に示されるような処理を行なう
ことにより、原文のレイアウト/文字種情報にしたがっ
て、翻訳文を割付直して出力することができる。その結
果、訳文と原文とのレイアウトの対応関係が一致し、翻
訳の際の確認などを容易に行なうことができるようにな
る。
【0065】図11は、以上の第1の実施例の機械翻訳
装置に入力されるテキストの他の例である。図11を見
てわかるように、このテキストはテーブルの形となって
いる。このような表形式の原文を従来の機械翻訳装置で
翻訳すれば、元の表の形が失われ、訳文に対して手操作
で編集作業を行なわなければ正しい翻訳結果を得ること
はできなかった。
【0066】しかし、本発明にかかる機械翻訳装置によ
れば、図11に対してレイアウト/文字種情報を取得す
ることにより、図12に示されるようなレイアウト/文
字種情報のバッファを得ることができる。図12に示さ
れるように、各文には文ナンバーが割付られ、各文に対
して文頭にスペースがいくつ存在するか、文末に改行を
挿入するか否か、というような情報を各文に対応づけて
格納しておくことができる。そして各文毎に翻訳モジュ
ールによって翻訳した結果の文を、対応する文ナンバー
のレイアウト/文字種情報に対応づけて、そのレイアウ
ト/文字種情報に従って割付を行なって出力することに
より、図11に示される表がそのまま日本語に翻訳され
たものを得ることができる。したがって請求項1に記載
の発明にかかる機械翻訳装置によれば、単に翻訳後の英
文のレイアウトを翻訳前の原文のレイアウトと揃えるこ
とにとどまらず、原文によって視覚的に表わされる情報
も正しく日本語に置換えられることとなり、翻訳の内容
そのものがより分かりやすくなるという効果がある。
【0067】以下、図13〜図18を参照して、請求項
2に記載の機械翻訳装置の一実施例について説明する。
なお、以下の実施例でも英語から日本語への機械翻訳装
置を例として扱うが、英語から日本語への翻訳に本発明
が限定されないのは勿論である。また、以下の実施例で
は、翻訳文の各ブロックの面積は、原文のテキストの対
応する各ブロックの面積と等しくなるように各フォント
の大きさとフォント間隔とが選ばれるが、各ブロック間
の面積の間には、所定の関係があればよく、本実施例の
ように訳文の各ブロックの面積が、原文の対応するブロ
ックの面積と全く同一になる必要はない。
【0068】図13を参照して、この実施例の機械翻訳
装置は、CRT25、キーボード26、プリンタ27が
接続された翻訳ユーザインタフェースモジュール21
と、翻訳ユーザインタフェースモジュール21に接続さ
れた原文、訳文、環境などを登録し読出しするための文
書ファイル28と、翻訳の際に使用される、翻訳ユーザ
インタフェースモジュール21に接続されたメモリ24
と、翻訳ユーザインタフェースモジュール21に接続さ
れた、翻訳の際に用いられる辞書・規則23と、辞書・
規則23とメモリ24と翻訳ユーザインタフェースモジ
ュール21とに接続され、メモリ24に格納されたテキ
スト原文(英語)を、辞書・規則23を参照しながら翻
訳文(日本語)に翻訳するための翻訳モジュール22と
を含む。なお、辞書・規則23は、翻訳用の辞書、英語
および日本語それぞれの文法規則、英語の構造解析木を
日本語の構造解析木に変換するための木構造変換規則テ
ーブルなどを含む。また辞書・規則23は、翻訳ユーザ
インタフェースモジュール21を介してキーボード2
6、CRT25により、ユーザがメンテナンスすること
ができる。
【0069】図14は、図13の翻訳ユーザインタフェ
ースモジュール21のブロック図である。図14を参照
して、翻訳ユーザインタフェースモジュール21は、外
部からの要求(主としてユーザによるキー入力)に応答
して、以下に述べる各モジュールを呼出すためのコント
ロール部29と、図13に示される翻訳モジュール22
を呼出すための翻訳部30と、ソース言語エディタ31
と、ターゲット言語エディタ32と、文書入出力モジュ
ール33と、環境設定モジュール34と、助動詞訳設定
モジュール35と、学習モジュール36と、オプション
辞書選択モジュール37と、辞書メンテナンスモジュー
ル38と、原文チェックモジュール39と、印字モジュ
ール40とを含む。
【0070】以下、図14に示されるモジュールの内主
要なものについて説明する。ソース言語エディタ31
は、入力原文を編集するためのエディタである。ターゲ
ット言語エディタ32は、出力される訳文を編集するた
めのエディタである。文書入出力モジュール33は、図
13に示される文書ファイル28との間で文書の入出力
を行なうためのものである。学習モジュール36、辞書
メンテナンスモジュール38は、辞書・規則23(図1
3参照)に対する操作を行なうためのものである。印字
モジュール40は、図13のプリンタ27を用いる印刷
動作を制御するためのものである。オプション辞書選択
モジュール37は、図13に示される辞書・規則23に
含まれる、処理対象のテキストの分野に応じて準備され
た複数個の辞書の内、適当なものを選択するために用い
られる。また、オプション辞書選択モジュール37はさ
らに、ユーザが予め準備した辞書や、学習結果が反映さ
れる辞書などを選択する際に用いられる。助動詞訳設定
モジュール35は、英語の助動詞のように、文章の分野
によってその訳語を異ならせた方がいいような場合に、
いかなる訳語を各助動詞に割当てるかを定めるためのモ
ジュールである。
【0071】図15は、図13の翻訳モジュール22の
ブロック図である。図15を参照して、翻訳モジュール
22は、原文51を翻訳文56に変換するためのモジュ
ールであり、辞書引き形態素解析部52と、構文解析部
53と、変換部54と、生成部55とを含む。
【0072】辞書引き形態素解析部52は、入力原文5
1を読込み、形態素解析を行ない、翻訳用の辞書23を
引く。そして、各単語に対する品詞などの文法情報や訳
語を得、各単語の時制人称・数などを解析する。
【0073】構文解析部53は、辞書引き形態素解析部
52の出力と辞書・規則23の規則とを用いて、ソース
言語(英語)の入力テキストの内部構造を得る。
【0074】変換部54は、構文解析部53により得ら
れたソース言語の内部構造を、辞書・規則23に含まれ
構造変換規則を用いて、ターゲット言語(日本語)
の内部構造に変換する。
【0075】生成部55は、変換部54の出力する内部
構造に、ターゲット言語の単語を割当て、翻訳文56を
出力する。
【0076】以下、図16〜図18を参照して、図14
の文書入出力モジュール33と印字モジュール40とに
よって行なわれる、出力時の翻訳文の各ブロックの面積
を、対応する原文の各ブロックの面積と等しくなるよう
にするための割付補正処理について説明する。なお、以
下の説明は、原文および訳文のうち、ある1つのブロッ
クに対する処理についてのものである。翻訳対象の原文
に複数のブロックが含まれる場合には、ブロック毎に以
下の処理を繰返し行なう。
【0077】図16を参照して、処理対象の頁41は、
第1〜第4のブロック42〜45と、図等のブロック4
6を含むものとする。図17は、たとえば第1のブロッ
ク42だけを取出して拡大して示している。
【0078】図17を参照して、このブロック内には複
数個の文字(フォント)が配列されている。このブロッ
クの表示および印刷において占める面積を計算するに
は、以下の3つの情報があればよい。
【0079】(1) 各フォントの高さと幅 (2) フォントとフォントとの間の横方向のフォント
間隔 (3) フォントとフォントとの縦方向の行間隔 フォント幅とフォント高さとは、フォントの大きさ(ポ
イント数)と、使用されるフォントの種類により決定で
きる。フォント間隔は、表示・印刷装置により異なる
が、設定によって決まるある特定の値を持つ場合と、間
隔の前後のフォントの大きさ(ポイント数)とフォント
の種類とにより決定される場合の2種類がある。行間隔
は、表示・印刷の設定によって決められることが通常で
あり、行を単位にして設定される。
【0080】原文のあるブロックの面積の計算は、以下
のようにして行なわれる。まず、各行についてその行の
高さおよび長さを以下の方法で算定する。1行のデータ
の先頭から各フォントを順に見ていき、フォントの幅
と、フォント間隔と、フォントの高さとにつき、以下の
計算により1行のデータを算出する。
【0081】行の高さ=MAX(フォントの高さ) 行の幅=フォントの幅の和+フォント間隔の和 フォント比率=フォント幅の和/行の幅 上述の式により処理対象の行の高さおよび長さを算定し
て行単位で面積を計算する。各行間についても同様に記
録していく。
【0082】上述の行間の計算処理は次のようにして行
なわれる。図18を参照して、まずステップS101
で、行の高さの最大値と、行の幅と、フォントの幅の和
とを表わす各計算用変数を0で初期化する。
【0083】続いてステップS102で、各フォントに
ついて順番に以下の処理を繰返し行なう。
【0084】まずステップS103で、処理対象の行の
高さが、行の高さの最大値よりも大きいかどうかについ
ての判断が行なわれる。大きければステップS104で
行の高さの最大値の値を更新する処理が行なわれる。
【0085】続いてステップS105で、行の幅に現在
の処理対象のフォントの幅を加算する処理が行なわれ
る。
【0086】続いてステップS106で、行の幅にフォ
ント間隔を加算する処理が行なわれる。
【0087】さらにステップS107で、フォント幅の
和にフォントの幅を足す処理が行なわれる。このステッ
プS107の処理は、前述のフォント比率を算定する際
に用いるためである。
【0088】1行のすべてのフォントについてステップ
S103〜S107の処理が終了したら、ステップS1
08でフォント比率を計算する。
【0089】さらにステップS109で、行の高さと、
行の幅と、フォント比率とからなる行データの算出が完
了する。
【0090】1ブロックのデータを得るためには、上述
の処理を各行について繰返し行ない、各行について得ら
れた値を各行毎にストアする。すると、次のような表デ
ータが得られる。
【0091】
【表1】
【0092】なお、表1からも明らかなように、行間に
ついてのデータは高さについてのものしか存在しない。
【0093】表1に示されるデータから、このブロック
を長方形と見なした場合の長方形の縦、横のサイズを算
出する。この値は図17におけるブロック縦サイズと、
ブロック横サイズに相当する。
【0094】このようにして得られた1ブロックに対す
るデータは、翻訳ユーザインタフェースモジュール21
内部に準備されたメモリ上に格納される。このメモリに
格納されるデータの構造は、行ごとの配列であって、配
列の各要素は、行の高さと、幅と、その行のフォント比
率とからなる。そしてこのブロックの縦、横サイズおよ
び面積は次のようにして算出される。
【0095】横サイズ=すべての行の最大の幅を持つ行
の幅 縦サイズ=すべての行、行間隔の高さの和 ブロック面積=横サイズ×縦サイズ =((横サイズ×フォント比率)+横サイズ×(1−フ
ォント比率))×((行高さの和)+(行間隔の和)) 以上の処理により、原文の1ブロックの面積の計算が行
なわれる。
【0096】訳文については、以下の条件でフィル(f
ill)を行なってから、訳文の各ブロックの面積を計
算する。以後、このようにして計算された面積に基づ
き、面積を調整するために割付に対する補正処理が行な
われる。初期の面積計算は以下のように行なわれる。
【0097】(1) 訳文印刷のフォントの大きさ(ポ
イント数)と、訳文印刷の際の行間の間隔は、従来の値
を用いる。従来の値とは、システムで決めたある特定の
大きさあるいは原文に対応して求められた大きさとす
る。
【0098】(2) 訳文印刷の際のブロックの横幅
は、原文の対応するブロックの最大横幅を有する行の長
さとする。
【0099】(3) 上述の(1)(2)という条件に
より、以下のようにしてこのブロック内に文字を詰め込
んだ際の行数を求めることができる。
【0100】行数=(訳文のフォント横幅+フォント間
隔)の総和/原文最大横幅 上述の(1)〜(3)という条件により求められたフォ
ーマットで、原文のときと同様に表1に示されるデータ
を得るための処理を行ない、表1と同形式の表を得る。
これにより、上述の(1)〜(3)という条件にしたが
って訳文を印刷したときのこのブロックの面積が、原文
と同じ式によって求められる。
【0101】以下、訳文の各ブロックの面積と原文の対
応ブロックの面積とを等しくするように、訳文のブロッ
クの面積調整を次のようにして行なう。
【0102】原文の面積と、訳文の初期面積とがわかっ
たので、面積の比を一応求めることができる。以下、こ
の面積比を基に訳文のフォントの大きさやフォント間隔
が調整される。面積調整として最も単純な方法は、フォ
ントの大きさ、フォント間隔、行間隔を、一律に上述の
処理によって求められた面積比の逆数倍することであ
る。しかし、現在の表示・印刷装置などの機能制限か
ら、フォントの大きさを連続可変にすることはできな
い。そのため、現在の条件ではこのような方法を実現す
ることはできない。したがって以下では、フォントの大
きさとして従来の「ポイント」で特定される大きさのフ
ォントのみを扱う場合の説明を行なう。
【0103】原文のブロックの面積と、訳文の対応ブロ
ックの面積比を計算した場合、(1)原文の面積が訳文
の面積よりも大きい(2)両者の面積が等しい(3)原
文の面積が訳文の面積よりも小さい、の3つの場合があ
る。これらの3つの場合のうち、(2)の場合には求め
る条件が成立しているために、フォントの大きさを調整
する必要はない。調整が必要なのは(1)と(3)の場
合である。(1)については訳文の行間を大きくする必
要があり、(3)の場合は逆に小さくする必要がある。
(1)と(3)とは、その調整の方法を逆にしただけで
あると考えられるため、以下では(3)についてのみ説
明する。
【0104】ブロックの面積を調整するためには、以下
の3つの手段がある。
【0105】(1) 使用されるフォントサイズを小さ
くする。
【0106】(2) フォント間隔を縮める。
【0107】(3) 行間隔を縮める。
【0108】前述したようにこのうち(1)のフォント
サイズの変更は、現在のソフトウエア、表示・印刷装置
の制限などから連続して変化させることはできない。ま
た、ブロック単位とはいえフォント自体の大きさを変え
れば見ためもよくないと判断されるために、(1)の方
法は最初にはとらないこととする。
【0109】そこで、以下のような順序で調整を行な
う。
【0110】(1) まず、フォント間隔と、行間隔と
を所定の比で縮める。そして、面積を次の式に従って算
出し直す。
【0111】 面積=(横サイズ×フォント比率)×(行高さの和) (2) (1)の処理で計算された面積と原文の面積と
を比較し、原文の面積の方が大きい場合には一旦フォン
トサイズの小さなものを採用してみて以下の処理を行な
う。小さなフォントを用い、(1)の方法と同様に原文
のブロックの面積と、対応するブロックの訳文の面積と
の比を算出する。訳文のブロックの面積の方が原文の対
応ブロックの面積よりも大きければ、フォントサイズを
変化させなければ調整不能であるということから、使用
するフォントサイズを1ポイント小さくすることにす
る。このようにしてフォントサイズを調整していき、訳
文が原文面積に入る様なフォントのうち最大のフォント
サイズを特定する。このようにして特定されたフォント
サイズを使用するフォントサイズとして固定することに
する。
【0112】(3) (2)の処理で決められたフォン
トサイズに合うフォント間隔と行間隔とを求める。
【0113】以上の処理の内、(2)で定められたフォ
ントサイズと(3)で定められたフォント間隔、行間隔
に従って(1)の処理で行なわれたように訳文のブロッ
クの面積を算出する。このようにして求められた面積
は、ブロック内にフォントのみが詰め込まれて、文字間
に空白が全くない場合の面積である。この面積は、原文
の対応ブロックの面積よりも小さくなるはずである。そ
こで、この面積を原文の面積と等しくなる程度までフォ
ント間隔、行間を広げることができる。すなわち、原文
のブロックの面積と、上述のようにして求められた面積
との差が、訳文を印刷する際のフォント間隔、行間とし
て使用できるスペース量である。
【0114】次に、訳文のこのブロックの横幅を、以下
のようにして特定する。まず、すでに定められたフォン
トサイズと、すでに求められた原文の対応ブロックの横
サイズとを用いて、訳文印刷の際の平均のフォント間隔
を決定する。
【0115】フォント間隔=((原文横サイズ)−フォ
ント横幅の和)/文字数 同様に訳文のこのブロック印刷の際の行間隔は、次のよ
うにして決定される。
【0116】行間=((原文縦サイズ)−フォント縦高
さの和)/行数 以上の処理により、訳文のこのブロックを印刷する際の
フォントサイズと、フォント間隔と、行間とが求められ
る。これらの値を、訳文のこのブロックを出力するとき
のフォーマットとして指定すればよい。
【0117】これ以降の処理は、第1の実施例において
説明した、フォーマット情報を使用した表示・印刷の処
理で行なうことができる。その結果、訳文の各ブロック
を、対応する原文の各ブロックの面積と同じ面積に収め
て印刷することができる。そして、このようにすること
により原文と訳文とのレイアウトが正しく対応すること
になり、翻訳の確認などがより容易となる。なお、訳文
を印刷する用紙サイズそのものが原文が印刷されている
用紙のサイズと異なる場合には、当然その比に従って訳
文の印刷の際の面積も異なってくる。
【0118】なお、上述の処理では、フォントの大きさ
を一旦固定した後は、その値をそのまま使用してその後
処理を行なっている。しかし、上述のようにした場合に
は、1つのブロックのほぼ全部の面積がフォントで埋ま
ってしまう場合があり得る。このような場合、文書が見
苦しくなるおそれがあるために、たとえば空白の比率が
ある程度以上小さい場合には、一旦固定されたフォント
サイズよりももう1ポイント小さいフォントサイズを選
択する、などの対応も考えられる。このようにすれば訳
文の1ブロックにある程度の空白が含まれることとな
り、文書がより見やすくなるという効果がある。
【0119】
【発明の効果】以上のように請求項1に記載の機械翻訳
装置では、入力テキストの割付情報を保存して、この割
付情報に従って翻訳結果の第2の言語のテキストの割
付、出力が行なわれる。入力テキストと出力テキストと
の間でフォーマットが異なってくるというおそれがな
い。その結果、入力テキストと出力テキストとの対応関
係を容易に確認することができるようなフォーマット
で、訳文を自動的に出力できる機械翻訳装置を提供でき
る。請求項2に記載の機械翻訳装置によれば、入力テキ
ストの割付情報が一旦保存され、翻訳結果の第2の言語
のテキストを出力する際には、この保存されていた割付
情報に従って割付がされるとともに、さらに、訳文の各
ブロックと、原文の対応する各ブロックとの面積が所定
の関係を有するように、訳文出力の際の割付が補正され
る。訳文の出力フォーマットと原文の印刷フォーマット
とに所定の関係が成立するために、訳文と原文との間の
対応関係を容易に確認することができるとともに、この
ような訳文の印刷を自動的に行なうことができる。
【図面の簡単な説明】
【図1】請求項1に記載の機械翻訳装置の一実施例のブ
ロック図である。
【図2】翻訳モジュールのブロック図である。
【図3】図1に示される機械翻訳装置の動作を示すフロ
ーチャートである。
【図4】割付情報取得・保存処理のフローチャートであ
る。
【図5】割付情報取得・保存処理のフローチャートであ
る。
【図6】文字種判別処理のフローチャートである。
【図7】フォーマット処理のフローチャートである。
【図8】第1の実施例への入力テキストと、この入力テ
キストに対して行なわれた割付情報取得・保存処理の結
果を示すバッファを示す模式図である。
【図9】フォーマット処理の前のバッファの内容を示す
模式図である。
【図10】フォーマット処理の後の出力結果を示す模式
図である。
【図11】2番目の入力テキストを示す模式図である。
【図12】図11に示される入力テキストに対して取得
された割付情報のバッファの内容を示す模式図である。
【図13】請求項2に記載の発明にかかる機械翻訳装置
の一実施例のブロック図である。
【図14】図13に示される翻訳ユーザインタフェース
モジュールのブロック図である。
【図15】図13に示される翻訳モジュールのブロック
図である。
【図16】入力テキストの1ページのレイアウトを示す
模式図である。
【図17】1ブロックのフォント配列例を示すための模
式図である。
【図18】請求項2に記載の発明にかかる機械翻訳装置
の動作を説明するための構造チャートを示す図であ
る。
【符号の説明】
1 制御部 4、22 翻訳モジュール 5、23 辞書・文法規則 11、51 辞書引き形態素解析部 12、52 構文解析部 13 意味解析部 14、54 翻訳文生成部 21 翻訳ユーザインタフェースモジュール 28 文書ファイル 33 文書入出力モジュール 53 変換部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 予め定める第1の言語の入力テキストの
    所定の割付情報を、前記入力テキストから取得して保存
    するための割付情報取得手段と、 前記入力テキストを、予め定める第2の言語のテキスト
    に翻訳するための翻訳手段と、 前記翻訳手段の出力する前記第2の言語のテキストを、
    前記割付情報取得手段に保存されていた前記割付情報に
    従って割付けて出力するための割付手段とを含む、機械
    翻訳装置。
  2. 【請求項2】 前記割付手段は、前記第2の言語のテキ
    ストを、前記割付情報取得手段に保存されていた前記割
    付情報に従って、かつ前記入力テキストの各ブロックの
    面積と、各前記ブロックに対応する、前記第2の言語の
    テキストの各ブロックの出力時の面積との間に所定の関
    係が成立するように、各前記ブロック毎に前記第2の言
    語のテキストを補正し、割付て出力するための、面積補
    正割付手段を含む、請求項1に記載の機械翻訳装置。
JP4144118A 1992-06-04 1992-06-04 機械翻訳装置 Withdrawn JPH05334350A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4144118A JPH05334350A (ja) 1992-06-04 1992-06-04 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4144118A JPH05334350A (ja) 1992-06-04 1992-06-04 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH05334350A true JPH05334350A (ja) 1993-12-17

Family

ID=15354616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4144118A Withdrawn JPH05334350A (ja) 1992-06-04 1992-06-04 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH05334350A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931415B2 (en) 2000-09-06 2005-08-16 Seiko Epson Corporation Text information browsing aid apparatus, digital content creation system, digital content distribution system, and storage medium
JP2006309758A (ja) * 2005-04-28 2006-11-09 Xerox Corp 文書を自動的に現地化及びレイアウトする方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931415B2 (en) 2000-09-06 2005-08-16 Seiko Epson Corporation Text information browsing aid apparatus, digital content creation system, digital content distribution system, and storage medium
US7363323B2 (en) 2000-09-06 2008-04-22 Seiko Epson Corporation Text information browsing aid apparatus, digital content creation system, digital content distribution system, and storage medium
JP2006309758A (ja) * 2005-04-28 2006-11-09 Xerox Corp 文書を自動的に現地化及びレイアウトする方法

Similar Documents

Publication Publication Date Title
JP4948586B2 (ja) 文書画像生成装置、文書画像生成方法、コンピュータプログラム及び記録媒体
US5289375A (en) Translation machine
US5214583A (en) Machine language translation system which produces consistent translated words
US6119077A (en) Translation machine with format control
JP4071328B2 (ja) 文書画像処理装置および方法
US5373441A (en) Automatic translating apparatus and a method thereof
JP2011141749A (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
US6701023B1 (en) Reducing appearance differences between coded and noncoded units of text
CN113011129A (zh) 一种通用doc和docx及indd文档排版引擎及方法
US5452380A (en) Method and system for imaging a text
JPH05334350A (ja) 機械翻訳装置
JP2816181B2 (ja) 文書処理装置
JPH05108716A (ja) 機械翻訳装置
JP5604276B2 (ja) 文書画像生成装置および文書画像生成方法
JP3076348B2 (ja) 文書整形装置及び文書整形方法
JPH0883280A (ja) 文書処理装置
JP4183774B2 (ja) 要素間参照を利用したレイアウト処理方法および装置
JPH0581247A (ja) 文書整形方法
JPH0969098A (ja) 文書作成装置
JP2682873B2 (ja) 表形式文書の認識装置
JPH0883285A (ja) 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置
JPH05298317A (ja) 文書作成装置
JPH05151208A (ja) 文書処理装置
JPH0668136A (ja) 機械翻訳システム
JPH06348889A (ja) 文字認識装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990831