JPH04107679A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH04107679A
JPH04107679A JP2227640A JP22764090A JPH04107679A JP H04107679 A JPH04107679 A JP H04107679A JP 2227640 A JP2227640 A JP 2227640A JP 22764090 A JP22764090 A JP 22764090A JP H04107679 A JPH04107679 A JP H04107679A
Authority
JP
Japan
Prior art keywords
sentence
translated
translation
text
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2227640A
Other languages
English (en)
Inventor
Takashi Katooka
隆 加登岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2227640A priority Critical patent/JPH04107679A/ja
Publication of JPH04107679A publication Critical patent/JPH04107679A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技肯分災 本発明は、機械翻訳装置に関する。
災米肢東 従来の機械翻訳システムにおいては文章から文章への翻
訳が主体であり、文書から文書への翻訳という考え方に
立っていなかった。入力原文中に存在する文書フォーマ
ットの情報を訳文にいかすようにはしておらず、単に非
文字データ列を翻訳された訳文の前後にそのまま挿入す
るぐらいの処理しか行なわれていなかった。従来の翻訳
技術では、原文の文を認定し、それを翻訳し、文単位に
原文と訳文を対応させていた。しかも、インデントなど
を訳文に反映するものではなかった。
■−−カ 本発明は、上述のごとき実情に鑑みてなされたもので、
文書から文書への翻訳という観点から原文の文章のみな
らず、原文の文書フォーマットを複雑な解析をすること
無しに比較的簡単な処理で原文の文書のフォーマ”ット
を訳文に反映し、原文との対応が取り易く、かつ、原文
のイメージを壊さないで良い翻訳結果を得ること、また
、原文を翻訳する時、文詔定をするが文認定された時の
語の中で先頭の語と最後の語の位置座標を記憶しておき
、翻訳した訳文を生成し、それを出力する際に、その先
頭と最後の座標の範囲内に訳文が収まるように訳文の文
字の大きさを変えるようにした機械翻訳装置を提供する
ことを目的としてなされたものである。
碧−一」又 本発明は、上記目的を達成するために、(1)対象言語
の原文を入力する原文入力手段と、該入力手段から入力
された原文を記憶する記憶手段と、前記入力手段より入
力された原文を翻訳する翻訳部と、該翻訳部の翻訳に必
要な辞書部と、前記翻訳部の翻訳に必要な文法規則部と
、翻訳結果を出力する出力手段とからなる機械翻訳装置
において、訳文の文字の大きさを表記する文字サイズ表
と、前記翻訳部の翻訳結果と前記文字サイズ表とにより
出力する訳文の文字サイズを決定する決定手段とを有し
、原文の原稿における座標位置に対応した同じ位置に、
対応する訳文を出力すること、更には、(2)前記文字
サイズ表を使用せず、アウトラインフォント等のベクト
ルフォントを用いて、文字の大きさの拡張や縮小をして
訳文の文字の大きさを決定するようにしたこと、更には
、(3)原文における非文字データはそのまま訳文にコ
ピーすることを特徴としたものである。以下、本発明の
実施例に基づいて説明する。
第1図は1本発明による機械翻訳装置の一実施例を説明
するための構成図で、図中、1は入力手段、2は文章記
憶手段、3は翻訳手段、4は辞書、5は文法規則部、6
は出力手段、7は文字サイズ表、8は訳文文字サイズ決
定手段である。対象言語の原文を入力手段1により入力
する。該入力手段1により入力された原文は、文書記憶
手段2により記憶される。翻訳手段3においては、前記
入力手段1により入力された原文を翻訳する。この翻訳
に際しては辞書4及び文法規則部5を利用する。文字サ
イズ表7は訳文の文字の大きさを表記したものであり、
翻訳手段3の翻訳結果と文字サイズ表7とにより、出力
する訳文の文字サイズを決定手段8により決定し、原文
の原稿における座標位置に対応した同じ位置に、対応す
る訳文を出力手段6により出力する。
第2図は、本発明による機械翻訳装置の動作処理を説明
するためのフローチャートである。以下、各ステップに
従って順に説明する。
扛肚よ;まず、光学文字読取装置(OCR)などにより
対象言語の原文を入力する。
とリエ」ユ;入力された原文に対し翻訳処理を行う。
この翻訳処理については、後述する第3図に示しである
% ;翻訳された訳文より一文を取り出す。
扛肛土;全での文を終了したかどうかを判断する。
扛旺旦;終了していなければ、各行での開始及び終了座
標を求める。
1リエ」−;原文の各文の文単位の長さを求める。
1す21−;訳文の文字数を求める。
村」王表−:訳文の文字サイズを決定する。
il21−;訳文の原文に対する同じ行の出力文字数を
決定する。
畦吐烈:訳文を出力する。
第3図は、第2図の5tep 2における翻訳処理のた
めの構成図で1図中、11は形態素解析部、12は構文
解析部、13は英語情造固定部、14は変換部、15は
構文生成部、16は形態素生成部、17は辞書、18は
文法規則である。形態素解析部11によって文認定され
、辞書17を使いながら語単位に辞書検索を行なう。
形態素解析部11では辞書12を用いて、六方原文に対
して語の切り出しを行う。構文解析部12では入力英文
の構造が解析される。文末からはじめて右から左に、辞
書記述内容と文法を適用することにより文構造を決定し
ていく。例えば、前置詞十冠詞十名詞が副詞句と解析さ
れる。英語構造同定部13では、係り受は関係等を明ら
かにするために動詞ノードを親とする木構造が作られ。
副詞句の係り先等が決まる0次に、共起条件の成立が調
べられ、適当な訳語が取られる。この木構造は変換部1
4で日本語の言い回しを表し易い中間構造に変換される
。構文生成部15では文節単位で日本語を生成した後、
形態素生成部16で助詞の並びを決定したり、用言の活
用形を整える。
次に、具体的な例に基づいて説明する。
この実施例においては英語から日本語への翻訳を考える
。入力手段1として光学文字読み取り装置(以下0CR
)を使った場合を考える。第4図の様な原稿がある時、
これをOCRにかけると、第5図に示すようなデータが
出力され、原文が入力される。第5図において各語の先
頭についた情報は原稿におけるその語が出現する時の座
標値である。この場合はX、Y座標になっている。この
出力結果を入力して翻訳部の形態素解析によって文認定
される。形態素解析部は辞書部を使いながら語単位に辞
書検索を行なう。文末記号(ピリオドやクエスチョンマ
ーク)やその次の語の大文字、小文字などを見て文末を
認定すると、以下のように文分離される。
第2行目の(80,630)に“があり、これを文末の
コードとする。
原文の第1文は、 “You would center the 1ll
ustration onthe board eve
n if it isn’t big enough 
t。
touch the edges。
になる。
同様に2文目以降は、 第2文 “Th1s method has 5everal 
advantages、”第3文 ”It makes cropping easier
、”第4文 “5ince every board will t
ake the samereduction per
centage all callouts wjll
be the same 5ize when pri
nted、”第5文 “It  will 5ave  time for 
 the printer beca−use  th
e  place  maker  will  no
t  have  t。
measure  and  then  adjus
t  his  camera  foreach  
1llustration、”となる。
訳文が以下のように得られる。
第1文 「たとえ端に触れるほど大きくなくても、あなたは説明
図を台紙のセンターに置いただろう6ノ第2文 「この方法はいくつかの利点を持つ。」第3文 「それはクロッピングを容易にする9」第4文 「すべでの台紙は同じ比率を取るので、すべての呼び出
しは印刷したとき、同じサイズになる。」第5文 「プレートマーカは各説明図ごとに測定したカメラを調
節する必要がないので各印刷所にとって時間の節約にな
る。」 上記訳文から一文づつ取り出す(第2図5tep 3 
)。
第5図より原文の第1文の開始座標は(0,0)で、終
了座標は(80,630)である。先頭文字から改行コ
ードまでを第1行目とするので、第1文は1行目と2行
目に跨っている。各行の開始および終了座標を求めると
(第2図5tep 5 )、第1行目は(0,0)から
(0,2590)である。
第2行目は(80,0) 7)’ら(80,630) 
’t’ある。
1行目の原文のX軸方向の長さは2590−0 = 2
5902行目の原文のX軸方向の長さは630−0= 
630である。第1文の原文における長さは2590 
+630= 3220となる(第2図5tep6)、ま
た、第1文の訳文の長さは41文字である(第2図5t
ep 7 )。
「たとえ端に触れるほど大きくな(でも、あなたは説明
図を台紙のセンターに置いただろう。J第1文の原文に
おける長さである322oの中に、第1文の訳文の長さ
である41文字を入れると1文字当たり、3220/4
1 =最大78の大きさにすることができる。したがっ
て訳文の大きさは78で良い。
ここで、第1表に示す文字サイズ表を見るとサイズが7
8にもっともうちわで近いのは、サイズ77.8でポイ
ント14の文字である(第2図5tep8)。
ポイントで表される文字サイズは1ポイント当たり1/
72インチの大きさである。サイズは、例えば1インチ
当たり400ドツトで読み込んで1インチ当たり400
ドツトで出力する時に各ポイントでの1文字当たりのド
ツトでのサイズである。
各行の訳文の出力文字数を求める(第2図5tep 9
 )。
第1行目を埋めていくと2590/77.8 = 33
文字入れることができる。また、第2行目を埋めていく
と630/77.8 = 8文字入れることができる。
したがって、第1行目に33文字出力し、行を改行して
、第2行目に残りの8文字を出力する(第2図5tep
10)。
次に、第2文目以降を第1文目と同様に処理していく、
第2文目の範囲はスタート位置座標は(80,735)
で、長さがX軸方向に1925−735 =1190と
なり、第2文の長さは1190となる。第2文の訳は1
7文字である。−文字の大きさは、1190/17=7
0となる。文字サイズ表から大きさ70にうちわでもっ
ても近いのはサイズ66.7のポイント12の文字であ
る。訳文の長さは66.7 X 17= 1134なの
で1190−1134=56だけ原文より短くなるが足
らないところはスペースになる。
第3文目の原文における範囲は、 2行目のスタート位置座標は(80,2030)で長さ
がX軸方向に2625−2030 = 595となり、
3行目のスタート位置座標は(160,0)で、長さが
X軸方向に245−0=245となり第3文の長さは全
体で約595 + 245 = 840となる。
第3文の訳文は 「それはクロッピングを容易にする。」となる。従って
、16文字である。−文字の大きさ840/20=52
.5 となる。これにもつとも近くもっても小さい9ポイント
の文字を選べば良い。
訳文は 2行目に595150 = 12文字を3行目に245
750=4文字を 出力する。
同様に第4文月、第5文目を実施すると、第4文目: 「すべての台紙は同じ縮小率をとるので、すべての呼び
出しは印刷した とき、同じサイズになる。」 この時の訳文文字数は43文字である。
原文のサイズは、 3行目 (79−9) X 35 = 24504行目
 (35X 35) = 1225となり、原文の長さ
は2450+1225=3675である。
−文字の大きさは、3675/43 = 85となり、
大きさ85の文字を訳文に使える。従って訳文の文字サ
イズは14ポイントの文字である。訳文スタート位置は
(160,315)で、2450/77.8 :31文
字出力して改行コードを出力する。残りの12文字を(
240,0)の位置から出力する。
第5文目: 「プレートマーカは各説明図ごとに測 定したり、カメラを調節する必要がないので各印刷所に
とって時間の節約にな る。」 5文に対する原文での各行の長さを求めると、4行目(
ま35X37=1295 5行目は35 X 78 = 27306行目は35X
13=455 となり、原文の長さは1295 + 2730 +45
5 = 4480となる。この後の訳文文字数は53文
字である。したがって、−文字の大きさは448015
3 = 84となる。
したがって文字サイズ表よりこれにもっとも近くでうち
わの文字はポイント14である。
訳文スタート位置は(160,1295)で、1295
/77.8=16文字出力して改行コードを出力する。
 (240,0)の位置から2730/77.8 = 
35文字出力して、改行コードを出力する。残りの2文
字を(320,0)から出力する。第6図は訳文の出力
結果を示す図である。
以上のように訳文を生成していくと原文のフォーマット
イメージをあまり壊すことなく訳文の文書を作成するこ
とができる。−文単位に文の開始位置が固定であるので
原文書と訳文書の対応がつきやすい、もし文字サイズ表
中最小のポイントの文字を使用しても範囲内におさまり
きらない場合は複数行にわけて出力すれば良い。
また、近年ではアウトラインフォント等のベクトルフォ
ントが主流になってきている。したがって文字の大きさ
の拡張や縮小は文字サイズ表を引くまでもなく訳文の文
字数で原文の長さを割って得られる訳文の文字サイズで
訳文を出力することができる。
また、原文における非文字データ(図、表のケイ線、絵
、写真)は訳文にそのままコピーし、文字データは第3
図に示した翻訳処理に基づいて翻訳する。第7図は、非
文字データを含む原文とその翻訳結果の例を示す、また
、サイズの異なる文字があまりに多く出現して、見た目
が不自然にならないよう、ある基準となるサイズの文字
サイズをユーザが決め、計算からもとめられた文字サイ
ズがこれを越えるときには基準の文字サイズを採用して
、文字サイズの異なり度合を低くおさえ、見た目にも統
一された訳文を生成する。
このようなサイズ統一処理において1文章部位に考える
のではなく、文章のまとまり(例えば、パラグラフ、節
や章、文書といったもの)でサイズが異なりすぎるとき
、サイズの最小値を最大値とのへだたりがユーザの指定
の値以下となるように基準値を決定する。この基準値よ
り大きなサイズとなるものは、基準値を採用して、まと
まりとしての見た目の統一をはかる。このへだたりとし
ては、例えば、 ならば、サイズはそのままとする。
ならば、基準値=最小値×ユーザ指定値ということが考
えられる。
処−一末 以上の説明から明らかなように、本発明によると、以下
のような効果がある。
(1)請求項1に対応する効果:訳文の文の位置関係を
原文と統一することで、原文と訳文を比較した時に、訳
文に対応する原文を容易に発見することができる。
(2)請求項2に対応する効果:文字サイズ表を持たな
いでも請求項1と同等の効果を得ることができる。
(3)請求項3に対応する効果:原文における非文字デ
ータはそのまま使い、翻訳する部分は、原文の原稿の位
置関係を変えないので1図やグラフといったものの中に
表れる文章部の翻訳結果と非文字データ部との位置関係
とが壊されることなく正しく翻訳される。
【図面の簡単な説明】
第1図は、本発明による機械翻訳装置の一実施例を説明
するための構成図、第2図は、本発明による機械翻訳装
置の動作処理を説明するためのフローチャート、第3図
は、翻訳処理の構成を示す図、第4図は、原文イメージ
を示す図、第5図は、光学文字読取装置(OCR)の出
力結果を示す図、第6図は、訳文の出力結果を示す図、
第7図は、非文字データを含む翻訳の例を示す図である
。 1・・入力手段、2・・・文章記憶手段、3・・・翻訳
手段、4・・・辞書、5・・文法規則部、6・・・出力
手段、7文字サイズ表、8・・・訳文文字サイズ決定手
段。 特許出願人  株式会社 リ コ 第 図 第 図 8、訳 第 図 第 図 第 図 第 図

Claims (1)

  1. 【特許請求の範囲】 1、対象言語の原文を入力する原文入力手段と、該入力
    手段から入力された原文を記憶する記憶手段と、前記入
    力手段より入力された原文を翻訳する翻訳部と、該翻訳
    部の翻訳に必要な辞書部と、前記翻訳部の翻訳に必要な
    文法規則部と、翻訳結果を出力する出力手段とからなる
    機械翻訳装置において、訳文の文字の大きさを表記する
    文字サイズ表と、前記翻訳部の翻訳結果と前記文字サイ
    ズ表とにより出力する訳文の文字サイズを決定する決定
    手段とを有し、原文の原稿における座標位置に対応した
    同じ位置に、対応する訳文を出力することを特徴とする
    機械翻訳装置。 2、前記文字サイズ表を使用せず、アウトラインフォン
    ト等のベクトルフォントを用いて、文字の大きさの拡張
    や縮小をして訳文の文字の大きさを決定するようにした
    ことを特徴とする請求項1記載の機械翻訳装置。 3、原文における非文字データはそのまま訳文にコピー
    することを特徴とする請求項1又は2記載の機械翻訳装
    置。
JP2227640A 1990-08-28 1990-08-28 機械翻訳装置 Pending JPH04107679A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2227640A JPH04107679A (ja) 1990-08-28 1990-08-28 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2227640A JPH04107679A (ja) 1990-08-28 1990-08-28 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH04107679A true JPH04107679A (ja) 1992-04-09

Family

ID=16864047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2227640A Pending JPH04107679A (ja) 1990-08-28 1990-08-28 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH04107679A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865353B2 (en) 2005-03-22 2011-01-04 Fuji Xerox Co., Ltd. Translation device, image processing device, translation method, and recording medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865353B2 (en) 2005-03-22 2011-01-04 Fuji Xerox Co., Ltd. Translation device, image processing device, translation method, and recording medium

Similar Documents

Publication Publication Date Title
US7756871B2 (en) Article extraction
EP0370774B1 (en) Machine translation system
JP3839069B2 (ja) 文書を要約する方法および装置
JP3220560B2 (ja) 機械翻訳装置
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
JP2765665B2 (ja) タイポグラフィカル情報付き文書の翻訳装置
JP4999938B2 (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
US4964030A (en) Apparatus for translating sentences containing punctuation marks
US20060218495A1 (en) Document processing device
JP4886244B2 (ja) 機械翻訳装置および機械翻訳プログラム
EP1304625A2 (en) Method and apparatus for forward annotating documents and for generating a summary from a document image
JP2006252164A (ja) 中国語文書処理装置
JPH04107679A (ja) 機械翻訳装置
JPS60254367A (ja) 文章分析装置
JPH09284446A (ja) 情報処理装置およびデジタル複写機および情報記憶媒体
Prinsloo et al. Optical Character Recognition and text cleaning in the indigenous South African languages
JP3206600B2 (ja) 文書生成装置
JPH06290209A (ja) 文切り装置
JP3244286B2 (ja) 翻訳処理装置
JPH06243162A (ja) 機械翻訳装置
JPH06301713A (ja) 対訳表示方法及び文書表示装置並びにディジタル複写装置
JPS61272873A (ja) テキストの補整表記方式
JPS62143178A (ja) 自然言語翻訳方式
US20100106480A1 (en) Character data processing method, computer program, and character data processing system
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置