JPH07141365A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH07141365A
JPH07141365A JP5290282A JP29028293A JPH07141365A JP H07141365 A JPH07141365 A JP H07141365A JP 5290282 A JP5290282 A JP 5290282A JP 29028293 A JP29028293 A JP 29028293A JP H07141365 A JPH07141365 A JP H07141365A
Authority
JP
Japan
Prior art keywords
text
sentence
page
boundary
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5290282A
Other languages
English (en)
Inventor
Naotoshi Maruyama
直利 丸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP5290282A priority Critical patent/JPH07141365A/ja
Publication of JPH07141365A publication Critical patent/JPH07141365A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 1ページ内のテキストの先端部分や末尾部分
において、一つの文が前ページから続く文であったり、
次ページへ続く文である場合に、前後で文をつなげて正
しく翻訳する。 【構成】 テキスト読込部1でテキストを読み込み、テ
キスト境界判定部2は、テキスト読込部1で読み込んだ
テキストの境界部分が不完全な状態の文かどうかを判定
する。テキスト境界処理部3は、境界部分が文として不
完全な状態であると判定したとき、適切な処置を施す。
判定ルール5は、前記テキスト境界判定部2のテキスト
境界判定部において用いられる判定ルールである。判定
ルール変更部6は、判定ルール5を利用者が、追加・削
除・変更を行う。テキスト境界指示部7は、テキスト境
界部分の文の状態を装置に指示を与える。テキスト保存
部8は、目的言語をテキスト保存する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、機械翻訳装置に関し、
より詳細には、1ページ内のテキストの先頭部分や末尾
部分において、一つの文が前ページから続く文であった
り、次ページへ続く文である場合に、この前後で文をつ
なげて正しく翻訳できるようにした機械翻訳装置に関す
る。
【0002】
【従来の技術】従来の機械翻訳装置について記載した公
知文献としては、例えば、特開平5−108716号公
報がある。この公報のものは、文字や図形や表を意識す
ることなく、イメージデータとして取り込み、自動的に
入力のイメージの種類に応じて分類して、分類したイメ
ージごとに、そのイメージの書式情報を作成し、また、
文字認識手段で文字を認識して、所望の異なる文字列に
変換して、この変換された文字列の長さなどに応じて、
表や図形や文字の大きさなどを変更して、入力の表や図
形を変換後の文字列に応じて復元して出力するものであ
る。
【0003】
【発明が解決しようとする課題】1ページ内で、一つの
文が、次のページに続くために途中で終わっていたり、
前のページから続いているために途中から始まっていた
りするような文章を機械翻訳する場合に、従来の機械翻
訳装置では、このような不完全な文に対しては、通常の
文となんら区別されずに機械翻訳されていた。このよう
な場合、文が文法上不完全であったり、意味的に不十分
であるため正しく翻訳されず、期待しない翻訳結果を出
力していた。また、このような不都合は、紙上の文字や
図表をOCR(Optical Character Reader:光学式文字
読取装置)等で読み込んで機械翻訳した場合によく起
る。このことは、機械翻訳装置を内容の拾い読みとして
用いる場合には、それほど大きな問題とはならないが、
テキストの内容を詳しく理解する場合や、テキストのレ
イアウトやイメージ情報までも原文書のままに保存して
出力するような場合には、無視できないという問題点と
なる。
【0004】本発明は、このような実情に鑑みてなされ
たもので、一度に読み込む文字や図表のイメージの範囲
をページと呼び、また、ピリオド(英文の場合)と改行
を文の区切りとすると、1ページ内で一つの文が途中で
終わっていたり、途中から始まっているような不完全な
文を、不完全な形のまま機械翻訳せずに、適切な処置を
ほどこすことによって、翻訳の失敗を防ぐようにした機
械翻訳装置を提供することを目的としている。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するために、(1)一つの文が複数ページにまたがっ
ているかどうかを判断する判定手段と、一つの文が複数
ページにまたがっている場合には、該一つの文をページ
の境界部分で繋げる境界処理手段と、原言語を目的言語
に翻訳する翻訳手段と、該原言語と目的言語の2種類の
言語の文を保存する保存手段とを有すること、更には、
(2)テキスト部分の最後が一つの文の途中で終わって
いたり、テキスト部分の先頭が一つの文の途中から始ま
っているようなページを翻訳する場合に、該不完全な文
を翻訳せずに、該部分が次のページに続くか、あるいは
前のページから続いていることを翻訳結果を出力する際
に明示する出力手段を有すること、更には、(3)一つ
の文が複数ページにまたがっているかどうかの判断を、
ルールとして自由に追加・削除・変更できる変更手段を
有すること、更には、(4)処理している1ページのテ
キスト先頭及び末尾が、文の途中から始まっていたり、
文の途中で終わっているかどうかを指示する指示手段を
有することを特徴としたものである。
【0006】
【作用】1ページ内で、テキストの最後の部分が一つの
文の途中で終わっていないかどうかや、テキストの最初
の部分が一つの文の途中から始まっていないかどうかな
ど、テキストの境界部分の文の状態を判断し、途中で終
わっている場合には、問題となっている文の続きのペー
ジ(多くは次のページ)を読みとることによって、一つ
の文をページの境界で切らずに、前後で文を繋げて翻訳
することができる。
【0007】
【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による機械翻訳装置の一実施例を
説明するための構成図で、図中、1はテキスト読込部、
2はテキスト境界判定部、3はテキスト境界処理部、4
は翻訳部、5は判定ルール、6は判定ルール変更部、7
はテキスト境界指示部、8はテキスト保存部、9はテキ
スト出力部である。
【0008】テキスト読込部1でテキストを読み込み、
テキスト境界判定部2は、テキスト読込部1で読み込ん
だテキストの境界部分、つまりテキストの最初の部分ま
たは最後の部分が一つの文の途中から始まっていたり、
途中終わっていたりしている不完全な状態の文かどうか
を判定する。テキスト境界処理部3は、前記テキスト境
界判定部2でテキストの境界部分が文として不完全な状
態であると判定したとき、適切な処置を施す。翻訳部4
は、原言語から目的言語へ翻訳する。
【0009】判定ルール5は、前記テキスト境界判定部
2のテキスト境界判定部において用いられる判定ルール
である。判定ルール変更部6は、判定ルール5を利用者
が、追加・削除・変更を行う。テキスト境界指示部7
は、テキスト境界部分の文の状態を装置に指示する。こ
の指示は、1ページを処理する段階で装置に指示され、
テキスト境界判定部2よりも判定が優先される。テキス
ト保存部8は、目的言語をテキスト保存する。テキスト
出力部9は、目的言語をテキスト出力する。
【0010】図2は、本発明による機械翻訳装置のテキ
ストの処理を説明するためのフローチャートである。以
下、各ステップに従って順に説明する。なお、図中で
「出力」と表現しているところは、図1におけるテキス
ト保存部8に出力することを表す。step1 :最初の1ページを読み込む。step2 :テキスト部分の先頭の文が途中から始まってい
る不完全文であるかどうかを判断する。step3 :前記step2において、不完全文と判断された場
合には、不完全文の部分を原言語のままテキスト保存部
へ出力する。これは、この部分の文が全ページから続く
ために、文の途中から始まっていることを明示するため
である。この例では、この部分を原言語で出力するが、
代りに特別な記号を出力するなどして前記の意図がわか
るようにすればよい。
【0011】step4:残りのテキスト部分を目的言語で
出力する。step5 :次ページを読み込むかどうかを判断する。step6 :前記step5において、次のページを読み込まず
に、該当ページが翻訳処理の最後のページである場合に
は、まず、テキスト部分の末尾が次のページに続くため
に、文の途中で切れている不完全文であるかどうかを判
断する。step7 :前記step6において、不完全文と判断された場
合には不完全文の部分を原言語で出力する。これは前記
step3と全く同等である。
【0012】step8:次のページを読み込む。step9 :前のページのテキスト部分の末尾が不完全であ
るかどうかを判断する。 step10 :前記step9において、不完全文と判断された場
合には、前ページ末尾の不完全文と次ページ先頭の不完
全文を繋いで完全文とする。step11 :前記step10において、作成した完全文を目的言
語で出力する。なお、前記step2,step6,step9の判
定は、図1のテキスト境界判定部2の結果に関係なく、
テキスト境界指示部7で利用者が指示を与えた場合、こ
れが優先される。
【0013】図3は、英語で書かれた文章について、テ
キストの境界部分(末尾部分と先頭部分)において、一
つの文が途中で終わっていたり、途中から始まっている
かどうかを判断するためのルール例である。<テキスト
末尾判定ルール例>は、テキストの末尾部分において一
つの文が途中で終わっているかどうかを判断するための
ルール例である。<テキスト先頭判定ルール例>は、テ
キストの先頭部分において一つの文が途中から始まって
いるかどうかを判断するためのルール例である。
【0014】図3における「判断」の「不完全」は、一
つの文が途中で終わっていたり、途中から始まっている
状態を表し、「完全」はそれ以外の状態を表す。本発明
の装置では、図3の「ルール」や「判定」が計算機プロ
グラム上で利用可能な形として存在する。このようなル
ール例に基づき、テキスト境界部分が「完全」と判断さ
れた場合には、テキスト全体をそのまま図1の翻訳部分
6で機械翻訳させる。また、テキスト境界部分が「不完
全」と判定された場合には、この部分についての図1の
テキスト境界処理5を行う。
【0015】ここでのルールは英語の文章を例にとった
が、日本語や他の言語の場合には、ルールの内容が違っ
ても、各言語ごとにふさわしいルールを用意しておくこ
とによって同様の処理が可能となる。また、図1の判定
ルール変更部6において、利用者がこれらのルールを書
き換えることができる。
【0016】図4(a)〜(e)は、本発明におけるテ
キストの入力例および出力例である。図4(a)は本装
置で入力するテキストの最初のページである。図4
(b)は図4(a)に続くページである。ここで、両者
とも記号“0”および“*”の列は文字列を表す。前者
は完全文を表し、後者は不完全文を表す。“.”はピリ
オドを表す。図4(c)は図4(a)のみを処理した場
合の出力結果である。ここで、記号“+”および“−”
の列は文字列を表す。前者は目的言語の文を表し、後者
は原言語の文、あるいは文が途中で途切れていることを
明示する特別な文字列を表す。
【0017】テキスト部分の先頭と末尾において、文が
途切れていることが、このことによって判断できること
を示している。図4(a)を入力するテキストの最初の
ページ、図4(b)を入力するテキストの最後のページ
とすると、図4(d)および図4(e)は、これに対す
る出力結果を表す。図4(d)の先頭と図4(e)の末
尾で文が途切れていることが判断でき、また、入力が不
完全であった図4(a)の末尾と図4(b)の先頭は、
正しく翻訳されていることを示している。
【0018】図5は、図1のテキスト境界指示部におけ
るユーザーインターフェースの例である。この例では、
該当する項目を選択すると、その指示が装置に与えられ
る。例えば、利用者が処理しているページのテキスト先
頭部分が途中から始まる文であった場合、上の項目を選
択し、テキストの末尾部分が途中で終わっている文であ
った場合、下の項目を選択する。
【0019】
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)1ページ内で、テキストの最後の部分が一つの文
の途中で終わっていないかどうかや、テキストの最初の
部分が一つの文の途中から始まっていないかどうかな
ど、テキストの境界部分の文の状態を判断し、途中で終
わっている場合には、問題となっている文の続きのペー
ジ(多くは次のページ)を読みとることによって、一つ
の文をページの境界で切らずに、前後で文を繋げて翻訳
することができる。このようなテキスト境界部分の判断
は、判定ルールを用意しておくことにより自動的に行う
こともでき、また、利用者自身が判断し、装置に指示を
送ることもできる。そして、判定ルールは利用者により
変更ができる。 (2)更に、該当するページが機械翻訳処理の最後のペ
ージである場合で、かつ途中で終わっている文にについ
て、あるいは、該当するページが機械翻訳装置の最初の
ページで、かつ途中から始まっている文については、こ
の部分は機械翻訳せずに、例えば原言語をそのまま出力
したり特別な記号を出力することなどによって、利用者
がこの文が以降のページへ続いていることや、以前のペ
ージから続いていることがわかるようにすることができ
る。このように、文が不完全であることが原因する機械
翻訳の失敗をできるだけ避けることができて、可能なか
ぎり正しい訳文を出力することができるようになる。
【図面の簡単な説明】
【図1】本発明による機械翻訳装置の一実施例を説明す
るための構成図である。
【図2】本発明による機械翻訳装置のテキスト処理を説
明するためのフローチャートである。
【図3】本発明におけるテキストの境界部分において、
一つの文が途中で終わっていたり始まっているかどうか
を判断するためのルール例を示す図である。
【図4】本発明におけるテキストの入力例および出力例
を示す図である。
【図5】本発明におけるテキスト境界指示部のユーザー
インターフェースの例を示す図である。
【符号の説明】
1…テキスト読込部、2…テキスト境界判定部、3…テ
キスト境界処理部、4…翻訳部、5…判定ルール、6…
判定ルール変更部、7…テキスト境界指示部、8…テキ
スト保存部、9…テキスト出力部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 一つの文が複数ページにまたがっている
    かどうかを判断する判定手段と、一つの文が複数ページ
    にまたがっている場合には、該一つの文をページの境界
    部分で繋げる境界処理手段と、原言語を目的言語に翻訳
    する翻訳手段と、該原言語と目的言語の2種類の言語の
    文を保存する保存手段とを有することを特徴とする機械
    翻訳装置。
  2. 【請求項2】 テキスト部分の最後が一つの文の途中で
    終わっていたり、テキスト部分の先頭が一つの文の途中
    から始まっているようなページを翻訳する場合に、該不
    完全な文を翻訳せずに、該部分が次のページに続くか、
    あるいは前のページから続いていることを翻訳結果を出
    力する際に明示する出力手段を有することを特徴とする
    請求項1記載の機械翻訳装置。
  3. 【請求項3】 一つの文が複数ページにまたがっている
    かどうかの判断を、ルールとして自由に追加・削除・変
    更できる変更手段を有することを特徴とする請求項1記
    載の機械翻訳装置。
  4. 【請求項4】 処理している1ページのテキスト先頭及
    び末尾が、文の途中から始まっていたり、文の途中で終
    わっているかどうかを指示する指示手段を有することを
    特徴とする請求項1記載の機械翻訳装置。
JP5290282A 1993-11-19 1993-11-19 機械翻訳装置 Pending JPH07141365A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5290282A JPH07141365A (ja) 1993-11-19 1993-11-19 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5290282A JPH07141365A (ja) 1993-11-19 1993-11-19 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH07141365A true JPH07141365A (ja) 1995-06-02

Family

ID=17754135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5290282A Pending JPH07141365A (ja) 1993-11-19 1993-11-19 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH07141365A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210034867A (ko) * 2019-09-23 2021-03-31 네이버 주식회사 장문 번역 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210034867A (ko) * 2019-09-23 2021-03-31 네이버 주식회사 장문 번역 방법 및 시스템

Similar Documents

Publication Publication Date Title
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
KR20180105546A (ko) 클레임 요소 명사의 요소 명사 참조 번호를 획득하기 위한 요소 명사 참조 번호 획득방법
JPS62229364A (ja) 文書レイアウト方法
JP2000020525A (ja) プログラム注釈機械翻訳装置とこの装置を動作させるプログラムを記録した記録媒体
CN112686000A (zh) 电子书文档的格式转换方法、电子设备及存储介质
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
JPH07141365A (ja) 機械翻訳装置
JPH0412505B2 (ja)
JP2818052B2 (ja) 光学的文字読み取り装置
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JPH03233670A (ja) テキストデータ変換方式
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JPH0883280A (ja) 文書処理装置
JPH06290209A (ja) 文切り装置
JPH0452503B2 (ja)
JP2006004050A (ja) 画像処理装置、画像読み取り装置およびプログラム
JPH0756924A (ja) 対訳装置
JP2007080206A (ja) 情報処理装置、構造化文書生成方法及び構造化文書読取方法
JPH0778800B2 (ja) 文書処理装置
JP2956743B2 (ja) 集中文字認識システム及び文字認識装置
JP2007034424A (ja) 文書データ処理装置、文書データ処理方法及び文書データ処理プログラム
JPH04302070A (ja) 文字認識装置及び方法
JPH07182344A (ja) 機械翻訳装置
JPH1040248A (ja) 文書処理装置及び文書管理方法
JP2004078343A (ja) 文書管理システム