JPH05108703A - 機械翻訳機 - Google Patents

機械翻訳機

Info

Publication number
JPH05108703A
JPH05108703A JP3272281A JP27228191A JPH05108703A JP H05108703 A JPH05108703 A JP H05108703A JP 3272281 A JP3272281 A JP 3272281A JP 27228191 A JP27228191 A JP 27228191A JP H05108703 A JPH05108703 A JP H05108703A
Authority
JP
Japan
Prior art keywords
unit
lexical
character
word
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3272281A
Other languages
English (en)
Inventor
Yasuyuki Numata
泰之 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3272281A priority Critical patent/JPH05108703A/ja
Publication of JPH05108703A publication Critical patent/JPH05108703A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 原文中の特殊なフォントの未知語を、自動的
に、ユーザ辞書一括登録の対象語彙の候補とする機械翻
訳機の提供を目的とする。 【構成】 書体の識別を含めて翻訳対象文書の文字を認
識する文字認識部1と、認識された文字列から字句を切
り出し、その字句の書体の判別を行なう字句認定部3
と、字句認定部3によって認定された字句が未知語か否
かを判定する未知語認定部5と、原文中の単語が未知語
であり、かつ、特殊な書体によって表記されている単語
であったならば、その単語を一括登録対象語彙の候補と
するユーザ辞書登録部6を備えた構成を有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、電子計算機を使って自
然言語で書かれた文書を他の自然語で書き直す機械翻訳
機に関する。
【0002】
【従来の技術】一般に、機械翻訳機は翻訳対象とする文
書中に未知語が存在すると正しい翻訳ができない。した
がって、ユーザはあらかじめ翻訳対象文書中のすべての
未知語を把握し、それらの語彙を「ユーザ辞書」に登録
しておかなければならない。しかし、機械翻訳機にとっ
ての未知語とは翻訳機の備えた辞書中に存在しない語彙
を指すのであり、ユーザはその辞書の内容を完全に把握
しているわけではない。それゆえ、ユーザにとって翻訳
対象文書内のその語彙が未知語であるかをあらかじめ予
測することは、ほとんど不可能に近い。そこで、ほとん
どの機械翻訳機には、翻訳対象文書内の未知語を指摘す
る未知語指摘機能が準備されている。未知語指摘機能は
翻訳対象文書内のすべての語彙に対して翻訳機内の辞書
検索を試み、その結果、辞書に未登録である語彙を未知
語と認定する。
【0003】また、ユーザは未知語指摘機能によって指
摘された語彙が確かに一般的には使われない、その文書
特有の語彙であると認識したならば、それらの語彙をユ
ーザ辞書登録機能によってユーザ辞書に登録する。無
論、この際、指摘された未知語が単純なスペルミスなど
を原因とするものであるならばユーザ辞書への登録対象
とはしない。
【0004】このように、翻訳対象文書内からの未知語
除去作業を行なってから翻訳対象文書の翻訳を実施する
のが普通である。
【0005】
【発明が解決しようとする課題】技術文献などを翻訳す
る際には、専門用語が非常に多く、そのすべての語彙
が、あらかじめシステムが準備している翻訳用の辞書
(一般辞書、専門用語辞書)に登録されているとは限ら
ない。それらの語彙はすべて未知語として指摘されるこ
とになる。その場合、ユーザは上で述べたようにそれら
の語彙をあらかじめユーザ辞書に一括登録してしまう
か、翻訳実行時に未知語となって現れたそれらの語彙を
逐一ユーザ辞書に登録する必要がある。この、ユーザ辞
書登録作業はユーザに必要以上に負担を強いるものであ
る。
【0006】本発明は上記課題を解決するもので、効率
的に、多くの未知語をユーザ辞書に登録可能とする機能
を有する機械翻訳機を提供することを目的としている。
【0007】
【課題を解決するための手段】本発明は上記目的を達成
するために、書体の識別を含めて翻訳対象文書の文字を
認識する文字認識部と、認識された文字列から字句を切
り出し、書体の認定をする字句認定部と、字句認定部で
認定された字句が未知語であるか否かを認定する未知語
認定部と、字句認定部で特殊書体であると認定され、か
つ未知語認定部で未知語であると認定された字句を登録
語彙の候補とするユーザ辞書登録部を備えた構成を有す
る。
【0008】
【作用】本発明は、上記構成によって、原文中において
特殊な書体で記述されており、かつ、未知語であるなら
ば、自動的にユーザ辞書登録のための対象語彙の候補と
する。
【0009】
【実施例】図1は、本発明の一実施例における機械翻訳
機のブロック図である。1は翻訳対象文書を読み取り文
書内のテキストに対応した文字コードを書体情報を伴っ
て出力する文字認識部である。2は文字認識された結果
の文字コードを書体情報とともに記憶するテキストデー
タ記憶部である。3はテキストデータ記憶部2に記憶さ
れたテキストデータに対して字句の認定を行なう字句認
定部である。認定結果は後記字句データ記憶部に記憶さ
れる。ここでは、字句の認定と同時に各字句の書体の判
別も行なう。この書体情報も字句データ記録部に記録さ
れる。4は字句認定部3によって認定された字句の情報
をその書体の情報とともに記憶する字句データ記憶部で
ある。5は字句データ記憶部4に記憶された字句情報に
基づいて各字句の未知語認定を行なう未知語認定部であ
る。未知語認定の結果は字句データ記憶部4に記憶され
る。6は未知語認定部5において「未知語である」と認
定され、かつ、字句認定部3において「特殊な書体で記
述されている」と認定された字句をユーザ辞書に登録す
るためのユーザ辞書登録部である。7は全体を制御する
全体制御部である。
【0010】次に、文字認定部1のブロック図を図2に
示す。21は翻訳する文書(翻訳対象文書)を画像デー
タとして計算機に取り込む文書画像入力部である。例え
ばスキャナなどである。22は文書画像入力部21によ
って読み込んだ文書画像データを記憶する画像データ記
憶部である。23は文書画像入力部21によって入力さ
れた文書画像中から文を構成する順番で的確に文字画像
を切り出す文字画像認定部である。24は文字画像認定
部23によって切り出された文字画像を文字として認識
し対応する文字コードを出力する文字コード認識部であ
る。25は文字画像にある文字の書体を判定する文字書
体判定部である。26は文字認識部を制御する制御部で
ある。
【0011】次に、字句認定部3のブロック図を図3に
示す。31はテキストデータ記憶部2に記憶された文字
列から、ピリオド,コンマ,空白などの区切り文字をも
とに字句を切り出す字句切り出し部である。切り出され
た字句情報は字句データ記憶部4に記憶される。32は
字句切り出し部31によって切り出された各々の字句の
書体を判別する字句書体判定部である。判定された書体
情報は字句データ記憶部4に記憶される。33は字句認
定部全体を制御する制御部である。
【0012】次に、未知語認定部5のブロック図を図4
に示す。41は字句データ記憶部4に記憶された字句の
うち、未知語であり、かつ、特殊な書体である字句をキ
ーとして、未知語認定用辞書を検索する辞書検索部であ
る。42は字句認定部3によって認定された字句が未知
語であるか否かを知るための未知語認定用辞書である。
43は未知語認定全体を制御する制御部である。
【0013】以上のように構成された本実施例の機械翻
訳機について、以下その動作を図5のフローチャートに
基づいて説明する。
【0014】(ステップ1)文書読み取り処理 翻訳対象文書を画像入力部によって入力し、文書中に存
在するテキストに対応した文字コード列を出力するまで
の処理である。入力した画像データは翻訳機内の画像デ
ータ記憶部22に記憶される。より詳細な説明を図6に
従って以下に記す。
【0015】(ステップ11)文書画像入力処理 文書画像入力部21によって読み取られた翻訳対象文書
の画像データは画像データ記憶部22に記憶される。こ
こでは、図7に示す原文が翻訳対象文書の一部として文
書画像入力部21に入力されたものとする。2つのar
gvと1つのexeは他の字句とは書体が異なる。この
書体をここでは「非標準書体」と呼ぶ。他の字句の書体
は、「標準書体」と呼ぶ。
【0016】(ステップ12)文字切り出し処理 画像データ記憶部22に記憶された文書画像のデータか
ら各文字に対応した文字画像領域を抽出する。抽出され
た文字画像データは文字・書体認識処理に渡される。
【0017】(ステップ13)文字・書体認識処理 文字切り出し処理によって切り出された各文字画像に対
して文字認識処理を行なう。この際、同時に、その文字
の書体も認識する。したがって、各文字画像に対応して
文字コードと書体判別情報が出力される。これらの情報
はテキストデータ記憶部2に記憶される。この結果、各
テキストデータには原文中における書体情報が属性情報
として設定されることになる。入力画像データ中のすべ
ての文字に対してこの文字認識処理が行なわれた結果、
テキストデータ記憶部2には入力文書がテキストコード
列に変換されて記憶されることになる。こうして上記例
文に対して文字・書体認識処理が行なわれた後のテキス
トデータ記憶部2の倫理的な内容を図8に示す。書体属
性欄は標準書体と非標準書体の区別を示す。0が標準書
体で、1が非標準書体である。書体情報は各文字コード
に対応して存在する。
【0018】(ステップ2)字句認定処理 字句認定処理では、テキストデータ記憶部2に記憶され
ているテキスト情報に対して字句の認定を行なう。空白
や、コンマ,ピリオドなどの区切り文字が字句認定の材
料となる。字句認定処理の結果は字句データ記憶部4に
記憶される。上記の例文に対する字句認定処理後の字句
データ記憶部4の内容を図9に示す。また、字句認定処
理では字句書体判別部32によって字句データ記憶部4
内の字句認定結果に対する字句単位の書体判定が行なわ
れる。各文字コードに付随する書体情報がこの字句書体
判別に行われる。この字句書体判別の結果、字句データ
記憶部4内の字句情報には図10のように字句単位の書
体情報が付加される。書体情報が0であるものは標準書
体の字句であり、1であるものは非標準書体の字句であ
る。
【0019】(ステップ3)未知語認定処理 記憶された翻訳対象テキストに対して未知語認定処理を
行なう。未知語認定処理には、テキストの先頭から一つ
づつ未知語を逐次的に発見してはユーザに伝えてくるタ
イプのものと、バッチ的にすべての未知語を発見し、未
知語リストの形でユーザに示すタイプのものとが考えら
れる。
【0020】字句に対する未知語の認定は字句認定処理
によって得られた字句をキーとして未知語認定用辞書を
検索することによって行なう。辞書検索の結果、該当す
る単語が未登録である場合にはその字句は未知語と認定
する。未知語認定された字句は字句データ記憶部4にそ
の情報が設定される。図11に、例文に対する未知語認
定処理後の字句データ記憶部4を示す。
【0021】(ステップ4)ユーザ辞書登録処理 ユーザ辞書登録処理にも、逐次的なものとバッチ的なも
のとが存在するが、逐次的に日本語を発見する場合には
逐次的なユーザ辞書の登録が、バッチ的に未知語を発見
する場合にはバッチ的なユーザ辞書の登録が、より相性
がよい。本発明は、特に、後者の、バッチ的な未知語発
見処理とバッチ的なユーザ辞書登録を前提としている。
【0022】未知語検索処理によって明らかになった未
知語であり、かつ、原文書中における書体が特殊な語彙
をユーザ辞書登録機能における登録語彙の候補とする。
つまり、字句データ記憶部4の各字句に対して書体情報
と未知語情報のチェックを行ない、非標準書体であり、
かつ、未知語であるならば、ユーザ辞書登録機能の候補
語彙データとする。ユーザはユーザ辞書登録機能におい
て、それらの語彙を目で確認し、ユーザ辞書に登録して
よければ、辞書登録を実行するだけでよい。もしも、登
録するのに不都合なエントリがあれば、その語彙を削除
する。先の例の場合、ユーザ辞書登録機能において、登
録候補が図12のように自動的に設定されている。
【0023】(ステップ5)翻訳処理 翻訳対象テキスト中から未知語がなくなった段階で、翻
訳対象テキストの翻訳を実施する。
【0024】このように本発明の実施例の機械翻訳機に
よれば、書体の識別を含めて翻訳対象文書の文字を認識
する文字認識部と、認識された文字列から字句を切り出
し、その字句の書体の判別を行なう字句認定部と、字句
認定部によって認定された字句が未知語か否かを判定す
る未知語設定部を備え、対象文書中の単語が未知語であ
り、かつ特殊な書体で表記されておれば、その単語をユ
ーザ辞書一括登録対象語彙の候補とする機能を有するの
で、ユーザの作業負担が軽くなる。
【0025】
【発明の効果】翻訳対象文書中に未知語が多く存在した
場合、それらの未知語をユーザ辞書に登録する方法とし
て従来の翻訳機では次の2つが考えられた。
【0026】(1)逐次登録 未知語が見つかるたびにユーザ辞書登録を行なう。この
方法は、同一文書中に同じ未知語が何度も現われる場合
には各未知語に対して、既に登録したか否かの判断をユ
ーザが行なわなければならなかった。また、単純なスペ
ルミスによる未知語もユーザが判断の対象としなければ
ならなかった。
【0027】(2)一括登録 未知語指摘機能によって指摘された文書内の未知語をユ
ーザが書き留める。などしてメモしておき、次に、ユー
ザ辞書登録機能を呼び出して、メモしておいた未知語を
登録していくといった煩雑な作業が必要であった。
【0028】本発明によれば、未知語指摘機能が認定し
た未知語のうち原文中の書体までを考慮してユーザ辞書
登録機能の候補とするので、ユーザは未知語登録が容易
になる機械翻訳機を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例の機械翻訳機のブロック図
【図2】同翻訳機における文字認識部のブロック図
【図3】同翻訳機における字句認定部のブロック図
【図4】同翻訳機における未知語認定部のブロック図
【図5】同翻訳機の動作の流れを示すフローチャート
【図6】同翻訳機の文書読み取り処理を示すフローチャ
ート
【図7】翻訳例文図
【図8】文字書体認識後のテキストデータ記憶部の内容
【図9】字句認定処理後の字句データ記憶部の内容図
【図10】字句書体判定後の字句データ記憶部の内容図
【図11】未知語認定処理の字句データ記憶部の内容図
【図12】ユーザ辞書登録機能の候補語彙データ図
【符号の説明】
1 文字認識部 2 テキストデータ記憶部 3 字句認定部 4 字句データ記憶部 5 未知語認定部 6 ユーザ辞書登録部 7 全体制御部 21 文書画像入力部 22 画像データ記憶部 23 文字画像認定部 24 文字コード認識部 25 文字書体判定部 31 字句切り出し部 32 字句書体判定部 41 辞書検索部 42 未知語認定用辞書

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 書体の識別を含めて翻訳対象文章の文字
    を認識する文字認識部と、認識された文字列から字句を
    切り出し、書体の認定をする字句認定部と、前記字句認
    定部によって認定された字句が未知語か否かを認定する
    未知語認定部と、前記字句認定部で特殊な書体であると
    認定され、かつ前記未知語認定部で未知語であると認定
    された字句を登録語彙の候補とするユーザ辞書登録部を
    備えた機械翻訳機。
  2. 【請求項2】 翻訳を行なう文書を画像データとして計
    算機に取り込む文書画像入力部、前記文書画像入力部に
    よって読み込んだ文書画像データを記憶する画像データ
    記憶部、前記画像データ記憶部に記憶された文書画像デ
    ータ中から文を構成する順番で1文字分の文字画像を切
    り出す文字画像認定部、前記文字画像認定部によって認
    定された1文字分の文字画像を文字として認識し対応す
    る文字コードを出力する文字コード認識部、文字コード
    の認定と同時に文字画像に表現された文字の書体を判定
    しその書体情報を認定する文字コードの属性情報とする
    文字書体判定部を含む文字認識部と、前記文字認識部に
    よって認識された文字情報を記憶するテキストデータ記
    憶部と、前記テキストデータ記憶部に記憶されたテキス
    トコード列から区切り文字をもとに字句を切り出す字句
    切り出し部、前記字句切り出し部によって切り出された
    字句の書体を判別する字句書体判定部を含む字句認定部
    と、前記字句認定部によって認定された字句切り出し情
    報およびその書体情報を記憶する字句データ記憶部と、
    前記字句認定部によって認定された字句をキーとして検
    索を行なう未知語認定用辞書、前記未知認定用辞書を検
    索する辞書検索部を含み前記字句をキーとして前記未知
    語認定用辞書を検索することによって未知語の認定を行
    なう未知語認定部と、前記字句認定部で特殊な書体と判
    定されかつ未知語認定部で未知語であると認定された字
    句を登録語彙の候補とするユーザ辞書登録部と、前記文
    字認識部、テキストデータ記録部、字句認定部、字句デ
    ータ記憶部、未知語確定部、ユーザ辞書登録部を制御す
    る「全体制御部」を備え、前記字句書体判別部によっ
    て、特殊な書体であると認定され、かつ、前記未知語認
    定部によって未知語であると認定された字句をユーザ辞
    書登録語彙の候補とするようにした機械翻訳機。
JP3272281A 1991-10-21 1991-10-21 機械翻訳機 Pending JPH05108703A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3272281A JPH05108703A (ja) 1991-10-21 1991-10-21 機械翻訳機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3272281A JPH05108703A (ja) 1991-10-21 1991-10-21 機械翻訳機

Publications (1)

Publication Number Publication Date
JPH05108703A true JPH05108703A (ja) 1993-04-30

Family

ID=17511673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3272281A Pending JPH05108703A (ja) 1991-10-21 1991-10-21 機械翻訳機

Country Status (1)

Country Link
JP (1) JPH05108703A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664631B2 (en) 2005-03-09 2010-02-16 Fuji Xerox Co., Ltd. Language processing device, language processing method and language processing program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664631B2 (en) 2005-03-09 2010-02-16 Fuji Xerox Co., Ltd. Language processing device, language processing method and language processing program

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
JP2004348591A (ja) 文書検索方法及び装置
JPH07282063A (ja) 機械翻訳装置
JP2005135041A (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JPH11224258A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JPH0785080A (ja) 全文書検索システム
WO2022004097A1 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
JPH10177623A (ja) 文書認識装置および言語処理装置
JPH05108703A (ja) 機械翻訳機
JPH09198404A (ja) 文書処理方法及び装置
JPH06215184A (ja) 抽出領域のラベリング装置
JPS6118074A (ja) プレ・エデイツト方式
JP2560656B2 (ja) 文書ファイリングシステム
JP3037776B2 (ja) 用語分解装置
JP2796140B2 (ja) 自然言語処理用データ編集支援装置
JP2000276479A (ja) 電子辞書装置及び電子辞書プログラムを記録した記録媒体
JPH10293811A (ja) 文書認識装置及び方法並びにプログラム記憶媒体
JP3204517B2 (ja) 未知語認定方法
JPH10207909A (ja) 文書検索システムおよび方法
JPH0612417A (ja) 符号変換方式
JP2838850B2 (ja) 仮名漢字変換装置
JP2002236876A (ja) 解析方法及び解析装置
JPH07120396B2 (ja) 文書読み取り装置
JPH06149889A (ja) 電子ファイリングシステム