JPH0554071A - デジタル翻訳装置 - Google Patents

デジタル翻訳装置

Info

Publication number
JPH0554071A
JPH0554071A JP3211710A JP21171091A JPH0554071A JP H0554071 A JPH0554071 A JP H0554071A JP 3211710 A JP3211710 A JP 3211710A JP 21171091 A JP21171091 A JP 21171091A JP H0554071 A JPH0554071 A JP H0554071A
Authority
JP
Japan
Prior art keywords
character
information
characters
word
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3211710A
Other languages
English (en)
Inventor
Hitoshi Nakamura
村 仁 中
Michio Doke
家 教 夫 道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3211710A priority Critical patent/JPH0554071A/ja
Publication of JPH0554071A publication Critical patent/JPH0554071A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 比較的少ない容量の辞書を用いて認識率の向
上を図る。 【構成】 原稿画像を読み取る原稿読取手段;原稿読取
手段が読み取った原稿の画像情報を格納する記憶手段;
記憶手段に格納された画像情報から文字単位の情報を切
り出し、切り出した文字単位の情報の間隔から単語情報
を抽出して、標準辞書を基に単語単位で文字を認識する
文字認識手段;文字認識手段により認識されなかった文
字について、特定の文字のみが登録された異種文字辞書
を基に単語単位で文字を再認識する文字再認識手段;認
識した単語を翻訳する翻訳手段;および、翻訳した単語
の文字画像を出力画像メモリに書込み、書込んだ情報を
出力する出力画像形成手段;原稿画像を読み取る原稿読
取手段;を備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はデジタル翻訳装置に関
し、特に文章原稿を光学的に読取って文字を認識する際
に少ない容量の辞書を用いて認識率を向上し、認識した
文字に対して翻訳を行なうデジタル翻訳装置に関する。
【0002】
【従来の技術】翻訳装置においては、例えば、翻訳した
い文章原稿を光学的に読取り、読み取った画像から文字
認識し、この認識結果から辞書検索を行ない翻訳処理を
行なう。しかし、OCR(文字認識装置)等により、入
力されたイメージ文字の認識を行なう場合、誤認識を完
全に排除することは殆ど不可能である。そこで、誤認識
の修正を行ない認識率の向上を図る必要がある。一般的
なOCRでは、文字を認識するための文字認識用辞書
は、文字パターンの異なる数種類の文字パターンの特徴
の平均により作成された標準文字認識辞書を用いてい
る。このため同じ文字であっても種類の成なる文字によ
り認識率は異なり、誤認識する文字もある。この点に着
目した装置として、認識する文字の種類に対応する辞書
を備え、文字の種類により文字認識辞書を変更して認識
を行なうことにより、認識率の向上を図る装置(特開昭
62-086475号公報)がある。
【0003】
【発明が解決しようとする課題】しかし、上述の装置
(特開昭62-086475号公報)においては、文字の種類別
に辞書を備えるため、辞書容量が大容量となる欠点があ
る。
【0004】本発明は上記問題を解決すべく考案された
もので、比較的少ない容量の辞書を用いて認識率の向上
を図ることを目的とする。
【0005】
【課題を解決するための手段】第1の発明のデジタル翻
訳装置は、原稿画像を読み取る原稿読取手段(2);原稿
読取手段(2)が読み取った原稿の画像情報を格納する記
憶手段(3);記憶手段(3)に格納された画像情報から文字
単位の情報を切り出し、切り出した文字単位の情報の間
隔から単語情報を抽出して、標準辞書を基に単語単位で
文字を認識する文字認識手段(4);文字認識手段(4)によ
り認識されなかった文字について、特定の文字のみが登
録された異種文字辞書を基に単語単位で文字を再認識す
る文字再認識手段(4);認識した単語を翻訳する翻訳手
段(5);および、翻訳した単語の文字画像を出力画像メ
モリに書込み、書込んだ情報を出力する出力画像形成手
段(8);を備える。なおカッコ内の記号は後述する実施
例の対応要素である。
【0006】また、第2の発明のデジタル翻訳装置は、
原稿画像を読み取る原稿読取手段(2);原稿読取手段(2)
が読み取った原稿の画像情報を格納する記憶手段(3);
記憶手段(3)に格納された画像情報から文字単位の情報
を切り出し、切り出した文字単位の情報の間隔から単語
情報を抽出して、初期値として標準文字が登録された登
録辞書を基に単語単位で文字を認識する文字認識手段
(4);文字認識手段(4)により認識された文字の原稿文字
を、登録辞書に登録する文字登録手段(4);認識した単
語を翻訳する翻訳手段(5);および、翻訳した単語の文
字画像を出力画像メモリに書込み、書込んだ情報を出力
する出力画像形成手段(8);を備える。
【0007】
【作用】第1の発明によれば、まず、原稿読取手段(2)
が原稿画像を読み取り、記憶手段(3)が、原稿読取手段
(2)が読み取った原稿の画像情報を格納する。さらに文
字認識手段(4)が、記憶手段(3)に格納された画像情報か
ら文字単位の情報を切り出し、切り出した文字単位の情
報の間隔から単語情報を抽出して、標準辞書を基に単語
単位で文字を認識し、文字再認識手段(4)が、文字認識
手段(4)により認識されなかった文字について、特定の
文字のみが登録された異種文字辞書を基に単語単位で文
字を再認識する。従って例えば、英文章の原稿に対し
て、まず、アルファベット単位の文字情報の切り出しを
行ない、これを基に単語単位で文字を認識することが可
能である。また、文字認識する際にまず、標準辞書で認
識を行ない、認識されなかった文字については特定の文
字のみが登録された異種文字辞書を基に文字の再認識が
行なわれる。ここで、異種文字辞書に登録する特定の文
字として、標準辞書により認識されにくい文字を用いる
ことにより、少ない容量の異種文字辞書を用いて、認識
率の向上が図れる。
【0008】また、翻訳手段(5)が認識した単語を翻訳
し、出力画像形成手段(8)が翻訳した単語の文字画像を
出力画像メモリに書込み、書込んだ情報を出力するの
で、原稿画像を正しく認識した文字に対する翻訳文字が
形成される。
【0009】また、第2の発明によれば、まず、原稿読
取手段(2)が原稿画像を読み取り、記憶手段(3)が、原稿
読取手段(2)が読み取った原稿の画像情報を格納する。
さらに文字認識手段(4)が、記憶手段(3)に格納された画
像情報から文字単位の情報を切り出し、切り出した文字
単位の情報の間隔から単語情報を抽出して、初期値とし
て標準文字が登録された登録辞書を基に単語単位で文字
を認識し、文字登録手段(4)が、文字認識手段(4)により
認識された文字の原稿文字を、登録辞書に登録する。従
って例えば、英文章の原稿に対して、まず、アルファベ
ット単位の文字情報の切り出しを行ない、これを基に単
語単位で文字を認識することが可能である。また、文字
認識する際にまず、標準辞書で認識を行ない、認識され
た文字について原稿文字の登録を行なうので、次回以後
はこの原稿文字を用いて文字認識を行なう。これによ
り、原稿文字が手書き文字である場合、原稿を書いた人
の文字をそのまま辞書に登録することにより次回からの
文字認識においては、原稿を書いた人の文字の”くせ”
を特徴としてとらえることができ、認識率の向上が図れ
る。
【0010】また、翻訳手段(5)が認識した単語を翻訳
し、出力画像形成手段(8)が翻訳した単語の文字画像を
出力画像メモリに書込み、書込んだ情報を出力するの
で、原稿画像を正しく認識した文字に対する翻訳文字が
形成される。本発明の他の目的および特徴は図面を参照
した以下の実施例の説明により明らかになろう。
【0011】
【実施例】
(実施例1)図1に本発明のデジタル翻訳装置の構成概
略のブロック図を示す。図1において、1は装置全体を
制御するCPU、2は翻訳する原稿を読み込むためのス
キャナ、3はスキャナ2により読取った画像データを格
納する画像メモリ、4は画像メモリ3に格納した画像デ
ータを読み出し文字領域を切り出して、文字認識を行な
う文字認識部、5は文字認識部4で認識した文字を単語
として切り出し翻訳を行なう翻訳部、6は文字認識部4
で文字を認識するために用いる辞書を有する文字認識辞
書部、7はスキャナ2において原稿の読取りなどを指示
する操作部、8は翻訳した結果を出力する出力部であ
る。
【0012】図2に、操作部7に対応したCPU1の制
御動作の概要を示す。スキャナ2の原稿設置台(図示し
ない)に英文が書かれた文章原稿がセットされ、操作部
7に「スタート」入力があると、CPU1はまず、セッ
トされた原稿をスキャナ2の原稿読取り部により読取っ
て、例えば、図4に示すような原稿対応の画像を得る
(ステップ100:以下カッコ内ではサブルーチンとか
ステップと言う語を省略し、それに付した番号数字のみ
を記す)。
【0013】次に文字認識部4の文字切り出し手段(図
示しない)により、文字切り出し処理を行なう(20
0)。この文字切り出し処理(200)では、ステップ
100で読取った画像に対し、まず、図5に示すように
主走査方向の黒画素のヒストグラムを計算し、文字画像
を行単位で切り出す。さらに図6に示すように、切り出
した行単位の文字画像において副走査方向に黒画素のヒ
ストグラムを計算し、1文字単位の文字画像を切り出
す。なお、1文字単位で切り出された文字画像の例を図
7に示す。また、文字認識部4において、切り出したあ
る文字単位の画像とその次の文字単位画像との距離(文
字間)が1文字分の距離以上の場合、そこを単語の切れ
目と判断し、1文字単位の文字画像をグループ化して単
語を抽出する(300)。この抽出した単語の例を図8
に示す。その後、グループ化した単語の1文字ずつの文
字認識を行なう(400)。このステップ400におけ
る処理の詳細については後述する。
【0014】その後、文字認識部4で認識した単語単位
の文字コードに相当する日本語を翻訳辞書から検索し、
翻訳結果を出力する(500)。さらに翻訳結果の文字
コードを文字画像に変換して出力部8が有する出力画像
メモリに画像を形成し(600)、出力画像メモリに書
き込みれた出力画像を紙に転写して排出する(70
0)。
【0015】図3に、図2に示す文字認識処理(40
0)の内容を示す。まず、認識用辞書(標準辞書)によ
り文字認識処理を行ない、認識文字の候補文字を検出す
る(401)。この時検出した候補文字と対象文字との
類似率をチェックし(402)、類似率が所定値以上で
あると、検出した候補文字を認識文字とする(40
3)。一方、類似率が所定値に満たない場合、ステップ
404以後の再検出処理(404〜406)を実行す
る。
【0016】再検出処理では、まず、その対象文字に対
して再検出(406)を実行したかをチェックし(40
4)、すでに再検出を行なっている場合は、辞書内に該
当文字が存在しないものとして以後の処理(図2のステ
ップ500以後の処理)を実行する(405)。一方、
再検出を行なっていない場合は、異種文字辞書により文
字認識処理を行ない、認識文字の候補文字を検出し(4
06)、再度ステップ402に戻り検出した候補文字と
対象文字との類似率をチェックする。
【0017】なお異種文字辞書は、例えば、標準辞書の
文字に対して相違の大きい異種文字のみを対象とした文
字、標準辞書による異種文字の認識を行ない場合に該当
文字が存在しない(類似率が低い)と判断することの多
い文字や誤認識することの多い文字、のみを対象として
登録した辞書とする。このため異種文字辞書に登録する
文字数は比較的に少なくてすむ。
【0018】以上のように文字認識処理(400)にお
いては、まず、標準辞書による文字認識処理を行ない、
文字が標準辞書に存在しないと判断した場合に、さらに
異種文字辞書を用いて再認識処理を行なう。異種文字辞
書が、標準辞書を用いた文字検出において類似率が低く
判断されやすい文字のみを登録することで、比較的に少
ない容量でかつ、認識率の向上が図れる。
【0019】(実施例2)この実施例2は、実施例1と
比較して図3に示す文字認識処理(400)の内容が異
なり、他の構成および動作については同一である。
【0020】図9に、本実施例の文字認識処理(40
0)の内容を示す。まず、登録辞書(初期状態では標準
辞書)により文字認識処理を行ない、認識文字の候補文
字を検出する(410)。この時検出した候補文字と対
象文字との類似率をチェックし、類似率が所定値に満た
ない場合、登録辞書内に該当文字が存在しないものとし
て以後の処理(図2のステップ500以後の処理)を実
行する(405)。
【0021】一方、類似率が所定値以上であると、ステ
ップ412以後の登録処理(412〜414)を実行す
る。登録処理(412〜414)では、まず、候補文字
に対する原稿の文字(例えば手書き文字)が辞書に登録
されているかをチェックし(412)、登録されていれ
ば、候補文字を認識文字とする(413)。候補文字が
辞書に登録されていない場合は、原稿の文字(例えば手
書き文字)の登録処理を行ない(414)、再びステッ
プ410に戻る。
【0022】以上のように本実施例2では、候補文字と
対象文字との類似率が所定値以上であれば、対象文字
(原稿文字)を新たに登録する機能を有するので、例え
ば、手書原稿を読み取った場合等において、原稿を書い
た人の文字をそのまま辞書に登録することができる。こ
のため次回からの文字認識においては、原稿を書いた人
の文字の”くせ”を特徴としてとらえることができ、認
識率の向上が図れる。
【0023】
【発明の効果】第1の発明によれば、まず、原稿読取手
段(2)が原稿画像を読み取り、記憶手段(3)が、原稿読取
手段(2)が読み取った原稿の画像情報を格納する。さら
に文字認識手段(4)が、記憶手段(3)に格納された画像情
報から文字単位の情報を切り出し、切り出した文字単位
の情報の間隔から単語情報を抽出して、標準辞書を基に
単語単位で文字を認識し、文字再認識手段(4)が、文字
認識手段(4)により認識されなかった文字について、特
定の文字のみが登録された異種文字辞書を基に単語単位
で文字を再認識する。従って例えば、英文章の原稿に対
して、まず、アルファベット単位の文字情報の切り出し
を行ない、これを基に単語単位で文字を認識することが
可能である。また、文字認識する際にまず、標準辞書で
認識を行ない、認識されなかった文字については特定の
文字のみが登録された異種文字辞書を基に文字の再認識
が行なわれる。ここで、異種文字辞書に登録する特定の
文字として、標準辞書により認識されにくい文字を用い
ることにより、少ない容量の異種文字辞書を用いて、認
識率の向上が図れる。
【0024】また、翻訳手段(5)が認識した単語を翻訳
し、出力画像形成手段(8)が翻訳した単語の文字画像を
出力画像メモリに書込み、書込んだ情報を出力するの
で、原稿画像を正しく認識した文字に対する翻訳文字が
形成される。
【0025】また、第2の発明によれば、まず、原稿読
取手段(2)が原稿画像を読み取り、記憶手段(3)が、原稿
読取手段(2)が読み取った原稿の画像情報を格納する。
さらに文字認識手段(4)が、記憶手段(3)に格納された画
像情報から文字単位の情報を切り出し、切り出した文字
単位の情報の間隔から単語情報を抽出して、初期値とし
て標準文字が登録された登録辞書を基に単語単位で文字
を認識し、文字登録手段(4)が、文字認識手段(4)により
認識された文字の原稿文字を、登録辞書に登録する。従
って例えば、英文章の原稿に対して、まず、アルファベ
ット単位の文字情報の切り出しを行ない、これを基に単
語単位で文字を認識することが可能である。また、文字
認識する際にまず、標準辞書で認識を行ない、認識され
た文字について原稿文字の登録を行なうので、次回以後
はこの原稿文字を用いて文字認識を行なう。これによ
り、原稿文字が手書き文字である場合、原稿を書いた人
の文字をそのまま辞書に登録することにより次回からの
文字認識においては、原稿を書いた人の文字の”くせ”
を特徴としてとらえることができ、認識率の向上が図れ
る。
【0026】また、翻訳手段(5)が認識した単語を翻訳
し、出力画像形成手段(8)が翻訳した単語の文字画像を
出力画像メモリに書込み、書込んだ情報を出力するの
で、原稿画像を正しく認識した文字に対する翻訳文字が
形成される。
【図面の簡単な説明】
【図1】 本発明のデジタル翻訳装置の構成概略のブロ
ック図である。
【図2】 図1に示す操作部7に対応したCPU1の制
御動作の概要を示すフローチャートである。
【図3】 図2に示す文字認識処理(400)の内容を
示すフローチャートである。
【図4】 原稿対応の画像の一例を示す平面図である。
【図5】 図4に示す原稿画像に対して、主走査方向の
黒画素のヒストグラムを計算し文字画像を行単位で切り
出す際の、原稿対応の画像の一例を示す平面図である。
【図6】 図5に示した行単位で切り出したの文字画像
を、副走査方向に黒画素のヒストグラムを計算し1文字
単位の文字画像を切り出す際の、原稿対応の画像の一例
を示す平面図である。
【図7】 1文字単位で切り出された文字画像の一例を
示す平面図である。
【図8】 1文字単位の文字画像をグループ化して単語
単位で抽出した一例を示す平面図である。
【図9】 図3に示す文字認識処理(実施例1)と別
の、文字認識処理(実施例2)の内容を示すフローチャ
ートである。
【符号の説明】
1:CPU 2:スキャナ(画稿
読取手段) 3:画像メモリ(記憶手段) 4:文字認識部(文字認識手段,文字再認識手段,文字
登録手段) 5:翻訳部(翻訳手段) 6:文字認識辞書部 7:操作部 8:出力部(出力画
像形成手段)

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】原稿画像を読み取る原稿読取手段;原稿読
    取手段が読み取った原稿の画像情報を格納する記憶手
    段;記憶手段に格納された画像情報から文字単位の情報
    を切り出し、切り出した文字単位の情報の間隔から単語
    情報を抽出して、標準辞書を基に単語単位で文字を認識
    する文字認識手段;文字認識手段により認識されなかっ
    た文字について、特定の文字のみが登録された異種文字
    辞書を基に単語単位で文字を再認識する文字再認識手
    段;認識した単語を翻訳する翻訳手段;および、 翻訳した単語の文字画像を出力画像メモリに書込み、書
    込んだ情報を出力する出力画像形成手段;を備える、デ
    ジタル翻訳装置。
  2. 【請求項2】原稿画像を読み取る原稿読取手段;原稿読
    取手段が読み取った原稿の画像情報を格納する記憶手
    段;記憶手段に格納された画像情報から文字単位の情報
    を切り出し、切り出した文字単位の情報の間隔から単語
    情報を抽出して、初期値として標準文字が登録された登
    録辞書を基に単語単位で文字を認識する文字認識手段;
    文字認識手段により認識された文字の原稿文字を、登録
    辞書に登録する文字登録手段;認識した単語を翻訳する
    翻訳手段;および、 翻訳した単語の文字画像を出力画像メモリに書込み、書
    込んだ情報を出力する出力画像形成手段;を備える、デ
    ジタル翻訳装置。
JP3211710A 1991-08-23 1991-08-23 デジタル翻訳装置 Pending JPH0554071A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3211710A JPH0554071A (ja) 1991-08-23 1991-08-23 デジタル翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3211710A JPH0554071A (ja) 1991-08-23 1991-08-23 デジタル翻訳装置

Publications (1)

Publication Number Publication Date
JPH0554071A true JPH0554071A (ja) 1993-03-05

Family

ID=16610317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3211710A Pending JPH0554071A (ja) 1991-08-23 1991-08-23 デジタル翻訳装置

Country Status (1)

Country Link
JP (1) JPH0554071A (ja)

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US5539841A (en) Method for comparing image sections to determine similarity therebetween
JP2713622B2 (ja) 表形式文書読取装置
US7162086B2 (en) Character recognition apparatus and method
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JPH04195692A (ja) 文書読取装置
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
Vasantha Lakshmi et al. OCR of printed Telugu text with high recognition accuracies
US10997452B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JPH0554071A (ja) デジタル翻訳装置
JPH0554072A (ja) デジタル翻訳装置
JPH0728935A (ja) 文書画像処理装置
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
JP3428504B2 (ja) 文字認識装置
JP2985813B2 (ja) 文字列認識装置および知識データベース学習方法
JP3060248B2 (ja) 表認識装置
JP3197441B2 (ja) 文字認識装置
JPH0452783A (ja) 図面読取装置
JPH05174185A (ja) 日本語文字認識装置
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JP2963474B2 (ja) 類似文字識別方法
JPH02230484A (ja) 文字認識装置
JP3239965B2 (ja) 文字認識装置
JP2995825B2 (ja) 日本語文字認識装置
JPS6160184A (ja) 光学的文字読取装置