JPH0660227A - 文字認識用辞書の作成方法とその辞書を用いた文字認識方法 - Google Patents

文字認識用辞書の作成方法とその辞書を用いた文字認識方法

Info

Publication number
JPH0660227A
JPH0660227A JP4214062A JP21406292A JPH0660227A JP H0660227 A JPH0660227 A JP H0660227A JP 4214062 A JP4214062 A JP 4214062A JP 21406292 A JP21406292 A JP 21406292A JP H0660227 A JPH0660227 A JP H0660227A
Authority
JP
Japan
Prior art keywords
character
character quality
dictionary
quality
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4214062A
Other languages
English (en)
Inventor
Yasuo Hongo
保夫 本郷
Akiko Konno
章子 紺野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP4214062A priority Critical patent/JPH0660227A/ja
Publication of JPH0660227A publication Critical patent/JPH0660227A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 つぶれやかすれを含む文字品質の低下したパ
ターンについても高精度の認識を可能とする。 【構成】 認識対象となる文字全体を、文字品質の劣化
に強い文字のグループと文字品質の劣化に弱いグループ
とに分割し、文字品質の劣化に弱い文字のグループにつ
いては文字品質の良好なパターンから得た特徴量だけで
なく、軽度のつぶれやかすれを含むパターンから、文字
品質の低下に強い特徴抽出方法により得た特徴量も加え
た辞書12を作成して、通常の辞書8,9とは別に用意
しておくことにより、文字品質が低下したパターンも高
精度に認識し得るようにする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、光学式文字読取装置
(OCR)における文字認識用辞書の作成方法、および
その辞書を用いた文字認識方法に関する。
【0002】
【従来の技術】従来、OCRではより高精度の認識を行
なうために、文字品質の良好な文字パターンを収集し
て、それらから抽出した特徴量を用いて認識用辞書を作
成し、認識対象の文字から抽出した特徴量と比較するこ
とにより、認識を行なうのが一般的である。
【0003】
【発明が解決しようとする課題】OCRによる認識精度
が低下する理由としては、主として次の3つが考えられ
る。 (1)認識辞書による誤読(字形類似文字) (2)文字のつぶれによる誤読 (3)線のかすれによる誤読 これらのうち、(1)の字形類似文字は文字品質や字体
にかかわらず存在するだけでなく、認識結果の候補文字
中に正解があるので、これを用いた知識処理で或る程度
対応可能である。これに対し、(2),(3)では文字
品質の程度にもよるが、認識結果の候補文字中に正解が
含まれないこともあるので、このような場合は知識処理
による救済も困難となる。
【0004】一方、低品質の文字を改良する方法として
は、画像を入力するために高性能,高解像度のスキャナ
を用いる方法があるが、スキャナの解像度を高くすると
画像を記憶するためのメモリ容量が大きくなり、文字切
り出しなどの時間もまた増大する。加えて、もとの文書
自体が何回もコピーをとったような低品質の文書の場合
は、いくらスキャナが高性能でも画像品質は向上しな
い。したがって、この発明の課題は文書の文字品質に係
わりなく高速かつ高精度の文字認識を可能にすることに
ある。
【0005】
【課題を解決するための手段】このような課題を解決す
るため、第1の発明では、認識の対象となる文字全体
を、文字品質の劣化に強い文字のグループと文字品質の
劣化に弱いグループとに分割し、それぞれ通常の特徴抽
出を行なって第1,第2の辞書を作成するとともに、文
字品質の劣化に弱い文字のグループについてはその辞書
作成時に、文字品質の良好なパターンだけでなく軽度の
つぶれ,かすれのあるパターンも使用し、これらの文字
品質の劣化したパターンをいくつかのパターンに分類
し、分類した各々に対して、文字品質良好な文字とは別
の文字品質の低下に強い特徴抽出手法を用いて分類した
各々をテンプレートとして、低品質文字用の第3の辞書
を作成することを特徴としている。
【0006】第2の発明では、前記第1,第2の辞書と
第3の辞書とを予め作成しておくとともに、これらを用
いて文書中の一部を並列に認識した結果のテンプレート
の文字品質から文書全体の文字品質を推定し、文字品質
が良好と判定されたときは前記第1,第2の辞書を用い
て認識を行なう一方、文字品質が悪いと判定されたとき
は、文字品質の劣化に強い文字については前記第1の辞
書だけを用いて認識を行ない、文字品質の劣化に弱い文
字については前記第3の辞書だけを用いて認識を行なう
ことを特徴としている。
【0007】
【作用】軽度のかすれ,つぶれを含む文字パターンか
ら、文字品質の劣化に強い特徴抽出方法を用いて認識用
辞書を予め作成しておくことにより、高速かつ高精度の
文字認識を可能にする。
【0008】
【実施例】図1はこの発明の第1の実施例を示すフロー
チャート、図2はこの発明の第2の実施例を示すフロー
チャート、図3はこの発明が適用される文字認識装置を
示すブロック図である。まず、図3から説明する。同図
において、1は文書、2は画像入力装置としてのイメー
ジスキャナ、3はOCR、15は認識結果を示してい
る。また、OCR3は行切出モジュール4、文字切出モ
ジュール5、特徴抽出部6,10、認識部7,11、認
識辞書8,9,12、認識結果選択部13、文字品質判
定部14などから構成されている。
【0009】すなわち、文書1はイメージスキャナ2に
より、イメージ情報としてOCR3に入力される。行切
出モジュール4は文書画像からテキストの書かれた行を
抽出し、文字切出モジュール5はその各行から個々の文
字を抽出する。特徴抽出部6は文字品質良好な文字の画
像に対してその特徴抽出を行なうもので、ここで抽出さ
れた文字の特徴量は認識部7において、認識辞書8,9
を参照して類似度演算や距離演算が行なわれる。なお、
認識辞書8は文字品質の劣化に強い文字グループのため
の辞書を示し、認識辞書9は文字品質の劣化に弱い文字
グループのための辞書をそれぞれ示す。
【0010】特徴抽出部10はモジュール5によって切
り出された個々の文字画像に対し、文字品質の劣化に強
い特徴抽出手法によって特徴抽出を行ない、認識部11
は文字品質の劣化に弱い文字グループについて、若干の
つぶれ,かすれを含んだ文字から作成した辞書12を用
いて認識を行なう。認識結果選択部13は認識部7,1
1から得られる認識結果について類似度または距離を評
価し、いずれも大きい方を選択する。文書中の一部につ
いて、認識部7,11で並列認識を行ない、文字品質判
定部14において認識結果の文字品質が良好と分かった
場合は並列認識を中止し、文字品質良好な特徴抽出・認
識(6・7)だけを行なう。一方、文字品質が悪いと分
かった場合は並列認識はそのまま続行し、文字品質の劣
化に弱い文字グループについては、認識用辞書9は使わ
ずに認識用辞書12だけを用いて認識を行なうこととす
る。
【0011】ここで、図1について説明する。これは、
この発明による辞書作成方法を説明するためのフローチ
ャートである。まず、ステップS1では対象文字が、文
字品質の劣化に強いか弱いかを判定する。その結果、文
字品質の劣化に強い場合はステップS2に進みここで通
常の特徴抽出手法を用いて辞書8(A)を作成する(ス
テップS3)。一方、文字品質の劣化に弱い文字のとき
はステップS4へ進み、ここで文字品質良好な文字の場
合は通常の特徴抽出手法を用いて辞書9(B)を作成し
(ステップS5)、さらにはつぶれ,かすれなどの軽度
の文字品質の悪い文字パターンを収集し、これらを文字
品質の低下に強い特徴抽出手法により特徴抽出をして辞
書12(B’)を作成する(ステップS6,S7)。
【0012】図2はこの発明による認識方法を説明する
ためのフローチャートである。まず、ステップS1では
文書中の一部を2種類の特徴抽出手法により並列認識さ
せ、その結果からステップS2で文書の文字品質を推定
する。推定不可能な場合は、もう少しの間並列認識を続
行する。そして、文字品質良好と判断された場合は、低
文字品質用の特徴抽出・認識を中止し、通常の手法によ
り認識を行なう(ステップS3)。一方、文字品質が劣
化していると判断されたときは並列認識はそのままにし
て、文字品質の劣化に弱い文字のグループについては、
文字品質良好な文字から作成した辞書9は使用せずに、
低品質の文字から作成した辞書12だけを用いて認識を
行なう(ステップS4)。
【0013】図4はこの発明の辞書作成方法を具体的に
説明するための説明図である。これは、「設」という漢
字の認識用辞書を作成する場合、従来は同図(イ),
(ロ),(ハ)のように、様々な字体の文字品質良好な
文字パターンを収集し、それらを字形等によりさらにい
くつかに分類し(例えば明朝体,ゴシック体等)、その
集合毎に1つの認識用テンプレート1〜Nを作成する。
これに対し、この発明では同図(ニ),(ホ)のよう
に、従来と同様に収集した文字品質良好な文字パターン
から作成した辞書9に加え、軽度のつぶれやかすれを含
んでおり、従来では認識できなかった文字パターンも
(ヘ),(ト)のように収集する。
【0014】例えば、「設」のごんべんの口の部分が潰
れたり、かすれたパターン等を収集する。横線が全てか
すれたパターン等は人間には認識可能であっても、OC
Rの認識可能範囲からは逸脱しているものとみなし、収
集の範囲外とする。また、一口に線のかすれと云って
も、かすれる部分によっては文字パターンとしては別物
になってしまうが、ここでは明朝体の横線など特に多い
かすれパターンに限って収集する。この発明では、これ
らのパターンを従来方式と同様、いくつかに分類してそ
の集合毎に認識用テンプレートを作成し、辞書12とす
る。辞書作成時には文字品質の劣化に強い特徴抽出手法
を用いるテンプレートには、そのテンプレートを作成す
るのに使用した文字パターンの品質(つぶれ,良好,か
すれなど)を数値化した情報を付けておくこととする。
【0015】図5はこの発明による認識方法を具体的に
説明するための説明図である。ここでは、軽度のつぶれ
を含んだ「設」という文字パターンの処理例で、同図
(イ)は従来方式を示し、同図(ロ)はこの発明による
方法を示す。すなわち、(イ)では特徴抽出を行なった
後、認識対象となる辞書と類似度または距離演算を行な
っているが、「設」という文字パターンの認識用辞書と
して文字品質良好なパターンの特徴量からテンプレート
を作成しているため、つぶれのある「設」の文字は、こ
こでは「段」と認識されている。
【0016】これに対し、図5(ロ)では、入力文字画
像に対して2種類の特徴抽出を行ない、その結果を並列
に認識している。その結果、文字品質が良好な辞書8,
9を用いた認識では、従来と同じく「段」という認識結
果が出てくる。一方、低文字品質の辞書12を用いた認
識では、つぶれのある文字パターンから作成した「設」
という認識結果が出てくる。ここでは、つぶれのある文
字パターンから作成した辞書の方が当然、類似している
と考えられるので、最終的には「設」という認識結果が
選択されることになる。図6につぶれがある場合の認識
結果例を示す。同図(イ)は入力文字列を示し、(ロ)
は従来方式での認識結果を示し、(ハ)はこの発明によ
る認識結果を示す。この発明による方法の方が、正しく
認識できることが分かる。
【0017】
【発明の効果】この発明によれば、 軽度の線のかすれ,つぶれ等により入力画像の文字の
品質が悪い場合、軽度のかすれ,つぶれを含む文字パタ
ーンから、文字品質の劣化に強い特徴抽出方法を用いて
認識用辞書を作成するようにしたので、入力画像の文字
の品質が悪い場合でも認識が可能となる。 認識対象文字を文字品質の劣化に強い文字のグループ
と、文字品質の劣化に弱いグループとに2分し、後者に
対してだけ文字品質の劣化したサンプルから認識用辞書
を作成するようにしたので、辞書の容量を必要最小限に
抑えることが可能となる。 認識用辞書テンプレートに文字品質指数を付けて、文
字の一部を認識させた結果から文書中の文字品質を類推
し、その結果に応じて認識手法とそこで使用する辞書と
を選択するようにしたので、高速かつ高精度の認識が可
能となる。 などの利点が得られる。
【図面の簡単な説明】
【図1】この発明の第1実施例を示すフローチャートで
ある。
【図2】この発明の第2実施例を示すフローチャートで
ある。
【図3】この発明が適用される文字認識装置を示すブロ
ック図である。
【図4】この発明による辞書作成方法を具体的に説明す
るための説明図である。
【図5】この発明による認識方法を説明するための説明
図である。
【図6】つぶれがある場合の認識結果例を説明するため
の説明図である。
【符号の説明】
1…文書、2…イメージスキャナ、3…OCR、4…行
切出モジュール、5…文字切出モジュール、6…特徴抽
出部、7,11…認識部、8,9,12…認識用辞書、
10…認識部、13…最適結果選択部、14…文字品質
判定部、15…認識結果。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 認識の対象となる文字全体を、文字品質
    の劣化に強い文字のグループと文字品質の劣化に弱いグ
    ループとに分割し、それぞれ通常の特徴抽出を行なって
    第1,第2の辞書を作成するとともに、文字品質の劣化
    に弱い文字のグループについてはその辞書作成時に、文
    字品質の良好なパターンだけでなく軽度のつぶれ,かす
    れのあるパターンも使用し、これらの文字品質の劣化し
    たパターンをいくつかのパターンに分類し、分類した各
    々に対して、文字品質良好な文字とは別の文字品質の低
    下に強い特徴抽出手法を用いて分類した各々をテンプレ
    ートとして、低品質文字用の第3の辞書を作成すること
    を特徴とする文字認識用辞書の作成方法。
  2. 【請求項2】 認識の対象となる文字全体を、文字品質
    の劣化に強い文字のグループと文字品質の劣化に弱いグ
    ループとに分割し、それぞれ通常の特徴抽出を行なって
    第1,第2の辞書を作成するとともに、文字品質の劣化
    に弱い文字のグループについてはその辞書作成時に、文
    字品質の良好なパターンだけでなく軽度のつぶれ,かす
    れのあるパターンも使用し、これらの文字品質の劣化し
    たパターンをいくつかのパターンに分類し、分類した各
    々に対して、文字品質良好な文字とは別の文字品質の低
    下に強い特徴抽出手法を用いて分類した各々をテンプレ
    ートとして、低品質文字用の第3の辞書を作成してお
    き、しかる後、前記第1,第2の辞書と第3の辞書とを
    用いて、文書中の一部を並列に認識した結果のテンプレ
    ートの文字品質から文書全体の文字品質を推定し、文字
    品質が良好と判定されたときは前記第1,第2の辞書を
    用いて認識を行なう一方、文字品質が悪いと判定された
    ときは、文字品質の劣化に強い文字については前記第1
    の辞書だけを用いて認識を行ない、文字品質の劣化に弱
    い文字については前記第3の辞書だけを用いて認識を行
    なうことを特徴とする文字認識方法。
JP4214062A 1992-08-11 1992-08-11 文字認識用辞書の作成方法とその辞書を用いた文字認識方法 Pending JPH0660227A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4214062A JPH0660227A (ja) 1992-08-11 1992-08-11 文字認識用辞書の作成方法とその辞書を用いた文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4214062A JPH0660227A (ja) 1992-08-11 1992-08-11 文字認識用辞書の作成方法とその辞書を用いた文字認識方法

Publications (1)

Publication Number Publication Date
JPH0660227A true JPH0660227A (ja) 1994-03-04

Family

ID=16649630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4214062A Pending JPH0660227A (ja) 1992-08-11 1992-08-11 文字認識用辞書の作成方法とその辞書を用いた文字認識方法

Country Status (1)

Country Link
JP (1) JPH0660227A (ja)

Similar Documents

Publication Publication Date Title
US6252988B1 (en) Method and apparatus for character recognition using stop words
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
JP3452774B2 (ja) 文字認識方法
JPH05282488A (ja) 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法
Zeki The segmentation problem in arabic character recognition the state of the art
CN111401099A (zh) 文本识别方法、装置以及存储介质
La Manna et al. Optical font recognition for multi-font OCR and document processing
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
JPH0660227A (ja) 文字認識用辞書の作成方法とその辞書を用いた文字認識方法
Tzogka et al. OCR Workflow: Facing Printed Texts of Ancient, Medieval and Modern Greek Literature.
JP3930466B2 (ja) 文字認識装置、文字認識プログラム
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JPH08272902A (ja) 異字体異品質文字の認識方法
JPH08287188A (ja) 文字列認識装置
JP3151866B2 (ja) 英文字認識方法
JP3072126B2 (ja) 書体を識別する方法及び装置
JP2906758B2 (ja) 文字読取装置
JP2995818B2 (ja) 文字切り出し方法
JPH08241378A (ja) 低品質文字の認識方法
Ramteke et al. Tesseract OCR Recognition Based on Arabic Machine-Printed Document
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPH02230484A (ja) 文字認識装置
Kropotov et al. Nikita Lomov1, 2 (), Dmitry Kropotov¹, 3
JP2974145B2 (ja) 文字認識結果の修正方法
JP2746345B2 (ja) 文字認識の後処理方法