JPH1166240A - 文書認識方法および文書認識装置 - Google Patents

文書認識方法および文書認識装置

Info

Publication number
JPH1166240A
JPH1166240A JP9233276A JP23327697A JPH1166240A JP H1166240 A JPH1166240 A JP H1166240A JP 9233276 A JP9233276 A JP 9233276A JP 23327697 A JP23327697 A JP 23327697A JP H1166240 A JPH1166240 A JP H1166240A
Authority
JP
Japan
Prior art keywords
image
recognition
document
extracted
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9233276A
Other languages
English (en)
Inventor
Hirofumi Nishida
広文 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9233276A priority Critical patent/JPH1166240A/ja
Publication of JPH1166240A publication Critical patent/JPH1166240A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 二値画像を使った認識方法では認識できない
ような低品質の画像についてのみ濃淡値を用いた認識方
法を適用することにより,システム全体の効率低下を阻
止し,認識精度を向上させること。 【解決手段】 認識対象の文書画像から文字画像パター
ンを抽出するステップS101と,上記抽出された文字
画像パターンの濃淡値画像を保持するステップS102
と,上記保持された濃淡値画像に対して二値化処理を行
い,二値画像を生成するステップS103と,上記生成
された二値画像から抽出される特徴を用いて認識処理を
行うステップS104と,ステップS104で認識でき
なかった場合に,上記保持された濃淡値画像に対し,濃
淡値から抽出される特徴を用いて認識処理を行うステッ
プS106,S107と,を含む。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は,文字やシンボルか
ら構成される文書画像を認識する場合に,二値画像を使
った認識方法では認識できないような低品質の画像につ
いてのみ濃淡値を用いた認識方法を適用する文書認識方
法および文書認識装置に関する。
【0002】
【従来の技術】従来より,スキャナなどの画像入力装置
で読み取った文書画像を自動的に認識する文字認識装置
(あるいは方法)が知られている。ところが,実際の文
書画像では,画質あるいは手書き文書である場合,個人
による書き方のくせなどにより,その品質は多種多様で
ある。これまでに多くの文字やシンボル・パターンの認
識手法が提案あるいは実施されてきているが,それぞれ
の手法には長所・短所があり,万能なものではない。
【0003】たとえば,構造解析的手法と呼ばれる認識
手法は,一般に形の変形に対しては頑健であるが,画質
の劣化(潰れやかすれ)には敏感である。反対に,パタ
ーンマッチング手法あるいは統計的手法と呼ばれている
認識手法は,一般に画質の劣化(潰れやかすれ)に対し
ては頑健であるが,形の変形には敏感である。このた
め,たとえば,特開平7−160822号公報に開示さ
れているように,実際の文書画像認識システムにおい
て,いくつかの異なる認識手法を組み合わせることによ
り,多種多様の文書品質に対処している。
【0004】多くの文字やシンボル・パターンの認識手
法では,もともと濃淡値画像として入力されたパターン
に対して,二値化処理を施すことにより生成される二値
画像から抽出される特徴を用いているものが多い。この
二値化処理には,画像全体を1つの閾値で分ける大局的
二値化と,画素ごとに異なる閾値で分ける局所的二値化
との2つがあるが,それぞれの手法に長所・短所があ
り,いずれにおいても万能なものではなかった。
【0005】そこで,上記二値化処理を施さずに,もと
もとの濃淡値画像を用い,その濃淡値情報から抽出され
る特徴に基づいて文字やシンボル・パターンを認識する
手法も提案されている。
【0006】
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来の認識方法にあっては,低品質のパ
ターンの認識精度が向上するが,一方で,一般に濃淡値
画像から抽出される特徴を用いた認識方法は,二値画像
を使った認識方法に比べて処理が複雑なため,処理計算
に時間がかかり,この認識方法を組み込んだシステムに
おいて,システム全体の効率を低下させるという問題点
があった。
【0007】本発明は,上記に鑑みてなされたものであ
って,二値画像を使った認識方法では認識できないよう
な低品質の画像についてのみ濃淡値を用いた認識方法を
適用することにより,システム全体の効率低下を阻止
し,認識精度を向上させることを目的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係る文書認識方法にあっては,認識対
象の文書画像から文字画像パターンを抽出する第1の工
程と,前記第1の工程で抽出された文字画像パターンの
濃淡値画像を保持する第2の工程と,前記第2の工程で
保持された濃淡値画像に対して二値化処理を行い,二値
画像を生成する第3の工程と,前記第3の工程で生成さ
れた二値画像から抽出される特徴を用いて認識処理を行
う第4の工程と,前記第4の工程で認識できなかった場
合に,前記第2の工程で保持された濃淡値画像に対し,
濃淡値から抽出される特徴を用いて認識処理を行う第5
の工程と,を含むものである。
【0009】また,請求項2に係る文書認識装置にあっ
ては,認識対象の文書画像を入力し,前記画像文書から
文字画像パターンを抽出した後,該文字画像パターンに
対する認識処理を実行し,出力する文書認識装置におい
て,前記文字画像パターンの濃淡値画像に対して二値化
処理を行い,二値画像を生成し,二値画像から抽出され
る特徴を用いて認識処理を行う第1の認識処理と,前記
第1の処理で認識できなかった場合に,前記濃淡値画像
に対し,濃淡値から抽出される特徴を用いて認識処理を
行う第2の認識処理とを実行する認識処理手段を備えた
ものである。
【0010】すなわち,請求項1,2では,文書画像か
ら抽出された文字やシンボル・パターンの画像に対し
て,まず二値化処理を行い,該二値化処理により生成さ
れた二値画像を用いた認識処理を適用し,さらに,その
認識により判読できなかった場合に,もともとの文字や
シンボル・パターンの濃淡値画像を使って,濃淡値情報
から抽出される特徴を用いた認識処理を適用することに
より,二値画像を使った認識方法では認識できないよう
な低品質の画像についてのみ濃淡値を用いた認識方法を
適用するので,システム全体の効率低下を阻止すること
ができると共に,認識精度も向上する。
【0011】
【発明の実施の形態】以下,本発明の文書認識方法およ
び文書認識装置について添付図面を参照し,詳細に説明
する。
【0012】図1は,この実施の形態に係る文書認識方
法を示すフローチャートである。また,図3は,図1に
おける認識方法を実行する文書認識装置の構成を示すブ
ロック図である。
【0013】この文書認識装置は,イメージスキャナな
どのデジタル画像入力機器から文書画像を入力する入力
部301と,この装置全体の制御・演算(認識処理)を
実行する認識処理手段の機能を有する制御部(CPU)
302と,各部の制御プログラムや後述する認識プログ
ラムなどが格納されているROM303と,認識処理に
必要なデータや認識途中のデータなどを記憶しておき,
必要に応じて読み出し可能なデータ記憶部304と,外
部機器に認識結果を出力する出力部305と,を備えて
いる。
【0014】次に,以上のように構成された文書認識装
置における文書認識方法について説明する。図1におい
て,まず,文書画像から文字およびシンボル・パターン
を抽出する(S101)。この場合,もともとの文書画
像はスキャナあるいはデジタルカメラなどの画像入力機
器を通して,濃淡値の画像として入力されているので,
上記抽出された文字やシンボル・パターンを濃淡値画像
として保持しておく(S102)。
【0015】なお,上記の濃淡値画像として,たとえば
図2に示すようなものがある。次いで,上記抽出された
文字やシンボル・パターンの濃淡値画像に対し,二値化
処理を施し,二値画像を生成する(S103)。
【0016】上記二値化処理として適用される方法とし
て,たとえば森,坂倉著による画像認識の基礎〔1〕,
オーム社,42〜46頁に開示されている『判別分析二
値化法』を用いる。この判別分析二値化法は,基本的に
は,ある未知の閾値または濃度レベルで,濃度分布は白
と黒の二つのレベルに分け,このクラス分けについて判
別分析二値化法の手法を適用し,判別基準の意味で最適
な閾値を決定するものである。
【0017】引き続いて,上記二値画像化画像の特徴を
用い,その文字やシンボル・パターンを認識し(S10
4),認識(判読)できたか否かを判断する(S10
5)。すなわち,その二値画像に対し,二値画像から抽
出される特徴を用いた認識方式を適用する。適用する認
識方式としては,輪郭追跡による方法の一つとして知ら
れている,たとえば二値化画像の輪郭から抽出される特
徴を用いる『最外点リスト法』(上記と同様に画像認識
の基礎〔1〕,244〜248頁に開示されている)を
用いればよい。また,ここでの認識方式は,たとえば特
開平7−160822号公報の『パターン認識方法』に
開示されているような複数の認識方式の組み合わせであ
ってもよい。
【0018】上記ステップS105において認識できた
場合には,その認識結果を出力する(S108)。すな
わち,二値画像から抽出される特徴を用いた認識方式か
らは,各辞書パターンと入力パターンの類似度(あるい
は距離)が出力される。ここで,最も類似度が高い辞書
パターンとの類似度がある閾値以上,あるいは最も距離
が近い辞書パターンとの距離がある閾値以下であれば,
認識結果として出力する。
【0019】一方,上記ステップS105において認識
できないと判断した場合(リジェクトされた場合)に
は,上記ステップS102で保持しておいた濃淡値画像
から認識に有効な特徴を抽出し,その特徴を用いて認識
処理を行う(S106)。なお,ここで適用する特徴抽
出方式として,たとえば輪郭特徴を濃淡値画像から抽出
する方式を用いる。
【0020】また,ここで適用する認識方式としては,
たとえば濃淡値画像から抽出された特徴に対し,前述の
『最外点リスト法』を適用することができる。この結
果,濃淡値画像から抽出される特徴を用いた認識方式か
らは,各辞書パターンと入力パターンの類似度(あるい
は,距離)が出力され,二値化画像の場合と同様に,認
識結果の判定を行い,結果を出力し(S108),終了
する。
【0021】
【発明の効果】以上説明したように,本発明に係る文書
認識方法(請求項1),文書認識装置(請求項2)によ
れば,文書画像から抽出された文字やシンボル・パター
ンの画像に対して,まず二値化処理を行い,該二値化処
理により生成された二値画像を用いた認識処理を適用
し,さらに,その認識により判読できなかった場合に,
もともとの文字やシンボル・パターンの濃淡値画像を使
って,濃淡値情報から抽出される特徴を用いた認識処理
を適用することにより,二値画像を使った認識方法では
認識できないような低品質の画像についてのみ濃淡値を
用いた認識方法を適用するので,システム全体の効率低
下を阻止することができると共に,認識精度も向上す
る。
【図面の簡単な説明】
【図1】この実施の形態に係る文書認識方法を示すフロ
ーチャートである。
【図2】この実施の形態に係る濃淡値画像例を示す説明
図である。
【図3】図1における認識方法を実行する文書認識装置
の構成を示すブロック図である。
【符号の説明】 301 入力部 302 制御部(CPU) 303 ROM 304 データ記憶部 305 出力部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 認識対象の文書画像から文字画像パター
    ンを抽出する第1の工程と,前記第1の工程で抽出され
    た文字画像パターンの濃淡値画像を保持する第2の工程
    と,前記第2の工程で保持された濃淡値画像に対して二
    値化処理を行い,二値画像を生成する第3の工程と,前
    記第3の工程で生成された二値画像から抽出される特徴
    を用いて認識処理を行う第4の工程と,前記第4の工程
    で認識できなかった場合に,前記第2の工程で保持され
    た濃淡値画像に対し,濃淡値から抽出される特徴を用い
    て認識処理を行う第5の工程と,を含むことを特徴とす
    る文書認識方法。
  2. 【請求項2】 認識対象の文書画像を入力し,前記画像
    文書から文字画像パターンを抽出した後,該文字画像パ
    ターンに対する認識処理を実行し,出力する文書認識装
    置において,前記文字画像パターンの濃淡値画像に対し
    て二値化処理を行い,二値画像を生成し,二値画像から
    抽出される特徴を用いて認識処理を行う第1の認識処理
    と,前記第1の処理で認識できなかった場合に,前記濃
    淡値画像に対し,濃淡値から抽出される特徴を用いて認
    識処理を行う第2の認識処理と,を実行する認識処理手
    段を備えたことを特徴とする文書認識装置。
JP9233276A 1997-08-15 1997-08-15 文書認識方法および文書認識装置 Pending JPH1166240A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9233276A JPH1166240A (ja) 1997-08-15 1997-08-15 文書認識方法および文書認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9233276A JPH1166240A (ja) 1997-08-15 1997-08-15 文書認識方法および文書認識装置

Publications (1)

Publication Number Publication Date
JPH1166240A true JPH1166240A (ja) 1999-03-09

Family

ID=16952563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9233276A Pending JPH1166240A (ja) 1997-08-15 1997-08-15 文書認識方法および文書認識装置

Country Status (1)

Country Link
JP (1) JPH1166240A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026027A (ja) * 2005-07-15 2007-02-01 Fujitsu Ltd 文字認識プログラム、文字認識装置及び文字認識方法
JP2008089523A (ja) * 2006-10-05 2008-04-17 Meidensha Corp トロリ線の摩耗測定装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026027A (ja) * 2005-07-15 2007-02-01 Fujitsu Ltd 文字認識プログラム、文字認識装置及び文字認識方法
JP2008089523A (ja) * 2006-10-05 2008-04-17 Meidensha Corp トロリ線の摩耗測定装置

Similar Documents

Publication Publication Date Title
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5410611A (en) Method for identifying word bounding boxes in text
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US7437002B2 (en) Image recognition system utilizing an edge image and a binary image
WO2011128777A2 (en) Segmentation of textual lines in an image that include western characters and hieroglyphic characters
JP2000132690A (ja) ト―クン化によるイメ―ジ分割を用いたイメ―ジ処理方法および装置
JP2008040693A (ja) ラインノイズ除去装置、ラインノイズ除去方法、ラインノイズ除去プログラム
US6944340B1 (en) Method and apparatus for efficient determination of recognition parameters
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN112861865A (zh) 一种基于ocr技术的辅助审计方法
JP5291387B2 (ja) ナンバー認識装置およびナンバー認識方法
Chang et al. An efficient thresholding algorithm for degraded document images based on intelligent block detection
Dey et al. Colored rubber stamp removal from document images
JP2700131B2 (ja) パターン認識方法
JPH11272800A (ja) 文字認識装置
JPH1166240A (ja) 文書認識方法および文書認識装置
US6961465B2 (en) System and method for efficient determination of recognition initial conditions
JP2005184787A (ja) 画像処理方法及び画像処理装置
Aparna et al. A complete OCR system development of Tamil magazine documents
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JPH08272902A (ja) 異字体異品質文字の認識方法
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
Obafemi-Ajayi et al. Ensemble LUT classification for degraded document enhancement
JPH09305707A (ja) 画像抽出方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060725