JP2002092549A - 文字認識方法および記録媒体 - Google Patents

文字認識方法および記録媒体

Info

Publication number
JP2002092549A
JP2002092549A JP2000285502A JP2000285502A JP2002092549A JP 2002092549 A JP2002092549 A JP 2002092549A JP 2000285502 A JP2000285502 A JP 2000285502A JP 2000285502 A JP2000285502 A JP 2000285502A JP 2002092549 A JP2002092549 A JP 2002092549A
Authority
JP
Japan
Prior art keywords
area
character recognition
information
character
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000285502A
Other languages
English (en)
Inventor
Keiji Kojima
啓嗣 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000285502A priority Critical patent/JP2002092549A/ja
Publication of JP2002092549A publication Critical patent/JP2002092549A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 領域識別の結果として得られる領域の抽出精
度を向上させることにより、文字の認識精度を向上させ
る。 【解決手段】 入力された文書画像(1)から文字、表
など可能性のある領域候補を抽出し(2)、文字認識結
果(3)の情報を利用して最適な領域候補を選択し
(5)、認識結果を出力する(6)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識方法に関
し、特に光学的文字読取装置(OCR)の認識前処理に
関する。
【0002】
【従来の技術】文書画像から文字領域、表領域、写真・
図などのその他領域を自動的に抽出する領域識別(レイ
アウト解析)技術がある。例えば、分割された領域の属
性を識別し、識別結果が文字領域であるとき文字組み方
向を決定する文字認識方法(特開平5−73714号公
報を参照)、文字矩形を行方向に統合する領域分割方法
(特開平7−334614号公報)などがある。
【0003】
【発明が解決しようとする課題】しかし、上記したレイ
アウト解析技術であっても複雑なレイアウト(例えば、
文字領域に写真領域が入り込んでいるような場合や縦書
き/横書きが混在している場合)等を対象とした場合に
は、必ずしも正しく処理できるとは限らない。
【0004】また、領域識別という技術は、OCRの前
処理に相当する技術であるので、この領域識別の時点で
処理に失敗(領域の誤抽出)した場合には、最終的な認
識精度に大きな影響を与えることになる。
【0005】従って、仮に活字OCRが高性能、高精度
であっても、前処理の段階で失敗があれば、トータルと
しての認識精度は低下することになることから、OCR
の前処理では、極力大きな失敗をしないような工夫が必
要になる。
【0006】本発明は上記した問題に鑑みてなされたも
ので、本発明の目的は、領域識別の結果として得られる
領域の抽出精度を向上させることにより、文字の認識精
度を向上させた文字認識方法および記録媒体を提供する
ことにある。
【0007】
【課題を解決するための手段】本発明では、複数の領域
候補から最適な領域を選択することにより、領域識別
(領域の抽出)の精度を向上させる。そして、最適な領
域を選択する際に、確信度情報を利用する。
【0008】本発明では、文字単位に出力された確信度
情報を行単位、領域単位にまとめる(代表値を求める、
例えば、平均値)。まとめ方としては、文字とその文字
が存在する行、その行が存在する領域の関係が分かるの
で、同一行、同一領域に存在する認識結果の確信度情報
の代表値を求めれば良い。さらに、行単位であれば、代
表値とあらかじめ決められた閾値とを比較し、閾値以下
の行数が占める割合が小さい方を最適な領域として選択
するか、領域単位であれば、それぞれの領域の代表値同
士を比較し、代表値の高い方を最適な領域として選択す
る。もちろん、まず領域同士の確信度情報を比較し、明
らかな差があれば(例えば、確信度情報の差とあらかじ
め決められている閾値を比較し、明らかな差かどうかを
判断する)、その時点で良い方を選択し、僅差であれ
ば、行単位の確信度情報から、最適な領域を選択するよ
うな組み合わせでも可能である。
【0009】本発明は、同じ領域識別でも与える画像を
変えれば(正立画像、180度回転画像)、結果が変わ
ることに着目し、その結果に差があるところを領域の候
補として抽出している。そして、本発明では、最後に最
適な領域を選択しなければならないため、認識結果に近
い情報として、確信度という情報を採用した。この確信
度情報は、最も認識結果に近い数値情報である。何れの
領域が最適であるかは、領域の座標値だけでは、判断で
きない。最終的には、認識結果を見て判断することにな
るが、認識結果の文字コードだけを見て判断するのも難
しい。そこで、本発明では、その文字コードに付属する
確信度情報(数値情報)が最適であるとしてこれを用い
た。
【0010】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 (実施例1)図1は、本発明の実施例の構成を示す。図
において、1は文書画像を入力するスキャナなどの画像
入力部、2は文書画像より文字、表などの領域を自動的
に抽出し、可能性のある領域を複数候補抽出する領域候
補抽出部、3はOCR(光学的文字読取装置)、4は表
処理部、5は文字認識結果の情報を利用して最適な領域
を決定する最適領域候補選択部、6は認識結果を出力す
る出力部である。
【0011】図2は、本発明の実施例の処理フローチャ
ートである。画像入力部1では、2値画像を入力し(ス
テップ101)、スキューを補正し(画像の傾き補正)
(ステップ102)、ノイズを除去(孤立点ノイズ除
去)する(ステップ103)。
【0012】次いで、領域候補抽出部2は、文書画像よ
り文字、表などの領域を自動的に抽出し、可能性のある
領域を複数候補抽出し(ステップ104)、後述するよ
うに、本発明では文字認識結果の情報を利用して、最適
な領域を決定(最適領域候補選択)する。
【0013】図3は、従来の方法によって抽出された領
域の番号(識別記号)を示す。図4は、本発明の方法に
よって可能性のある領域(A〜F)候補を抽出すること
により、領域のパスを発生させ、最適なパスを選択する
例を示す。
【0014】本発明では、領域候補の抽出方法として画
像回転を利用する。複雑なレイアウトの場合、オリジナ
ル画像に対しての領域識別の結果と、所定角度(例えば
180度)回転させた画像に対する領域識別の結果は異
なる。そこで、本発明では画像回転した場合の領域識別
結果を他の一つの候補として利用する。なお、抽出され
た領域の座標値は変換する必要がある。
【0015】図5は、原画像から抽出された領域を示
す。図6は、原画像を180度回転させて領域識別した
例を示す。図5で誤抽出された領域が図6では正しく抽
出されている。
【0016】図7は、原画像から抽出された領域の番号
(識別記号)を示し、図8は、図7のように抽出された
領域のパスを示す。図9は、原画像を180度回転させ
て領域識別した場合の領域の番号(識別記号)を示す。
図10は、図9で得られた領域候補(A〜D)を持つ領
域のパスを示す。
【0017】以下、各候補領域の属性に応じた処理を行
う。OCR3は、文字領域について文字認識する(ステ
ップ105,106)。なお、図7、9を例にすると、
それぞれの画像から得られる領域をまとめたものに対し
て、文字認識を実行する。ただし、問題ない領域に関し
ては、図7、9で同じ座標値(座標変換後)になるた
め、同じ領域に対して2度、文字認識を実行する必要は
ない。
【0018】表処理部4は、表領域について縦、横罫線
を抽出し、罫線枠の座標値を求めるなどの表処理を実行
し(ステップ109、110)、表枠内の文字を認識す
る(ステップ111)。
【0019】最適領域候補選択部5は、文字認識結果の
確信度情報などを利用して最適な領域の候補を選択する
(ステップ107)。具体的には、図10で説明した丸
付き数字7の領域あるいはAとBの領域の何れかを選択
し、丸付き数字11の領域あるいはCとDの領域の何れ
かを選択する。
【0020】この領域選択方法として、確信度情報が高
い(数値が高い方が確からしい)領域を選択する。本発
明では認識結果の確からしさを求める方法として、例え
ば特許第2991779号に記載の方法を用いる。
【0021】確信度情報の第1の例は、文字認識結果の
行単位の確信度情報である。前掲した特許により、領域
内の各文字の確信度情報が求まるので、それらから行単
位の代表値(例えば、平均値)を求める。選択方法とし
ては、例えば、単純に行単位の代表値とあらかじめ決め
られた閾値(例えば80)とを比較し、閾値以下の行数
が占める割合で最適な領域を選択する。
【0022】確信度情報の第2の例は、文字認識結果の
領域単位の確信度情報である。前掲した特許により、領
域内の各文字の確信度情報が求まるので、それらから領
域単位の代表値(例えば、平均値)を求める。選択方法
としては、例えば、単純に領域の代表値同士(例えば、
図10の丸付き数字7とCDの平均値)を比較し、良い
方を最適な領域として選択する。
【0023】確信度情報の第3の例は、文字認識結果の
行単位の確信度情報と領域単位の確信度情報の組み合わ
せである。上記した第1の例と第2の例で、行単位の確
信度情報と領域単位の確信度情報が求まるので、それら
から最適な領域を選択すれば良い。選択方法としては、
まず領域同士の確信度情報を比較し、明らかな差があれ
ば(例えば、確信度情報の差とあらかじめ決められてい
る閾値を比較し、明らかな差かどうかを判断する)、そ
の時点で良い方を選択し、僅差であれば、第1の例の方
法により、最適な領域を選択する。
【0024】選択された最適な領域の認識結果が出力部
6から出力される(ステップ108)。
【0025】(実施例2)図11は、本発明をソフトウ
ェアによって実現する場合の構成例を示す。CD−RO
Mなどの記録媒体には、本発明の図2に示す処理手順や
処理機能を実現させるためのプログラムが記録されてい
る。また、処理対象の画像は、スキャナによってシステ
ムに取り込まれる。あるいは例えばハードディスクなど
に格納されている画像やネットワークを介して取り込ま
れた画像を用いる。CPUは、記録媒体から上記した処
理機能、処理手順を実現するプログラムを読み出し、実
行することにより、画像から最適な領域候補を抽出し、
認識結果をディスプレイなどに出力する。
【0026】
【発明の効果】以上、説明したように、本発明によれ
ば、文書画像から抽出された、可能性のある領域をすべ
て評価することにより、トータルな認識精度の向上を図
ることができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の実施例の処理フローチャートである。
【図3】従来の方法によって抽出された領域の番号(識
別記号)を示す。
【図4】本発明の方法によって可能性のある領域(A〜
F)候補を抽出することにより、領域のパスを発生さ
せ、最適なパスを選択する例を示す。
【図5】原画像から抽出された領域を示す。
【図6】原画像を180度回転させて領域識別した例を
示す。
【図7】原画像から抽出された領域の番号(識別記号)
を示す。
【図8】図7のように抽出された領域のパスを示す。
【図9】原画像を180度回転させて領域識別した場合
の領域の番号(識別記号)を示す。
【図10】図9で得られた領域候補(A〜D)を持つ領
域のパスを示す。
【図11】本発明をソフトウェアによって実現する場合
の構成例を示す。
【符号の説明】
1 画像入力部 2 領域候補抽出部 3 OCR 4 表処理部 5 最適領域候補選択部 6 出力部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文書画像より文字、表などの領域を抽出
    する際に、可能性のある領域を複数候補抽出し、前記各
    候補領域の文字認識結果の情報を基に、前記複数候補か
    ら最適な領域を選択することを特徴とする文字認識方
    法。
  2. 【請求項2】 前記文書画像から抽出される領域と、前
    記文書画像を回転させたときに抽出される領域を、前記
    複数候補とすることを特徴とする請求項1記載の文字認
    識方法。
  3. 【請求項3】 前記文字認識結果の確信度情報を基に、
    最適な領域を選択することを特徴とする請求項1記載の
    文字認識方法。
  4. 【請求項4】 前記確信度情報は、文字認識結果の行単
    位の確信度情報であることを特徴とする請求項3記載の
    文字認識方法。
  5. 【請求項5】 前記確信度情報は、文字認識結果の領域
    単位の確信度情報であることを特徴とする請求項3記載
    の文字認識方法。
  6. 【請求項6】 前記確信度情報は、文字認識結果の行単
    位の確信度情報と領域単位の確信度情報の組み合わせで
    あることを特徴とする請求項3記載の文字認識方法。
  7. 【請求項7】 文書画像および該文書画像を所定角度回
    転させた画像から複数の候補領域を抽出する機能と、前
    記各候補領域を文字認識する機能と、該文字認識結果の
    情報を基に、前記複数候補から最適な領域を選択する機
    能をコンピュータに実現させるためのプログラムを記録
    したコンピュータ読み取り可能な記録媒体。
JP2000285502A 2000-09-20 2000-09-20 文字認識方法および記録媒体 Pending JP2002092549A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000285502A JP2002092549A (ja) 2000-09-20 2000-09-20 文字認識方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000285502A JP2002092549A (ja) 2000-09-20 2000-09-20 文字認識方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2002092549A true JP2002092549A (ja) 2002-03-29

Family

ID=18769562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000285502A Pending JP2002092549A (ja) 2000-09-20 2000-09-20 文字認識方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2002092549A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627176B2 (en) 2005-03-04 2009-12-01 Fujitsu Limited Apparatus, method, and computer program for analyzing document layout

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627176B2 (en) 2005-03-04 2009-12-01 Fujitsu Limited Apparatus, method, and computer program for analyzing document layout

Similar Documents

Publication Publication Date Title
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5410611A (en) Method for identifying word bounding boxes in text
US7583841B2 (en) Table detection in ink notes
KR101235226B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기록 매체
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JP5262493B2 (ja) 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体
US8208726B2 (en) Method and system for optical character recognition using image clustering
JPH08212298A (ja) 文書方向自動判別装置、及び文書方向自動補正装置
JPH11143986A (ja) ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体
JP2002298085A (ja) 文字認識装置、文字認識方法、及び記録媒体
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
JP2002092549A (ja) 文字認識方法および記録媒体
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JPH10162102A (ja) 文字認識装置
JP4882929B2 (ja) 画像処理装置及び画像処理プログラム
JP4162195B2 (ja) 画像処理装置、及び画像処理プログラム
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
WO2023042270A1 (ja) 文字認識プログラム、文字認識システム、及び文字認識方法
JP2001291058A (ja) 文字認識装置及び記録媒体
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JP2004046528A (ja) 文書方向推定方法および文書方向推定プログラム
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JPH11250179A (ja) 文字認識装置および文字認識方法
JP2004280530A (ja) 帳票処理システム及び帳票処理方法