JP2007102299A - 文字認識装置 - Google Patents
文字認識装置 Download PDFInfo
- Publication number
- JP2007102299A JP2007102299A JP2005287780A JP2005287780A JP2007102299A JP 2007102299 A JP2007102299 A JP 2007102299A JP 2005287780 A JP2005287780 A JP 2005287780A JP 2005287780 A JP2005287780 A JP 2005287780A JP 2007102299 A JP2007102299 A JP 2007102299A
- Authority
- JP
- Japan
- Prior art keywords
- plane
- character
- black
- pattern
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
Abstract
【解決手段】多値の文字パターンの各画素を輝度値毎のプレーンに割り当て、文字認識に最適なプレーンを選択して2値の文字パターンを得る文字認識装置において、プレーンごとの黒画素数を測定する黒画素数測定部と、前記黒画素数の累積度数をプレーンごとに計算する累積度数計算部と、前記累積度数からプレーンごとの累積黒画素密度を求め、所定値にもっとも近い累積黒画素密度となるプレーンを出力するプレーン選択部と、を備えた。
【選択図】 図1
Description
通常、前記文字認識装置が持つ辞書は特定の条件下で収集されたパターンの特徴で作られているため、前記光学スキャナから取得した前記パターンが濃すぎたり、薄すぎたりすると正確に文字認識を行うことができない。そのため文字認識装置では前記パターンを多値のパターンとして取得し、前記多値パターンから文字認識に最適な2値パターンを生成する機能を有することで前記パターンが濃すぎたり、薄すぎたりすることを防いでいる。
参考として図4に多値パターン及びそれから作成された2値パターンの例を示す。本例では多値パターンから選択するプレーンによって薄すぎるパターン、適当なパターン、濃すぎるパターンが生成されることが判る。
さて、多値パターンから文字認識に最適な2値パターンを作成する方法として平均線幅を利用した方法が既に提案されている。(例えば、特許文献1参照)前記特許では、まず多値パターンから適当な2値パターンを生成し、前記2値パターンから平均線幅を求め、前記平均線幅が予め設定されている線幅許容範囲外の場合は前記平均線幅と理想とする平均線幅との差分の分だけ2値化閾値を変更して再度2値パターンを作成し、前記平均線幅が前記線幅許容範囲に入るまで前記2値化処理と前記平均線幅の計算を繰り返すというものである。
<構成1>
多値の文字パターンの各画素を輝度値毎のプレーンに割り当て、文字認識に最適なプレーンを選択して2値の文字パターンを得る文字認識装置において、プレーンごとの黒画素数を測定する黒画素数測定部と、前記黒画素数の累積度数をプレーンごとに計算する累積度数計算部と、前記累積度数からプレーンごとの累積黒画素密度を求め、所定値にもっとも近い累積黒画素密度となるプレーンを出力するプレーン選択部と、を備えた。
<構成2>
前記文字パターンのサイズの縦横比を計算する縦横比計算部をさらに備え、前記縦横比が一定以上横長の場合、前記プレーン選択部は第2の所定値にもっとも近い累積黒画素密度となるプレーンを出力する。
<構成3>
前記所定値は黒画素数と白画素数が略同数となるように選ばれ、前記第2の所定値は、黒画素数がより少なくなるように選ばれる。
本発明においては黒画素の密度を用いることにより認識に最適な2値化閾値を求める。なお最適な2値化閾値を求めることと、最適なプレーンを求めることは同意なのでこれ以降は「最適なプレーンを求める」という表現に統一する。
図1は、本発明のシステム構成図である。スキャナ4は認識対象となる文字が記入や印刷等された帳票等の紙を読み取って電子化された多値のイメージデータを得るためのものであり、文字認識装置3に接続されている。文字認識装置3は前記イメージデータを受け取り文字認識を行うための装置である。文字認識装置3は、ここでは、後述する各処理部やデータからなる文字認識プログラムを備えたコンピュータであることを想定するが、同様な機能を備えていれば文字認識専用のハードウェアとしても実現可能である。
図5に本実施例における動作の処理フローを示す。
本実施例のシステム構成は実施例1と同じく図1で示されるので説明は省略する。
また、図11はプレーン毎の黒密度を示す。
図9に実施例2における動作の処理フローを示す。
2 プレーン番号
3 文字認識装置
4 スキャナ
5 記憶部
6 文字切り出し部
7 最適プレーン計算部
8 2値化部
9 認識部
10 黒画素数測定部
20 累積度数計算部
30 黒密度比較部
100 黒密度指定記憶部
110 黒密度指定記憶部B
Claims (3)
- 多値の文字パターンの各画素を輝度値毎のプレーンに割り当て、文字認識に最適なプレーンを選択して2値の文字パターンを得る文字認識装置において、プレーンごとの黒画素数を測定する黒画素数測定部と、プレーンごとの黒画素数をプレーンの順序に従い累積した累積度数を計算する累積度数計算部と、プレーンごとの前記累積度数からプレーンごとの累積黒画素密度を求め、所定値にもっとも近い累積黒画素密度となるプレーンを出力するプレーン選択部と、を備えた文字認識装置。
- 前記文字パターンのサイズの縦横比を計算する縦横比計算部をさらに備え、前記縦横比が一定以上横長の場合、前記プレーン選択部は第2の所定値にもっとも近い累積黒画素密度となるプレーンを出力する、請求項1に記載の文字認識装置。
- 前記所定値は黒画素数と白画素数が略同数となるように選ばれ、前記第2の所定値は、黒画素数がより多くなるように選ばれる、請求項2に記載の文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005287780A JP4682783B2 (ja) | 2005-09-30 | 2005-09-30 | 文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005287780A JP4682783B2 (ja) | 2005-09-30 | 2005-09-30 | 文字認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007102299A true JP2007102299A (ja) | 2007-04-19 |
JP4682783B2 JP4682783B2 (ja) | 2011-05-11 |
Family
ID=38029214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005287780A Active JP4682783B2 (ja) | 2005-09-30 | 2005-09-30 | 文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4682783B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03218590A (ja) * | 1988-07-29 | 1991-09-26 | Ricoh Co Ltd | 最適2値化方法 |
JPH04343193A (ja) * | 1991-05-20 | 1992-11-30 | Ricoh Co Ltd | 2値化閾値設定方法 |
JPH08274993A (ja) * | 1995-03-29 | 1996-10-18 | Kawasaki Steel Corp | 画像処理における地肌色除去処理方法及び装置 |
JP2003228691A (ja) * | 2002-02-04 | 2003-08-15 | Fujitsu Ltd | 帳票読取装置および帳票読取処理用プログラム |
-
2005
- 2005-09-30 JP JP2005287780A patent/JP4682783B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03218590A (ja) * | 1988-07-29 | 1991-09-26 | Ricoh Co Ltd | 最適2値化方法 |
JPH04343193A (ja) * | 1991-05-20 | 1992-11-30 | Ricoh Co Ltd | 2値化閾値設定方法 |
JPH08274993A (ja) * | 1995-03-29 | 1996-10-18 | Kawasaki Steel Corp | 画像処理における地肌色除去処理方法及び装置 |
JP2003228691A (ja) * | 2002-02-04 | 2003-08-15 | Fujitsu Ltd | 帳票読取装置および帳票読取処理用プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4682783B2 (ja) | 2011-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8947736B2 (en) | Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern | |
JP6139396B2 (ja) | 文書を表す二値画像を圧縮する方法及びプログラム | |
JP3904840B2 (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
JP5934762B2 (ja) | 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置 | |
JP4494563B2 (ja) | トークン化によるイメージ分割を用いたイメージ処理方法および装置 | |
US20010036314A1 (en) | Image processing device | |
JP4100885B2 (ja) | 帳票認識装置、方法、プログラムおよび記憶媒体 | |
US20110164284A1 (en) | Image processing apparatus and method | |
JP5229328B2 (ja) | 文字領域抽出装置,文字領域抽出機能を備えた撮像装置,および文字領域抽出プログラム | |
US8463054B2 (en) | Hierarchical OCR using decision tree and nonparametric classifier | |
JP5028911B2 (ja) | 文字列認識プログラム、方法および装置 | |
US8768058B2 (en) | System for extracting text from a plurality of captured images of a document | |
US8472716B2 (en) | Block-based noise detection and reduction method with pixel level classification granularity | |
JP4682783B2 (ja) | 文字認識装置 | |
JP3985928B2 (ja) | 画像処理方法、画像処理装置、文字認識装置及び記憶媒体 | |
US7702154B2 (en) | Method and apparatus indentifying halftone regions within a digital image | |
JPH09305707A (ja) | 画像抽出方式 | |
JP4237642B2 (ja) | 画像処理装置、画像処理用プログラム及び記憶媒体 | |
JP4383187B2 (ja) | 画像処理装置、画像処理用プログラム及び記憶媒体 | |
JP5145862B2 (ja) | 画像処理プログラムおよび画像処理装置 | |
JP2004094292A (ja) | 文字認識装置、文字認識方法及び該方法の実行に用いるプログラム | |
JP2002157552A (ja) | 光学式文字読取装置 | |
Battiato et al. | Red-eyes removal through cluster-based boosting on gray codes | |
JPH0916715A (ja) | 文字認識装置および方法 | |
JP2004062385A (ja) | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110124 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4682783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |