JP5531493B2 - 文字認識装置、文字認識方法、プログラム及び記録媒体 - Google Patents
文字認識装置、文字認識方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP5531493B2 JP5531493B2 JP2009181879A JP2009181879A JP5531493B2 JP 5531493 B2 JP5531493 B2 JP 5531493B2 JP 2009181879 A JP2009181879 A JP 2009181879A JP 2009181879 A JP2009181879 A JP 2009181879A JP 5531493 B2 JP5531493 B2 JP 5531493B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- character recognition
- pattern
- feature amount
- white
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000012545 processing Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Description
図2は、本発明の一実施形態に係る文字認識装置1のハードウェア構成図である。本実施形態に係る文字認識装置1は、CPU10、画像メモリ11、スキャナ装置12、外部記憶装置13、通信装置14、表示/入力装置15、パターン辞書16を含んで構成され、それぞれ相互に接続されている。
図3は、本発明の一実施形態に係る文字認識装置1の機能ブロック図である。図に示されるように、文字認識装置は、画像入力部100、文字認識部101、出力部102、パターン辞書16を含む構成である。より詳しくは後述する動作において説明するため、ここでは各機能について簡単に説明する。
文字認識において、処理精度を高めるためにはより良い辞書を用いることが考えられる。ここで辞書と呼んでいるものは、主に大きく二種類の辞書の総称である。一つは、文字を認識するために文字の形状等に関する標準的な特徴量を蓄えたものであり、一般にはパターン辞書と呼ばれるものである。またもう一つは、言語的な観点から文字候補を取捨選択してより正確に文字を認識するために、単語やその接続に関する情報を蓄えたものであり、一般には言語辞書と呼ばれるものである。
次に、本発明の実施形態に係る文字認識装置1の動作について詳しく説明する。図6は、文字認識装置1の文字認識動作を説明するフローチャートである。具体的に図面を参照しながら文字認識動作を説明していく。
以下、総括として本実施形態にかかる文字認識装置1の作用効果について説明する。
10 CPU
11 画像メモリ
12 スキャナ装置
13 外部記憶装置
14 通信装置
15 表示/入力装置
16 パターン辞書
100 画像入力部
101 文字認識部
102 出力部
Claims (5)
- 黒色下地の白色文字を含む文字画像から文字認識を行う文字認識装置であって、
文字認識用パターンの特徴量と、前記文字認識用パターンが白黒反転された反転文字認識用パターンの特徴量とが登録されたパターン辞書と、
前記文字画像の特徴量と、前記反転文字認識用パターンの特徴量又は前記文字認識用パターンの特徴量とを比較することにより、前記文字画像の文字認識を行う文字認識手段と、
前記文字認識手段により文字認識された認識文字を出力する出力手段とを備え、
前記出力手段は、
前記文字認識手段により前記反転文字認識用パターンの特徴量との比較に基づいて文字認識された場合、当該認識文字を白黒反転文字として出力し、
前記文字認識用パターンの特徴量との比較により文字認識が行われた場合、当該認識文字を白黒反転されていない文字として出力すること、
を特徴とする文字認識装置。 - 請求項1に記載の文字認識装置であって、
前記文字認識手段により前記反転文字認識用パターンの特徴量との比較に基づいて文字認識された場合、当該文字認識手段は、当該認識文字の含まれる切り出し行内の文字画像の特徴量と、前記反転文字認識用パターンの特徴量とを比較することにより、当該認識文字の含まれる切り出し行内の文字画像の文字認識を行うこと、
を特徴とする文字認識装置。 - 黒色下地の白色文字を含む文字画像から文字認識を行い、文字認識用パターンの特徴量と、前記文字認識用パターンが白黒反転された反転文字認識用パターンの特徴量とが登録されたパターン辞書を備える文字認識装置における文字認識方法であって、
前記文字認識装置が、
前記文字画像の特徴量と、前記反転文字認識用パターンの特徴量又は前記文字認識用パターンの特徴量とを比較することにより、文字認識を行う文字認識手順と、
前記文字認識手順により文字認識された認識文字を出力する出力手順とを有し、
前記出力手順では、
前記文字認識手順により前記反転文字認識用パターンの特徴量との比較に基づいて文字認識された場合、当該認識文字を白黒反転文字として出力し、
前記文字認識用パターンの特徴量との比較により文字認識が行われた場合、当該認識文字を白黒反転されていない文字として出力すること、
を特徴とする文字認識方法。 - 請求項3に記載の文字認識方法をコンピュータに実行させるためのプログラム。
- 請求項4に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009181879A JP5531493B2 (ja) | 2009-08-04 | 2009-08-04 | 文字認識装置、文字認識方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009181879A JP5531493B2 (ja) | 2009-08-04 | 2009-08-04 | 文字認識装置、文字認識方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011034454A JP2011034454A (ja) | 2011-02-17 |
JP5531493B2 true JP5531493B2 (ja) | 2014-06-25 |
Family
ID=43763446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009181879A Expired - Fee Related JP5531493B2 (ja) | 2009-08-04 | 2009-08-04 | 文字認識装置、文字認識方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5531493B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5853488B2 (ja) * | 2011-08-19 | 2016-02-09 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
JP6891808B2 (ja) * | 2015-08-19 | 2021-06-18 | 日本電気株式会社 | 画像位置合わせシステム、方法およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0660226A (ja) * | 1992-08-11 | 1994-03-04 | Nireco Corp | 文字読取装置 |
-
2009
- 2009-08-04 JP JP2009181879A patent/JP5531493B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011034454A (ja) | 2011-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943105B2 (en) | Document field detection and parsing | |
US5491760A (en) | Method and apparatus for summarizing a document without document image decoding | |
Bissacco et al. | Photoocr: Reading text in uncontrolled conditions | |
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
EP0544431B1 (en) | Methods and apparatus for selecting semantically significant images in a document image without decoding image content | |
Singh et al. | Offline script identification from multilingual indic-script documents: a state-of-the-art | |
US8208726B2 (en) | Method and system for optical character recognition using image clustering | |
Ma et al. | Adaptive Hindi OCR using generalized Hausdorff image comparison | |
CN103995904A (zh) | 一种影像档案电子资料的识别系统 | |
JP7244223B2 (ja) | 電子文書における強調テキストの識別 | |
JP2007122403A (ja) | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム | |
Bilgin Tasdemir | Printed Ottoman text recognition using synthetic data and data augmentation | |
JP5531493B2 (ja) | 文字認識装置、文字認識方法、プログラム及び記録媒体 | |
Smitha et al. | Document image analysis using imagemagick and tesseract-ocr | |
Lin et al. | Multilingual corpus construction based on printed and handwritten character separation | |
Kumar et al. | Line based robust script identification for indianlanguages | |
JP2559356B2 (ja) | 文書画像処理方法 | |
Dhandra et al. | Morphological reconstruction for word level script identification | |
WO2023062799A1 (ja) | 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム | |
US20220309272A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
Varthis et al. | Automatic metadata extraction via image processing using Migne's Patrologia Graeca | |
Cheikh Rouhou et al. | HMM Based Keyword Spotting System in Printed/Handwritten Arabic/Latin Documents with Identification Stage | |
Abirami et al. | Feature string-based intelligent information retrieval from Tamil document images | |
Sanjrani et al. | Multilingual OCR systems for the regional languages in Balochistan | |
US20230102476A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140407 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5531493 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |