JP4395188B2 - 文書画像認識装置および文書画像認識プログラムの記憶媒体 - Google Patents
文書画像認識装置および文書画像認識プログラムの記憶媒体 Download PDFInfo
- Publication number
- JP4395188B2 JP4395188B2 JP2008156213A JP2008156213A JP4395188B2 JP 4395188 B2 JP4395188 B2 JP 4395188B2 JP 2008156213 A JP2008156213 A JP 2008156213A JP 2008156213 A JP2008156213 A JP 2008156213A JP 4395188 B2 JP4395188 B2 JP 4395188B2
- Authority
- JP
- Japan
- Prior art keywords
- row
- elements
- line
- stage
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Description
一般の印刷文書を読み取るためには,まず,イメージスキャナなどの画像入力装置を用いて文書画像として取り込む必要があるが,通常は原稿設置の際に多少傾きが生じる。電子ファイリングあるいは文書認識の使用に供するためには,その文書画像の傾き量を検出し,補正する必要がある。
従来,OCR装置などにおいて,横行縦行の混在した文書画像中の文字行および段を抽出する方法としては以下のような方法が提案されている。
上記第1の方式では,行方向一定を前提としているため,新聞のように横行と縦行の混在する文書に適用することができない。また,行方向一定の文書に対しても,すべての文字の下端が基準線上に存在するとは限らないため,誤差が含まれることが避けられない。さらに,ハフ変換処理には膨大な計算量を要するという問題がある。
文字行と段を抽出するための上記第4の方式では,文字行をあらかじめ抽出しておき,それをもとに段抽出を行うため,段中の文字行が細分化されている不定形の段が細分化されてしまうという問題がある。
文書画像傾き検出部1は,文書画像2を参照し文字を構成する成分の集合を抽出する文字成分抽出手段と,文字成分の集合を参照し横および縦の行候補を抽出する行候補抽出手段と,各々の行候補に対して信頼度を推定する行信頼度推定手段と,行信頼度に基づいて確度の高い行の集合を抽出する行抽出手段と,確度の高い行の集合の文字成分の配置を用いて傾きを推定する傾き推定手段とを備える。
レイアウト解析部5は,文書を構成する基礎要素の集合4から方向の確定した行集合を抽出する基本行抽出手段と,行同士の関連付けによる段抽出および段を制約とした行抽出を相互に実行して行と段とを抽出する行・段相互抽出手段とを備える。ここで入力となる基礎要素の集合4としては,文書画像中の黒画素連結成分,あるいは文書画像中の黒画素の連結成分の外接矩形の重なり矩形を用いる。また,前記基本行抽出手段は,前記基礎要素集合の関連付けをもとに,横方向および縦方向の行方向を持つ行要素を生成する行要素生成手段と,各々の行要素に対して信頼度を推定し,信頼度に基づいて行要素を淘汰する行要素淘汰手段と,整合性のとれた行および文字集合を得るための行要素整合手段とを備える。前記行要素淘汰手段は,各々の行要素に対して行信頼度を定量的に計算し,それぞれの文字要素の属する横方向行要素および縦方向行要素の行信頼度の高い方向を文字要素の方向として,それぞれの行要素に対してその行候補に属する文字要素のうち,その行要素の行方向と一致する文字方向を持つものの比率をその行要素の信頼度とする。また,前記行・段相互抽出手段は,前記基本行抽出手段の出力である行要素の集合から,各行要素を唯一含む段要素を生成する手段と,前記段要素を互いに関連付け,関連付けられた段要素を統合する行要素統合手段と,前記統合された段要素に対する段要素集合の整合処理によって,段要素が満足すべき所定の条件を満たす段要素およびその段要素に含まれる行要素の集合を得る段要素整合手段と,前記段要素に含まれる行要素に対する行要素集合の整合処理によって,行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る行要素整合手段とを備え,前記行要素統合手段,前記段要素整合手段および前記行要素整合手段による処理を,前記段要素の新たな関連付けが発生しなくなるまで繰り返すことにより,前記段要素整合手段による処理の結果で前記行要素整合手段による処理の結果を変化させ,前記行要素整合手段による処理の結果でその後の前記段要素整合手段による処理の結果を変化させて最終的に行と段を抽出する。
図2は,本発明を適用するハードウェア構成例を示す。図1に示す文書画像認識装置100は,ハードウェアとしては,例えば図2に示すようなCPU20,メモリ21,キーボードその他の入力装置22,ディスプレイその他の出力装置23,ハードディスクその他の外部記憶装置24,画像を読み取るイメージスキャナ25およびこれらを接続するバス26等から構成される。図1に示す各処理手段の機能は,図2に示すメモリ21に格納されたプログラムをCPU20が実行することにより実現される。
図3は,文書画像傾き検出部1の基本構成例を示す。文書画像傾き検出部1では,文書画像2を入力し,傾きを検出して傾き角度3を出力する。文書画像傾き検出部1は,文字成分抽出手段11,行候補抽出手段12,行信頼度推定手段13,行抽出手段14,傾き推定手段15を持つ。
図9は,本発明に係るレイアウト解析部5の基本構成例を示す。本実施の形態による文書画像認識装置100におけるレイアウト解析部5では,補正後の文書画像の基礎要素の集合4を入力とし,行抽出および段抽出をしてレイアウト解析結果6を出力する。このため,レイアウト解析部5は,基本行抽出手段8と行・段相互抽出手段9とを持つ。
図10は,基本行抽出手段の処理概要を示す。
行・段相互抽出手段9は,互いに関連付けられた段同士の統合と,整合性のとれた段および行集合を得るための段要素集合の整合と,整合性のとれた行および文字集合を得るための行要素集合の整合処理を実行する。さらに,行・段相互抽出手段9が,段同士の統合を繰り返し実行することにより,行抽出結果と段抽出結果が互いに影響を与えあい,徐々に高精度な行・段抽出処理が行われるようにする。
1 文書画像傾き検出部
11 文字成分抽出手段
12 行候補抽出手段
13 行信頼度推定手段
14 行抽出手段
15 傾き推定手段
2 文書画像
3 傾き角度
4 基礎要素の集合
5 レイアウト解析部
6 レイアウト解析結果
8 基本行抽出手段
81 行要素生成手段
82 行要素淘汰手段
83 行要素整合手段
9 行・段相互抽出手段
91 段要素統合手段
92 段要素整合手段
93 行要素整合手段
Claims (13)
- 電子化された文書画像の認識にあたって,文書画像のレイアウトを解析する文書画像認識装置において,
文書画像中の黒画素連結成分または文書画像中の黒画素の連結成分の外接矩形の重なり矩形を文書を構成する基礎要素として,基礎要素から文字要素を生成し,文字要素の関連付けをもとにして横方向および縦方向の行要素を生成する行要素生成手段と,
生成された各行要素に対して行信頼度を定量的に計算し,それぞれの文字要素の属する横方向行要素および縦方向行要素の行信頼度の高い方向を文字要素の方向として,それぞれの行要素に対してその行候補に属する文字要素のうち,その行要素の行方向と一致する文字方向を持つものの比率をその行要素の信頼度とし,信頼度の低い行要素を淘汰する行要素淘汰手段と,
淘汰後に残った行要素に対する行要素集合の整合処理によって,行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る第1の行要素整合手段と,
前記基本行抽出手段の出力である行要素の集合から,各行要素を唯一含む段要素を生成する手段と,
前記段要素を互いに関連付け,関連付けられた段要素を統合する行要素統合手段と,
前記統合された段要素に対する段要素集合の整合処理によって,段要素が満足すべき所定の条件を満たす段要素およびその段要素に含まれる行要素の集合を得る段要素整合手段と,
前記段要素に含まれる行要素に対する行要素集合の整合処理によって,行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る第2の行要素整合手段とを備え,
前記行要素統合手段,前記段要素整合手段および前記第2の行要素整合手段による処理を,前記段要素の新たな関連付けが発生しなくなるまで繰り返すことにより,前記段要素整合手段による処理の結果で前記第2の行要素整合手段による処理の結果を変化させ,前記第2の行要素整合手段による処理の結果でその後の前記段要素整合手段による処理の結果を変化させて最終的に行と段を抽出する
ことを特徴とする文書画像認識装置。 - 前記第1の行要素整合手段および前記第2の行要素整合手段における行要素が満足すべき所定の条件は,すべての文字要素は唯一の行要素に属するという条件,および各々の行要素は互いに重ならないという条件,および文字要素は行と垂直方向には重ならず,行方向に順序付けられるという条件である
ことを特徴とする請求項1記載の文書画像認識装置。 - 前記段要素整合手段における段要素が満足すべき所定の条件は,すべての行要素は唯一の段要素に属するという条件,および各々の段要素は互いに重ならないという条件,および行要素は段と垂直方向には重ならず,段方向に順序付けられるという条件である
ことを特徴とする請求項1または請求項2記載の文書画像認識装置。 - 前記行要素生成手段における文字要素の関連付けを,文字要素間の距離の近接性に基づいて行う
ことを特徴とする請求項1から請求項3までのいずれか1項に記載の文書画像認識装置。 - 前記行要素淘汰手段における行要素の信頼度が,その行要素に含まれている文字要素の数が一定数以上あるという行の長さによる量,文字要素同士が密に配置されているという近接性による量,または文字要素の大きさもしくは間隔がほぼ同じくらいであるなどの同質性による量を用いて定量化される
ことを特徴とする請求項1から請求項4までのいずれか1項に記載の文書画像認識装置。 - 前記行要素統合手段における段要素の関連付けを,行方向,行垂直方向とそれぞれ変化させて繰り返し実行する
ことを特徴とする請求項1から請求項5までのいずれか1項に記載の文書画像認識装置。 - 前記行要素統合手段における段要素の関連付けの条件を,関連付けの対象となる段要素の内部構造により動的に変化させる
ことを特徴とする請求項1から請求項6までのいずれか1項に記載の文書画像認識装置。 - 前記行要素統合手段における段要素の関連付けを,段要素間の距離の近接性,または段要素の大きさもしくは段要素間隔がほぼ均等であるという同質性に基づいて行う
ことを特徴とする請求項1から請求項7までのいずれか1項に記載の文書画像認識装置。 - 前記行要素統合手段における段要素の関連付けに用いるパラメータを,処理回数に応じて変化させる
ことを特徴とする請求項1から請求項8までのいずれか1項に記載の文書画像認識装置。 - 前記行要素統合手段における関連付けの対象となる段要素の内部構造として,段の外接矩形の大きさ,段に含まれる行数もしくは文字数,または段の外接矩形の位置を用いる
ことを特徴とする請求項1から請求項9までのいずれか1項に記載の文書画像認識装置。 - 前記第1の行要素整合手段または前記第2の行要素整合手段は,行要素に属する文字要素の集合から,その行の標準の文字の幅,高さ,間隔などの行の属性となる情報を計算して保持しておき,要素間の関連付けのために活用する
ことを特徴とする請求項1から請求項10までのいずれか1項に記載の文書画像認識装置。 - 前記段要素整合手段は,
段要素に属する行要素の集合から,その段の標準の行の幅,高さ,間隔などの段の属性となる情報を計算して保持しておき,要素間の関連付けのために活用する
ことを特徴とする請求項1から請求項11までのいずれか1項に記載の文書画像認識装置。 - 電子化された文書画像の認識にあたって,文書画像のレイアウトを解析する文書画像認識装置に用いるプログラムを格納した計算機読み取り可能な記憶媒体であって,
文書画像中の黒画素連結成分または文書画像中の黒画素の連結成分の外接矩形の重なり矩形を文書を構成する基礎要素として,基礎要素から文字要素を生成し,文字要素の関連付けをもとにして横方向および縦方向の行要素を生成する行要素生成処理と,
生成された各行要素に対して行信頼度を定量的に計算し,それぞれの文字要素の属する横方向行要素および縦方向行要素の行信頼度の高い方向を文字要素の方向として,それぞれの行要素に対してその行候補に属する文字要素のうち,その行要素の行方向と一致する文字方向を持つものの比率をその行要素の信頼度とし,信頼度の低い行要素を淘汰する行要素淘汰処理と,
淘汰後に残った行要素に対する行要素集合の整合処理によって,行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る第1の行要素整合処理と,
前記基本行抽出処理の出力である行要素の集合から,各行要素を唯一含む段要素を生成する処理と,
前記段要素を互いに関連付け,関連付けられた段要素を統合する行要素統合処理と,
前記統合された段要素に対する段要素集合の整合処理によって,段要素が満足すべき所定の条件を満たす段要素およびその段要素に含まれる行要素の集合を得る段要素整合処理と,
前記段要素に含まれる行要素に対する行要素集合の整合処理によって,行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る第2の行要素整合処理とを計算機に実行させるとともに,
前記行要素統合処理,前記段要素整合処理および前記第2の行要素整合処理を,前記段要素の新たな関連付けが発生しなくなるまで繰り返すことにより,前記段要素整合処理の処理結果で前記第2の行要素整合処理の処理結果を変化させ,前記第2の行要素整合処理の処理結果でその後の前記段要素整合処理の処理結果を変化させて最終的に行と段を抽出する処理を,前記計算機に実行させるためのプログラムを格納した
ことを特徴とする文書画像認識プログラムの記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008156213A JP4395188B2 (ja) | 1997-11-28 | 2008-06-16 | 文書画像認識装置および文書画像認識プログラムの記憶媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32762597 | 1997-11-28 | ||
JP2008156213A JP4395188B2 (ja) | 1997-11-28 | 2008-06-16 | 文書画像認識装置および文書画像認識プログラムの記憶媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14692698A Division JP4170441B2 (ja) | 1997-11-28 | 1998-05-28 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008217833A JP2008217833A (ja) | 2008-09-18 |
JP4395188B2 true JP4395188B2 (ja) | 2010-01-06 |
Family
ID=39837715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008156213A Expired - Fee Related JP4395188B2 (ja) | 1997-11-28 | 2008-06-16 | 文書画像認識装置および文書画像認識プログラムの記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4395188B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8620080B2 (en) | 2008-09-26 | 2013-12-31 | Sharp Laboratories Of America, Inc. | Methods and systems for locating text in a digital image |
JP5577948B2 (ja) | 2010-08-24 | 2014-08-27 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP5935324B2 (ja) * | 2012-01-04 | 2016-06-15 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US8606011B1 (en) * | 2012-06-07 | 2013-12-10 | Amazon Technologies, Inc. | Adaptive thresholding for image recognition |
JP5991076B2 (ja) * | 2012-08-24 | 2016-09-14 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP6286866B2 (ja) | 2013-05-20 | 2018-03-07 | オムロン株式会社 | 画像処理装置および画像処理方法 |
US9536161B1 (en) | 2014-06-17 | 2017-01-03 | Amazon Technologies, Inc. | Visual and audio recognition for scene change events |
CN112651396A (zh) * | 2019-10-12 | 2021-04-13 | 丰图科技(深圳)有限公司 | 字符拼接方法、装置、网络设备及计算机可读存储介质 |
JP6773992B1 (ja) * | 2020-01-31 | 2020-10-21 | 株式会社Osk | 情報処理装置,コンピュータの制御方法及び制御プログラム |
JP7385075B1 (ja) | 2023-06-28 | 2023-11-21 | 株式会社朝日新聞社 | 情報処理装置、情報処理方法、及びプログラム |
-
2008
- 2008-06-16 JP JP2008156213A patent/JP4395188B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008217833A (ja) | 2008-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4170441B2 (ja) | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 | |
JP4395188B2 (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
Stamatopoulos et al. | Goal-oriented rectification of camera-based document images | |
US5907631A (en) | Document image processing method and system having function of determining body text region reading order | |
US8170368B2 (en) | Correcting device and method for perspective transformed document images | |
US6327384B1 (en) | Character recognition apparatus and method for recognizing characters | |
US9959475B2 (en) | Table data recovering in case of image distortion | |
KR101235226B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 기록 매체 | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
CN113688688A (zh) | 图片中表格线条的补全方法与图片中表格的识别方法 | |
Boudraa et al. | An improved skew angle detection and correction technique for historical scanned documents using morphological skeleton and progressive probabilistic hough transform | |
US20080131000A1 (en) | Method for generating typographical line | |
US8989485B2 (en) | Detecting a junction in a text line of CJK characters | |
JP3006466B2 (ja) | 文字入力装置 | |
Saragiotis et al. | Local skew correction in documents | |
JP4208520B2 (ja) | 画像処理装置および画像処理方法、プログラムおよび記憶媒体 | |
US10679049B2 (en) | Identifying hand drawn tables | |
CN113159031B (zh) | 一种手写文本检测方法、装置及存储介质 | |
JP4194309B2 (ja) | 文書方向推定方法および文書方向推定プログラム | |
JP4070486B2 (ja) | 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム | |
Lee et al. | An algorithm of line segmentation and reading order sorting based on adjacent character detection: A post-processing of OCR for digitization of Chinese historical texts | |
JP3582734B2 (ja) | 表のベクトル化装置 | |
JP2616967B2 (ja) | 傾き抽出装置 | |
JP2973892B2 (ja) | 文字認識方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091013 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091016 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121023 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121023 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131023 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |