JP4208918B2 - 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 - Google Patents
文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 Download PDFInfo
- Publication number
- JP4208918B2 JP4208918B2 JP2006348393A JP2006348393A JP4208918B2 JP 4208918 B2 JP4208918 B2 JP 4208918B2 JP 2006348393 A JP2006348393 A JP 2006348393A JP 2006348393 A JP2006348393 A JP 2006348393A JP 4208918 B2 JP4208918 B2 JP 4208918B2
- Authority
- JP
- Japan
- Prior art keywords
- pixels
- connected component
- text
- edge
- binarization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Facsimile Image Signal Circuits (AREA)
Description
[コンピュータシステムの例]
本発明の方法は、任意の画像処理機器、例えばパーソナルコンピュータ(PC)、ノートブック、又はカメラ、ビデオカメラ、スキャナに組み込まれたシングルチップマイクロコンピュータ(SCM)等において実現されてもよい。当業者は、ソフトウェア、ハードウェア、及び/又はファームウェアによって本発明の方法を容易に実現するだろう。尚、方法の任意のステップ又はステップの任意の組み合わせ、或いは構成要素の任意の組み合わせを実現するために、I/O機器、メモリ素子、CPUなどのマイクロプロセッサなどを使用する必要があることは、当業者には明らかである。以下の説明及び本発明の方法において、そのような機器が実際に使用される場合でも、それらについて必ずしも説明するとは限らない。
[複雑な背景を有する文書画像からのテキスト抽出方法及び装置]
本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法及び装置において、エッジ情報はテキストを抽出するために使用され、背景エッジの妨害を克服するために、次の新規な動作を行う。1)エッジの分類に基づいてエッジマップにおける背景オブジェクトで形成された長い連結成分又は(長い背景エッジ連結成分と呼ばれる)非常に近接するテキストを除去する。2)エッジ連結成分サイズのフィードバックを使用してエッジマップを再計算する。3)エッジ連結成分分類に基づいてテキストマップをマーク付けする。
ネガティブエッジ:|P0-max(Pneighbor)|<|P0-min(Pneighbor)|の場合、
ポジティブエッジ:|P0-max(Pneighbor)|≧|P0-min(Pneighbor)|の場合、 (1)
エッジの分類後、ネガティブエッジ連結成分及びポジティブエッジ連結成分は、個別に検索される。それら連結成分のいずれかが100等の所定の閾値より長い場合、その連結成分は、背景連結成分であると考えられ、エッジマップから除去される。この動作の後、長い線に属するエッジは除去される。更に、近接するテキストの接触しているエッジが除去され、残りのエッジが分離される。図3に、エッジの分類及び長い背景エッジ連結成分を除去した結果の一例を示す。
式:エッジの種類=
ネガティブエッジ:|P0-max(Pneighbor)|<|P0-min(Pneighbor)|の場合
ポジティブエッジ:|P0-max(Pneighbor)|≧|P0-min(Pneighbor)|の場合
上記式に基づいてエッジを「ポジティブエッジ」及び「ネガティブエッジ」の2種類に分類するエッジ分類手段。同じ種類のエッジで形成された連結エッジをカバーする領域の画素数が所定の閾値より大きい場合、背景として前記連結エッジをカバーする前記領域を除去するエッジ除去手段とを更に有する。
式:エッジの種類=
ネガティブエッジ:|P0-max(Pneighbor)|<|P0-min(Pneighbor)|の場合
ポジティブエッジ:|P0-max(Pneighbor)|≧|P0-min(Pneighbor)|の場合
上記式に基づいてエッジを「ポジティブエッジ」及び「ネガティブエッジ」の2種類に分類するエッジ分類手段。同じ種類のエッジで形成された連結エッジをカバーする領域の画素数が所定の閾値より大きい場合、背景として前記連結エッジをカバーする前記領域を除去するエッジ除去手段とを更に具備できる。
式:エッジの種類=
ネガティブエッジ:|P0-max(Pneighbor)|<|P0-min(Pneighbor)|の場合、
ポジティブエッジ:|P0-max(Pneighbor)|≧|P0-min(Pneighbor)|の場合、
上記式に基づいてエッジマップのエッジを「ポジティブエッジ」及び「ネガティブエッジ」の2種類に分類する。同じ種類のエッジで形成された連結成分のいずれかが所定の閾値より長い場合、その連結成分は背景連結成分と考えられ、エッジマップから除去される。
Claims (8)
- 勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、
前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、
前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記2値化に用いる閾値を大きくしていくことを特徴とする装置。 - 文書画像から勾配画像を得る得手段と、
前記勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索手段と、
前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記2値化により得られる画像から除去する除去手段と、
前記除去手段で前記長い連結成分の除去された前記2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、
前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、
前記処理手段で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて2値化し、再度、前記処理手段で当該2値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする装置。 - 前記各連結成分を通常テキスト、反転テキスト、背景に分類し、当該分類された前記各連結成分からテキスト行を形成する手段を更に有することを特徴とする請求項1又は2に記載の装置。
- 処理手段と、抽出手段とを有する装置にて実行される方法であって、
前記処理手段が、勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、
前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、
前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記2値化に用いる閾値を大きくしていくことを特徴とする方法。 - 得手段と、検索手段と、除去手段と、処理手段と、抽出手段とを有する装置にて実行される方法であって、
前記得手段が、文書画像から勾配画像を得る得工程と、
前記検索手段が、前記勾配画像に対して閾値を用いて2値化し、当該2値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索工程と、
前記除去手段が、前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記2値化により得られる画像から除去する除去工程と、
前記処理手段が、前記除去工程で前記長い連結成分の除去された前記2値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、
前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記2値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、
前記処理工程で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて2値化し、再度、前記処理工程で当該2値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする方法。 - 形成する手段が、前記各連結成分を通常テキスト、反転テキスト、背景に分類し、当該分類された前記各連結成分からテキスト行を形成する工程を更に有することを特徴とする請求項4又は5に記載の方法。
- 請求項4乃至6の何れか1項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
- 請求項7に記載のコンピュータプログラムを記憶したコンピュータにより読み取り可能な記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005101357445A CN100517374C (zh) | 2005-12-29 | 2005-12-29 | 从复杂背景文档图像提取文本的装置、方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007184916A JP2007184916A (ja) | 2007-07-19 |
JP4208918B2 true JP4208918B2 (ja) | 2009-01-14 |
Family
ID=38214114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006348393A Expired - Fee Related JP4208918B2 (ja) | 2005-12-29 | 2006-12-25 | 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7813554B2 (ja) |
JP (1) | JP4208918B2 (ja) |
CN (1) | CN100517374C (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070253040A1 (en) * | 2006-04-28 | 2007-11-01 | Eastman Kodak Company | Color scanning to enhance bitonal image |
JP5003394B2 (ja) * | 2007-10-05 | 2012-08-15 | セイコーエプソン株式会社 | ファイル生成プログラム、画像処理装置、および画像処理方法 |
JP4491488B2 (ja) * | 2008-03-03 | 2010-06-30 | シャープ株式会社 | 画像処理装置、画像読取装置、画像データ出力処理装置、および画像処理方法 |
JP5095860B2 (ja) | 2008-06-19 | 2012-12-12 | マーベル ワールド トレード リミテッド | 分離エッジ強調アーキテクチャ |
WO2010087112A1 (ja) * | 2009-01-27 | 2010-08-05 | 国立大学法人大阪大学 | 画像解析装置、画像解析方法、画像解析プログラムおよび記録媒体 |
IT1393687B1 (it) * | 2009-04-03 | 2012-05-08 | Tele Rilevamento Europa T R E S R L | Procedimento per l'identificazione di pixel statisticamente omogenei in immagini sar acquisite sulla stessa area. |
JP5312166B2 (ja) * | 2009-04-13 | 2013-10-09 | キヤノン株式会社 | 画像処理装置及び制御方法及びプログラム |
JP4707751B2 (ja) * | 2009-05-21 | 2011-06-22 | シャープ株式会社 | 画像圧縮方法、画像圧縮装置、画像形成装置、コンピュータプログラム及び記録媒体 |
US9092668B2 (en) * | 2009-07-18 | 2015-07-28 | ABBYY Development | Identifying picture areas based on gradient image analysis |
CN102511048B (zh) * | 2009-12-31 | 2015-08-26 | 塔塔咨询服务有限公司 | 一种用于预处理包括文本的视频区域的方法及系统 |
US8358827B2 (en) * | 2010-02-23 | 2013-01-22 | Rdm Corporation | Optical waveform generation and use based on print characteristics for MICR data of paper documents |
CN101859224B (zh) * | 2010-04-30 | 2012-04-18 | 陈铸 | 一种从数字图片图像中抠取目标对象的方法和系统 |
AU2010238543B2 (en) * | 2010-10-29 | 2013-10-31 | Canon Kabushiki Kaisha | Method for video object detection |
CN102890780B (zh) * | 2011-07-19 | 2015-07-22 | 富士通株式会社 | 图像处理装置和方法 |
AU2011253980B2 (en) * | 2011-12-12 | 2014-05-29 | Canon Kabushiki Kaisha | Method, apparatus and system for identifying distracting elements in an image |
JP5730274B2 (ja) | 2012-11-27 | 2015-06-03 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
US10091419B2 (en) * | 2013-06-14 | 2018-10-02 | Qualcomm Incorporated | Computer vision application processing |
US9171224B2 (en) * | 2013-07-04 | 2015-10-27 | Qualcomm Incorporated | Method of improving contrast for text extraction and recognition applications |
US10163217B2 (en) * | 2014-02-17 | 2018-12-25 | General Electric Copmany | Method and system for processing scanned images |
US9251614B1 (en) * | 2014-08-29 | 2016-02-02 | Konica Minolta Laboratory U.S.A., Inc. | Background removal for document images |
WO2016079868A1 (ja) * | 2014-11-21 | 2016-05-26 | 楽天株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
CN106033528A (zh) * | 2015-03-09 | 2016-10-19 | 富士通株式会社 | 从彩色文档图像中提取特定区域的方法和设备 |
CN104866850B (zh) * | 2015-05-13 | 2018-11-02 | 湘潭大学 | 一种文本图像二值化的优化方法 |
CN105095899B (zh) * | 2015-08-23 | 2018-10-09 | 华南理工大学 | 一种图片中相关文本的自动框选方法 |
CN105528600A (zh) * | 2015-10-30 | 2016-04-27 | 小米科技有限责任公司 | 区域识别方法及装置 |
CN106355181B (zh) * | 2016-08-22 | 2019-07-05 | 安凯 | 一种二值图像连通区域边缘的确定方法 |
US10067669B1 (en) * | 2017-07-13 | 2018-09-04 | King Fahd University Of Petroleum And Minerals | Online character recognition |
US10769429B2 (en) * | 2018-08-31 | 2020-09-08 | Wipro Limited | Method and system for extracting text from an engineering drawing |
CN109829457B (zh) * | 2019-01-04 | 2024-07-19 | 平安科技(深圳)有限公司 | 一种图像数据处理方法、设备及计算机可读存储介质 |
WO2021087334A1 (en) | 2019-11-01 | 2021-05-06 | Vannevar Labs, Inc. | Neural network-based optical character recognition |
US11379534B2 (en) | 2019-11-19 | 2022-07-05 | International Business Machines Corporation | Document feature repository management |
US12062246B2 (en) | 2021-09-30 | 2024-08-13 | Konica Minolta Business Solutions U.S.A., Inc. | Extracting text from an image |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000020714A (ja) * | 1998-07-06 | 2000-01-21 | Ricoh Co Ltd | 画像処理方法,装置および画像処理機能を格納した記録媒体 |
JP4077094B2 (ja) * | 1998-12-11 | 2008-04-16 | 富士通株式会社 | カラー文書画像認識装置 |
US6731788B1 (en) * | 1999-01-28 | 2004-05-04 | Koninklijke Philips Electronics N.V. | Symbol Classification with shape features applied to neural network |
JP4250483B2 (ja) * | 2003-08-25 | 2009-04-08 | キヤノン株式会社 | 画像処理装置、画像処理方法ならびにプログラム、記憶媒体 |
-
2005
- 2005-12-29 CN CNB2005101357445A patent/CN100517374C/zh not_active Expired - Fee Related
-
2006
- 2006-12-04 US US11/607,971 patent/US7813554B2/en not_active Expired - Fee Related
- 2006-12-25 JP JP2006348393A patent/JP4208918B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20070160295A1 (en) | 2007-07-12 |
JP2007184916A (ja) | 2007-07-19 |
CN100517374C (zh) | 2009-07-22 |
CN1991865A (zh) | 2007-07-04 |
US7813554B2 (en) | 2010-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4208918B2 (ja) | 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体 | |
US6408105B1 (en) | Method for detecting slope of image data utilizing hough-transform | |
US8947736B2 (en) | Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern | |
US9319556B2 (en) | Method and apparatus for authenticating printed documents that contains both dark and halftone text | |
US20070168382A1 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
US6327388B1 (en) | Identification of logos from document images | |
JP2004318879A (ja) | 画像内容を比較する自動化技術 | |
CN1719865A (zh) | 图像处理系统及图像处理方法 | |
JP4100885B2 (ja) | 帳票認識装置、方法、プログラムおよび記憶媒体 | |
CN109389115B (zh) | 文本识别方法、装置、存储介质和计算机设备 | |
JP4904330B2 (ja) | 画像からテキストを抽出する方法及び装置 | |
JP3851742B2 (ja) | 帳票処理方法及び装置 | |
JPH05225378A (ja) | 文書画像の領域分割システム | |
JP2008011484A (ja) | 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体 | |
JPH07282253A (ja) | 文書イメージのしきい値処理方法 | |
JP2004280334A (ja) | 画像読み取り装置 | |
Qin et al. | Laba: Logical layout analysis of book page images in arabic using multiple support vector machines | |
Shivakumara et al. | A new method for handwritten scene text detection in video | |
Kumar et al. | Line based robust script identification for indianlanguages | |
Sherkat et al. | Use of colour for hand-filled form analysis and recognition | |
Dey et al. | A comparative study of margin noise removal algorithms on marnr: A margin noise dataset of document images | |
JP2005250786A (ja) | 画像認識方法 | |
JP2861860B2 (ja) | 宛名行抽出装置 | |
JP2009116520A (ja) | 画像認識装置、画像認識方法及びプログラム | |
Elmore et al. | A morphological image preprocessing suite for ocr on natural scene images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080911 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081010 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081021 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131031 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |