JPH02264386A - 表認識方法 - Google Patents

表認識方法

Info

Publication number
JPH02264386A
JPH02264386A JP1086062A JP8606289A JPH02264386A JP H02264386 A JPH02264386 A JP H02264386A JP 1086062 A JP1086062 A JP 1086062A JP 8606289 A JP8606289 A JP 8606289A JP H02264386 A JPH02264386 A JP H02264386A
Authority
JP
Japan
Prior art keywords
line segment
ruled lines
ruled
frame
sides
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1086062A
Other languages
English (en)
Other versions
JP2812982B2 (ja
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1086062A priority Critical patent/JP2812982B2/ja
Priority to US07/501,805 priority patent/US5075895A/en
Publication of JPH02264386A publication Critical patent/JPH02264386A/ja
Application granted granted Critical
Publication of JP2812982B2 publication Critical patent/JP2812982B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文字認識装置において、入力された文書や帳票
等の2値画像中の表領域を認識する方式〔従来の技術〕 文字認識装置において文書画像を処理する場合、画像を
文字領域、写真や図等のイメージ領域、表領域等に分割
してそれぞれ別の処理を行うことが多い、この中で表領
域に関しては、罫線の位置座標を用いて、表中の各枠内
の画像を切出し5文字を認識する方式が取もれている。
なお1画像中の枠パターンの認識方法としては、例えば
特開昭57−104363号公報に記載のように、画像
を画素単位に走査して、主走査および副走査方向に長線
分を検出し、それらが枠を形成しているか否か判定する
方法が知られている。
〔発明が解決しようとする課題〕
従来の表領域の処理は1表中の各枠が四方とも罫IIA
(線分)によって囲まれていることを前提としており、
両脇等に罫線が存在しない表については、枠が抽出でき
ず1表領域としての処理ができないという問題があった
本発明の目的は1文字認識装置における文書画像中の表
領域に対する処理として、表を構成する罫線の位置情報
から文字を切り出す際、両脇に罫線が存在しない表にも
対応可能とする表認識方式を提供することにある゛。
〔課題を解決するための手段〕
上記目的を達成するため、本発明は、文書や帳票等の入
力画像中の表領域の処理において、対象とする表領域の
X方向およびX方向の罫線を抽出し、そのX方向の罫線
の中で最も左側(または右側)の罫線のX座標と、X方
向の罫線の中で最も上側および下側の罫線の始点(また
は終点)のX座標とから、対象としてる表の左右両側に
罫線が存在するか否かを判別し、゛存在しない場合、X
方向の罫線の中で最も上側と下側の罫線の始点(または
終点)のX)1両座標値を用いてX方向の線分を仮想的
に生成することを特徴とする。
〔作 用〕
文字認識装置において、入力された2値画像の表中の各
枠内の画像を切出し、文字を認識する際。
両脇に罫線が存在していない表に対しては、仮想の罫線
が自動的に生成される。従って、対象としている表の両
脇に罫線が存在するしないにかかわらず1表中の枠を認
識し、枠内の画像を切り出すことが可能になる。
〔実施例〕
以下、本発明の一実施例について図面叫より説明する。
第1図は本発明の一実施例のブロック図である。
第1図において、2値画像入力装置11はスキャナ等か
らなり1文書や帳票等を読み取り、2値画像を2値画像
メモリ21に格納する6表領域認識部12は、2値画像
メモリ21の2値画像データに対して表領域を認識し、
表領域画像メモリ22に格納する。この表領域の認識は
、自動的に認識する方法の他に、マウス等を用いて表領
域を指定する方法も考えられる0表領域画像メモリ22
の表領域イメージについて、X方向線分抽山部13はX
方向の線分を抽出してX方向線分座標メモリ23に保持
し、y方向線分抽山部14はX方向の線分を抽出してX
方向線分座標メモリ24に保持する。XおよびX方向線
分座標メモリ23.24を用いて、両脇罫線存在判定部
15では、対象としている表の両脇に罫線が存在するか
否か判定し。
両脇に罫線しない表については、仮想罫線生成部1Gに
おいて仮想の罫線を生成する。
枠認識部17では、仮想罫線生成部16で生成された仮
想の罫線を参考にして、XおよびX方向線分座標メモリ
23.24の線分データから表中の枠を認識し、枠座標
メモリ25に各粋の座標値を格納する。枠領域抽出部1
8は、枠座標メモリ25の枠座標データに基づき表領域
画像メモリ22より当該枠内の2値画像を切出し、文字
認識部19に送る0文字認識部19は、この切出された
2値画像について文字認識等の処理を行う。
第2図に、第1図の処理フローを示す、以下。
これについて説明する。
ステップ101: 2値画像入力装[11により文書や帳票を読み取り、そ
の2値画像データを2値画像メモリ21に格納する。
ステップ102: 2値画像メモリ21の2値画像データについて、表領域
認識部12において文書や帳票中の表領域を認識し1表
領域画像データを表領域画像メモリ22に格納する。な
お、表領域はマウス等を用いてオペレータが指定しても
よい。
ステップ103,104: 表領域画像メモリ22の表領域画像データについて、X
方向線分抽山部13においてX方向に連結する黒画素を
追跡して、X方向の線分′を認識し。
その始点および終点の座標値をX方向分座標メモリ23
に保持する。y方向線分抽山部13′においてもX方向
に対して同様の処理を行い、X方向の線分の始点および
終点の座標をX方向線分座標メモリ24に保持する。
ステップ105: 両脇罫線存在判定部15において、XおよびX方向線分
座標メモリ23.24の座標データを用いて、最も左側
(あるいは右側)のX方向線分の始点(あるいは終点)
のX座標値と最も上側(あるいは下側)のX方向線分の
始点(あるいは終点)のX座標値との関係から、対象と
している表の両脇に罫線が存在しているか否かを判断す
る0例えば第3図において、最も左側のX方向線分(1
)の始点座標をCQsx= Q*y) 、終点座標をC
tt*x−Ω。y)、最も上側のX方向(2)の始点座
標を(ullXpu□)、最も下側のX方向線分(3)
の始点座標を(d□、dsly)、とすると、IQsx
  usxl≧’r、    (’r−は定数)lQs
x−dexl≦T。
の式を両方とも満足する場合、その表の両脇には罫線が
存在しないと判断する。
ステップ106: 両脇罫線存在判定部15で両脇に罫線が存在しないと判
断された表について、仮想罫線生成部16において仮想
的な罫線(X方向線分)を生成し、その座標をXおよび
X方向線分座標メモリ23゜24に設定する。第3図の
例では、左脳の罫線(最も左側のX方向線分)の座標に
、始点の座標を(Min (u 1iXt d gz)
 g u @y) 、終点の座標を(Max (utx
y dim) * dsy) 、右脳の罫線(最も右側
のX方向線分)の座標に、始点の座標を(Min (u
exp dog) v usy) 、終点の座標を(M
at (uexp dew) F day)として仮想
的に罫線を生成する。
なお1両脇に罫線が存在すると判断された表に対しては
、この処理は行わない。
ステップ107: 枠認識部17では、両脇に罫線が存在するしないの表を
全く意識することなく、XおよびX方向線分座標メモリ
23.24を用いて、X方向線分とX方向線分の組み合
せにより枠の認識を行い、それぞれの枠の座標値を枠座
標メモリ25に保持する。
ステップ108.109: 枠領域抽出部18において、枠座標メモリ25の枠座標
データを用いて表領域画像メモリ22がら該当枠内の画
像を切り出し1文字認識部19において文字認識等を行
う。
〔発明の効果〕
以上説明したように、本発明によれば1文書画像中に多
く見られる両脇に罫線が存在しない表に対しても、各枠
内の画像を切り出すことができ、文字認識等の処理を行
うことが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例の構成図、第2図は第1図の
処理フロー図、第3図は両脇に罫線が存在しない表の一
例を示す図である。 11・・・2値画像入力装置、 12・・・表領域認識
部、 13・・・X方向線分抽出部、 14・・・X方
向線分抽出部、15・・・両脇罫線存在判定部。 16・・・仮想罫線生成部、 17・・・枠認識部。 18・・・枠領域抽出部、 19・・・文字認識部。

Claims (1)

    【特許請求の範囲】
  1. (1)文書や帳票等の入力画像中の表領域の処理におい
    て、対象とする表領域のx方向およびy方向の罫線を抽
    出し、そのy方向の罫線の中で最も左側(または右側)
    の罫線のx座標と、x方向の罫線の中で最も上側および
    下側の罫線の始点(または終点)のx座標とから、対象
    としてる表の左右両側に罫線が存在するか否かを判別し
    、存在しない場合、x方向の罫線の中で最も上側と下側
    の罫線の始点(または終点)のxy両座標値を用いてy
    方向の線分を仮想的に生成することを特徴とする表認識
    方式。
JP1086062A 1989-04-05 1989-04-05 表認識方法 Expired - Lifetime JP2812982B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1086062A JP2812982B2 (ja) 1989-04-05 1989-04-05 表認識方法
US07/501,805 US5075895A (en) 1989-04-05 1990-03-30 Method and apparatus for recognizing table area formed in binary image of document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1086062A JP2812982B2 (ja) 1989-04-05 1989-04-05 表認識方法

Publications (2)

Publication Number Publication Date
JPH02264386A true JPH02264386A (ja) 1990-10-29
JP2812982B2 JP2812982B2 (ja) 1998-10-22

Family

ID=13876211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1086062A Expired - Lifetime JP2812982B2 (ja) 1989-04-05 1989-04-05 表認識方法

Country Status (2)

Country Link
US (1) US5075895A (ja)
JP (1) JP2812982B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668892A (en) * 1992-10-27 1997-09-16 Fuji Xerox Co., Ltd. Table recognition apparatus
CN110084117A (zh) * 2019-03-22 2019-08-02 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、系统

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5191612A (en) * 1990-03-13 1993-03-02 Fujitsu Limited Character recognition system
US5253305A (en) * 1991-06-25 1993-10-12 Industrial Technology Research Institute Character boundary identification method and system
US5544045A (en) * 1991-10-30 1996-08-06 Canon Inc. Unified scanner computer printer
JPH05250357A (ja) * 1992-03-05 1993-09-28 Ricoh Co Ltd 画像読取修正装置および修正画像形成装置
US5418865A (en) * 1992-03-20 1995-05-23 Xerox Corporation Mark sensing on a form
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JPH06348800A (ja) * 1993-06-02 1994-12-22 Canon Inc 画像処理方法及び装置
US5704004A (en) * 1993-12-01 1997-12-30 Industrial Technology Research Institute Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5634054A (en) * 1994-03-22 1997-05-27 General Electric Company Document-based data definition generator
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5737442A (en) * 1995-10-20 1998-04-07 Bcl Computers Processor based method for extracting tables from printed documents
JP3814320B2 (ja) * 1995-12-14 2006-08-30 キヤノン株式会社 画像処理方法及び装置
JP3814334B2 (ja) * 1996-04-19 2006-08-30 キヤノン株式会社 画像処理装置及びその方法
US6018593A (en) * 1996-09-11 2000-01-25 Ricoh Company, Ltd. Method and system for correcting image position based upon predetermined pattern portions
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
US6711292B2 (en) 1998-12-30 2004-03-23 Canon Kabushiki Kaisha Block selection of table features
US7602972B1 (en) * 2005-04-25 2009-10-13 Adobe Systems, Incorporated Method and apparatus for identifying white space tables within a document
JP5222126B2 (ja) * 2008-12-25 2013-06-26 キヤノン株式会社 画像処理方法、画像処理装置及びプログラム
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4428077A (en) * 1979-09-03 1984-01-24 Hitachi, Ltd. Line recognition method
JPS56129981A (en) * 1980-03-14 1981-10-12 Toshiba Corp Optical character reader
JPS57104363A (en) * 1980-12-19 1982-06-29 Ricoh Co Ltd Frame pattern discriminating method
JPS57150075A (en) * 1981-03-12 1982-09-16 Fuji Xerox Co Ltd Square figure recognizing device
JPS58103266A (ja) * 1981-12-15 1983-06-20 Toshiba Corp 文字画像処理装置
JPS63182793A (ja) * 1987-01-26 1988-07-28 Sharp Corp 文字切り出し方式
US4827330A (en) * 1987-07-20 1989-05-02 Litton Industrial Automation Systems, Inc. Automatic document image revision
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US4901365A (en) * 1988-12-19 1990-02-13 Ncr Corporation Method of searching binary images to find search regions in which straight lines may be found

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668892A (en) * 1992-10-27 1997-09-16 Fuji Xerox Co., Ltd. Table recognition apparatus
CN110084117A (zh) * 2019-03-22 2019-08-02 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、系统
CN110084117B (zh) * 2019-03-22 2021-07-20 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、系统

Also Published As

Publication number Publication date
JP2812982B2 (ja) 1998-10-22
US5075895A (en) 1991-12-24

Similar Documents

Publication Publication Date Title
JPH02264386A (ja) 表認識方法
US5757958A (en) Document recognizing system and method
JP2003256770A (ja) 数式認識装置および数式認識方法
JP2851089B2 (ja) 表処理方法
JP2851087B2 (ja) 表処理方法
JPS6337487A (ja) 文字認識装置
JPH05151388A (ja) 処理領域及び処理条件の指定方式
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JP3157534B2 (ja) 表認識方法
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP2931041B2 (ja) 表内文字認識方法
JPS6337488A (ja) 文字認識方法
JP4052401B2 (ja) 画像処理方法及び装置
JPH0713996A (ja) 文字認識装置
JPH09128478A (ja) 画像処理装置
JPS6327752B2 (ja)
JP2933947B2 (ja) 画像処理方法及び装置
JPH0266681A (ja) 図面処理装置
JPH04314263A (ja) 画像処理装置
JPH0261775A (ja) 表画像認識方式
JPH05128305A (ja) 領域分割方法
JPS62177669A (ja) 画像清書装置
JPH09223189A (ja) 表処理方法および表処理装置
JPH05266250A (ja) 文字列検出装置
JPH0272492A (ja) 清書装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080807

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080807

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090807

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090807

Year of fee payment: 11