JPH0423185A - 自動セル属性判定機能を有する表読取装置 - Google Patents

自動セル属性判定機能を有する表読取装置

Info

Publication number
JPH0423185A
JPH0423185A JP2128920A JP12892090A JPH0423185A JP H0423185 A JPH0423185 A JP H0423185A JP 2128920 A JP2128920 A JP 2128920A JP 12892090 A JP12892090 A JP 12892090A JP H0423185 A JPH0423185 A JP H0423185A
Authority
JP
Japan
Prior art keywords
cell
character
attribute
item
cell attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2128920A
Other languages
English (en)
Other versions
JP2740335B2 (ja
Inventor
Yasuo Hongo
本郷 保夫
Hiroshi Kimita
来見田 博史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP2128920A priority Critical patent/JP2740335B2/ja
Publication of JPH0423185A publication Critical patent/JPH0423185A/ja
Application granted granted Critical
Publication of JP2740335B2 publication Critical patent/JP2740335B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、表形式の文書画像から自動的に罫線を抽出
し、罫線で囲まれたセル内の文字を読取る表読取装置に
係り、特にセル属性を自動的に判定する機能を有する表
読取装置に関する。
〔従来の技術〕
従来の表読取装置は、第4図に示すように構成されてい
る。
この従来装置は、表形式文書を光学的に操作して光電変
換するイメージ入力部1と、このイメージ入力部から出
力される2値化画像データをイメージデータとして記憶
するイメージデータ記憶部2と、このイメージデータ記
憶部2に記憶されているイメージデータから罫線を抽出
し、抽出した罫線情報から表の構造及びセルの位置座標
を算出するセル抽出部3と、このセル抽出部3で算出さ
れたセルの位置座標に基づいてセル内の文字を認識して
これを文字コードに変換する文字認識部4とで構成され
ている。
ここで、文字認識部4は、認識対象となる文字の文字種
とか桁数等の属性を指定することができ、属性を細かく
指定して認識対象となる文字を限定することにより、認
識性能を向上することができる0例えば、認識対象とな
る文字が数字だけであることが予め分かっていたときに
は、属性として数字を指定して認識を行うことで、数字
以外で類似字形の文字(漢字、アルファベットなど)に
誤読することを回避して文字認識率を向上させることが
できる。
〔発明が解決しようとする課題〕
しかしながら、上記従来の表読取装置にあっては、オペ
レータがセル内文字の属性(以下、セル属性と称す)を
セル毎に指定することにより、認識性能を向上させるこ
とができるが、セル属性を指定するにはオペレータが原
稿の内容を見て各セル属性を判断し、表読取装置に指定
する必要があり、全セルの属性を指定するには膨大な労
力と時間が掛かるという未解決の課題があった。例えば
、10行10列の表では100セル存在するので、10
0セルに対して夫々の属性を設定する必要がある。この
場合、セル属性の設定を行−括、列−括、全指定などで
簡便に行う方法も提案されているが、行又は列のセル属
性が異なる場合には、セル属性の指定が煩雑となる。
また、オペレータがセル属性を指定するようにしている
ので、誤指定を生じるおそれがあるという未解決の課題
もあった。
そこで、この発明は、上記従来例の未解決の課題に着目
してなされたものであり、セル属性を自動的に判断して
表形式文書の効率良く読取ることができる表読取装置を
従供することを目的としている。
〔課題を解決するための手段〕
上記目的を達成するために、この発明に係る自動セル属
性判定機能を有する表読取装置は、表形式文書をイメー
ジデータとして入力するイメージ入力手段と、該イメー
ジ入力手段で入力したイメージデータを保存するイメー
ジデータ記憶手段と、該イメージデータ記憶手段で保存
したイメージデータから罫線を抽出し、罫線で囲まれた
セルを認識するセル抽出手段と、該セル抽出手段で抽出
したセルの中で項目欄に相当するセルのセル内文字を認
識する項目欄文字認識手段と、セル属性を判定するため
の判定基準を記憶するセル属性判定基準記憶手段と、該
セル属性判定基準記憶手段の判定基準に基づいて前記項
目欄文字認識手段で認識した項目欄文字から項目欄以外
のセル属性を判定するセル属性判定手段と、該セル属性
判定手段で判定したセル属性に従って各セル内文字を認
識する文字認識手段とを備えている。ここで、セル属性
としては、文字種の外、桁数や単位等を含む書式情報も
包含する。
〔作用〕
この発明においては、表形式文書のイメージデータから
セル抽出手段で抽出したセルの中から項目欄に相当する
セル内の文字を項目欄文字認識手段で認識し、認識結果
として得られた項目名称からセル属性基準記憶手段に記
憶されているセル属性を判定する判定基準に基づいて項
目欄に対応するデータ欄のセル属性を自動的に判定し、
判定したセル属性を用いてデータ欄の文字を認識する。
このようにして、セル属性を自動的且つ正確に判定する
ことによって、セル属性を指定する手間を省くと共に、
認識率を向上させる。
〔実施例〕
以下、この発明の実施例を図面に基づいて説明する。
第1図はこの発明の一実施例を示すブロック図である。
図中、lはイメージ入力部、2はイメージデータ記憶部
、3はセル抽出部、4は文字認識部であって、これらの
構成は前述した従来例と同様の構成を有する。この発明
においては、罫線抽出部3及び文字認識部4との間に、
セル抽出部3から出力される表の構造及びセルの位置座
標を基に表の項目欄に相当するセル内文字の認識を行う
項目欄文字認識部5と、この項目欄文字認識部5で認識
した項目名称を基に、その項目名称に対応するデータ欄
のセル属性を判定するセル属性判定部6とが介挿されて
いると共に、セル属性判定部6でデータ欄の属性を判定
するための判定基準を参照するセル属性判定基準記憶部
7が設けられている。
ここで、項目欄文字認識部5は、普通、数表や名簿のよ
うな表形式文書では、第3図に示すように、項目欄41
とこれに続くデータ欄42とがあり、−船釣には表の第
1行目に項目a41が形成されているので、この第1行
目の横罫線fXO及びl工、と縦罫線!、。〜1oとで
囲まれるセル401〜403内に印刷されているセル内
文字を認識し、その認識結果として、項目名称「氏名」
、r住所」及び「電話番号」を得る。
また、セル属性判定基準記憶部7は、項目名称に対応す
るセル属性情報を属性テーブルとして予め記憶しており
、このセル属性情報は例えば“氏名=人名漢字・かな″
゛′住所=漢字・かな・数字′°゛金額=数字″′′年
令−3桁の数字パなどの情報の外、例えば住所のr4丁
目2番79号」は略式表示のr4−2−79Jも許容す
る書式情報も含まれている。このセル属性情報は、学習
的に後から追加・変更を行うようにしてもよい。
さらに、セル属性判定部6では、項目欄文字認識部5か
ら出力される項目名称をもとにセル属性判定基準記憶部
7の属性テーブルを参照して、項目欄41に対応したデ
ータ欄42の属性判定を行う。
したがって、項目名称が例えば「氏名jであるときには
、これに対応するデータ欄404の属性として、人名漢
字・かなと判断し、この判定結果のセル属性を文字認識
部4に指定する。
次に、上記実施例の動作を第2図の処理手順を示すフロ
ーチャートを伴って説明する。
先ず、ステップ■でイメージ入力部1を作動させて、例
えば第3図に示す表形式文書を光学的に走査してイメー
ジデータとして読込み、このイメージデータをイメージ
データ記憶部2に保存する。
次いで、ステップ■で、セル抽出部3を作動させて、イ
メージデータ記憶部2に保存されているイメージデータ
から横罫線lx、〜ZXZ及び縦罫線1−vo〜1’f
’Jを抽出し、抽出した罫線の交点を算出して表の構造
(行数及び列数)と各罫線で囲まれるセルの位置座標と
を求める。
次いで、ステップ■で、項目欄文字認識部5を作動させ
て、抽出したセルの位置座標から項目欄41を抽出し、
この項目欄41の各セル401〜403内の文字「氏名
」、「住所」及び「電話番号」を認識する。
次いで、ステップ■で項目欄文字認識部5の認識結果を
もとにセル属性判定基準記憶部7に記憶されている属性
テーブルを参照して、各項目欄セル401〜403に対
応するデータ欄404〜406のセル属性の判定を行う
。ここで、項目欄セル401の文字は「氏名」であるの
で、データ欄404のセル属性として、人名漢字及びか
なと判定され、項目欄セル4020文字は「住所」であ
るので、データ欄405のセル属性としては、漢字、か
な並びに数字及び書式情報と判定され、項目欄セル40
3の文字は「電話番号」であるので、データ欄406の
セル属性としては、数字・記号と判断される。
次いで、ステップ■で文字認識部4を作動状態として、
セル属性判定部6で判定されるセル属性を文字認識部4
に指定して、データ欄42の各セル404〜406内の
文字を認識し、これを文字コードに変換して出力する。
このように、上記実施例によると、項目欄のセル内文字
を認識して、その項目欄に対応するデータ欄のセル属性
をセル属性判定部6で判定し、その判定結果のセル属性
を文字認識部4に指定するようにしたので、セル内文字
のセル属性を人手を煩わすことなく自動的に指定するこ
とができ、セル属性の誤指定による文字認識率の低下を
伴うことがなく、類似字形の誤判定や書式の間違いなど
を少なくして高精度の表読取機能を実現することができ
る。
なお、上記実施例においては、項目欄文字認識部5で項
目欄セル内文字の認識を通常の文字認識によって行う場
合について説明したが、これに限定されるものではなく
、項目欄で使用される項目名称は、単語の数が限定され
るので、単語照合することで認識するようにしてもよく
、この場合にはセル内文字の認識率を向上させることが
できる。
また、表形式文書としては、実線の罫線によって囲まれ
る表に限らず空白部による仮想罫線によって囲まれる表
についてもこの発明を適用することができる。
〔発明の効果〕
以上説明したように、この発明によれば、セル抽出手段
で抽出したセルの中で項目欄に相当するセルのセル内文
字を項目欄文字認識手段で認識し、その認識結果をもと
にセル属性判定手段でセル属性判定基準記憶手段に記憶
されている判定基準を参照して項目欄以外のデータ欄の
セル属性を判定し、その判定結果を文字認識手段に指定
し、この文字認識手段でセル属性に従って各セル内文字
を認識するように構成したので、セル内文字のセル属性
を人手を煩わすことなく自動的に指定することができ、
セル属性の誤指定による文字認識率の低下を伴うことが
なく、したがって類似字形の誤判定や書式の間違いなど
を少なくして高精度の表読取機能を実現することができ
るという効果が得られる。
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロック図、第2図
はこの発明の処理手順の一例を示すフローチャート、第
3図は表形式文書を示す説明図、第4図は従来例を示す
ブロック図である。 図中、1はイメージ入力部、2はイメージデータ記憶部
、3はセル抽出部、4は文字認識部、5は項目欄文字認
識部、6はセル属性判定部、7はセル属性判定基準記憶
部である。

Claims (1)

    【特許請求の範囲】
  1. 表形式文書をイメージデータとして入力するイメージ入
    力手段と、該イメージ入力手段で入力したイメージデー
    タを保存するイメージデータ記憶手段と、該イメージデ
    ータ記憶手段で保存したイメージデータから罫線を抽出
    し、罫線で囲まれたセルを認識するセル抽出手段と、該
    セル抽出手段で抽出したセルの中で項目欄に相当するセ
    ルのセル内文字を認識する項目欄文字認識手段と、セル
    属性を判定するための判定基準を記憶するセル属性判定
    基準記憶手段と、該セル属性判定基準記憶手段の判定基
    準に基づいて前記項目欄文字認識手段で認識した項目欄
    文字から項目欄以外のセル属性を判定するセル属性判定
    手段と、該セル属性判定手段で判定したセル属性に従っ
    て各セル内文字を認識する文字認識手段とを備えたこと
    を特徴とする自動セル属性判定機能を有する表読取装置
JP2128920A 1990-05-18 1990-05-18 自動セル属性判定機能を有する表読取装置 Expired - Lifetime JP2740335B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2128920A JP2740335B2 (ja) 1990-05-18 1990-05-18 自動セル属性判定機能を有する表読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2128920A JP2740335B2 (ja) 1990-05-18 1990-05-18 自動セル属性判定機能を有する表読取装置

Publications (2)

Publication Number Publication Date
JPH0423185A true JPH0423185A (ja) 1992-01-27
JP2740335B2 JP2740335B2 (ja) 1998-04-15

Family

ID=14996647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2128920A Expired - Lifetime JP2740335B2 (ja) 1990-05-18 1990-05-18 自動セル属性判定機能を有する表読取装置

Country Status (1)

Country Link
JP (1) JP2740335B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11102416A (ja) * 1997-09-26 1999-04-13 Fujitsu Ltd 帳票読取方向判定装置および帳票読取方向判定方法
US6360011B1 (en) 1995-07-31 2002-03-19 Fujitsu Limited Data medium handling apparatus and data medium handling method
US6510238B2 (en) * 1999-05-13 2003-01-21 Currency Systems International, Inc. Partial OCR note confirmation methods
JP2008204226A (ja) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd 帳票認識装置およびそのプログラム
JP2010061693A (ja) * 2009-12-15 2010-03-18 Fujitsu Ltd 帳票認識方法及び帳票認識装置
US8634094B2 (en) 2011-03-28 2014-01-21 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and non-transitory computer readable medium storing program
WO2014061081A1 (ja) * 2012-10-15 2014-04-24 富士通株式会社 帳票作成支援装置、帳票作成支援方法、及び帳票作成支援プログラム
US8867050B2 (en) 2011-07-12 2014-10-21 Fuji Xerox Co., Ltd. Image processing apparatus, non-transitory computer readable medium storing program and image processing method for restoring a single table from a plurality of pages
WO2018016214A1 (ja) * 2016-07-21 2018-01-25 日本電気株式会社 画像処理装置、画像処理方法及びプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6360011B1 (en) 1995-07-31 2002-03-19 Fujitsu Limited Data medium handling apparatus and data medium handling method
US6501864B1 (en) 1995-07-31 2002-12-31 Fujitsu Limited Data medium handling apparatus and data medium handling method
US6567546B1 (en) 1995-07-31 2003-05-20 Fujitsu Limited Data medium handling apparatus medium handling method
JPH11102416A (ja) * 1997-09-26 1999-04-13 Fujitsu Ltd 帳票読取方向判定装置および帳票読取方向判定方法
US6510238B2 (en) * 1999-05-13 2003-01-21 Currency Systems International, Inc. Partial OCR note confirmation methods
US6697511B1 (en) * 1999-05-13 2004-02-24 Currency Systems International Partial read confirmation method
JP2008204226A (ja) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd 帳票認識装置およびそのプログラム
JP2010061693A (ja) * 2009-12-15 2010-03-18 Fujitsu Ltd 帳票認識方法及び帳票認識装置
US8634094B2 (en) 2011-03-28 2014-01-21 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and non-transitory computer readable medium storing program
US8867050B2 (en) 2011-07-12 2014-10-21 Fuji Xerox Co., Ltd. Image processing apparatus, non-transitory computer readable medium storing program and image processing method for restoring a single table from a plurality of pages
WO2014061081A1 (ja) * 2012-10-15 2014-04-24 富士通株式会社 帳票作成支援装置、帳票作成支援方法、及び帳票作成支援プログラム
WO2018016214A1 (ja) * 2016-07-21 2018-01-25 日本電気株式会社 画像処理装置、画像処理方法及びプログラム
JPWO2018016214A1 (ja) * 2016-07-21 2019-05-09 日本電気株式会社 画像処理装置、画像処理方法及びプログラム
US10943363B2 (en) 2016-07-21 2021-03-09 Nec Corporation Image processing apparatus, and image processing method

Also Published As

Publication number Publication date
JP2740335B2 (ja) 1998-04-15

Similar Documents

Publication Publication Date Title
JP2003308480A (ja) オンライン手書き文字パターン認識編集装置及び方法並びに当該方法を実現するコンピュータ実行可能なプログラム
JPH0423185A (ja) 自動セル属性判定機能を有する表読取装置
US6567545B1 (en) Format recognition method, apparatus and storage medium
JP3319203B2 (ja) 文書ファイリング方法及び装置
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
JPH06301699A (ja) 取引処理装置
JP2559356B2 (ja) 文書画像処理方法
JPH0896081A (ja) 文字認識装置及び文字認識方法
JP3195405B2 (ja) 文字認識装置
JP2000132635A (ja) 認識データ確認方法
JP2681572B2 (ja) 手書き文字の入力方法とその装置
JPS5972511A (ja) 一般コ−ドによる特殊コ−ド入力装置
JPH0816571A (ja) 漢字入力装置
JP3481850B2 (ja) 文字認識装置
JP2990734B2 (ja) 文字認識装置の認識候補文字出力制御方法
JPH06150056A (ja) 表認識装置
JPH08180050A (ja) 難読漢字検索装置
JPH05120471A (ja) 文字認識装置
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JPH117492A (ja) キー入力編集方法及び編集装置
JPH11282965A (ja) 文字認識装置及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3310063B2 (ja) 文書処理装置
JP2000246184A (ja) 宛先特定装置
JP4754889B2 (ja) 文字列抽出方法および装置
JPH0573713A (ja) 文字読取装置