JPH0433079A - 表処理方式 - Google Patents

表処理方式

Info

Publication number
JPH0433079A
JPH0433079A JP2134878A JP13487890A JPH0433079A JP H0433079 A JPH0433079 A JP H0433079A JP 2134878 A JP2134878 A JP 2134878A JP 13487890 A JP13487890 A JP 13487890A JP H0433079 A JPH0433079 A JP H0433079A
Authority
JP
Japan
Prior art keywords
frame
character
row
column
scanning direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2134878A
Other languages
English (en)
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2134878A priority Critical patent/JPH0433079A/ja
Publication of JPH0433079A publication Critical patent/JPH0433079A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置に係り、特に文書画像中の表領
域の処理方式に関する。
〔従来の技術〕
文字認識装置においては、文書あるいは帳票の画像を文
字領域、写真や図形などのイメージ領域、表領域などに
分割し、それぞれの領域に別の処理を行うことが多い。
表領域に関しては、表を構成する罫線の位置を認識し、
罫線で囲まれた枠内の画像に対して連結した黒画素の追
跡を行い、黒画素連結の外接矩形を求め、それを統合し
て文字行を抽出し、文字認識している。
〔発明が解決しようとする課題〕
表中の文字の認識は、文字を何等かの意味を持ったデー
タとして入力することを目的としている場合が多い。こ
のような場合、表は行毎にあるいはカラム毎に属性を持
っていることが多い。
例えば第4図に示した表の例では、1行目は教科の名前
であり、2行目以降は各生徒のデータであって、1カラ
ム目は生徒の名前、2カラム目以降は教科毎の成績とな
っている。このような表のデータを入力する場合、文字
が記入されている枠は表内で何行目の何カラム目の枠で
あるかという情報が、文字認識結果と同じ程度に重要で
ある。
しかし従来の表処理方式は、そのような枠の情報を提供
することを考慮していないため、行毎あるいはカラム毎
に属性を持つ表のデータの自動入力が不可能である。
したがって本発明の目的は、行毎あるいはカラム毎に属
性を持つ表のデータの自動入力を可能とする表処理方式
を提供することにある。
〔課題を解決するための手段〕
本発明の表処理方式は、文書画像の表領域より、主走査
方向及び副走査方向の線分で囲まれた枠を抽出する手段
と、抽出された枠内の文字行を抽出して文字を認識する
手段と、抽出された各枠の座標値を参照することにより
1表内における各粋の行番号及びカラム番号を判別する
手段とを有し。
枠内の文字の認識結果を枠の行番号及びカラム番号とと
もに出力することを特徴とする。
〔作 用〕
本発明によれば、表中の各枠に記入された文字が認識さ
れるだけでなく、その文字の記入位置に関連した属性情
報も得られるため、表中の文字を特定の意味を持ったデ
ータとして自動的に入力することが可能となる。
〔実施例〕
第1図は本発明の一実施例を示すブロック図、第2図は
処理のフローチャートである。
スキャナーなどの2値画像入力部101によって文書(
帳票)を読取り、その2値画像を2値イメージメモリ1
02に格納する(処理ステップ201)。
この文書画像に対して、表領域認識部103はランレン
グス分布などを利用して表領域を自動的に認識し、ある
いはマウスなどを用いて操作者から指定された領域を表
領域として認識し、表領域のイメージを表領域イメージ
メモリ104に格納する(処理ステップ202)。
この表領域のイメージに対し、主走査方向線分抽出部1
05において、主走査方向に連結した黒画素を追跡して
主走査方向の線分を抽出し、その始点及び終点の座標を
主走査方向線分座標メモリ106に格納する(処理ステ
ップ203)、同様に副走査方向線分抽出部107にお
いて、表領域イメージ内の副走査方向に連結した黒画素
を追跡して副走査方向の線分を抽出し、その始点及び終
点の座標を副走査方向線分座標メモリ108に格納する
(処理ステップ204)。
次に枠認識部109において、各メモリ106゜108
に格納された線分座標を参照し、主走査方向線分と副走
査方向線分の組合せにより表の枠を認識し、粋の座標値
例えば対角頂点の座標値を枠座標メモリ110に格納す
る(処理ステップ205)。また枠領域抽出部111に
おいて、枠座標メモリ110内の枠座標を参照すること
により。
表領域イメージメモリ104より枠の領域の画像を抽出
して枠領域画像メモリ112に格納する(処理ステップ
206)。
次に外接矩形抽出部113において、枠領域画像メモリ
112を参照し、各枠内の画像に対して連結した黒画素
を追跡して黒画素連結の外接矩形を抽出し、その対角頂
点の座標値を外接矩形座標メモリ114に格納する(処
理ステップ207)。
次に行画像抽出部115において、外接矩形座標メモリ
114を参照し、各枠内の黒画素連結の外接矩形を統合
することにより、枠内の文字行(文字列)を抽出し、枠
領域画像メモリ112より各文字行の画像を切出して行
画像メモリ116に格納する(処理ステップ208,2
09)。
次に文字認識部117において、行画像メモリ116内
の各粋の文字行画像より文字画像を切出して特徴を抽出
し、認識辞書とのマツチングを行って文字を認識し、認
識結果として文字コードをデータメモリ118へ格納す
る(処理ステップ210)。
また枠位置判定部119において、枠座標メモリ110
を参照し、各粋の座標値より各座標の属する表内の行番
号及びカラム番号を判別し、それを!’J ffi結果
である文字コードと対応付けてデータメモリ118に格
納する(処理ステップ211)。
このように、各粋の文字認識だけでなく枠の行番号及び
カラム番号がデータメモリ118に得られるので、これ
をデータ処理装置の入力ファイルとして用いることによ
り1表中の文字を属性すなわち意味を持ったデータとし
て自動的に入力することが可能となる。
枠位置判別の処理ステップ211の内容は第3図に示す
通りである。
まず、枠の始点(左上頂点)の座標値を用い、副走査方
向の座標値を優先して座標値の小さい順に枠をソートす
る(処理ステップ301)。
次に行番号、カラム番号及び枠番号を初期値である1に
セットしく処理ステップ302,303)。
枠番号順に各枠が所属する行番号とカラム番号を調べる
(処理ステップ304〜308)。
すなわち、枠の始点の副走査方向の座標値がある一定値
TH以上変化しなければ行番号はそのままにしてカラム
番号をインクリメントし、始点の副走査方向座標値の変
化がTH以上となったときに行番号をインクリメントし
カラム番号を初期値に戻すという処理を最後の枠まで繰
り返す。
〔発明の効果〕
以上説明した如く1本発明によれば、表中の各粋に記入
された文字が認識されるだけでなく、その文字が記入さ
れた枠の行番号及びカラム番号も得られるため、行毎あ
るいはカラム毎に属性を有する表の文字を特定の意味を
持ったデータとして自動的に入力することが可能となる
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
処理全体のフローチャート、第3図は枠位置判別処理の
フローチャート、第4図は行及びカラムに属性のある表
の説明図である。 101・・・2値画像入力部、 102・・・2値イメージメモリ、 103・・・表領域認識部、 104・・・表領域イメージメモリ、 105・・・主走査方向線分抽出部、 106・・・主走査方向線分座標メモリ、107・・・
副走査方向線分抽出部、 108・・・副走査方向線分座標メモリ、109・・・
枠認識部、 110・・・枠座標メモリ、111・・・
枠領域認識部。 112・・・枠領域画像メモリ、 113・・・外接矩形抽出部、 4・・・外接矩形座標メモリ。 5・・・行画像抽出部。 6・・・行画像メモリ、  117・・・文字認識部。 8・・・出力データメモリ。 9・・・枠位置判別部。 第3図 第4図 ず−・カラムに  生りAつ&のgr

Claims (1)

    【特許請求の範囲】
  1. (1)文書画像の表領域より、主走査方向及び副走査方
    向の線分で囲まれた枠を抽出する手段と、抽出された枠
    内の文字行を抽出して文字認識する手段と、抽出された
    各枠の座標値を参照することにより、表内における各枠
    の行番号及びカラム番号を判別する手段とを有し、文字
    認識結果を枠の行番号及びカラム番号とともに出力する
    ことを特徴とする表処理方式。
JP2134878A 1990-05-24 1990-05-24 表処理方式 Pending JPH0433079A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2134878A JPH0433079A (ja) 1990-05-24 1990-05-24 表処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2134878A JPH0433079A (ja) 1990-05-24 1990-05-24 表処理方式

Publications (1)

Publication Number Publication Date
JPH0433079A true JPH0433079A (ja) 1992-02-04

Family

ID=15138610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2134878A Pending JPH0433079A (ja) 1990-05-24 1990-05-24 表処理方式

Country Status (1)

Country Link
JP (1) JPH0433079A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262368A (ja) * 2007-04-11 2008-10-30 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262368A (ja) * 2007-04-11 2008-10-30 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Similar Documents

Publication Publication Date Title
JP3139521B2 (ja) 自動言語決定装置
US5386508A (en) Apparatus for generating programs from inputted flowchart images
JP3302147B2 (ja) 文書画像処理方法
JP2940936B2 (ja) 表領域識別方法
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
US5509092A (en) Method and apparatus for generating information on recognized characters
JPH01253077A (ja) 文字列検出方法
CN113780276A (zh) 一种结合文本分类的文本检测和识别方法及系统
JPH10162098A (ja) 文書電子化装置及び文書電子化方法
JPH0433079A (ja) 表処理方式
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
JPH0384681A (ja) 名刺情報の入力処理方法
JPH04324577A (ja) 折れ線グラフ認識装置
JPH05159062A (ja) 文書認識装置
JPS594358Y2 (ja) 文字修正における文字制御装置
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP3157534B2 (ja) 表認識方法
CN117558013A (zh) 一种将手写表单数据录入到pdf电子表单的方法
JPH0433080A (ja) 表内文字認識方法
JP2972443B2 (ja) 文字認識装置
JPH0728939A (ja) 表のベクトル化装置
JPH03126188A (ja) 文字認識装置
JPH04346189A (ja) 文字列種類識別装置
JP2578965B2 (ja) 図形処理装置
JPH0271379A (ja) 画像処理装置