JPH10307888A - 表処理方法、装置および記録媒体 - Google Patents

表処理方法、装置および記録媒体

Info

Publication number
JPH10307888A
JPH10307888A JP9119327A JP11932797A JPH10307888A JP H10307888 A JPH10307888 A JP H10307888A JP 9119327 A JP9119327 A JP 9119327A JP 11932797 A JP11932797 A JP 11932797A JP H10307888 A JPH10307888 A JP H10307888A
Authority
JP
Japan
Prior art keywords
line
character
interval
ruled line
spacing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9119327A
Other languages
English (en)
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9119327A priority Critical patent/JPH10307888A/ja
Publication of JPH10307888A publication Critical patent/JPH10307888A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 罫線の無い表に対しても表の構造を生成し、
表内の文字を認識する。 【解決手段】 行切り出し部5は抽出された矩形どうし
の間隔が所定値以内にあるものを統合することにより、
文字行の切り出しを行う。行間隔/文字間隔算出部7で
は、文字行切り出し後、行間隔および文字間隔を算出
し、仮想罫線挿入部10は、算出された行間隔および文
字間隔が所定の閾値以上である場合に、セルの区切り目
があると判断し、仮想罫線を挿入する。表構造生成部1
2では、仮想罫線を基に表の行と列の構造を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、表を含む文書を自
動的に認識し、表内の文字を認識する表処理方法、装置
および記録媒体に関する。
【0002】
【従来の技術】一般に、表を含む文書を自動認識させる
場合には、表を構成する罫線を認識してから行うことが
多い。このような従来の方法としては、例えば、罫線を
認識し、罫線に囲まれた文字を抽出し、該文字を認識す
る方法がある(特開平3−172984号公報を参
照)。また、実線罫線の認識に加えて、点線罫線を認識
する方法として、黒画素連結成分の大きさの分散値を用
いる方法もある(特開平7−230525号公報を参
照)。
【0003】
【発明が解決しようとする課題】ところが、上記した何
れの方法も、実線罫線または点線罫線を先に認識するこ
とを前提にしたものであり、罫線の無い表に対しては対
応できないという問題があった。
【0004】本発明は上記した事情を考慮してなされた
もので、本発明の目的は、罫線の無い表に対しても表の
構造を生成し、表内の文字を認識することができる表処
理方法、装置および記録媒体を提供することにある。
【0005】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像から文字の位置
情報を求め、該位置情報を基に行間隔および文字間隔を
求め、該行間隔および文字間隔を基に表を構成する仮想
的な罫線を、前記各間隔に生成し、前記仮想的な罫線お
よび文字画像から表構造を生成することを特徴としてい
る。
【0006】請求項2記載の発明では、前記表構造にお
ける表内の文字を認識することを特徴としている。
【0007】請求項3記載の発明では、前記文書画像の
指定された領域について、前記表構造を生成することを
特徴としている。
【0008】請求項4記載の発明では、実線罫線、点線
罫線が存在する第1の領域と、罫線が存在しない第2の
領域からなる文書画像について、前記第1の領域から前
記実線罫線、点線罫線を抽出し、前記第2の領域から文
字の位置情報を求め、該位置情報を基に行間隔および文
字間隔を求め、該行間隔および文字間隔を基に表を構成
する仮想的な罫線を、前記各間隔に生成し、前記仮想的
な罫線、文字画像および前記実線罫線、点線罫線から表
構造を生成することを特徴としている。
【0009】請求項5記載の発明では、文書画像を入力
する手段と、該文書画像から外接矩形を抽出する手段
と、該矩形を統合することにより文字行を切り出す手段
と、切り出された文字行を基に行間隔、文字間隔を算出
する手段と、該間隔が所定の閾値以上であるとき、該間
隔に仮想罫線を挿入し、表構造を生成する手段を備えた
ことを特徴としている。
【0010】請求項6記載の発明では、文書画像を入力
する手段と、該文書画像の所定領域を指定する手段と、
該指定された領域の画像から外接矩形を抽出する手段
と、該矩形を統合することにより文字行を切り出す手段
と、切り出された文字行を基に行間隔、文字間隔を算出
する手段と、該間隔が所定の閾値以上であるとき、該間
隔に仮想罫線を挿入し、表構造を生成する手段を備えた
ことを特徴としている。
【0011】請求項7記載の発明では、文書画像を入力
する手段と、該文書画像から外接矩形を抽出する手段
と、該矩形を統合することにより行を切り出す手段と、
切り出された行を基に行間隔、文字間隔を算出する手段
と、該間隔が所定の閾値以上であるとき、該間隔に仮想
罫線を挿入し、表構造を生成する手段と、該表内の文字
を認識する手段を備えたことを特徴としている。
【0012】請求項8記載の発明では、文書画像を入力
する手段と、該文書画像から外接矩形を抽出する手段
と、該矩形を統合することにより文字行を切り出す手段
と、前記文書画像から実線罫線、点線罫線を抽出する手
段と、該切り出された文字行を基に行間隔、文字間隔を
算出する手段と、該間隔が所定の閾値以上であるとき、
該間隔に仮想罫線を挿入し、前記実線罫線、点線罫線と
合わせて表構造を生成する手段を備えたことを特徴とし
ている。
【0013】請求項9記載の発明では、文書画像から文
字の位置情報を求める機能と、該位置情報を基に行間隔
および文字間隔を求める機能と、該行間隔および文字間
隔を基に表を構成する仮想的な罫線を、前記各間隔に生
成する機能と、前記仮想的な罫線および文字画像から表
構造を生成する機能と、表内の文字を認識する機能をコ
ンピュータに実現させるためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体であることを特徴と
している。
【0014】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 〈実施例1〉図1は、本発明の実施例1の構成を示す。
図2は、本発明の実施例1の処理フローチャートを示
す。
【0015】スキャナ等の2値画像入力部1によって、
文書や帳票等の原稿を読み取り、原稿の2値イメージデ
ータを2値イメージメモリ2に格納する(ステップ10
1)。次いで、矩形抽出部3では、黒画素連結外接矩形
を抽出し、矩形メモリ4に格納する(ステップ10
2)。
【0016】行切り出し部5は、矩形メモリ4から矩形
を読み出し、矩形どうしの間隔が所定値以内にあるもの
を統合し、文字行の切り出しを行い、文字行の座標値な
どを行メモリ6に格納する(ステップ103)。ここ
で、文字行の切り出しを行う際に、行間隔が狭いもの
(間隔が所定の閾値以内)どうしは、1つのセル(行と
列の交差した領域)である可能性が高いため、閾値処理
して統合する。図3は、実施例1の表処理を説明する図
である。図3において、v1は行間隔が狭い例を示す。
【0017】続いて、行間隔/文字間隔算出部7では、
文字行切り出し後、文字位置決定線を求め、行間隔およ
び文字間隔を算出し、それぞれ行間隔メモリ8、文字間
隔メモリ9に格納する(ステップ104)。
【0018】図3の例で説明すると、まず、行の左側が
そろっている位置(y1〜y3)、および上側がそろっ
ている位置(x1〜x3)を求め、これらの位置を共有
する行どうしがすべて包含される位置(y4〜y6、x
4〜x6)を求める。そして、行、列方向の文字位置決
定線を求め、この文字位置決定線を基に、行間隔(h
1,h2)、文字間隔(w1,w2)を求める。
【0019】仮想罫線挿入部10は、行間隔メモリ8内
の行間隔および文字間隔メモリ9内の文字間隔が所定の
閾値以上である場合には、セルの区切り目があると判断
し、ここに仮想罫線を挿入し、その結果を仮想罫線メモ
リ11に格納する(ステップ105)。表構造生成部1
2では、仮想罫線メモリ11から読み出される仮想罫線
を基に表の行と列の構造を生成する。この構造を利用す
ることにより、一般の表計算ソフトなどへのデータコン
バートが可能になる。
【0020】〈実施例2〉図4は、本発明の実施例2の
構成を示し、図5は、実施例2の処理フローチャートを
示す。本実施例では、実施例1の構成にさらに、表構造
抽出部12の後段に文字認識部14と表構造メモリ13
を付加したものであり、実施例1との相違は、表構造の
生成後、文字の認識を行う点にある。
【0021】すなわち、表構造生成部12において生成
されたデータを表構造メモリ13に格納し、文字認識部
14では、表内の行メモリ6に格納されている文字行デ
ータから文字を切り出して認識し、セルの行および列を
対応させた文字認識結果を出力する(ステップ20
7)。
【0022】〈実施例3〉実施例3では、実施例1ある
いは実施例2において、ユーザーが画面に表示された画
像を見ながら、図2または図5に示す処理を実行する領
域をマウスなどにより指定するものである。図6は、実
施例3の構成を示す。本実施例では、2値画像入力部1
と矩形抽出部3の間に、表領域指定部15と表領域メモ
リ16を設け、表領域指定部15で「罫線なし表」のよ
うな指定を行った領域に対してのみ、矩形抽出部3では
以降の処理を行う。
【0023】これにより、不要な個所、領域に対して本
発明の処理を行わないので、処理速度が向上すると共
に、誤って表構造を生成することが防止される。
【0024】〈実施例4〉図7は、本発明の実施例4の
構成を示し、図8は、実施例4の処理フローチャートを
示す。本実施例では、実施例2にさらに実線罫線抽出部
17、点線罫線抽出部19、実線罫線メモリ18、点線
罫線メモリ20を設け、行間隔および文字間隔を算出す
る前に、実線罫線抽出と点線罫線抽出を行う(ステップ
304、305)。すなわち、実線罫線抽出部17およ
び点線罫線抽出部19では、2値イメージメモリ2を参
照し、実線罫線および点線罫線を抽出し(抽出方法とし
ては、例えば前掲した特開平7−230525号公報の
技術を用いる)、その結果をそれぞれ実線罫線メモリ1
8、点線罫線メモリ20に格納する。
【0025】これによって、例えば表の外側に罫線が存
在し、表の内部の罫線が省略されている表、あるいは表
内部に部分的に罫線が存在し、表内部の他の部分には罫
線が存在しない場合などに対応することが可能となる。
【0026】そして、表構造生成部12では、仮想罫線
メモリ11に加えて、実線罫線メモリ18および点線罫
線メモリ20を参照して、表構造を生成する(ステップ
308)。
【0027】〈実施例5〉本発明は上記した実施例に限
定されず、ソフトウェアによっても実現することができ
る。本発明をソフトウェアによって実現する場合には、
図9に示すように、CPU、ROM、RAM、表示装
置、ハードディスク、キーボード、CD−ROMドライ
ブ、スキャナなどからなる汎用の処理装置を用意し、C
D−ROMなどのコンピュータ読み取り可能な記録媒体
には、本発明の表処理機能を実現するプログラムが記録
されている。また、スキャナなどから入力された文書な
どの画像は一時的にハードディスクなどに格納される。
そして、該プログラムが起動されると、一時保存された
画像データが読み込まれて、画像の表処理を実行し、そ
の結果をディスプレイ、プリンタなどに出力する。
【0028】
【発明の効果】以上、説明したように、本発明によれ
ば、罫線のない表に対しても、表構造を生成することが
でき、該生成された表内の文字を認識することができ
る。従って、生成された表構造と認識結果を、一般の表
計算ソフトなどで利用することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施例1の構成を示す。
【図2】実施例1の処理フローチャートを示す。
【図3】実施例1の表処理を説明する図である。
【図4】本発明の実施例2の構成を示す。
【図5】実施例2の処理フローチャートを示す。
【図6】本発明の実施例3の構成を示す。
【図7】本発明の実施例4の構成を示す。
【図8】実施例4の処理フローチャートを示す。
【図9】本発明をソフトウェアによって実現する場合の
構成例を示す。
【符号の説明】
1 2値画像入力部 2 2値イメージメモリ 3 矩形抽出部 4 矩形メモリ 5 行切り出し部 6 行メモリ 7 行間隔/文字間隔算出部 8 行間隔メモリ 9 文字間隔メモリ 10 仮想罫線挿入部 11 仮想罫線メモリ 12 表構造生成部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文書画像から文字の位置情報を求め、該
    位置情報を基に行間隔および文字間隔を求め、該行間隔
    および文字間隔を基に表を構成する仮想的な罫線を、前
    記各間隔に生成し、前記仮想的な罫線および文字画像か
    ら表構造を生成することを特徴とする表処理方法。
  2. 【請求項2】 前記表構造における表内の文字を認識す
    ることを特徴とする請求項1記載の表処理方法。
  3. 【請求項3】 前記文書画像の指定された領域につい
    て、前記表構造を生成することを特徴とする請求項1記
    載の表処理方法。
  4. 【請求項4】 実線罫線、点線罫線が存在する第1の領
    域と、罫線が存在しない第2の領域からなる文書画像に
    ついて、前記第1の領域から前記実線罫線、点線罫線を
    抽出し、前記第2の領域から文字の位置情報を求め、該
    位置情報を基に行間隔および文字間隔を求め、該行間隔
    および文字間隔を基に表を構成する仮想的な罫線を、前
    記各間隔に生成し、前記仮想的な罫線、文字画像および
    前記実線罫線、点線罫線から表構造を生成することを特
    徴とする表処理方法。
  5. 【請求項5】 文書画像を入力する手段と、該文書画像
    から外接矩形を抽出する手段と、該矩形を統合すること
    により文字行を切り出す手段と、切り出された文字行を
    基に行間隔、文字間隔を算出する手段と、該間隔が所定
    の閾値以上であるとき、該間隔に仮想罫線を挿入し、表
    構造を生成する手段を備えたことを特徴とする表処理装
    置。
  6. 【請求項6】 文書画像を入力する手段と、該文書画像
    の所定領域を指定する手段と、該指定された領域の画像
    から外接矩形を抽出する手段と、該矩形を統合すること
    により文字行を切り出す手段と、切り出された文字行を
    基に行間隔、文字間隔を算出する手段と、該間隔が所定
    の閾値以上であるとき、該間隔に仮想罫線を挿入し、表
    構造を生成する手段を備えたことを特徴とする表処理装
    置。
  7. 【請求項7】 文書画像を入力する手段と、該文書画像
    から外接矩形を抽出する手段と、該矩形を統合すること
    により行を切り出す手段と、切り出された行を基に行間
    隔、文字間隔を算出する手段と、該間隔が所定の閾値以
    上であるとき、該間隔に仮想罫線を挿入し、表構造を生
    成する手段と、該表内の文字を認識する手段を備えたこ
    とを特徴とする表処理装置。
  8. 【請求項8】 文書画像を入力する手段と、該文書画像
    から外接矩形を抽出する手段と、該矩形を統合すること
    により文字行を切り出す手段と、前記文書画像から実線
    罫線、点線罫線を抽出する手段と、該切り出された文字
    行を基に行間隔、文字間隔を算出する手段と、該間隔が
    所定の閾値以上であるとき、該間隔に仮想罫線を挿入
    し、前記実線罫線、点線罫線と合わせて表構造を生成す
    る手段を備えたことを特徴とする表処理装置。
  9. 【請求項9】 文書画像から文字の位置情報を求める機
    能と、該位置情報を基に行間隔および文字間隔を求める
    機能と、該行間隔および文字間隔を基に表を構成する仮
    想的な罫線を、前記各間隔に生成する機能と、前記仮想
    的な罫線および文字画像から表構造を生成する機能と、
    表内の文字を認識する機能をコンピュータに実現させる
    ためのプログラムを記録したコンピュータ読み取り可能
    な記録媒体。
JP9119327A 1997-05-09 1997-05-09 表処理方法、装置および記録媒体 Pending JPH10307888A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9119327A JPH10307888A (ja) 1997-05-09 1997-05-09 表処理方法、装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9119327A JPH10307888A (ja) 1997-05-09 1997-05-09 表処理方法、装置および記録媒体

Publications (1)

Publication Number Publication Date
JPH10307888A true JPH10307888A (ja) 1998-11-17

Family

ID=14758734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9119327A Pending JPH10307888A (ja) 1997-05-09 1997-05-09 表処理方法、装置および記録媒体

Country Status (1)

Country Link
JP (1) JPH10307888A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309611A (ja) * 2005-04-28 2006-11-09 Canon Marketing Japan Inc 解析装置、プログラム及び記録媒体
JP2010079379A (ja) * 2008-09-24 2010-04-08 Nec Corp 評価システム、ラベル有無評価装置、単位表記有無評価装置、配列表抽出装置、評価方法およびプログラム
JP2015090671A (ja) * 2013-11-07 2015-05-11 株式会社東芝 電子機器、方法及びプログラム
JP2021193549A (ja) * 2020-06-05 2021-12-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309611A (ja) * 2005-04-28 2006-11-09 Canon Marketing Japan Inc 解析装置、プログラム及び記録媒体
JP4646300B2 (ja) * 2005-04-28 2011-03-09 キヤノンマーケティングジャパン株式会社 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体
JP2010079379A (ja) * 2008-09-24 2010-04-08 Nec Corp 評価システム、ラベル有無評価装置、単位表記有無評価装置、配列表抽出装置、評価方法およびプログラム
JP2015090671A (ja) * 2013-11-07 2015-05-11 株式会社東芝 電子機器、方法及びプログラム
JP2021193549A (ja) * 2020-06-05 2021-12-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11636699B2 (en) 2020-06-05 2023-04-25 Beijing Baidu Netcom Science and Technology Co., Ltd Method and apparatus for recognizing table, device, medium

Similar Documents

Publication Publication Date Title
US8428356B2 (en) Image processing device and image processing method for generating electronic document with a table line determination portion
US8331692B2 (en) Image processing system and computer readable medium
JP3995185B2 (ja) 枠認識装置及び記録媒体
JPH10228473A (ja) 文書画像処理方法、文書画像処理装置および記憶媒体
US7796817B2 (en) Character recognition method, character recognition device, and computer product
US20100008585A1 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH10307888A (ja) 表処理方法、装置および記録媒体
JP2010074342A (ja) 画像処理装置、画像形成装置、及びプログラム
JP3993025B2 (ja) 文書画像変換方法、文書画像変換プログラム及び文書画像変換装置
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2002342710A (ja) 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム
JP4616522B2 (ja) 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体
JPH11242716A (ja) 画像処理方法および記録媒体
JP3391987B2 (ja) 帳票認識装置
JP2948840B2 (ja) 矩形抽出方法
JPH1049676A (ja) 罫線認識方法
JP4738645B2 (ja) 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体
JP2006092204A (ja) 画像処理方法及び画像処理装置
JP2000040122A (ja) 文字切り出し方法
JP2002049890A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP3734614B2 (ja) 画像処理方法、装置および記録媒体
JPH10187884A (ja) 文字認識装置および記録媒体
JPH0728934A (ja) 文書画像処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050623

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050809