JPH08221510A - 帳票文書処理装置および帳票文書処理方法 - Google Patents

帳票文書処理装置および帳票文書処理方法

Info

Publication number
JPH08221510A
JPH08221510A JP7028334A JP2833495A JPH08221510A JP H08221510 A JPH08221510 A JP H08221510A JP 7028334 A JP7028334 A JP 7028334A JP 2833495 A JP2833495 A JP 2833495A JP H08221510 A JPH08221510 A JP H08221510A
Authority
JP
Japan
Prior art keywords
data
frame
data frame
character string
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7028334A
Other languages
English (en)
Inventor
Hiroaki Kubota
浩明 久保田
Mieko Asano
三恵子 浅野
Shigeyoshi Shimotsuji
成佳 下辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7028334A priority Critical patent/JPH08221510A/ja
Publication of JPH08221510A publication Critical patent/JPH08221510A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 複雑な構造を有する入力帳票から確実にデー
タ枠を抽出することのできる帳票文書処理装置および方
法を提供することを目的とする。 【構成】 本発明は、複数の長方形枠からなる表を含む
帳票文書を処理する帳票文書処理装置において、入力さ
れた帳票の画像データより長方形枠を抽出する長方形枠
抽出手段と、抽出された前記長方形枠の内部に存在する
文字を抽出する文字列抽出手段と、前記長方形枠の内部
から抽出された前記文字に基づいて、前記長方形枠のう
ちからデータ記入領域を持つデータ枠を抽出するデータ
枠抽出手段とを具備したことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、表形式の部分を含む帳
票文書をデータ化して出力あるいは登録するための帳票
文書処理装置および方法に関する。
【0002】
【従来の技術】従来の帳票文書処理装置は、自動的に入
力文書の構造(特にデータ記入領域を持つデータ枠の構
造)を理解し文書の書式を生成するために、まだ文字な
どのデータを記入していない文書(以下、ブランク帳票
と呼ぶ)の入力画像から長方形枠を抽出し、長方形枠の
間の関係を抽出し、さらに長方形枠とその認識した文字
から入力文書の構造を理解する方式をとっていた。例え
ば、特開昭61−59568号公報に示される方法で
は、長方形枠の上下左右に接触するあるいは位置する長
方形枠を関連付け、その枠内に存在する文字によって構
造理解を行っていた。また、特定のキーワードにより独
立に存在する長方形枠の抽出を特例処理として行ってい
た。
【0003】しかしながら、文書には複雑な構造を有す
るものもあり、長方形枠と長方形枠の関係による構造だ
けでは表現できず、従来のように長方形枠と長方形枠の
間の関係を元にしていたのでは、文書の構造を理解しき
れない場合があった。
【0004】また、帳票文書画像をデータ化して登録し
たり、キーワードによって登録文書を検索したり、記入
済み帳票から記入データを読み込みデータベース化した
りする場合においても、最も必要であるのは、データが
記入されるべき領域の抽出とその領域に記入すべき文字
の項目・属性への関連付けである。この場合において
も、長方形枠と長方形枠の関連付けによる構造、あるい
は、隣合う長方形枠から抽出された構造のみでは不十分
であった。
【0005】
【発明が解決しようとする課題】従来の帳票文書処理装
置は、入力帳票画像から抽出した長方形枠と長方形枠の
間の関係を元にして、当該入力帳票の構造、特にデータ
枠の構造を理解していたので、複雑な構造を有する入力
帳票に対しては、文書の構造理解が困難であった。
【0006】また、入力帳票画像から抽出した長方形枠
と長方形枠の間の関係を元にして、帳票中の各長方形枠
の項目属性を抽出していたので、複雑な構造を有する入
力帳票に対しては、項目属性の抽出が困難であった。
【0007】本発明は、上記事情を考慮してなされたも
ので、複雑な構造を有する入力帳票から確実にデータ枠
を抽出することのできる帳票文書処理装置および方法を
提供することを目的とする。
【0008】
【課題を解決するための手段】本発明は、複数の長方形
枠からなる表を含む帳票文書を処理する帳票文書処理装
置において、入力された帳票の画像データより長方形枠
を抽出する長方形枠抽出手段と、抽出された前記長方形
枠の内部に存在する文字を抽出する文字列抽出手段と、
抽出された前記長方形枠の内部の文字に基づいて、前記
長方形枠のうちからデータ記入領域を持つデータ枠を抽
出するデータ枠抽出手段とを具備したことを特徴とす
る。
【0009】好ましくは、前記データ枠抽出手段は、長
方形枠の内部の文字列の有無、位置、大きさ、文字の内
容の少なくとも1つを利用してデータ枠を抽出すること
を特徴とする。
【0010】また、好ましくは、前記データ枠抽出手段
は、前記長方形枠の内部の空白領域の分布を計測し、こ
の計測結果に従ってデータ枠を抽出することを特徴とす
る。また、好ましくは、抽出された前記データ枠の線分
の種類を計測する手段と、計測された前記線分の種類に
よって前記データ枠を統合する手段とをさらに具備した
ことを特徴とする。
【0011】また、好ましくは、前記データ枠抽出手段
により抽出された前記データ枠の内部および該データ枠
を中心として一定方向に存在する文字または文字列を読
み取る関連文字列探索手段と、読み取った文字または文
字列を前記データ枠の属性とするデータ枠属性計測手段
とをさらに具備したことを特徴とする。
【0012】また、好ましくは、前記関連文字列探索手
段が読み取る文字または文字列の探索方向は、上方向お
よび左方向であることを特徴とする。また、好ましく
は、前記関連文字列探索手段は、前記データ枠の条件に
よって右方向または下方向の文字列を読み取ることを特
徴とする。
【0013】また、好ましくは、前記データ枠属性計測
手段は、前記関連文字列探索手段により読み取った文字
または文字列により、前記データ枠の新たな属性を求め
ることを特徴とする。
【0014】また、好ましくは、前記関連文字列探索手
段により読み取った文字、文字列、または前記データ枠
属性計測手段により計測された属性を利用して、前記画
像の構造を理解する構造理解手段をさらに具備したこと
を特徴とする。
【0015】また、本発明は、複数の長方形枠からなる
表を含む帳票文書を処理する帳票文書処理方法におい
て、入力された帳票の画像データより長方形枠を抽出
し、抽出された前記長方形枠の内部に存在する文字を抽
出し、抽出された前記長方形枠の内部の文字に基づい
て、前記長方形枠のうちからデータ記入領域を持つデー
タ枠を抽出することを特徴とする。
【0016】
【作用】本発明では、入力された帳票の画像データより
長方形枠を抽出し、抽出された前記長方形枠の内部に存
在する文字を抽出し、この長方形枠の内部から抽出され
た文字に基づいて、抽出された長方形枠のうちからデー
タ記入領域を持つデータ枠を抽出する。
【0017】すなわち、本発明では、帳票の構造認識を
長方形枠と長方形枠の関係から行うのではなく、長方形
枠の中から文字(あるいは空白枠および空白領域所持
枠)を抽出し、この情報に基づいて確実にデータ入力枠
を抽出することができる。
【0018】さらに、抽出したデータ入力枠を中心に関
連する文字列を探すことにより、そこに入力されるデー
タの項目属性をもれなく抽出することが可能となる。ま
た、データ枠を外れた位置に項目名が存在するような場
合においても、文字列のサーチを枠外にも同条件で行う
ことにより、正確に項目属性を抽出することができる。
【0019】
【実施例】以下、図面を参照しながら実施例を説明す
る。 (第1の実施例)図1は、本発明の一実施例に係る帳票
文書処理装置の構成を示すブロック図である。本実施例
の帳票文書処理装置は、画像入力部1、線分抽出部2、
罫線抽出部3、長方形枠抽出部4、文字列抽出部5、文
字認識部6、データ枠探索部7、データ枠属性探索部
8、データ枠構造計測部9を備えている。
【0020】画像入力部1は、処理対象となる帳票文書
を画像データとして入力するためのものであり、例えば
イメージ・スキャナーなどからなる。線分抽出部2は、
入力した画像データに対して、2値化処理、細線化処
理、線分接続処理などの前処理を施し、入力画像データ
を線分データとして抽出する。線分データには、長さ、
終始点座標などが含まれる。
【0021】罫線抽出部3は、抽出された線分から、長
方形枠を形成する可能性のあるものを罫線として抽出す
る。長方形枠抽出部4は、抽出された罫線から長方形枠
を抽出する。
【0022】文字列抽出部5は、抽出された線分のうち
長方形枠に使われなかったものから文字パターン成分を
抽出し文字列を抽出する。文字認識部6は、抽出された
文字列を文字パターン認識処理にて文字コードに変換
し、文字列単位に文字コードデータを出力する。
【0023】データ枠探索部7は、抽出された長方形枠
のうちからデータ記入領域を持つデータ枠のみを取り出
す。データ枠属性探索部8は、データ枠の属性あるいは
項目名となりうる文字列を探索していくことによって各
データ枠の属性等を決定する。
【0024】データ枠構造計測部9は、探索されたデー
タ枠等により文書全体のデータ枠の構造を理解する。抽
出された種々のデータのうち必要なものや求めたデータ
枠の構造は、図示しないディスプレイやプリンタなどに
出力することができる。あるいは、図示しない磁気記憶
装置などに格納することができる。
【0025】なお、長方形枠抽出部4と文字列抽出部5
の間に長方形枠修正部を設け、長方形枠の抽出結果の誤
りをユーザによって修正できるようにしても良い。この
場合、ディスプレイを設け、これに長方形枠の抽出結果
を表示して、ユーザはそれを参照しながら長方形枠を修
正することができる。
【0026】また、文字認識部6とデータ枠属性探索部
8の間に文字コード修正部を設け、文字認識の間違いあ
るいは文字列抽出の間違いをユーザによって訂正できる
ようにしても良い。
【0027】以下、図2に示すフローチャートを参照し
ながら、本実施例の処理の流れを説明する。なお、図3
に、処理対象となる帳票文書の一例を示す。 [ステップS1]まず、画像入力部1から処理対象とな
る帳票文書を光学的に読取る。入力した画像データは、
一旦、図示しない画像メモリなどに格納する。例えば図
3の帳票文書に対応するような画像データが得られる。
【0028】[ステップS2]線分抽出部2は、入力し
た画像データに対して、2値化処理、細線化処理、線分
接続処理などの前処理を施し、入力画像データをすべて
線分データとして抽出する。
【0029】図4に、線分抽出部2における線分抽出処
理の一例のフローチャートを示す。線分抽出部2は、入
力した画像データに対して、2値化処理、細線化処理、
線分接続処理などの前処理を施し、入力画像データをす
べて線分データとして抽出する。
【0030】図4は、線分抽出部2における線分抽出処
理のフローチャートである。まず、入力画像データに対
し予め設定したしきい値にて2値化処理を施す(ステッ
プS21)。2値化画像に対し細線化処理を行う(ステ
ップS22)。得られた細線に対して、チェインコード
を計測し、折れ線近似を行う(ステップS23)。そし
て、折れ線近似された線分単位に、長さ、終始点座標、
角度等の特徴量計測を行う(ステップS24)。最後
に、上記の特徴量を参照して、複数の線分が接近してお
り、かつ、角度の差が小さいもの同士を接続し、これを
抽出した線分として出力する(ステップS25)。
【0031】抽出した線分のデータは、罫線抽出部3と
文字列抽出部5に与えられる。 [ステップS3]線分抽出処理後、罫線抽出部3によ
り、抽出された線分のうち長方形枠を形成する可能性の
あるものを罫線として抽出し、次に、長方形枠抽出部4
により、抽出された罫線から長方形枠の抽出を行う。
【0032】図5に、ステップS3の罫線抽出処理およ
び長方形枠抽出処理の一例のフローチャートを示す。ま
ず、罫線抽出部3において、ステップS2にて抽出され
た線分データの中から、長さがあるしきい値t1よりも
小さい線分を、罫線になり得ない微小線分として除去す
る(ステップS41)。除去されなかった線分データ
は、抽出された罫線として、長方形枠抽出部4に与えら
れるとともに、文字列抽出部5にも与えられる。
【0033】続いて、長方形枠抽出部4による処理が行
なわれる。まず、長さがしきい値t2(t2>t1)よ
りも大きい線分の角度を平均し、画像全体の傾きを計測
する(ステップS42)。傾き計算は、線分の角度のヒ
ストグラムをとり最大値をとっても良い。もちろん、す
べての線分から傾きを求めても構わない。
【0034】次に、線分の角度を参照して画像の傾きに
対して水平または垂直である線分のみを抽出する(ステ
ップS43)。その結果、例えば図6(a)のような水
平線分と、図6(b)のような垂直線分を得ることがで
きる。
【0035】次に、得られた水平線分、垂直線分によっ
て作られる交点の抽出を行う(ステップS44)。その
結果、例えば図7のような交点を得ることができる。こ
れらの交点は、求めるべき長方形枠の頂点候補となる。
【0036】次に、得られた交点から長方形を抽出する
(ステップS45)。例えば、得られた交点のうちから
ピックアップした4点によって形成される長方形の4辺
に対応する抽出線分が存在する線分が存在する場合に、
当該4点によって形成される長方形を長方形枠とする。
【0037】ところで、ここで求められた長方形枠の中
には、重複して抽出されているものが存在する場合があ
り、例えば大きい長方形枠の中に複数の小さい長方形枠
が存在している場合である。このような場合は、大きい
長方形枠を消去する処理を行うことが好ましい。この処
理は、4つの頂点の座標値を参照して、もし、大きい長
方形枠が小さい長方形枠を含んでいる場合は、この大き
い長方形枠を消去する。以上により、重複する長方形枠
の消去を行うことができる。
【0038】次に、2つ以上の長方形枠が破線で接して
いる場合は、この2つ以上の長方形枠を1つの長方形枠
とする処理を行う(ステップS46)。例えば、図8に
おいて、長方形枠71a,71b,71c,71d,7
1eは、破線で接しているので、これらを1つの長方形
枠として出力する。
【0039】最後に、求められた長方形枠に対して斜線
が存在するかをチェックする(ステップS47)。例え
ば、長方形枠72には、右下がりの斜線と右上がりの斜
線が存在し、これを長方形枠72の属性として認識す
る。
【0040】以上により、図8のように、長方形枠の抽
出が完了する。抽出された長方形枠のデータは、データ
枠健作部7に与えられるとともに、文字列抽出部5にも
与えられる。
【0041】また、罫線抽出部3により罫線として抽出
された線分のうち長方形枠とその内部の斜線に使われな
かったものを文字列抽出部5に与える。なお、この長方
形枠とその内部の斜線に使われなかった線分のすべてで
はなく、所定の長さより小さいものだけを与えても良
い。
【0042】[ステップS4]長方形枠抽出後、文字列
抽出部5により、入力した帳票文書内の文字列の抽出処
理が行われる。
【0043】図9に、文字列抽出処理の一例のフローチ
ャートを示す。まず、文字列抽出部5は、線分抽出部2
から抽出された線分データから、罫線抽出部3により罫
線として抽出された線分データを除き、これに長方形枠
抽出部4の処理で残った線分データを加えたものを、文
字パターン中の線分とする(ステップS51)。
【0044】次に、上記で文字パターン中の線分とされ
たものについて、ステップS3にて抽出された長方形枠
を参照し、また線分付近の画像パターンを参照しつつ、
一纏まりの文字列候補に分割し、長方形枠内の文字列抽
出と長方形枠外の文字抽出を行なう(ステップS5
2)。
【0045】そして、各文字列の座標位置や縦横のサイ
ズを計測する(ステップS53)。この結果、例えば図
10のような文字列枠(図中の80の枠)が抽出され
る。 [ステップS5]文字列抽出終、文字認識部6は、抽出
された文字列を文字パターン認識処理にて文字コードに
変換し、文字列単位に文字コードデータを出力する。
【0046】[ステップS6]文字認識後、データ枠探
索部7は、長方形枠抽出部4にて抽出された長方形枠の
うちデータ記入領域を持つデータ枠を抽出する。
【0047】図11に、データ枠探索処理の一例のフロ
ーチャートを示す。このデータ枠探索処理を図1の長方
形枠抽出部4において抽出されたすべての長方形枠につ
いて行う。
【0048】まず、対象となる長方形枠の縦横のサイズ
を計測する(ステップS91)。縦、横のサイズがそれ
ぞれデータ枠となりうる最低限のサイズLx,Ly未満
である場合(ステップS92)、この枠はデータ枠では
ないと識別する(ステップS99)。
【0049】次に、枠内に文字列が存在するか検出する
(ステップS93)。文字列が存在しない場合(ステッ
プS94)、この枠をデータ枠とする(ステップS10
0)。
【0050】文字列が存在する場合(ステップS9
4)、枠内の空白領域を探索する(ステップS95)。
ただし、あらかじめ文字列の分布状況や大きさ等の判断
基準を設定しておいて、基準内でない場合が、枠内の空
白領域の探索はせずに、空白領域がないものとみなして
良い。例えば、その判断基準とは、該当する枠の横方向
における文字列の占有率である。この占有率があるしき
い値以下(例えば40%以下)のとき、枠内の空白領域
を探索する。あるいは、文字列が中央にある、点在して
いる等の分布状況を判断基準にすることもできる。この
場合は、例えば中央に文字列があるとき空白領域の探索
は行わないように設定する。見つかった空白領域の縦横
のサイズを計測し、それぞれLx,Ly以上であるとき
は、この空白領域をデータ記入領域とする。
【0051】ここで、データ記入領域抽出方法の具体例
を説明する。例えば、図12に示すような長方形枠91
には、2つの文字列領域(92,93)が存在する。第
1の方法は、長方形枠の領域を文字列領域を境として分
割する方法によりデータ記入領域を求める。まず、図1
3のように、方形領域91が領域92により分割され、
2つの領域94,95が生成される。この領域94,9
5は、データ記入領域の候補である。ところが、領域9
5は、領域93に重なっていることがわかる。したがっ
て、図14のように候補領域95は領域93により分割
され、領域96が生成される。この場合は、領域95は
領域96に縮小されたことになる。以上により、2つの
データ記入領域94,96が抽出できる。もし、2つ以
上の候補領域が重なった場合は、領域候補の大きさ、偏
平領域の大きさ、偏平率等の条件により領域の配分を行
うようにする。
【0052】データ記入領域の第2の抽出方法は、長方
形枠内に存在する文字列領域の位置を起点に、領域を拡
張する方法によりデータ記入領域を求める。まず、図1
5のように、すべての文字列領域92,93の左側中央
の点P92,P93を中心に、上下に矢印97,98の
方向に点を拡張する。この拡張は、長方形枠の境界や他
の文字列領域の境界にぶつかったところで終了するよう
にし、上下均等に拡張する。矢印97,98は、データ
記入領域の右側の辺となる。次に、図16のように、辺
97,98から左方向、すなわち99,100の方向に
領域を拡張する。同様に、長方形枠の境界や他の文字列
領域の境界にぶつかったところで終了する。以上によ
り、図14に示される領域94,96の2つのデータ記
入領域が出力される。2つ以上の候補領域が重なったと
きは、同様に候補領域の大きさ、偏平率等の条件によ
り、領域の配分を行う。
【0053】上記探索の結果、データ記入領域が抽出さ
れた場合(ステップS96)、該当する長方形枠をデー
タ枠とする(ステップS100)。データ記入領域が抽
出されなかった場合(ステップS96)、該当する長方
形枠が選択枠であるかの検査を行う(ステップS9
7)。選択枠とは、複数個の選択肢が印刷されていて、
チェックを付けたり、丸で囲んだりすることを想定して
いる欄を持っている枠であり、一種のデータ枠として扱
う。選択枠の検出は、枠内の文字列を読み、あらかじめ
登録しておいた文字の組合せが存在するかを確かめるこ
とによって行う。登録しておく文字の組合せは、順番、
項番を表すもの(1・2・3、イ・ロ・ハ、a・b・
c、…)、一般に排他的に現れるもの(男・女、都・道
・府・県、午前・午後、…)、アプリケーションによっ
て新規登録が必要なもの(本社・支社、東京・大阪・名
古屋、国保・社保、…)等である。
【0054】選択枠である場合(ステップS98)、こ
の枠をデータ枠とし(ステップS100)、選択枠でな
い場合(ステップS98)、この枠をデータ枠でないと
識別する(ステップS99)。
【0055】以上により、各長方形枠がデータ枠である
かの判別を行うことが可能となる。例えば、図3のよう
な帳票データについて、データ枠探索処理を行った場
合、図17のデータ枠およびデータ記入領域(太線で括
弧まれた領域)の抽出が可能となる。
【0056】帳票文書内の記入されるべきデータ枠を抽
出することが可能となることにより、スキャナなどの画
像入力装置より未記入帳票を入力するだけで、得られた
画像データにデータエントリを自動的に設定することが
できる。これにより、コンピュータ上で帳票に必要事項
をインプットすることが容易に行えるシステムを実現で
きる。
【0057】[ステップS7]長方形枠に対するデータ
枠の抽出判別の終了後、データ枠属性探索部8は、デー
タ枠の属性、項目名の探索を行なう。
【0058】ここで、図18に示す入力画像の一例を参
照してデータ枠属性探索処理の概略を説明する。本実施
例では、入力画像中に存在するデータ枠101に対して
属性あるいは項目名の関連付けを行うため、データ枠1
03の内部および所定の方向(この場合、上方向、左方
向)の領域を探索する。すなわち、データ枠101の領
域およびハッチングされた領域102を合わせた長方形
領域を探索する。探索の結果、この領域内の文字列は2
つ存在し、文字列103および文字列104をこのデー
タ枠101の属性あるいは項目名であると判断し、この
文字列103と文字列104の内容をデータ枠101に
関連付けを行う。ただし、文字列104を含む長方形枠
105がデータ枠であった場合は、この文字列104を
データ枠31の関連付けの対象から除外するようにして
も良い。
【0059】次に、図19に、データ枠属性探索処理の
一例のフローチャートを示す。このデータ枠属性探索処
理は、大きく2つの処理に分かれる。第1の処理は、該
当するデータ枠に関連する文字列を探索する関連文字列
探索処理であり、図19のフローチャートではステップ
S111〜S115に相当する。第2の処理は、関連付
けられた文字列を利用して、該当するデータ枠の属性を
決定するデータ枠属性計測処理であり、図19のフロー
チャートではステップS116に相当する。
【0060】このデータ枠属性探索処理は、データ枠探
索部7にて抽出されたすべてのデータ枠に対して行な
う。まず、対象となるデータ枠の内部の文字列を探索
し、その文字列の内容を該当するデータ枠の関連する文
字列として関連付ける(ステップS111)。例えば、
図20に示すように対象となるデータ枠121におい
て、その内部にある文字列を読み、関連文字列を「備
考」と決定できる。
【0061】次に、枠外を探索する。帳票において項目
やタイトルを示す語句は、一般的にデータが記入される
枠に対して、その上方向あるいは左方向に位置する。し
たがって、上方向および左方向を関連する文字列の探索
方向と設定する。このルールに準じて探索を行うため
に、データ枠121の上側に接する領域と左側に接する
領域を初期探索領域として決定する(ステップS11
2)。例えば、図20に示すように対象となるデータ枠
121の上側に接する領域122と左側に接する領域1
23を初期探索領域とする。
【0062】そして、その領域内に含まれる文字列を探
索し、文字列の内容を該当するデータ枠の関連文字列と
して登録する(ステップS113)。次に、現在の探索
領域に対して、同様に上側に接する領域と左側に接する
領域を探索領域として拡張していく(ステップS11
4,S115)。
【0063】ここで、上記の探索においては、探索方向
を上方向および左方向と設定しているが、該当するデー
タ枠がある条件を持っている場合、探索の方向あるいは
領域を変更することが可能である。例えば、図21に示
されるようなチェック欄111、112におけるその内
容を示す語句は、右側に位置していたり、場合によって
は下側に位置することもある。したがって、チェック欄
を検出するための条件に当てはまるデータ枠に対して
は、初期探索領域をデータ枠の右側あるいは下側に設定
する。この場合のチェック欄の検出条件は、縦横のサイ
ズがある設定値より小さい、かつ、空欄すなわち内部に
文字列が存在しない、かつ、他の長方形枠と左辺、上辺
で隣接していない、である。
【0064】探索する領域がすべてなくなったところで
文字列の探索を終了する(ステップS115)。以上の
探索によって検出された関連文字列の内容を利用して、
データ枠が持つ属性あるいはそのデータ枠に記入される
内容を示す語句(項目名)を計測する(ステップS11
6)。
【0065】この処理において最も簡単な方法は、得ら
れた文字列をそのまま属性・項目として登録する方法で
ある。他の方法としては、項目名の辞書を作成し、あら
かじめ項目になりそうな単語を登録しておいて、登録さ
れる語句が関連文字列として設定されている場合は、属
性・項目として登録する方法もある。ここで最も説明し
ておきたい方法は、キーワードと属性の関係を示す辞書
を作成しておき、関連文字列に登録されているキーワー
ドが存在するとき、対応する属性を割り当てる方法であ
る。例えば、図22に示すような辞書を作成しておく。
「電話番号」という語句が登録されている場合、そのデ
ータ枠の属性を「数字」および「電話番号」と確定でき
る。図22における属性1に対応する欄には、「数字」
「英数字」「漢字」をはじめとするその位置に書かれて
いる文字の種類(カテゴリー)を決定できるように登録
している。これによって、該当するデータ枠に書き込ま
れる文字の文字認識を行う場合の辞書を自動的に決定す
ることが可能である。一方、属性2に対応する欄には、
「電話番号」「日付」「コード」「人名」「地名」とい
った単語の意味あるいは概要を表す語句を登録してお
く。これによって、該当するデータ枠に書き込まれる語
句の概念をあらかじめ設定しておくことができる。ま
た、同時に文字認識の後処理用の辞書を自動選択するこ
とも可能であり、属性1の結果と合わせて文字認識の全
体の認識率を向上することができる。
【0066】また、図23に示すように、単位を表す語
句に対して同様の属性1および属性2を登録しておくこ
とによって、該当するデータ枠内に存在する文字列を対
象に、属性を正確に決定することが可能である。
【0067】ここで、図24に示すような長方形枠にお
いては、4つのデータ記入領域113,114,11
5,116が存在するが、このように複数のデータ記入
領域が存在する場合、記入文字の属性が異なることがあ
る。このような場合、データ記入領域ごとに属性を決定
できるようにすることが有効である。そのために、図2
2に示した項目辞書よりも、図23に示した単位辞書を
優先して、単位による属性計測を行う。データ記入領域
114は、選択肢のセットであるので、特別に属性1
(辞書属性)は、記号あるいはチェックとしておく。他
のデータ記入領域については、そのすぐ右側にある文字
列を検査して、単位辞書を引き、マッチングできればそ
の属性に決定する。例えば、領域113は、文字列
「市」あるいは「区」「郡」により、属性1は「漢
字」、属性2は「市名」あるいは「町名」「郡名」にセ
ットされる。領域114は、文字列「町」により、属性
1は「漢字」、属性2は「町名」に、領域115は文字
列「番地」により、属性1は「数字」、属性2は「住
所」にセットされる。以上により、1つの長方形枠内に
存在する複数のデータ記入領域ごとに属性を決定するこ
とができる。
【0068】ところで、前述した検索方法においては、
文字列を冗長に属性・項目として関連付けてしまう可能
性があるので、文字列の探索および探索領域の拡張方法
に、次に示すような条件を付けても良い。
【0069】(1)属性探索の対象枠以外のデータ枠内
の文字列は探索しない。 (2)探索領域内に包含される枠の内部の文字列は探索
しない。 (3)探索領域内に包含される枠がデータ枠である場
合、文字列は探索しない。
【0070】(4)探索領域が上記の(1),(2),
(3)であった場合、領域の拡張は一方向とする。上側
に拡張されてきた領域であれば、上側に拡張するのみと
し、左側に拡張されてきた領域であれば、左側に拡張す
るのみとする。
【0071】(5)探索領域の一方向(上側あるいは左
側)に接する領域が複数存在する場合は、領域の拡張を
行わない。 以上により、図20の「備考」のデータ枠について、2
つの探索領域122,123は、次のような経過をたど
り、関連文字列の探索が行われる。領域122は、内部
に4つのデータ枠を包含しているので、領域内の文字列
の探索は行わない。領域122からの拡張は、上方向の
みの拡張となるが、上側に接する領域は複数(5つ)存
在するため、領域の拡張は行わず、文字列の探索を終了
する。領域123の方は、領域内の文字列を探索し、
「調査結果」という関連文字列を得ることができる。さ
らに領域の拡張を行い、領域124を次の探索領域とす
る。領域124内の文字列を探索する文字列がないの
で、関連文字列の登録は行わない。さらなる領域の拡張
は、領域124が帳票の背景であるため、拡張できる領
域がなく関連文字列の探索を終了する。したがって、デ
ータ枠121について「備考」、「調査結果」の2つの
関連文字列を関連付けることができる。
【0072】例えば、図3のような帳票データの場合、
図25のような結果を得ることができる。図25に示さ
れる上から6番目と7番目のデータ枠に余分と思われる
「コード1」が含まれているが、これもデータ枠と文字
列の距離を他のデータ枠との距離を比較することで容易
に除去することができる。こうした余分な文字列の除去
処理を後処理として追加させることも容易にできる。
【0073】このようにして、データ枠に属性および項
目名を冗長性を可能な限り削減し、しかも必要なものは
確実に、関連付けさせることができる。もちろん、前述
したように複雑な規則を加えずに、データ枠ごとに左方
および上方に存在するすべての文字列を関連付け、最後
にユーザにより必要なものだけを画面に表示したものか
らピックアップしてもらう方法を採っても良い。この方
法を用いるだけでも、従来の方法よりも効率良く確実に
データとその属性の関係を求めることが可能である。
【0074】ここで、このデータ枠属性探索処理の際
に、求められた属性にレベルを付けることができる。こ
のレベルは、求められた属性が概念の程度の情報を得る
ことができる。すなわち、レベルが高ければそれだけ上
位概念を示す属性であり、レベルが低ければ下位概念の
情報であることが知り得る。これは、探索の段階をその
ままレベルに割り当てても良い。初期の探索領域から得
られた属性をレベル0、領域の拡張を行う度にレベルを
1つずつ上げる方法が考えられる。また、対象となるデ
ータ枠と文字列の存在位置との距離によってレベルを決
定することもできる。さらに、縦方向と横方向によって
レベルの差を変えても良い。縦横方向のどちらかを一定
基準で差を付ける方法もあるが、領域と領域が接する線
の長さによって縦横のどちらが密接なつながりがあるか
を判断する方法もある。以上により、データ枠の属性あ
るいは項目名として選ばれたものにレベルを付し、概念
的にどちらが上にくるかまたは下にくるかを判断するこ
とができる。
【0075】[ステップS8]最後に、データ枠構造計
測部9にてデータ枠の構造を解析する。本実施例では、
データ枠およびその属性の探索の結果、あるいは、探索
された属性のレベル決定処理の結果を利用して、入力画
像中のデータ枠の構造を理解することができる。
【0076】図26に、データ枠構造計測部9による処
理の一例のフローチャートを示す。まず、得られたデー
タ枠について、下位レベル(属性検出において先に見つ
かったもの)から同じ文字列があるものを統合していく
(ステップS141)。例えば図25の場合、1番目と
2番目と3番目のデータ枠は、2つ目のレベルで同じ
「区分」という文字列が存在するので統合する。
【0077】これを繰り返し行ない、最終的にツリー構
造のデータを作成する(ステップS142)。これによ
り、抽出されたデータ枠とその属性・項目名からデータ
枠構造を理解することができ、例えば図3のような帳票
画像データを入力した場合、図27のようなツリー状の
構造理解結果を得ることが可能である。
【0078】ただし、図28のような帳票はマトリック
ス構造を有するので、この部分を特別な情報として抽出
しておく(ステップS143)。具体的に説明すると、
6つのデータ枠161〜166に対して図29のような
属性計測結果が得られるので、これをツリー構造への変
換により図30のようなツリーが得られる。ここで、文
字列「1」と「2」の下に同じ文字列群[A],
[B],[C]が存在するので、このような文字列群を
検索し、その部分「1」,「2」をマトリックスとして
抽出する。以上により、マトリックスを含んだ帳票をツ
リー構造に変換することができる。
【0079】以上により、入力帳票文書のデータ枠の構
造理解が完了する。抽出された種々のデータのうち必要
なものや求めたデータ枠の構造は、図示しないディスプ
レイやプリンタなどに出力することができる。あるい
は、図示しない磁気記憶装置などに格納することができ
る。
【0080】以上のように、本実施例によれば、帳票の
構造認識を長方形枠と長方形枠の関係から行うのではな
く、長方形枠の中から文字(あるいは空白枠および空白
領域所持枠)を抽出し、この情報に基づいて確実にデー
タ入力枠を抽出することができる。さらに、抽出したデ
ータ入力枠を中心に関連する文字列を探すことにより、
そこに入力されるデータの項目属性をもれなく抽出する
ことが可能となる。また、データ枠を外れた位置に項目
名が存在するような場合においても、文字列のサーチを
枠外にも同条件で行うことにより、正確に項目属性を抽
出することができる。
【0081】(第2の実施例)図31は、本発明の第2
の実施例に係る帳票文書処理装置を示すブロック図であ
る。本実施例は、データを記入していない、いわゆる見
本帳票とデータ記入済みの帳票(以下、記入帳票と呼
ぶ)を入力して、データ枠探索処理を簡易化したもので
あり、画像入力部1、線分抽出部2、線分削除部12、
罫線抽出部3、長方形枠抽出部4、文字列抽出部5、文
字認識部6、データ枠探索部7a、データ枠属性探索部
8、データ枠構造計測部9を備えている。本実施例の画
像入力部1、線分抽出部2、罫線抽出部3、長方形枠抽
出部4、文字列抽出部5、文字認識部6、データ枠属性
探索部8、データ枠構造計測部9は、それぞれ第1の実
施例の同番号の付されたブロックに相当する処理を行な
う。本実施例のデータ枠探索部7aは、第1の実施例の
データ枠探索部7に修正を施したものであり、後述する
ような処理を行なう。また、本実施例では、見本帳票お
よび記入帳票の夫々から得られた線分を比較し見本帳票
に記入された情報に対応する画像成分を抽出してデータ
枠探索部7aに与える線分削除部12を新たに設けてい
る。
【0082】以下、図32に示すフローチャートを参照
しながら、本実施例の処理の流れを説明する。 [ステップS201]まず、第1の実施例と同様に、画
像入力部1から処理対象となる見本帳票または記入帳票
を光学的に読取る。入力した画像データは、一旦、図示
しない画像メモリなどに格納する。
【0083】[ステップS202]線分抽出部2は、入
力した画像データに対して、第1の実施例と同様、図4
を参照して説明したような手順などにより、2値化処
理、細線化処理、線分接続処理などの前処理を施し、入
力画像データをすべて線分データとして抽出する。
【0084】[ステップS203]ここで、ステップS
201で入力したものが見本帳票である場合、次のステ
ップS204〜S206を行なった後、ステップS20
7に移る。記入帳票である場合、ステップS204〜S
206を行なわずに、ステップS207に移る。
【0085】[ステップS204]線分抽出処理後、罫
線抽出部3により、抽出された線分のうち長方形枠を形
成する可能性のあるものを罫線として抽出し、次に、長
方形枠抽出部4により、抽出された罫線から長方形枠の
抽出を行う。これらの処理は、第1の実施例と同様、図
5を参照して説明したような手順などにより行なう。
【0086】[ステップS205]長方形枠抽出後、文
字列抽出部5により、入力した帳票文書内の文字列の抽
出処理が行われる。この処理は、第1の実施例と同様、
図9を参照して説明したような手順などにより行なう。
【0087】[ステップS206]文字列抽出終、第1
の実施例と同様に、文字認識部6は、抽出された文字列
を文字パターン認識処理にて文字コードに変換し、文字
列単位に文字コードデータを出力する。
【0088】[ステップS207]ここで、見本帳票と
記入帳票の画像入力/線分抽出が終了していない場合、
ステップ201に戻り、必要な帳票の入力を行なう。見
本帳票と記入帳票の画像入力/線分抽出が終了した場
合、次のステップS208に移る。
【0089】なお、記入帳票は、1つのみ入力しても良
いし、任意の個数の入力をもって終了としても良い。 [ステップS208]本実施例では、線分抽出部2によ
り見本帳票から得られる線分データと記入帳票から得ら
れる線分データがそろったら、線分削除部12は、これ
らの線分データを利用して、データ枠を抽出するための
情報を抽出し、データ枠探索部7aに与える。すなわ
ち、線分削除部12は、見本帳票に対する線分データと
記入帳票に対する線分データを比較し、ステップS20
1にて得られた見本帳票画像データに含まれる画像成分
(線分要素あるいは画像連結図形)を記入帳票画像デー
タから取り出し、それを削除する。ここで残った記入帳
票画像データ中の画像成分(見本帳票中に書き込まれた
情報に対応する成分)をデータ枠探索部7aに与える。
【0090】[ステップS209]文字認識後、データ
枠探索部7aは、線分削除部12から与えられた画像成
分に基づいて、長方形枠抽出部4が見本帳票の画像デー
タから抽出した長方形枠のうちデータ記入領域を持つデ
ータ枠を抽出する。すなわち、データ枠探索部7aは、
上記の記入帳票データから抽出された書き込み画像成分
の位置に基づき、見本帳票データの当該位置に存在する
長方形枠およびそれに準ずる枠(すなわち下線などが施
された領域)をデータ枠とする。本実施例によれば、こ
のように簡単にデータ枠を抽出することができる。
【0091】[ステップS210]長方形枠に対するデ
ータ枠の抽出判別の終了後、データ枠属性探索部8は、
データ枠の属性、項目名の探索を行なう。この処理は、
第1の実施例と同様、図19を参照して説明したような
手順などにより行なう。
【0092】[ステップS211]最後に、第1の実施
例と同様に、データ枠構造計測部9にてデータ枠の構造
を解析する。データ枠およびその属性の探索の結果、あ
るいは、探索された属性のレベル決定処理の結果を利用
して、入力帳票中のデータ枠の構造を理解することがで
きる。
【0093】以上により、入力帳票文書のデータ枠の構
造理解が完了する。抽出された種々のデータのうち必要
なものや求めたデータ枠の構造は、図示しないディスプ
レイやプリンタなどに出力することができる。あるい
は、図示しない磁気記憶装置などに格納することができ
る。
【0094】なお、図32の手順は適宜変更することが
できる。例えば、ステップS204〜S206の一連の
処理またはその一部の処理は、ステップS208の処理
の後に行なっても良い。
【0095】また、上記のような線分削除部202を設
ける代わりに、画像入力部1から画像データを入力し、
見本帳票画像データと記入帳票画像データを比較して記
入帳票画像データのうち見本帳票中に書き込まれた情報
に対応する画像成分を抽出してデータ枠探索部7aに与
える画像パターン削除部を設けても良い。
【0096】(第3の実施例)図33は、本発明の第3
の実施例に係る帳票文書処理装置を示すブロック図であ
る。
【0097】本実施例は、ワープロやパソコンのエディ
タ等で入力された帳票を構造認識するものであり、帳票
入力部101、文字列抽出部5、データ枠探索部7、デ
ータ枠属性探索部8、データ枠構造計測部9を備えてい
る。本実施例の文字列抽出部5、データ枠探索部7、デ
ータ枠属性探索部8、データ枠構造計測部9は、それぞ
れ第1の実施例の同番号の付されたブロックに相当する
処理を行なう。
【0098】本実施例の帳票入力部101は、第1の実
施例の画像入力部1の代わりに設けられたものであり、
すでに線分データや文字モードなどに変換された帳票を
入力するために、磁気記憶媒体などに記憶された帳票デ
ータを読み取る装置などで構成される。なお、帳票入力
部101自体が、キーボードやCRTなどを備えたワー
プロやパソコンのようなエディタ装置等であっても良
い。
【0099】本実施例では線分データや文字モードなど
を入力するので、第1の実施例と比べると、線分抽出部
2、罫線抽出部3、文字認識部6が不要となっている。
以下、本実施例の処理の流れを説明する。
【0100】まず、ワープロやパソコンなどにより作成
され、すでにデータ化されている帳票を、帳票入力装置
部201から入力する。帳票入力装置部201から入力
された画像データに対し、長方形枠抽出部4において長
方形枠の抽出を行う。この処理は、第1の実施例と同
様、図5を参照して説明したような手順などにより行な
う。
【0101】長方形枠抽出後、文字列抽出部5により、
入力した帳票文書内の文字列の抽出処理が行われる。こ
の処理は、第1の実施例と同様、図9を参照して説明し
たような手順などにより行なう。
【0102】次に、データ枠探索部7は、第1の実施例
と同様に、長方形枠に対するデータ枠の抽出判別を行な
う。次に、データ枠属性探索部8は、データ枠の属性、
項目名の探索を行なう。この処理は、第1の実施例と同
様、図19を参照して説明したような手順などにより行
なう。
【0103】最後に、第1の実施例と同様に、データ枠
構造計測部9にてデータ枠の構造を解析する。データ枠
およびその属性の探索の結果、あるいは、探索された属
性のレベル決定処理の結果を利用して、入力帳票中のデ
ータ枠の構造を理解することができる。
【0104】以上により、入力帳票文書のデータ枠の構
造理解が完了する。抽出された種々のデータのうち必要
なものや求めたデータ枠の構造は、図示しないディスプ
レイやプリンタなどに出力することができる。あるい
は、図示しない磁気記憶装置などに格納することができ
る。
【0105】以上のようにして、ワープロ等で入力した
帳票データに関しても同様に、構造理解を行うことがで
き、多くのアプリケーションに接続することができる。
本実施例の帳票文書処理においては、未記入帳票を読み
込んで構造理解を行い、その結果を用いて各種の帳票処
理の自動化を実現できる。例えば、ファイリング装置に
登録すべき記入帳票を読み込むだけで、あらかじめ設定
しておいた項目名や属性を参照して必要なデータが書か
れているはずのデータ枠を探索可能なため、ファイリン
グ時のキー情報の自動設定を可能とする。また、このキ
ー情報は、ファイリングした文書の検索キーにも使用す
ることが可能である。また、記入帳票から属性や項目名
をたどることで必要な情報を取り出すことが可能にな
り、記入されている数値等を抽出してデータベース登録
や統計処理をはじめとするデータ加工の自動化が実現で
きる。
【0106】なお、第2に実施例の実施例に同様の修正
を加え、すなわち、帳票入力部101、文字列抽出部
5、データ枠探索部7a、データ枠属性探索部8、デー
タ枠構造計測部9を備えるものとすることにより、すで
にデータ化された帳票を処理対象とするものに容易に修
正することが可能である。また、本発明は上述した各実
施例に限定されるものではなく、その要旨を逸脱しない
範囲で、種々変形して実施することができる。
【0107】
【発明の効果】本発明によれば、入力帳票の画像データ
中から抽出した長方形枠の内部から文字を抽出し、この
文字に基づいて長方形枠のうちからデータ枠を求めるの
で、入力帳票が複雑な構造を有する場合であっても、確
実にデータ枠を抽出することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例に係る帳票文書処理装置
を示す図
【図2】同実施例の処理の流れを示すフローチャート
【図3】入力画像データの一例を示す図
【図4】線分抽出処理の流れを示すフローチャート
【図5】長方形枠抽出処理の流れを示すフローチャート
【図6】長方形枠抽出処理における水平・垂直線分抽出
結果の一例を示す図
【図7】長方形枠抽出処理における交点抽出結果の一例
を示す図
【図8】長方形枠抽出結果の一例を示す図
【図9】文字列抽出処理の流れを示すフローチャート
【図10】文字列枠抽出結果の一例を示す図
【図11】データ枠探索処理の流れを示すフローチャー
【図12】データ記入領域抽出処理を説明するための図
【図13】データ記入領域抽出処理を説明するための図
【図14】データ記入領域抽出処理を説明するための図
【図15】データ記入領域抽出処理を説明するための図
【図16】データ記入領域抽出処理を説明するための図
【図17】データ枠およびデータ記入領域の抽出結果の
一例を示す図
【図18】本実施例の機能の概略を説明するための図
【図19】データ枠属性探索処理の流れを示すフローチ
ャート
【図20】データ枠属性探索処理を説明するための図
【図21】入力の一例を示す図
【図22】キーワードと属性の関係を登録した辞書の一
例を示す図
【図23】単位を表す語句と属性の関係を登録した辞書
の一例を示す図
【図24】長方形枠の一例を示す図
【図25】データ枠属性探索処理結果の一例を示す図
【図26】データ枠構造計測処理の流れを示すフローチ
ャート
【図27】ツリー状の構造理解結果の一例を示す図
【図28】入力の一例を示す図
【図29】データ枠属性探索処理結果の一例を示す図
【図30】ツリー状の構造理解結果の一例を示す図
【図31】本発明の第2の実施例に係る帳票文書処理装
置を示す図
【図32】同実施例の処理の流れを示すフローチャート
【図33】本発明の第3の実施例に係る帳票文書処理装
置を示す図
【符号の説明】
1…画像入力部、2…線分抽出部、3…罫線抽出部、4
…長方形枠抽出部、5…文字列抽出部、6…文字認識
部、7,7a…データ枠探索部、データ枠探索部、8…
データ枠属性探索部、9…データ枠構造計測部、101
…帳票入力部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】複数の長方形枠からなる表を含む帳票文書
    を処理する帳票文書処理装置において、 入力された帳票の画像データより長方形枠を抽出する長
    方形枠抽出手段と、 抽出された前記長方形枠の内部に存在する文字を抽出す
    る文字列抽出手段と、 前記長方形枠の内部から抽出された前記文字に基づい
    て、前記長方形枠のうちからデータ記入領域を持つデー
    タ枠を抽出するデータ枠抽出手段とを具備したことを特
    徴とする帳票文書処理装置。
  2. 【請求項2】前記データ枠抽出手段は、前記長方形枠の
    内部の空白領域の分布を計測し、この計測結果に従って
    データ枠を抽出することを特徴とする請求項1に記載の
    帳票文書処理装置。
  3. 【請求項3】前記データ枠抽出手段により抽出された前
    記データ枠の内部および該データ枠を中心として一定方
    向に存在する文字または文字列を読み取る関連文字列探
    索手段と、 読み取った文字または文字列を前記データ枠の属性とす
    るデータ枠属性計測手段とをさらに具備したことを特徴
    とする請求項1または2に記載の帳票文書処理装置。
  4. 【請求項4】前記関連文字列探索手段が読み取る文字ま
    たは文字列の探索方向は、上方向および左方向であるこ
    とを特徴とする請求項3に記載の帳票文書処理装置。
  5. 【請求項5】前記関連文字列探索手段は、前記データ枠
    の条件によって右方向または下方向の文字列を読み取る
    ことを特徴とする請求項3に記載の帳票文書処理装置。
  6. 【請求項6】前記データ枠属性計測手段は、前記関連文
    字列探索手段により読み取った文字または文字列によ
    り、前記データ枠の新たな属性を求めることを特徴とす
    る請求項3ないし5のいずれか1項に記載の帳票文書処
    理装置。
  7. 【請求項7】複数の長方形枠からなる表を含む帳票文書
    を処理する帳票文書処理方法において、 入力された帳票の画像データより長方形枠を抽出し、 抽出された前記長方形枠の内部に存在する文字を抽出
    し、 抽出された前記長方形枠の内部の文字に基づいて、前記
    長方形枠のうちからデータ記入領域を持つデータ枠を抽
    出することを特徴とする帳票文書処理方法。
JP7028334A 1995-02-16 1995-02-16 帳票文書処理装置および帳票文書処理方法 Pending JPH08221510A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7028334A JPH08221510A (ja) 1995-02-16 1995-02-16 帳票文書処理装置および帳票文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7028334A JPH08221510A (ja) 1995-02-16 1995-02-16 帳票文書処理装置および帳票文書処理方法

Publications (1)

Publication Number Publication Date
JPH08221510A true JPH08221510A (ja) 1996-08-30

Family

ID=12245719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7028334A Pending JPH08221510A (ja) 1995-02-16 1995-02-16 帳票文書処理装置および帳票文書処理方法

Country Status (1)

Country Link
JP (1) JPH08221510A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092208A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 差込処理装置、差込処理方法および差込処理プログラム
JP2007257153A (ja) * 2006-03-22 2007-10-04 Ntt Data Corp 文書データ読み上げ装置およびそのコンピュータプログラム
JP2008065533A (ja) * 2006-09-06 2008-03-21 Sharp Corp 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2008204226A (ja) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd 帳票認識装置およびそのプログラム
CN100430957C (zh) * 2005-11-22 2008-11-05 富士施乐株式会社 图像处理装置、方法
JP2009031937A (ja) * 2007-07-25 2009-02-12 Fuji Xerox Co Ltd 帳票画像処理装置及び帳票画像処理プログラム
JP2010092298A (ja) * 2008-10-08 2010-04-22 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理システム、及びプログラム
JP2011150466A (ja) * 2010-01-20 2011-08-04 Fujitsu Ltd 文字列認識装置、文字列認識プログラムおよび文字列認識方法
WO2014170965A1 (ja) * 2013-04-16 2014-10-23 株式会社日立製作所 文書処理方法、文書処理装置および文書処理プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092208A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 差込処理装置、差込処理方法および差込処理プログラム
CN100430957C (zh) * 2005-11-22 2008-11-05 富士施乐株式会社 图像处理装置、方法
JP2007257153A (ja) * 2006-03-22 2007-10-04 Ntt Data Corp 文書データ読み上げ装置およびそのコンピュータプログラム
JP2008065533A (ja) * 2006-09-06 2008-03-21 Sharp Corp 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2008204226A (ja) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd 帳票認識装置およびそのプログラム
JP2009031937A (ja) * 2007-07-25 2009-02-12 Fuji Xerox Co Ltd 帳票画像処理装置及び帳票画像処理プログラム
JP2010092298A (ja) * 2008-10-08 2010-04-22 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理システム、及びプログラム
JP2011150466A (ja) * 2010-01-20 2011-08-04 Fujitsu Ltd 文字列認識装置、文字列認識プログラムおよび文字列認識方法
WO2014170965A1 (ja) * 2013-04-16 2014-10-23 株式会社日立製作所 文書処理方法、文書処理装置および文書処理プログラム
JPWO2014170965A1 (ja) * 2013-04-16 2017-02-16 株式会社日立製作所 文書処理方法、文書処理装置および文書処理プログラム

Similar Documents

Publication Publication Date Title
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
KR19990068054A (ko) 주소 인식 장치 및 주소 인식 방법
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
US7099507B2 (en) Method and system for extracting title from document image
JP3525997B2 (ja) 文字認識方法
JPH08221510A (ja) 帳票文書処理装置および帳票文書処理方法
JP2007213416A (ja) 手書き文字列検索装置、手書き文字列検索方法及びプログラム
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JP2023003887A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
JP3768743B2 (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP6816621B2 (ja) 判別方法、判別プログラム及び判別装置
JP2009182530A (ja) 業務処理遂行支援装置
JP3958722B2 (ja) イメージデータ文書検索システム
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
US11315351B2 (en) Information processing device, information processing method, and information processing program
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JP2002366893A (ja) 帳票認識方法
JP2560656B2 (ja) 文書ファイリングシステム
JP3071745B2 (ja) 文字認識結果の後処理方法