JP2003141447A - 帳票検索システム - Google Patents

帳票検索システム

Info

Publication number
JP2003141447A
JP2003141447A JP2001340606A JP2001340606A JP2003141447A JP 2003141447 A JP2003141447 A JP 2003141447A JP 2001340606 A JP2001340606 A JP 2001340606A JP 2001340606 A JP2001340606 A JP 2001340606A JP 2003141447 A JP2003141447 A JP 2003141447A
Authority
JP
Japan
Prior art keywords
data
template
similarity
search
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001340606A
Other languages
English (en)
Other versions
JP4065484B2 (ja
JP2003141447A5 (ja
Inventor
Kenichi Kazumi
健一 数見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001340606A priority Critical patent/JP4065484B2/ja
Publication of JP2003141447A publication Critical patent/JP2003141447A/ja
Publication of JP2003141447A5 publication Critical patent/JP2003141447A5/ja
Application granted granted Critical
Publication of JP4065484B2 publication Critical patent/JP4065484B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 同一のテンプレート帳票の二重登録を防ぐこ
とができる帳票検索システムを提供すること。 【構成】 テンプレート帳票を画像データとして読み取
る画像入力手段と、画像の特微量抽出手段と、文字領域
に対しては文字認識手段を備え、これらの手段から取得
する情報をページ書式データとして階層化データ構造に
整形するページ書式データ作成手段と、データを保存す
る手段を含んで帳票検索システムを構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大量の帳票を処理
する分野で帳票のフォーマット毎に分類するシステムを
構築する際に自動分類を可能にする帳票検索システムに
関するものである。
【0002】
【従来の技術】従来、検索帳票のフォームと一致するテ
ンプレート帳票を検索するには、登録済みのテンプレー
ト帳票の代表的な特微量を比較し、一致すれば更に細か
い特微量を比較する全数チェックに近いことを行ってき
た。
【0003】
【発明が解決しようとする課題】しかしながら、代表的
な特微量で検索対象を絞り込んだ場合は、代表的な特微
量は一致しないが、詳細な特微量が一致している帳票に
対しては検索漏れが発生する。
【0004】ところが、全数チェックでは、テンプレー
ト帳票が非常に多い場合には、特微量の比較計算に時間
が掛かり、自動認識システムとしては実用的でなくな
る。
【0005】本発明は上記問題に鑑みてなされたもの
で、その目的とする処は、同一のテンプレート帳票の二
重登録を防ぐことができる帳票検索システムを提供する
ことにある。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、テンプレート帳票を画像データとして読
み取る画像入力手段と、画像の特微量抽出手段と、文字
領域に対しては文字認識手段を備え、これらの手段から
取得する情報をページ書式データとして階層化データ構
造に整形するページ書式データ作成手段と、データを保
存する手段を含んで帳票検索システムを構成する。
【0007】又、本発明は、検索帳票を読み取る画像入
力手段と、画像の特微量抽出手段と、文字認識手段と、
ページ書式データ作成手段により作成した検索帳票のペ
ージ書式データと保存したテンプレート帳票のページ書
式データとが一致しているか否かを比較する類似度計算
手段を含んで帳票検索システムを構成し、類似している
テンプレート帳票がある場合には、その帳票を通知する
手段により検索帳票の自動認識を行うことを特徴とす
る。
【0008】
【発明の実施の形態】以下に本発明の実施の形態を添付
図面に基づいて説明する。
【0009】<実施の形態1>図1は本発明の実施の形
態に係る帳票検索システムの概略構成を示すブロック図
である。
【0010】スキャナー1で読み取った画像は、2値化
処理されて画像特微量抽出手段に送られる。黒ドットの
ヒストグラム法等の手法により、画像をテーブル、テキ
スト、画像等を領域毎に分割する。例えば、テーブル・
ブロックであれば、罫線追跡手法等によってテーブルの
詳細構造を求める。テキスト・ブロックであれば、文字
認識手段で文字コードに変換する。
【0011】このようにして取得した情報は、第2図に
示す書式データとしてメモリ5及びディスク5に保存す
る。書式データは、帳票のページレイアウトを示す帳票
ページデータと、この情報にリンクしたデーブル・デー
タ及び帳票文字列データの3つのテーブルに分離してい
る。この3つのテーブルをリンクするために、書式イン
デックス情報をメモリ5に保存している。
【0012】このようなデータ構成をメモリ5に記憶す
るシステムは、キーボード3からテンプレート帳票の登
録、帳票の検索等の命令を受け取り、それに対応する処
理をプロセッサ2がこれらのデータを利用して行う。そ
して、その結果をディスプレイ6に表示する。
【0013】以下、図3〜図5を参照して本実施の形態
に係る帳票検索システム、特にプロセッサ2が実行する
各種制御処理の動作について説明する。
【0014】図3は本実施の形態の処理手順で使用する
インデックス情報を示す図、図4はプロセッサ2がテン
プレート帳票を登録する処理中の帳票フォームの重複チ
ェックの手順を示すフローチャートである。
【0015】スキャナー1で読み取った画像と、画像特
微量抽出手段と文字認識手段により取得したデータを第
2図に示す帳票書式データに構造化する。この書式デー
タと既に登録しているテンプレート帳票の書式データが
重複していないかをチェックする。
【0016】S103では、登録帳票の各テーブルを抽
出する。この段階では、仮のテーブルIDを与えてお
く。S105では、重複の可能性のあるテンプレート帳
票を縛り込む。例えば、登録帳票は2つのテーブルを含
み、各テーブルのセルの個数が4個と6個であったとす
ると、セル個数・テンプレート帳票IDインデックスと
テーブル個数インデックスから該当するテンプレート帳
票は、下記のの論理演算演算で、{1,3,6,9 }And {1,
3,4,6,10,12,13,15 }And {1,3,4,6,8,12,15}{1,3,
6 }の重複チェックすべき集合を取得した。
【0017】この演算スピード上げるために、インデッ
クスのテンプレート帳票IDは昇順に並んでいることは
言うまでもない。
【0018】S107では、この集合と登録帳票を類似
度計算手段に入力して類似度を算出する。類似度計算手
段では、100%一致する書式データが見つかれば、S
111でその書式データが示す帳票文字列データと文字
位置をも含めた文字列の比較を行う。文字列比較手段で
も100%一致していれば、登録帳票は重複していると
見なし、登録しないでに終了する。
【0019】S109,S111で100%一致しなけ
れば、S107で入力したテンプレート帳票以外の帳票
の類似度を計算する。S121では、登録帳票とテーブ
ル数が同じであるが、各テーブルのセルの個数が少し違
う集合を抽出する。セルの個数の違いを類似度のペナル
ティにしている場合は、類似度が余り低くならないよう
に予め閾値を決めてセル個数の違う組み合わせを選択す
る。
【0020】登録テーブルのセル個数{4,6}に対し
て、{4,5},{5,5},{5,6}の3つの組み
合わせの類似度を計算する。S105の処理と同様に、 {4,5}のテンプレート帳票の集合は、0 {5, 5}のテンプレート帳票の集合は、{8} {5, 6}のテンプレート帳票の集合は、{4,12,
15} この集合と登録帳票を類似度計算手段に入力して類似度
を算出する。
【0021】S123,S125では、以上4つの集合
の類似度を類似度インデックス1,2に反映する。類似
度インデックス1は、{4,6}の集合で得たテンプレ
ート帳票で、類似度が閾値以上に高かったテンプレート
帳票のIDとその類似度を登録する。登録帳票は新たな
IDを割り付けるため、このIDに対応するインデック
スが1個増えることになり、そのレコードに情報を登録
する処理と、登録したテンプレート帳票IDをインデッ
クスとするレコードにも新しいIDの類似度を追加する
処理を行う。
【0022】類似度インデックス2は、後の3つの集合
の中で、各々で最も類似度が高く、且つ、閾値以上であ
るテンプレート帳票IDを登録する。{5,5}、
{5,6}の最大の類似度が共に閾値以上であれば、登
録帳票のインデックスに対応するデータを2個登録す
る。前記と同様に、登録したテンプレート帳票IDをイ
ンデックスとするレコードの情報を更新する処理も行
う。このように、類似度インデックスは、常に最新デー
タを反映するようにする。
【0023】図5はプロセッサが検索帳票に類似するテ
ンプレート帳票を取得する手順を示すフローチャートで
ある。
【0024】S201〜S207は前記重複チェックの
手順と同じである。S207で得た計算の結果、最も類
似度の高いテンプレート帳票IDをインデックスとして
類似度インデックス2を参照すると、テーブル・セルの
個数の組み合わせの異なる類似度の最も高いテンプレー
ト帳票を取得することができる。S211では、この情
報を元に類似度インデックス1から類似度の高いテンプ
レート帳票の集合を取得することができる。
【0025】これらの集合で再び類似度を計算して、S
207までで得た結果を加味し、S215で類似するテ
ンプレート帳票のリストを出力する。
【0026】<実施の形態2>次に、本発明の実施の形
態2について説明する。
【0027】本実施の形態では、テンプレート帳票の重
複チェックで作成したインデックスを、帳票の検索処理
で類似するテンプレート帳票を検索するのに利用すると
したが、テンプレート帳票と類似するテンプレート帳票
のリストを出力する処理でも使用することができる。例
えば、ユーザが選択したテンプレート帳票と類似するテ
ンプレート帳票の一覧を表示するような場面を考える
と、テンプレート帳票IDを入力し、このテンプレート
帳票と類似するテンプレート帳票IDのリストを取得す
る機能が必要となる。類似度インデックス1を使用すれ
ば、IDに対応するレコードに既に計算済みの類似度と
テンプレート帳票IDリストを格納しているため、レコ
ード検索処理のみで非常に速くリスト・アップすること
ができる。
【0028】テンプレート帳票を削除する機能を有する
帳票検索システムであれば、類似度インデックス2の構
成では、次に示す類似度の再計算を行う必要が生じる。
類似度インデックス2は、テーブル・セル個数の組み合
わせパターンの各グループ中の最も類似度の高いIDと
その類似度をリストしている。このリストに登録してい
るIDを削除した場合、このIDのグループで次に類似
度の高いテンプレート帳票がリストされる類似度の閾値
よりも高ければ、削除IDに代わってリストに登録する
処理が発生する。
【0029】しかし、グループ中次に類似度の高いID
の情報がないため、再度類似度計算を行う必要がある。
削除IDの属するグループを類似度インデックス1から
ピック・アップし、そのテンプレート帳票の集合と、類
似度インデックス2の当該レコードのテンプレート帳票
との類似度の再計算である(図6参照)。
【0030】テンプレート帳票8を削除すると仮定する
と、類似度インデックス2からテンプレート帳票3と最
も類似度が高いことが分かる。帳票3のインデックスに
対応するデータから帳票8を削除するが、帳票3と帳票
8のグループで、このリストの閾値80%を超える類似
度の帳票が存在しているかも知れない。従って、次に類
似度の高い帳票を計算することになる。
【0031】このような再計算を避けるため、類似度イ
ンデックス2を閾値以上に類似度の高い帳票を全てリス
ト・アップするようにしても良い。削除処理では、この
リストから該当するIDを削除するのみで、類似度の再
計算を行わなくても良い。
【0032】
【発明の効果】以上の説明で明らかなように、本発明に
よれば、テンプレート帳票を画像データとして読み取る
画像入力手段と、画像の特微量抽出手段と、文字領域に
対しては文字認識手段を備え、これらの手段から取得す
る情報をページ書式データとして階層化データ構造に整
形するページ書式データ作成手段と、データを保存する
手段を含んで帳票検索システムを構成したため、同一の
テンプレート帳票の二重登録を防ぐことができるという
効果が得られる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る帳票検索システムの
概略構成を示すブロック図である。
【図2】本発明に係る帳票検索システムの階層化した帳
票書式データの模式図である。
【図3】登録・検索で使用するインデックス情報の一例
を示すデータ構造を示す図である。
【図4】テンプレート帳票の登録で行う帳票フォームの
重複チェックの手順を示すフローチャートである。
【図5】帳票検索の類似度計算の手順の一例を示すフロ
ーチャートである。
【図6】本発明の実施の形態2におけるインデックス情
報の削除を説明する図である。
【符号の説明】
1 スキャナー 2 プロセッサ 3 キーボード 4 ディスク 5 メモリ 6 ディスプレイ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 テンプレート帳票を画像データとして読
    み取る画像入力手段と、画像の特微量抽出手段と、文字
    領域に対しては文字認識手段を備え、これらの手段から
    取得する情報をページ書式データとして階層化データ構
    造に整形するページ書式データ作成手段と、データを保
    存する手段を有することを特徴とする帳票検索システ
    ム。
  2. 【請求項2】 前記テンプレート帳票のページ書式デー
    タを登録する手順において、既に同一のページ書式デー
    タが登録されていないかをチェックするテンプレート帳
    票の重複登録防止手段と、該重複登録防止手段で計算し
    た類似度を使用してインデックス・データを作成する手
    段及び保存手段を有することを特徴とする請求項1記載
    の帳票検索システム。
  3. 【請求項3】 検索帳票を読み取る画像入力手段と、画
    像の特微量抽出手段と、文字認識手段と、ページ書式デ
    ータ作成手段により作成した検索帳票のページ書式デー
    タと保存したテンプレート帳票のページ書式データとが
    一致しているか否かを比較する類似度計算手段を有し、
    類似しているテンプレート帳票がある場合には、その帳
    票を通知する手段により検索帳票の自動認識を行うこと
    を特徴とする帳票検索システム。
  4. 【請求項4】 前記類似度計算手段では、計算対象とな
    るテンプレート帳票を絞り込む手段で絞り込まれたテン
    プレート帳票を比較し、絞り込む手段では、前記重複登
    録防止手段で作成したインデックス・データを使用する
    ことを特徴とする請求項3記載の帳票検索システム。
JP2001340606A 2001-11-06 2001-11-06 帳票検索システム Expired - Fee Related JP4065484B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001340606A JP4065484B2 (ja) 2001-11-06 2001-11-06 帳票検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001340606A JP4065484B2 (ja) 2001-11-06 2001-11-06 帳票検索システム

Publications (3)

Publication Number Publication Date
JP2003141447A true JP2003141447A (ja) 2003-05-16
JP2003141447A5 JP2003141447A5 (ja) 2005-08-18
JP4065484B2 JP4065484B2 (ja) 2008-03-26

Family

ID=19154780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001340606A Expired - Fee Related JP4065484B2 (ja) 2001-11-06 2001-11-06 帳票検索システム

Country Status (1)

Country Link
JP (1) JP4065484B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014517426A (ja) * 2011-06-17 2014-07-17 アリババ・グループ・ホールディング・リミテッド 反復データの処理
CN105095842A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种单据的信息识别的方法和装置
JP2016153953A (ja) * 2015-02-20 2016-08-25 日本電信電話株式会社 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム
CN109829143A (zh) * 2018-12-28 2019-05-31 陈德芹 一种在线表格汇总方法及装置
JP2019133430A (ja) * 2018-01-31 2019-08-08 日本電気株式会社 帳票作成支援装置、帳票作成支援方法、及び、帳票作成支援プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608452A (zh) * 2014-11-11 2016-05-25 金蝶软件(中国)有限公司 单据录入的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728935A (ja) * 1993-07-07 1995-01-31 Oki Electric Ind Co Ltd 文書画像処理装置
JPH10143605A (ja) * 1996-11-15 1998-05-29 Sharp Corp 光学文字認識装置
JP2001283220A (ja) * 1999-05-13 2001-10-12 Canon Inc 帳票分類方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728935A (ja) * 1993-07-07 1995-01-31 Oki Electric Ind Co Ltd 文書画像処理装置
JPH10143605A (ja) * 1996-11-15 1998-05-29 Sharp Corp 光学文字認識装置
JP2001283220A (ja) * 1999-05-13 2001-10-12 Canon Inc 帳票分類方法及び装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014517426A (ja) * 2011-06-17 2014-07-17 アリババ・グループ・ホールディング・リミテッド 反復データの処理
CN105095842A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种单据的信息识别的方法和装置
JP2016153953A (ja) * 2015-02-20 2016-08-25 日本電信電話株式会社 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム
JP2019133430A (ja) * 2018-01-31 2019-08-08 日本電気株式会社 帳票作成支援装置、帳票作成支援方法、及び、帳票作成支援プログラム
JP7069759B2 (ja) 2018-01-31 2022-05-18 日本電気株式会社 帳票作成支援装置、帳票作成支援方法、及び、帳票作成支援プログラム
CN109829143A (zh) * 2018-12-28 2019-05-31 陈德芹 一种在线表格汇总方法及装置
CN109829143B (zh) * 2018-12-28 2023-06-20 陈德芹 一种在线表格汇总方法及装置

Also Published As

Publication number Publication date
JP4065484B2 (ja) 2008-03-26

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
US8015203B2 (en) Document recognizing apparatus and method
US6310971B1 (en) Information processing method and apparatus, and storage medium storing medium storing program for practicing this method
US5745745A (en) Text search method and apparatus for structured documents
CN110362824B (zh) 一种自动纠错的方法、装置、终端设备及存储介质
JP2004348591A (ja) 文書検索方法及び装置
JP2000231563A (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7624124B2 (en) System and method for assisting generation of business specification
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP2003141447A (ja) 帳票検索システム
JPH07152774A (ja) 文書検索方法および装置
JPWO2009048149A1 (ja) 電子文書の同等判定システムおよび同等判定方法
TWI794547B (zh) 文書檢索裝置、文書檢索程式、文書檢索方法
JP2005107931A (ja) 画像検索装置
JP5790820B2 (ja) 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法
JP3552318B2 (ja) 文書検索方法およびシステム
CN111859972A (zh) 实体识别方法、装置、计算机设备及计算机可读存储介质
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
CN112231456B (zh) 问题生成方法、装置、存储介质和的电子设备
JP2006163446A (ja) 情報処理装置およびデータ検索方法およびプログラムおよび記録媒体
JP2002007468A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP3016255B2 (ja) データベース管理システム
JP2984033B2 (ja) 画像検索装置及び画像検索方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050120

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060106

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140111

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees