JP2003141447A - 帳票検索システム - Google Patents
帳票検索システムInfo
- Publication number
- JP2003141447A JP2003141447A JP2001340606A JP2001340606A JP2003141447A JP 2003141447 A JP2003141447 A JP 2003141447A JP 2001340606 A JP2001340606 A JP 2001340606A JP 2001340606 A JP2001340606 A JP 2001340606A JP 2003141447 A JP2003141447 A JP 2003141447A
- Authority
- JP
- Japan
- Prior art keywords
- data
- template
- similarity
- search
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
とができる帳票検索システムを提供すること。 【構成】 テンプレート帳票を画像データとして読み取
る画像入力手段と、画像の特微量抽出手段と、文字領域
に対しては文字認識手段を備え、これらの手段から取得
する情報をページ書式データとして階層化データ構造に
整形するページ書式データ作成手段と、データを保存す
る手段を含んで帳票検索システムを構成する。
Description
する分野で帳票のフォーマット毎に分類するシステムを
構築する際に自動分類を可能にする帳票検索システムに
関するものである。
ンプレート帳票を検索するには、登録済みのテンプレー
ト帳票の代表的な特微量を比較し、一致すれば更に細か
い特微量を比較する全数チェックに近いことを行ってき
た。
な特微量で検索対象を絞り込んだ場合は、代表的な特微
量は一致しないが、詳細な特微量が一致している帳票に
対しては検索漏れが発生する。
ト帳票が非常に多い場合には、特微量の比較計算に時間
が掛かり、自動認識システムとしては実用的でなくな
る。
で、その目的とする処は、同一のテンプレート帳票の二
重登録を防ぐことができる帳票検索システムを提供する
ことにある。
め、本発明は、テンプレート帳票を画像データとして読
み取る画像入力手段と、画像の特微量抽出手段と、文字
領域に対しては文字認識手段を備え、これらの手段から
取得する情報をページ書式データとして階層化データ構
造に整形するページ書式データ作成手段と、データを保
存する手段を含んで帳票検索システムを構成する。
力手段と、画像の特微量抽出手段と、文字認識手段と、
ページ書式データ作成手段により作成した検索帳票のペ
ージ書式データと保存したテンプレート帳票のページ書
式データとが一致しているか否かを比較する類似度計算
手段を含んで帳票検索システムを構成し、類似している
テンプレート帳票がある場合には、その帳票を通知する
手段により検索帳票の自動認識を行うことを特徴とす
る。
図面に基づいて説明する。
態に係る帳票検索システムの概略構成を示すブロック図
である。
処理されて画像特微量抽出手段に送られる。黒ドットの
ヒストグラム法等の手法により、画像をテーブル、テキ
スト、画像等を領域毎に分割する。例えば、テーブル・
ブロックであれば、罫線追跡手法等によってテーブルの
詳細構造を求める。テキスト・ブロックであれば、文字
認識手段で文字コードに変換する。
示す書式データとしてメモリ5及びディスク5に保存す
る。書式データは、帳票のページレイアウトを示す帳票
ページデータと、この情報にリンクしたデーブル・デー
タ及び帳票文字列データの3つのテーブルに分離してい
る。この3つのテーブルをリンクするために、書式イン
デックス情報をメモリ5に保存している。
るシステムは、キーボード3からテンプレート帳票の登
録、帳票の検索等の命令を受け取り、それに対応する処
理をプロセッサ2がこれらのデータを利用して行う。そ
して、その結果をディスプレイ6に表示する。
に係る帳票検索システム、特にプロセッサ2が実行する
各種制御処理の動作について説明する。
インデックス情報を示す図、図4はプロセッサ2がテン
プレート帳票を登録する処理中の帳票フォームの重複チ
ェックの手順を示すフローチャートである。
微量抽出手段と文字認識手段により取得したデータを第
2図に示す帳票書式データに構造化する。この書式デー
タと既に登録しているテンプレート帳票の書式データが
重複していないかをチェックする。
出する。この段階では、仮のテーブルIDを与えてお
く。S105では、重複の可能性のあるテンプレート帳
票を縛り込む。例えば、登録帳票は2つのテーブルを含
み、各テーブルのセルの個数が4個と6個であったとす
ると、セル個数・テンプレート帳票IDインデックスと
テーブル個数インデックスから該当するテンプレート帳
票は、下記のの論理演算演算で、{1,3,6,9 }And {1,
3,4,6,10,12,13,15 }And {1,3,4,6,8,12,15}{1,3,
6 }の重複チェックすべき集合を取得した。
クスのテンプレート帳票IDは昇順に並んでいることは
言うまでもない。
度計算手段に入力して類似度を算出する。類似度計算手
段では、100%一致する書式データが見つかれば、S
111でその書式データが示す帳票文字列データと文字
位置をも含めた文字列の比較を行う。文字列比較手段で
も100%一致していれば、登録帳票は重複していると
見なし、登録しないでに終了する。
れば、S107で入力したテンプレート帳票以外の帳票
の類似度を計算する。S121では、登録帳票とテーブ
ル数が同じであるが、各テーブルのセルの個数が少し違
う集合を抽出する。セルの個数の違いを類似度のペナル
ティにしている場合は、類似度が余り低くならないよう
に予め閾値を決めてセル個数の違う組み合わせを選択す
る。
て、{4,5},{5,5},{5,6}の3つの組み
合わせの類似度を計算する。S105の処理と同様に、 {4,5}のテンプレート帳票の集合は、0 {5, 5}のテンプレート帳票の集合は、{8} {5, 6}のテンプレート帳票の集合は、{4,12,
15} この集合と登録帳票を類似度計算手段に入力して類似度
を算出する。
の類似度を類似度インデックス1,2に反映する。類似
度インデックス1は、{4,6}の集合で得たテンプレ
ート帳票で、類似度が閾値以上に高かったテンプレート
帳票のIDとその類似度を登録する。登録帳票は新たな
IDを割り付けるため、このIDに対応するインデック
スが1個増えることになり、そのレコードに情報を登録
する処理と、登録したテンプレート帳票IDをインデッ
クスとするレコードにも新しいIDの類似度を追加する
処理を行う。
の中で、各々で最も類似度が高く、且つ、閾値以上であ
るテンプレート帳票IDを登録する。{5,5}、
{5,6}の最大の類似度が共に閾値以上であれば、登
録帳票のインデックスに対応するデータを2個登録す
る。前記と同様に、登録したテンプレート帳票IDをイ
ンデックスとするレコードの情報を更新する処理も行
う。このように、類似度インデックスは、常に最新デー
タを反映するようにする。
ンプレート帳票を取得する手順を示すフローチャートで
ある。
手順と同じである。S207で得た計算の結果、最も類
似度の高いテンプレート帳票IDをインデックスとして
類似度インデックス2を参照すると、テーブル・セルの
個数の組み合わせの異なる類似度の最も高いテンプレー
ト帳票を取得することができる。S211では、この情
報を元に類似度インデックス1から類似度の高いテンプ
レート帳票の集合を取得することができる。
207までで得た結果を加味し、S215で類似するテ
ンプレート帳票のリストを出力する。
態2について説明する。
複チェックで作成したインデックスを、帳票の検索処理
で類似するテンプレート帳票を検索するのに利用すると
したが、テンプレート帳票と類似するテンプレート帳票
のリストを出力する処理でも使用することができる。例
えば、ユーザが選択したテンプレート帳票と類似するテ
ンプレート帳票の一覧を表示するような場面を考える
と、テンプレート帳票IDを入力し、このテンプレート
帳票と類似するテンプレート帳票IDのリストを取得す
る機能が必要となる。類似度インデックス1を使用すれ
ば、IDに対応するレコードに既に計算済みの類似度と
テンプレート帳票IDリストを格納しているため、レコ
ード検索処理のみで非常に速くリスト・アップすること
ができる。
帳票検索システムであれば、類似度インデックス2の構
成では、次に示す類似度の再計算を行う必要が生じる。
類似度インデックス2は、テーブル・セル個数の組み合
わせパターンの各グループ中の最も類似度の高いIDと
その類似度をリストしている。このリストに登録してい
るIDを削除した場合、このIDのグループで次に類似
度の高いテンプレート帳票がリストされる類似度の閾値
よりも高ければ、削除IDに代わってリストに登録する
処理が発生する。
の情報がないため、再度類似度計算を行う必要がある。
削除IDの属するグループを類似度インデックス1から
ピック・アップし、そのテンプレート帳票の集合と、類
似度インデックス2の当該レコードのテンプレート帳票
との類似度の再計算である(図6参照)。
と、類似度インデックス2からテンプレート帳票3と最
も類似度が高いことが分かる。帳票3のインデックスに
対応するデータから帳票8を削除するが、帳票3と帳票
8のグループで、このリストの閾値80%を超える類似
度の帳票が存在しているかも知れない。従って、次に類
似度の高い帳票を計算することになる。
ンデックス2を閾値以上に類似度の高い帳票を全てリス
ト・アップするようにしても良い。削除処理では、この
リストから該当するIDを削除するのみで、類似度の再
計算を行わなくても良い。
よれば、テンプレート帳票を画像データとして読み取る
画像入力手段と、画像の特微量抽出手段と、文字領域に
対しては文字認識手段を備え、これらの手段から取得す
る情報をページ書式データとして階層化データ構造に整
形するページ書式データ作成手段と、データを保存する
手段を含んで帳票検索システムを構成したため、同一の
テンプレート帳票の二重登録を防ぐことができるという
効果が得られる。
概略構成を示すブロック図である。
票書式データの模式図である。
を示すデータ構造を示す図である。
重複チェックの手順を示すフローチャートである。
ーチャートである。
報の削除を説明する図である。
Claims (4)
- 【請求項1】 テンプレート帳票を画像データとして読
み取る画像入力手段と、画像の特微量抽出手段と、文字
領域に対しては文字認識手段を備え、これらの手段から
取得する情報をページ書式データとして階層化データ構
造に整形するページ書式データ作成手段と、データを保
存する手段を有することを特徴とする帳票検索システ
ム。 - 【請求項2】 前記テンプレート帳票のページ書式デー
タを登録する手順において、既に同一のページ書式デー
タが登録されていないかをチェックするテンプレート帳
票の重複登録防止手段と、該重複登録防止手段で計算し
た類似度を使用してインデックス・データを作成する手
段及び保存手段を有することを特徴とする請求項1記載
の帳票検索システム。 - 【請求項3】 検索帳票を読み取る画像入力手段と、画
像の特微量抽出手段と、文字認識手段と、ページ書式デ
ータ作成手段により作成した検索帳票のページ書式デー
タと保存したテンプレート帳票のページ書式データとが
一致しているか否かを比較する類似度計算手段を有し、
類似しているテンプレート帳票がある場合には、その帳
票を通知する手段により検索帳票の自動認識を行うこと
を特徴とする帳票検索システム。 - 【請求項4】 前記類似度計算手段では、計算対象とな
るテンプレート帳票を絞り込む手段で絞り込まれたテン
プレート帳票を比較し、絞り込む手段では、前記重複登
録防止手段で作成したインデックス・データを使用する
ことを特徴とする請求項3記載の帳票検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001340606A JP4065484B2 (ja) | 2001-11-06 | 2001-11-06 | 帳票検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001340606A JP4065484B2 (ja) | 2001-11-06 | 2001-11-06 | 帳票検索システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003141447A true JP2003141447A (ja) | 2003-05-16 |
JP2003141447A5 JP2003141447A5 (ja) | 2005-08-18 |
JP4065484B2 JP4065484B2 (ja) | 2008-03-26 |
Family
ID=19154780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001340606A Expired - Fee Related JP4065484B2 (ja) | 2001-11-06 | 2001-11-06 | 帳票検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4065484B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014517426A (ja) * | 2011-06-17 | 2014-07-17 | アリババ・グループ・ホールディング・リミテッド | 反復データの処理 |
CN105095842A (zh) * | 2014-05-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种单据的信息识别的方法和装置 |
JP2016153953A (ja) * | 2015-02-20 | 2016-08-25 | 日本電信電話株式会社 | 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム |
CN109829143A (zh) * | 2018-12-28 | 2019-05-31 | 陈德芹 | 一种在线表格汇总方法及装置 |
JP2019133430A (ja) * | 2018-01-31 | 2019-08-08 | 日本電気株式会社 | 帳票作成支援装置、帳票作成支援方法、及び、帳票作成支援プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608452A (zh) * | 2014-11-11 | 2016-05-25 | 金蝶软件(中国)有限公司 | 单据录入的方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0728935A (ja) * | 1993-07-07 | 1995-01-31 | Oki Electric Ind Co Ltd | 文書画像処理装置 |
JPH10143605A (ja) * | 1996-11-15 | 1998-05-29 | Sharp Corp | 光学文字認識装置 |
JP2001283220A (ja) * | 1999-05-13 | 2001-10-12 | Canon Inc | 帳票分類方法及び装置 |
-
2001
- 2001-11-06 JP JP2001340606A patent/JP4065484B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0728935A (ja) * | 1993-07-07 | 1995-01-31 | Oki Electric Ind Co Ltd | 文書画像処理装置 |
JPH10143605A (ja) * | 1996-11-15 | 1998-05-29 | Sharp Corp | 光学文字認識装置 |
JP2001283220A (ja) * | 1999-05-13 | 2001-10-12 | Canon Inc | 帳票分類方法及び装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014517426A (ja) * | 2011-06-17 | 2014-07-17 | アリババ・グループ・ホールディング・リミテッド | 反復データの処理 |
CN105095842A (zh) * | 2014-05-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种单据的信息识别的方法和装置 |
JP2016153953A (ja) * | 2015-02-20 | 2016-08-25 | 日本電信電話株式会社 | 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム |
JP2019133430A (ja) * | 2018-01-31 | 2019-08-08 | 日本電気株式会社 | 帳票作成支援装置、帳票作成支援方法、及び、帳票作成支援プログラム |
JP7069759B2 (ja) | 2018-01-31 | 2022-05-18 | 日本電気株式会社 | 帳票作成支援装置、帳票作成支援方法、及び、帳票作成支援プログラム |
CN109829143A (zh) * | 2018-12-28 | 2019-05-31 | 陈德芹 | 一种在线表格汇总方法及装置 |
CN109829143B (zh) * | 2018-12-28 | 2023-06-20 | 陈德芹 | 一种在线表格汇总方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4065484B2 (ja) | 2008-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2726568B2 (ja) | 文字認識方法及び装置 | |
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
US8015203B2 (en) | Document recognizing apparatus and method | |
US6310971B1 (en) | Information processing method and apparatus, and storage medium storing medium storing program for practicing this method | |
US5745745A (en) | Text search method and apparatus for structured documents | |
CN110362824B (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
JP2004348591A (ja) | 文書検索方法及び装置 | |
JP2000231563A (ja) | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US7624124B2 (en) | System and method for assisting generation of business specification | |
JPH11184894A (ja) | 論理要素抽出方法および記録媒体 | |
JP2003141447A (ja) | 帳票検索システム | |
JPH07152774A (ja) | 文書検索方法および装置 | |
JPWO2009048149A1 (ja) | 電子文書の同等判定システムおよび同等判定方法 | |
TWI794547B (zh) | 文書檢索裝置、文書檢索程式、文書檢索方法 | |
JP2005107931A (ja) | 画像検索装置 | |
JP5790820B2 (ja) | 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法 | |
JP3552318B2 (ja) | 文書検索方法およびシステム | |
CN111859972A (zh) | 实体识别方法、装置、计算机设备及计算机可读存储介质 | |
JP2932667B2 (ja) | 情報の検索方法および情報蓄積装置 | |
JP3985926B2 (ja) | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 | |
CN112231456B (zh) | 问题生成方法、装置、存储介质和的电子设备 | |
JP2006163446A (ja) | 情報処理装置およびデータ検索方法およびプログラムおよび記録媒体 | |
JP2002007468A (ja) | 類似文書検索装置、類似文書検索方法及び記録媒体 | |
JP3016255B2 (ja) | データベース管理システム | |
JP2984033B2 (ja) | 画像検索装置及び画像検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050120 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060106 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080105 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120111 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140111 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |