JPH08235341A - ドキュメントファイリング装置および方法 - Google Patents
ドキュメントファイリング装置および方法Info
- Publication number
- JPH08235341A JPH08235341A JP7034002A JP3400295A JPH08235341A JP H08235341 A JPH08235341 A JP H08235341A JP 7034002 A JP7034002 A JP 7034002A JP 3400295 A JP3400295 A JP 3400295A JP H08235341 A JPH08235341 A JP H08235341A
- Authority
- JP
- Japan
- Prior art keywords
- data
- document
- character
- line segment
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/123—Storage facilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/912—Applications of a database
- Y10S707/913—Multimedia
- Y10S707/915—Image
Abstract
であり、かつ、ドキュメントの検索を容易するドキュメ
ントファイリング装置を提供すること。 【構成】 本発明は、ドキュメントを線分、文字および
画像データとして記憶するファイル手段と、所望のドキ
ュメントを画像データとして入力する手段と、この画像
データから線分・文字データを抽出する手段と、ファイ
ル手段に線分、文字および画像データがそのまま格納さ
れているドキュメントのうち入力されたドキュメントの
参照対象となるドキュメントを検索する手段と、検索さ
れた参照対象となるドキュメントの線分、文字および画
像データと入力されたドキュメントから抽出された線
分、文字および画像データとの夫々の差異を求める手段
と、参照対象となるドキュメントを識別する情報と得ら
れた差異と入力されたドキュメントを識別する情報を対
応付けてファイル手段に登録する手段とを備える。
Description
を電子的にファイルングするドキュメントファイリング
装置に関する。
ファイルングする装置では、ドキュメント一枚分の画像
を取り込み、このファイルに名前をつけて保存する方法
や、ドキュメント上に記載された文字、図形情報を画像
ではなくコード情報に変換してコードファイルとして保
存する方式がとられていた。あるいは、ドキュメント一
枚全体の画像を保存するのではなく、部分的に一部の画
像を記憶する手法が提案されている。例えば、特開平4
−321188号公報では、未記入帳票のフォーマット
データを用いて、帳票の記入された画像のみを記憶する
方式が開示されている。
タ検索方法として、決められたキーワードを入力する方
式や、ファイリングされている帳票データをディスプレ
イなどに表示しオペレータに求めるものを探させる方式
がとられていた。
憶し管理する方式では、検索のための情報は、オペレー
タがマニュアル操作で各々の画像に固有の名前を付ける
などの形で与える必要があり、作業が繁雑であった。ま
た、ドキュメント上に記載された文字、図形情報を画像
ではなくコード情報に変換する手法では、変換後のコー
ドデータを検索情報として用いることができるが、変換
作業の多くをオペレータのマニュアル操作で行う必要が
あり、その労力は多大である。また、フォーマットデー
タをあらかじめ登録しておく方式は、各々の未記入帳票
を用意しなければならないという問題があり、また、帳
票が多種にわたる際には、その未記入帳票の登録作業の
コストは多大なものになるという問題があった。
けでは求めるものが検出しにくいといった問題や、ファ
イリングされている帳票を表示して検索する際には帳票
の量が多いと時間がかかるといった問題があった。
ァイルング装置では、ドキュメント一枚分の画像に名前
を付けて保存するもの、ドキュメントをコード情報に変
換して保存するものがあるが、ドキュメントを検索する
際に使用する情報を予めオペレータがマニュアル操作で
ドキュメントに与えておく必要があるので、その作業が
繁雑であり、多大な労力を必要とする問題があった。
用いて記入された画像のみを記憶するものでは、様々な
種類の未記入帳票のフォーマットデータを用意しなけれ
ばならず、未記入帳票の登録作業のコストが多大なもの
になるという問題があった。
は求めるものが検出しにくいといった問題や、ファイリ
ングされている帳票を表示して検索する際には帳票の量
が多いと時間がかかるといった問題があった。
ので、種々のドキュメントファイルを電子ファイルング
するドキュメントファイリング装置において、ドキュメ
ントのファイル装置への登録が容易であり、かつ、ドキ
ュメントの検索を容易にするドキュメントファイリング
装置および方法を提供することを目的とする。
を、線分データ、文字データおよび画像データに分解し
て記憶するファイル手段と、所望のドキュメントを画像
データとして入力する画像入力手段と、入力された前記
画像データから線分データと文字データを抽出する文字
線分抽出手段と、前記ファイル手段に線分データ、文字
データおよび画像データがそのまま格納されているドキ
ュメントのうち、入力された前記ドキュメントの参照対
象となるドキュメントを検索するドキュメント検索手段
と、検索された参照対象となるドキュメントの線分デー
タ、文字データおよび画像データと入力された前記ドキ
ュメントから抽出された線分データ、文字データおよび
画像データとの夫々の差異を求める差異検出手段と、前
記参照対象となるドキュメントを識別する情報と得られ
た前記差異と前記入力されたドキュメントを識別する情
報を対応付けて前記ファイル手段に登録する登録手段と
を具備したことを特徴とする。
段は、前記ファイル手段内に既に登録されているドキュ
メントと前記入力されたドキュメントの各データ間の差
異を求め、その差異の最も小さいドキュメントを参照対
象となるドキュメントとして決定することを特徴とす
る。
記ファイル手段に登録する際に、一部のドキュメントを
検索の対象とすることを示すために、ドキュメントに所
定のマークを付けておき、前記ドキュメント検索手段
は、前記ファイル手段に登録されたドキュメントのうち
特定のマークが付されたものだけ検索の対象とすること
を特徴とする。
検索したいドキュメントに類似するドキュメントを前記
画像入力手段から入力し、前記文字線分抽出手段により
得られたデータを用いて、前記ファイル手段に登録され
ているドキュメントを検索することを特徴とする。
文字データおよび画像データとしてファイル手段に登録
するドキュメントファイリング方法であって、所望のド
キュメントを画像データとして入力し、入力された前記
画像データから線分データと文字データを抽出し、前記
ファイル手段に線分データ、文字データおよび画像デー
タがそのまま格納されているドキュメントのうち、入力
された前記ドキュメントの参照対象となるドキュメント
を検索し、検索された参照対象となるドキュメントの線
分データ、文字データおよび画像データと入力された前
記ドキュメントから抽出された線分データ、文字データ
および画像データとの夫々の差異を求め、前記参照対象
となるドキュメントを識別する情報と求められた前記差
異と前記入力されたドキュメントを識別する情報を対応
付けて前記ファイル手段に登録することを特徴とする。
字データおよび画像データとしてファイル手段に登録す
る際、登録したい所望のドキュメントを画像データとし
て入力し、入力された画像データから線分データと文字
データを抽出し、ファイル手段に線分データ、文字デー
タおよび画像データがそのまま格納されているドキュメ
ントのうち、入力された前記ドキュメントの参照対象と
なるドキュメントを検索し、検索された参照対象となる
ドキュメントの線分データ、文字データおよび画像デー
タと入力されたドキュメントから抽出された線分デー
タ、文字データおよび画像データとの夫々の差異を求
め、参照対象となるドキュメントを識別する情報と求め
られた差異と入力されたドキュメントを識別する情報を
対応付けてファイル手段に登録する。
トをファイル手段に登録する際に、登録済みのドキュメ
ントとの文字、線分および画像データの差異を記憶させ
るので、ドキュメントのファイル手段への登録が容易で
あるとともに、文字、線分あるいは画像データを利用し
てファイル手段内のドキュメントの検索を容易に行なう
ことができる。
異すなわち差分データとして保存するので、1つのドキ
ュメントを保存するために必要なデータ量を大幅に減少
することができる。
る。 (第1の実施例)図1に、本実施例に係るドキュメント
ファイリング装置の機能ブロック図を示す。本実施例で
は、ドキュメントとして、その一種である帳票を取上げ
る。
は、帳票を画像データとして取り込む画像入力部1、画
像データから線分、文字、画像データを抽出する文字線
分抽出部2、登録する帳票と登録済みの帳票の差異を検
出するドキュメントデータ差異検出部3、帳票を記憶す
るファイル記憶部4、登録する帳票に類似する登録済み
の帳票を検索する検索部5を備える。
リング装置のハードウェア構成の一例を示す。プロセッ
サ11、スキャナー13、ファイル装置16、メモリ1
7を備え、スキャナー13から読み込まれた帳票に対
し、メモリ17に格納されたプログラム(線分文字抽出
処理、類似帳票検索処理、差異データ抽出処理、処理結
果の保存など)をプロセッサ11にて実行して処理を施
し、処理結果をファイル装置16に格納するものであ
る。なお、キーボード12とディスプレイ14を用いて
ファイル装置16に登録されている帳票の検索を行い、
結果をプリンター15に出力するようにすることも可能
である。
示す。また、図4に本実施例の処理の概念図を示す。ス
テップS1で、例えばイメージ・スキャナーなどを用い
て構成された画像入力部1から登録したい帳票を画像デ
ータとして取り込む。例えば、図4中の21で示す保存
したい帳票(以下、帳票Aと呼ぶ)を画像データとして
取り込む。
入力画像データから線分・文字・画像を抽出する。ステ
ップS3で、検索部5によりファイル記憶部4から登録
したい帳票に類似する類似帳票を検索する。例えば、図
4中の22で示す帳票(以下、帳票Bと呼ぶ)が類似帳
票として得らる。
キュメントデータ差異検出部3により登録したい帳票と
類似帳票の画像データ間の差異を検出し、ステップS6
で、この差異のデータを参照対象の帳票を特定する情報
(例えば帳票番号)と対応付けてファイル記憶部4に登
録し、処理を終了する。例えば、図4中の23で示す差
異データが得られ、これを帳票Bの帳票番号とともに登
録する。
7で、入力画像データから抽出された線分・文字・画像
データをファイル記憶部4に登録し、処理を終了する。
なお、本実施例では、保存されている帳票Aは、帳票B
のデータと求めた差異データとを合成することにより再
現することができる。
ローチャートと、図4の具体例を交えた処理の概念図な
どを参照しながらさらに詳しく説明する。 [ステップS1]まず、図4中の21で示す保存したい
帳票Aは、画像入力部1により、画像データとして取り
込まれる。
により、入力画像中の文字データと線分データが抽出さ
れる。文字や線分として抽出されなかった画像成分は、
画像データとする。
は、長方形を構成する水平、垂直線分、長方形の対角線
の斜め線分、また、長方形を構成する線分以外の水平線
分が抽出対象とされる。一方、文字データの抽出では、
線分以外の黒い領域で長方形を構成する纏まりを求め、
これを1つの文字列としてその中の個々の文字の認識処
理を行う。この識別処理において文字と同定できたもの
のみを文字データとして出力する。
会論文誌、Vol.J77−D−II,No.1,p
p.91−100「輪郭線と細線を用いた直線・円弧あ
てはめによる図面のベクトル化」に示される処理で実行
することができる。この処理の流れを図5のフローチャ
ートに示す。まず、入力画像に対して細線化処理を施し
(ステップS11)、次に、細線を線分近似する(ステ
ップS12)。また、同時に、入力画像の黒領域の輪郭
線を抽出し(ステップS13)、その輪郭の線分近似を
行う(ステップS14)。次に、線分近似された細線を
追跡し、その追跡された一連の部分群の始点と終点を結
ぶ線分が線分近似された輪郭線の間に入っているもので
最大の長さを持つものを抽出線分として出力する(ステ
ップS15)。この処理を線分近似された細線すべてに
対して行う。次に、この抽出した線分のなかで水平、垂
直にちかいものだけを残す(ステップS16)。
向に黒画素がある値以上多く連なっている部分を水平、
垂直線として検出する方法や、輪郭線の平行線ペアを検
出し直線をみつける方法など種々の方法を用いることが
できる。
黒画素の領域の中で長方形で囲むことができる領域をも
とめこれを文字列の領域と仮定し、例えば、電子情報通
信学会の信学技法PRU93−47「動的な仮説生成・
検証による日本語印刷文書からの文字の切り出し」に示
される文字領域の検出とその認識を繰り返す方式によっ
て、その識別を行う。
して説明する。文字線分抽出処理の一例を図6のフロー
チャートに示す。また、図7は、本実施例のドキュメン
トファイリング装置に格納する帳票の一例であり、線分
や文字が記入されている。図7中には、各線分と文字の
座標値を示してある。また、図7中には、iで画像デー
タの領域を表している。
文字枠を抽出する(ステップS21)。次に、この中の
文字の識別を行う(ステップS22)。
コードを出力する(ステップS23,S24)。図8
は、文字線分抽出部2により抽出された線分データの一
例である。線分データは、帳票の枠に対応する長方形に
ついては、その四角の座標、その他の線分については、
始点、終点の座標値で表される。
その部分の画像を文字コードの代わりに出力する(ステ
ップS23,S24)。図9は、文字線分抽出部2によ
り抽出された文字データの一例であり、図10は、文字
線分抽出部2により抽出された画像データの一例であ
る。
出処理が完了した後、検索部5は、ファイル記憶部4か
ら登録したい帳票に類似する類似帳票を検索する。類似
する帳票とは、登録したい帳票との差異が少ない帳票で
ある。
処理では、ファイル記憶部4に登録されている帳票デー
タをディスプレイに表示し、オペレータに指示してもら
う方法を用いても良い。また、ファイル手段4にデータ
を登録する際に保存されている帳票の種類を表す項目に
マークを付けておき、このマークが付けられているデー
タのみを順番に検索し、現在保存しようとしている帳票
の対応する位置にその種類を表す文字情報が記載されて
いるかどうか判断し、このような文字が見つかった際に
は、この帳票を類似帳票とする方法もある。
果、ファイル記憶部4内に登録する帳票Aに類似する帳
票Bが登録されていた場合、帳票Aと帳票Bの差分を求
め、この差分を登録するために、ステップS5に移る。
登録されていなかった場合、帳票Aのデータをそのまま
登録するため、ステップS7に移る。なお、ファイル記
憶部4に他の帳票がまだ保存されていない場合、ステッ
プS3の検索をせずに、ステップS7に移っても良い。
Bが検索されると、ドキュメントデータ差異検出部3
は、登録したい帳票Aと類似帳票Bの画像データ間の差
異を検出する。
するものを探す。この探索により、帳票Aと帳票Bの他
のデータの位置合わせを行い、帳票Aが帳票Bに重なる
ように、図形、文字、画像の座標値を変換する。
らないデータを検出する。文字データについては、座標
値が重なるもので、文字コードが一致するもの以外を帳
票Bとの差異として出力する。部分画像データについて
は、座標値が重なるもので、双方の画像の排他的論理和
をとり、その黒画素の数を計測する。この値が、しきい
値以上のものについては、帳票B内の画像と異なるもの
と判断する。
えば、以下の方式で行うことができる。まず、帳票Aの
線分データの座標値の中で、x,y座標値の最大、最小
値を求める。
分データの線分データの座標値の中で、x,y座標値の
最大、最小値を求める。次に、帳票Aと座標値の最小
値、最大値が帳票Bのものと重なるように帳票Aの線分
データを拡大/縮小する。また、文字の記載座標値も同
様の変換を施す。これにより、帳票Aと帳票Bの大きさ
が一致し、四角の座標値を合わせることにより、帳票A
と帳票Bの位置合わせが完了する。
出した例では、帳票内の1つの線分、1つの活字印刷文
字、および1箇所の手書き記入の図形の画像がその差と
して検出される。
検出部3により登録したい帳票Aと類似帳票Bの画像デ
ータ間の差異データが得られると、この差異データは、
参照対象の帳票Bを特定する情報(例えば帳票番号)と
対応付けてファイル記憶部4に登録される。この登録処
理は、図示しない登録手段により制御される。
タの保存方法の一例を示す。帳票Aは、その帳票を識別
する名前と自動抽出した文字、線分、画像データが記憶
される。帳票Aは、その帳票を識別する名前と差異を求
める際に使った帳票Bの名前、および求められた差異デ
ータからなる。
Aは、帳票Bのデータと求めた差異データとを合成する
ことにより再現することができる。 [ステップS7]一方、ステップS3の検索の結果、フ
ァイル記憶部4内に帳票Aに類似する帳票登録が登録さ
れていなかった場合、線分文字抽出処理を施された帳票
Aについて、抽出された文字、図形、画像をその帳票の
データとしてファイル記憶部に登録する。
タを差分データとして保存することにより、1つの帳票
を保存するために必要なデータ量を、すべて帳票1枚分
ごとに保存する方法と比べ大幅に減少されている。
字を用いて検索する方法や、帳票の枠の似ているものを
検索する方法を実現することができる。以下、本実施例
により登録された帳票を検索する方法のいくつか示す。
検索方法は、大きく分けて3種類ある。1つは、オペレ
ータにキーボードから検索キーを入力させ、このキーを
含む帳票をファイル記憶部4から検索する方法である。
第2は、ディスプレイに保存済みの帳票の全体または部
分を表示し、オペレータに求めるものが表示されている
かどうか問い合わせる方法である。第3は、検索したい
帳票の類似帳票の画像をスキャナーから取り込み、これ
に類似するファイル記憶部4内の帳票を自動的に探す方
法である。本実施例によれば、上記の3種類とも実現可
能である。先の2種類の方法は、従来のファイリング検
索方法であるので、ここでは、第3の検索方法の例につ
いて述べる。
ンプル(以下、帳票Cと呼ぶ)を入力してこれを検索キ
ーとするために、まず、画像入力部1から検索に用いら
れる帳票の画像データが取り込まれ、次に、文字線分抽
出部2により帳票Cの入力画像から線分/文字抽出処理
が行われる。これは、帳票登録の際に行われる処理と同
じである。この処理によって得られた文字/線分情報が
検索キーとして用いられる。この検索方式の一例は、検
索したい帳票の空白帳票を帳票Cとして用いる方法であ
る。この方式は、与えられた帳票Cの文字データ、線分
データを含むファイル記憶部の帳票を検索する処理で実
現される。
トデータのファイル記憶部への登録が容易で、かつ、そ
の検索も容易に実行することができる。 (第2の実施例)第1の実施例では、ステップS3の検
索部5による類似帳票の検索としては、ファイル記憶部
4に登録されている帳票データをディスプレイに表示
し、オペレータに指示してもらう方法や、ファイル手段
4にデータを登録する際に保存されている帳票の種類を
表す項目にマークを付けておき、このマークが付けられ
ているデータのみを順番に検索し、現在保存しようとし
ている帳票の対応する位置にその種類を表す文字情報が
記載されているかどうか判断し、このような文字が見つ
かった際には、この帳票を類似帳票とするような方法な
どを用いた。
録したい帳票と類似帳票の画像データ間の差異を検出
し、この差異の最も少ない帳票を参照帳票とするもので
ある。図13に、本実施例に係るドキュメントファイリ
ング装置の機能ブロック図を示す。本実施例のドキュメ
ントファイリング装置は、画像入力部1、文字線分抽出
部2、ドキュメントデータ差異検出部33、ファイル記
憶部4を備える。本実施例の画像入力部1、文字線分抽
出部2、ファイル記憶部4は、第1の実施例の同番号の
ブロックに相当するものである。本実施例では、第1の
実施例の検索部5の処理は、ドキュメントデータ差異検
出部33により行われる。
図14のフローチャートや第1の実施例で用いた図4の
概念図を参照しながら説明する。 [ステップS31]まず、図4中の21で示す保存した
い帳票Aは、画像入力部1により、画像データとして取
り込まれる。
2により、入力画像中の文字データと線分データが抽出
される。文字や線分として抽出されなかった画像成分
は、画像データとする。
は、長方形を構成する水平、垂直線分、長方形の対角線
の斜め線分、また、長方形を構成する線分以外の水平線
分が抽出対象とされる。一方、文字データの抽出では、
線分以外の黒い領域で長方形を構成する纏まりを求め、
これを1つの文字列としてその中の個々の文字の認識処
理を行う。この識別処理において文字と同定できたもの
のみを文字データとして出力する。
施例にて説明したような方法を用いることができる。例
えば、第1の実施例と同様、図6のフローチャートを参
照して説明したような手順により、図7の帳票から図8
の線分データ、図9の文字データ、および図10の画像
データを得ることができる。
抽出処理が完了した後、ファイル記憶部4に保存済みの
帳票データが存在する際には、登録したい帳票Aに最も
類似する帳票Bを検索する。本実施例では、前述したよ
うに、登録したい帳票とファイル記憶部4に保存済みの
各帳票との夫々の間の画像データ間の差異を検出し、こ
の差異の最も少ない帳票を参照帳票とする。
トデータ差異検出部33により行われ、その処理内容
は、前述したドキュメントデータ差異検出部3によるス
テップS3の類似帳票検索処理と同様である。
存されており類似帳票の候補となる複数の帳票データに
ついて夫々差異を検出し、この差異の最も少ない帳票を
参照帳票とする。この差異の大小の評価は、差異データ
のデータ量の比較などにより行えば良い。
すべてを類似帳票の候補としても良いし、最初に画像デ
ータだけ比較して候補を絞っておき、次に他のデータを
比較するようにしても良い。
ータ量の差異データを得ることができなかった場合は、
類似帳票が登録されていないものとしても良い。 [ステップS34]ステップS33の検索の結果、ファ
イル記憶部4内に登録する帳票Aに類似する帳票Bが登
録されていた場合、ステップS36に移る。登録されて
いなかった場合、帳票Aのデータをそのまま登録するた
め、ステップS37に移る。なお、ファイル記憶部4に
他の帳票がまだ保存されていない場合、ステップS33
の検索をせずに、ステップS37に移っても良い。
異検出部33により登録したい帳票Aと類似帳票Bの画
像データ間の差異データが得られると、この差異データ
は、参照対象の帳票Bを特定する情報(例えば帳票番
号)と対応付けてファイル記憶部4に登録される。この
登録処理は、図示しない登録手段により制御される。例
えば、第1の実施例で示した図12のようにして、ファ
イル記憶部4に帳票データが保存される。
Aは、帳票Bのデータと求めた差異データとを合成する
ことにより再現することができる。 [ステップS37]一方、ステップS33の検索の結
果、ファイル記憶部4内に帳票Aに類似する帳票登録が
登録されていなかった場合、線分文字抽出処理を施され
た帳票Aについて、抽出された文字、図形、画像をその
帳票のデータとしてファイル記憶部4に登録する。
タを差分データとして保存することにより、1つの帳票
を保存するために必要なデータ量を、すべて帳票1枚分
ごとに保存する方法と比べ大幅に減少されている。
例で述べたような帳票上の文字を用いて検索する方法
や、帳票の枠の似ているものを検索する方法を実現する
ことができる。もちろん、第1の実施例で第3の検索方
法として述べた方法も実現可能である。すなわち、本実
施例でも、検索したい帳票の類似サンプル(以下、帳票
Cと呼ぶ)を入力してこれを検索キーとするために、ま
ず、画像入力部1から検索に用いられる帳票の画像デー
タが取り込まれ、次に、文字線分抽出部2により帳票C
の入力画像から線分/文字抽出処理が行われる。これ
は、帳票登録の際に行われる処理と同じである。この処
理によって得られた文字/線分情報が検索キーとして用
いられる。この検索方式の一例は、検索したい帳票の空
白帳票を帳票Cとして用いる方法である。この方式は、
与えられた帳票Cの文字データ、線分データを含むファ
イル記憶部の帳票を検索する処理で実現される。
トデータのファイル記憶部への登録が容易で、かつ、そ
の検索を容易に実行することができる。 (第3の実施例)ここでは、第1の実施例または第2の
実施例のように画像入力部1、文字線分抽出部2、ファ
イル記憶部4を備えたドキュメントファイリング装置に
おいて、帳票Cとして空白帳票を読み込ませファイル記
憶部4から同種の帳票を検索する例を説明する。なお、
画像入力部1、文字線分抽出部2、ファイル記憶部4
は、前述したものと同様であるので、ここでの説明は省
略する。
図15は、本実施例の処理の一例を示すフローチャート
である。まず、画像入力部1により図16(a)に示す
ような帳票Cを画像データとして取り込む(ステップS
101)。
かれている線分を抽出し(ステップS102)、図16
(b)のように、その線分データから枠を表す長方形を
検出する(ステップS103)。次に、各長方形領域の
中点(図16(c)中で30で示される黒丸)の座標値
を求めるとともに(ステップS104)、図16(d)
のように、抽出した長方形を包含する最小の長方形(外
接長方形)を求める(ステップS105)。なお、ステ
ップS104で抽出した図16(c)の各々の点30
は、図16(a)の帳票Cの各々の枠と1対1に対応し
ている。
部4に記憶されている帳票について同様の長方形領域抽
出の処理がその登録時になされており、ファイル記憶部
4に記憶されている。そこで、各帳票に対して、上記帳
票Cに対して行ったのと同様の、帳票内の長方形領域を
包含する最小の長方形(外接長方形)と、各長方形の中
点の座標値を求める。
帳票Dと呼ぶ。帳票Cと帳票Dが同一であるかどうか調
べる処理を図15に示す手順によって行う。まず、ファ
イル記憶部4から帳票Dの長方形データを読み込み(ス
テップS107)、各長方形領域の中点の座標値を求め
るとともに(ステップS108)、抽出した長方形を包
含する最小の長方形(外接長方形)を求める(ステップ
S109)。帳票Cと帳票Dの外接長方形の大きさを比
べ(ステップS110)、これが大きく異なるものは、
同一帳票として扱わない。この場合、ステップS106
に戻り、次の帳票Dについて同様の評価を行う。
きさがほぼ同じ場合(ステップS110)、この外接長
方形の位置、大きさを用いて、帳票Dが帳票Cと重なる
ように帳票Dの座標値を変換する(ステップS11
1)。この変換では、各長方形の中点の座標値のみを対
象とする。
座標値が同じ、または近いものを検出する(ステップS
112)。この数が全体のt%以上である場合に、帳票
Dと帳票Cは同じであると判断し、(ステップS11
3)、帳票Dを検索結果として出力し、(ステップS1
14)処理を終了する。
帳票Dと帳票Cを同一帳票として扱わない。この場合、
ステップS106に戻り、次の帳票Dについて同様の評
価を行う。
ない帳票が残っていないときに、検索結果なしとして処
理を終了する。ところで、ファイル記憶部4内の帳票
は、いろいろな情報が記入されているため、枠を表す長
方形領域を正確に抽出できない場合がある。そのような
場合に備え、上記帳票照合処理を以下のように拡張する
ことにより対応することができる。
座標を求めた後に、隣接する長方形を併合してできる長
方形をつくりその中点も求める。図17(a),(b)
に、その例を示す。この中点データを用いることによ
り、図18(a)に示す例のように、帳票内の線分が一
部切れていて長方形ができていない際には、図17
(b)で示した併合長方形の中点が図18(b)に示す
帳票から得られた長方形の中点と対応付けが行われ、帳
票識別で同じと判断される。
い線分が書き込まれたために長方形領域が余分に検出さ
れている場合には、この帳票からの長方形領域の中点を
求める際に、図17と同様の併合した長方形を作成し、
図19(b)の中点を照合に用いることにより、図17
(a)の帳票と類似であると照合することができる。
に、帳票に記入されている文字列が同一であるかどうか
を調べる方法もある。また、他の検索方法として、検索
したい帳票に類似する帳票を帳票Cとして選択し、この
帳票内の文字、線分を抽出し、この帳票の中で検索に用
いたい文字、線分データをオペレータに指示させ、指示
された文字、線分を含む帳票をファイル記憶部4から検
索する方法もある。
かどうかを判定する処理は、第2の実施例において類似
帳票を得る際の最も類似するものを判定する処理にも用
いることができる。また、本発明は上述した各実施例に
限定されるものではなく、その要旨を逸脱しない範囲
で、種々変形して実施することができる。
ル手段に登録する際に、登録済みのドキュメントとの文
字、線分および画像データの差異を記憶させるので、ド
キュメントのファイル手段への登録が容易であるととも
に、文字、線分あるいは画像データを利用してファイル
手段内のドキュメントの検索を容易に行なうことができ
る。
イリング装置の構成を示すブロック図
ードウェア構成の一例を示す図
ーチャート
の図
ァイリング装置の構成を示すブロック図
ローチャート
トデータ差異検出部、4…ファイル記憶部、5…検索
部、33…ドキュメントデータ差異検出部、11…プロ
セッサ、12…キーボード、13…スキャナー、14…
ディスプレイ、15…プリンター、16…ファイル装
置、17…メモリ
Claims (2)
- 【請求項1】ドキュメントを、線分データ、文字データ
および画像データに分解して記憶するファイル手段と、 所望のドキュメントを画像データとして入力する画像入
力手段と、 入力された前記画像データから線分データと文字データ
を抽出する文字線分抽出手段と、 前記ファイル手段に線分データ、文字データおよび画像
データがそのまま格納されているドキュメントのうち、
入力された前記ドキュメントの参照対象となるドキュメ
ントを検索するドキュメント検索手段と、 検索された参照対象となるドキュメントの線分データ、
文字データおよび画像データと入力された前記ドキュメ
ントから抽出された線分データ、文字データおよび画像
データとの夫々の差異を求める差異検出手段と、 前記参照対象となるドキュメントを識別する情報と得ら
れた前記差異と前記入力されたドキュメントを識別する
情報を対応付けて前記ファイル手段に登録する登録手段
とを具備したことを特徴とするドキュメントファイリン
グ装置。 - 【請求項2】ドキュメントを、線分データ、文字データ
および画像データとしてファイル手段に登録するドキュ
メントファイリング方法であって、 所望のドキュメントを画像データとして入力し、 入力された前記画像データから線分データと文字データ
を抽出し、 前記ファイル手段に線分データ、文字データおよび画像
データがそのまま格納されているドキュメントのうち、
入力された前記ドキュメントの参照対象となるドキュメ
ントを検索し、 検索された参照対象となるドキュメントの線分データ、
文字データおよび画像データと入力された前記ドキュメ
ントから抽出された線分データ、文字データおよび画像
データとの夫々の差異を求め、 前記参照対象となるドキュメントを識別する情報と求め
られた前記差異と前記入力されたドキュメントを識別す
る情報を対応付けて前記ファイル手段に登録することを
特徴とするドキュメントファイリング方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03400295A JP3602596B2 (ja) | 1995-02-22 | 1995-02-22 | ドキュメントファイリング装置および方法 |
US08/592,706 US5815704A (en) | 1995-02-22 | 1996-01-26 | Document filing apparatus and method having document registration, comparison and retrieval capabilities |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03400295A JP3602596B2 (ja) | 1995-02-22 | 1995-02-22 | ドキュメントファイリング装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08235341A true JPH08235341A (ja) | 1996-09-13 |
JP3602596B2 JP3602596B2 (ja) | 2004-12-15 |
Family
ID=12402247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03400295A Expired - Lifetime JP3602596B2 (ja) | 1995-02-22 | 1995-02-22 | ドキュメントファイリング装置および方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5815704A (ja) |
JP (1) | JP3602596B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187744A (ja) * | 1996-12-26 | 1998-07-21 | Toshiba Corp | ドキュメント処理装置及びデータ処理装置並びにドキュメント処理方法及びデータ処理方法 |
JPH11143908A (ja) * | 1997-11-14 | 1999-05-28 | Ricoh Co Ltd | ファイルシステムおよび該システムに使用するプログラムを記録した記録媒体 |
JP2000057159A (ja) * | 1998-08-10 | 2000-02-25 | Ricoh Co Ltd | ファイルシステム |
WO2004068368A1 (en) * | 2003-01-31 | 2004-08-12 | Canon Kabushiki Kaisha | Image processing method, system, program, program storage medium and information processing apparatus |
JP2012095231A (ja) * | 2010-10-28 | 2012-05-17 | Fujitsu Ltd | 帳票画像管理システム、帳票画像管理方法、及びプログラム |
JP2012208729A (ja) * | 2011-03-30 | 2012-10-25 | Fujitsu Ltd | 帳票管理システム、帳票画像管理方法、及びプログラム |
US10623598B2 (en) | 2016-11-16 | 2020-04-14 | Fuji Xerox Co., Ltd. | Image processing apparatus and non-transitory computer readable medium for extracting and connecting inherent regions of multiple pages of document data |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6327387B1 (en) | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
JP4098880B2 (ja) * | 1997-06-06 | 2008-06-11 | 松下電器産業株式会社 | 情報検索装置 |
IL125846A0 (en) * | 1998-08-19 | 1999-04-11 | Emony | Incremental program update |
US6826574B1 (en) * | 1999-08-27 | 2004-11-30 | Gateway, Inc. | Automatic profiler |
JP2001306598A (ja) * | 2000-04-20 | 2001-11-02 | Fuji Xerox Co Ltd | データ入力フォーム検索システム、データ入力フォーム検索方法、及び、コンピュータ読み取り可能な記録媒体 |
JP4613397B2 (ja) * | 2000-06-28 | 2011-01-19 | コニカミノルタビジネステクノロジーズ株式会社 | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2003150602A (ja) * | 2001-11-15 | 2003-05-23 | Hitachi Ltd | 文書情報管理方法および装置 |
CN100501728C (zh) * | 2003-01-31 | 2009-06-17 | 佳能株式会社 | 图像处理方法、系统、程序、程序存储介质以及信息处理设备 |
US7536636B2 (en) * | 2004-04-26 | 2009-05-19 | Kodak Graphic Communications Canada Company | Systems and methods for comparing documents containing graphic elements |
JP4735168B2 (ja) * | 2005-09-30 | 2011-07-27 | セイコーエプソン株式会社 | 画像内に表現された被写体の特定 |
JP4998220B2 (ja) * | 2007-11-09 | 2012-08-15 | 富士通株式会社 | 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 |
US8438558B1 (en) | 2009-03-27 | 2013-05-07 | Google Inc. | System and method of updating programs and data |
US8724931B2 (en) * | 2011-05-27 | 2014-05-13 | Ebay Inc. | Automated user information provision using images |
JP5884597B2 (ja) * | 2012-03-29 | 2016-03-15 | 富士通株式会社 | 帳票画像管理システム、帳票画像管理方法、及びプログラム |
US9374501B2 (en) * | 2014-03-04 | 2016-06-21 | Xerox Corporation | Methods and devices for form-independent registration of filled-out content |
JP6520279B2 (ja) * | 2015-03-24 | 2019-05-29 | 富士ゼロックス株式会社 | 処理装置、画像処理システム、およびプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02208780A (ja) * | 1989-02-09 | 1990-08-20 | Canon Inc | 記憶情報の変更方法 |
JPH02301873A (ja) * | 1989-05-17 | 1990-12-13 | Sanyo Electric Co Ltd | イメージ処理装置 |
JPH0314184A (ja) * | 1989-06-13 | 1991-01-22 | Fuji Xerox Co Ltd | 文書画像再配置ファイリング装置 |
JPH0423176A (ja) * | 1990-05-18 | 1992-01-27 | Hitachi Ltd | 図面作成装置 |
JPH04105178A (ja) * | 1990-08-24 | 1992-04-07 | Seiko Epson Corp | 文書画像処理装置 |
JPH063800A (ja) * | 1992-06-16 | 1994-01-14 | Dainippon Screen Mfg Co Ltd | 画像処理方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63268081A (ja) * | 1987-04-17 | 1988-11-04 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 文書の文字を認識する方法及び装置 |
US5101448A (en) * | 1988-08-24 | 1992-03-31 | Hitachi, Ltd. | Method and apparatus for processing a document by utilizing an image |
JPH04195485A (ja) * | 1990-11-28 | 1992-07-15 | Hitachi Ltd | 画像情報入力装置 |
JPH05266095A (ja) * | 1992-03-23 | 1993-10-15 | Toshiba Corp | 画像検索装置 |
US5592574A (en) * | 1992-04-06 | 1997-01-07 | Ricoh Company Ltd. | Method and apparatus for expansion of white space in document images on a digital scanning device |
JP3323535B2 (ja) * | 1992-05-19 | 2002-09-09 | キヤノン株式会社 | 画像記憶装置及び画像記憶装置の制御方法 |
US5590317A (en) * | 1992-05-27 | 1996-12-31 | Hitachi, Ltd. | Document information compression and retrieval system and document information registration and retrieval method |
US5377348A (en) * | 1992-06-04 | 1994-12-27 | International Business Machines Corporation | System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection |
JP3493522B2 (ja) * | 1993-10-20 | 2004-02-03 | ミノルタ株式会社 | 画像処理装置 |
-
1995
- 1995-02-22 JP JP03400295A patent/JP3602596B2/ja not_active Expired - Lifetime
-
1996
- 1996-01-26 US US08/592,706 patent/US5815704A/en not_active Expired - Lifetime
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02208780A (ja) * | 1989-02-09 | 1990-08-20 | Canon Inc | 記憶情報の変更方法 |
JPH02301873A (ja) * | 1989-05-17 | 1990-12-13 | Sanyo Electric Co Ltd | イメージ処理装置 |
JPH0314184A (ja) * | 1989-06-13 | 1991-01-22 | Fuji Xerox Co Ltd | 文書画像再配置ファイリング装置 |
JPH0423176A (ja) * | 1990-05-18 | 1992-01-27 | Hitachi Ltd | 図面作成装置 |
JPH04105178A (ja) * | 1990-08-24 | 1992-04-07 | Seiko Epson Corp | 文書画像処理装置 |
JPH063800A (ja) * | 1992-06-16 | 1994-01-14 | Dainippon Screen Mfg Co Ltd | 画像処理方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187744A (ja) * | 1996-12-26 | 1998-07-21 | Toshiba Corp | ドキュメント処理装置及びデータ処理装置並びにドキュメント処理方法及びデータ処理方法 |
JPH11143908A (ja) * | 1997-11-14 | 1999-05-28 | Ricoh Co Ltd | ファイルシステムおよび該システムに使用するプログラムを記録した記録媒体 |
JP2000057159A (ja) * | 1998-08-10 | 2000-02-25 | Ricoh Co Ltd | ファイルシステム |
WO2004068368A1 (en) * | 2003-01-31 | 2004-08-12 | Canon Kabushiki Kaisha | Image processing method, system, program, program storage medium and information processing apparatus |
US7664321B2 (en) | 2003-01-31 | 2010-02-16 | Canon Kabushiki Kaisha | Image processing method, system, program, program storage medium and information processing apparatus |
JP2012095231A (ja) * | 2010-10-28 | 2012-05-17 | Fujitsu Ltd | 帳票画像管理システム、帳票画像管理方法、及びプログラム |
JP2012208729A (ja) * | 2011-03-30 | 2012-10-25 | Fujitsu Ltd | 帳票管理システム、帳票画像管理方法、及びプログラム |
US10623598B2 (en) | 2016-11-16 | 2020-04-14 | Fuji Xerox Co., Ltd. | Image processing apparatus and non-transitory computer readable medium for extracting and connecting inherent regions of multiple pages of document data |
Also Published As
Publication number | Publication date |
---|---|
JP3602596B2 (ja) | 2004-12-15 |
US5815704A (en) | 1998-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3602596B2 (ja) | ドキュメントファイリング装置および方法 | |
JP3469345B2 (ja) | 画像のファイリング装置及びファイリング方法 | |
JP2713622B2 (ja) | 表形式文書読取装置 | |
US6947596B2 (en) | Character recognition method, program and recording medium | |
JPH06301781A (ja) | コンピュータによるパターン認識のためのイメージ変換方法及び装置 | |
JP2000285190A (ja) | 帳票識別方法および帳票識別装置および記憶媒体 | |
JPH08180068A (ja) | 電子ファイリング装置 | |
JP2734245B2 (ja) | 画像特徴抽出方法及びその装置 | |
Lu et al. | Word searching in document images using word portion matching | |
JP3090070B2 (ja) | 帳票識別方法及び装置 | |
JPH07168910A (ja) | 文書レイアウト解析装置及び文書フォ−マット識別装置 | |
JPH10171920A (ja) | 文字認識装置、その文字認識方法およびその記録媒体 | |
JP5051174B2 (ja) | 帳票辞書生成装置、帳票識別装置、帳票辞書生成方法、及びプログラム | |
JP2000076378A (ja) | 文字認識方法 | |
JPH11282956A (ja) | 帳票識別方法、装置および記録媒体 | |
JP3305367B2 (ja) | データベースへのデータ入力装置 | |
JP2000259847A (ja) | 情報検索方法、装置および記録媒体 | |
CN114565750A (zh) | 一种纸质试题的处理方法和系统 | |
JP2004280530A (ja) | 帳票処理システム及び帳票処理方法 | |
JP2977244B2 (ja) | 文字認識方法及び文字認識装置 | |
JPH09128542A (ja) | 画像認識検索装置 | |
JP2864777B2 (ja) | 線画像照合装置 | |
JPH04348475A (ja) | 画像情報検索方法及びその装置 | |
JPH01201789A (ja) | 文字読取装置 | |
JPS6278690A (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040921 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040924 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081001 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081001 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091001 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091001 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101001 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111001 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111001 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121001 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121001 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 9 |
|
EXPY | Cancellation because of completion of term |