JP2001060249A - Character string collation system for document identification - Google Patents

Character string collation system for document identification

Info

Publication number
JP2001060249A
JP2001060249A JP11235027A JP23502799A JP2001060249A JP 2001060249 A JP2001060249 A JP 2001060249A JP 11235027 A JP11235027 A JP 11235027A JP 23502799 A JP23502799 A JP 23502799A JP 2001060249 A JP2001060249 A JP 2001060249A
Authority
JP
Japan
Prior art keywords
character
image
character string
size
collating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11235027A
Other languages
Japanese (ja)
Inventor
Toshinori Hase
俊徳 長谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP11235027A priority Critical patent/JP2001060249A/en
Publication of JP2001060249A publication Critical patent/JP2001060249A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To increase the character string collation speed of a document identifying process for identifying the kind of a document which does not have a dedicated identification code for document identification by collating the character string entered into the document. SOLUTION: This system is equipped with a blank decision means 32 which decides whether or not a pattern of a character, etc., is included in a cut partial image and a character size decision means 33 which detects a rectangle circumscribed with the pattern in the cut partial image and compares the size of the rectangle with information on the sizes of rectangles circumscribed with respective characters M stored in a dictionary to decide whether the sizes of both the rectangles match each other. When the cut partial image is blank or the size of the pattern included in the cut partial image is different from the size of the rectangle circumscribed with the character M matching the pattern, collation against the character string including the character M is immediately quit and collation against a next character string is started.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は帳票識別用文字列照
合方式、特に光学的文字読取装置用の識別コードが印刷
されていない既存帳票の種類を識別する帳票識別用文字
列照合方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form identification character string collating method, and more particularly to a form identification character string collating method for identifying the type of an existing form on which an identification code for an optical character reader is not printed.

【0002】[0002]

【従来の技術】従来、光学的文字読取装置において、複
数種類の帳票を処理する場合、各帳票の固定位置に予め
ID(識別)番号を印刷又は手書きにより記入しておく。
このID番号を読取ることによって各帳票種類に対応して
登録されている帳票フォーマット情報を参照し文字読取
り処理を行うのが一般的である。この場合、固定位置に
ID番号が記入されていない既存帳票は処理不能である。
2. Description of the Related Art Conventionally, when a plurality of types of forms are processed in an optical character reading device, a predetermined position is fixed in each form in advance.
Write the ID (identification) number by printing or handwriting.
In general, by reading this ID number, a character reading process is performed with reference to the form format information registered corresponding to each form type. In this case,
Existing forms without ID numbers cannot be processed.

【0003】そこで、特願平10−081907号明細
書には、読取った帳票上の特定位置に記載された帳票名
等の文字列画像から抽出した特徴量と、予め辞書登録さ
れている文字列があるべき特徴量とを照合することによ
り、帳票種類を識別している。
[0003] Japanese Patent Application No. 10-081907 describes a feature extracted from a character string image such as a form name described at a specific position on a read form and a character string registered in a dictionary in advance. The form type is identified by collating with a feature amount that should be.

【0004】また、参考技術として、特開平5−274
471号公報には、マークシートやキーボード入力に頼
らず、入力イメージからタイトル領域を判定、抽出して
イメージデータのタイトルを付与する「イメージ文書の
タイトル領域抽出処理方法」を開示する。特開平9−1
34406号公報には、画像データとして取込んだ文書
画像から連続文字に外接する矩形領域を設定し、文字の
高さや強調、罫線等の属性を評価してタイトル候補を抽
出する「文書画像からのタイトル抽出装置及び方法」を
開示する。また、特開平10−11531号公報には、
未記入帳票を読込んで帳票フォーマットを作成する際、
予め印刷されたプレプリント文字列の識別結果から、文
字のサイズや体裁等に特徴がある文字列をタイトル候補
とする「帳票読取装置」を開示する。
As a reference technique, Japanese Patent Application Laid-Open No. 5-274 is disclosed.
No. 471 discloses a "title area extraction processing method for image documents" in which a title area is determined and extracted from an input image and a title of image data is assigned without relying on a mark sheet or keyboard input. JP-A-9-1
Japanese Patent No. 34406 discloses a method of setting a rectangular area circumscribing continuous characters from a document image captured as image data, and evaluating attributes such as character height, emphasis, and ruled lines to extract title candidates. Title Extraction Apparatus and Method ". Also, Japanese Patent Application Laid-Open No. Hei 10-11531 discloses that
When reading a blank form and creating a form format,
Disclosed is a "form reader" in which a character string having a characteristic in character size, style, or the like is selected as a title candidate from the identification result of a preprinted character string printed in advance.

【0005】[0005]

【発明が解決しようとする課題】従来技術にあっては、
辞書登録されている帳票数及び文字数が増加するにつれ
て、識別に要する時間が多くなるという問題がある。そ
の理由は、登録されている帳票種の数が増加するほど、
また文字列の文字数が増加するほど、各帳票種の文字列
中の各文字と入力画像から切出された文字画像とのマッ
チングをとる回数が増加する為である。
SUMMARY OF THE INVENTION In the prior art,
There is a problem that the time required for identification increases as the number of forms and characters registered in the dictionary increases. The reason is that as the number of registered form types increases,
Further, as the number of characters in the character string increases, the number of times that each character in the character string of each form type is matched with the character image cut out from the input image increases.

【0006】本発明の目的は、帳票画像上に記載された
文字列の照合を高速で行い、入力された帳票の帳票種を
識別できる帳票識別用文字列照合方式を提供することで
ある。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a form identification character string collating method capable of collating a character string described on a form image at high speed and identifying a form type of an input form.

【0007】[0007]

【課題を解決するための手段】前述の課題を解決するた
め、本発明による帳票識別用文字列照合方式は、次のよ
うな特徴的な構成を採用している。
In order to solve the above-mentioned problems, a character string collating method for form identification according to the present invention employs the following characteristic configuration.

【0008】(1)帳票の所定位置に前記帳票の識別の
為に記載されている文字列を照合する帳票識別用文字列
照合方式において、前記帳票の所定位置を切出した部分
画像内に文字が含まれているか否か空白判定手段で判定
し、前記部分画像内の文字の外接矩形を検出し辞書記憶
手段に記憶している外接矩形とを文字サイズ判定手段で
比較して一致判定することより成る帳票識別用文字列照
合方式。
(1) In a form identification character string collation method for collating a character string described for identifying the form at a predetermined position of the form, characters are included in a partial image obtained by cutting out a predetermined position of the form. Whether or not the character is included is determined by the blank determining means, a circumscribed rectangle of the character in the partial image is detected, and the circumscribed rectangle stored in the dictionary storage means is compared by the character size determining means to determine a match. Form identification character string collation method.

【0009】(2)前記判定は、前記文字列の各文字毎
に個別に行う上記(1)の帳票識別用文字列照合方式。
(2) The form identification character string collation method according to (1), wherein the determination is individually performed for each character of the character string.

【0010】(3)前記判定の結果、不一致の場合には
当該照合作業を直ちに中止して、次の照合に移る上記
(1)又は(2)の帳票識別用文字列照合方式。
(3) The form identification character string collation method according to the above (1) or (2), wherein if the result of the determination is a mismatch, the collation work is immediately stopped and the process proceeds to the next collation.

【0011】(4)前記空白判定手段は、前記切出され
た部分画像を予め設定したしきい値に基づき二値化する
ことにより行う上記(1)の帳票識別用文字列照合方
式。
(4) The form identification character string collation method according to (1), wherein the blank determining means binarizes the cut-out partial image based on a preset threshold value.

【0012】(5)帳票のイメージを取込む画像入力装
置と、前記取込まれた画像を記憶する画像記憶部及び文
字位置情報や文字特徴情報を記憶する辞書記憶部を有す
る記憶装置と、前記取込まれた画像から文字画像を切出
す文字画像切出し手段、空白判定を行う空白判定手段、
文字の大きさを判定する文字サイズ判定手段及び前記記
憶装置の情報に基づき文字の照合を行う文字照合手段を
含むデータ処理装置とを備える帳票識別用文字列照合方
式。
(5) an image input device for capturing an image of a form, an image storage unit for storing the captured image, and a storage device having a dictionary storage unit for storing character position information and character characteristic information; Character image cutout means for cutting out a character image from a captured image, blank space determination means for performing blank space determination,
A form identification character string collating method comprising: a character size determining means for determining a character size; and a data processing device including a character collating means for collating characters based on information in the storage device.

【0013】[0013]

【発明の実施の形態】以下、本発明による帳票識別用文
字列照合方式の好適実施形態例を添付図を参照して詳細
に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A preferred embodiment of a form identification character string collating method according to the present invention will be described below in detail with reference to the accompanying drawings.

【0014】先ず図1は、本発明による帳票識別用文字
列照合方式の好適実施形態例の構成を示すブロック図で
ある。この帳票識別用文字列照合方式は、画像入力装置
1、記憶装置2及びデータ処理装置3より構成される。
記憶装置2は、画像記憶部21及び辞書記憶部22を含
み、辞書記憶部22は文字位置情報22aと文字特徴情
報22bとを関連付けて記憶する。また、データ処理装
置3は、文字画像切出し手段31、空白判定手段32、
文字サイズ判定手段33及び文字照合手段34を含んで
いる。
FIG. 1 is a block diagram showing the configuration of a preferred embodiment of a form identification character string collating method according to the present invention. This form identification character string collation method uses an image input device.
1. It comprises a storage device 2 and a data processing device 3.
The storage device 2 includes an image storage unit 21 and a dictionary storage unit 22. The dictionary storage unit 22 stores character position information 22a and character characteristic information 22b in association with each other. In addition, the data processing device 3 includes a character image cutout unit 31, a blank determination unit 32,
It includes a character size determination unit 33 and a character collation unit 34.

【0015】画像入力装置1は、スキャナ等である。記
憶装置2は、情報を記憶する。データ処理装置3は、プ
ログラム制御により動作する。更に詳しく説明すると、
画像入力装置1は、帳票の画像を読取り、多階調の2次
元画像としてデータ処理装置3に取込む。記憶装置2の
画像記憶部21は、画像入力装置1により取込まれた帳
票の画像を記憶する。また、辞書記憶部22は、文字列
を照合する為のデータを記憶する。各帳票種毎に文字列
を構成する各文字の帳票上での位置及び文字に外接する
矩形の大きさを格納した文字位置情報22aと、文字特
徴情報22bが関連付けて記憶されている。文字特徴情
報22bには、照合力となる文字列の特徴量が文字毎に
格納されている。特徴量としては、各文字画像を格子状
の部分領域に分割し、各部分領域内の画素値の平均を分
割数分並べたものを特徴量として用いることとするが、
他の特徴量を用いてもよい。
The image input device 1 is a scanner or the like. The storage device 2 stores information. The data processing device 3 operates under program control. More specifically,
The image input device 1 reads an image of a form and takes it into the data processing device 3 as a multi-tone two-dimensional image. The image storage unit 21 of the storage device 2 stores an image of a form captured by the image input device 1. The dictionary storage unit 22 stores data for collating a character string. Character position information 22a, which stores the position of each character constituting a character string on a form and the size of a rectangle circumscribing the character for each form type, and character characteristic information 22b are stored in association with each other. In the character feature information 22b, a feature amount of a character string serving as a matching power is stored for each character. As the feature amount, each character image is divided into a grid-like partial region, and the average of the pixel values in each partial region arranged for the number of divisions is used as the feature amount.
Other features may be used.

【0016】データ処理装置3の文字画像切出し手段3
1は、上述した画像記憶部21に記憶された帳票画像か
ら、上述した文字位置情報22aを用いて、文字が記載
されているべき位置の部分画像を切出す。空白判定手段
32は、切出された部分画像内に文字等の図形が存在し
ているか否か判定する。文字サイズ判定手段33は、上
述の切出された部分画像内に含まれている図形の大きさ
が、切出すべき文字の大きさと一致しているか否か判定
する。文字照合手段34は、切出された部分画像から特
徴量を抽出し、上述した文字特徴情報22bに記憶され
ている特徴量と照合する。
The character image extracting means 3 of the data processing device 3
1 cuts out a partial image at a position where a character is to be written from the form image stored in the image storage unit 21 using the above-described character position information 22a. The blank determining unit 32 determines whether a figure such as a character exists in the cut-out partial image. The character size determination unit 33 determines whether the size of the graphic included in the cut-out partial image matches the size of the character to be cut out. The character matching unit 34 extracts a feature amount from the cut-out partial image and matches the feature amount with the feature amount stored in the above-described character feature information 22b.

【0017】次に、図2乃至図4のフローチャートを参
照して、図1の帳票識別用文字列照合方式の動作を説明
する。図2は、図1の帳票識別用文字列照合方式の全体
動作を示すフローチャートである。図3は、図1中の空
白判定手段32のフローチャートである。また、図4
は、図1中の文字サイズ判定手段33のフローチャート
である。
Next, the operation of the form identification character string collation system of FIG. 1 will be described with reference to the flowcharts of FIGS. FIG. 2 is a flowchart showing the overall operation of the form identification character string collation method of FIG. FIG. 3 is a flowchart of the blank determining unit 32 in FIG. FIG.
3 is a flowchart of the character size determination means 33 in FIG.

【0018】先ず、画像入力装置1により帳票のイメー
ジを多階調の2次元の画像として読込み、画像記憶部2
1に格納する(図2中のステップS1)。次に、データ
処理装置3は、辞書記憶部22に記憶されている帳票種
のうちの1つを選択する(図2中のステップS2)。更
に、データ処理装置3は、選択した帳票種に対応する文
字列中の文字を先頭から1つ選択する(図2中のステッ
プS3)。次に、文字画像切出し手段31は、文字位置
情報22aに基づき、画像記憶部21に格納された帳票
画像からステップS3で選択した文字が記載されている
べき位置の図5に示す如き部分画像MJIを切出す(図2
のステップS4)。次に、空白判定手段32は、ステッ
プS4で切出された画像MJI内に文字等の図形が含まれて
いるか否か判断する(図2のステップS5)。
First, an image of a form is read as a two-dimensional image of multi-gradation by the image input device 1, and the image is stored in the image storage unit 2.
1 (step S1 in FIG. 2). Next, the data processing device 3 selects one of the form types stored in the dictionary storage unit 22 (Step S2 in FIG. 2). Further, the data processing device 3 selects one character from the beginning of the character string corresponding to the selected form type (step S3 in FIG. 2). Next, based on the character position information 22a, the character image cutout means 31 extracts the partial image MJI as shown in FIG. 5 at the position where the character selected in step S3 should be described from the form image stored in the image storage unit 21. (Figure 2)
Step S4). Next, the blank determining means 32 determines whether or not a graphic such as a character is included in the image MJI cut out in step S4 (step S5 in FIG. 2).

【0019】次に、空白判定手段32の動作を図3のフ
ローチャートを参照して説明する。先ず、画像MJIを二
値化する為のしきい値(スレッシュホールド)Tを求め
る(図3のステップS51)。この二値化しきい値Tは、
1980年、電子通信学会論文誌Vol.J63−D、No.
4、pp349〜356で大津が提案した判別分析法によ
り求めてもよい。大津の方法は、文字と背景という2つ
のカテゴリーを含む画像において、各カテゴリー内の分
散を最小にし且つカテゴリー間の分散を最大にするよう
にしきい値を選定する技法である。次に、例えば図6に
示す如く、ステップS51で得られた二値化しきい値T未
満の画素値の平均値m1と、二値化しきい値T以上の画素
値の平均値m2を求める(図3のステップS52)。その
後、評価値Es=|m1−m2|を算出する(図3のステッ
プ53)。ここで、評価値Esの大きさは、部分画像MJI
内の画素値を二値化しきい値Tで2分割したときの分割
の程度を表すものである。評価値Esが大きいことは、画
像MJIには文字等の図形部と背景部とが存在しているこ
とを示す。
Next, the operation of the blank determining means 32 will be described with reference to the flowchart of FIG. First, a threshold value (threshold) T for binarizing the image MJI is obtained (step S51 in FIG. 3). This binarization threshold T is
1980, IEICE Transactions Vol.J63-D, No.
4, may be obtained by the discriminant analysis method proposed by Otsu in pp. 349-356. Otsu's method is a technique of selecting a threshold value in an image including two categories of characters and a background so as to minimize the variance within each category and maximize the variance between categories. Next, as shown in FIG. 6, for example, an average value m1 of the pixel values less than the binarization threshold value T obtained in step S51 and an average value m2 of the pixel values equal to or more than the binarization threshold value T are obtained (FIG. Third step S52). After that, the evaluation value Es = | m1-m2 | is calculated (step 53 in FIG. 3). Here, the magnitude of the evaluation value Es is based on the partial image MJI
Represents the degree of division when the pixel values in are divided into two by the binarization threshold value T. A large evaluation value Es indicates that the image MJI has a graphic part such as a character and a background part.

【0020】空白判定手段32は、次にステップS53
で算出した評価値Esが予め設定されている定数THより小
さいか大きいかを判定する(図3のステップS54)。
この定数THは、扱う画像の階調数により適当な値を定め
る必要がある。例えば、画像の階調数が256階調であ
る場合には、TH=20とした。ステップS54で評価値E
sが定数THより小さいと判定された場合には、部分画像M
JI内には文字等の図形は存在しないとし、空白判定フラ
グFGSPを「1」にする(図3のステップS55)。他
方、ステップS54で評価値Esが定数TH以上であると判
定されたときは、画像MJI内に文字等の図形が存在する
とし、空白判定フラグFGSPを「0」にする(図3のステ
ップS56)。最後に、空白判定手段32は、空白判定
フラグFGSPの値をデータ処理装置3に渡す。
The blank determining means 32 then proceeds to step S53
It is determined whether or not the evaluation value Es calculated in is smaller than or larger than a preset constant TH (step S54 in FIG. 3).
It is necessary to determine an appropriate value for the constant TH according to the number of gradations of the image to be handled. For example, when the number of gradations of the image is 256, TH = 20. Evaluation value E in step S54
If it is determined that s is smaller than the constant TH, the partial image M
It is assumed that no graphic such as a character exists in JI, and the blank determination flag FGSP is set to “1” (step S55 in FIG. 3). On the other hand, when it is determined in step S54 that the evaluation value Es is equal to or larger than the constant TH, it is determined that a graphic such as a character exists in the image MJI, and the blank determination flag FGSP is set to “0” (step S56 in FIG. 3). ). Finally, the blank determination unit 32 passes the value of the blank determination flag FGSP to the data processing device 3.

【0021】次に、再度図2に戻って図1の帳票識別用
文字列照合方式の実施形態例の説明を続ける。データ処
理装置3は、空白判定フラグFGSPが「1」か「0」か判
定する(図2のステップS6)。このステップS6で空白
判定フラグFGSPが「1」と判定された場合には、ステッ
プS12の処理へ進む。他方、ステップS6で空白判定フ
ラグFGSPが「0」と判定されたときは、ステップS7の
処理に進む。そして、文字サイズ判定手段33が、ステ
ップS3で選択した文字に外接する矩形RCDの大きさと、
画像MJI内に含まれている図形に外接する矩形RCIの大き
さが一致か否か判定する(図2のステップS7)。
Next, returning to FIG. 2, the description of the embodiment of the form identification character string collation method of FIG. 1 will be continued. The data processing device 3 determines whether the blank determination flag FGSP is “1” or “0” (Step S6 in FIG. 2). If the blank determination flag FGSP is determined to be "1" in step S6, the process proceeds to step S12. On the other hand, when the blank determination flag FGSP is determined to be "0" in step S6, the process proceeds to step S7. Then, the character size determination means 33 determines the size of the rectangle RCD circumscribing the character selected in step S3,
It is determined whether or not the size of the rectangle RCI circumscribing the figure included in the image MJI matches (step S7 in FIG. 2).

【0022】次に、図4のフローチャートを参照して文
字サイズ判定手段33の動作を説明する。先ず、図3の
ステップS51で求めた二値化しきい値Tを用いて画像MJ
Iを二値化し、二値画値MJI2を得る(図4のステップS
71)。このステップS71での二値化処理は、画像MJI
上の注目画素の画素化が二値化しきい値T以上であれば
「1」、小さければ「0」を画像MJI2の注目画素の位
置に書込むことで得られる。但し、ここでは多値画像MJ
Iにおいて画素値の高い画素が文字等の図形部、画素値
の低い画素が背景部に対応しているものとする。
Next, the operation of the character size determining means 33 will be described with reference to the flowchart of FIG. First, the image MJ is calculated using the binarization threshold value T obtained in step S51 of FIG.
I is binarized to obtain a binary image value MJI2 (step S in FIG. 4).
71). The binarization process in this step S71 is performed based on the image MJI
If the pixelization of the upper target pixel is equal to or larger than the binarization threshold T, “1” is obtained by writing “0” to the position of the target pixel of the image MJI2 if smaller. However, here the multi-valued image MJ
In I, it is assumed that a pixel having a high pixel value corresponds to a graphic portion such as a character, and a pixel having a low pixel value corresponds to a background portion.

【0023】文字サイズ判定手段33は、次に、図7
(A)に示す如く、二値画像MJI2内に存在する図形(文
字)に外接する矩形RCIの大きさ、即ち幅WIと高さHIを
検出する(図4のステップS72)。このステップS72
における図形に外接する矩形の検出は、次のように実行
する。先ず、二値画像MJI2の上端からX(横)軸方向に
画像を走査して画素値「1」が最初に現れるY(縦)軸
座標y1を検出する。次に、二値画像MJI2の下端からX
軸方向に画像を走査し、画素値「1」が最初に現れるY
軸座標y2を検出する。次に、二値画像MJI2の左端か
らY軸方向に画像を走査し、画素値「1」が最初に現れ
るX軸座標x1を検出する。また、二値画像MJI2の右端
からY軸方向に画像を走査し、画素値「1」が最初に現
れるX軸座標x2を検出する。このようにして得られた
x1、x2、y1、y2からステップS72における二
値画像MJI2内の図形に外接する矩形の幅WI=x2−x
1+1及びHI=y2−y1+1を得る。
The character size judging means 33 then proceeds to FIG.
As shown in (A), the size of the rectangle RCI circumscribing a figure (character) existing in the binary image MJI2, that is, the width WI and the height HI are detected (step S72 in FIG. 4). This step S72
The detection of the rectangle circumscribing the figure in is performed as follows. First, the image is scanned in the X (horizontal) axis direction from the upper end of the binary image MJI2, and the Y (vertical) axis coordinate y1 at which the pixel value “1” first appears is detected. Next, X from the lower end of the binary image MJI2
The image is scanned in the axial direction, and the pixel value “1” appears first in Y
The axis coordinate y2 is detected. Next, the image is scanned in the Y-axis direction from the left end of the binary image MJI2, and the X-axis coordinate x1 where the pixel value “1” first appears is detected. Further, the image is scanned in the Y-axis direction from the right end of the binary image MJI2, and the X-axis coordinate x2 where the pixel value “1” first appears is detected. The width WI = x2-x of the rectangle circumscribing the figure in the binary image MJI2 in step S72 from the obtained x1, x2, y1, and y2.
1 + 1 and HI = y2-y1 + 1 are obtained.

【0024】次に、文字サイズ判定手段33は、上述し
たステップS3で選択した文字に外接する矩形RCDの大き
さ、即ち幅WD及び高さHDと、二値画像MJI2内の図形に
外接する矩形RCIの大きさ、即ち幅WI及び高さHIを用い
て、下記の式を満足するか否か評価する(図4のステッ
プS73)。 |WD―WI|<WD/4 且つ |HD−HI|<HD/4 (1) ステップS73で上式を満足しない場合は、ステップS
3で選択した文字に外接する矩形RCDの大きさと画像MJI
内に含まれている図形に外接する矩形の大きさが一致し
ていないと判定し、文字サイズ判定フラグFGSZに「1」
を代入する(図4のステップS74)。ステップS73で
上式を満足した場合には、ステップS3で選択した文字
に外接する矩形RCDの大きさと画像MJI内に含まれている
図形の大きさは一致していると判断し、文字サイズフラ
グFGSZに「0」を代入する(図4のステップS75)。
最後に、文字サイズ判定手段33は、文字サイズ判定フ
ラグFGSZの値をデータ処理装置3に渡す。
Next, the character size determining means 33 determines the size of the rectangle RCD circumscribing the character selected in step S3, that is, the width WD and the height HD, and the rectangle circumscribing the figure in the binary image MJI2. Using the size of the RCI, that is, the width WI and the height HI, it is evaluated whether the following expression is satisfied (step S73 in FIG. 4). | WD-WI | <WD / 4 and | HD-HI | <HD / 4 (1) If the above expression is not satisfied in step S73, step S
Size and image MJI of rectangle RCD circumscribing the character selected in step 3
It is determined that the sizes of the rectangles circumscribing the figure included in the box do not match, and the character size determination flag FGSZ is set to “1”.
Is substituted (step S74 in FIG. 4). If the above expression is satisfied in step S73, it is determined that the size of the rectangle RCD circumscribing the character selected in step S3 and the size of the figure included in the image MJI match, and the character size flag is set. "0" is substituted for FGSZ (step S75 in FIG. 4).
Finally, the character size determination unit 33 passes the value of the character size determination flag FGSZ to the data processing device 3.

【0025】データ処理装置3は、文字サイズ判定フラ
グFGSZの値が「1」か「0」かを判定する(図2のステ
ップS8)。このステップS8で、文字サイズ判定フラグ
FGSZの値が「1」と判定されたときは、ステップS12
の処理に進む。他方、ステップS8で、文字サイズ判定
フラグFGSZの値が「0」と判定されたときは、ステップ
S91の処理に進む。
The data processing device 3 determines whether the value of the character size determination flag FGSZ is "1" or "0" (step S8 in FIG. 2). In this step S8, the character size determination flag
If the value of FGSZ is determined to be “1”, step S12
Proceed to processing. On the other hand, if the value of the character size determination flag FGSZ is determined to be “0” in step S8,
The process proceeds to S91.

【0026】文字照合手段34は、ステップS4で切出
された部分画像MJI内の文字を外接矩形RCIに従って切出
し、切出された文字から特徴量を抽出する(図2のステ
ップS91)。この特徴量は、辞書記憶部22の文字特
徴情報22bを作成するときと同じ特徴量を用いる。次
に、文字照合手段34は、抽出した文字の特徴量を辞書
記憶部22の文字特徴情報22bに記憶されている文字
の照合用特徴量と次式に従って照合し、単純類似度S
(i)を求める(図2のステップS92)。 Si=(a・b)/(|a|×|b|) 但し、(a・b)はベクトルaとベクトルbの内積、|a|
はベクトルaのノルムを示す。
The character collating means 34 cuts out the characters in the partial image MJI cut out in step S4 according to the circumscribed rectangle RCI, and extracts a characteristic amount from the cut out characters (step S91 in FIG. 2). As the feature amount, the same feature amount as when the character feature information 22b of the dictionary storage unit 22 is created is used. Next, the character matching unit 34 matches the extracted character feature amount with the character matching feature amount stored in the character feature information 22b of the dictionary storage unit 22 according to the following equation, and obtains the simple similarity S
(I) is obtained (step S92 in FIG. 2). Si = (a · b) / (| a | × | b |) where (a · b) is the inner product of vector a and vector b, | a |
Denotes the norm of the vector a.

【0027】データ処理装置3は、ステップS2で選択
した帳票種に対応する文字列中の全ての文字に対して照
合を行ったかどうかを判断する(図2のステップ1
0)。その結果、全ての文字の照合処理が終了していな
ければ、次の照合対象となる文字を選択し(ステップS
3)、ステップS4乃至S10の処理を繰り返し実行す
る。全ての文字の照合処理が終了していれば、S(i)の
平均値を求め、ステップS2で選択した帳票種に対応す
る文字列の類似度とする(図2のステップS11)。
The data processing device 3 determines whether or not all characters in the character string corresponding to the form type selected in step S2 have been collated (step 1 in FIG. 2).
0). As a result, if the collation processing of all the characters has not been completed, the next character to be collated is selected (step S
3), the processes of steps S4 to S10 are repeatedly executed. If the collation processing of all characters has been completed, the average value of S (i) is obtained, and the average value is determined as the similarity of the character string corresponding to the form type selected in step S2 (step S11 in FIG. 2).

【0028】データ処理装置3は、ステップS6又はS8
において、空白判定フラグFGSP又は文字サイズ判定フラ
グFGSZの値が「1」と判定された場合には、ステップS
2で選択した帳票種に対応する文字列の類似度を「0」
にする(図2のステップS12)。次に、データ処理装
置3は、全ての帳票種がステップS2で選択されたか否
か判定する(ステップS13)。その結果、未選択の帳
票種がある(No)場合には、ステップS2で次の照合対
象となる帳票種を選択し、ステップS3乃至S13の処理
を実行する。他方、全ての帳票種が選択された(Yes)
場合には、最大の類似度を持つ文字列に対応する帳票種
を識別する帳票IDを、入力帳票種として出力する(ステ
ップS14)。
The data processing device 3 executes step S6 or S8
If the value of the blank determination flag FGSP or the character size determination flag FGSZ is determined to be “1” in step
The similarity of the character string corresponding to the form type selected in step 2 is "0"
(Step S12 in FIG. 2). Next, the data processing device 3 determines whether all the form types have been selected in step S2 (step S13). As a result, if there is an unselected form type (No), the next form type to be collated is selected in step S2, and the processing in steps S3 to S13 is executed. On the other hand, all report types were selected (Yes)
In this case, the form ID for identifying the form type corresponding to the character string having the highest similarity is output as the input form type (step S14).

【0029】次に、本発明の好適実施形態例を具体例に
基づいて動作説明する。図8に示す帳票が入力されたと
する。先ず、画像入力装置1は、帳票の画像を2次元の
多値画像として取込み、記憶装置2の画像記憶部21に
格納する(ステップS1)。次いで、データ処理装置3
は、辞書記憶部22に記憶されている図9の如き種類の
異なる帳票種の1つを選択する(ステップS2)。例え
ば、この選択した帳票種に対応する文字列として「税帳
票」が登録されているとする。次に、データ処理装置3
は、この選択した帳票種に対応する文字列「税帳票」中
の1文字、ここでは先頭の文字である「税」を選択する
(ステップS3)。
Next, the operation of the preferred embodiment of the present invention will be described based on a specific example. It is assumed that the form shown in FIG. 8 has been input. First, the image input device 1 captures a form image as a two-dimensional multivalued image and stores it in the image storage unit 21 of the storage device 2 (step S1). Next, the data processing device 3
Selects one of the different types of forms as shown in FIG. 9 stored in the dictionary storage unit 22 (step S2). For example, it is assumed that “tax report” is registered as a character string corresponding to the selected report type. Next, the data processing device 3
Selects one character in the character string "tax form" corresponding to the selected form type, here, "tax" which is the first character (step S3).

【0030】そこで、文字画像切出し手段31は、辞書
記憶部に格納された「税」の文字位置情報22aを用い
て、画像記憶部21に格納された入力帳票画像上から、
「税」が記載されているべき位置、大きさの図5の如き
部分画像MJIを切出す(ステップS4)。この切出された
部分画像MJI内に文字等の図形が含まれているか否か判
定する為に空白判定手段32の処理に移る(ステップS
5)。空白判定手段32は、先ず部分画像MJIを二値化
する為の二値化しきい値Tを判別分析法等により求める
(ステップS51)。次に、この二値化しきい値T未満の
画素値の平均値m1と、それ以上の画素値の平均値m2を
求め(ステップS52)、空白判定評価値Esを算出する
(ステップS53)。ここでは、空白判定評価値Esが定
数TH以上であった、即ち部分画像MJI内に図形が含まれ
ていたとすると、空白判定手段32は、空白判定フラグ
FGSPに「0」を代入する(ステップS56)。
Therefore, the character image extracting means 31 uses the character position information 22a of "tax" stored in the dictionary storage unit to extract the input form image stored in the image storage unit 21 from the input form image.
A partial image MJI as shown in FIG. 5 having the position and size where "tax" should be described is cut out (step S4). In order to determine whether or not the cut-out partial image MJI includes a graphic such as a character, the process proceeds to the process of the blank determining means 32 (step S).
5). The blank determining means 32 first obtains a binarization threshold T for binarizing the partial image MJI by a discriminant analysis method or the like (step S51). Next, the average value m1 of the pixel values less than the binarization threshold value T and the average value m2 of the pixel values higher than the threshold value T are obtained (step S52), and the blank judgment evaluation value Es is calculated (step S53). Here, assuming that the blank judgment evaluation value Es is equal to or larger than the constant TH, that is, if a figure is included in the partial image MJI, the blank judgment unit 32
"0" is substituted for FGSP (step S56).

【0031】次に、データ処理装置3は、空白判定フラ
グFGSPの値が「1」か「0」かを判定する(ステップS
6)。空白判定フラグFGSPの値は「0」となっているの
で、ステップS7の処理に進む。そこで、文字サイズ判
定手段33は、ステップS3で選択した「税」という文
字に外接する矩形RCDの大きさと部分画像MJI内に含まれ
ている図形に外接する矩形RCIの大きさが一致している
か否か判定する(ステップS7)。文字サイズ判定手段
33は、先ず空白判定手段32で求めた二値化しきい値
Tで部分画像MJIを二値化し、二値画像MJI2を得る(ス
テップS71)。次に、二値画像MJI2内に含まれる図形
に外接する矩形RCIの幅WIと高さHIを検出する(ステッ
プS72)。次に、外接矩形RCIの大きさと辞書記憶部2
2内の文字位置情報22aに格納されている「税」の外
接矩形RCDの大きさが一致するか否かを上述した数式に
て判定する(ステップS73)。この条件が成立(満
足)すると、両外接矩形の大きさが一致したとする。文
字サイズ判定手段33は、文字サイズ判定フラグFGSZに
「0」を代入する(ステップS75)。
Next, the data processing device 3 determines whether the value of the blank determination flag FGSP is "1" or "0" (step S).
6). Since the value of the blank determination flag FGSP is “0”, the process proceeds to step S7. Therefore, the character size determination unit 33 determines whether the size of the rectangle RCD circumscribing the character "tax" selected in step S3 and the size of the rectangle RCI circumscribing the figure included in the partial image MJI match. It is determined whether or not it is (step S7). The character size judging unit 33 first calculates the binarized threshold value obtained by the blank judging unit 32.
The partial image MJI is binarized by T to obtain a binary image MJI2 (step S71). Next, the width WI and the height HI of the rectangle RCI circumscribing the figure included in the binary image MJI2 are detected (step S72). Next, the size of the circumscribed rectangle RCI and the dictionary storage unit 2
Whether or not the size of the circumscribed rectangle RCD of “tax” stored in the character position information 22a in 2 is the same is determined by the above formula (step S73). When this condition is satisfied (satisfied), it is assumed that the sizes of both circumscribed rectangles match. The character size determination unit 33 substitutes “0” for the character size determination flag FGSZ (step S75).

【0032】次に、データ処理装置3は、文字サイズ判
定フラグFGSZの値が「1」か「0」かを判定する(ステ
ップS8)。文字サイズ判定フラグFGSZの値は「0」と
なっているので、ステップS91に処理を進める。文字
照合手段34は、ステップS4で切出された部分画像MJI
内の図形をステップS72で求めた外接矩形RCIに従って
切出し、切出した文字から特徴量を抽出する(ステップ
S91)。次に、文字照合手段34は、抽出した文字特
徴量を、辞書記憶部22の文字特徴情報22bに記憶さ
れている文字の照合用特徴量と上述の式に従って照合し
て「税」という文字に対する単純類似度S(i)を求める
(ステップS92)。
Next, the data processing device 3 determines whether the value of the character size determination flag FGSZ is "1" or "0" (step S8). Since the value of the character size determination flag FGSZ is “0”, the process proceeds to step S91. The character matching unit 34 determines whether the partial image MJI
Are extracted in accordance with the circumscribed rectangle RCI obtained in step S72, and a feature amount is extracted from the extracted characters (step S72).
S91). Next, the character matching unit 34 compares the extracted character feature amount with the matching feature amount of the character stored in the character feature information 22b of the dictionary storage unit 22 according to the above-described formula, and compares the extracted character feature amount with the character “tax”. The simple similarity S (i) is obtained (step S92).

【0033】そこで、データ処理装置3は、ステップS
2で選択した帳票種に対応する文字列「税帳票」中の文
字が全て照合されたか否か判断する(ステップS1
0)。ここでは、まだ「帳」と「票」が参照されていな
いので、ステップS3に戻り、文字「帳」を選択する。
以下、この「帳」に対して「税」について上述したと同
様の処理をステップS5まで行う。ここでは、空白判定
手段32で、「帳」が記載されているべき位置の部分画
像MJI内に図形が含まれていると判断されたとする。す
ると、データ処理装置3は、処理を文字サイズ判定手段
33に移す(ステップS7)。文字サイズ判定手段33
において、外接矩形RCIの大きさと、辞書記憶部22内
の文字位置情報22aに格納されている「帳」の外接矩
形RCDの大きさが一致しないと判定されたとする。する
と、データ処理装置3は、ステップS8で文字サイズ判
定フラグFGSZの値を判断した結果、FGSZの値が「1」で
ある為に、処理をステップS12に移し、ステップS2で
選択した帳票種に対応する文字列「税帳票」の類似度を
「0」にする。
Therefore, the data processing device 3 executes step S
It is determined whether all the characters in the character string “tax form” corresponding to the form type selected in step 2 have been collated (step S1).
0). Here, since "book" and "vote" have not been referred to yet, the process returns to step S3 and selects the character "book".
Thereafter, the same processing as described above for "tax" is performed on this "book" up to step S5. Here, it is assumed that the blank determination unit 32 determines that a graphic is included in the partial image MJI at the position where “book” should be described. Then, the data processing device 3 shifts the processing to the character size determining means 33 (step S7). Character size determination means 33
It is assumed that it is determined that the size of the circumscribed rectangle RCI does not match the size of the circumscribed rectangle RCD of “book” stored in the character position information 22 a in the dictionary storage unit 22. Then, as a result of determining the value of the character size determination flag FGSZ in step S8, the data processing device 3 shifts the processing to step S12 because the value of FGSZ is “1”, and the data processing device 3 determines the form type selected in step S2. The similarity of the corresponding character string “tax report” is set to “0”.

【0034】次に、データ処理装置3は、ステップS1
3で全ての帳票種が選択されたか否か判定する。ここで
は、ステップS2で未選択の帳票種が辞書記憶部22に
存在しているとし、再びステップS2に戻り、次の帳票
種を選択する。データ処理装置3は、ステップS2で選
択した帳票種に対応する文字列「納付書」の先頭文字
「納」を選択する(ステップS3)。この「納」に対し
て、この文字が記載されているべき位置の部分画像MJI
を入力帳票画像から切出す(ステップS4)。そこで、
空白判定手段32は、部分画像MJI内に図形が含まれて
いるか否か判定する(ステップS5)。ここでは、ステ
ップS53で算出された空白判定評価値Esが定数TH未満
であったので、部分画像MJI内に図形は含まれていない
と判定されたとする。すると、データ処理装置3は、ス
テップS6で空白判定フラグFGSP値を判断した結果、FG
SPの値が「1」である為、処理をステップS12に移
し、ステップS2で選択した帳票種に対応する文字列
「納付書」の類似度を「0」にする。
Next, the data processing device 3 executes step S1.
In step 3, it is determined whether all the form types have been selected. Here, it is assumed that an unselected form type exists in the dictionary storage unit 22 in step S2, and the process returns to step S2 again to select the next form type. The data processing device 3 selects the first character “pay” of the character string “payment note” corresponding to the form type selected in step S2 (step S3). Partial image MJI at the position where this character should be described
Is cut out from the input form image (step S4). Therefore,
The blank determining unit 32 determines whether a graphic is included in the partial image MJI (step S5). Here, it is assumed that since the blank judgment evaluation value Es calculated in step S53 is less than the constant TH, it is determined that no graphic is included in the partial image MJI. Then, the data processing device 3 determines the value of the blank determination flag FGSP in step S6,
Since the value of SP is “1”, the process proceeds to step S12, and the similarity of the character string “payment note” corresponding to the form type selected in step S2 is set to “0”.

【0035】次に、データ処理装置3は、ステップS1
3で全ての帳票種が選択されたか否か判定する。ここで
は、ステップS2で未選択の帳票種が辞書記憶部22に
存在しているとし、再びステップS2に戻り、次の帳票
種を選択する。データ処理装置3は、ステップS2で選
択した帳票種に対応する文字列「通知書」を構成する文
字「通」、「知」及び「書」の各々に対してステップS
3乃至S10を実行する。ここでは、「通」、「知」及
び「書」の各文字の全てについて、ステップS6の分岐
及びS8の分岐からステップS12の処理に移行しなかっ
たとする。すると、「通」、「知」及び「書」の各文字
に対してステップS92で文字毎の類似度Sが決まり、こ
れら3つの類似度の平均値を文字列「通知書」の類似度
とする。以後、データ処理装置3は、辞書記憶部22a
に格納された全ての帳票種が選択されたことがステップ
S13において確認されるまで、ステップS2乃至S13
の処理を繰り返す。
Next, the data processing device 3 executes step S1.
In step 3, it is determined whether all the form types have been selected. Here, it is assumed that an unselected form type exists in the dictionary storage unit 22 in step S2, and the process returns to step S2 again to select the next form type. The data processing device 3 executes the step S2 for each of the characters "tsu", "knowledge" and "letter" constituting the character string "notification" corresponding to the form type selected in step S2.
Steps 3 to S10 are executed. Here, it is assumed that the processing in step S12 has not been performed from the branch in step S6 and the branch in S8 for all of the characters "", "", and "". Then, in step S92, the similarity S of each character is determined for each of the characters "", "", and "", and the average value of these three similarities is calculated as the similarity of the character string "notification letter". I do. Thereafter, the data processing device 3 sets the dictionary storage unit 22a
Step that all form types stored in
Until it is confirmed in S13, steps S2 to S13
Is repeated.

【0036】ステップS13で全ての帳票種が選択され
たことが確認されると、辞書記憶部22aに格納された
全ての帳票種のうち、最も類似度Sの大きい文字列に対
応する帳票種を示す帳票IDを入力帳票の帳票種として出
力し、処理を終了する(ステップS14)。ここでは、
文字列「通知書」の類似度が最も大きかったとすると、
データ処理装置3は、文字列「通知書」に対応する帳票
種の帳票IDを出力する。
When it is confirmed in step S13 that all the form types have been selected, the form type corresponding to the character string having the highest similarity S among all the form types stored in the dictionary storage unit 22a is determined. The form ID shown is output as the form type of the input form, and the process is terminated (step S14). here,
If the similarity of the string "notice letter" was the highest,
The data processing device 3 outputs a form ID of a form type corresponding to the character string “notification letter”.

【0037】[0037]

【発明の効果】上述の説明から明らかな如く、本発明に
よると、入力帳票上の照合しようとしている文字列を構
成する文字が記載されているべき位置に何も記載されて
いない場合、又はその位置に記載されている図形の大き
さが照合しようとしている文字の大きさと異なる場合に
は、その文字列の照合処理を直ちに中止し、次の文字列
の照合処理に移る。その為に、全ての文字列に対して照
合する間に実行される文字照合処理(ステップS3乃至S
92)の実施回数が減少し、帳票識別に要する時間が短
縮できる。また、上述のような文字列に対応する帳票種
が入力帳票の帳票種の候補となることを防ぐことができ
る。
As is clear from the above description, according to the present invention, if no character is described at the position where the character constituting the character string to be collated on the input form should be described, If the size of the graphic described in the position is different from the size of the character to be collated, the collation processing of the character string is immediately stopped, and the processing proceeds to the collation processing of the next character string. For this reason, the character collation process (steps S3 to S3) executed during collation for all character strings
92), the time required for form identification can be shortened. Further, it is possible to prevent the form type corresponding to the above-described character string from being a candidate for the form type of the input form.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明による帳票識別用文字列照合方式の好適
実施形態例の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a preferred embodiment of a form identification character string collating method according to the present invention.

【図2】図1の帳票識別用文字列照合方式の動作を説明
するフローチャートである。
FIG. 2 is a flowchart for explaining the operation of the form identification character string collation method of FIG. 1;

【図3】図1中の空白判定手段の空白判定手順を示すフ
ローチャートである。
FIG. 3 is a flowchart showing a blank determination procedure of a blank determination unit in FIG. 1;

【図4】図1中の文字サイズ判定手段の文字サイズ判定
手順を示すフローチャートである。
FIG. 4 is a flowchart showing a character size determination procedure of a character size determination unit in FIG. 1;

【図5】部分画像MJIの一例を示す図である。FIG. 5 is a diagram illustrating an example of a partial image MJI.

【図6】図1中の空白判定手段の空白判定手順で用いる
濃度ヒストグラムである。
FIG. 6 is a density histogram used in a blank determination procedure of a blank determination unit in FIG. 1;

【図7】図4の文字サイズ判定手順で用いる(A)図形
外接矩形RCIと、(B)文字外接矩形RCDを示す。
FIG. 7 shows (A) a figure circumscribed rectangle RCI and (B) a character circumscribed rectangle RCD used in the character size determination procedure of FIG.

【図8】帳票の一例を示す。FIG. 8 shows an example of a form.

【図9】図1中の辞書記憶部に記憶されている種類の異
なる帳票種の例を示す。
FIG. 9 shows examples of different types of forms stored in the dictionary storage unit in FIG. 1;

【符号の説明】[Explanation of symbols]

1 画像入力装置 2 記憶装置 3 データ処理装置 21 画像記憶部 22 辞書記憶部 31 文字画像切出し手段 32 空白判定手段 33 文字サイズ判定手段 34 文字照合手段 REFERENCE SIGNS LIST 1 image input device 2 storage device 3 data processing device 21 image storage unit 22 dictionary storage unit 31 character image cutout unit 32 space determination unit 33 character size determination unit 34 character collation unit

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】帳票の所定位置に前記帳票の識別の為に記
載されている文字列を照合する帳票識別用文字列照合方
式において、 前記帳票の所定位置を切出した部分画像内に文字が含ま
れているか否か空白判定手段で判定し、 前記部分画像内の文字の外接矩形を検出し辞書記憶手段
に記憶している外接矩形とを文字サイズ判定手段で比較
して一致判定することより成ることを特徴とする帳票識
別用文字列照合方式。
1. A form identification character string collating method for collating a character string described for identifying the form at a predetermined position of the form, wherein a character is included in a partial image obtained by cutting out a predetermined position of the form. The circumscribed rectangle of the character in the partial image is detected, and the circumscribed rectangle stored in the dictionary storage unit is compared with the circumscribed rectangle stored in the dictionary storage unit to judge whether or not there is a match. A character string collating method for form identification characterized by the following.
【請求項2】前記判定は、前記文字列の各文字毎に個別
に行うことを特徴とする請求項1に記載の帳票識別用文
字列照合方式。
2. The form identification character string collating method according to claim 1, wherein said determination is made individually for each character of said character string.
【請求項3】前記判定の結果、不一致の場合には当該照
合作業を直ちに中止して、次の照合に移ることを特徴と
する請求項1又は2に記載の帳票識別用文字列照合方
式。
3. The form identification character string collating method according to claim 1, wherein if the result of the determination is a mismatch, the collating operation is immediately stopped and the next collation is performed.
【請求項4】前記空白判定手段は、前記切出された部分
画像を予め設定したしきい値に基づき二値化することに
より行うことを特徴とする請求項1に記載の帳票識別用
文字列照合方式。
4. The form identification character string according to claim 1, wherein the blank determining means performs the binarization of the cut-out partial image based on a preset threshold value. Matching method.
【請求項5】帳票のイメージを取込む画像入力装置と、 前記取込まれた画像を記憶する画像記憶部及び文字位置
情報や文字特徴情報を記憶する辞書記憶部を有する記憶
装置と、 前記取込まれた画像から文字画像を切出す文字画像切出
し手段、空白判定を行う空白判定手段、文字の大きさを
判定する文字サイズ判定手段及び前記記憶装置の情報に
基づき文字の照合を行う文字照合手段を含むデータ処理
装置とを備えることを特徴とする帳票識別用文字列照合
方式。
5. An image input device for capturing an image of a form, a storage device having an image storage unit for storing the captured image, and a dictionary storage unit for storing character position information and character characteristic information. Character image cutout means for cutting out a character image from an embedded image, blank space determination means for performing space determination, character size determination means for determining character size, and character collation means for collating characters based on information in the storage device And a data processing device including a character string collating method for form identification.
JP11235027A 1999-08-23 1999-08-23 Character string collation system for document identification Pending JP2001060249A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11235027A JP2001060249A (en) 1999-08-23 1999-08-23 Character string collation system for document identification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11235027A JP2001060249A (en) 1999-08-23 1999-08-23 Character string collation system for document identification

Publications (1)

Publication Number Publication Date
JP2001060249A true JP2001060249A (en) 2001-03-06

Family

ID=16980005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11235027A Pending JP2001060249A (en) 1999-08-23 1999-08-23 Character string collation system for document identification

Country Status (1)

Country Link
JP (1) JP2001060249A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010120305A (en) * 2008-11-20 2010-06-03 Ricoh Co Ltd Image processor, image processing method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010120305A (en) * 2008-11-20 2010-06-03 Ricoh Co Ltd Image processor, image processing method, and program

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US7120318B2 (en) Automatic document reading system for technical drawings
US6970601B1 (en) Form search apparatus and method
US6335986B1 (en) Pattern recognizing apparatus and method
US6226402B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US5995659A (en) Method of searching and extracting text information from drawings
US7970213B1 (en) Method and system for improving the recognition of text in an image
JP3485020B2 (en) Character recognition method and apparatus, and storage medium
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JPH08305796A (en) Pattern extracting device, table preparing device for pattern recognition and pattern recognition device
US7149352B2 (en) Image processing device, program product and system
JP4810853B2 (en) Character image cutting device, character image cutting method and program
JP2001060249A (en) Character string collation system for document identification
JP3090070B2 (en) Form identification method and device
JP3276555B2 (en) Format recognition device and character reader
JPH10232926A (en) Image processor and its method
JPH10222587A (en) Method and device for automatically discriminating slip or the like
CN115131806B (en) Method and system for identifying OCR (optical character recognition) image information of various certificates based on deep learning
JP4867894B2 (en) Image recognition apparatus, image recognition method, and program
JP2001291058A (en) Character recognizing device and recording medium
JPS5949671A (en) Optical character reader
JP2008015702A (en) Business form processor
JP2002366900A (en) Optical character reader
JP4580520B2 (en) Character recognition method and character recognition apparatus
JP2003123023A (en) Character recognition method, character recognition device, character recognition program and recording medium having the program recorded thereon