JPH024035B2 - - Google Patents

Info

Publication number
JPH024035B2
JPH024035B2 JP57163765A JP16376582A JPH024035B2 JP H024035 B2 JPH024035 B2 JP H024035B2 JP 57163765 A JP57163765 A JP 57163765A JP 16376582 A JP16376582 A JP 16376582A JP H024035 B2 JPH024035 B2 JP H024035B2
Authority
JP
Japan
Prior art keywords
category
section
field
recognition
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57163765A
Other languages
Japanese (ja)
Other versions
JPS5953984A (en
Inventor
Juji Kawakita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57163765A priority Critical patent/JPS5953984A/en
Publication of JPS5953984A publication Critical patent/JPS5953984A/en
Publication of JPH024035B2 publication Critical patent/JPH024035B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、文字認識装置の後処理に係り、フイ
ールド単位でカテゴリを定義してそのカテゴリに
属する単語群を登録し、フイールド単位で認識し
た複数の候補文字の中からそのフイールド単位に
定義されたカテゴリに属する単語群に基づいて認
識結果を決定するようになつた文字認識装置に関
するものである。
[Detailed Description of the Invention] [Technical Field of the Invention] The present invention relates to post-processing of a character recognition device. The present invention relates to a character recognition device that determines a recognition result based on a group of words belonging to a category defined for each field from among candidate characters.

〔従来技術と問題点〕[Conventional technology and problems]

文字認識装置には、帳票上の情報を光学的に走
査して画像情報を得、その画像情報からフイール
ド単位で複数の候補文字を認識し、フイールド単
位で認識した複数の候補文字の中から認識結果を
決定するものがある。このような認識結果の決定
を行う文字認識装置の後処理において、従来は、
フイールド単位に、文字単位のカテゴリ、例えば
英字、数字、カナなどのようなものを指定し、そ
のカテゴリ内で認識結果の決定を行つていた。し
かし、漢字、ひらがな等、その認識対象が広くな
つてくると、文字単位のカテゴリでは認識結果を
決定し得ない場合が多くなつてくる。
The character recognition device optically scans the information on the form to obtain image information, recognizes multiple candidate characters in each field from the image information, and recognizes from among the multiple candidate characters recognized in each field. There is something that determines the outcome. Conventionally, in the post-processing of character recognition devices that determine such recognition results,
For each field, a character category, such as alphabets, numbers, kana, etc., was specified, and recognition results were determined within that category. However, as the recognition targets become wider, such as kanji and hiragana, there are many cases where recognition results cannot be determined based on character-by-character categories.

〔発明の目的〕[Purpose of the invention]

本発明は、上記の問題を解決するものであつ
て、認識対象が広くなつても認識結果の決定がよ
り正確に行い得る文字認識装置を提供することを
目的とするものである。
The present invention solves the above-mentioned problems, and aims to provide a character recognition device that can more accurately determine recognition results even when the recognition target becomes wider.

〔発明の構成〕[Structure of the invention]

そのために本発明の文字認識装置は、帳票上の
情報を光学的に走査して読取り画像情報を得る光
学走査部、画像情報を2値化された内容で記憶す
る画像記憶部、帳票上のフイールドの位置や文字
数などフイールド単位のフオーマツト情報を有す
るフオーマツト情報部、上記画像記憶部に記憶さ
れた内容をフオーマツト情報に従つてフイールド
単位で読出して複数の候補文字を選択する認識
部、該認識部において選択された候補文字の中か
ら1組の単語を認識結果として決定する認識結果
決定部、及び認識結果として決定された単語を出
力する出力部を備えた文字認識装置において、上
記フオーマツト情報部は、フイールド単位に氏名
や住所、職業、品名などのカテゴリを指定する情
報を有し、上記認識結果決定部の中に、上記カテ
ゴリ毎に夫々に属する複数の単語が登録されるカ
テゴリ記憶手段、フイールド単位に上記フオーマ
ツト情報部により指定されるカテゴリに属する単
語群を上記カテゴリ記憶手段から選択するカテゴ
リ選択手段、上記認識部により選択された複数の
候補文字の中から上記カテゴリ選択手段により選
択された単語群を検索して1組の単語を選択結果
として決定する検索決定手段を備えたことを特徴
とするものである。
To this end, the character recognition device of the present invention has an optical scanning unit that optically scans information on a form to obtain image information, an image storage unit that stores the image information as binary content, and a field on the form. a format information section having format information for each field such as the position and number of characters; a recognition section that reads out the contents stored in the image storage section for each field according to the format information and selects a plurality of candidate characters; In a character recognition device comprising a recognition result determining unit that determines a set of words as a recognition result from among selected candidate characters, and an output unit that outputs the word determined as a recognition result, the format information unit comprises: A category storage means having information specifying a category such as name, address, occupation, product name, etc. in each field, and in which a plurality of words belonging to each of the categories are registered in the recognition result determining section, in each field. a category selection means for selecting a group of words belonging to a category specified by the format information section from the category storage means; a group of words selected by the category selection means from among the plurality of candidate characters selected by the recognition section; The present invention is characterized by comprising a search determining means for searching for a set of words and determining a set of words as a selection result.

〔発明の実施例〕[Embodiments of the invention]

以下、本発明の実施例を図面を参照しつつ説明
する。
Embodiments of the present invention will be described below with reference to the drawings.

第1図は本発明の1実施例を示すブロツク図、
第2図はフイールドとカテゴリとの関係付けを示
す図、第3図は入力文字と認識結果、候補文字及
びカテゴリの対応例を示す図である。図におい
て、1は光学走査部、2は画像記憶部、3は認識
部、4はフオーマツト情報部、5はカテゴリ選択
手段、6は検索決定手段、7はカテゴリ記憶部、
8は出力手段、9は帳票、10ないし12はフイ
ールド、13ないし15はカテゴリ、16はフオ
ーマツト情報を示す。
FIG. 1 is a block diagram showing one embodiment of the present invention;
FIG. 2 is a diagram showing the relationship between fields and categories, and FIG. 3 is a diagram showing an example of correspondence between input characters, recognition results, candidate characters, and categories. In the figure, 1 is an optical scanning section, 2 is an image storage section, 3 is a recognition section, 4 is a format information section, 5 is a category selection means, 6 is a search determination means, 7 is a category storage section,
8 is an output means, 9 is a form, 10 to 12 are fields, 13 to 15 are categories, and 16 is format information.

第1図において、光学走査部1は、帳票上の情
報を光学的に走査して読取り、画像情報を得るも
のであつて、その画像情報が画像記憶部2に送ら
れる。画像記憶部2では、光学走査部1から送ら
れてきた画像情報を2値化された内容で記憶され
る。認識部3では、フオーマツト情報部4のフオ
ーマツト情報が参照され、画像記憶部2に記憶さ
れた内容がフイールド単位で読出され、対応する
複数の候補文字が選択される。フオーマツト情報
部4には、後述するように帳票上の各フイールド
に関するフオーマツト情報及びカテゴリ指定情報
を有している。カテゴリ選択手段5では、フオー
マツト情報部4により指定されるカテゴリに属す
る単語群がカテゴリ記憶部7から選択される。カ
テゴリには、例えば氏名、住所、職業、品名など
があり、カテゴリ記憶部7には、夫々のカテゴリ
毎に属する単語群が登録されている。検索決定手
段6では、選択されたカテゴリに属する単語群を
検索し、認識部3で抽出された複数の候補文字の
中から認識結果を決定し、その認識結果が出力手
段8に送られる。
In FIG. 1, an optical scanning section 1 optically scans and reads information on a form to obtain image information, and the image information is sent to an image storage section 2. The image storage section 2 stores the image information sent from the optical scanning section 1 in binary form. The recognition section 3 refers to the format information in the format information section 4, reads out the contents stored in the image storage section 2 field by field, and selects a plurality of corresponding candidate characters. The format information section 4 has format information and category designation information regarding each field on the form, as will be described later. The category selection means 5 selects a group of words belonging to the category specified by the format information section 4 from the category storage section 7. Categories include, for example, names, addresses, occupations, product names, etc., and the category storage section 7 registers word groups belonging to each category. The search determination means 6 searches for a group of words belonging to the selected category, determines a recognition result from among the plurality of candidate characters extracted by the recognition section 3, and sends the recognition result to the output means 8.

フイールドとカテゴリとの関係を第2図を参照
しつつ説明する。第2図において、帳票9上に
は、フイールド10ないし12があつて、夫々の
フイールドがカテゴリ化可能な認識対象フイール
ドであるとする。そのカテゴリは、夫々フイール
ド10がb、フイールド11がa、フイールド1
2がCである。これらの事項に基づいて、フオー
マツト情報16としては、夫々のフイールド毎
に、例えばそのフイールドの行位置やフイールド
位置(左右の位置)、文字数、読取りモード(数
字、英字、カナ……等)その他フイールドを特徴
づける情報と、更に、そのフイールドのカテゴリ
が登録される。例えばフイールド10が、氏名の
フイールドであるとすると、カテゴリ14の中に
は、その認識対象となる氏名の単語群が登録され
る。
The relationship between fields and categories will be explained with reference to FIG. In FIG. 2, it is assumed that there are fields 10 to 12 on a form 9, and each field is a recognition target field that can be categorized. The categories are field 10 is b, field 11 is a, and field 1 is
2 is C. Based on these matters, the format information 16 includes, for each field, the line position, field position (left and right position), number of characters, reading mode (numbers, alphabets, kana, etc.), and other fields. Information characterizing the field and the category of the field are registered. For example, if the field 10 is a name field, a group of words of the name to be recognized are registered in the category 14.

次に第3図を参照しつつ、帳票9上のフイール
ド10にA0B0C0が書かれた場合について説明す
る。ここでフイールド10のカテゴリはbであ
り、カテゴリbの単語群には、A3B4C5
A0B0C0、A1B7C6、…などの単語が登録されて
いるとする。そこで、認識部3では、A0に対し
A0,A3,A2…、B0に対しB1,B0,B4,…、C0
に対しC1,C0,C6,…が類似度の高い順で認識
され、A0B1C1が認識結果とされ、フオーマツト
情報部4ではカテゴリbが指定されてカテゴリ選
択手段5によつてカテゴリbの単語群が選択され
た場合、カテゴリbの単語群を検索する。しか
し、カテゴリbの単語群には、A0B1C1なる単語
は登録されていないから、次位以降の候補文字を
も対象にして検索することによつて、A0B0C0
る認識結果を決定することができる。
Next, referring to FIG. 3, the case where A 0 B 0 C 0 is written in the field 10 on the form 9 will be explained. Here, the category of field 10 is b, and the word group of category b includes A 3 B 4 C 5 ,
It is assumed that words such as A 0 B 0 C 0 , A 1 B 7 C 6 , ... are registered. Therefore, in recognition unit 3, for A 0
A 0 , A 3 , A 2 …, B 0 and B 1 , B 0 , B 4 , …, C 0
C 1 , C 0 , C 6 , ... are recognized in order of similarity, and A 0 B 1 C 1 is recognized as the recognition result. Category b is specified in the format information section 4 and sent to the category selection means 5. Therefore, when the word group of category b is selected, the word group of category b is searched. However, since the word A 0 B 1 C 1 is not registered in the word group of category b, the word A 0 B 0 C 0 is searched for the next candidate characters. The recognition result can be determined.

以上説明したように、認識対象となるフイール
ドには、氏名、住所、職業、品名などカテゴリ化
可能なものが多々あることから、このカテゴリ毎
に集めた文字のかたまり(単語)をカテゴリ毎に
区別して記憶し、認識対象となるフイールドにそ
のカテゴリを指定する。そして、その区別して記
憶された単語を選択し、検索することにより、よ
り正確な認識結果を得ることができる。
As explained above, there are many fields to be recognized that can be categorized, such as names, addresses, occupations, and product names. The category is stored separately and specified in the field to be recognized. Then, by selecting and searching the words that have been stored separately, more accurate recognition results can be obtained.

〔発明の効果〕〔Effect of the invention〕

以上の説明から明らかなように、本発明によれ
ば、帳票上のフイールド単位に書かれる内容をカ
テゴリ化し、そのカテゴリに属する単語を予め登
録し、カテゴリ毎に選択して単語の検索を行うよ
うにしたので、より正確な認識結果を決定するこ
とができ、しかも検索する単語の範囲が限定され
るので、無駄な検索が少なくなり、検索効率が向
上し、処理速度を向上させることができる。
As is clear from the above description, according to the present invention, the content written in each field on a form is categorized, words belonging to the categories are registered in advance, and words are searched by selecting each category. As a result, more accurate recognition results can be determined, and since the range of words to be searched is limited, unnecessary searches are reduced, search efficiency is improved, and processing speed is improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の1実施例を示すブロツク図、
第2図はフイールドとカテゴリとの関係付けを示
す図、第3図は入力文字と認識結果、候補文字及
びカテゴリの対応例を示す図である。 1……光学走査部、2……画像記憶部、3……
認識部、4……フオーマツト情報部、5……カテ
ゴリ選択手段、6……検索決定手段、7……カテ
ゴリ記憶部、8……出力手段、9……帳票、10
ないし12……フイールド、13ないし15……
カテゴリ、16……フオーマツト情報。
FIG. 1 is a block diagram showing one embodiment of the present invention;
FIG. 2 is a diagram showing the relationship between fields and categories, and FIG. 3 is a diagram showing an example of correspondence between input characters, recognition results, candidate characters, and categories. 1... Optical scanning unit, 2... Image storage unit, 3...
recognition section, 4... format information section, 5... category selection means, 6... search determination means, 7... category storage section, 8... output means, 9... form, 10
or 12... field, 13 or 15...
Category, 16...Format information.

Claims (1)

【特許請求の範囲】[Claims] 1 帳票上の情報を光学的に走査して読取り画像
情報を得る光学走査部、画像情報を2値化された
内容で記憶する画像記憶部、帳票上のフイールド
の位置や文字数などフイールド単位のフオーマツ
ト情報を有するフオーマツト情報部、上記画像記
憶部に記憶された内容をフオーマツト情報に従つ
てフイールド単位で読出して複数の候補文字を選
択する認識部、該認識部において選択された候補
文字の中から1組の単語を認識結果として決定す
る認識結果決定部、及び認識結果として決定され
た単語を出力する出力部を備えた文字認識装置に
おいて、上記フオーマツト情報部は、フイールド
単位に氏名や住所、職業、品名などのカテゴリを
指定する情報を有し、上記認識結果決定部の中
に、上記カテゴリ毎に夫々に属する複数の単語が
登録されるカテゴリ記憶手段、フイールド単位に
上記フオーマツト情報部により指定されるカテゴ
リに属する単語群を上記カテゴリ記憶手段から選
択するカテゴリ選択手段、上記認識部により選択
された複数の候補文字の中から上記カテゴリ選択
手段により選択された単語群を検索して1組の単
語を選択結果として決定する検索決定手段を備え
たことを特徴とする文字認識装置。
1. Optical scanning unit that optically scans the information on the form to obtain image information; image storage unit that stores the image information as binary content; and formatting of each field, such as field position and number of characters on the form. a format information section having information; a recognition section that reads out the contents stored in the image storage section field by field according to the format information and selects a plurality of candidate characters; and a recognition section that selects a plurality of candidate characters from among the candidate characters selected by the recognition section. In a character recognition device that includes a recognition result determining unit that determines a set of words as a recognition result, and an output unit that outputs the determined word as a recognition result, the format information unit stores name, address, occupation, name, address, occupation, etc. in each field. A category storage means having information specifying a category such as product name, in which a plurality of words belonging to each category are registered in the recognition result determining section, and specified by the format information section in field units. a category selection means for selecting a group of words belonging to a category from the category storage means; a group of words selected by the category selection means from among the plurality of candidate characters selected by the recognition section; A character recognition device characterized by comprising a search determination means for determining a selection result.
JP57163765A 1982-09-20 1982-09-20 Character recognizing device Granted JPS5953984A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57163765A JPS5953984A (en) 1982-09-20 1982-09-20 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57163765A JPS5953984A (en) 1982-09-20 1982-09-20 Character recognizing device

Publications (2)

Publication Number Publication Date
JPS5953984A JPS5953984A (en) 1984-03-28
JPH024035B2 true JPH024035B2 (en) 1990-01-25

Family

ID=15780280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57163765A Granted JPS5953984A (en) 1982-09-20 1982-09-20 Character recognizing device

Country Status (1)

Country Link
JP (1) JPS5953984A (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62216074A (en) * 1986-03-18 1987-09-22 Akio Hisama Automatic reading and arranging device for visiting card
JPH0722558Y2 (en) * 1988-05-20 1995-05-24 石川島播磨重工業株式会社 Piping elbow reinforcement structure

Also Published As

Publication number Publication date
JPS5953984A (en) 1984-03-28

Similar Documents

Publication Publication Date Title
US6065003A (en) System and method for finding the closest match of a data entry
KR870011552A (en) Document registration method
JP2693914B2 (en) Search system
JPH024035B2 (en)
JPH0441388B2 (en)
JP2588261B2 (en) Address database search device by OCR
JP3315755B2 (en) Character string search device for hierarchical documents
JPS63138479A (en) Character recognizing device
JP2839515B2 (en) Character reading system
JP2530659B2 (en) Optical character reading system
JPH0438026B2 (en)
JP2996823B2 (en) Character recognition device
JP2560959B2 (en) Post-processing method for character recognition
JPH0354391B2 (en)
JPS59117673A (en) Postprocessing system of character recognizing device
JPS5949628B2 (en) optical character reader
JP2947832B2 (en) Word matching method
JPH02181269A (en) Address recognizing system
JPH02173883A (en) Address retrieval system
JPH02193281A (en) Character recognizing device
JPH09128405A (en) Method and device for retrieving document
JPS58106663A (en) Correction processing system in character recognizer
JPH0797369B2 (en) Kana-Kanji conversion device
JPH0363777B2 (en)
JPH01183795A (en) Dictionary consulting system in post-processing for document reader