JPH10269310A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH10269310A
JPH10269310A JP9070942A JP7094297A JPH10269310A JP H10269310 A JPH10269310 A JP H10269310A JP 9070942 A JP9070942 A JP 9070942A JP 7094297 A JP7094297 A JP 7094297A JP H10269310 A JPH10269310 A JP H10269310A
Authority
JP
Japan
Prior art keywords
unit
item
character recognition
layout
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9070942A
Other languages
Japanese (ja)
Inventor
Tsuguo Hashimoto
承男 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9070942A priority Critical patent/JPH10269310A/en
Publication of JPH10269310A publication Critical patent/JPH10269310A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To shorten processing time without increasing the burden of an operator by correcting a format to another format when there are plural formats that have similar characteristics and also when an error occurs in an identification result due to various factors such as the deterioration of an image quality at the time of identifying a format by using an image characteristic of a ruled line, etc. SOLUTION: A layout analyzing part 3 analyzes a document layout from the image data of a document that is acquired by an image inputting part 1 and sorts elements that constitute the document into each different item to be recognized, and a character recognizing part 5 performs character recognition of each sorted item. A slip identifying part 6 identifies a slip format from the layout analyiis result and character recognition result and makes a displaying part 8 show the identification result. An operator decides the displayed content of the displaying part and when there is an error in the identified format, a correcting part 10 corrects it to another format.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字認識装置に関
し、特に多種多様な画像データが混在して入力される画
像処理システムにおける文字認識装置に関するものであ
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device, and more particularly to a character recognition device in an image processing system in which various kinds of image data are input in a mixed manner.

【0002】[0002]

【従来の技術】多種多様な画像データを入力し、OCR
(optical character reader;光学式文字読取装置)で読
み取ったり、ファイリングシステムでファイリングす
る、いわゆる画像処理システムにおいては、入力された
多種多様な画像データを分類して処理する必要がある。
この分類を行うために、オペレータがあらかじめ帳票
を分類したり、帳票を識別するためのバッチ票などの
シートを付加したり、分類のためのIDを帳票に付加
したり、最近では、画像データの罫線等の特徴によ
り、フォーマットを自動的に特定する方法などが採られ
ている。
2. Description of the Related Art Various kinds of image data are inputted, and OCR is performed.
2. Description of the Related Art In a so-called image processing system in which reading is performed by an (optical character reader) or filing is performed by a filing system, it is necessary to classify and process various kinds of input image data.
In order to perform this classification, the operator classifies the form in advance, adds a sheet such as a batch form for identifying the form, adds an ID for classification to the form, and recently, A method of automatically specifying a format based on features such as ruled lines is employed.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上述し
た,,の方法の場合には、前もって分類のための
作業が必要であり、その作業をオペレータに強いること
になるため、オペレータの負担が増大することになる。
また、罫線等の画像の特徴を用いてフォーマットの識別
を自動的に行うの方法においては、類似した特徴を持
つフォーマットが複数あったり、また画像品質の劣化な
ど様々な要因により、識別結果に誤りが生じる場合があ
る。
However, in the case of the above-mentioned methods, the work for classification is required in advance, and the work is imposed on the operator, so that the burden on the operator increases. Will be.
In addition, in the method of automatically identifying formats using image features such as ruled lines, there are a plurality of formats having similar features, and the identification result may be incorrect due to various factors such as deterioration of image quality. May occur.

【0004】本発明は、上記課題に鑑みてなされたもの
であり、その目的とするところは、認識結果に誤りが生
じた場合に、オペレータの負担を増すことなく、その修
正が可能な文字認識装置を提供することにある。
The present invention has been made in view of the above problems, and has as its object to provide a character recognition apparatus capable of correcting an error in a recognition result without increasing the burden on an operator. It is to provide a device.

【0005】[0005]

【課題を解決するための手段】本発明による文字認識装
置は、文書の画像を取得するための画像入力部と、この
画像入力部によって取得した文書のレイアウトを解析す
るためのレイアウト解析部と、そのレイアウトの各項目
の文字認識を行う文字認識部と、レイアウト解析結果と
文字認識結果から帳票フォーマットの識別を行う帳票識
別部と、この帳票識別部によって識別された帳票フォー
マットを表示する表示部と、この表示部に表示された帳
票フォーマットを修正するための修正部とを備えた構成
となっている。
According to the present invention, there is provided a character recognition apparatus comprising: an image input unit for obtaining an image of a document; a layout analysis unit for analyzing a layout of the document obtained by the image input unit; A character recognition unit that performs character recognition for each item of the layout, a form identification unit that identifies a form format from the layout analysis result and the character recognition result, and a display unit that displays the form format identified by the form identification unit. And a correction unit for correcting the form format displayed on the display unit.

【0006】上記構成の文字認識装置において、画像入
力部で取得された文書の画像データから、レイアウト解
析部は文書のレイアウトを解析し、文書を構成する要素
を認識すべき項目別に切り分け、文字認識部はその切り
分けられた各項目の文字認識を行う。そのレイアウト解
析結果と文字認識結果から、帳票識別部は帳票フォーマ
ットの識別を行い、その識別結果を表示部に表示させ
る。そして、オペレータはその表示部の表示内容を判断
し、識別されたフォーマットに誤りがあった場合には、
修正部において別のフォーマットに修正する。
In the character recognition device having the above configuration, the layout analysis section analyzes the layout of the document from the image data of the document acquired by the image input section, separates the elements constituting the document into items to be recognized, and performs character recognition. The unit performs character recognition for each of the separated items. The form identification unit identifies the form format from the layout analysis result and the character recognition result, and displays the identification result on the display unit. Then, the operator determines the display content of the display unit, and if there is an error in the identified format,
The correction section corrects to another format.

【0007】本発明による他の文字認識装置は、文書の
画像を取得するための画像入力部と、この画像入力部に
よって取得した文書のレイアウトを解析するためのレイ
アウト解析部と、そのレイアウトの各項目の文字認識を
行う文字認識部と、レイアウトの各項目の内容を決定
し、各項目の関連付けを行う項目探索部と、この項目探
索部による各項目の関連付けの結果を表示する表示部
と、この表示部に表示された各項目の関連付けを修正す
るための修正部とを備えた構成となっている。
Another character recognition device according to the present invention includes an image input unit for acquiring an image of a document, a layout analysis unit for analyzing a layout of the document acquired by the image input unit, and each of the layouts. A character recognition unit that performs character recognition of the item, an item search unit that determines the content of each item of the layout, and associates each item, and a display unit that displays a result of association of each item by the item search unit. The configuration includes a correction unit for correcting the association of each item displayed on the display unit.

【0008】上記構成の他の文字認識装置において、画
像入力部で取得された文書の画像データから、レイアウ
ト解析部は文書のレイアウトを解析し、文書を構成する
要素を認識すべき項目別に切り分け、文字認識部はその
切り分けられた各項目の文字認識を行う。項目探索部
は、その文字認識された各要素のレイアウトの各項目の
内容を決定し、また各項目の関連付けを行い、これを表
示部に表示させる。そして、オペレータはその表示部の
表示内容を判断し、各項目の関連付けが誤っていた場合
には、修正部においてその関連付けを修正する。
In another character recognition apparatus having the above structure, a layout analysis unit analyzes the layout of the document from the image data of the document acquired by the image input unit, and separates the elements constituting the document into items to be recognized. The character recognition unit performs character recognition on each of the separated items. The item search unit determines the content of each item of the layout of each element whose character has been recognized, associates each item, and displays the result on the display unit. Then, the operator determines the display content of the display unit, and if the association of each item is incorrect, the correction unit corrects the association.

【0009】[0009]

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しつつ詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0010】図1は、本発明の第1実施形態を示すブロ
ック図である。図1において、本実施形態に係る文字認
識装置は、画像入力部1と、画像データ保持部2と、レ
イアウト解析部3と、レイアウト解析結果保持部4と、
文字認識部5と、帳票識別部6と、文字認識結果保持部
7と、表示部8と、フォーマットデータ保持部9と、修
正部10と、識別結果保持部11とから構成され、これ
ら各構成要素はバスライン12を介して相互に接続され
ている。
FIG. 1 is a block diagram showing a first embodiment of the present invention. In FIG. 1, the character recognition device according to the present embodiment includes an image input unit 1, an image data holding unit 2, a layout analysis unit 3, a layout analysis result holding unit 4,
It comprises a character recognition unit 5, a form identification unit 6, a character recognition result holding unit 7, a display unit 8, a format data holding unit 9, a correction unit 10, and an identification result holding unit 11, The elements are interconnected via a bus line 12.

【0011】ここで、画像入力部1は、文書の画像を取
得するためのもので、イメージスキャナ、ビデオカメ
ラ、イメージファイルなどによって構成される。画像デ
ータ保持部2は、画像入力部1で取得した画像データを
保持するためのものである。この画像データ保持部2と
しては、メモリ、ハードディスク等の記憶媒体が用いら
れる。
Here, the image input unit 1 is for obtaining an image of a document, and is composed of an image scanner, a video camera, an image file and the like. The image data holding unit 2 is for holding the image data acquired by the image input unit 1. As the image data holding unit 2, a storage medium such as a memory or a hard disk is used.

【0012】レイアウト解析部3は、画像入力部1で取
得した画像のレイアウトを解析し、文書を構成する要素
を、例えば住所欄、生年月日欄のように、認識すべき項
目別に切り分ける。レイアウト解析結果保持部4は、レ
イアウト解析部3の解析結果を保持するためのものであ
る。このレイアウト解析結果保持部4としては、メモ
リ、ハードディスク等の記憶媒体が用いられる。
The layout analysis unit 3 analyzes the layout of the image obtained by the image input unit 1 and separates the elements constituting the document into items to be recognized, for example, an address column and a date of birth column. The layout analysis result holding unit 4 is for holding the analysis result of the layout analysis unit 3. As the layout analysis result holding unit 4, a storage medium such as a memory and a hard disk is used.

【0013】文字認識部5は、レイアウト解析部3によ
って切り分けられた各項目の文字認識を行う。帳票識別
部6は、文字認識部5によって認識された各要素のレイ
アウトの各項目の内容を決定し、また各項目の関連付け
を行う。文字認識結果保持部7は、文字認識部5によっ
て文字認識された文字データを保持するためのものであ
る。この文字認識結果保持部7としては、メモリ、ハー
ドディスク等の記憶媒体が用いられる。
The character recognizing unit 5 performs character recognition of each item separated by the layout analyzing unit 3. The form identification unit 6 determines the content of each item of the layout of each element recognized by the character recognition unit 5, and associates each item. The character recognition result holding unit 7 is for holding character data recognized by the character recognition unit 5. As the character recognition result holding unit 7, a storage medium such as a memory and a hard disk is used.

【0014】フォーマットデータ保持部9は、フォーマ
ットの識別のための帳票の特徴を保持するためのもので
ある。このフォーマットデータ保持部9としては、メモ
リ、ハードディスク等の記憶媒体が用いられる。識別結
果保持部11は、フォーマットを識別した結果や、文字
認識を行った結果を保持するためのものである。この識
別結果保持部11としては、メモリ、ハードディスク等
の記憶媒体が用いられる。
The format data holding unit 9 holds the characteristics of a form for identifying a format. As the format data holding unit 9, a storage medium such as a memory and a hard disk is used. The identification result holding unit 11 holds a result of identifying a format and a result of performing character recognition. As the identification result holding unit 11, a storage medium such as a memory and a hard disk is used.

【0015】表示部8は、フォーマットを識別した結果
や、必要に応じてレイアウト解析結果や文字認識結果等
の内容を表示する。修正部10は、表示部8に対してフ
ォーマットの識別結果を表示させ、その表示内容を見て
フォーマットが正しくないとオペレータが判断し、その
旨の入力があった場合に、フォーマットデータ保持部9
に保持されているフォーマットに関する情報を表示部8
に表示させ、オペレータによる修正操作によりフォーマ
ットに修正を加えるためのものである。
The display unit 8 displays the result of the format identification, and the contents such as the layout analysis result and the character recognition result as required. The correction unit 10 causes the display unit 8 to display the format identification result, and, based on the display contents, determines that the format is not correct, and when the operator inputs that fact, the format data holding unit 9.
Display section 8 displays information about the format held in
In order to correct the format by a correction operation by the operator.

【0016】なお、画像データ保持部2、レイアウト解
析結果保持部4、文字認識結果保持部7、フォーマット
データ保持部9および識別結果保持部11を構成する記
憶媒体としては、各構成要素ごとに別個の記憶媒体を用
いても良いが、単一の記憶媒体を共通に用いて各構成要
素ごとに記憶領域を振り分けて使用するようにした方
が、コスト的に有利である。
The storage medium constituting the image data holding unit 2, the layout analysis result holding unit 4, the character recognition result holding unit 7, the format data holding unit 9, and the identification result holding unit 11 is separately provided for each component. May be used, but it is more cost-effective to use a single storage medium in common and allocate and use the storage area for each component.

【0017】次に、上記構成の第1実施形態に係る文字
認識装置における文字認識の動作について説明する。図
2には、フォーマット識別結果を修正した例を示す。
Next, the operation of character recognition in the character recognition device according to the first embodiment having the above configuration will be described. FIG. 2 shows an example in which the format identification result is modified.

【0018】先ず、画像入力部1によって取得された画
像データは、画像データ保持部2に保持される。この保
持された画像データは、レイアウト解析部3によって罫
線等の特徴が解析され、レイアウト解析結果保持部4に
格納される。レイアウト解析結果において、画像データ
は文字認識すべき項目に細分化されている。そして、そ
の細分化されたそれぞれの項目は、文字認識部5によっ
て文字認識され、その結果が文字認識結果保持部7に保
持される。
First, the image data obtained by the image input unit 1 is held in the image data holding unit 2. The stored image data is analyzed for features such as ruled lines by a layout analysis unit 3 and stored in a layout analysis result storage unit 4. In the layout analysis result, the image data is subdivided into items for character recognition. Then, each of the subdivided items is subjected to character recognition by the character recognition unit 5, and the result is stored in the character recognition result storage unit 7.

【0019】帳票識別部6は、レイアウト識別結果、文
字認識結果を利用して、フォーマットデータ保持部9に
格納されているフォーマットデータの中から、該当する
フォーマットを選択し、識別結果保持部11に格納す
る。また、その識別結果は、表示部8によってオペレー
タが確認できるように表示される。このとき、表示部8
には、必要に応じて、レイアウト解析結果、文字認識結
果等の内容も併せて表示される。
The form identification unit 6 selects a corresponding format from the format data stored in the format data holding unit 9 by using the layout identification result and the character recognition result, and sends the selected format to the identification result holding unit 11. Store. The identification result is displayed on the display unit 8 so that the operator can confirm it. At this time, the display unit 8
, The contents such as the layout analysis result and the character recognition result are also displayed as necessary.

【0020】この表示部8に表示された識別結果をオペ
レータが見て、フォーマットが期待するものと異なって
いると判断した場合、その旨の情報を修正部10に対し
て与える。すると、その情報を受けて修正部10は、フ
ォーマットデータ保持部9に格納されているフォーマッ
トデータのリストを表示部8に表示させる。オペレータ
は、このフォーマットデータのリストを見て、その中か
ら正しいフォーマットを選択する。
When the operator looks at the identification result displayed on the display unit 8 and determines that the format is different from the expected one, the information to that effect is given to the correction unit 10. Then, receiving the information, the correction unit 10 causes the display unit 8 to display a list of the format data stored in the format data holding unit 9. The operator looks at this list of format data and selects the correct format from the list.

【0021】上述した処理の結果、一例として、図3に
おいて、最初はフォーマット1と識別されていたもの
が、オペレータによるフォーマット修正により、フォー
マット2に変更される。このとき、項目D′は項目
C′′′′となっている。
As a result of the above-described processing, as an example, in FIG. 3, what was initially identified as format 1 is changed to format 2 by format correction by the operator. At this time, item D 'is item C'''''.

【0022】このように、多種多様な画像データが混在
して入力される画像処理システムにおいて、表示部8に
表示された帳票フォーマットを別のフォーマットに変更
するための修正部10を文字認識装置内に設けたこと
で、識別されたフォーマットに誤りがあった場合に、オ
ペレータが所望のフォーマットを選択するだけの簡単な
操作で正しいフォーマットに修正することができ、最初
から識別処理をやり直すなどの操作を行う必要がなくな
るため、オペレータの負担を軽減できる。
As described above, in the image processing system in which various types of image data are input in a mixed manner, the correction unit 10 for changing the form format displayed on the display unit 8 to another format is provided in the character recognition device. In this way, if there is an error in the identified format, the operator can correct it to the correct format with a simple operation of simply selecting the desired format, and perform operations such as restarting the identification process from the beginning Is no longer required, so that the burden on the operator can be reduced.

【0023】図4は、本発明の第2実施形態を示すブロ
ック図である。図4において、本実施形態に係る文字認
識装置は、画像入力部21と、画像データ保持部22
と、帳票情報保持部23と、レイアウト解析部24と、
レイアウト解析結果保持部25と、文字認識部26と、
文字認識結果保持部27と、項目探索部28と、項目探
索結果保持部29と、表示部30と、修正部31とから
構成され、これら各構成要素はバスライン32を介して
相互に接続されている。
FIG. 4 is a block diagram showing a second embodiment of the present invention. In FIG. 4, a character recognition device according to the present embodiment includes an image input unit 21 and an image data holding unit 22.
Form information holding unit 23, layout analysis unit 24,
A layout analysis result holding unit 25, a character recognition unit 26,
It comprises a character recognition result holding unit 27, an item search unit 28, an item search result holding unit 29, a display unit 30, and a correction unit 31, and these components are mutually connected via a bus line 32. ing.

【0024】ここで、画像入力部21は、文書の画像を
取得するためのもので、イメージスキャナ、ビデオカメ
ラ、イメージファイルなどによって構成される。画像デ
ータ保持部22は、画像入力部21で取得した画像デー
タを保持するためのものである。この画像データ保持部
22としては、メモリ、ハードディスク等の記憶媒体が
用いられる。
Here, the image input section 21 is for acquiring an image of a document, and is composed of an image scanner, a video camera, an image file and the like. The image data holding unit 22 holds the image data acquired by the image input unit 21. As the image data holding unit 22, a storage medium such as a memory and a hard disk is used.

【0025】帳票情報保持部23は、あらかじめ指定さ
れた帳票に含まれると思われる項目名などの情報を保持
するためのものである。この帳票情報保持部23として
は、メモリ、ハードディスク等の記憶媒体が用いられ
る。レイアウト解析部24は、画像入力部21で取得し
た画像のレイアウトを解析し、文書を構成する要素を、
例えば住所欄、生年月日欄のように、認識すべき項目別
に切り分ける。
The form information holding unit 23 is for holding information such as item names that are considered to be included in a form specified in advance. As the form information holding unit 23, a storage medium such as a memory and a hard disk is used. The layout analysis unit 24 analyzes the layout of the image acquired by the image input unit 21 and converts the elements constituting the document into
For example, it is divided into items to be recognized, such as an address column and a date of birth column.

【0026】レイアウト解析結果保持部25は、レイア
ウト解析部24の解析結果を保持するためのものであ
る。このレイアウト解析結果保持部25としては、メモ
リ、ハードディスク等の記憶媒体が用いられる。文字認
識部26は、レイアウト解析部24によって切り分けら
れた各項目の文字認識を行う。文字認識結果保持部27
は、文字認識部26によって文字認識された文字データ
を保持するためのものである。この文字認識結果保持部
27としては、メモリ、ハードディスク等の記憶媒体が
用いられる。
The layout analysis result holding section 25 is for holding the analysis result of the layout analysis section 24. As the layout analysis result holding unit 25, a storage medium such as a memory and a hard disk is used. The character recognizing unit 26 performs character recognition of each item separated by the layout analyzing unit 24. Character recognition result holding unit 27
Is for holding the character data recognized by the character recognition unit 26. As the character recognition result holding unit 27, a storage medium such as a memory and a hard disk is used.

【0027】項目探索部28は、文字認識部26によっ
て認識された各要素のレイアウトの各項目の内容を決定
し、また各項目の関連付けを行う。項目探索結果保持部
29は、項目探索部28で項目探索を行った結果を保持
するためのものである。この項目探索結果保持部29と
しては、メモリ、ハードディスク等の記憶媒体が用いら
れる。
The item search unit 28 determines the contents of each item of the layout of each element recognized by the character recognition unit 26 and associates each item. The item search result holding unit 29 holds the result of the item search performed by the item search unit 28. As the item search result holding unit 29, a storage medium such as a memory and a hard disk is used.

【0028】表示部30は、項目を探索した結果や、必
要に応じてレイアウト解析結果や文字認識結果等の内容
を表示する。修正部31は、表示部30に対して項目の
探索結果を表示させ、その表示内容を見て項目が正しく
ないとオペレータが判断し、その旨の入力があった場合
に、オペレータによる修正操作によって項目探索結果に
修正を加えるためのものである。
The display unit 30 displays the results of the item search, and the contents such as the layout analysis result and the character recognition result as required. The correction unit 31 causes the display unit 30 to display the search result of the item, and, based on the displayed content, determines that the item is not correct. This is for modifying the item search result.

【0029】なお、画像データ保持部22、帳票情報保
持部23、レイアウト解析結果保持部25、文字認識結
果保持部27および項目探索結果保持部29を構成する
記憶媒体としては、各構成要素ごとに別個の記憶媒体を
用いても良いが、単一の記憶媒体を共通に用いて各構成
要素ごとに記憶領域を振り分けて使用するようにした方
が、コスト的に有利である。
The storage media constituting the image data holding unit 22, the form information holding unit 23, the layout analysis result holding unit 25, the character recognition result holding unit 27, and the item search result holding unit 29 are as follows. Although separate storage media may be used, it is more cost-effective to use a single storage medium in common and to allocate and use storage areas for each component.

【0030】次に、上記構成の第2実施形態に係る文字
認識装置における文字認識の動作について説明する。
Next, the operation of character recognition in the character recognition device according to the second embodiment having the above configuration will be described.

【0031】先ず、文字認識の対象となる帳票レイアウ
トを示す図2において、帳票レイアウトの構成要素は大
まかに、項目(番号、品名、金額、合計)と、項目記入
欄に分けられる。項目記入欄は、項目に対応した内容を
記入する部分である。項目と項目記入欄はそれぞれ関係
付けられている。また、図中、ハッチング部分は、番号
とその記入欄である。番号の記入欄は、その関連付けに
よって「数字4桁」と言うような番号の属性を持つ。こ
の属性は、帳票情報のなかに含まれている。
First, in FIG. 2 showing a form layout to be subjected to character recognition, the components of the form layout are roughly divided into items (number, product name, amount, total) and item entry columns. The item entry column is a portion for entering the content corresponding to the item. The item and the item entry column are associated with each other. In the figure, hatched portions are numbers and their entry columns. The number entry field has a number attribute such as “four digits” depending on the association. This attribute is included in the form information.

【0032】図5に、項目探索結果を修正した例を示
す。先ず、画像入力部21によって取得された画像デー
タは、画像データ保持部22に保持される。この保持さ
れた画像データは、レイアウト解析部24によって罫線
等の特徴が解析され、レイアウト解析結果保持部25に
格納される。レイアウト解析結果において、画像データ
は文字認識すべき項目に細分化されている。そして、そ
の細分化されたそれぞれの項目は、文字認識部26によ
って文字認識され、その結果が文字認識結果保持部27
に保持される。
FIG. 5 shows an example in which the item search result is modified. First, the image data acquired by the image input unit 21 is held in the image data holding unit 22. The stored image data is analyzed for features such as ruled lines by a layout analysis unit 24 and stored in a layout analysis result storage unit 25. In the layout analysis result, the image data is subdivided into items for character recognition. Each of the subdivided items is subjected to character recognition by the character recognition unit 26, and the result is stored in a character recognition result holding unit 27.
Is held.

【0033】項目探索部28は、レイアウト解析部24
によるレイアウト解析結果、文字認識部26による文字
認識結果を利用し、帳票情報保持部23に保持されてい
る項目名をそれぞれの項目欄に当てはめて項目記入欄と
関連付け、その結果を項目探索結果保持部29に格納す
る。また、項目探索部28による項目探索結果は、表示
部30によってオペレータが確認できるように表示され
る。
The item search unit 28 is a layout analysis unit 24
Using the layout analysis result by the character recognition unit 26 and the character recognition result by the character recognition unit 26, the item names stored in the form information storage unit 23 are assigned to the respective item columns and associated with the item entry columns, and the results are stored in the item search results. It is stored in the unit 29. The item search result by the item search unit 28 is displayed on the display unit 30 so that the operator can confirm it.

【0034】このとき、表示部30には必要に応じて、
レイアウト解析結果、文字認識結果などの内容も併せて
表示される。この表示部30に表示された識別結果を見
て、オペレータが項目と項目記入欄の関連付けが期待す
るものと異なっていると判断した場合、例えばマウスク
リックなどにより修正の情報を与える。すると、この修
正の情報を受けて修正部31は、項目と項目記入欄の関
連付けを修正する。
At this time, the display unit 30 displays
Contents such as a layout analysis result and a character recognition result are also displayed. Looking at the identification result displayed on the display unit 30, if the operator determines that the association between the item and the item entry column is different from the expected one, the operator gives correction information by, for example, clicking the mouse. Then, in response to this correction information, the correction unit 31 corrects the association between the item and the item entry field.

【0035】上述した処理の結果、図3において、最初
は一番右下の項目記入欄は項目記入欄C′′′′として
項目Cに関連付けられていたが、オペレータによる修正
操作により、項目Dの項目記入欄D′に変更されてい
る。
As a result of the processing described above, in FIG. 3, the item entry column at the lower right is initially associated with item C as the item entry column C "", but the item D is changed by the operator's correction operation. Has been changed to the item entry column D '.

【0036】このように、多種多様な画像データが混在
して入力される画像処理システムにおいて、表示部30
に表示された項目と項目記入欄の関連付けを修正するた
めの修正部31を文字認識装置内に設けたことで、項目
と項目記入欄の関連付けに誤りがあった場合に、オペレ
ータが簡単な操作で正しい関連付けに修正することがで
き、最初から識別処理をやり直すなどの操作を行う必要
がなくなるため、オペレータの負担を軽減できる。
As described above, in the image processing system in which various kinds of image data are input in a mixed manner, the display unit 30
The correction unit 31 for correcting the association between the item displayed in the item and the item entry field is provided in the character recognition device, so that when the association between the item and the item entry field is incorrect, the operator can easily perform the operation. To correct the association, and there is no need to perform an operation such as re-performing the identification process from the beginning, so that the burden on the operator can be reduced.

【0037】なお、本実施形態では、表示部30におけ
る表示の色については触れなかったが、各項目の関連付
けの結果を色分けして表示するようにしても良い。例え
ば、図6に示すように、異なった項目は異なった色で表
示し、項目と関連付けられた項目記入欄は同じ色で表示
する。このように、項目と項目記入欄の関連付けを色分
けして表示することにより、項目の関連付けをオペレー
タに対して明確に表示できるため、一目で関連付けを確
認することができる。
In this embodiment, the color of the display on the display unit 30 is not described, but the result of the association of each item may be displayed in different colors. For example, as shown in FIG. 6, different items are displayed in different colors, and the item entry fields associated with the items are displayed in the same color. In this manner, by displaying the association between the item and the item entry column in different colors, the association between the items can be clearly displayed to the operator, so that the association can be confirmed at a glance.

【0038】また、表示部30において、各項目の情報
を、項目欄や項目記入欄の上に表示するように構成する
ことも可能である。例えば、図7に示すように、項目欄
(番号)の上には、項目名「番号」を表示し、項目記入
欄の上には、「「番号」の記入欄1,数字,4桁」のよ
うに、各項目の情報を表示するようにする。このよう
に、各項目の情報を、項目欄や項目記入欄の上に表示
し、関連付けをオペレータに明示することで、一目で関
連付けの結果を確認することができる。
Further, the display unit 30 may be configured to display information of each item on an item column or an item entry column. For example, as shown in FIG. 7, the item name “number” is displayed above the item column (number), and “the“ number ”entry column 1, number, four digits” is displayed above the item entry column. , The information of each item is displayed. As described above, the information of each item is displayed above the item column or the item entry column and the association is clearly indicated to the operator, so that the result of the association can be confirmed at a glance.

【0039】さらに、修正部31において、表示部30
によって表示されている項目欄を選択して、帳票情報か
ら項目名のリストを表示し、このリストから項目名を選
択するように構成することも可能である。すなわち、修
正部31は、オペレータの指示により、選択された項目
に対する項目名の候補のリストを表示する。そして、オ
ペレータがその中から正しい項目名を選択する。
Further, in the correction unit 31, the display unit 30
It is also possible to select an item field displayed by the above, display a list of item names from the form information, and select an item name from this list. That is, the correction unit 31 displays a list of candidate item names for the selected item according to an instruction of the operator. Then, the operator selects a correct item name from among them.

【0040】このように、表示部30によって表示され
ている項目欄を選択して、帳票情報から項目名のリスト
を表示し、このリストから項目名を選択することで、項
目名の認識結果が誤っていた場合でも、容易に項目名の
変更・訂正を行うことができる。図8に、その表示例を
示す。この表示例では、項目名「番号」が選択された状
態で、項目名の候補が表示されている。
As described above, by selecting the item column displayed on the display unit 30, displaying a list of item names from the form information, and selecting the item name from this list, the recognition result of the item name is obtained. Even if incorrect, the item name can be easily changed or corrected. FIG. 8 shows an example of the display. In this display example, candidate item names are displayed with the item name “number” selected.

【0041】また、修正部31において、項目欄や項目
記入欄の属性が変更されたとき、変更のあった欄に、文
字認識以降の処理を再び行うようにすることも可能であ
る。これにより、例えば、「品名」が「金額」に変更さ
れ、「品名の記述欄」が「金額の記述欄」に変更された
ような場合、「金額欄」にひらがなが表示されるような
ことを防止できる。再認識は、自動であっても、オペレ
ータの指示による手動であっても良い。これによれば、
項目欄や項目記入欄の属性が変更になった場合でも、新
しい属性に応じた認識結果を得ることができる。
Further, when the attribute of the item column or the item entry column is changed in the correction section 31, it is also possible to perform the processing after character recognition again on the changed column. As a result, for example, when "article name" is changed to "amount" and "article name description" is changed to "amount description", hiragana is displayed in "amount". Can be prevented. The re-recognition may be automatic or manual according to an instruction of the operator. According to this,
Even when the attribute of the item column or the entry column is changed, a recognition result corresponding to the new attribute can be obtained.

【0042】さらに、ある項目欄または項目記入欄の属
性を、他の項目欄または項目記入欄に複写するようにす
ることも可能である。図9に、属性の複写の例を示す。
図9において、最初の結果では決定されていない。しか
し、第3行目、第4行目は第2行目と同じ形式を持って
いるため、第2行目を選択し、その形式を第3行目、第
4行目に複写する。
Further, it is also possible to copy the attribute of a certain item column or item entry column to another item column or item entry column. FIG. 9 shows an example of attribute copying.
In FIG. 9, it has not been determined in the first result. However, since the third and fourth lines have the same format as the second line, the second line is selected, and the format is copied to the third and fourth lines.

【0043】このとき、複写の手順は、第3行目、第4
行目が同時でも、同時でなくても構わない。また、形式
が同じ行であるときには、オペレータの指示によらず、
複写を行うことも考えられる。なお、この例では、行の
複写としたが、列であっても良く、また単独の欄であっ
ても構わない。これによれば、項目欄や項目記入欄の属
性の変更を容易に行うことができる。
At this time, the copying procedure is as follows:
The lines may or may not be simultaneous. Also, when the format is the same line, regardless of the operator's instruction,
Copying is also conceivable. In this example, the row is copied, but it may be a column or a single column. According to this, it is possible to easily change the attribute of the item column or the item entry column.

【0044】なお、第1実施形態に係る文字認識装置
と、第2実施形態に係る文字認識装置とは別のものとし
て説明したが、第1,第2実施形態が共に適用される文
字認識装置であっても良いことは勿論である。かかる文
字認識装置によれば、第1,第2実施形態の両機能を同
時に満たすことができるため、その効果は極めて大きな
ものとなる。
Although the character recognition device according to the first embodiment and the character recognition device according to the second embodiment have been described as being different from each other, the character recognition device to which both the first and second embodiments are applied is described. Of course, it may be. According to such a character recognition device, since both functions of the first and second embodiments can be satisfied at the same time, the effect is extremely large.

【0045】[0045]

【発明の効果】以上詳細に説明したように、本発明によ
る文字認識装置によれば、多種多様な画像データが入力
される画像処理システムにおいて、文書のレイアウト解
析結果と文字認識結果から識別されたフォーマットに誤
りがあった場合に、別のフォーマットに修正できるよう
にしたことにより、最初から識別処理をやり直すなどの
操作を行わなくても以降の処理に移行できるため、常に
正しい認識結果を与えることができるとともに、処理時
間を短縮できることになる。
As described in detail above, according to the character recognition apparatus of the present invention, in an image processing system to which various kinds of image data are input, the character recognition apparatus is identified from the layout analysis result of the document and the character recognition result. If there is an error in the format, it can be corrected to another format, so that it is possible to shift to the subsequent processing without performing operations such as re-performing the identification process from the beginning, so always give the correct recognition result. And the processing time can be reduced.

【0046】また、本発明による他の文字認識装置によ
れば、多種多様な画像データが入力される画像処理シス
テムにおいて、文字認識された各要素のレイアウトの各
項目の内容を決定し、また各項目の関連付けを行い、そ
の関連付けが誤っていた場合に関連付けを修正できるよ
うにしたことにより、最初から識別処理をやり直すなど
の操作を行わなくても以降の処理に移行できるため、常
に正しい認識結果を与えることができるとともに、処理
時間を短縮できることになる。
According to another character recognition device of the present invention, in an image processing system to which various types of image data are input, the contents of each item of the layout of each element whose character has been recognized are determined. By associating items and correcting the association if the association is incorrect, the process can proceed to subsequent processes without performing operations such as re-performing the identification process from the beginning. And the processing time can be reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1実施形態を示すブロック図であ
る。
FIG. 1 is a block diagram showing a first embodiment of the present invention.

【図2】フォーマット識別結果を修正した例を示す図で
ある。
FIG. 2 is a diagram illustrating an example in which a format identification result is modified.

【図3】フォーマット識別結果を修正する場合の説明図
である。
FIG. 3 is an explanatory diagram for correcting a format identification result.

【図4】本発明の第2実施形態を示すブロック図であ
る。
FIG. 4 is a block diagram showing a second embodiment of the present invention.

【図5】項目探索結果を修正した例を示す図である。FIG. 5 is a diagram showing an example in which an item search result is modified.

【図6】第2実施形態の変形例1の説明図である。FIG. 6 is an explanatory diagram of a first modification of the second embodiment.

【図7】第2実施形態の変形例2の説明図である。FIG. 7 is an explanatory diagram of a second modification of the second embodiment.

【図8】第2実施形態の変形例3の説明図である。FIG. 8 is an explanatory diagram of a third modification of the second embodiment.

【図9】第2実施形態の変形例4の説明図である。FIG. 9 is an explanatory diagram of Modification 4 of the second embodiment.

【符号の説明】[Explanation of symbols]

1,21 画像入力部 3,24 レイアウト解析部 5,26 文字認識部 6 帳票識別部 8,30 表示部 10,31 修正部 28 項目探索部 1,21 Image input unit 3,24 Layout analysis unit 5,26 Character recognition unit 6 Form identification unit 8,30 Display unit 10,31 Correction unit 28 Item search unit

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 文書の画像を取得するための画像入力部
と、 前記画像入力部によって取得した文書のレイアウトを解
析するためのレイアウト解析部と、 前記レイアウトの各項目の文字認識を行う文字認識部
と、 前記レイアウト解析部による解析結果と前記文字認識部
による認識結果から帳票フォーマットの識別を行う帳票
識別部と、 前記帳票識別部によって識別された帳票フォーマットを
表示する表示部と、 前記表示部に表示された帳票フォーマットを修正するた
めの修正部とを備えたことを特徴とする文字認識装置。
An image input unit for acquiring an image of the document; a layout analyzing unit for analyzing a layout of the document acquired by the image input unit; and a character recognition unit for performing character recognition of each item of the layout. A form identification unit for identifying a form format based on an analysis result by the layout analysis unit and a recognition result by the character recognition unit; a display unit for displaying a form format identified by the form identification unit; and the display unit. And a correction unit for correcting the form format displayed on the document.
【請求項2】 文書の画像を取得するための画像入力部
と、 前記画像入力部によって取得した文書のレイアウトを解
析するためのレイアウト解析部と、 前記レイアウトの各項目の文字認識を行う文字認識部
と、 前記レイアウトの各項目の内容を決定し、各項目の関連
付けを行う項目探索部と、 前記項目探索部による各項目の関連付けの結果を表示す
る表示部と、 前記表示部に表示された各項目の関連付けを修正するた
めの修正部とを備えたことを特徴とする文字認識装置。
2. An image input unit for acquiring an image of a document, a layout analyzing unit for analyzing a layout of the document acquired by the image input unit, and a character recognition unit for performing character recognition of each item of the layout An item search unit that determines the content of each item of the layout and associates each item; a display unit that displays a result of association of each item by the item search unit; and a display unit that is displayed on the display unit. A character recognition device comprising: a correction unit for correcting the association of each item.
【請求項3】 前記表示部は、前記項目探索部による各
項目の関連付けの結果を色分け表示することを特徴とす
る請求項2記載の文字認識装置。
3. The character recognition device according to claim 2, wherein the display unit displays the result of the association of each item by the item search unit in different colors.
【請求項4】 前記表示部は、前記項目探索部による各
項目の内容を決定した結果を項目の上に表示することを
特徴とする請求項2記載の文字認識装置。
4. The character recognition device according to claim 2, wherein the display unit displays a result of determining the content of each item by the item search unit on the item.
【請求項5】 前記修正部は、前記表示部によって表示
されている1つの項目を選択して、あらかじめ登録され
ている項目名のリストを前記表示部に表示させ、そのリ
ストの中からの選択によって項目の内容を修正すること
を特徴とする請求項2記載の文字認識装置。
5. The correction unit selects one item displayed on the display unit, displays a list of item names registered in advance on the display unit, and selects from the list. 3. The character recognition device according to claim 2, wherein the content of the item is corrected by the following.
【請求項6】 前記修正部によって項目欄や項目記入欄
の属性が変更されたとき、属性の変更された項目につい
て文字認識以降の処理を再度行うことを特徴とする請求
項2記載の文字認識装置。
6. The character recognition according to claim 2, wherein when the attribute of the item column or the item entry column is changed by the correction unit, processing after the character recognition is performed again on the item whose attribute has been changed. apparatus.
【請求項7】 前記修正部は、ある欄または行または列
の解析結果を、他の欄または行または列に複写可能であ
ることを特徴とする請求項2記載の文字認識装置。
7. The character recognition device according to claim 2, wherein the correction unit can copy an analysis result of a certain column, row, or column to another column, row, or column.
JP9070942A 1997-03-25 1997-03-25 Character recognizing device Pending JPH10269310A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9070942A JPH10269310A (en) 1997-03-25 1997-03-25 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9070942A JPH10269310A (en) 1997-03-25 1997-03-25 Character recognizing device

Publications (1)

Publication Number Publication Date
JPH10269310A true JPH10269310A (en) 1998-10-09

Family

ID=13446073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9070942A Pending JPH10269310A (en) 1997-03-25 1997-03-25 Character recognizing device

Country Status (1)

Country Link
JP (1) JPH10269310A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001307020A (en) * 2000-04-24 2001-11-02 Oki Electric Ind Co Ltd Character recognizing device
JP2007200098A (en) * 2006-01-27 2007-08-09 Dainippon Printing Co Ltd Creator, processor, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001307020A (en) * 2000-04-24 2001-11-02 Oki Electric Ind Co Ltd Character recognizing device
JP2007200098A (en) * 2006-01-27 2007-08-09 Dainippon Printing Co Ltd Creator, processor, and program
JP4592602B2 (en) * 2006-01-27 2010-12-01 大日本印刷株式会社 Creation device, processing device, and program

Similar Documents

Publication Publication Date Title
US7319799B2 (en) Method of recognizing and indexing documents
JP3048330B2 (en) Apparatus and method for extracting articles from documents
EP0654746A2 (en) Form identification and processing system
US4493108A (en) Video image field cut processing
US7844080B2 (en) Image processing system and image processing method, and computer program
US20020078098A1 (en) Document filing method and system
JP2006277001A (en) Input image displaying method, and input image displaying program
US20230206672A1 (en) Image processing apparatus, control method of image processing apparatus, and storage medium
JPH10269310A (en) Character recognizing device
JP3319203B2 (en) Document filing method and apparatus
JPH07152856A (en) Optical character reader
JPH096865A (en) Method and device for generating format information
JPH11134344A (en) Method for classifying and storing picture and device therefor, and method for retrieving picture and device therefor
JP2006253995A (en) Image processor
JPH06251187A (en) Method and device for correcting character recognition error
JPH10269311A (en) Slip processing unit designating method
JPH10119369A (en) Substitute font selection
JPH0520490A (en) Optical character read and correction system
JPH11339041A (en) Color image processing method and device therefor and recording medium
JP2003099709A (en) Misread character correction method and optical character recognition device
JP2002007960A (en) Slip reading method and slip reading system
JP3221969B2 (en) Character recognition device
JPH06251186A (en) Method and device for correcting character recognition error
JPS61134883A (en) Correction system in character reader
JPH10187879A (en) Optical character reader