JPH11224306A - Device and method for recognizing character - Google Patents

Device and method for recognizing character

Info

Publication number
JPH11224306A
JPH11224306A JP10024885A JP2488598A JPH11224306A JP H11224306 A JPH11224306 A JP H11224306A JP 10024885 A JP10024885 A JP 10024885A JP 2488598 A JP2488598 A JP 2488598A JP H11224306 A JPH11224306 A JP H11224306A
Authority
JP
Japan
Prior art keywords
character recognition
setting
processing
recognition
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10024885A
Other languages
Japanese (ja)
Inventor
Kazuyuki Saito
和之 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP10024885A priority Critical patent/JPH11224306A/en
Publication of JPH11224306A publication Critical patent/JPH11224306A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To exactly perform character recognition flexibly corresponding to the difference of a document format when performing the character recognition concerning respective items in a document. SOLUTION: When an image is inputted in S201, that input image is divided into plural block areas based on color information in area identifying processing S202. Based on the color information in the respective block areas provided by the area identifying processing, item information is set to the respective block areas in item information converting processing S203. Based on the item information set by the item information converting processing, a character recognition object type is limited for each block in recognition setting selecting processing S204. Concerning the image in each area block, character recognizing processing is performed in character recognizing processing $205 within the range of the character recognition object type set in the recognition setting selecting processing S204.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は文字認識装置に関
し、特に帳票等の所定のフォーマットを有する文書に対
して文字認識をおこなう文字認識装置及びその方法に関
するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition apparatus, and more particularly to a character recognition apparatus and method for performing character recognition on a document such as a form having a predetermined format.

【0002】[0002]

【従来の技術】従来の文字認識装置において、帳票等の
罫線に囲まれた画像を読み取って文字認識を行うものが
ある。この種の装置においては、読取対象の文書のもつ
フォーマットを1つのフォーマットに限定し、当該文書
の特定の場所(即ち、特定の項目)のみを認識させるよ
うにすることが行われている。
2. Description of the Related Art In a conventional character recognition apparatus, there is an apparatus which performs character recognition by reading an image surrounded by ruled lines such as a form. In this type of apparatus, the format of a document to be read is limited to one format, and only a specific location (that is, a specific item) of the document is recognized.

【0003】また、文字領域の座標の異なるフォーマッ
トに対応させるために、罫線を抽出し、罫線に囲まれた
場所を認識させるようにするものも提案されている。
In order to correspond to a format having different coordinates of a character area, a method has been proposed in which a ruled line is extracted and a portion surrounded by the ruled line is recognized.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上述の
ように文書の特定の場所について文字認識を行う技術で
は、複数種類のフォーマットに対応出来なかったり、ス
キャナ等でイメージを読み取る際に読取対象の項目の位
置が、所定の位置以外にずれないようにする等の手間が
必要となる。
However, the technique of performing character recognition at a specific location in a document as described above cannot support a plurality of types of formats, and cannot read an item to be read when an image is read by a scanner or the like. Is required to prevent the position from being shifted to a position other than the predetermined position.

【0005】また、罫線を抽出して文字認識位置を特定
する技術では、複雑な表等の罫線を有する文書を処理す
る場合において、そのフォーマットが予めわかっていて
も、傾斜、かすれ、位置のずれ、大きさの違い等の要因
があると罫線の抽出ができなくなったり、テキスト等を
誤って罫線としてしまうこと等があり、正確な文字認識
が困難となるといった問題があった。
In the technique of extracting a ruled line to specify a character recognition position, when processing a document having a ruled line such as a complicated table, even if the format is known in advance, the inclination, the blur, and the displacement of the position are determined. If there are factors such as differences in size, ruled lines cannot be extracted, or text or the like may be erroneously formed as ruled lines, which makes accurate character recognition difficult.

【0006】本発明は上記の問題に鑑みてなされたもの
であり、文書中の各項目について文字認識を行うような
場合に、文書フォーマットの相違に柔軟に対応できる文
字認識装置及びその方法を提供することを目的とする。
The present invention has been made in view of the above problems, and provides a character recognition apparatus and method capable of flexibly coping with differences in document formats when character recognition is performed for each item in a document. The purpose is to do.

【0007】また、本発明は、文書中の各項目について
適切な文字認識処理を行うことにより、より正確な文字
認識を可能とすることを目的とする。
Another object of the present invention is to enable more accurate character recognition by performing appropriate character recognition processing on each item in a document.

【0008】[0008]

【課題を解決するための手段】上記の目的を達成する本
発明の一態様による文字認識装置は、例えば次のような
構成を備える。すなわち、画像を色情報に基づいて複数
の領域に分割する領域分割手段と、前記領域分割手段に
よって得られた各領域の色情報に基づいて各領域にデー
タ属性を設定する属性設定手段と、前記設定手段によっ
て設定されたデータ属性に基づいて、前記各領域毎に文
字認識処理の処理条件を設定する認識処理設定手段と、
前記認識処理設定手段で設定された処理条件で、前記各
領域毎のイメージについて文字認識処理を行う文字認識
手段とを備える。
The character recognition apparatus according to one aspect of the present invention that achieves the above object has, for example, the following configuration. That is, an area dividing unit that divides an image into a plurality of areas based on color information, an attribute setting unit that sets a data attribute to each area based on color information of each area obtained by the area dividing unit, Recognition processing setting means for setting processing conditions of character recognition processing for each of the regions based on the data attribute set by the setting means;
A character recognizing unit that performs a character recognizing process on the image of each area under the processing conditions set by the recognition process setting unit.

【0009】また、上記の目的を達成する本発明の他の
態様である文字認識方法は、たとえば次のような各工程
を備える。すなわち、画像を色情報に基づいて複数の領
域に分割する領域分割工程と、前記領域分割工程によっ
て得られた各領域の色情報に基づいて各領域にデータ属
性を設定する属性設定工程と、前記設定工程によって設
定されたデータ属性に基づいて、前記各領域毎に文字認
識処理の処理条件を設定する認識処理設定工程と、前記
認識処理設定工程で設定された処理条件で、前記各領域
毎のイメージについて文字認識処理を行う文字認識工程
とを備える。
A character recognition method according to another embodiment of the present invention for achieving the above object includes, for example, the following steps. That is, an area dividing step of dividing an image into a plurality of areas based on color information, an attribute setting step of setting a data attribute in each area based on the color information of each area obtained in the area dividing step, A recognition processing setting step of setting a processing condition of character recognition processing for each of the areas based on the data attribute set in the setting step; and a processing condition set in the recognition processing setting step. A character recognition step of performing character recognition processing on the image.

【0010】[0010]

【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な一実施形態を説明する。
Preferred embodiments of the present invention will be described below with reference to the accompanying drawings.

【0011】図1は本実施形態の文字認識装置の構成を
表すブロック図である。図1において、101は画像原
稿に光を照射し、その反射光を読み取り電気信号に変換
するスキャナ、102はスキャナ101で得られた電気
信号を2値のデジタル電気信号に変換し他の装置構成要
素に伝送するためのスキャナインタフェース回路であ
る。103はディスプレイのウィンドウ上で所望とする
座標を入力するためのポインティングデバイス(本例で
はマウス)、104はポインティングデバイス103か
らの信号を受け、それを他の装置構成要素に伝送するた
めのインターフェース回路である。105は装置全体の
制御及び項目識別処理等を実行するためのCPU、10
6はCPU105が実行する制御プログラム、各種処理
プログラムやフォントデータなどを格納しているRO
M、107はCPU105による文書画像の展開処理や
項目識別処理のための作業領域などとして用いられるR
AMである。
FIG. 1 is a block diagram showing the configuration of the character recognition device of the present embodiment. In FIG. 1, reference numeral 101 denotes a scanner which irradiates an image original with light and reads the reflected light and converts the read light into an electric signal; and 102, converts the electric signal obtained by the scanner 101 into a binary digital electric signal and converts other devices A scanner interface circuit for transmitting to the element. Reference numeral 103 denotes a pointing device (mouse in this example) for inputting desired coordinates on a window of the display, and 104 denotes an interface circuit for receiving a signal from the pointing device 103 and transmitting the signal to another device component. It is. A CPU 105 controls the entire apparatus and executes an item identification process and the like.
Reference numeral 6 denotes an RO storing control programs executed by the CPU 105, various processing programs, font data, and the like.
Reference numerals M and 107 denote R used as a work area for document image development processing and item identification processing by the CPU 105.
AM.

【0012】また、108は入力イメージ等を表示する
ためのディスプレイ、109はディスプレイインターフ
ェース回路である。ディスプレイ108には、RAM1
07の所定アドレスエリアであるVRAM領域に格納さ
れているイメージが表示される。110は、登録された
データが格納されるハードディスク等の外部記憶装置
で、111はそのインタフェースである。なお、外部記
憶装置110には、項目変換データベース110a、対
象文字種限定データベース110bが格納されている。
コレラデータベースについては後述する。そして112
は各装置構成要素を接続するバスである。なお、CPU
105が実行する制御プログラムを外部記憶装置110
に格納しておき、必要に応じてRAM107にロード
し、これをCPU105が実行するように構成してもよ
い。
Reference numeral 108 denotes a display for displaying an input image or the like, and reference numeral 109 denotes a display interface circuit. The display 108 has a RAM 1
The image stored in the VRAM area which is the predetermined address area 07 is displayed. 110 is an external storage device such as a hard disk in which registered data is stored, and 111 is its interface. The external storage device 110 stores an item conversion database 110a and a target character type limitation database 110b.
The cholera database will be described later. And 112
Is a bus connecting each device component. In addition, CPU
Control program executed by the external storage device 110
May be stored in the RAM 107 and loaded into the RAM 107 as needed, and the CPU 105 may execute the program.

【0013】次に本実施形態の文字認識装置による処理
れについて図2のフローチャート、図3、図4、図5、
および図6を参照して説明する。図2は第1の実施形態
による文字認識装置の動作手順を説明するフローチャー
トである。図3は、本実施形態のブロック領域データの
構造例を示す図である。また、図4は、本実施形態の項
目変換データベース110aにおける項目変換テーブル
例を示す図である。図5は、本実施形態の文字認識装置
で読取を行う文書の例を示す図である。図6は、対象字
種限定データベースの対象字種テーブル110bの例を
示す図である。
Next, the processing performed by the character recognition apparatus according to the present embodiment will be described with reference to the flowchart of FIG. 2, FIGS. 3, 4, 5, and 5.
This will be described with reference to FIG. FIG. 2 is a flowchart illustrating an operation procedure of the character recognition device according to the first embodiment. FIG. 3 is a diagram illustrating a structure example of block area data according to the present embodiment. FIG. 4 is a diagram illustrating an example of an item conversion table in the item conversion database 110a according to the present embodiment. FIG. 5 is a diagram illustrating an example of a document to be read by the character recognition device of the present embodiment. FIG. 6 is a diagram illustrating an example of the target character type table 110b of the target character type restriction database.

【0014】まず、ステップS201で、認識しようと
する文書(例えば図5の文書)をスキャナ101で読み
込み、nビットのカラー画像データに変換する。得られ
た入力画像データに対してステップS202で領域識別
処理を行う。この領域識別処理では、文書のバックグラ
ウンドのカラー毎にブロック領域を抽出し、その色情報
並びにレイアウト情報をブロックデータとして記憶す
る。本実施形態では、図3に示す例のように、色情報と
して「色」、レイアウト情報として「座標」「属性」
「組方向」がブロックデータとして記憶される。
First, in step S201, a document to be recognized (for example, the document shown in FIG. 5) is read by the scanner 101 and converted into n-bit color image data. An area identification process is performed on the obtained input image data in step S202. In this area identification processing, a block area is extracted for each background color of the document, and its color information and layout information are stored as block data. In the present embodiment, as in the example shown in FIG. 3, “color” is used as color information, and “coordinates” and “attributes” are used as layout information.
“Assembly direction” is stored as block data.

【0015】次に項目情報変換処理(ステップS20
3)を行う。項目情報変換処理では、外侮記憶装置11
0に格納されている項目変換データベース110aの項
目変換テーブルを参照して、各ブロック領域毎の色情報
から各ブロック領域毎に項目情報を得る。本実施形態の
場合、認識しようとする文書(図5)は「住所録」であ
るので、項目変換データベース「住所録」用の(図4)
を用いる。
Next, item information conversion processing (step S20)
Perform 3). In the item information conversion process, the insult storage device 11
The item information is obtained for each block area from the color information for each block area with reference to the item conversion table of the item conversion database 110a stored in “0”. In the case of the present embodiment, since the document to be recognized (FIG. 5) is “address book”, it is used for the item conversion database “address book” (FIG. 4).
Is used.

【0016】例えば図5のブロック502は色情報がカ
ラーDであるので、項目変換データベース110a(図
4)により項目「住所」に変換され、ブロックデータの
項目番号に「4」というデータがセットされる。なお、
本実施形態では項目番号をブロックデータの認識順序に
もセットすることで認識処理順序の設定を同時に実行し
ている。すなわち、項目番号の値がそのまま認識順序の
値となる。
For example, since the color information of the block 502 in FIG. 5 is color D, it is converted into the item "address" by the item conversion database 110a (FIG. 4), and the data "4" is set in the item number of the block data. You. In addition,
In the present embodiment, the setting of the recognition processing order is performed simultaneously by setting the item number also in the recognition order of the block data. That is, the value of the item number becomes the value of the recognition order as it is.

【0017】次に認識設定選択処理(ステップS20
4)では、文字認識の対象字種の限定の設定の選択を行
なう。本実施形態の場合、外侮記憶装置110に格納さ
れている対象字種限定データベース110bは各文書フ
ォーマットごとに対象字種限定テーブルを有しており、
ブロックデータ毎に対象字種限定テーブル(図6)を参
照して項目番号から文字認識の対象字種を選択する。例
えば、ブロックデータに項目番号「3」が設定されてい
る場合は対象字種限定テーブル(図6)から文字認識の
対象字種として「数字」が選択される。
Next, a recognition setting selection process (step S20)
In 4), a setting for limiting the character type to be subjected to character recognition is selected. In the case of this embodiment, the target character type limitation database 110b stored in the external storage device 110 has a target character type limitation table for each document format,
The target character type for character recognition is selected from the item numbers with reference to the target character type limitation table (FIG. 6) for each block data. For example, when the item number “3” is set in the block data, “numeric” is selected as the target character type for character recognition from the target character type limitation table (FIG. 6).

【0018】次に文字認識処理(ステップS205)で
は、ブロックデータの認識順序の順番すなわち項目番号
順に、各ブロック領域内の文字を対象字種に選択された
字種を対象として文字認識を実行する。
Next, in the character recognition processing (step S205), character recognition is performed for the character type selected as the target character type in each block area in the order of the recognition order of the block data, that is, in the order of the item numbers. .

【0019】以上説明したように、第1の実施形態によ
れば、フォーマットの形状が異なる帳票等の文書につい
て処理を行おうとした場合、項目情報(色と項目の対
応)が同じものであれば、同じ種類のフォーマットで文
字認識処理が可能となる。
As described above, according to the first embodiment, when processing is performed on a document such as a form having a different format, if the item information (correspondence between color and item) is the same, The character recognition processing can be performed in the same type of format.

【0020】また、第1の実施形態によれば、各ブロッ
ク領域に認識対象となる字種が設定されるので、文字認
識精度を向上させることができる。
Further, according to the first embodiment, since the character type to be recognized is set in each block area, the character recognition accuracy can be improved.

【0021】[第2の実施形態]上記第1の実施形態で
は、認識設定選択処理(ステップS204)において文
字認識処理における認識対象字種を制限したが、これに
限らない。第2の実施形態では、図2の認識設定選択処
理(ステップS204)において、文字認識に使用する
認識辞書の選択を行なうように構成する。すなわち、外
部記憶装置110に、予め、文書フォーマットごとに図
7のような認識辞書対応テーブルを有する認識辞書デー
タベースを用意しておく。そして、ブロック領域毎にこ
の認識辞書対応テーブル(図7)を参照し、各ブロック
領域に設定されている項目番号から各ブロック領域の文
字認識に使用する辞書を選択する。
[Second Embodiment] In the first embodiment, the recognition target character type in the character recognition processing is limited in the recognition setting selection processing (step S204). However, the present invention is not limited to this. In the second embodiment, in the recognition setting selection process (step S204) of FIG. 2, a configuration is adopted in which a recognition dictionary used for character recognition is selected. That is, a recognition dictionary database having a recognition dictionary correspondence table as shown in FIG. 7 for each document format is prepared in the external storage device 110 in advance. Then, referring to the recognition dictionary correspondence table (FIG. 7) for each block area, a dictionary used for character recognition of each block area is selected from the item numbers set in each block area.

【0022】次に図2の文字認識処理(ステップS20
5)においては、第1の実施形態と同様に各ブロック領
域に設定された項目番号の順序に従って処理が実行され
るが、各ブロック領域について文字認識処理を行うに際
しては、認識設定選択処理(ステップS204)におい
て各ブロック領域毎に設定された認識辞書が用いられ
る。
Next, the character recognition process of FIG. 2 (step S20)
In 5), the processing is executed in the order of the item numbers set in each block area as in the first embodiment. However, when performing the character recognition processing for each block area, the recognition setting selection processing (step In S204), the recognition dictionary set for each block area is used.

【0023】例えばブロックデータに項目番号「3」が
設定されているブロック領域に対しては、認識辞書対応
テーブル(図7)から文字認識に使用する辞書として
「数字辞書」が選択される(ステップS204)。そし
て、文字認識処理(ステップS205)においては、当
該ブロック領域の項目番号(3)によって決定される処
理順序にて、「数字辞書」を用いた文字認識処理が行わ
れる。
For example, for a block area in which item number "3" is set in the block data, "numerical dictionary" is selected from the recognition dictionary correspondence table (FIG. 7) as a dictionary used for character recognition (step). S204). Then, in the character recognition processing (step S205), the character recognition processing using the “numeric dictionary” is performed in the processing order determined by the item number (3) of the block area.

【0024】以上のように第2の実施形態によれば、各
ブロック領域に適切な専用辞書を用いることができるの
で、文字認識精度を向上させることができる。
As described above, according to the second embodiment, since an appropriate dedicated dictionary can be used for each block area, the accuracy of character recognition can be improved.

【0025】[第3の実施形態]上記第1、第2の実施
形態では、認識設定選択処理において、各ブロックに設
定された項目番号に従って認識処理における認識対象文
字を制限したり、認識辞書を切り替えたりして、認識処
理そのものを制御した。第3の実施形態では、認識設定
選択処理において、文字認識結果の補正に使用する単語
照合用辞書の選択を行なう。
[Third Embodiment] In the first and second embodiments, in the recognition setting selection processing, the characters to be recognized in the recognition processing are restricted according to the item numbers set in the respective blocks, and the recognition dictionary is not changed. Switching and controlling the recognition process itself. In the third embodiment, in the recognition setting selection process, a word collation dictionary used for correcting the character recognition result is selected.

【0026】図8は第3の実施形態による文字認識装置
の動作手順を説明するフローチャートである。また、図
9は第3の実施形態の単語照合用辞書データベースにお
ける単語照合用辞書対応テーブルの一例を示す図であ
る。第3の実施形態では、図9のような単語照合用辞書
テーブルを文書フォーマット毎に有する単語照合用辞書
データベースが、外部記憶装置110に格納されてい
る。
FIG. 8 is a flowchart for explaining the operation procedure of the character recognition device according to the third embodiment. FIG. 9 is a diagram showing an example of a word matching dictionary correspondence table in the word matching dictionary database according to the third embodiment. In the third embodiment, a word matching dictionary database having a word matching dictionary table as shown in FIG. 9 for each document format is stored in the external storage device 110.

【0027】図8において図2と同様の処理を行うステ
ップについては同じステップ番号を付し、ここでは説明
を省略する。認識設定選択処理(ステップS904)で
は、ブロックデータ毎に単語照合用辞書データベース
(図8)を参照し、項目番号から単語照合処理(ステッ
プS906)に使用する単語照合用辞書を選択する。ス
テップS905では、項目番号で示される順序に従っ
て、各ブロック領域内のイメージについて文字認識処理
を行う。そして、ステップS906では、項目番号順
に、各ブロック領域内の認識結果の文字を、選択された
単語照合用辞書を使用して単語照合を行ない、文字認識
結果の誤りを補正する。
In FIG. 8, steps for performing the same processing as in FIG. 2 are denoted by the same step numbers, and description thereof is omitted here. In the recognition setting selecting process (step S904), the word matching dictionary used in the word matching process (step S906) is selected from the item numbers by referring to the word matching dictionary database (FIG. 8) for each block data. In step S905, character recognition processing is performed on the image in each block area in the order indicated by the item numbers. In step S906, the characters of the recognition result in each block area are subjected to word matching using the selected word matching dictionary in the order of the item numbers, and errors in the character recognition result are corrected.

【0028】例えば、ブロックデータの項目番号に
「4」が設定されている場合は、単語照合用辞書データ
ベース(図8)から単語照合に使用する辞書として「地
名辞書」が選択される。文字認識処理(ステップS90
5)の後の単語照合処理(ステップS906)では、当
該ブロックに対する文字認識処理の結果が、認識設定選
択処理(ステップS904)において選択された単語照
合用辞書によって検証、補正される。
For example, when "4" is set as the item number of the block data, "place name dictionary" is selected as a dictionary used for word matching from the word matching dictionary database (FIG. 8). Character recognition processing (step S90)
In the word matching process after step 5) (step S906), the result of the character recognition process for the block is verified and corrected by the word matching dictionary selected in the recognition setting selection process (step S904).

【0029】なお、第3の実施形態におけるステップS
905とS906の2つの処理は、各ブロック領域毎に
続けて実行され、全ブロック領域について処理を行うべ
くステップS905とS906の2つの処理が繰り返さ
れるように構成してもよいことは明らかである。
Note that step S in the third embodiment is performed.
Obviously, the two processes 905 and S906 may be performed successively for each block region, and the two processes of steps S905 and S906 may be repeated to perform the process for all block regions. .

【0030】また、第1或いは第2の実施形態を第3の
実施形態と組み合わせて、認識対象の制限或いは認識辞
書の切り替えを行って文字認識処理を行い、更にステッ
プS906の単語照合処理を行うようにしてもよい。
In addition, the first or second embodiment is combined with the third embodiment to limit the recognition target or switch the recognition dictionary to perform the character recognition process, and further perform the word matching process in step S906. You may do so.

【0031】なお、上記各実施形態において、項目変換
データベース、対象字種限定データベース、認識辞書デ
ータベース、単語照合用辞書データベースは、各種文書
フォーマット毎に対応テーブルを有し、処理対象となる
文書フォーマットを、マウス103等の入力装置を用い
て利用者が指定することにより、指定された文書フォー
マットに対応するテーブルが用いられる用に制御され
る。
In each of the above embodiments, the item conversion database, the target character type limitation database, the recognition dictionary database, and the word collation dictionary database have a correspondence table for each of various document formats. When the user specifies using the input device such as the mouse 103, the table corresponding to the specified document format is controlled to be used.

【0032】以上のように第3の実施形態によれば、ブ
ロック領域の項目に応じて単語照合処理が切り替わるの
で、文字認識結果に対してより適切な補正を行うことが
できる。
As described above, according to the third embodiment, the word collation processing is switched according to the items in the block area, so that a more appropriate correction can be performed on the character recognition result.

【0033】以上説明した様に、上記各実施形態によれ
ば、色情報を項目情報に変換し、項目情報から文字認識
に関連する処理の設定がなされる。このため、 帳票等の文書の文字認識処理が正確になる、 文字領域の座標や罫線等の形状の異なる文書、すなわ
ちフォーマット形状の異なる文書について、同じ文書フ
ォーマットとして文字認識処理が行える、 色情報で項目を認識するので、スキャナ等によるイメ
ージを読込みの際の項目のずれに対処できる、 項目内容に応じた正確な文字認識、或いは項目内容に
応じた文字認識の誤りの正確な訂正が可能になる、 文書読み込みの際の厳密な位置合わせが不要となり、
操作性が向上する、 処理全体の時間の短縮等がはかれる、等の効果があ
る。
As described above, according to the above embodiments, color information is converted into item information, and processing related to character recognition is set from the item information. For this reason, character recognition processing of documents such as forms becomes accurate. Character recognition processing can be performed as the same document format for documents having different shapes such as character area coordinates and ruled lines, that is, documents having different format shapes. Recognize items, so it is possible to deal with item deviations when reading images with a scanner, etc. It is possible to perform accurate character recognition according to item contents or correct character recognition errors according to item contents , Strict alignment is unnecessary when reading documents,
This has the effect of improving operability, shortening the overall processing time, and the like.

【0034】なお、本発明は、複数の機器(例えばホス
トコンピュータ,インタフェイス機器,リーダ,プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機,ファクシミリ装置
など)に適用してもよい。
The present invention can be applied to a system including a plurality of devices (for example, a host computer, an interface device, a reader, a printer, etc.), but can be applied to a single device (for example, a copier, a facsimile). Device).

【0035】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
An object of the present invention is to provide a storage medium storing a program code of software for realizing the functions of the above-described embodiments to a system or an apparatus, and a computer (or CPU) of the system or apparatus.
And MPU) read and execute the program code stored in the storage medium.

【0036】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention.

【0037】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
As a storage medium for supplying the program code, for example, a floppy disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD
-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.

【0038】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
When the computer executes the readout program code, not only the functions of the above-described embodiment are realized, but also the OS (Operating System) running on the computer based on the instruction of the program code. ) May perform some or all of the actual processing, and the processing may realize the functions of the above-described embodiments.

【0039】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, based on the instruction of the program code, It goes without saying that the CPU included in the function expansion board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.

【0040】[0040]

【発明の効果】以上のように、本発明によれば、文書中
の各項目について文字認識を行うような場合に、文書フ
ォーマットの相違に柔軟に対応して、正確に文字認識を
行うことができる。
As described above, according to the present invention, when character recognition is performed for each item in a document, character recognition can be accurately performed flexibly in response to differences in document formats. it can.

【0041】[0041]

【図面の簡単な説明】[Brief description of the drawings]

【図1】本実施形態の文字認識装置の構成を表すブロッ
ク図である。
FIG. 1 is a block diagram illustrating a configuration of a character recognition device according to an embodiment.

【図2】第1の実施形態による文字認識装置の動作手順
を説明するフローチャートである。
FIG. 2 is a flowchart illustrating an operation procedure of the character recognition device according to the first embodiment.

【図3】第1の実施形態のブロック領域データの構造例
を示す図である。
FIG. 3 is a diagram illustrating a configuration example of block area data according to the first embodiment.

【図4】第1の実施形態の項目変換データベースにおけ
る項目変換テーブル例を示す図である。
FIG. 4 is a diagram illustrating an example of an item conversion table in an item conversion database according to the first embodiment.

【図5】本実施形態の文字認識装置で読取を行う文書の
例を示す図である。
FIG. 5 is a diagram showing an example of a document to be read by the character recognition device of the embodiment.

【図6】対象字種限定データベースの対象字種テーブル
の例を示す図である。
FIG. 6 is a diagram illustrating an example of a target character type table of a target character type restriction database.

【図7】第2の実施形態の認識辞書データベースにおけ
る認識辞書対応テーブルの一例を示す図である。
FIG. 7 is a diagram illustrating an example of a recognition dictionary correspondence table in a recognition dictionary database according to a second embodiment.

【図8】第3の実施形態による文字認識装置の動作手順
を説明するフローチャートである。
FIG. 8 is a flowchart illustrating an operation procedure of the character recognition device according to the third embodiment.

【図9】第3の実施形態の単語照合用辞書データベース
における単語照合用辞書対応テーブルの一例を示す図で
ある。
FIG. 9 is a diagram illustrating an example of a word matching dictionary correspondence table in the word matching dictionary database according to the third embodiment.

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 画像を色情報に基づいて複数の領域に分
割する領域分割手段と、 前記領域分割手段によって得られた各領域の色情報に基
づいて各領域にデータ属性を設定する属性設定手段と、 前記設定手段によって設定されたデータ属性に基づい
て、前記各領域毎に文字認識処理の処理条件を設定する
認識処理設定手段と、 前記各領域毎のイメージについて、前記認識処理設定手
段で設定された処理条件で文字認識処理を行う文字認識
手段とを備えることを特徴とする文字認識装置。
1. An area dividing means for dividing an image into a plurality of areas based on color information, and an attribute setting means for setting a data attribute to each area based on the color information of each area obtained by the area dividing means. Recognition processing setting means for setting processing conditions of character recognition processing for each of the areas based on the data attributes set by the setting means; and setting of the image for each area by the recognition processing setting means. And a character recognizing means for performing a character recognizing process under the set processing conditions.
【請求項2】 前記属性設定手段は、色情報とデータ属
性とを対応させた変換テーブルを有し、前記領域分割手
段によって得られた各領域の色情報に対応するデータ属
性を該変換テーブルを参照して獲得し、該各領域に設定
することを特徴とする請求項1に記載の文字認識装置。
2. The attribute setting means has a conversion table in which color information and data attributes are associated with each other, and converts the data attribute corresponding to the color information of each area obtained by the area dividing means into the conversion table. 2. The character recognition apparatus according to claim 1, wherein the character recognition apparatus acquires the information by referring to and sets the area.
【請求項3】 前記データ属性は処理順序を含み、 前記文字認識手段は、前記データ属性で示される処理順
序に従って、前記認識処理設定手段で設定された処理条
件で各領域に対する文字認識処理を実行することを特徴
とする請求項1に記載の文字認識装置。
3. The data attribute includes a processing order, and the character recognizing unit executes a character recognizing process for each area according to a processing condition set by the recognition process setting unit in accordance with the processing order indicated by the data attribute. The character recognition device according to claim 1, wherein the character recognition is performed.
【請求項4】 前記データ属性は各領域のデータ項目を
表すことを特徴とする請求項1に記載の文字認識装置。
4. The character recognition device according to claim 1, wherein the data attribute represents a data item of each area.
【請求項5】 前記認識処理設定手段は、前記設定手段
によって設定されたデータ属性に基づいて、前記各領域
毎に文字認識の対象字種の限定を行うことを特徴とする
請求項1に記載の文字認識装置。
5. The apparatus according to claim 1, wherein the recognition processing setting unit limits the character type to be subjected to character recognition for each of the areas based on the data attribute set by the setting unit. Character recognition device.
【請求項6】 前記認識処理設定手段は、前記設定手段
によって設定されたデータ属性に基づいて、文字認識に
使用する認識辞書の選択を行なうことを特徴とする請求
項1に記載の文字認識装置。
6. The character recognition apparatus according to claim 1, wherein the recognition processing setting means selects a recognition dictionary to be used for character recognition based on the data attribute set by the setting means. .
【請求項7】 前記文字認識手段によって認識された結
果を単語照合用辞書を参照して補正する単語照合手段を
更に備え、 前記認識処理設定手段は、前記設定手段によって設定さ
れたデータ属性に基づいて、前記単語照合手段で使用さ
れる単語照合用辞書を選択する、 ことを特徴とする請求項1に記載の文字認識装置。
7. A word matching means for correcting a result recognized by the character recognition means with reference to a word matching dictionary, wherein the recognition processing setting means is based on a data attribute set by the setting means. 2. The character recognition device according to claim 1, wherein a word matching dictionary used by said word matching means is selected.
【請求項8】 画像を色情報に基づいて複数の領域に分
割する領域分割工程と、 前記領域分割工程によって得られた各領域の色情報に基
づいて各領域にデータ属性を設定する属性設定工程と、 前記設定工程によって設定されたデータ属性に基づい
て、前記各領域毎に文字認識処理の処理条件を設定する
認識処理設定工程と、 前記各領域毎のイメージについて、前記認識処理設定工
程で設定された処理条件で文字認識処理を行う文字認識
工程とを備えることを特徴とする文字認識方法。
8. An area dividing step of dividing an image into a plurality of areas based on color information, and an attribute setting step of setting a data attribute in each area based on the color information of each area obtained in the area dividing step. A recognition processing setting step of setting processing conditions of character recognition processing for each of the regions based on the data attributes set in the setting step; and setting the image of each region in the recognition processing setting step. A character recognition step of performing a character recognition process under the set processing conditions.
【請求項9】 前記属性設定工程は、色情報とデータ属
性とを対応させた変換テーブルを有し、前記領域分割工
程によって得られた各領域の色情報に対応するデータ属
性を該変換テーブルを参照して獲得し、該各領域に設定
することを特徴とする請求項8に記載の文字認識方法。
9. The attribute setting step includes a conversion table in which color information and data attributes are associated with each other. The data attribute corresponding to the color information of each area obtained in the area dividing step is stored in the conversion table. 9. The character recognition method according to claim 8, wherein the character recognition method is obtained by referring to and setting the respective areas.
【請求項10】 前記データ属性は処理順序を含み、 前記文字認識工程は、前記データ属性で示される処理順
序に従って、前記認識処理設定工程で設定された処理条
件で各領域に対する文字認識処理を実行することを特徴
とする請求項8に記載の文字認識方法。
10. The data attribute includes a processing order, and the character recognizing step executes a character recognizing process for each area in accordance with the processing order indicated by the data attribute under the processing conditions set in the recognition process setting step. 9. The character recognition method according to claim 8, wherein the character recognition is performed.
【請求項11】 前記データ属性は各領域のデータ項目
を表すことを特徴とする請求項8に記載の文字認識方
法。
11. The character recognition method according to claim 8, wherein the data attribute represents a data item of each area.
【請求項12】 前記認識処理設定工程は、前記設定工
程によって設定されたデータ属性に基づいて、前記各領
域毎に文字認識の対象字種の限定を行うことを特徴とす
る請求項8に記載の文字認識方法。
12. The character recognition method according to claim 8, wherein in the recognition processing setting step, a character type to be subjected to character recognition is limited for each of the areas based on the data attribute set in the setting step. Character recognition method.
【請求項13】 前記認識処理設定工程は、前記設定工
程によって設定されたデータ属性に基づいて、文字認識
に使用する認識辞書の選択を行なうことを特徴とする請
求項8に記載の文字認識方法。
13. The character recognition method according to claim 8, wherein said recognition processing setting step selects a recognition dictionary to be used for character recognition based on the data attribute set in said setting step. .
【請求項14】 前記文字認識工程によって認識された
結果を単語照合用辞書を参照して補正する単語照合工程
を更に備え、 前記認識処理設定工程は、前記設定工程によって設定さ
れたデータ属性に基づいて、前記単語照合工程で使用さ
れる単語照合用辞書を選択する、 ことを特徴とする請求項8に記載の文字認識方法。
14. A word matching step for correcting a result recognized in the character recognition step with reference to a word matching dictionary, wherein the recognition processing setting step is based on the data attribute set in the setting step. 9. The character recognition method according to claim 8, wherein a word matching dictionary used in the word matching step is selected.
【請求項15】 文字認識処理のための制御プログラム
を格納する記憶媒体であって、該制御プログラムが、 画像を色情報に基づいて複数の領域に分割する領域分割
工程のコードと、 前記領域分割工程によって得られた各領域の色情報に基
づいて各領域にデータ属性を設定する属性設定工程のコ
ードと、 前記設定工程によって設定されたデータ属性に基づい
て、前記各領域毎に文字認識処理の処理条件を設定する
認識処理設定工程のコードと、 前記認識処理設定工程で設定された処理条件で、前記各
領域毎のイメージについて文字認識処理を行う文字認識
工程のコードとを備えることを特徴とする記憶媒体。
15. A storage medium for storing a control program for character recognition processing, the control program comprising: a code for an area dividing step of dividing an image into a plurality of areas based on color information; A code of an attribute setting step of setting a data attribute in each area based on the color information of each area obtained in the step; and a character recognition process for each of the areas based on the data attribute set in the setting step. A code of a recognition processing setting step of setting processing conditions; and a code of a character recognition step of performing character recognition processing on the image of each area under the processing conditions set in the recognition processing setting step. Storage media.
JP10024885A 1998-02-05 1998-02-05 Device and method for recognizing character Withdrawn JPH11224306A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10024885A JPH11224306A (en) 1998-02-05 1998-02-05 Device and method for recognizing character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10024885A JPH11224306A (en) 1998-02-05 1998-02-05 Device and method for recognizing character

Publications (1)

Publication Number Publication Date
JPH11224306A true JPH11224306A (en) 1999-08-17

Family

ID=12150652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10024885A Withdrawn JPH11224306A (en) 1998-02-05 1998-02-05 Device and method for recognizing character

Country Status (1)

Country Link
JP (1) JPH11224306A (en)

Similar Documents

Publication Publication Date Title
US6466694B2 (en) Document image processing device and method thereof
JP3996579B2 (en) Form processing system for identifying active areas of machine-readable forms
US5257074A (en) Image forming apparatus
JP2835178B2 (en) Document reading device
US7453594B2 (en) Document filing apparatus for storing information added to a document file
JP2002203207A (en) Character recognizing method and program, and recording medium
EP1202213A2 (en) Document format identification apparatus and method
JP2000322417A (en) Device and method for filing image and storage medium
JPH11224306A (en) Device and method for recognizing character
JP3171626B2 (en) Character recognition processing area / processing condition specification method
JPH0991371A (en) Character display device
JPH11224308A (en) Device and method for recognizing character
JP2001028032A (en) Image information processor and mark sheet
JP3056950B2 (en) Character recognition apparatus and method
JPH11203402A (en) Image processor and its method
JP2933178B2 (en) Character recognition method for optical character reader
JPH09114919A (en) Device, and method for recognizing character, and storage medium
JPS61131082A (en) Rejected character display system of ocr
JPS594358Y2 (en) Character control device in character correction
JP3412998B2 (en) Image processing apparatus and method
JPH0981672A (en) Document reader
JPH01292586A (en) Back-up device for recognition of character
JPH09218741A (en) Information controller and its control method
KR20060064288A (en) Copy system and method for mosaicing document
JPH11224307A (en) Device and method for recognizing document

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050405