JP5098504B2 - Character recognition program, character recognition device, and character recognition method - Google Patents

Character recognition program, character recognition device, and character recognition method Download PDF

Info

Publication number
JP5098504B2
JP5098504B2 JP2007208612A JP2007208612A JP5098504B2 JP 5098504 B2 JP5098504 B2 JP 5098504B2 JP 2007208612 A JP2007208612 A JP 2007208612A JP 2007208612 A JP2007208612 A JP 2007208612A JP 5098504 B2 JP5098504 B2 JP 5098504B2
Authority
JP
Japan
Prior art keywords
character
partial
image
images
mesh
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007208612A
Other languages
Japanese (ja)
Other versions
JP2009043102A (en
Inventor
浩明 武部
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007208612A priority Critical patent/JP5098504B2/en
Priority to US12/153,015 priority patent/US20090041361A1/en
Priority to CN2008101082592A priority patent/CN101364267B/en
Publication of JP2009043102A publication Critical patent/JP2009043102A/en
Application granted granted Critical
Publication of JP5098504B2 publication Critical patent/JP5098504B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

本発明は、入力画像内の文字を認識する文字認識プログラム、文字認識装置および文字認識方法であって、文字以外のパターンが重畳した文字画像を高精度に認識する文字認識プログラム、文字認識装置および文字認識方法に関するものである。   The present invention relates to a character recognition program, a character recognition device, and a character recognition method for recognizing characters in an input image, the character recognition program for recognizing a character image on which a pattern other than characters is superimposed, a character recognition device, and The present invention relates to a character recognition method.

従来、文字認識で予め文字パターンやその特徴量を文字種別ごとに辞書として記憶しておき、認識対象画像との比較演算により類似度を求め、類似度の最も高い文字種別を認識結果として出力する手法が用いられてきた。   Conventionally, character patterns and their feature quantities are stored in advance as a dictionary for each character type in character recognition, a similarity is obtained by comparison with a recognition target image, and a character type with the highest similarity is output as a recognition result. Techniques have been used.

このように文字パターンの特徴量から文字種別を認識する場合、認識対象画像内で文字が他の文字や記号と接触していると、文字パターンの形状が損なわれて特徴量を正しく算出できず、認識精度が著しく低下する。これに対し、従来の技術では、接触した複数のパターンを分離して、文字認識を行なう技術が知られている。   In this way, when recognizing the character type from the feature amount of the character pattern, if the character is in contact with other characters or symbols in the recognition target image, the shape of the character pattern is damaged and the feature amount cannot be calculated correctly. , Recognition accuracy is significantly reduced. On the other hand, in the conventional technique, a technique for recognizing characters by separating a plurality of touched patterns is known.

例えば特許文献1は、互いに接触する複数の文字パターンから構成される文字列パターンに対して、文字列パターンの外内輪郭部で検出した切断線端点の候補から各文字パターンの切断線と見なされる線分を構成する切断線端点のペアを抽出し、このペアの切断線端点を結ぶ線分で文字パターンの切出しを行なうことで、複雑に入り組んで接触している文字列でも正確な文字の切出しを実現する文字認識装置を開示している。   For example, Patent Document 1 regards a character string pattern composed of a plurality of character patterns in contact with each other as a cutting line of each character pattern from candidates of cutting line end points detected at the outer and inner contour portions of the character string pattern. By extracting a pair of cutting line end points that make up a line segment, and cutting out the character pattern at the line segment connecting the cutting line end points of this pair, it is possible to accurately cut out characters even in complicated and touching character strings Discloses a character recognition device.

また、特許文献2は、表形式の帳簿類を対象とした文字認識において、認識用辞書として罫線と接触しない文字用の辞書と、罫線と接触した文字用の辞書とを具備するとともに、認識対象領域における文字と罫線との接触の有無を判定し、判定結果に応じて文字認識に使用する辞書を選択することで、帳簿類の文字を高精度に認識する文字認識装置を開示している。   Patent Document 2 includes a character dictionary that does not contact a ruled line as a recognition dictionary and a character dictionary that contacts a ruled line as a recognition dictionary in character recognition for tabular books. There is disclosed a character recognition device that recognizes characters in a book with high accuracy by determining the presence or absence of contact between a character and a ruled line in an area and selecting a dictionary to be used for character recognition according to the determination result.

特開平6−111070号公報Japanese Patent Laid-Open No. 6-1111070 特開2001−22889号公報JP 2001-22889 A

しかしながら、上述した特許文献1では、文字パターン同士の接触している場合や、丸中文字列のように特定形状と文字パターンが接触している場合にしか適用することができない。また、上述した特許文献2においても同様に、文字パターンが罫線と接触している場合にしか適用することができない。   However, Patent Document 1 described above can be applied only when the character patterns are in contact with each other or when the specific shape and the character pattern are in contact like a circle character string. Similarly, the above-described Patent Document 2 can be applied only when a character pattern is in contact with a ruled line.

すなわち、上述した従来技術では、文字パターンに対して接触するパターンの形状が不明である場合には、文字認識を十分に行なうことができないという問題点があった。このため、例えば、申込書やアンケートの選択肢欄で文字列や番号を直接手書きでマークさせ、これらの内容をコンピュータで読み取るためには、文字とマークが重複したパターンから正しく文字を認識する必要があるが、ユーザが行うマークは形状もさまざまであり、文字パターンとの接触の仕方もさまざまであるので、従来の技術では十分に認識することができなかった。   That is, the above-described conventional technique has a problem in that character recognition cannot be sufficiently performed when the shape of the pattern contacting the character pattern is unknown. For this reason, for example, in order to mark a character string or number by handwriting directly in an application form or a choice field of a questionnaire and to read these contents by a computer, it is necessary to correctly recognize the character from a pattern in which the character and the mark overlap. However, since the mark made by the user has various shapes and various ways of contact with the character pattern, the conventional technology cannot sufficiently recognize the mark.

そこで、文字パターンとマークの重畳の形状に依存することなく、任意形状のパターンが重複した文字画像を高精度に文字認識する技術の実現が重要な課題となっていた。   Therefore, it has become an important issue to realize a technique for accurately recognizing a character image in which a pattern of an arbitrary shape is overlapped without depending on the shape of superimposed character patterns and marks.

本発明は、上述した従来技術における問題点を解消し、課題を解決するためになされたものであり、任意形状のパターンが重複した文字画像を高精度に文字認識する文字認識プログラム、文字認識装置および文字認識方法を提供することを目的とする。   The present invention has been made to solve the above-described problems in the prior art and to solve the problems, and a character recognition program and a character recognition device for accurately recognizing character images with overlapping patterns of arbitrary shapes. An object of the present invention is to provide a character recognition method.

上述した課題を解決し、目的を達成するために、本発明は、入力画像内の文字を認識する文字認識において、入力画像を複数の部分入力画像に分割し、分割によって得られた複数の部分入力画像の各々について特徴量を算出する。そして、複数の文字画像をそれぞれ複数の部分に分割して得られた各部分における部分文字画像の特徴量と、文字画像内における各部分文字画像の位置関係と、文字画像によって示される文字種別とを対応付けて記憶した検索テーブルを参照し、部分入力画像の各々について特徴量が類似する部分文字画像を検索する。さらに検索によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する。そして抽出した文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が文字種別によって示された文字の構成要素であると認識する。   In order to solve the above-described problems and achieve the object, the present invention divides an input image into a plurality of partial input images and recognizes a plurality of parts obtained by the division in character recognition for recognizing characters in the input image. A feature amount is calculated for each input image. Then, the feature amount of the partial character image in each part obtained by dividing the plurality of character images into a plurality of parts, the positional relationship of each partial character image in the character image, and the character type indicated by the character image, Are searched for partial character images having similar feature amounts for each of the partial input images. Further, a plurality of partial character images obtained by the search are totaled for each character type, and the positional relationship of the partial character images in each character type and the positional relationship in the input image of the partial input image corresponding to the partial character image The combination of partial input images that match the positional relationship of the partial character images is extracted as a character candidate. When the extracted character candidates have a predetermined number or more of partial input images, the partial input images of the character candidates are recognized as the constituent elements of the character indicated by the character type.

また、本発明は、上記発明において、複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成し、作成したグラフのクリークを文字候補として抽出することを特徴とする。   Further, according to the present invention, in the above invention, among the plurality of partial input images, a partial input image similar to a partial character image of the same character type is used as a node, and the relative positional relationship between the partial character images corresponding to each node The method is characterized in that a graph is created by connecting nodes in which the relative positional relationship between the partial input images corresponding to each node does not contradict, and a clique of the created graph is extracted as a character candidate.

また、本発明は、上記発明において、抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に文字種別によって示された文字が存在すると認識することを特徴とする。   Further, in the present invention, when the extracted character candidates have a predetermined number or more of partial input images, a rectangle circumscribing the combination of the partial input images is obtained and indicated by the character type in the rectangle. It is characterized by recognizing that a character exists.

また、本発明は、上記発明において、検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、文字画像内における各部分文字画像の位置関係と、文字画像によって示される文字種別とを対応付けて記憶することを特徴とする。   Further, according to the present invention, in the above invention, the search table is configured so that each partial character is obtained with respect to each partial character image obtained when division processing with different division sizes and / or division positions is performed on the same character image. The feature amount of the image, the positional relationship between the partial character images in the character image, and the character type indicated by the character image are stored in association with each other.

また、本発明は、上記発明において、検索テーブルは、部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して、文字画像内における各部分文字画像の位置関係と、文字画像によって示される文字種別とを対応付けて記憶することを特徴とする。   Further, according to the present invention, in the above invention, the search table associates a plurality of similar feature amounts with the partial character image, and for each of the plurality of feature amounts, each of the partial character images in the character image. The positional relationship and the character type indicated by the character image are stored in association with each other.

本発明によれば、入力画像内で文字パターンと重複していない部分入力画像を使用して文字領域の位置と文字カテゴリとを求めることができるので、任意形状のパターンが重複した文字画像を高精度に文字認識することができるという効果を奏する。   According to the present invention, the position of the character region and the character category can be obtained using the partial input image that does not overlap with the character pattern in the input image. There is an effect that characters can be recognized with high accuracy.

また、本発明によれば、複数の部分入力画像の位置関係をグラフ化し、クリーク抽出によって整合のとれた部分入力画像の組み合わせを求めるので、任意形状のパターンが重複した文字画像を高精度かつ高速に文字認識することができるという効果を奏する。   In addition, according to the present invention, the positional relationship between a plurality of partial input images is graphed, and a combination of partial input images that is matched by clique extraction is obtained. The effect is that the characters can be recognized.

また、本発明によれば、整合のとれた複数の部分入力画像の組み合わせに外接する矩形を文字領域とすることで、入力画像内で文字の存在する領域を簡易に特定することができるという効果を奏する。   In addition, according to the present invention, by making a rectangle circumscribing a combination of a plurality of matched partial input images as a character region, it is possible to easily specify a region where a character exists in the input image. Play.

また、本発明によれば、入力画像に対するメッシュ分割のサイズや位置のズレによる認識精度低下を防止し、高精度に文字認識を行なうことができるという効果を奏する。   In addition, according to the present invention, it is possible to prevent a reduction in recognition accuracy due to a mesh division size or position shift with respect to an input image and to perform character recognition with high accuracy.

また、本発明によれば、部分文字画像に対して類似する複数の特徴量を対応付けて検索テーブルに登録することで、部分入力画像に類似する部分文字画像を簡易に検索可能とし、もって文字認識速度を向上することができるという効果を奏する。   In addition, according to the present invention, a partial character image similar to the partial input image can be easily searched by associating and registering a plurality of similar feature amounts with respect to the partial character image in the search table. There is an effect that the recognition speed can be improved.

以下に、本発明にかかる文字認識プログラム、文字認識装置および文字認識方法の実施例を図面に基づいて詳細に説明する。   Embodiments of a character recognition program, a character recognition device, and a character recognition method according to the present invention will be described below in detail with reference to the drawings.

本発明にかかる文字認識では、入力画像に対して文字パターンと文字以外のパターンを分離することなく、文字パターンのうち重複のない部分を利用して文字を認識する。すなわち、図4に示すように入力画像内の文字列「1.配偶者」に手書きでマークがされ、文字が繋がってそれぞれの文字を分離することが困難な場合であっても、マークがない部分の特徴から「1.配偶者」の文字が存在することを認識する。   In character recognition according to the present invention, a character pattern is recognized using a non-overlapping portion of a character pattern without separating a character pattern and a pattern other than characters from an input image. That is, as shown in FIG. 4, there is no mark even when the character string “1. Spouse” in the input image is marked by handwriting and it is difficult to separate the characters by connecting the characters. It is recognized from the feature of the part that the character “1. Spouse” exists.

そのために、まず入力画像を分割し、分割によって得られた各部分入力画像の特徴がどの文字のどの部分に類似しているかを求める。そして、同一の文字の異なる部分にそれぞれ類似する複数の部分入力画像の位置関係が、対応する文字内での位置関係と整合が取れている場合に、それらの複数の部分入力画像が文字の一部であると認識する。   For this purpose, first, the input image is divided, and it is determined whether the character of each partial input image obtained by the division is similar to which part of which character. Then, when the positional relationship between a plurality of partial input images that are respectively similar to different portions of the same character is consistent with the positional relationship within the corresponding character, the plurality of partial input images are one of the characters. It is recognized as a part.

図1は、本発明の実施例にかかる文字認識の機能構成を示す機能構成図である。同図に示すように文字認識装置1は、その内部に入力部11、表示部12、画像読取部13、外部インターフェース14、記憶部15、制御部20を有する。   FIG. 1 is a functional configuration diagram showing a functional configuration of character recognition according to an embodiment of the present invention. As shown in the figure, the character recognition device 1 includes an input unit 11, a display unit 12, an image reading unit 13, an external interface 14, a storage unit 15, and a control unit 20 therein.

入力部11は、オペレータからの操作入力を受け付ける処理部であり、例えばキーボードなどによって実現される。また、表示部12は、オペレータに対して表示出力を行なう装置であり、例えば液晶ディスプレイなどによって実現される。   The input unit 11 is a processing unit that receives an operation input from an operator, and is realized by, for example, a keyboard. The display unit 12 is a device that performs display output to an operator, and is realized by, for example, a liquid crystal display.

画像読取部13は、入力画像を読み取る処理を行なう処理部であり、スキャナなどによって実現される。また外部インターフェース14は、外部の装置と接続してデータの送受信を行なう処理部である。   The image reading unit 13 is a processing unit that performs processing for reading an input image, and is realized by a scanner or the like. The external interface 14 is a processing unit that transmits and receives data by connecting to an external device.

記憶部15は、文字認識装置1が処理中に使用する各種データや、処理によって生成された各種データを記憶する記憶手段であり、同図に示した例では各文字カテゴリの局所的な特徴を示すハッシュテーブル16を記憶している。ここで、文字カテゴリとは文字種別、文字名を指す。   The storage unit 15 is a storage unit that stores various data used by the character recognition device 1 during processing and various data generated by the processing. In the example shown in FIG. A hash table 16 is stored. Here, the character category indicates a character type and a character name.

制御部20は、文字認識装置1を全体制御する制御部であり、その内部に認識処理部21およびハッシュテーブル登録部22を有する。ハッシュテーブル登録部22は、外部インターフェース14を介して取得した学習用の文字画像サンプルを用いてハッシュテーブル16を作成し、記憶部15に登録する処理を行なう。   The control unit 20 is a control unit that controls the entire character recognition apparatus 1 and includes a recognition processing unit 21 and a hash table registration unit 22 therein. The hash table registration unit 22 performs processing for creating the hash table 16 using the learning character image sample acquired through the external interface 14 and registering the hash table 16 in the storage unit 15.

認識処理部21は、画像読取部13が読み取った入力画像から文字を認識する処理を行なう処理部である。図2は、認識処理部21の機能構成をさらに詳細に説明する機能構成図である。同図に示したように、認識処理部21は、その内部にメッシュ分割部31、特徴算出部32、正規化処理部33、文字カテゴリ検索部34、位置整合性判定部35および文字判定部36を有する。   The recognition processing unit 21 is a processing unit that performs processing for recognizing characters from the input image read by the image reading unit 13. FIG. 2 is a functional configuration diagram illustrating the functional configuration of the recognition processing unit 21 in more detail. As shown in the figure, the recognition processing unit 21 includes a mesh division unit 31, a feature calculation unit 32, a normalization processing unit 33, a character category search unit 34, a position consistency determination unit 35, and a character determination unit 36 therein. Have

メッシュ分割部31は、入力画像をメッシュ状に分割して部分入力画像を作成する処理を行なう。特徴算出部32は、メッシュ分割部31によって作成された複数の部分入力画像について、その特徴量を算出する処理を行なう。そして、正規化処理部33は、特徴算出部32によって算出した特徴量を正規化する処理を行なう。   The mesh dividing unit 31 performs a process of dividing the input image into a mesh and creating a partial input image. The feature calculation unit 32 performs a process of calculating the feature amount of the plurality of partial input images created by the mesh division unit 31. The normalization processing unit 33 performs processing for normalizing the feature amount calculated by the feature calculation unit 32.

文字カテゴリ検索部34は、正規化処理部33によって正規化された特徴量をキーにハッシュテーブル16を参照し、部分入力画像の各々について特徴量が類似する文字カテゴリの部分文字画像を検索する。   The character category search unit 34 refers to the hash table 16 using the feature amount normalized by the normalization processing unit 33 as a key, and searches for a partial character image of a character category having a similar feature amount for each partial input image.

位置整合性判定部35は、文字カテゴリ検索部34によって得られた複数の部分文字画像を文字カテゴリ毎に集計し、各文字カテゴリ内における部分文字画像の位置関係と、入力画像内における部分入力画像の位置関係との整合性を判定して、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する処理を行なう。   The position consistency determination unit 35 aggregates the plurality of partial character images obtained by the character category search unit 34 for each character category, and the positional relationship between the partial character images in each character category and the partial input image in the input image. A process of extracting a combination of partial input images that matches the positional relationship of the partial character images as a character candidate is performed.

文字判定部36は、位置整合性判定部35によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、その文字候補が有する部分入力画像が文字種別によって示された文字カテゴリの構成要素であると判定し、表示部12にその文字カテゴリを表示出力する処理を行なう。   When the character candidates extracted by the position consistency determination unit 35 have a predetermined number or more of partial input images, the character determination unit 36 has a character category in which the partial input images of the character candidates are indicated by the character type. It is determined that it is a constituent element, and processing for displaying the character category on the display unit 12 is performed.

つづいて、文字認識装置1の各処理について詳細に説明する。まず、図3を参照し、ハッシュテーブル登録部22による処理について説明する。図3は、ハッシュテーブル登録部22によるハッシュテーブル16の登録について説明する説明図である。   Next, each process of the character recognition device 1 will be described in detail. First, the processing by the hash table registration unit 22 will be described with reference to FIG. FIG. 3 is an explanatory diagram for explaining the registration of the hash table 16 by the hash table registration unit 22.

まず、ハッシュテーブル登録部22は、外部インターフェース14を介して学習用の文字画像サンプルを取得し、取得した文字画像をn×n(例えばn=5)でメッシュに分割する。そして分割によって得られた各メッシュをその文字画像の部分文字画像とし、メッシュごと(部分文字画像ごと)に特徴を算出する。   First, the hash table registration unit 22 acquires a character image sample for learning via the external interface 14, and divides the acquired character image into meshes by n × n (for example, n = 5). Then, each mesh obtained by the division is used as a partial character image of the character image, and the feature is calculated for each mesh (for each partial character image).

この特徴算出について種々の方法を適用することができ、例えば、加重方向指数ヒストグラム(電子情報通信学会論文誌D‘87/7 Vol.J70-D No.7 pp.1390-1397’加重方向指数ヒストグラム法による手書き漢字・ひらがな認識”など)を適用することができる。この加重方向指数ヒストグラムは、方向指数の個数分の次元を持つベクトルが特徴として得られるものであり、本実施例では4次元の特徴ベクトルを用いる場合を例に説明を行なう。   Various methods can be applied to this feature calculation. For example, a weighted direction index histogram (Electronic Information and Communication Society paper D'87/7 Vol.J70-D No.7 pp.1390-1397'weighted direction index histogram) In this weighted direction index histogram, a vector having dimensions corresponding to the number of direction indices is obtained as a feature. In this embodiment, a four-dimensional index is obtained. The case where a feature vector is used will be described as an example.

図3に示した例では、ハッシュテーブル登録部22は、学習用の文字サンプルである「配」の文字画像を5×5で分割している。そして分割によって得られた各メッシュをi行j列の行列と見なし、各メッシュを「配」(1,1)〜「配」(5,5)と識別して各メッシュの特徴ベクトルを算出すると、「配」(1,1)の特徴ベクトルは(29,8,13,5)、「配」(1,2)の特徴ベクトルは(32,14,18,25)、「配」(2,1)の特徴ベクトルは(12,2,4,37)となっている。   In the example illustrated in FIG. 3, the hash table registration unit 22 divides the character image of “arrangement”, which is a character sample for learning, by 5 × 5. Then, each mesh obtained by the division is regarded as a matrix of i rows and j columns, and each mesh is identified as “allocation” (1, 1) to “allocation” (5, 5) to calculate a feature vector of each mesh. , “Arrangement” (1, 1) has a feature vector of (29, 8, 13, 5), “Arrangement” (1, 2) has a feature vector of (32, 14, 18, 25), “Arrangement” (2 , 1) is (12, 2, 4, 37).

さらに、同一文字カテゴリについて複数の学習用の文字サンプルがある場合には、同一文字カテゴリに属する学習用サンプル画像数分に関して平均をとることによって個々の文字画像に依存する特徴成分を除去し、文字カテゴリ自体の特徴ベクトルを求める。   Furthermore, when there are a plurality of learning character samples for the same character category, the characteristic components depending on the individual character images are removed by averaging the number of learning sample images belonging to the same character category, and the character Find the feature vector of the category itself.

その結果、1つの文字カテゴリに対して、n×nのメッシュ特徴ベクトルが得られる。また、このメッシュ特徴ベクトルの算出は、各文字カテゴリについてそれぞれ行なう。   As a result, n × n mesh feature vectors are obtained for one character category. The calculation of the mesh feature vector is performed for each character category.

次に、ハッシュテーブル登録部22は、メッシュ特徴ベクトルをハッシュ値に変換し、ハッシュ値から文字カテゴリとメッシュの位置を引けるようにする。メッシュ特徴ベクトルは方向指数の個数分の次元のベクトルであるが、値域を0から9の整数をとるように正規化を行う。この結果、メッシュ特徴ベクトルは10の方向指数の個数分(=4)の累乗(=10000)通りの値をとることになる。   Next, the hash table registration unit 22 converts the mesh feature vector into a hash value so that the character category and the mesh position can be subtracted from the hash value. The mesh feature vector is a vector having dimensions corresponding to the number of direction indexes, but normalization is performed so that the range is an integer from 0 to 9. As a result, the mesh feature vector takes values as powers (= 10000) of the number of direction indexes of 10 (= 4).

正規化の方法は任意の方法を用いることができるが、類似の値が同一の値に変換される手法を採用することが好ましい。例えば、所定数で除算して整数商を求め、商が9を越える場合は強制的に9に置き換える、といった手法が好適である。   Although any method can be used as the normalization method, it is preferable to adopt a method in which similar values are converted into the same value. For example, a method is preferable in which an integer quotient is obtained by dividing by a predetermined number, and when the quotient exceeds 9, it is forcibly replaced with 9.

図3に示した例では、ハッシュテーブル登録部22は、特徴ベクトルの各次元の値を「4」で除算し、整数商を求めている。その結果、「配」(1,1)の特徴ベクトル(29,8,13,5)は(7,2,3,3)に正規化され、「配」(1,2)の特徴ベクトル(32,14,18,25)は(8,3,4,6)に正規化され、「配」(2,1)の特徴ベクトル(12,2,4,37)は(3,0,1,9)に正規化されている。   In the example illustrated in FIG. 3, the hash table registration unit 22 obtains an integer quotient by dividing each dimension value of the feature vector by “4”. As a result, the feature vector (29, 8, 13, 5) of “allocation” (1, 1) is normalized to (7, 2, 3, 3), and the feature vector of “allocation” (1, 2) ( 32, 14, 18, 25) is normalized to (8, 3, 4, 6), and the feature vector (12, 2, 4, 37) of “arrangement” (2, 1) is (3, 0, 1). , 9).

そして、ハッシュテーブル登録部22は、正規化したメッシュ特徴ベクトル値に対して、文字カテゴリ名、メッシュの位置(i, j)を対応付けて、ハッシュテーブル16に登録する。すなわち、メッシュ特徴ベクトル(va, vb, vc, vd)が与えられたとき、(va, vb, vc, vd)に正規化を行なって(Va, Vb, Vc, Vd)に変換し、H=Va×1000+Vb×100+Vc×10+Vdを求め、Hに(文字カテゴリ名, i, j)を記録する。   Then, the hash table registration unit 22 registers the character category name and the mesh position (i, j) in the hash table 16 in association with the normalized mesh feature vector value. That is, when a mesh feature vector (va, vb, vc, vd) is given, normalization is performed on (va, vb, vc, vd) and converted to (Va, Vb, Vc, Vd), and H = Va × 1000 + Vb × 100 + Vc × 10 + Vd is calculated and (character category name, i, j) is recorded in H.

図3に示した例では、正規化した特徴ベクトルが(7,2,3,3)である「配」(1,1)はハッシュ値(7233)に対応付けられ、正規化した特徴ベクトルが(8,3,4,6)である「配」(1,2)はハッシュ値(8346)に対応付けられ、正規化した特徴ベクトルが(3,0,1,9)である「配」(2,1)はハッシュ値(3019)に対応付けられている。   In the example shown in FIG. 3, “allocation” (1, 1) whose normalized feature vector is (7, 2, 3, 3) is associated with the hash value (7233), and the normalized feature vector is “Arrangement” (1, 2) which is (8, 3, 4, 6) is associated with the hash value (8346), and “Arrangement” whose normalized feature vector is (3, 0, 1, 9) (2, 1) is associated with the hash value (3019).

ハッシュテーブル登録部22は、以上の処理を全て文字カテゴリについて行なうことで、ハッシュテーブル16を作成し、記憶部15に格納する。同図に示した例では、ハッシュ値(7233)には「配」(1,1)に加えて「酸」(1,1),「王」(3,2)などが対応付けて登録され、ハッシュ値(3019)には「配」(2,1)に加えて「酸」(2,1),「祖」(1,3)などが対応付けて登録され、ハッシュ値(8346)には「配」(1,2)に加えて「祖」(3,2),「酉」(1,3)などが対応付けて登録されている。   The hash table registration unit 22 creates the hash table 16 by performing all the above processes for the character category, and stores the hash table 16 in the storage unit 15. In the example shown in the figure, in the hash value (7233), “acid” (1,1), “king” (3,2) and the like are registered in association with “allocation” (1,1). In addition to “allocation” (2,1), “acid” (2,1), “ancestor” (1,3) and the like are registered in the hash value (3019) in association with each other, and the hash value (8346) is registered. In addition to “allocation” (1, 2), “ancestor” (3, 2), “酉” (1, 3) and the like are registered in association with each other.

つづいて、認識処理部21による処理について説明する。図4は、認識処理部21による入力画像の特徴算出と文字カテゴリ検索について説明する説明図である。画像読取部13から入力画像が入力されると、メッシュ分割部31が図4に示すように入力画像をメッシュに分割する。   Next, processing by the recognition processing unit 21 will be described. FIG. 4 is an explanatory diagram illustrating input image feature calculation and character category search by the recognition processing unit 21. When an input image is input from the image reading unit 13, the mesh dividing unit 31 divides the input image into meshes as shown in FIG.

この時、メッシュの大きさは、入力画像内の1文字がn×nで分割される大きさを基準にして設定する。例えば、入力画像の解像度が400dpiのとき平均的な文字の大きさを縦横各40画素として、メッシュの大きさを縦横各8画素と設定すれば、一文字を5×5に相当する大きさでメッシュ分割することができる。その他の解像度の画像に対しては、解像度に比例してメッシュの大きさを設定すればよい。また、周辺の文字の大きさが認識可能である場合には、周辺の文字の大きさに基づいてメッシュの大きさを設定すればよい。   At this time, the size of the mesh is set on the basis of the size by which one character in the input image is divided by n × n. For example, if the resolution of the input image is 400 dpi and the average character size is set to 40 pixels vertically and horizontally, and the mesh size is set to 8 pixels vertically and horizontally, one character is meshed in a size equivalent to 5 × 5. Can be divided. For other resolution images, the mesh size may be set in proportion to the resolution. If the size of the surrounding characters can be recognized, the size of the mesh may be set based on the size of the surrounding characters.

なお、メッシュ分割部31は、入力画像のメッシュ分割によって得られたメッシュ(部分入力画像)について、それぞれ入力画像のどの位置から切出されたかを記憶部15に格納して記憶させる。   Note that the mesh division unit 31 stores and stores in the storage unit 15 from which position of the input image each mesh (partial input image) obtained by mesh division of the input image is cut out.

つぎに、特徴算出部32は、切出された各メッシュについてそれぞれ特徴ベクトルを求める。この特徴ベクトルの算出には、ハッシュテーブル作成時と同様に、例えば加重方向指数ヒストグラムを用いる。図4に示した例では、入力画像から切出されたメッシュm43の特徴ベクトルは(13,1,5,62)、同じくメッシュm104の特徴ベクトルは(36,7,3,4)と求められている。   Next, the feature calculation unit 32 obtains a feature vector for each of the extracted meshes. For the calculation of the feature vector, for example, a weighted direction index histogram is used as in the case of creating the hash table. In the example shown in FIG. 4, the feature vector of the mesh m43 cut out from the input image is obtained as (13, 1, 5, 62), and the feature vector of the mesh m104 is obtained as (36, 7, 3, 4). ing.

正規化処理部33は、特徴算出部32が算出した特徴ベクトルをそれぞれ正規化する処理を行なう。この正規化についてもハッシュテーブル作成時と同様に行ない、例えば、所定数で除算して整数商を求め、商が9を越える場合は強制的に9に置き換える。   The normalization processing unit 33 performs processing for normalizing the feature vectors calculated by the feature calculation unit 32. This normalization is performed in the same manner as when creating the hash table. For example, an integer quotient is obtained by dividing by a predetermined number, and if the quotient exceeds 9, it is forcibly replaced with 9.

図4に示した例では、正規化処理部33は、特徴ベクトルの各次元の値を「4」で除算し、整数商を求めている。その結果、メッシュm43の特徴ベクトル(13,1,5,62)は(3,0,1,9)に正規化され、メッシュm104の特徴ベクトル(36,7,3,4)は(9,2,1,1)に正規化されている。   In the example illustrated in FIG. 4, the normalization processing unit 33 divides the value of each dimension of the feature vector by “4” to obtain an integer quotient. As a result, the feature vector (13, 1, 5, 62) of the mesh m43 is normalized to (3, 0, 1, 9), and the feature vector (36, 7, 3, 4) of the mesh m104 is (9, 2,1,1).

文字カテゴリ検索部34は、正規化された特徴ベクトルをキーとしてハッシュテーブル16を参照し、部分入力画像の各々について特徴量が類似する文字カテゴリの部分文字画像を検索する。   The character category search unit 34 refers to the hash table 16 using the normalized feature vector as a key, and searches for a partial character image of a character category having a similar feature amount for each of the partial input images.

その結果、図4に示した例では、メッシュm43に類似する部分文字画像として、ハッシュ値(3019)に紐付けられた部分文字画像、すなわち文字カテゴリ「配」の(2,1)、文字カテゴリ「酸」の(2,1)、文字カテゴリ「祖」の(1,3)などが検索結果として得られる。同じく、メッシュm104に類似する部分文字画像として、ハッシュ値(9211)に紐付けられた部分文字画像、すなわち文字カテゴリ「祖」の(4,4)、文字カテゴリ「酸」の(5,3)などが検索結果として得られる。   As a result, in the example shown in FIG. 4, as the partial character image similar to the mesh m43, the partial character image linked to the hash value (3019), that is, (2, 1) of the character category “arrangement”, the character category Search results include (2,1) of “acid”, (1,3) of character category “so”, and the like. Similarly, as the partial character image similar to the mesh m104, the partial character image linked to the hash value (9211), that is, (4, 4) of the character category “ancestor”, (5, 3) of the character category “acid” Etc. are obtained as search results.

文字カテゴリ検索部34が入力画像から切出された全てのメッシュ、すなわち部分入力画像について類似する部分文字画像を検索した後、位置整合性判定部35は、検索結果として得られた複数の部分文字画像を文字カテゴリ毎に集計する。   After the character category search unit 34 searches for all partial meshes cut out from the input image, that is, similar partial character images with respect to the partial input image, the position consistency determination unit 35 includes a plurality of partial characters obtained as search results. Aggregate images by character category.

図5は、検索結果の文字カテゴリ毎の集計について説明する説明図である。同図に示した例では、メッシュm43,m104の検索結果を文字カテゴリの対応する位置に投票して集計している。具体的には、文字カテゴリ「配」について、(2,1)の位置にメッシュm43を投票し、(5,3)の位置にメッシュm104を投票している。同様に、文字カテゴリ「酸」の(2,1)にメッシュm43を投票し、文字カテゴリ「祖」の(1,3)にメッシュm43、文字カテゴリ「祖」の(4,4)にメッシュm104を投票している。   FIG. 5 is an explanatory diagram for explaining the tabulation for each character category of the search results. In the example shown in the figure, the search results of the meshes m43 and m104 are voted and added to the corresponding positions of the character category. Specifically, for the character category “arrangement”, the mesh m43 is voted at the position (2, 1), and the mesh m104 is voted at the position (5, 3). Similarly, the mesh m43 is voted for (2,1) of the character category “acid”, the mesh m43 is assigned to (1,3) of the character category “ances”, and the mesh m104 is assigned to (4,4) of the character category “ancestor”. Is voting.

つぎに、位置整合性判定部35は、各文字カテゴリに投票された部分入力画像について、入力画像での位置関係と文字カテゴリ内での位置関係とを比較し、その整合性を判定する。具体的には、位置整合性判定部35は、同一の文字カテゴリの各位置に投票された部分入力画像をノードとして、文字カテゴリのメッシュ間での関係と入力画像のメッシュ間の関係が保たれるノード同士をパスで結ぶことでグラフを生成する。   Next, the position consistency determination unit 35 compares the positional relationship in the input image with the positional relationship in the character category for the partial input image voted for each character category, and determines the consistency. Specifically, the position consistency determination unit 35 uses the partial input image voted for each position of the same character category as a node, and maintains the relationship between the meshes of the character category and the relationship between the meshes of the input image. A graph is generated by connecting nodes to each other with a path.

図6は、位置整合性判定部35による部分入力画像のグラフ化処理について説明する説明図である。同図に示した例では、入力画像から切出した部分入力画像であるメッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105、メッシュm108が全て文字カテゴリ「配」に投票されている。   FIG. 6 is an explanatory diagram for explaining the graph processing of the partial input image by the position consistency determination unit 35. In the example shown in the figure, mesh m21, mesh m43, mesh m44, mesh m104, mesh m105, and mesh m108, which are partial input images cut out from the input image, are all voted for the character category “arrangement”.

ここで、メッシュm21は文字カテゴリ「配」の(1,1)に投票されている。同様に、メッシュm43は(2,1)に、メッシュm44は(2,2)に、メッシュm104は(5,4)に、メッシュm105は(5,5)に、メッシュm108は(4,4)に投票されている。   Here, the mesh m21 is voted for (1, 1) of the character category “arrangement”. Similarly, the mesh m43 is (2,1), the mesh m44 is (2,2), the mesh m104 is (5,4), the mesh m105 is (5,5), and the mesh m108 is (4,4). ).

位置整合性判定部35は、「配」に登録された全ての部分入力画像(メッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105、メッシュm108)をノードとし、ノード間の位置関係に基づいてパスを引く。   The position consistency determination unit 35 uses all the partial input images (mesh m21, mesh m43, mesh m44, mesh m104, mesh m105, mesh m108) registered in the “arrangement” as nodes, and based on the positional relationship between the nodes. And draw a path.

図7は、ノード間でのパス接続について説明する説明図である。同図を参照し、メッシュm43、メッシュm105、メッシュm108の位置関係を例にノード接続について説明する。   FIG. 7 is an explanatory diagram for explaining path connection between nodes. The node connection will be described with reference to the figure, taking as an example the positional relationship between the mesh m43, the mesh m105, and the mesh m108.

まず、メッシュm43とメッシュm105について考える。入力画像においては、メッシュm43に対して右下方向にメッシュm105が位置する。また、文字カテゴリ内においてもメッシュm43に対して右下方向にメッシュm105が位置する。このように、メッシュm43とメッシュm105との間では、入力画像内での相対位置関係と文字カテゴリ内での相対位置関係との整合が取れている(位置関係が保たれている)ので、メッシュm43とメッシュm105との間をパスで結ぶ(図6に示すグラフ参照。)。   First, consider the mesh m43 and the mesh m105. In the input image, the mesh m105 is positioned in the lower right direction with respect to the mesh m43. Also in the character category, the mesh m105 is located in the lower right direction with respect to the mesh m43. In this way, between the mesh m43 and the mesh m105, the relative positional relationship in the input image and the relative positional relationship in the character category are matched (the positional relationship is maintained). A path is connected between m43 and mesh m105 (see the graph shown in FIG. 6).

つぎに、メッシュm105とメッシュm108について考える。入力画像においては、メッシュm105と同じ高さの右方向にメッシュm108が位置する。これに対し、文字カテゴリ内ではメッシュm105に対して左上方向にメッシュm108が位置する。このように、メッシュm105とメッシュm108との間では、入力画像内での相対位置関係と文字カテゴリ内での相対位置関係との整合が取れていないので、メッシュm105とメッシュm108との間にはパスを引かない(図6に示すグラフ参照。)。   Next, the mesh m105 and the mesh m108 are considered. In the input image, the mesh m108 is located in the right direction at the same height as the mesh m105. On the other hand, in the character category, the mesh m108 is positioned in the upper left direction with respect to the mesh m105. As described above, since the relative positional relationship in the input image and the relative positional relationship in the character category are not matched between the mesh m105 and the mesh m108, the mesh m105 and the mesh m108 have a gap between the mesh m105 and the mesh m108. Do not draw a path (see graph shown in FIG. 6).

さらに、メッシュm43とメッシュm108について考える。入力画像においては、メッシュm43に対して右下方向にメッシュm108が位置する。また、文字カテゴリ内においてもメッシュm43に対して右下方向にメッシュm108が位置する。このように、メッシュm43とメッシュm108との間では、入力画像内での相対位置関係と文字カテゴリ内での相対位置関係との整合が取れているので、メッシュm43とメッシュm108との間にパスを引く(図6に示すグラフ参照。)。   Further, consider the mesh m43 and the mesh m108. In the input image, the mesh m108 is positioned in the lower right direction with respect to the mesh m43. Also in the character category, the mesh m108 is located in the lower right direction with respect to the mesh m43. Thus, since the relative positional relationship in the input image and the relative positional relationship in the character category are matched between the mesh m43 and the mesh m108, the path between the mesh m43 and the mesh m108. (See the graph shown in FIG. 6).

位置整合性判定部35は、文字カテゴリごとに、投票されたメッシュのすべての2つの関係に対して位置の関係が満たされているかどうかを調べ、グラフを作成する。その後、位置整合性判定部35は、作成したグラフから完全部分グラフであるクリークを抽出する処理を行なう。この位置整合性判定部35が抽出するクリークは、部分文字画像の位置関係と整合する部分入力画像の組み合わせであり、入力画像内における文字候補となる。グラフからクリークを抽出するアルゴリズムとしては、種々の方法を用いることができる(例えば、C.Bron and J.Kerbosch Algorithm 457. Finding all cliques of an undirected graph [H]. Comm. ACM. 16(9) (September 1973).など。)。   For each character category, the position consistency determination unit 35 checks whether or not the positional relationship is satisfied for all two relationships of the voted mesh, and creates a graph. Thereafter, the position consistency determination unit 35 performs a process of extracting a clique that is a complete subgraph from the created graph. The clique extracted by the position consistency determination unit 35 is a combination of partial input images that matches the positional relationship of the partial character images, and becomes a character candidate in the input image. Various algorithms can be used to extract a clique from a graph (for example, C. Bron and J. Kerbosch Algorithm 457. Finding all cliques of an undirected graph [H]. Comm. ACM. 16 (9) (September 1973).

文字判定部36は、位置整合性判定部35が抽出したクリークを評価することで、文字カテゴリが認識対象領域のどことマッチングしたかを識別する。具体的には、クリークのノードの個数がある閾値以上の場合にその対応が正しいとみなして、ノードに対応する対象領域にその文字カテゴリが存在すると判定する。   The character determination unit 36 evaluates the clique extracted by the position consistency determination unit 35 to identify where the character category matches in the recognition target area. Specifically, when the number of clique nodes is equal to or greater than a certain threshold, it is determined that the correspondence is correct, and it is determined that the character category exists in the target area corresponding to the node.

図8は、クリークの抽出と評価について説明する説明図である。同図に示したように、メッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105、メッシュm108を有するグラフG1からクリークを抽出すると、メッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105の5つのノードを有するクリークG2、メッシュm21、メッシュm43、メッシュm44、メッシュm108の4つのノードを有するクリークG3とが得られる。   FIG. 8 is an explanatory diagram for explaining clique extraction and evaluation. As shown in the figure, when a clique is extracted from the graph G1 having the mesh m21, the mesh m43, the mesh m44, the mesh m104, the mesh m105, and the mesh m108, the mesh m21, the mesh m43, the mesh m44, the mesh m104, and the mesh m105 are extracted. A clique G2 having five nodes and a clique G3 having four nodes of mesh m21, mesh m43, mesh m44, and mesh m108 are obtained.

ここで、文字判定部36による判定閾値が5であるとすると、クリークG2は閾値以上のノード数を有するので、文字判定部36は、クリークG2の各ノードに対応する入力画像内の領域が文字カテゴリ「配」の文字が存在する文字領域であると判定する。一方、クリークG3のノード数は閾値に満たないため、文字判定部36は、クリークG3のノードの組み合わせは「配」の文字ではないと判定する。   Here, if the determination threshold value by the character determination unit 36 is 5, the clique G2 has a number of nodes equal to or greater than the threshold value, so the character determination unit 36 determines that the area in the input image corresponding to each node of the clique G2 is a character. It is determined that the character area includes a character of category “Arrangement”. On the other hand, since the number of nodes of the clique G3 is less than the threshold value, the character determination unit 36 determines that the combination of the nodes of the clique G3 is not the “arrangement” character.

より詳細には、文字判定部36は、閾値以上のノード数を有するクリークについて、各ノードに対応する部分入力画像に外接する矩形を求め、この外接矩形を文字領域と認識する。   More specifically, the character determination unit 36 obtains a rectangle circumscribing the partial input image corresponding to each node for the clique having the number of nodes equal to or greater than the threshold, and recognizes the circumscribed rectangle as a character region.

図9は、文字判定部36による文字領域の認識について説明する説明図である。同図に示した例では、文字判定部36は、クリークG2を構成するメッシュm21、メッシュm43、メッシュm44、メッシュm104、メッシュm105の外接矩形を文字領域A1として判定し、この文字領域A1に「配」の文字が存在すると認識する。   FIG. 9 is an explanatory diagram for explaining recognition of a character area by the character determination unit 36. In the example shown in the figure, the character determination unit 36 determines the circumscribed rectangle of the mesh m21, mesh m43, mesh m44, mesh m104, and mesh m105 constituting the clique G2 as the character area A1, and the character area A1 includes “ Recognize that there is a character "composition".

なお、入力画像に同じ文字が複数ある場合、文字判定部36は、同一カテゴリの全ての文字から1つのグラフを作成する。その後、グラフからノード数が閾値を超える複数のクリークが抽出され、それぞれのクリークが入力画像内において各々異なる文字領域を構成することとなる。   When there are a plurality of the same characters in the input image, the character determination unit 36 creates one graph from all the characters in the same category. Thereafter, a plurality of cliques whose number of nodes exceeds the threshold is extracted from the graph, and each clique forms a different character region in the input image.

ここまでの説明では、入力画像と文字カテゴリでの位置関係を明確すべく概念的な図面を用いて各処理部の動作を説明したが、各処理において実際に生成・使用されるデータは装置内での処理に適した形式で記憶部15に格納される。   In the description so far, the operation of each processing unit has been described using conceptual drawings in order to clarify the positional relationship between the input image and the character category. Are stored in the storage unit 15 in a format suitable for the processing in FIG.

例えば、図10は、位置整合性判定部35が文字カテゴリ検索部による検索結果から作成する投票結果データである。この投票結果データは、図5を参照して説明した位置整合性判定部35による集計の結果として得られたものであり、文字カテゴリ、カテゴリ内位置、入力画像メッシュ、の3つの項目を有する表の形式でデータを保持する。   For example, FIG. 10 shows voting result data created by the position consistency determination unit 35 from the search result obtained by the character category search unit. This voting result data is obtained as a result of counting by the position consistency determination unit 35 described with reference to FIG. 5, and is a table having three items: character category, position in category, and input image mesh. Retain data in the format.

また、図11は、位置整合性判定部35が作成するグラフデータである。このグラフデータでは、そのグラフが有する各ノード間について、パスを接続する場合には値「1」を、パスを接続しない場合には値「0」を持つ表の形式でデータを保持している。   FIG. 11 is graph data created by the position consistency determination unit 35. In this graph data, for each node included in the graph, data is stored in the form of a table having a value “1” when a path is connected and a value “0” when a path is not connected. .

つづいて、文字認識装置1による処理の流れを説明する。図12は、ハッシュテーブル登録における処理動作を説明するフローチャートである。同図に示した処理では、まず、ハッシュテーブル登録部22が外部インターフェース14を介し、文字カテゴリ毎に複数のサンプル文字画像データを受け付ける(ステップS101)。   Next, the flow of processing by the character recognition device 1 will be described. FIG. 12 is a flowchart for explaining the processing operation in hash table registration. In the process shown in the figure, first, the hash table registration unit 22 receives a plurality of sample character image data for each character category via the external interface 14 (step S101).

そして、ハッシュテーブル登録部22は、受け付けたサンプル文字画像データをメッシュに分割し(ステップS102)、分割によって得られた各メッシュ、すなわち各部分文字画像について特徴ベクトルを算出する(ステップS103)。   Then, the hash table registration unit 22 divides the received sample character image data into meshes (step S102), and calculates a feature vector for each mesh obtained by the division, that is, each partial character image (step S103).

その後、ハッシュテーブル登録部22は、文字カテゴリのメッシュ位置毎に特徴ベクトルを平均し(ステップS104)、平均した特徴ベクトルを正規化する(ステップS105)。そして、正規化した特徴ベクトルに文字カテゴリとメッシュ位置とを対応付けてハッシュテーブルに登録し(ステップS106)、処理を終了する。ハッシュテーブル登録部22は、以上の処理を文字カテゴリ毎に実行してハッシュテーブルを作成する。   Thereafter, the hash table registration unit 22 averages the feature vectors for each mesh position of the character category (step S104), and normalizes the averaged feature vectors (step S105). Then, the normalized feature vector is associated with the character category and the mesh position and registered in the hash table (step S106), and the process ends. The hash table registration unit 22 creates the hash table by executing the above processing for each character category.

図13は、文字の認識処理における処理動作を説明するフローチャートである。同図に示した処理では、まず、メッシュ分割部31が画像読取部13によって読み取られた入力画像をメッシュに分割する(ステップS201)。つぎに、特徴算出部32が、分割によって得られた各メッシュ(部分入力画像)について特徴ベクトルを算出する(ステップS202)。そして、正規化処理部33が各特徴ベクトルを正規化し(ステップS203)、文字カテゴリ検索部34は、各メッシュについて正規化された特徴ベクトルをキーにハッシュテーブルの検索を行なう(ステップS204)。   FIG. 13 is a flowchart for explaining the processing operation in the character recognition processing. In the process shown in the figure, first, the mesh dividing unit 31 divides the input image read by the image reading unit 13 into meshes (step S201). Next, the feature calculation unit 32 calculates a feature vector for each mesh (partial input image) obtained by the division (step S202). Then, the normalization processing unit 33 normalizes each feature vector (step S203), and the character category search unit 34 searches the hash table using the feature vector normalized for each mesh as a key (step S204).

位置整合性判定部35は、この検索結果を用いて文字カテゴリ毎に特徴ベクトルを投票し(ステップS205)、同一文字カテゴリに投票された入力画像のメッシュ(部分入力画像)をノードとするグラフを作成する(ステップS206)。このグラフ作成では、既に述べたように、各ノードに対応する部分画像領域の入力画像での位置関係と文字カテゴリ内での位置関係とを比較してノード間のパスを引いておく。   The position consistency determination unit 35 uses this search result to vote a feature vector for each character category (step S205), and displays a graph with nodes of input meshes (partial input images) voted for the same character category. Create (step S206). In this graph creation, as described above, the positional relationship between the input image of the partial image region corresponding to each node and the positional relationship within the character category are compared to draw a path between the nodes.

そして、位置整合性判定部35は、各文字カテゴリのグラフからクリークを抽出する処理を行なう(ステップS207)。文字判定部36は、得られたクリークのうち、ノード数が閾値を超えるクリークについて、クリーク構成ノードが占める領域に対応する文字カテゴリが存在すると判定し(ステップS208)、処理を終了する。   Then, the position consistency determination unit 35 performs a process of extracting a clique from the graph of each character category (step S207). Of the obtained cliques, the character determination unit 36 determines that there is a character category corresponding to the area occupied by the clique constituent nodes for the clique whose number of nodes exceeds the threshold (step S208), and ends the process.

つづいて、ハッシュテーブル登録および文字認識の変形例について説明する。部分入力画像と特徴が類似する部分文字画像を検索する場合、例えば部分文字画像の特徴ベクトルと部分文字画像の特徴ベクトルの距離から類似度を算出し、類似度が閾値以上である場合に互いに類似する、と判定する手法を用いることも可能であるが、ベクトル間の距離を測定することで類似する組み合わせを探索すると演算に時間がかかる。そこで、文字認識装置1は、部分文字画像の特徴ベクトルをハッシュ値に変換し、ハッシュ値から文字カテゴリとメッシュの位置を引けるようにすることで、認識処理を高速化している。   Next, modified examples of hash table registration and character recognition will be described. When searching for partial character images whose features are similar to those of the partial input image, for example, the similarity is calculated from the distance between the feature vector of the partial character image and the feature vector of the partial character image. Although it is also possible to use a method for determining that, it takes time to calculate a similar combination by measuring a distance between vectors. Therefore, the character recognition device 1 speeds up the recognition process by converting the feature vector of the partial character image into a hash value and subtracting the character category and the mesh position from the hash value.

具体的には、文字認識装置1は、特徴ベクトルからハッシュ値を作成する際に、類似の値が同一の値に変換されるよう正規化することで、類似度の算出を簡略化している。なお、上述した例では、特徴ベクトルの各次元の値を所定数で除算して整数商を求め、商が9を越える場合は強制的に9に置き換える手法を採用した場合について説明したが、この手法の変形例について説明する。   Specifically, when creating a hash value from a feature vector, the character recognition device 1 simplifies the calculation of the similarity by normalizing so that similar values are converted to the same value. In the above-described example, a case has been described in which a method is used in which the value of each dimension of the feature vector is divided by a predetermined number to obtain an integer quotient, and when the quotient exceeds 9, a method of forcibly replacing with 9 is adopted. A modification of the technique will be described.

図14は、ハッシュテーブル作成時における正規化の変形例について説明する説明図である。同図に示した例では、整数aと整数b(a>b)を定めておき、4次元ベクトル値(x1, x2, x3, x4)に対して、(xi±b)/aの整数商を求める。この商が9を越える場合は強制的に9に置き換える。   FIG. 14 is an explanatory diagram for explaining a modification example of normalization when creating a hash table. In the example shown in the figure, an integer a and an integer b (a> b) are defined, and an integer quotient of (xi ± b) / a with respect to a four-dimensional vector value (x1, x2, x3, x4). Ask for. If this quotient exceeds 9, it is forcibly replaced with 9.

例えば、文字カテゴリ「配」の(2,1)特徴ベクトルが(12,2,4,37)であり、a=4、b=1とすると、x1を正規化した値として(12+1)/4=3と(12−1)/4=2、x2を正規化した値として(2+1)/4=0と(2−1)/4=0、x3を正規化した値として(4+1)/4=1と(4−1)/4=0、x4を正規化した値として (37+1)/4=9,(37−1)/4=9が得られる。そして、これからできる全組合せを求めると、(3,0,0,9),(3,0,1,9),(4,0,0,9),(4,0,1,9)の4通りの組合せが得られる。この場合、ハッシュテーブルには、文字カテゴリ「配」の(2,1)に対応して4通りの特徴ベクトルをそれぞれ登録する。   For example, if the (2,1) feature vector of the character category “arrangement” is (12,2,4,37), and a = 4 and b = 1, the normalized value of x1 is (12 + 1) / 4. = 3 and (12-1) / 4 = 2, with x2 normalized (2 + 1) / 4 = 0 and (2-1) / 4 = 0, with x3 normalized (4 + 1) / 4 = 1 and (4-1) / 4 = 0, and (37 + 1) / 4 = 9 and (37-1) / 4 = 9 are obtained by normalizing x4. Then, when all combinations that can be obtained are obtained, (3,0,0,9), (3,0,1,9), (4,0,0,9), (4,0,1,9) Four combinations are obtained. In this case, four feature vectors corresponding to (2, 1) of the character category “arrangement” are registered in the hash table.

このように、ある特徴ベクトルに対して対応させるハッシュ値に幅を持たせ、文字カテゴリとメッシュ位置の組み合わせに複数のハッシュ値を対応させてハッシュテーブルに登録することで、類似度の比較において閾値を下げた場合と同様の効果、すなわち、比較的類似度の低い特徴ベクトルを検索結果として取得する効果を得ることができる。   In this way, a hash value to be associated with a certain feature vector has a width, and a plurality of hash values are associated with a combination of a character category and a mesh position and registered in a hash table. It is possible to obtain an effect similar to that obtained when the value is lowered, that is, an effect of acquiring a feature vector having a relatively low similarity as a search result.

ところで、サンプル文字画像や入力画像に対してメッシュ分割を行なう際、メッシュの位置によって、メッシュの特徴ベクトルの値は変わる。そこで、ハッシュテーブルを作成する際には、ある程度のずらしたメッシュを考え、サンプル文字のメッシュ特徴ベクトルを多重に登録しておくことが望ましい。入力画像に対しては、ひとつのメッシュでメッシュ特徴ベクトルを計算すればよい。同様に、メッシュの大きさに関しても、複数のサイズを考え、文字のメッシュ特徴ベクトルを多重に登録しておく。   By the way, when mesh division is performed on a sample character image or an input image, the value of the mesh feature vector changes depending on the position of the mesh. Therefore, when creating a hash table, it is desirable to consider a mesh shifted to some extent and register mesh feature vectors of sample characters in multiple. For an input image, a mesh feature vector may be calculated using a single mesh. Similarly, regarding the size of the mesh, a plurality of sizes are considered, and mesh feature vectors of characters are registered in multiple.

図15は、1つの文字画像に対して異なる複数のメッシュ分割を行なう場合について説明する説明図である。同図に示した例では文字画像をn×nに分割する際にn=4,5,6の3つのメッシュサイズで分割している。これに加え、各分割サイズについて、x方向とy方向に数画素ずらしたメッシュに関しても同様に特徴を求めている。   FIG. 15 is an explanatory diagram for explaining a case where a plurality of different mesh divisions are performed on one character image. In the example shown in the figure, when a character image is divided into n × n, it is divided into three mesh sizes of n = 4, 5, and 6. In addition to this, for each divided size, a feature is similarly obtained for a mesh shifted by several pixels in the x and y directions.

分割数nでx方向y方向にズレのないメッシュ分割を行なって得られた特徴ベクトルを文字カテゴリの(n,0,0)特徴とし、分割数nでx方向やy方向にズレを持つメッシュ分割を行なって得られた特徴ベクトルを(n,dx,dy)特徴とする。例えば、dxとdyは、メッシュを3等分するように2つの値を設定することにより、(n,0,0)特徴、(n,0,1)特徴、(n,0,2)特徴、(n,1,0)特徴、(n,1,1)特徴、(n,1,2)特徴、(n,2,0)特徴、(n,2,1)特徴、(n,2,2)特徴の9つの特徴が設定される。例えば、1つのメッシュの一辺が6画素のときは、2画素ずつずらすことによりメッシュを3等分できる。   A feature vector obtained by performing mesh division without deviation in the x direction and y direction with the division number n is a (n, 0, 0) feature of the character category, and a mesh having deviations in the x direction and y direction with the division number n A feature vector obtained by dividing is defined as an (n, dx, dy) feature. For example, dx and dy are (n, 0, 0) feature, (n, 0, 1) feature, (n, 0, 2) feature by setting two values to divide the mesh into three equal parts. , (N, 1,0) features, (n, 1,1) features, (n, 1,2) features, (n, 2,0) features, (n, 2,1) features, (n, 2 , 2) Nine features are set. For example, when one side of a mesh is 6 pixels, the mesh can be divided into 3 equal parts by shifting by 2 pixels.

かくして、この例では27個の(n,dx,dy)特徴(n=4,5,6;dx=0,1,2;dy=0,1,2)を求めて、それぞれハッシュテーブルに登録する。特徴の値は、メッシュを行列とみなした場合の行数iと列数jと特徴ベクトル(v1,v2,v3,v4)により、(n,dx,dy)−(i,j)−(v1,v2,v3,v4)で表現される。そこで、ハッシュテーブルに登録する際には、特徴ベクトル(v1,v2,v3,v4)から算出したハッシュ値Hに(文字カテゴリ名,n,dx,dy,i,j)を対応付けて登録すればよい。   Thus, in this example, 27 (n, dx, dy) features (n = 4, 5, 6; dx = 0, 1, 2; dy = 0, 1, 2) are obtained and registered in the hash table, respectively. To do. The value of the feature is (n, dx, dy) − (i, j) − (v1) based on the number of rows i, the number of columns j and the feature vector (v1, v2, v3, v4) when the mesh is regarded as a matrix. , v2, v3, v4). Therefore, when registering in the hash table, (character category name, n, dx, dy, i, j) is registered in association with the hash value H calculated from the feature vector (v1, v2, v3, v4). That's fine.

このように(n,dx,dy)特徴を求めてそれぞれハッシュテーブルに登録した場合の認識処理では、メッシュサイズやメッシュ位置の異なる複数の部分文字画像が検索結果として得られるので、文字カテゴリ上にそれぞれの検索結果を投影して位置関係の整合性を評価する。   In this way, in the recognition processing when (n, dx, dy) features are obtained and registered in the hash table, a plurality of partial character images having different mesh sizes and mesh positions are obtained as search results. Each search result is projected to evaluate the consistency of the positional relationship.

図16は、(n,dx,dy)特徴を用いる場合の認識処理について説明する説明図である。同図に示した例では、入力画像上のメッシュmαに対して(4,0,0)特徴、(5,0,0)特徴のそれぞれで対応する部分文字画像が存在し、入力画像上のメッシュmβに対して(4,0,1)特徴で対応する部分文字画像が存在する。この場合、文字カテゴリ上で各部分文字画像の位置を投影することで、メッシュmαについて(4,0,0)での投影像としてmα’、(5,0,0)での投影像としてmα’’が得られる。同じくメッシュmβについて(4,0,1)での投影像としてmβ’が得られる。   FIG. 16 is an explanatory diagram for explaining the recognition processing when the (n, dx, dy) feature is used. In the example shown in the figure, there are partial character images corresponding to the (4,0,0) feature and the (5,0,0) feature for the mesh mα on the input image. There is a partial character image corresponding to the mesh mβ with (4, 0, 1) feature. In this case, by projecting the position of each partial character image on the character category, mα ′ as the projected image at (4,0,0) and mα as the projected image at (5,0,0) for the mesh mα. '' Is obtained. Similarly, mβ ′ is obtained as a projection image at (4, 0, 1) for the mesh mβ.

このようにしてメッシュ分割のサイズや位置の異なる特徴ベクトルが混在する場合であっても、文字カテゴリ上に投影することで相互の位置関係を評価することができる。なお、同図に示したように、1つの部分入力画像mαから複数の投影像mα’,mα’’が得られた場合、それぞれの投影像を個別のノードとして取り扱えばよい。   Thus, even if feature vectors having different mesh division sizes and positions are mixed, the mutual positional relationship can be evaluated by projecting onto the character category. As shown in the figure, when a plurality of projection images mα ′ and mα ″ are obtained from one partial input image mα, each projection image may be handled as an individual node.

つぎに、本発明の利用例について説明する。図17は、本発明を利用した画像認識システムの概要構成について説明する概要構成図である。同図に示した画像認識システム100は、スキャナ101と接続され、スキャナ101が読み取った画像データD1を取得する。画像データD1は、選択肢欄で文字列や番号を直接手書きでマークさせた申込書やアンケートであり、文字パターンに手書きマークが重複している。   Next, an application example of the present invention will be described. FIG. 17 is a schematic configuration diagram illustrating a schematic configuration of an image recognition system using the present invention. An image recognition system 100 shown in FIG. 1 is connected to a scanner 101 and acquires image data D1 read by the scanner 101. The image data D1 is an application form or a questionnaire in which character strings and numbers are directly handwritten in the option field, and handwritten marks are duplicated in the character pattern.

画像認識システム100は、その内部に文字認識装置1、差分画像作成部102、画像解析部103を有する。文字認識装置1は、これまで説明してきたように、画像データD1に対して文字認識を行なって、認識結果である画像データD2を出力する。この画像データD2は、その画像内のどの位置に何の文字が存在するかが示されている。   The image recognition system 100 includes a character recognition device 1, a difference image creation unit 102, and an image analysis unit 103 therein. As described so far, the character recognition device 1 performs character recognition on the image data D1 and outputs image data D2 as a recognition result. This image data D2 indicates what character is present at which position in the image.

差分画像作成部102は、画像データD1と画像データD2との差分を取ることで、画像データD3を作成する。画像データD1は文字に手書きマークが重なっており、画像データD2は文字のみが含まれているので、これらの差分である画像データD3は手書きマークが抜き出された画像となる。   The difference image creation unit 102 creates the image data D3 by taking the difference between the image data D1 and the image data D2. Since the image data D1 has a handwritten mark superimposed on the character and the image data D2 includes only the character, the image data D3 which is the difference between them is an image from which the handwritten mark has been extracted.

画像解析部103は、画像データD3に示された手書きマークの位置と、画像データD2に示された文字とその位置から、どの選択肢が選択されているかを出力する。同図に示した例では、画像解析部103は、画像データD1が「1.配偶者」を選択したものであることを示す解析結果データD4を出力することができる。   The image analysis unit 103 outputs which option is selected from the position of the handwritten mark shown in the image data D3, the character shown in the image data D2, and the position thereof. In the example shown in the figure, the image analysis unit 103 can output analysis result data D4 indicating that the image data D1 is selected from “1. Spouse”.

以上説明してきたように、本実施例にかかる文字認識装置1は、ハッシュテーブル登録部22が各文字カテゴリの局所的な領域である部分入力画像の特徴を示すハッシュテーブル16を作成し、認識処理部21は、入力画像をメッシュ分割して部分入力画像に分割し、各部分入力画像について特徴を算出し、各部分入力画像と特徴が類似する部分文字画像をハッシュテーブルから検索し、部分入力画像の位置関係と部分文字画像の位置関係とを比較し、その整合性を評価して入力画像のどの領域にどの文字が存在するかを認識する。   As described above, in the character recognition device 1 according to the present embodiment, the hash table registration unit 22 creates the hash table 16 indicating the characteristics of the partial input image that is a local area of each character category, and performs recognition processing. The unit 21 meshes and divides the input image into partial input images, calculates features for each partial input image, retrieves a partial character image having features similar to each partial input image, and searches the partial input image Are compared with the positional relationship of the partial character images, and the consistency is evaluated to recognize which character is present in which region of the input image.

そのため、文字認識装置1は、入力画像において文字パターンと文字以外のパターンを分離することなく、文字パターンのうち重複のない部分を利用して文字を認識することができ、文字パターンに接触する文字以外のパターンの形状や接触の仕方がいかなるものであっても文字パターンを認識可能である。また、画像をメッシュに分割し、メッシュごとに類似度を求め、それらの位置の整合性から全体の類似度を求めて認識を行うため、画像から文字単位に文字領域を切り出す必要なく認識が可能になる。   Therefore, the character recognition device 1 can recognize a character by using a non-overlapping portion of the character pattern without separating the character pattern and the non-character pattern in the input image, and the character contacting the character pattern. The character pattern can be recognized regardless of the shape of the pattern other than the above and the manner of contact. In addition, since the image is divided into meshes, the similarity is obtained for each mesh, and the overall similarity is obtained from the consistency of those positions, and recognition is performed, so recognition is possible without having to cut out character areas from the image in character units. become.

なお、本実施例はあくまで一例であり、本発明を限定するものではない。本発明は請求の範囲に記載した技術的思想の範囲内において構成および動作を適宜変更して実施することができるものである。   In addition, a present Example is an example to the last and does not limit this invention. The present invention can be implemented by appropriately changing the configuration and operation within the scope of the technical idea described in the claims.

例えば、本実施例では、文字認識装置1は、ハッシュテーブル登録部22によるハッシュテーブル登録と認識処理部21による文字認識とを切り替えて実行するように構成しているが、例えば、他の装置が作成したハッシュテーブルを使用し、文字認識のみを実行するように構成してもよい。   For example, in this embodiment, the character recognition device 1 is configured to perform switching between hash table registration by the hash table registration unit 22 and character recognition by the recognition processing unit 21. You may comprise so that only the character recognition may be performed using the created hash table.

また、部分入力画像や部分文字画像の特徴の算出、特徴が類似する文字カテゴリの検索、部分入力画像や部分文字画像の位置関係の整合性判定などについても、任意の手法を適用することができる。例えば、本実施例においては、ノード間のパスを引く際に、メッシュ間の相対方向によって位置関係の整合性を判定していたが、相対方向に加えてメッシュ間の距離についても位置関係の整合性の判断基準として用いることもできる。   In addition, an arbitrary method can be applied to the calculation of the characteristics of the partial input image and the partial character image, the search for the character category having similar characteristics, and the consistency determination of the positional relationship between the partial input image and the partial character image. . For example, in this embodiment, when the path between the nodes is drawn, the consistency of the positional relationship is determined based on the relative direction between the meshes. However, the positional relationship is also matched with respect to the distance between the meshes in addition to the relative direction. It can also be used as a criterion for sex.

なお、本発明にかかる文字認識方法は、図1および図2に示した文字認識装置1のように各機能部を専用のハードウェアによって実現することでも実施可能であるが、文字認識プログラムをコンピュータに実行させ、コンピュータのハードウェア資源をそれぞれの機能部として動作させることでも実施することができる。   The character recognition method according to the present invention can also be implemented by realizing each functional unit with dedicated hardware as in the character recognition device 1 shown in FIGS. 1 and 2. It can also be implemented by causing the hardware resources of the computer to operate as respective functional units.

図18は、文字認識プログラムを実行するコンピュータの概要構成を説明する概要構成図である。同図に示したように、コンピュータ40は、入力装置41、表示装置42、画像読取装置43、外部インターフェース44、CPU(Central Processing Unit)45、ROM(Read Only Memory)46、RAM(Random Access Memory)47およびHDD(Hard Disk Drive)48をバス49で接続して構成される。ここで、入力装置41は、図1に示した入力部11に対応し、表示装置42は同じく表示部12に対応し、画像読取装置43および外部インターフェース44は同じく画像読取部13及び外部インターフェース14に対応する。   FIG. 18 is a schematic configuration diagram illustrating a schematic configuration of a computer that executes a character recognition program. As shown in the figure, the computer 40 includes an input device 41, a display device 42, an image reading device 43, an external interface 44, a CPU (Central Processing Unit) 45, a ROM (Read Only Memory) 46, a RAM (Random Access Memory). ) 47 and HDD (Hard Disk Drive) 48 are connected by a bus 49. Here, the input device 41 corresponds to the input unit 11 shown in FIG. 1, the display device 42 also corresponds to the display unit 12, and the image reading device 43 and the external interface 44 also correspond to the image reading unit 13 and the external interface 14. Corresponding to

そして、ROM46には、上記の認識処理部21およびハッシュテーブル登録部22と同様の機能を発揮する認識処理プログラム51およびハッシュテーブル登録プログラム52が予め記憶されている。   The ROM 46 stores in advance a recognition processing program 51 and a hash table registration program 52 that exhibit the same functions as the recognition processing unit 21 and the hash table registration unit 22 described above.

CPU45は認識処理プログラム51やハッシュテーブル登録プログラム52をROM46から読み出して実行することで、その機能を実現することができる。例えば図18に示した例では、CPU45はROM46から認識処理プログラム51を読み出して認識処理プロセス54を動作させており、CPU45は認識処理部21と同様の動作を行うこととなる。   The CPU 45 can implement its functions by reading the recognition processing program 51 and the hash table registration program 52 from the ROM 46 and executing them. For example, in the example shown in FIG. 18, the CPU 45 reads the recognition processing program 51 from the ROM 46 and operates the recognition processing process 54, and the CPU 45 performs the same operation as the recognition processing unit 21.

また、HDD48は、図18に示したようにハッシュテーブルデータ53を格納している。このハッシュテーブルデータ53は、CPU45によって読み出されてRAM47上に展開され、図1および図2に示したハッシュテーブル16として動作する。   The HDD 48 stores hash table data 53 as shown in FIG. The hash table data 53 is read by the CPU 45 and expanded on the RAM 47, and operates as the hash table 16 shown in FIGS.

ところで、上記した認識処理プログラム51やハッシュテーブル登録プログラム52は、必ずしも最初からROM46に記憶させておく必要は無く、例えば、コンピュータ40に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「過般用の物理媒体」、または、コンピュータ40の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ40に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ40がこれらから各プログラムを読み出して実行するようにしてもよい。   By the way, the above-described recognition processing program 51 and hash table registration program 52 are not necessarily stored in the ROM 46 from the beginning. For example, a flexible disk (FD), a CD-ROM, an MO disk, “General physical media” such as DVD discs, magneto-optical discs, IC cards, etc., or “fixed physical media” such as hard disk drives (HDDs) provided inside and outside the computer 40, as well as public lines, the Internet Each program may be stored in “another computer (or server)” connected to the computer 40 via a LAN, WAN, etc., and the computer 40 may read and execute each program from these. .

(付記1)入力画像内の文字を認識する文字認識処理をコンピュータに実行させる文字認識プログラムであって、
前記入力画像を複数の部分入力画像に分割する分割ステップと、
前記分割ステップによって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出ステップと、
複数の文字画像をそれぞれ複数の部分に分割して得られた各部分における部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶した検索テーブルから、前記特徴量算出ステップによって算出された特徴量をキーにして、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索ステップと、
前記検索ステップによって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定ステップと、
前記整合性判定ステップによって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識ステップと、
をコンピュータに実行させることを特徴とする文字認識プログラム。
(Supplementary note 1) A character recognition program for causing a computer to execute a character recognition process for recognizing characters in an input image,
A dividing step of dividing the input image into a plurality of partial input images;
A feature amount calculating step for calculating a feature amount for each of the plurality of partial input images obtained by the dividing step;
Characteristic quantities of partial character images in each part obtained by dividing a plurality of character images into a plurality of parts, the positional relationship of each partial character image in the character image, and the character type indicated by the character image A search step for searching for a partial character image having a similar feature value for each of the partial input images, using the feature value calculated by the feature value calculation step as a key,
A plurality of partial character images obtained by the search step are aggregated for each character type, the positional relationship of the partial character images in each character type, and the partial input image corresponding to the partial character image in the input image A consistency determining step of determining consistency with the positional relationship and extracting a combination of partial input images that matches the positional relationship of the partial character images as character candidates;
When the character candidates extracted by the consistency determination step have a predetermined number or more of partial input images, the partial input images of the character candidates are recognized as constituent elements of the character indicated by the character type. A recognition step;
A character recognition program for causing a computer to execute.

(付記2)前記整合性判定ステップは、前記複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成するグラフ作成ステップと、前記グラフ作成ステップによって作成されたグラフの完全部分グラフであるクリークを前記文字候補として抽出するクリーク抽出ステップとを含んだことを特徴とする付記1に記載の文字認識プログラム。 (Additional remark 2) The said consistency determination step makes a partial input image similar to the partial character image of the same character classification among the said some partial input images a node, and the relative position between the partial character images corresponding to each node A graph creation step of creating a graph by connecting nodes in which the relationship and the relative positional relationship between the partial input images corresponding to each node are consistent, and a complete subgraph of the graph created by the graph creation step The character recognition program according to claim 1, further comprising a clique extraction step of extracting a clique as the character candidate.

(付記3)前記認識ステップは、前記整合性判定ステップによって抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に前記文字種別によって示された文字が存在すると認識することを特徴とする付記1または2に記載の文字認識プログラム。 (Appendix 3) In the recognition step, when the character candidates extracted in the consistency determination step have a predetermined number or more of partial input images, a rectangle circumscribing the combination of the partial input images is obtained, and the rectangle is included in the rectangle. The character recognition program according to appendix 1 or 2, characterized in that the character indicated by the character type is recognized.

(付記4)前記検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記1〜3のいずれか一つに記載の文字認識プログラム。 (Additional remark 4) The said search table is the feature-value of each partial character image with respect to the partial character image obtained when the division processing from which division size and / or a division position differ with respect to the same character image, respectively. The character recognition program according to any one of appendices 1 to 3, wherein a positional relationship between the partial character images in the character image and a character type indicated by the character image are stored in association with each other. .

(付記5)前記検索テーブルは、前記部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記1〜4のいずれか一つに記載の文字認識プログラム。 (Supplementary Note 5) The search table associates a plurality of similar feature amounts with the partial character image, and the positional relationship of each partial character image in the character image with respect to each of the plurality of feature amounts. The character recognition program according to any one of appendices 1 to 4, wherein the character type indicated by the character image is stored in association with each other.

(付記6)入力画像内の文字を認識する文字認識装置であって、
複数の文字画像をそれぞれ複数の部分に分割して得られた各部分における部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けた検索テーブルを記憶する検索テーブル記憶手段と、
前記入力画像を複数の部分入力画像に分割する分割手段と、
前記分割手段によって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出された特徴量をキーにして前記検索テーブルを参照し、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索手段と、
前記検索手段によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定手段と、
前記整合性判定手段によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識手段と、
を備えたことを特徴とする文字認識装置。
(Appendix 6) A character recognition device for recognizing characters in an input image,
Characteristic quantities of partial character images in each part obtained by dividing a plurality of character images into a plurality of parts, the positional relationship of each partial character image in the character image, and the character type indicated by the character image Search table storage means for storing a search table associated with
Dividing means for dividing the input image into a plurality of partial input images;
Feature quantity calculating means for calculating a feature quantity for each of the plurality of partial input images obtained by the dividing means;
Search means for searching for partial character images having similar feature quantities for each of the partial input images with reference to the search table using the feature quantities calculated by the feature quantity calculating means as a key;
A plurality of partial character images obtained by the search means are aggregated for each character type, the positional relationship of the partial character images in each character type, and the partial input image corresponding to the partial character image in the input image Consistency determining means for determining consistency with the positional relationship and extracting a combination of partial input images that matches the positional relationship of the partial character images as character candidates;
When the character candidates extracted by the consistency determination unit have a predetermined number or more of partial input images, the partial input images of the character candidates are recognized as the constituent elements of the character indicated by the character type. Recognition means;
A character recognition device comprising:

(付記7)前記整合性判定手段は、前記複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成し、作成したグラフの完全部分グラフであるクリークを前記文字候補として抽出することを特徴とする付記6に記載の文字認識装置。 (Additional remark 7) The said consistency determination means uses as a node the partial input image similar to the partial character image of the same character type among these partial input images, and the relative position between the partial character images corresponding to each node Connecting the nodes where the relationship and the relative positional relationship between the partial input images corresponding to each node do not contradict each other, creating a graph, and extracting a clique that is a complete subgraph of the created graph as the character candidate The character recognition device according to appendix 6, which is characterized.

(付記8)前記認識手段は、前記整合性判定手段によって抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に前記文字種別によって示された文字が存在すると認識することを特徴とする付記6または7に記載の文字認識装置。 (Supplementary Note 8) When the character candidates extracted by the consistency determination unit have a predetermined number or more of partial input images, the recognition unit obtains a rectangle circumscribing the combination of the partial input images, and includes the rectangle within the rectangle. The character recognition device according to appendix 6 or 7, wherein the character identified by the character type is recognized to exist.

(付記9)前記検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記6〜8のいずれか一つに記載の文字認識装置。 (Additional remark 9) The said search table is the feature-value of each partial character image with respect to the partial character image obtained when the division processing from which division size and / or a division position differ with respect to the same character image, respectively. The character recognition device according to any one of appendices 6 to 8, wherein a positional relationship between the partial character images in the character image and a character type indicated by the character image are stored in association with each other. .

(付記10)前記検索テーブルは、前記部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記6〜9のいずれか一つに記載の文字認識装置。 (Supplementary Note 10) The search table associates a plurality of similar feature amounts with the partial character image, and a positional relationship of each partial character image in the character image with respect to each of the plurality of feature amounts; The character recognition device according to any one of appendices 6 to 9, wherein the character type indicated by the character image is stored in association with each other.

(付記11)入力画像内の文字を認識する文字認識方法であって、
前記入力画像を複数の部分入力画像に分割する分割工程と、
前記分割工程によって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出工程と、
複数の文字画像をそれぞれ複数の部分に分割して得られた各部分における部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶した検索テーブルから、前記特徴量算出工程によって算出された特徴量をキーにして、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索工程と、
前記検索工程によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定工程と、
前記整合性判定工程によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識工程と、
を含んだことを特徴とする文字認識方法。
(Supplementary note 11) A character recognition method for recognizing characters in an input image,
A dividing step of dividing the input image into a plurality of partial input images;
A feature amount calculating step for calculating a feature amount for each of the plurality of partial input images obtained by the dividing step;
Characteristic quantities of partial character images in each part obtained by dividing a plurality of character images into a plurality of parts, the positional relationship of each partial character image in the character image, and the character type indicated by the character image A search step for searching for a partial character image having a similar feature amount for each of the partial input images, using the feature amount calculated by the feature amount calculation step as a key,
A plurality of partial character images obtained by the search step are aggregated for each character type, the positional relationship of the partial character images in each character type, and the partial input image corresponding to the partial character image in the input image A consistency determining step of determining consistency with the positional relationship and extracting a combination of partial input images that matches the positional relationship of the partial character images as character candidates;
When the character candidates extracted by the consistency determination step have a predetermined number or more of partial input images, the partial input images of the character candidates are recognized as the constituent elements of the character indicated by the character type. Recognition process;
A character recognition method characterized by comprising

(付記12)前記整合性判定工程は、前記複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成するグラフ作成工程と、前記グラフ作成工程によって作成されたグラフの完全部分グラフであるクリークを前記文字候補として抽出するクリーク抽出工程とを含んだことを特徴とする付記11に記載の文字認識方法。 (Additional remark 12) The said consistency determination process makes a partial input image similar to the partial character image of the same character classification among a plurality of said partial input images a node, and the relative position between the partial character images corresponding to each node A graph creation step of creating a graph by connecting nodes in which the relationship and the relative positional relationship between partial input images corresponding to each node do not contradict each other, and a complete subgraph of the graph created by the graph creation step The character recognition method according to claim 11, further comprising a clique extraction step of extracting a clique as the character candidate.

(付記13)前記認識工程は、前記整合性判定工程によって抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に前記文字種別によって示された文字が存在すると認識することを特徴とする付記11または12に記載の文字認識方法。 (Additional remark 13) The said recognition process calculates | requires the rectangle which circumscribes the combination of the said partial input image, when the character candidate extracted by the said consistency determination process has a predetermined number or more of partial input images, and in the said rectangle 13. The character recognition method according to appendix 11 or 12, wherein a character indicated by the character type is recognized.

(付記14)前記検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記11〜13のいずれか一つに記載の文字認識方法。 (Additional remark 14) The said search table is the feature-value of each partial character image with respect to the partial character image obtained when the division processing from which division size and / or a division position differ with respect to the same character image, respectively. The character recognition method according to any one of appendices 11 to 13, wherein a positional relationship between the partial character images in the character image and a character type indicated by the character image are stored in association with each other. .

(付記15)前記検索テーブルは、前記部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して、前記文字画像内における各部分文字画像の位置関係と、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする付記11〜14のいずれか一つに記載の文字認識方法。 (Supplementary Note 15) The search table associates a plurality of similar feature amounts with the partial character image, and the positional relationship of each partial character image in the character image with respect to each of the plurality of feature amounts. The character recognition method according to any one of appendices 11 to 14, wherein the character type indicated by the character image is stored in association with each other.

以上のように、本発明にかかる文字認識プログラム、文字認識装置および文字認識方法は、文字認識に有用であり、特に、文字以外のパターンが重畳した文字画像の認識に適している。   As described above, the character recognition program, the character recognition device, and the character recognition method according to the present invention are useful for character recognition, and are particularly suitable for recognition of character images in which patterns other than characters are superimposed.

本発明の実施例にかかる文字認識装置の機能構成を示す機能構成図である。It is a functional block diagram which shows the functional structure of the character recognition apparatus concerning the Example of this invention. 認識処理部21の機能構成をさらに詳細に説明する機能構成図である。4 is a functional configuration diagram illustrating the functional configuration of a recognition processing unit 21 in more detail. ハッシュテーブル登録部22によるハッシュテーブル16の登録について説明する説明図である。It is explanatory drawing explaining the registration of the hash table 16 by the hash table registration part 22. FIG. 認識処理部21による入力画像の特徴算出と文字カテゴリ検索について説明する説明図である。It is explanatory drawing explaining the feature calculation and character category search of the input image by the recognition process part. 検索結果の文字カテゴリ毎の集計について説明する説明図である。It is explanatory drawing explaining the total for every character category of a search result. 位置整合性判定部35による部分入力画像のグラフ化処理について説明する説明図である。It is explanatory drawing explaining the graphing process of the partial input image by the position consistency determination part. ノード間でのパス接続について説明する説明図である。It is explanatory drawing explaining the path connection between nodes. クリークの抽出と評価について説明する説明図である。It is explanatory drawing explaining extraction and evaluation of a clique. 文字判定部36による文字領域の認識について説明する説明図である。It is explanatory drawing explaining the recognition of the character area by the character determination part. 位置整合性判定部35が文字カテゴリ検索部による検索結果から作成する投票結果データを示す図である。It is a figure which shows the voting result data which the position consistency determination part 35 produces from the search result by a character category search part. 位置整合性判定部35が作成するグラフデータを示す図である。It is a figure which shows the graph data which the position consistency determination part 35 produces. ハッシュテーブル登録の処理動作を説明するフローチャートである。It is a flowchart explaining the processing operation | movement of hash table registration. 文字の認識処理における処理動作を説明するフローチャートである。It is a flowchart explaining the processing operation | movement in the recognition process of a character. ハッシュテーブル作成時における正規化の変形例について説明する説明図である。It is explanatory drawing explaining the modification of normalization at the time of hash table creation. 1つの文字画像に対して異なる複数のメッシュ分割を行なう場合について説明する説明図である。It is explanatory drawing explaining the case where a several different mesh division | segmentation is performed with respect to one character image. (n,dx,dy)特徴を用いる場合の認識処理について説明する説明図である。It is explanatory drawing explaining the recognition process in the case of using a (n, dx, dy) feature. 本発明を利用した画像認識システムの概要構成について説明する概要構成図である。1 is a schematic configuration diagram illustrating a schematic configuration of an image recognition system using the present invention. 文字認識プログラムを実行するコンピュータの概要構成を説明する概要構成図である。It is a schematic block diagram explaining the schematic structure of the computer which performs a character recognition program.

符号の説明Explanation of symbols

1 文字認識装置
11 入力部
12 表示部
13 画像読取部
14 外部インターフェース
15 記憶部
16 ハッシュテーブル
20 制御部
21 認識処理部
22 ハッシュテーブル登録部
31 メッシュ分割部
32 特徴算出部
33 正規化処理部
34 文字カテゴリ検索部
35 位置整合性判定部
36 文字判定部
40 コンピュータ
41 入力装置
42 表示装置
43 画像読取装置
44 外部インターフェース
49 バス
51 認識処理プログラム
52 ハッシュテーブル登録プログラム
53 ハッシュテーブルデータ
54 認識処理プロセス
100 画像認識システム
101 スキャナ
102 差分画像作成部
103 画像解析部
D1,D2,D3 画像データ
D4 解析結果データ
G1 グラフ
G2,G3 クリーク
m21,m43,m44,m104,m105,m108,mα,mβ メッシュ
mα’,mα’’,mβ’ 投影像
DESCRIPTION OF SYMBOLS 1 Character recognition apparatus 11 Input part 12 Display part 13 Image reading part 14 External interface 15 Memory | storage part 16 Hash table 20 Control part 21 Recognition process part 22 Hash table registration part 31 Mesh division part 32 Feature calculation part 33 Normalization process part 34 Character Category search unit 35 Position consistency determination unit 36 Character determination unit 40 Computer 41 Input device 42 Display device 43 Image reader 44 External interface 49 Bus 51 Recognition processing program 52 Hash table registration program 53 Hash table data 54 Recognition processing process 100 Image recognition System 101 Scanner 102 Difference image creation unit 103 Image analysis unit D1, D2, D3 Image data D4 Analysis result data G1 Graph G2, G3 Clique m21, m43, m44, m104, m 05, m108, mα, mβ mesh mα ', mα'',mβ' projected image

Claims (7)

入力画像内の文字を認識する文字認識処理をコンピュータに実行させる文字認識プログラムであって、
前記入力画像を、当該入力画像内の1文字が所定の数に分割される大きさの、複数の部分入力画像に分割する分割ステップと、
前記分割ステップによって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出ステップと、
複数の文字画像をそれぞれ前記所定の数に分割した部分文字画像の特徴量と、当該部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けて記憶した検索テーブルから、前記特徴量算出ステップによって算出された特徴量をキーにして、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索ステップと、
前記検索ステップによって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定ステップと、
前記整合性判定ステップによって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識ステップと、
をコンピュータに実行させることを特徴とする文字認識プログラム。
A character recognition program for causing a computer to execute character recognition processing for recognizing characters in an input image,
A division step of dividing the input image into a plurality of partial input images having a size in which one character in the input image is divided into a predetermined number ;
A feature amount calculating step for calculating a feature amount for each of the plurality of partial input images obtained by the dividing step;
A character quantity of a partial character image obtained by dividing a plurality of character images into the predetermined number , a character image of which character image has a feature quantity of the partial character image, and a character quantity of the partial character image at which position. A partial character image having a similar feature amount for each of the partial input images is searched from the search table in which the character type indicated by is stored in association with each other using the feature amount calculated in the feature amount calculating step as a key. A search step;
A plurality of partial character images obtained by the search step are aggregated for each character type, the positional relationship of the partial character images in each character type, and the partial input image corresponding to the partial character image in the input image A consistency determining step of determining consistency with the positional relationship and extracting a combination of partial input images that matches the positional relationship of the partial character images as character candidates;
When the character candidates extracted by the consistency determination step have a predetermined number or more of partial input images, the partial input images of the character candidates are recognized as constituent elements of the character indicated by the character type. A recognition step;
A character recognition program for causing a computer to execute.
前記整合性判定ステップは、前記複数の部分入力画像のうち、同一の文字種別の部分文字画像に類似する部分入力画像をノードとし、各ノードに対応する部分文字画像間の相対位置関係と、各ノードに対応する部分入力画像間の相対位置関係とが矛盾しないノード間を接続してグラフを作成するグラフ作成ステップと、前記グラフ作成ステップによって作成されたグラフの完全部分グラフであるクリークを前記文字候補として抽出するクリーク抽出ステップとを含んだことを特徴とする請求項1に記載の文字認識プログラム。   The consistency determination step uses a partial input image similar to a partial character image of the same character type as a node among the plurality of partial input images, and a relative positional relationship between partial character images corresponding to each node, A graph creation step of creating a graph by connecting nodes in which the relative positional relationship between the partial input images corresponding to the nodes is consistent, and a clique that is a complete subgraph of the graph created by the graph creation step The character recognition program according to claim 1, further comprising a clique extraction step of extracting as a candidate. 前記認識ステップは、前記整合性判定ステップによって抽出された文字候補が、所定数以上の部分入力画像を有する場合、当該部分入力画像の組み合わせに外接する矩形を求め、当該矩形内に前記文字種別によって示された文字が存在すると認識することを特徴とする請求項1または2に記載の文字認識プログラム。   In the recognition step, when the character candidates extracted in the consistency determination step have a predetermined number or more of partial input images, a rectangle circumscribing the combination of the partial input images is obtained, and the rectangle includes the rectangle according to the character type. The character recognition program according to claim 1, wherein the character recognition unit recognizes that the indicated character exists. 前記検索テーブルは、同一の文字画像に対して分割サイズおよび/または分割位置の異なる分割処理を行なった場合にそれぞれ得られる部分文字画像に対して、各部分文字画像の特徴量と、当該各部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする請求項1〜3のいずれか一つに記載の文字認識プログラム。 The lookup table, for the same partition size and / or split position different division respectively obtained when the processing was performed partial character image to a character image, and the feature quantity of each partial character images, the respective parts 4. The character image of which character image is a character image at which position of a character image and a character type indicated by the character image are stored in association with each other. The character recognition program as described in any one. 前記検索テーブルは、前記部分文字画像に対して類似する複数の特徴量を対応付け、当該複数の特徴量の各々に対して、前記部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けて記憶することを特徴とする請求項1〜4のいずれか一つに記載の文字認識プログラム。 The search table associates a plurality of similar feature quantities with the partial character image , and for each of the plurality of feature quantities, a part of which character image has a feature quantity of the partial character image. The character recognition program according to any one of claims 1 to 4, wherein a character image feature value and a character type indicated by the character image are stored in association with each other. 入力画像内の文字を認識する文字認識装置であって、
前記入力画像を、当該入力画像内の1文字が所定の数に分割される大きさの、複数の部分入力画像に分割する分割手段と、
前記分割手段によって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出手段と、
複数の文字画像をそれぞれ前記所定の数に分割した部分文字画像の特徴量と、当該部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けた検索テーブルを記憶する検索テーブル記憶手段と、
前記特徴量算出手段によって算出された特徴量をキーにして前記検索テーブルを参照し、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索手段と、
前記検索手段によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定手段と、
前記整合性判定手段によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識手段と、
を備えたことを特徴とする文字認識装置。
A character recognition device for recognizing characters in an input image,
A dividing unit that divides the input image into a plurality of partial input images having a size in which one character in the input image is divided into a predetermined number ;
Feature quantity calculating means for calculating a feature quantity for each of the plurality of partial input images obtained by the dividing means;
A character quantity of a partial character image obtained by dividing a plurality of character images into the predetermined number , a character image of which character image has a feature quantity of the partial character image, and a character quantity of the partial character image at which position. Search table storage means for storing a search table in association with the character type indicated by
Search means for searching for partial character images having similar feature quantities for each of the partial input images with reference to the search table using the feature quantities calculated by the feature quantity calculating means as a key;
A plurality of partial character images obtained by the search means are aggregated for each character type, the positional relationship of the partial character images in each character type, and the partial input image corresponding to the partial character image in the input image Consistency determining means for determining consistency with the positional relationship and extracting a combination of partial input images that matches the positional relationship of the partial character images as character candidates;
When the character candidates extracted by the consistency determination unit have a predetermined number or more of partial input images, the partial input images of the character candidates are recognized as the constituent elements of the character indicated by the character type. Recognition means;
A character recognition device comprising:
入力画像内の文字を認識する文字認識方法であって、
前記入力画像を、当該入力画像内の1文字が所定の数に分割される大きさの、複数の部分入力画像に分割する分割工程と、
前記分割工程によって得られた複数の部分入力画像の各々について特徴量を算出する特徴量算出工程と、
複数の文字画像をそれぞれ前記所定の数に分割した部分文字画像の特徴量と、当該部分文字画像の特徴量がどの文字画像の、どの位置の部分文字画像の特徴量であるかと、前記文字画像によって示される文字種別とを対応付けて記憶した検索テーブルから、前記特徴量算出工程によって算出された特徴量をキーにして、前記部分入力画像の各々について特徴量が類似する部分文字画像を検索する検索工程と、
前記検索工程によって得られた複数の部分文字画像を文字種別毎に集計し、各文字種別内における前記部分文字画像の位置関係と、当該部分文字画像に対応する部分入力画像の前記入力画像内における位置関係との整合性を判定し、部分文字画像の位置関係と整合する部分入力画像の組み合わせを文字候補として抽出する整合性判定工程と、
前記整合性判定工程によって抽出された文字候補が、所定数以上の部分入力画像を有する場合に、当該文字候補が有する部分入力画像が前記文字種別によって示された文字の構成要素であると認識する認識工程と、
を含んだことを特徴とする文字認識方法。
A character recognition method for recognizing characters in an input image,
A division step of dividing the input image into a plurality of partial input images having a size in which one character in the input image is divided into a predetermined number ;
A feature amount calculating step for calculating a feature amount for each of the plurality of partial input images obtained by the dividing step;
A character quantity of a partial character image obtained by dividing a plurality of character images into the predetermined number , a character image of which character image has a feature quantity of the partial character image, and a character quantity of the partial character image at which position. A partial character image having a similar feature value for each of the partial input images is searched from the search table in which the character type indicated by is stored in association with each other using the feature value calculated by the feature value calculation step as a key. Search process;
A plurality of partial character images obtained by the search step are aggregated for each character type, the positional relationship of the partial character images in each character type, and the partial input image corresponding to the partial character image in the input image A consistency determining step of determining consistency with the positional relationship and extracting a combination of partial input images that matches the positional relationship of the partial character images as character candidates;
When the character candidates extracted by the consistency determination step have a predetermined number or more of partial input images, the partial input images of the character candidates are recognized as the constituent elements of the character indicated by the character type. Recognition process;
A character recognition method characterized by comprising
JP2007208612A 2007-08-09 2007-08-09 Character recognition program, character recognition device, and character recognition method Active JP5098504B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007208612A JP5098504B2 (en) 2007-08-09 2007-08-09 Character recognition program, character recognition device, and character recognition method
US12/153,015 US20090041361A1 (en) 2007-08-09 2008-05-12 Character recognition apparatus, character recognition method, and computer product
CN2008101082592A CN101364267B (en) 2007-08-09 2008-06-05 Character recognition apparatus, character recognition method, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007208612A JP5098504B2 (en) 2007-08-09 2007-08-09 Character recognition program, character recognition device, and character recognition method

Publications (2)

Publication Number Publication Date
JP2009043102A JP2009043102A (en) 2009-02-26
JP5098504B2 true JP5098504B2 (en) 2012-12-12

Family

ID=40346612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007208612A Active JP5098504B2 (en) 2007-08-09 2007-08-09 Character recognition program, character recognition device, and character recognition method

Country Status (3)

Country Link
US (1) US20090041361A1 (en)
JP (1) JP5098504B2 (en)
CN (1) CN101364267B (en)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011166402A (en) * 2010-02-09 2011-08-25 Seiko Epson Corp Image processing apparatus, method, and computer program
CN102208022A (en) * 2010-03-31 2011-10-05 富士通株式会社 Shaded character recovery device and method thereof, shaded character recognition device and method thereof
JP5372853B2 (en) * 2010-07-08 2013-12-18 株式会社日立製作所 Digital sequence feature amount calculation method and digital sequence feature amount calculation apparatus
JP5630863B2 (en) 2010-11-26 2014-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Method, apparatus, and computer program for determining and visualizing total order relation of nodes included in structured document based on log information
CN102622366B (en) 2011-01-28 2014-07-30 阿里巴巴集团控股有限公司 Similar picture identification method and similar picture identification device
JP5168435B2 (en) * 2011-05-17 2013-03-21 パナソニック株式会社 Character string extraction method and character string extraction device
CN102724387B (en) * 2012-05-26 2016-08-03 安科智慧城市技术(中国)有限公司 A kind of method and device of electronic steady image
CN102880874B (en) * 2012-09-29 2016-04-13 重庆新媒农信科技有限公司 Character identifying method and Character recognizer
JP2014127186A (en) * 2012-12-27 2014-07-07 Ricoh Co Ltd Image processing apparatus, image processing method, and program
JP6127685B2 (en) * 2013-04-19 2017-05-17 富士通株式会社 Information processing apparatus, program, and shape recognition method
CN104348624B (en) * 2013-08-09 2018-02-02 阿里巴巴集团控股有限公司 A kind of method and apparatus of Hash authentication trustworthiness
JP6170860B2 (en) * 2014-03-25 2017-07-26 株式会社日立情報通信エンジニアリング Character recognition device and identification function generation method
JP6694638B2 (en) * 2015-01-21 2020-05-20 国立大学法人東京農工大学 Program, information storage medium, and recognition device
CN107092903A (en) * 2016-02-18 2017-08-25 阿里巴巴集团控股有限公司 information identifying method and device
CN106599028B (en) * 2016-11-02 2020-04-28 华南理工大学 Book content searching and matching method based on video image processing
CN109753967A (en) * 2018-12-29 2019-05-14 北京师范大学 A kind of picture character recognition methods
CN110929708A (en) * 2019-09-30 2020-03-27 京东数字科技控股有限公司 Method, equipment and storage medium for identifying national flag in Thai identity card
CN113542750B (en) * 2021-05-27 2024-06-25 绍兴市北大信息技术科创中心 Data coding method for searching by adopting more than two sets of hash tables
CN113962199B (en) * 2021-12-20 2022-04-08 腾讯科技(深圳)有限公司 Text recognition method, text recognition device, text recognition equipment, storage medium and program product
CN114637845B (en) * 2022-03-11 2023-04-14 上海弘玑信息技术有限公司 Model testing method, device, equipment and storage medium

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4075605A (en) * 1974-09-13 1978-02-21 Recognition Equipment Incorporated Character recognition unit
JPS5923467B2 (en) * 1979-04-16 1984-06-02 株式会社日立製作所 Position detection method
US5119441A (en) * 1989-03-28 1992-06-02 Ricoh Company, Ltd. Optical character recognition apparatus and method using masks operation
US5067165A (en) * 1989-04-19 1991-11-19 Ricoh Company, Ltd. Character recognition method
JPH03160585A (en) * 1989-11-17 1991-07-10 Sanyo Electric Co Ltd Character recognizing method
JPH06236455A (en) * 1993-02-10 1994-08-23 Oki Electric Ind Co Ltd Character recognizing device
JP2951814B2 (en) * 1993-02-25 1999-09-20 富士通株式会社 Image extraction method
JPH0896080A (en) * 1994-09-26 1996-04-12 Nec Eng Ltd Optical character reader
JP3294995B2 (en) * 1996-06-21 2002-06-24 三菱電機株式会社 Form reader
JPH11184971A (en) * 1997-12-22 1999-07-09 Toshiba Corp Device and method for character input with handwritten character recognition function
CN1200387C (en) * 2003-04-11 2005-05-04 清华大学 Statistic handwriting identification and verification method based on separate character
US7190834B2 (en) * 2003-07-22 2007-03-13 Cognex Technology And Investment Corporation Methods for finding and characterizing a deformed pattern in an image
US7386172B2 (en) * 2005-03-11 2008-06-10 Kabushiki Kaisha Toshiba Image recognition method
JP4750802B2 (en) * 2006-01-13 2011-08-17 富士通株式会社 Form processing program and form processing apparatus

Also Published As

Publication number Publication date
CN101364267A (en) 2009-02-11
US20090041361A1 (en) 2009-02-12
JP2009043102A (en) 2009-02-26
CN101364267B (en) 2011-09-28

Similar Documents

Publication Publication Date Title
JP5098504B2 (en) Character recognition program, character recognition device, and character recognition method
Moreno-García et al. New trends on digitisation of complex engineering drawings
Hajič et al. The MUSCIMA++ dataset for handwritten optical music recognition
US11113518B2 (en) Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal
US20200074169A1 (en) System And Method For Extracting Structured Information From Image Documents
JP5500480B2 (en) Form recognition device and form recognition method
JP5134628B2 (en) Media material analysis of consecutive articles
US8233726B1 (en) Image-domain script and language identification
JPH05217019A (en) Business form identifying system and image processing system
JPS61267177A (en) Retrieving system for document picture information
CN111523537A (en) Character recognition method, storage medium and system
CN112925938A (en) Image annotation method and device, electronic equipment and storage medium
CN110796145B (en) Multi-certificate segmentation association method and related equipment based on intelligent decision
JP5343617B2 (en) Character recognition program, character recognition method, and character recognition device
CN114782965A (en) Visual rich document information extraction method, system and medium based on layout relevance
CN116343237A (en) Bill identification method based on deep learning and knowledge graph
JP4140221B2 (en) Image collation device and image collation program
Sotoodeh et al. A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques
Sotoodeh et al. Staff detection and removal using derivation and connected component analysis
JP4517822B2 (en) Image processing apparatus and program
CN112287763A (en) Image processing method, apparatus, device and medium
JP2004046723A (en) Method for recognizing character, program and apparatus used for implementing the method
Maity et al. An approach for detecting circular callouts in architectural, engineering and constructional drawing documents
CN113420840B (en) Target detection method and system based on low-resolution image
Liu et al. Table detection method based on feature pyramid network with faster R-CNN

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5098504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150