JP2008071214A - Character recognition dictionary creation method and its device, character recognition method and its device, and storage medium in which program is stored - Google Patents
Character recognition dictionary creation method and its device, character recognition method and its device, and storage medium in which program is stored Download PDFInfo
- Publication number
- JP2008071214A JP2008071214A JP2006250250A JP2006250250A JP2008071214A JP 2008071214 A JP2008071214 A JP 2008071214A JP 2006250250 A JP2006250250 A JP 2006250250A JP 2006250250 A JP2006250250 A JP 2006250250A JP 2008071214 A JP2008071214 A JP 2008071214A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- identification
- recognition
- features
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、文字認識辞書作成方法とその装置、文字認識方法とその装置および文字認識辞書作成プログラムと文字認識プログラムとを格納した記憶媒体に関する。 The present invention relates to a character recognition dictionary creation method and apparatus, a character recognition method and apparatus, a character recognition dictionary creation program, and a storage medium storing a character recognition program.
従来の文字認識の方法としては、前処理−特徴抽出−識別からなる認識系がよく採られている(例えば非特許文献1参照)。入力された文字パターンは前処理部において、パターン中に存在する雑音の除去、文字パターンの位置や大きさの正規化が施される。特徴抽出部では文字パターンの本質を表わす特徴が抽出される。この特徴は、文字パターンの種類によって予め定められている。識別部では、認識対象とするカテゴリの典型的なパターンである標準パターンを用意しておき、入力文字パターンと該標準パターンとの近さの尺度を用い、最も近い尺度に対応するカテゴリを認識結果として出力する方法が知られている。 As a conventional character recognition method, a recognition system including preprocessing, feature extraction, and identification is often employed (see, for example, Non-Patent Document 1). The input character pattern is subjected to noise removal and normalization of the position and size of the character pattern in the preprocessing unit. The feature extraction unit extracts a feature representing the essence of the character pattern. This feature is predetermined by the type of character pattern. The identification unit prepares a standard pattern that is a typical pattern of a category to be recognized, uses a measure of the proximity between the input character pattern and the standard pattern, and recognizes the category corresponding to the closest measure as a result of recognition. The method of outputting as is known.
手書き漢字認識では、特徴としては文字線の方向特徴を用い、識別手法としては統計的識別手法を用いれば高い認識率が得られることが実証されている。しかし、漢字全字種の平均の認識率は高くとも、個々の字種では認識率が低いものもあり、それらの多くは(問、闇、閤、間)、(徴、微)などに見られる如く類似した字形形状を持つ類似文字である。 In handwritten Kanji recognition, it has been proved that a high recognition rate can be obtained by using a character line direction feature as a feature and a statistical identification method as an identification method. However, even though the average recognition rate for all Kanji types is high, there are some that have low recognition rates for individual character types, many of which are seen in (question, darkness, jealousy, between) and (signature, fine). It is a similar character having a similar character shape as can be seen.
そこで、類似文字を識別するには類似文字を専用に認識する詳細識別部を前記認識系に付加する方法が採られている。詳細識別の手法としては、文字パターンの局所情報を直接扱う構造解析的手法と文字パターンから抽出した特徴を扱う統計的手法に大別される。 Therefore, in order to identify similar characters, a method is adopted in which a detailed identification unit that recognizes similar characters exclusively is added to the recognition system. Detailed identification methods are roughly classified into a structural analysis method that directly handles local information of a character pattern and a statistical method that handles features extracted from the character pattern.
構造解析的手法としては、類似文字間の差分となるストロークを抽出し、これを用いて識別する方法(非特許文献2参照)と、類似文字間の差分が現れる部首等の部分領域のみ用いて識別する方法(非特許文献3参照)とがある。しかし、ストロークには接触や欠けが生じるため局所情報であるストロークや部分領域の抽出は難しい。 As a structural analysis technique, a stroke that is a difference between similar characters is extracted and used for identification (see Non-Patent Document 2), and only a partial region such as a radical in which a difference between similar characters appears is used. And a method of identifying them (see Non-Patent Document 3). However, it is difficult to extract strokes and partial areas, which are local information, because contact and chipping occur in the strokes.
統計的手法はさらにいくつかの手法に分かれるが、それぞれ問題点がある。類似文字間の標準パターンの間で差分の大きい差分特徴のみを用いて識別する方法(非特許文献4参照)は原特徴を直接使用できる利点はあるが、差分特徴は類似文字間の差分が大きいという基準で選択されたものであり、その安定性は吟味されておらず、特徴が変動した場合に識別力が弱くなる。部分空間を用いる方法(非特許文献5参照)は特徴数を削減することはできるが、自カテゴリーの特徴分布しか考慮しないため他カテゴリーとの差分を見る機能は無い。判別分析を用いる方法(非特許文献6参照)は他カテゴリーとの差分を見る機能はあるが、特徴分布が正規分布であることを仮定している。しかし、実際の文字パターンの分布は正規分布でないことが多いうえ、識別対象カテゴリー数をQ個とすると識別に有効な特徴の個数は(Q−1)個しか得られずQの数が小さいときは非常に少ない特徴数で識別せねばならず識別が困難になる。また、部分空間法、判別分析は原特徴に線形変換を施して得られる特徴を新たな特徴とするため特徴当りの計算量は増加することとなる。 Statistical methods are further divided into several methods, each with its own problems. The method of using only the difference feature having a large difference between the standard patterns between similar characters (see Non-Patent Document 4) has an advantage that the original feature can be used directly, but the difference feature has a large difference between similar characters. The stability is not examined, and the discriminating power is weakened when the characteristics change. Although the method using a subspace (see Non-Patent Document 5) can reduce the number of features, it only has a feature distribution of its own category, so there is no function to see the difference from other categories. The method using discriminant analysis (see Non-Patent Document 6) has a function of seeing a difference from other categories, but assumes that the feature distribution is a normal distribution. However, the distribution of the actual character pattern is often not a normal distribution, and when the number of categories to be identified is Q, only (Q-1) features can be obtained and the number of Q is small. Must be identified with a very small number of features, making identification difficult. In addition, since the subspace method and discriminant analysis use a feature obtained by performing linear transformation on the original feature as a new feature, the amount of calculation per feature increases.
以上述べたように、構造解析的手法はストロークや部分領域の抽出が難しく、統計的手法の中で原特徴から選択した特徴を直接使用する差分特徴は特徴変動に弱く、また、特徴数を削減し少数個の特徴で識別する部分空間法や判別分析は特徴分布が正規分布であるという仮定の上に成り立っているので真に識別に貢献する特徴を選択できるとは限らないうえ、原特徴を直接使用する差分特徴に比べて特徴当たりの計算量が増加するという問題点があった。 As described above, it is difficult to extract strokes and partial areas in the structural analysis method, and the difference feature that directly uses the feature selected from the original feature in the statistical method is vulnerable to feature variation, and the number of features is reduced. However, subspace methods and discriminant analysis that identify with a small number of features are based on the assumption that the feature distribution is a normal distribution, so it is not always possible to select features that really contribute to discrimination, and the original features There is a problem that the amount of calculation per feature increases compared to the difference feature used directly.
本発明は上記に鑑みてなされたものであり、原特徴の中から識別に貢献している少数の特徴を選択して少ない計算量で類似文字識別を行う文字認識辞書作成方法とその装置、文字認識方法とその装置および文字認識辞書作成プログラムと文字認識プログラムとを格納した記憶媒体を提供するところにある。 The present invention has been made in view of the above, and a character recognition dictionary creation method and apparatus for selecting similar characters with a small amount of calculation by selecting a small number of features that contribute to identification from among original features, and a character thereof It is an object of the present invention to provide a storage medium storing a recognition method and apparatus, a character recognition dictionary creation program, and a character recognition program.
本発明は上記目的を達成するため、カテゴリ当たり多数の文字パターンを収集した学習データを用い、該文字パターンの特徴を抽出して統計的処理を施すことにより該カテゴリの標準パターンを作成する文字認識辞書作成方法において、
“0”、“1”の2値をとるビットが特徴の個数だけ連なったビット列からなる遺伝子を複数個用意し、予め定められた確率で“1”が生じるよう各個体に“0”、“1”の値を割り当てることにより初期遺伝子集団を作成し、
該初期遺伝子集団の個体においてビットが“1”の値を取るアドレスに対応する特徴のみを用いて、指定された類似文字の標準パターンの特徴と該類似文字の学習データの文字パターンの特徴との間で識別尺度を計算し該個体による認識率を求める処理を全ての固体に対して行い、
前記固体における認識率が予め定められた認識率以上となる固体のみを集めた集合を親遺伝子候補集合として作成し、
前記親遺伝子候補集合の各個体に対し、少ない特徴数で前期予め定められた認識率を保持する観点から設定された適応度を求め、
前記親遺伝子候補集合の各個体の適応度を用いて次世代の親遺伝子となる固体を選択することにより親遺伝子集合を作成し、
前記親遺伝子集合から固体を2組取り出し、該2組の固体の遺伝子を交叉により交換した新たな固体を2組生成して前記親遺伝子集合に戻す操作を予め定められた回数だけ繰り返し、
前記親遺伝子集合から固体を取り出し、遺伝子の一部に“0”、“1”の値を予め与えられた確率で反転させる突然変異を生じさせ、
前記した、個体による認識−適応度計算−選択−交叉−突然変異の一連の処理を1世代における処理とし予め定められた収束の基準を満足するか、あるいは、予め定められた最大世代数に到達するかの条件を満たすまで世代交代を繰り返し、最終的に得られた親遺伝子集合の中で適応度が最大の固体を取り出し、
指定された類似文字のカテゴリ名と、前記適応度が最大の固体から“1”の値を取るアドレスに対応する特徴番号とを用いて前記類似文字の詳細識別辞書を作成すること、
を最も主要な特徴とする。
In order to achieve the above object, the present invention uses learning data obtained by collecting a large number of character patterns per category, extracts the characteristics of the character patterns, and performs statistical processing to generate character patterns for the categories. In the dictionary creation method,
A plurality of genes consisting of bit strings in which the number of binary bits of “0” and “1” are connected for the number of features are prepared, and “0”, “ Create an initial gene population by assigning a value of 1 "
The feature of the standard pattern of the designated similar character and the feature of the character pattern of the learning data of the similar character using only the feature corresponding to the address where the bit takes a value of “1” in the individual of the initial gene population The process of calculating the discrimination scale between them and calculating the recognition rate by the individual is performed on all solids,
Create a set of only solids whose recognition rate in the solid is equal to or higher than a predetermined recognition rate as a parent gene candidate set,
For each individual of the parent gene candidate set, find the fitness set from the viewpoint of maintaining the recognition rate predetermined in the previous period with a small number of features,
Create a parent gene set by selecting a solid that will be the next generation parent gene using the fitness of each individual of the parent gene candidate set,
Two sets of solids are taken out from the parent gene set, two sets of solid genes are exchanged by crossover, and two sets of new solids are generated and returned to the parent gene set for a predetermined number of times,
Taking a solid from the parent gene set, causing a mutation that inverts the value of “0”, “1” to a part of the gene with a predetermined probability,
The above-mentioned series of recognition-fitness calculation-selection-crossover-mutation processing by an individual satisfies the predetermined convergence criteria or reaches a predetermined maximum number of generations. The generation change is repeated until the condition of whether or not is satisfied, and the solid with the maximum fitness in the finally obtained parent gene set is taken out,
Creating a detailed identification dictionary of the similar characters using the category name of the designated similar characters and the feature number corresponding to the address having a value of “1” from the object having the maximum fitness;
Is the most important feature.
また、前記適応度は、個体の有する“1”の総数を特徴数とし、当該世代の固体の中で最大特徴数を求め、各固体が該最大特徴数から低減できた特徴数を前記最大特徴数で除した値で定義される特徴数減少比とすることを特徴とする。 Further, the fitness is the total number of “1” that an individual has as a feature number, the maximum feature number among the objects of the generation is obtained, and the number of features that each individual can reduce from the maximum feature number is the maximum feature number. The feature number reduction ratio is defined by a value divided by a number.
本発明は上記目的を達成するため、入力文字パターンの特徴と標準パターンとの特徴との間で計算して得られる近さの尺度を用いて前記入力文字パターンの属するカテゴリを前記尺度の昇順に候補列として出力する文字認識方法において、
識別で得られた第1位候補の識別尺度と第2位候補の識別尺度とから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第1位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は識別で得られた候補を認識対象として後続の詳細識別部に送出し、
詳細識別部では、詳細識別辞書を探索して前記第1位候補の属するカテゴリ集合と該カテゴリ集合の識別に用いる詳細識別用特徴を得、
前記カテゴリ集合の識別辞書から前記詳細識別用特徴の特徴番号で指定される特徴を読み出し、該特徴と入力文字パターンから得られた特徴中の前記詳細識別用特徴とを用いて詳細識別を行い、得られた結果を認識結果として出力すること、
を特徴とする。
In order to achieve the above-mentioned object, the present invention assigns categories to which the input character pattern belongs in ascending order of the scale using a measure of proximity obtained by calculating between the features of the input character pattern and the features of the standard pattern. In the character recognition method to output as a candidate string,
From the identification scale of the first candidate obtained by the identification and the identification scale of the second candidate, it is determined whether or not the first candidate is a correct category,
If it is determined that the reliability is high, the first candidate is output as a recognition result, and if it is not determined that the reliability is high, the candidate obtained by identification is sent as a recognition target to the subsequent detailed identification unit. And
The detailed identification unit searches the detailed identification dictionary to obtain a category set to which the first candidate belongs and a feature for detailed identification used for identification of the category set,
Read the feature specified by the feature number of the feature for detailed identification from the identification dictionary of the category set, perform the detailed identification using the feature and the feature for detailed identification in the feature obtained from the input character pattern, Outputting the obtained results as recognition results;
It is characterized by.
本発明は次のような効果を奏する。請求項1、請求項4に記載されている発明は、識別に使用している特徴から選択された特徴を用いて詳細識別を行う方法であって、一定の認識率を保持しながら特徴数を減少させるよう遺伝的アルゴリズムにより選択した特徴を用いているので、差分特徴のように類似文字の標準パターンの情報のみで特徴選択したものとは異なり、また、部分空間法や判別分析のように特徴分布のみから特徴選択したものとも異なり、識別能力の高い少数の特徴が得られる長所がある。
The present invention has the following effects. The invention described in
請求項2、請求項5に記載されている発明は、請求項1、請求項4に記載されている発明において、適応度を特徴数減少比としたものであり、適応度の取る値域が大きく、最適に近い解が見つけ易く、収束も速くなるという長所がある。
The invention described in
請求項3、請求項6に記載されている発明は、詳細識別用の特徴は識別用の特徴の一部を使用するものであり詳細識別用特徴を別途設定していないので、詳細識別辞書に特徴を格納する必要がなくなり辞書容量が小さくなるとともに、認識系構成に一貫性を持たせることができるという長所がある。
In the invention described in
以下、本発明の実施の形態について図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1は本発明の一実施例を示す文字認識辞書作成装置のブロック構成図で、入力パターンメモリ部1、前処理部2、特徴抽出部3、特徴選択部4、詳細識別辞書作成部5、詳細識別辞書6から成る。
FIG. 1 is a block diagram of a character recognition dictionary creating apparatus according to an embodiment of the present invention. An input
入力パターンメモリ部1はスキャナ、テレビカメラ等の入力装置により取り込まれた文字パターンを格納し、前処理部2は正規化・雑音除去等を行い、特徴抽出部3は認識に使用するための特徴を入力文字パターンから抽出し、特徴選択部4は前記特徴の中から詳細識別に必要な特徴を選択し、詳細識別辞書作成部5は前記選択された特徴に文字コードを付加した情報を詳細識別辞書6に格納する。
The input
次に、本発明で主要な部分をなす特徴選択部4の動作を図2を用いて説明する。図2は特徴選択部4の一実施例を示すブロック構成図であって、初期遺伝子集団作成回路41、識別尺度計算回路42、認識率計算回路43、親遺伝子候補選択回路44、適応度計算回路45、親遺伝子選択回路46、交叉操作回路47、突然変異操作回路48、世代交代継続判定回路49から成る。
Next, the operation of the
初期遺伝子集団作成回路41は遺伝子の初期状態を作成する。図3は遺伝子の初期状態を示す図であって、遺伝子の固体は“0”、“1”の2値をとるビットがd個連なったビット列からなり、該固体がK個集まって1つの集団を形成する様子が示されている。遺伝子の各ビットのアドレスは特徴番号に対応しており、ビットの値が“0”を取るときは該ビットのアドレスに対応する特徴は詳細識別に使用されず、“1”を取るときは使用されることを表している。初期遺伝子集団作成回路41は確率α(0<α<1)で“1”が生じるよう各個体に“0”、“1”の値を割り当てることにより初期状態をセットする。該遺伝子に遺伝的アルゴリズムを作用させることにより“1”の数が減少し、詳細識別に使用される特徴が選ばれる仕組みとなっている。
The initial gene
識別尺度計算回路42は、世代g=1において、初期遺伝子集団作成回路41から受け取ったK個の固体の中の第1固体(k=1)のビット列で“1”を取るアドレスに対応する特徴のみを用いて、指定された類似文字の標準パターンの特徴と該類似文字の学習データの文字パターンの特徴との間で識別尺度の計算を行う。入力パターンの特徴は特徴抽出部3から送出され、類似文字の標準パターンの特徴は識別辞書10から読み出され、識別尺度の計算に供される。識別尺度の計算は学習データの中の指定された類似文字の全ての文字パターンについて行う。第1固体における処理が終了すると、第2個体以降、全ての個体について識別尺度の計算を行う。
The identification
認識率計算回路43は、識別尺度計算回路42で得られた類似文字の識別尺度を用いてk=1,2,…,Kと変化させながら第k固体の学習データに対する認識率γkをK個の固体全てについて計算する。
The recognition
親遺伝子候補選択回路44は、認識率計算回路43で得られた各個体の認識率γkを用いて予め定められた認識率γ0以上となる固体のみを集めた世代gにおける集合A(g)を作成し、これらを親遺伝子の候補とする。
Parent gene
適応度計算回路45は、親遺伝子候補選択回路44で得られた集合A(g)に属する固体kの適応度a(k)を計算する。適応度a(k)として個体kにおける特徴数減少比を用いると
The fitness calculation circuit 45 calculates the fitness a (k) of the individual k belonging to the set A (g) obtained by the parent gene
で表わされる。ここで、Dmaxは集合A(g)に属する固体の有する特徴数の中で最大となる特徴数、D(k)は第k固体の特徴数である。式(1)では各個体が最大特徴数から低減できた特徴数を最大特徴数で除して得られる特徴数減少比を適応度として用いているが、最大特徴数に対する固体の特徴数の比など、最大特徴数と固体の特徴数の関係を表すものであれば他の尺度であっても良い。 It is represented by Here, D max is the maximum number of features of the solids belonging to the set A (g), and D (k) is the number of features of the k-th solid. In equation (1), the feature number reduction ratio obtained by dividing the number of features that each individual can reduce from the maximum number of features by the maximum number of features is used as fitness, but the ratio of the number of individual features to the maximum number of features Any other scale may be used as long as it represents the relationship between the maximum feature number and the solid feature number.
親遺伝子選択回路46は、適応度計算回路45で得た適応度a(k)を親遺伝子候補選択回路44で得た集合A(g)に作用させ、適応度比例戦略で次世代の親遺伝子となる固体を選択し、K個の個体からなる親遺伝子集合S(g)を作成する。ここでは、親遺伝子作成に適応度比例戦略を用いたがエリート保存戦略、期待値戦略他の方法であっても良い。
The parent
交叉操作回路47は、親遺伝子選択回路46で得た親遺伝子集合S(g)に交叉を施し、K個の個体からなる親遺伝子集合Sc(g)を作成する。1点交叉はS(g)から任意の2個の個体を取り出し、ランダムに発生させたアドレスで以って該2個の個体を切断し、該切断点以降のビット列を互いに組み替える処理で行う。多点交叉は交叉点を複数個用意し、一度に該複数個の交叉点で遺伝子を交換する。交叉の処理は1点であっても多点であっても、また、他の方式であってもよい。
The
突然変異操作回路48は、交叉操作回路47で得た親遺伝子集合Sc(g)から任意の個体を取り出し突然変異を施し、K個の個体からなる親遺伝子集合Sm(g)を作成する。突然変異は取り出された個体に対し、ランダムに発生させたアドレスにおいてビット列の内容を予め与えられた確率で反転させるものである。
The
世代交代継続判定回路49は、遺伝的アルゴリズムの収束の尺度を計算し、収束の基準が満たされているか、あるいは、gが予め定められた最大値gmaxを超えていないかの判定が行われ、これら2つの条件を満たさない場合は次の世代g+1において、親遺伝子集合Sm(g)をS(g)に置き換えて前記一連の処理を繰り返し、新しい親遺伝子集合Sm(g)を得る。いずれかの条件が満たされたとき、親遺伝子集合Sm(g)の中で最大の適応度を持つ個体が詳細識別辞書作成部5へ送出される。収束の尺度としては遺伝子集団の中の固体の取る適応度の最大値、遺伝子集団における固体全体の適応度の平均値等があるが、この他の尺度であっても良い。
The generational change continuation determination circuit 49 calculates a convergence measure of the genetic algorithm, and determines whether the convergence criterion is satisfied or whether g does not exceed a predetermined maximum value gmax. If these two conditions are not satisfied, in the next generation g + 1, the parent gene set S m (g) is replaced with S (g) and the above-described series of processing is repeated to obtain a new parent gene set S m (g). . When any of the conditions is satisfied, an individual having the maximum fitness in the parent gene set S m (g) is sent to the detailed identification
以上の処理により世代gにおける遺伝子が得られる。以降、個体による認識−適応度計算−選択−交叉−突然変異の一連の処理を1世代の処理とし、終了の条件が満たされるまで前記処理を繰り返す。 The gene in generation g is obtained by the above processing. Thereafter, a series of processes of recognition, fitness calculation, selection, crossover, and mutation by an individual is regarded as one generation process, and the above process is repeated until a termination condition is satisfied.
詳細識別辞書作成部5は特徴選択部4から送出された親遺伝子集合Sm(g)の情報を基に詳細識別辞書を作成する。図4は詳細識別辞書6の一実施例を示す構成図であって、カテゴリ集合Ωh、対象カテゴリCh1,Ch2,…,ChL(h)、詳細識別用特徴fh1,fh2,…,fhL(h)からなる。カテゴリ集合Ωh(h=1,2,…,H)とその要素である対象カテゴリCh1,Ch2,…,ChL(h)は予め与えられた方法で作成されている。特徴選択部4はカテゴリ集合Ωhの要素をなすカテゴリを識別対象として遺伝的アルゴリズムを施すことにより作成された親遺伝子集合Sm(g)を受け付ける。Sm(g)のビット列で“1”が立っているアドレスが特徴番号となって詳細識別用特徴の特徴番号fh1,fh2,…,fhL(h)が詳細識別辞書6の所定の位置に格納される。前記処理はΩ1から予め与えられたカテゴリ集合の数Hに到達するまで順に行われ、詳細識別辞書6が完成する。
The detailed identification
本発明に係る文字認識辞書作成方法において主要な部分をなす特徴選択部4の一実施例である図2の動作を図5のフローチャートを用いて説明する。初期遺伝子集団作成回路41は、“0”、“1”の2値をとるビットがd個連なって構成された遺伝子がK個集まって1つの集団となる初期遺伝子集団を作成し(ステップ201)、世代数gにはg=1が、固体番号kにはk=1が、初期値としてそれぞれセットされる(ステップ202)。識別尺度計算回路42は、世代gにおいて、第k固体のビット列で“1”を取るアドレスに対応する特徴のみを用いて、指定された類似文字の標準パターンの特徴と該類似文字の学習データの文字パターンの特徴との間で識別尺度を計算を行い、認識率計算回路43は、該識別尺度を用いてk=1,2,…,Kと変化させながら第k固体の学習データに対する認識率γkをK個の固体全てについて計算する(ステップ203)。親遺伝子候補選択回路44は、各個体の認識率γkが予め定められた認識率γ0以上となる固体のみを集めた世代gにおける集合A(g)を作成し、これらを親遺伝子の候補とする(ステップ204)。適応度計算回路45は、集合A(g)に属する固体の中で特徴数が最大となる固体の有する特徴数Dmaxを求め(ステップ205)、第k固体の特徴数をD(k)とし固体kの特徴数減少比を適応度と規定した場合の適応度a(k)を計算する(ステップ206)。親遺伝子選択回路46は、適応度a(k)を集合A(g)に作用させ、適応度比例戦略で次世代の親遺伝子となる固体を選択し、K個の個体からなる親遺伝子集合S(g)を作成する(ステップ207)。交叉操作回路47は、S(g)に交叉を施し、K個の個体からなる親遺伝子集合Sc(g)を作成し(ステップ208)、突然変異操作回路48はSc(g)から任意の個体を取り出し突然変異を施し、K個の個体からなる親遺伝子集合Sm(g)を作成する(ステップ209)。世代交代継続判定回路49は、遺伝的アルゴリズムの収束の尺度を計算し(ステップ210)、収束の基準が満たされているか、あるいは、gが予め定められた最大値gmaxを超えていないかの判定が行われ(ステップ211)、これら2つの条件を満たさない場合にはg=g+1とし(ステップ212)、世代gのSm(g)を世代g+1のS(g)に置き換えて前記一連の処理を行い新しいSm(g)を得る。いずれかの条件が満たされた場合には親遺伝子集合Sm(g)の中で最大の適応度を持つ個体が詳細識別辞書作成部5へ送出され、処理は終了する(ステップ213)。
2 will be described with reference to the flowchart of FIG. 5, which is an embodiment of the
以上の処理により世代gにおける遺伝子が得られる。以降、個体による認識−適応度計算−選択−交叉−突然変異の一連の処理を1世代の処理とし、終了の条件が満たされるまで前記処理を繰り返す。 The gene in generation g is obtained by the above processing. Thereafter, a series of processes of recognition, fitness calculation, selection, crossover, and mutation by an individual is regarded as one generation process, and the above process is repeated until a termination condition is satisfied.
図6は本発明の一実施例を示す文字認識装置のブロック構成図で、入力パターンメモリ部1、前処理部2、特徴抽出部3、大分類部7、大分類辞書8、識別部9、識別辞書10、判定部11、詳細識別部12、詳細識別辞書6、認識結果メモリ部13、制御部14から成る。
FIG. 6 is a block diagram of a character recognition apparatus according to an embodiment of the present invention. The input
入力パターンメモリ部1はスキャナ、テレビカメラ等の入力装置により文字パターンを取り込み、前処理部2は正規化・雑音除去等を行い、特徴抽出部3は認識に使用するための特徴を入力文字パターンから抽出し、大分類部7は特徴抽出部3より得られた前記入力文字パターンの特徴と大分類辞書8に蓄積されている標準パターンの特徴との近さの尺度をカテゴリ毎に計算し、該尺度を昇順に並べて候補とともに識別部9に出力する。識別部9は送出された候補に対し、前記入力文字パターンの特徴と識別辞書10に蓄積されている標準パターンの特徴との近さの尺度をカテゴリ毎に計算し、昇順に並べた該尺度と該尺度に対応する候補を識別結果とし判定部11に出力する。判定部11は識別部9から出力された結果の信頼性を予め定めた条件式で判定し、条件を満足した場合は識別結果が認識結果メモリ部13に送出され格納される。条件を満足しなかった場合は、識別部9で得られた候補は詳細識別部12に送出される。詳細識別部12は送出された候補に対し、前記入力文字パターンと詳細識別辞書6に格納されているカテゴリ集合に属するカテゴリとの近さの尺度をカテゴリ毎に計算し、昇順に並べた該尺度と該尺度に対応する候補を識別結果とし認識結果メモリ部13に出力する。
The input
次に、判定部11の動作を説明する。まず、識別部9からの出力から第1位候補Ctとその識別尺度dt、第2位候補Csとその識別尺度ds(ここでdt≦ds)を取り出す。次に、判定用テーブルからCtに対応する判定用閾値θt1,θt2を読み出し、次の式(2)、式(3)をともに満足するとき識別結果は信頼性が高いと判断する。
dt≦θt1 (2)
ds−dt≧θt2 (3)
式(2)は第1位候補Ctの該識別尺度dtが判定用閾値θt1以下の値であることを表し、式(3)は第1位候補Ctのとる識別尺度dtと第2位候補Csのとる識別尺度dsとの差Δdが判定用閾値θt2以上の値であることを表している。判定用閾値θt1,θt2は式(2)、式(3)の条件を満足したときの誤読率が予め定めた値以下となるよう大量の学習パターンを用いた分析により設定されている。
信頼性が高いと判定された場合は、識別で得られた候補列および該候補列の識別尺度が認識結果メモリ部13に送出される。式(2)、式(3)の少なくともひとつの条件を満足しなかった場合は、判定部11は信頼性が高いと判定せず識別で得られた候補列は詳細識別部12に転送され、詳細識別部12で得られた候補列と識別尺度が認識結果として認識結果メモリ部13に出力される。
Next, the operation of the
d t ≦ θ t1 (2)
d s −d t ≧ θ t2 (3)
Equation (2) represents that the identification measure d t is greater than the judgment threshold theta t1 values of the first candidate C t, Equation (3) is an identification measure d t take the first of the candidate C t This indicates that the difference Δd with respect to the discrimination scale d s taken by the second candidate C s is a value equal to or greater than the determination threshold θ t2 . The determination threshold values θ t1 and θ t2 are set by analysis using a large number of learning patterns so that the misreading rate when the conditions of the expressions (2) and (3) are satisfied is not more than a predetermined value.
If it is determined that the reliability is high, the candidate string obtained by the identification and the identification scale of the candidate string are sent to the recognition
次に、詳細識別部12の動作を図7を用いて説明する。図7は本発明の一実施例を示す詳細識別部12の機能ブロック図であって、カテゴリ集合読出回路121、詳細識別用特徴読出回路122、詳細識別尺度計算回路123、ソート回路124から成る。
Next, the operation of the
カテゴリ集合読出回路121は、識別部9から送出され判定部11経由で転送されてきた情報の中から第1位候補Ctを取り出し、詳細識別辞書6の対象カテゴリを探索しCtの属するカテゴリ集合Ωtを検出し、Ωtの要素である対象カテゴリ{Ct1,Ct2,...., CtL(t)}を得る。
Category set read
詳細識別用特徴読出回路122は、詳細識別辞書6において前記Ωtが検出された後で、前記Ωtに対応する詳細識別用特徴{ft1,ft2,...., ftL(t)}を取り出す。
The detailed identification feature readout circuit 122 detects the detailed identification features {f t1 , f t2 , ... Corresponding to the Ω t after the Ω t is detected in the
詳細識別尺度計算回路123は、識別辞書10における対象カテゴリ{Ct1,Ct2,...., CtL(t)}の標準パターンの中から詳細識別用特徴{ft1,ft2,...., ftL(t)}の特徴番号で指定される特徴を読み出し、入力文字パターンから得られた特徴との間で詳細識別尺度の計算を行い、各対象カテゴリにおける詳細識別尺度{pt1,pt2,...., ptL(t)}を得る。
The detailed identification
ソート回路124は、対象カテゴリ{Ct1,Ct2,...., CtL(t)}の詳細識別尺度{pt1,pt2,...., ptL(t)}を昇順に並べ替え、対象カテゴリと詳細識別尺度とを対にして認識結果メモリ部13に出力する。
The
以上述べた図6の各処理の制御は制御部14からの信号によって行われる。
Control of each process of FIG. 6 described above is performed by a signal from the
本発明に係るパターン認識方法の一実施例である図6の動作を図8のフローチャートを用いて説明する。文字パターンはスキャナ、テレビカメラ等の入力装置により入力パターンメモリ部1に取り込まれ(ステップ301)、前処理部2により正規化・雑音除去等の前処理が施され(ステップ302)、特徴抽出部3により認識に使用するための特徴が入力文字パターンから抽出される(ステップ303)。得られた特徴は大分類部7に送られ、前記入力文字パターンの特徴と大分類辞書5に蓄積されている標準パターンの特徴との近さの尺度をカテゴリ毎に計算し、該尺度を昇順に並べて候補とともに識別部9に出力される(ステップ304)。送出された候補に対し、識別部9は前記入力文字パターンの特徴と識別辞書10に蓄積されている標準パターンの特徴との近さの尺度をカテゴリ毎に計算し、昇順に並べた該尺度と該尺度に対応する候補は識別結果として判定部11に出力される(ステップ305)。判定部11は識別部9の信頼性を予め定めた条件式で判定し(ステップ306)、条件を満足した場合は識別結果が認識結果メモリ部13に送出され格納され(ステップ311)、満足しない場合は、識別部9で得られた候補は詳細識別部12に送出される。
詳細識別部12のカテゴリ集合読出回路121は、識別部9から送出された情報の中から第1位候補Ctを取り出し、詳細識別辞書6に格納されている対象カテゴリを探索しCtの属するカテゴリ集合Ωtを検出し(ステップ307)、Ωtの要素{Ct1,Ct2,...., CtL(t)}を詳細識別対象カテゴリとする(ステップ308)。詳細識別用特徴読出回路122は、前記Ωtに対応する詳細識別用特徴{ft1,ft2,...., ftL(t)}を取り出す(ステップ309)。詳細識別尺度計算回路123は、識別辞書10における対象カテゴリ{Ct1,Ct2,...., CtL(t)}の標準パターンの中から詳細識別用特徴{ft1,ft2,...., ftL(t)}の特徴番号で指定される特徴を読み出し、入力文字パターンから得られた特徴との間で詳細識別尺度の計算を行い(ステップ310)、対象カテゴリと詳細識別尺度とが対となった識別結果が認識結果メモリ部13に出力される(ステップ311)。
The operation of FIG. 6 as an embodiment of the pattern recognition method according to the present invention will be described with reference to the flowchart of FIG. The character pattern is taken into the input
Category set read
上述したように、本実施形態では遺伝的アルゴリズムにより、一定値以上の認識率を有する遺伝子の世代交代を行うことにより識別に使用する特徴を削減する仕組みとなっている。従って、認識を用いない差分特徴、主成分分析、判別分析等の方法よりも認識性能を向上させることができる。 As described above, in this embodiment, the genetic algorithm has a mechanism for reducing the characteristics used for identification by performing generational change of genes having a recognition rate of a certain value or more. Accordingly, the recognition performance can be improved as compared with methods such as differential features, principal component analysis, and discriminant analysis that do not use recognition.
また、本発明の図1および図6に示す各構成要素をプログラムとして構築し、ディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、文字認識を行うときに前記プログラムを前記可搬記憶媒体が接続可能なコンピュータあるいは文字認識装置にインストールすることにより、容易に本発明を実現することが可能である。 1 and 6 of the present invention is constructed as a program and stored in a portable storage medium such as a disk device, a flexible disk, or a CD-ROM, and the character recognition is performed when the character recognition is performed. By installing the program in a computer or a character recognition device to which the portable storage medium can be connected, the present invention can be easily realized.
以上、本発明を実施形態に基づき具体的に説明したが、本発明は前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは言うまでもない。 Although the present invention has been specifically described above based on the embodiments, it is needless to say that the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the scope of the invention.
1 入力パターンメモリ部
2 前処理部
3 特徴抽出部
4 特徴選択部
5 詳細識別辞書作成部
6 詳細識別辞書
7 大分類部
8 大分類辞書
9 識別部
10 識別辞書
11 判定部
12 詳細識別部
13 認識結果メモリ部
14 制御部
41 初期遺伝子集団作成回路
42 識別尺度計算回路
43 認識率計算回路
44 親遺伝子候補選択回路
45 適応度計算回路
46 親遺伝子選択回路
47 交叉操作回路
48 突然変異操作回路
49 世代交代継続判定回路
121 カテゴリ集合読出回路
122 詳細識別用特徴読出回路
123 詳細識別尺度計算回路
124 ソート回路
DESCRIPTION OF
Claims (8)
“0”、“1”の2値をとるビットが特徴の個数だけ連なったビット列からなる遺伝子を複数個用意し、予め定められた確率で“1”が生じるよう各個体に“0”、“1”の値を割り当てることにより初期遺伝子集団を作成し、
該初期遺伝子集団の個体においてビットが“1”の値を取るアドレスに対応する特徴のみを用いて、指定された類似文字の標準パターンの特徴と該類似文字の学習データの文字パターンの特徴との間で識別尺度を計算し該個体による認識率を求める処理を全ての固体に対して行い、
前記固体における認識率が予め定められた認識率以上となる固体のみを集めた集合を親遺伝子候補集合として作成し、
前記親遺伝子候補集合の各個体に対し、少ない特徴数で前期予め定められた認識率を保持する観点から設定された適応度を求め、
前記親遺伝子候補集合の各個体の適応度を用いて次世代の親遺伝子となる固体を選択することにより親遺伝子集合を作成し、
前記親遺伝子集合から固体を2組取り出し、該2組の固体の遺伝子を交叉により交換した新たな固体を2組生成して前記親遺伝子集合に戻す操作を予め定められた回数だけ繰り返し、
前記親遺伝子集合から固体を取り出し、遺伝子の一部に“0”、“1”の値を予め与えられた確率で反転させる突然変異を生じさせ、
前記した、個体による認識−適応度計算−選択−交叉−突然変異の一連の処理を1世代における処理とし予め定められた収束の基準を満足するか、あるいは、予め定められた最大世代数に到達するかの条件を満たすまで世代交代を繰り返し、最終的に得られた親遺伝子集合の中で適応度が最大の固体を取り出し、
指定された類似文字のカテゴリ名と、前記適応度が最大の固体から“1”の値を取るアドレスに対応する特徴番号とを用いて前記類似文字の詳細識別辞書を作成すること、
を特徴とする文字認識辞書作成方法。 In a character recognition dictionary creating method for creating a standard pattern of the category by using a learning data obtained by collecting a large number of character patterns per category, extracting characteristics of the character pattern and performing statistical processing,
A plurality of genes consisting of bit strings in which the number of binary bits of “0” and “1” are connected for the number of features are prepared, and “0”, “ Create an initial gene population by assigning a value of 1 "
The feature of the standard pattern of the designated similar character and the feature of the character pattern of the learning data of the similar character using only the feature corresponding to the address where the bit takes a value of “1” in the individual of the initial gene population The process of calculating the discrimination scale between them and calculating the recognition rate by the individual is performed on all solids,
Create a set of only solids whose recognition rate in the solid is equal to or higher than a predetermined recognition rate as a parent gene candidate set,
For each individual of the parent gene candidate set, find the fitness set from the viewpoint of maintaining the recognition rate predetermined in the previous period with a small number of features,
Create a parent gene set by selecting a solid that will be the next generation parent gene using the fitness of each individual of the parent gene candidate set,
Two sets of solids are taken out from the parent gene set, two sets of solid genes are exchanged by crossover, and two sets of new solids are generated and returned to the parent gene set for a predetermined number of times,
Taking a solid from the parent gene set, causing a mutation that inverts the value of “0”, “1” to a part of the gene with a predetermined probability,
The above-mentioned series of recognition-fitness calculation-selection-crossover-mutation processing by an individual satisfies the predetermined convergence criteria or reaches a predetermined maximum number of generations. The generation change is repeated until the condition of whether or not is satisfied, and the solid with the maximum fitness in the finally obtained parent gene set is taken out,
Creating a detailed identification dictionary of the similar characters using the category name of the designated similar characters and the feature number corresponding to the address having a value of “1” from the object having the maximum fitness;
Character recognition dictionary creation method characterized by
識別で得られた第1位候補の識別尺度と第2位候補の識別尺度とから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第1位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は識別で得られた候補を認識対象として後続の詳細識別部に送出し、
詳細識別部では、詳細識別辞書を探索して前記第1位候補の属するカテゴリ集合と該カテゴリ集合の識別に用いる詳細識別用特徴を得、
前記カテゴリ集合の識別辞書から前記詳細識別用特徴の特徴番号で指定される特徴を読み出し、該特徴と入力文字パターンから得られた特徴中の前記詳細識別用特徴とを用いて詳細識別を行い、得られた結果を認識結果として出力すること、
を特徴とする文字認識方法。 In the character recognition method of outputting the category to which the input character pattern belongs as a candidate string in ascending order of the scale using a measure of proximity obtained by calculating between the features of the input character pattern and the features of the standard dictionary,
From the identification scale of the first candidate obtained by the identification and the identification scale of the second candidate, it is determined whether or not the first candidate is a correct category,
If it is determined that the reliability is high, the first candidate is output as a recognition result, and if it is not determined that the reliability is high, the candidate obtained by identification is sent as a recognition target to the subsequent detailed identification unit. And
The detailed identification unit searches the detailed identification dictionary to obtain a category set to which the first candidate belongs and a feature for detailed identification used for identification of the category set,
Read the feature specified by the feature number of the feature for detailed identification from the identification dictionary of the category set, perform the detailed identification using the feature and the feature for detailed identification in the feature obtained from the input character pattern, Outputting the obtained results as recognition results;
Character recognition method characterized by
“0”、“1”の2値をとるビットが特徴の個数だけ連なったビット列からなる遺伝子を複数個用意し、予め定められた確率で“1”が生じるよう各個体に“0”、“1”の値を割り当てることにより初期遺伝子集団を作成し、
該初期遺伝子集団の個体においてビットが“1”の値を取るアドレスに対応する特徴のみを用いて、指定された類似文字の標準パターンの特徴と該類似文字の学習データの文字パターンの特徴との間で識別尺度を計算し該個体による認識率を求める処理を全ての固体に対して行い、
前記固体における認識率が予め定められた認識率以上となる固体のみを集めた集合を親遺伝子候補集合として作成し、
前記親遺伝子候補集合の各個体に対し、少ない特徴数で前期予め定められた認識率を保持する観点から設定された適応度を求め、
前記親遺伝子候補集合の各個体の適応度を用いて次世代の親遺伝子となる固体を選択することにより親遺伝子集合を作成し、
前記親遺伝子集合から固体を2組取り出し、該2組の固体の遺伝子を交叉により交換した新たな固体を2組生成して前記親遺伝子集合に戻す操作を予め定められた回数だけ繰り返し、
前記親遺伝子集合から固体を取り出し、遺伝子の一部に“0”、“1”の値を予め与えられた確率で反転させる突然変異を生じさせ、
前記した、個体による認識−適応度計算−選択−交叉−突然変異の一連の処理を1世代における処理とし予め定められた収束の基準を満足するか、あるいは、予め定められた最大世代数に到達するかの条件を満たすまで世代交代を繰り返し、最終的に得られた親遺伝子集合の中で適応度が最大の固体を取り出す詳細識別辞書作成手段と、
指定された類似文字のカテゴリ名と、前記適応度が最大の固体から“1”の値を取るアドレスに対応する特徴番号とを用いて前記類似文字の詳細識別辞書を作成する詳細識別辞書手段と、
を具備することを特徴とする文字認識辞書作成装置。 In a character recognition dictionary creation device that creates a standard pattern of the category by using a learning data collected a large number of character patterns per category, extracting features of the character pattern and performing statistical processing,
A plurality of genes consisting of bit strings in which the number of binary bits of “0” and “1” are connected for the number of features are prepared, and “0”, “ Create an initial gene population by assigning a value of 1 "
The feature of the standard pattern of the designated similar character and the feature of the character pattern of the learning data of the similar character using only the feature corresponding to the address where the bit takes a value of “1” in the individual of the initial gene population The process of calculating the discrimination scale between them and calculating the recognition rate by the individual is performed on all solids,
Create a set of only solids whose recognition rate in the solid is equal to or higher than a predetermined recognition rate as a parent gene candidate set,
For each individual of the parent gene candidate set, find the fitness set from the viewpoint of maintaining the recognition rate predetermined in the previous period with a small number of features,
Create a parent gene set by selecting a solid that will be the next generation parent gene using the fitness of each individual of the parent gene candidate set,
Two sets of solids are taken out from the parent gene set, two sets of solid genes are exchanged by crossover, and two sets of new solids are generated and returned to the parent gene set for a predetermined number of times,
Taking a solid from the parent gene set, causing a mutation that inverts the value of “0”, “1” to a part of the gene with a predetermined probability,
The above-mentioned series of recognition-fitness calculation-selection-crossover-mutation processing by an individual satisfies the predetermined convergence criteria or reaches a predetermined maximum number of generations. A detailed identification dictionary creating means for repeating generation change until the condition of whether or not is satisfied, and extracting a solid with the maximum fitness in the finally obtained parent gene set,
Detailed identification dictionary means for creating a detailed identification dictionary of the similar character by using the category name of the designated similar character and the feature number corresponding to the address having a value of “1” from the object having the maximum fitness ,
A character recognition dictionary creating apparatus comprising:
識別で得られた第1位候補の識別尺度と第2位候補の識別尺度とから前記第1位候補が正解カテゴリであるかの信頼性判定を行い、
信頼性が高いと判定された場合は前記第1位候補を認識結果として出力し、信頼性が高いと判定されなかった場合は識別で得られた候補を認識対象として後続の詳細識別部に送出する判定手段と、
詳細識別辞書を探索して前記第1位候補の属するカテゴリ集合と該カテゴリ集合の詳細識別に用いる特徴を得、
前記カテゴリ集合の識別辞書から前記詳細識別用特徴の特徴番号で指定される特徴を読み出し、該特徴と入力文字パターンから得られた特徴中の前記詳細識別用特徴とを用いて詳細識別を行い、得られた結果を認識結果として出力する詳細識別手段と、
を具備することを特徴とする文字認識装置。 In a character recognition device that outputs a category to which the input character pattern belongs as a candidate string in ascending order of the scale using a measure of proximity obtained by calculating between the features of the input character pattern and the features of the standard pattern,
From the identification scale of the first candidate obtained by the identification and the identification scale of the second candidate, it is determined whether or not the first candidate is a correct category,
If it is determined that the reliability is high, the first candidate is output as a recognition result, and if it is not determined that the reliability is high, the candidate obtained by identification is sent as a recognition target to the subsequent detailed identification unit. Determination means to perform,
Search the detailed identification dictionary to obtain the category set to which the first candidate belongs and the characteristics used for detailed identification of the category set,
Read the feature specified by the feature number of the feature for detailed identification from the identification dictionary of the category set, perform the detailed identification using the feature and the feature for detailed identification in the feature obtained from the input character pattern, Detailed identification means for outputting the obtained results as recognition results;
A character recognition device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006250250A JP2008071214A (en) | 2006-09-15 | 2006-09-15 | Character recognition dictionary creation method and its device, character recognition method and its device, and storage medium in which program is stored |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006250250A JP2008071214A (en) | 2006-09-15 | 2006-09-15 | Character recognition dictionary creation method and its device, character recognition method and its device, and storage medium in which program is stored |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008071214A true JP2008071214A (en) | 2008-03-27 |
Family
ID=39292727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006250250A Pending JP2008071214A (en) | 2006-09-15 | 2006-09-15 | Character recognition dictionary creation method and its device, character recognition method and its device, and storage medium in which program is stored |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008071214A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150356764A1 (en) * | 2013-02-13 | 2015-12-10 | Findex Inc. | Character Recognition System, Character Recognition Program and Character Recognition Method |
US9779207B2 (en) | 2011-02-17 | 2017-10-03 | Nec Corporation | Information processing apparatus information processing method, and storage medium |
-
2006
- 2006-09-15 JP JP2006250250A patent/JP2008071214A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779207B2 (en) | 2011-02-17 | 2017-10-03 | Nec Corporation | Information processing apparatus information processing method, and storage medium |
US20150356764A1 (en) * | 2013-02-13 | 2015-12-10 | Findex Inc. | Character Recognition System, Character Recognition Program and Character Recognition Method |
US9639970B2 (en) * | 2013-02-13 | 2017-05-02 | Findex Inc. | Character recognition system, character recognition program and character recognition method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020221298A1 (en) | Text detection model training method and apparatus, text region determination method and apparatus, and text content determination method and apparatus | |
CN108228915B (en) | Video retrieval method based on deep learning | |
WO2019179403A1 (en) | Fraud transaction detection method based on sequence width depth learning | |
CN107784288B (en) | Iterative positioning type face detection method based on deep neural network | |
CN109189767B (en) | Data processing method and device, electronic equipment and storage medium | |
CN108846338B (en) | Polarization feature selection and classification method based on object-oriented random forest | |
US5917941A (en) | Character segmentation technique with integrated word search for handwriting recognition | |
JP2014232533A (en) | System and method for ocr output verification | |
US20080091627A1 (en) | Data Learning System for Identifying, Learning Apparatus, Identifying Apparatus and Learning Method | |
CN111708888A (en) | Artificial intelligence based classification method, device, terminal and storage medium | |
CN110851176B (en) | Clone code detection method capable of automatically constructing and utilizing pseudo-clone corpus | |
CN113505826B (en) | Network flow anomaly detection method based on joint feature selection | |
JP2008077403A (en) | Evaluation device, method and program | |
CN110781333A (en) | Method for processing unstructured monitoring data of cable-stayed bridge based on machine learning | |
CN106570518A (en) | Chinese and Japanese handwritten text identification method | |
JP2008071214A (en) | Character recognition dictionary creation method and its device, character recognition method and its device, and storage medium in which program is stored | |
US20110299731A1 (en) | Information processing device and method, and program | |
CN112541328B (en) | Handwriting storage method, device, equipment and storage medium | |
JP6004014B2 (en) | Learning method, information conversion apparatus, and learning program | |
JP3415342B2 (en) | Character cutout method | |
JP5683287B2 (en) | Pattern recognition apparatus and pattern recognition method | |
CN113010673A (en) | Vulnerability automatic classification method based on entropy optimization support vector machine | |
CN111723223B (en) | Multi-label image retrieval method based on subject inference | |
KR102546815B1 (en) | Apparatus and method for selecting statistical feature point | |
CN110728615B (en) | Steganalysis method based on sequential hypothesis testing, terminal device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090528 |