JP3848792B2 - 文字列認識方法及び記録媒体 - Google Patents

文字列認識方法及び記録媒体 Download PDF

Info

Publication number
JP3848792B2
JP3848792B2 JP35844598A JP35844598A JP3848792B2 JP 3848792 B2 JP3848792 B2 JP 3848792B2 JP 35844598 A JP35844598 A JP 35844598A JP 35844598 A JP35844598 A JP 35844598A JP 3848792 B2 JP3848792 B2 JP 3848792B2
Authority
JP
Japan
Prior art keywords
character
character string
pattern
partial
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35844598A
Other languages
English (en)
Other versions
JP2000172783A (ja
Inventor
忍 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP35844598A priority Critical patent/JP3848792B2/ja
Publication of JP2000172783A publication Critical patent/JP2000172783A/ja
Application granted granted Critical
Publication of JP3848792B2 publication Critical patent/JP3848792B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は入力された帳票など文字画像の文字列パターンから複数の文字パターンを切り出して文字列の文字認識を行う文字列認識方法に係わり、特に、個々の文字の大きさが不定な文字列に対しても認識誤りの少ない文字切り出し、文字認識が可能な文字列認識方法に関する。
【0002】
【従来の技術】
帳票などに記載された文字列の文字を認識するためには、文字列から一文字ずつ切り出す処理が必要である。そのため、従来の技術においては、文字の幅と高さが近い値を取るという考えに基づいて、たとえば横書きの場合、連結した黒画素のパターンである黒画素連結パターンの高さの平均値を標準サイズとして求め、その値に近い幅になるように黒画素連結パターンを組み合わせて文字を切り出したりしている。
しかし、一行にわたって文字の大きさが一定していない場合には、標準文字サイズを基準にすると誤って切り出してしまう。従来の文字切り出し方法では、文字列内のすべての部分文字パターンの特徴量(たとえば部分文字パターンの高さ)の平均値として標準文字サイズを求めるので、図8に示したように一部において小さな文字が誤って統合されてしまう。手書き文字では住所における番地部分の数字など、図8に示したような例はしばしば発生するのである。
そこで、たとえば、特開平9-50488 号公報に示された従来の技術では、文字列内に異なったサイズの文字が含まれる場合に、黒画素連結パターン(仮文字)の高さの頻度分布を基にして複数の標準文字サイズを求め、文字列を同じ標準文字サイズを持ったパターン群に分割する。つまり、複数の文字サイズを求め、上記複数の文字サイズを基準として文字切り出しを行うのである。これによって、文字列中に異なった文字サイズを持つ文字が混在する場合でも誤り少なく文字切り出しを行うことができるというわけである。
【0003】
【発明が解決しようとする課題】
しかしながら、特開平9-50488 号公報に示された従来の技術では、手書き文字のように文字の大きさが揃わないような場合や、左右に分離できるようなひらがなや漢字の場合には、小さめの仮文字が必要以上に統合されて誤った切り出し結果を生じるおそれがある。
そこで本発明が解決しようとする課題は、上記のような従来の技術の問題を解消し、文字の大きさが揃わないような場合などにおいても正確な文字切り出しを行うことができると共に、文字認識結果を文字切り出し、認識処理に反映させて、さらに正確な文字切り出しを実現し、さらに正確な文字認識を実現できるようにした文字認識方法などを提供するものである。
【0004】
【課題を解決するための手段】
上記の課題を解決するために、請求項1記載の発明に係る文字認識方法では、入力された文字画像の文字列パターンから複数の文字パターンを切り出して文字列の文字認識を行う文字列認識方法において、黒画素が連結しているパターンである黒画素連結パターンを抽出し、抽出した上記黒画素連結パターンを組み合わせて部分文字パターンを作成し、作成した上記部分文字パターンの幾何学的特徴量として、横書きの場合には部分文字パターンの外接矩形の高さ,縦書きの場合には幅を算出し、当該部分文字パターンの幾何学的特徴量と上記部分文字パターンの近傍の複数の部分文字パターンの幾何学的特徴量との平均値を統計的特徴量として算出し、隣接する上記部分文字パターンを仮に統合した仮文字パターンの幾何学的特徴量として、横書きの場合には仮文字パターンの外接矩形の幅,縦書きの場合には高さを算出し、上記仮文字パターンの幾何学的特徴量と上記仮文字パターンに含まれる部分文字パターンの統計的特徴量とから仮文字パターンの評価値を算出し、上記評価値としきい値に基づいて上記仮文字パターンを文字パターンとして切り出すか否かを判定することにより複数の文字パターンを切り出して一つの文字列候補を取得し、さらに、上記近傍の数を変えて上記の処理をくり返えすことにより複数の文字列候補を取得し、それぞれの文字列候補について、各文字パターンの文字認識結果の確信度から文字列全体の確信度を算出し、それぞれの文字列候補の確信度を比較して最も確からしい文字列候補を文字列の認識結果として確定するようにした。
また、請求項2記載の発明では、請求項1記載の発明において、取得されたすべての文字列候補で文字切り出し結果が同じになった文字パターンを確定し、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度を求め、それぞれの部分文字列候補の確信度を比較して最も確からしい部分文字列候補を当該部分文字列の認識結果として確定することにより文字列全体の認識結果を確定するようにした。
また、請求項3記載の発明では、請求項2記載の発明において、取得されたすべての文字列候補で文字切り出しと文字認識の結果が同じになった文字パターンを確定し、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度を求め、それぞれの部分文字列候補の確信度を比較して最も確からしい部分文字列候補を当該部分文字列の認識結果として確定することにより文字列全体の認識結果を確定するようにした。
また、請求項4記載の発明に係る記録媒体では、請求項1、請求項2または請求項3記載の文字列認識方法による文字列認識処理をコンピュータなど情報処理装置に実施させるためのプログラムを記録した。
【0005】
上記のように構成したので、請求項1記載の発明では、黒画素連結パターンを組み合わせた部分文字パターンが作成され、作成された部分文字パターンの幾何学的特徴量として、横書きの場合には部分文字パターンの外接矩形の高さ,縦書きの場合には幅が算出され、当該部分文字パターンの幾何学的特徴量と上記部分文字パターンの近傍の複数の部分文字パターンの幾何学的特徴量との平均値が統計的特徴量として算出され、隣接する上記部分文字パターンを仮に統合した仮文字パターンの幾何学的特徴量として、横書きの場合には仮文字パターンの外接矩形の幅、縦書きの場合には高さが算出され、上記仮文字パターンの幾何学的特徴量と上記仮文字パターンに含まれる部分文字パターンの統計的特徴量とから仮文字パターンの評価値が算出され、上記評価値としきい値に基づいて上記仮文字パターンを文字パターンとして切り出すか否かを判定することにより複数の文字パターンを切り出して一つの文字列候補が取得され、さらに、上記近傍の数を変えて上記の処理をくり返えすことにより複数の文字列候補が取得され、それぞれの文字列候補について、各文字パターンの文字認識結果の確信度から文字列全体の確信度が算出され、それぞれの文字列候補の確信度が比較されて最も確からしい文字列候補が文字列の認識結果として確定される。
また、請求項2記載の発明では、請求項1記載の発明において、取得されたすべての文字列候補で文字切り出し結果が同じになった文字パターンが確定され、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度が求められ、それぞれの部分文字列候補の確信度が比較されて最も確からしい部分文字列候補が当該部分文字列の認識結果として確定されることにより文字列全体の認識結果が確定される。
また、請求項3記載の発明では、請求項2記載の発明において、取得されたすべての文字列候補で文字切り出しと文字認識の結果が同じになった文字パターンが確定され、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度が求められ、それぞれの部分文字列候補の確信度が比較されて最も確からしい部分文字列候補が当該部分文字列の認識結果として確定されることにより文字列全体の認識結果が確定される。
また、請求項4記載の発明では、記録媒体に含まれるプログラムをコンピュータなどに読み込ませて実行させることで請求項1、請求項2または請求項3記載の文字列認識方法を実施する文字列認識装置を実現できる。したがって、記録媒体によってこれをソフトウエア商品として装置と独立して容易に配布、販売することができるようになる。また、汎用コンピュータその他のハードウェアを用いてこのソフトウエアを使用することにより、これらのハードウェアで本発明の文字列認識技術を容易に実施できるようになる。
【0006】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図7は本発明の文字列認識方法を実施する情報処理装置の要部の構成を示すブロック図である。図示するように、この情報処理装置は、帳票などから文字列パターンを読み取るスキャナ1、スキャナ1により読み取られた(入力された)文字列パターンから複数の文字を文字パターンとして切り出す文字切り出し部2、上記文字切り出し部2により切り出された個々の文字パターンを認識して文字コード化する文字認識部3、たとえばプログラムのロードされるRAMおよび上記プログラムに従って動作するCPUを有してこの情報処理装置全体を管理・制御するシステム制御部4、キーボードや表示手段などから成る操作部5などを備えている。なお、文字切り出し部2および文字認識部3もたとえばCPUによって動作するが、このCPUはシステム制御部4の有しているCPUと共用することが可能である。
図1は上記のような情報処理装置内で動作する本発明の第1の実施の形態を示す文字列認識方法の動作フロー図である。図示するように、この実施の形態の文字列認識方法では、まず、スキャナ1によりたとえば図2(A)に示すような文字列パターンを入力し(S1)、さらに、当該部分文字パターンの統計的特徴量(後述)を求める際に関わりを持たせる上記部分文字パターンの近傍の部分文字パターンの数を複数、操作部5により設定する(S2)。なお、この数はこの動作フローの動作に先立って設定してもよい。
【0007】
続いて、たとえば「別冊OPlusE 画像処理アルゴリズムの最新動向」(高木等編;1986,新技術コミュニケーションズ)に紹介されている方法を用いて、文字切り出し部2が入力された文字列パターンから黒画素連結パターンを抽出し、黒画素連結パターンを組み合わせて部分文字パターンを作成する(S3)。たとえば、図2(B)に矩形で示したそれぞれが部分文字パターンである。この例では、大部分の部分文字パターンは一つの黒画素連結パターンから成っているが、「筑」の左側や右側の部分文字パターンは二つの黒画素連結パターンからなっている。
つぎに、それぞれの部分文字パターンの特徴量として、横書きの場合には部分文字パターンの外接矩形の高さ、縦書きの場合には部分文字パターンの外接矩形の幅を求める(S3)。また、当該部分文字パターンの統計的特徴量として、上記部分文字パターンの幾何学的特徴量(たとえば高さ)と、上記部分文字パターンの近傍の複数の部分文字パターンの幾何学的特徴量との平均値を求める。図2(C)に示したように、それぞれの部分文字パターンをP1 〜P14としたとき、たとえば部分文字パターンP5 の統計的特徴量を3近傍(近傍数3)により求めるならば、それは部分文字パターンP4 、P5 、P6 の幾何学的特徴量の平均値となる。また、5近傍であれば、部分文字パターンP3 、P4 、P5 、P6 、P7 の幾何学的特徴量の平均値となる。他の近傍数の場合も同様である。ただし、端の部分文字パターンにおいては片側にしか隣接する部分文字パターンがないので、たとえば部分文字パターンP1 の統計的特徴量は3近傍であればP1 とP2 の幾何学的特徴量の平均値、5近傍であればP1 、P2 、P3 の幾何学的特徴量の平均値とする。なお、近傍数はステップS2で設定された複数の近傍数であり、上記複数の近傍数のうち、まず1番目の近傍数の場合について統計的特徴量を求めるのである。
【0008】
続いて、隣接する部分文字パターンを仮に統合して仮文字パターンをつくり、その幾何学的特徴量として横書きの場合には仮文字パターンの外接矩形の幅、縦書きの場合には高さを求める(S3)。そして、仮文字パターンの幾何学的特徴量とそれに含まれる部分文字パターンの統計的特徴量(1番目の近傍数の場合の統計的特徴量)から、仮文字パターンの文字としての評価値Vを計算する(S3)。なお、評価値Vは、仮文字パターンの幾何学的特徴量をS,仮文字パターンに含まれる部分文字パターンのそれぞれの統計的特徴量をDj としたとき、次式から求められる。
V=Σ(S−Dj )2/N
ここで、Nは仮文字パターンに含まれる部分文字パターンの数である。
さらに、上記評価値Vを予め定めたしきい値と比較して、上記仮文字パターンを文字として切り出すかどうかを判定する(S3)。つまり、仮文字パターンの幾何学的特徴量Sが部分文字パターンの統計的特徴量Dj に近い値を持っていれば仮文字パターンの文字らしさが高いと考えられるので、評価値Vが予め定めたしきい値より小さければ、この仮文字を文字として切り出すのである。なお、上記しきい値はテストデータによる予備実験などにより求めておく。
【0009】
図2(D)の場合でさらに説明すると、まず、部分文字パターンP1 とP2 を仮に統合して仮文字パターンC1 を得て、この幾何学的特徴量Sを求め、上記S、この仮文字パターンに含まれる部分文字パターンP1 、P2 の統計的特徴量D1 、D2 、およびNの値として2を上記の式に代入し、評価値Vを求めるということになる。そして、上記評価値Vがしきい値より小さい場合に仮文字パターンC1 を文字として切り出す(S3)。
つぎに、統合された仮文字パターンC1 に隣接する部分文字パターンP3 も統合した仮文字パターンC2を得て、C1 場合と同様に評価値Vを計算する。なお、この場合のNは3、含まれる部分文字パターンはP1 、P2 、P3 である。しかし、計算の結果は、この仮文字パターンC2 の場合、幾何学的特徴量Sが大きくなるため評価値Vがしきい値よりも大きくなるので、文字として切り出されない。その次は、統合されなかった部分文字パターンP3 と隣接する部分文字パターンP4 を統合した仮文字パターンC3 について同様の処理を行う。これらの処理を順次文字列の最後まで実行して一つの文字列候補を取得する。
続いて、文字認識部3が上記文字列候補の各文字パターンについて文字認識を行い、文字コードと共に確信度(類似度)を算出する(S4)。なお、このような文字認識方法は公知であり、たとえば、「加重方向指数ヒストグラム法による手書き漢字・ひらがな認識」(鶴岡等,電子情報通信学会論文誌,J70-D 、7 、pp.1390-1397、1987)に記載の方法などがある。
【0010】
このようにして、一つの近傍数について取得した文字列候補を構成するそれぞれの文字の文字認識が終了すると、他に近傍数が設定されているか否かを判定し(S5)、他に設定されておれば(S5でNo)、ステップS3に戻り、次の近傍数についてステップS3からくり返す。そして、ステップS5において、すべての近傍数について実行したと判定されたならば(S5でYes)、文字列候補を構成する個々の文字の確信度から一つの文字列候補の確信度を求める計算をすべての文字列候補について行う(S6)。たとえば、文字列候補内の個々の文字の確信度の平均をその文字列候補の確信度とするのである。そして、確信度の最も高い文字列候補を文字列の認識結果として選択し(S7)、出力する(S8)。なお、上記において、ステップS4における文字認識をステップS5の後、つまりステップS6の直前において行ってもよい。
図3(A)は、近傍数が小さいとき、文字切り出しにより過剰に分割された例である。近傍数が大きいと、図3(B)に示したように正しく切り出される。これら二つの文字列候補について文字認識を行うと、近傍数の大きい文字列候補の方が確信度が高くなるので、正しい結果が得られることになる。図4(B)は逆に、近傍数が大きいと誤って文字が統合され、切り出される例である。この場合は、近傍数が小さいと、図4(A)に示すように正しく切り出される。
このように、一種類の近傍数では誤った結果を出力するような場合でも、この実施の形態のように複数の近傍数で実行し、文字認識の結果を用いて選択することにより、正しい結果が得られるようになる。
【0011】
本発明の第2の実施の形態では、第1の実施の形態で示した複数の近傍数に対応して取得されたすべての文字列候補で文字切り出し結果が同じになった文字パターンを確定し、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度を求め、それぞれの部分文字列候補の確信度を比較して最も確からしい部分文字列候補を当該部分文字列の認識結果として確定して文字列全体の認識結果を確定する。以下、図5に示した動作フローなどに従って、この実施の形態の動作を説明する。
まず、スキャナ1により文字列パターンを入力し(S11)、さらに、部分文字パターンの統計的特徴量を求めるための部分文字パターンの近傍数を複数設定する(S12)。なお、この数はこの動作フローの動作に先立って設定してもよい。
続いて、第1の実施の形態と同様にして、文字切り出し部2が1番目の近傍数の場合で文字切り出しを行い(S13)、一つの文字列候補を取得する。さらに、2番目の近傍数についても同様にして文字列候補を取得し、すべての近傍数について文字列候補を取得すると(S14でYes)、すべての文字列候補において共通な仮文字パターンを抽出し、その部分の文字パターンを確定させる(S15)。図6に二つの近傍数について共通な仮文字パターンの例などを示す。同図(A)は小さい近傍数の場合、(B)は大きい近傍数の場合を例示している。この例では、「都」「筑」「区」「栄」「町」の5個が共通な仮文字パターン、つまり最初に確定される文字パターンである。なお、切り出し結果が異なっている部分は部分文字列候補として処理される(後述)。
【0012】
つぎに、第1の実施の形態と同様にして上記共通な仮文字パターンについて文字認識を行い、その部分の文字認識結果として確定すると共に、それぞれの部分文字列候補を構成している各文字パターンについても文字認識を行い、それぞれの文字パターンの確信度などを求める(S16)。そして、それぞれの部分文字列候補の確信度を計算し(S17)、確信度の最も高い部分文字列候補を選択し(S18)、その部分文字列の文字認識結果として確定させる。
このようなステップS17、S18の処理を、確定されていない文字パターンがなくなるまで順次行うと、文字認識部3はその文字認識結果を既に確定している共通部分の文字認識結果と合わせて文字列の認識結果として出力する(S19)。
なお、上記において、複数の文字列候補に共通な部分として最初に確定する部分を、単に切り出し文字パターンが共通である部分でなく、その文字認識結果も共通な部分としてもよい。文字認識処理では前後の文字関係も考慮して文字認識されるので切り出し文字パターンが共通でも異なった文字認識結果になることもあるのである。
上記のように、この実施の形態によれば、複数の切り出し、文字認識処理で同じ処理結果である部分はその結果が採用されるので、文字列認識精度が向上する。
以上、図7に示した情報処理装置において実行される本発明の文字列認識方法を説明したが、上記文字列認識方法に従った文字列認識プログラムを記録した記録媒体を他の情報処理装置に移して実行させることも可能であり、したがって、本発明の文字列認識方法を記録した記録媒体も本発明に含まれる。
【0013】
【発明の効果】
以上説明したように、本発明は以下のような優れた効果を奏する。
請求項1記載の発明では、黒画素連結パターンを組み合わせた部分文字パターンが作成され、作成された部分文字パターンの幾何学的特徴量として、横書きの場合には部分文字パターンの外接矩形の高さ,縦書きの場合には幅が算出され、当該部分文字パターンの幾何学的特徴量と上記部分文字パターンの近傍の複数の部分文字パターンの幾何学的特徴量との平均値が統計的特徴量として算出され、隣接する上記部分文字パターンを仮に統合した仮文字パターンの幾何学的特徴量として、横書きの場合には仮文字パターンの外接矩形の幅,縦書きの場合には高さが算出され、上記仮文字パターンの幾何学的特徴量と上記仮文字パターンに含まれる部分文字パターンの統計的特徴量とから仮文字パターンの評価値が算出され、上記評価値としきい値に基づいて上記仮文字パターンを文字パターンとして切り出すか否かを判定することにより複数の文字パターンを切り出して一つの文字列候補が取得され、さらに、上記近傍の数を変えて上記の処理をくり返えすことにより複数の文字列候補が取得され、それぞれの文字列候補について、各文字パターンの文字認識結果の確信度から文字列全体の確信度が算出され、それぞれの文字列候補の確信度が比較されて最も確からしい文字列候補が文字列の認識結果として確定されるので、文字の大きさが揃わないような場合などにおいても正確な文字切り出しを行うことができるし、文字認識結果が文字切り出し、認識処理に反映されて、さらに正確な文字切り出し、文字認識を実現できる。
また、請求項2記載の発明では、請求項1記載の発明において、取得されたすべての文字列候補で文字切り出し結果が同じになった文字パターンが確定され、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度が求められ、それぞれの部分文字列候補の確信度が比較されて最も確からしい部分文字列候補が当該部分文字列の認識結果として確定されることにより文字列全体の認識結果が確定されるので、複数の切り出し処理で同じ処理結果である部分はその結果が採用され、したがって、文字列認識精度がさらに向上する。
【0014】
また、請求項3記載の発明では、請求項2記載の発明において、取得されたすべての文字列候補で文字切り出しと文字認識の結果が同じになった文字パターンが確定され、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度が求められ、それぞれの部分文字列候補の確信度が比較されて最も確からしい部分文字列候補が当該部分文字列の認識結果として確定されることにより文字列全体の認識結果が確定されるので、複数の切り出し、文字認識処理で同じ処理結果である部分はその結果が採用され、したがって、請求項2記載の発明と同様に文字列認識精度がさらに向上する。
また、請求項4記載の発明では、請求項1、請求項2または請求項3記載の文字列認識方法が記録媒体に記録されるので、上記記録媒体を本発明によった文字列認識手段を備えていない他の情報処理装置に移して用いることにより、上記情報処理装置においても本発明によった文字列認識を行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示す文字列認識方法の動作フロー図である。
【図2】(A)(B)(C)及び(D)は本発明の第1の実施の形態を示す文字列認識方法の説明図である。
【図3】(A)及び(B)は本発明の第1の実施の形態を示す文字列認識方法の他の説明図である。
【図4】(A)及び(B)は本発明の第1の実施の形態を示す文字列認識方法の他の説明図である。
【図5】本発明の第2の実施の形態を示す文字列認識方法の動作フロー図である。
【図6】(A)及び(B)は本発明の第2の実施の形態を示す文字列認識方法の説明図である。
【図7】本発明が実施された情報処理装置の要部の構成ブロック図である。
【図8】従来技術の一例を示す文字列認識方法の説明図である。
【符号の説明】
1:スキャナ、2:文字切り出し部、3:文字認識部、4:システム制御部、5:操作部。

Claims (4)

  1. 入力された文字画像の文字列パターンから複数の文字パターンを切り出して文字列の文字認識を行う文字列認識方法において、黒画素が連結しているパターンである黒画素連結パターンを抽出し、抽出した上記黒画素連結パターンを組み合わせて部分文字パターンを作成し、作成した上記部分文字パターンの幾何学的特徴量として、横書きの場合には部分文字パターンの外接矩形の高さ,縦書きの場合には幅を算出し、当該部分文字パターンの幾何学的特徴量と上記部分文字パターンの近傍の複数の部分文字パターンの幾何学的特徴量との平均値を統計的特徴量として算出し、隣接する上記部分文字パターンを仮に統合した仮文字パターンの幾何学的特徴量として、横書きの場合には仮文字パターンの外接矩形の幅,縦書きの場合には高さを算出し、上記仮文字パターンの幾何学的特徴量と上記仮文字パターンに含まれる部分文字パターンの統計的特徴量とから仮文字パターンの評価値を算出し、上記評価値としきい値に基づいて上記仮文字パターンを文字パターンとして切り出すか否かを判定することにより複数の文字パターンを切り出して一つの文字列候補を取得し、さらに、上記近傍の数を変えて上記の処理をくり返えすことにより複数の文字列候補を取得し、それぞれの文字列候補について、各文字パターンの文字認識結果の確信度から文字列全体の確信度を算出し、それぞれの文字列候補の確信度を比較して最も確からしい文字列候補を文字列の認識結果として確定することを特徴とする文字列認識方法。
  2. 請求項1記載の文字列認識方法において、取得されたすべての文字列候補で文字切り出し結果が同じになった文字パターンを確定し、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度を求め、それぞれの部分文字列候補の確信度を比較して最も確からしい部分文字列候補を当該部分文字列の認識結果として確定することにより文字列全体の認識結果を確定することを特徴とする文字列認識方法。
  3. 請求項2記載の文字列認識方法において、取得されたすべての文字列候補で文字切り出しと文字認識の結果が同じになった文字パターンを確定し、さらに、確定されていない一つまたは複数の文字パターンからなる部分文字列候補に対して各文字パターンの文字認識結果の確信度から部分文字列候補の確信度を求め、それぞれの部分文字列候補の確信度を比較して最も確からしい部分文字列候補を当該部分文字列の認識結果として確定することにより文字列全体の認識結果を確定することを特徴とする文字列認識方法。
  4. 請求項1、請求項2または請求項3記載の文字列認識方法による文字列認識処理を情報処理装置に実施させるためのプログラムを記録したことを特徴とする機械読み取り可能な記録媒体。
JP35844598A 1998-12-02 1998-12-02 文字列認識方法及び記録媒体 Expired - Fee Related JP3848792B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35844598A JP3848792B2 (ja) 1998-12-02 1998-12-02 文字列認識方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35844598A JP3848792B2 (ja) 1998-12-02 1998-12-02 文字列認識方法及び記録媒体

Publications (2)

Publication Number Publication Date
JP2000172783A JP2000172783A (ja) 2000-06-23
JP3848792B2 true JP3848792B2 (ja) 2006-11-22

Family

ID=18459348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35844598A Expired - Fee Related JP3848792B2 (ja) 1998-12-02 1998-12-02 文字列認識方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP3848792B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991270B (zh) * 2019-11-15 2023-10-20 泰康保险集团股份有限公司 文本识别的方法、装置、电子设备和存储介质
CN111814801B (zh) * 2020-08-25 2022-03-15 电子科技大学 一种机械图中标注串的提取方法

Also Published As

Publication number Publication date
JP2000172783A (ja) 2000-06-23

Similar Documents

Publication Publication Date Title
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
JPH05242292A (ja) 分離方法
JP2002298085A (ja) 文字認識装置、文字認識方法、及び記録媒体
JP3848792B2 (ja) 文字列認識方法及び記録媒体
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JP2000293632A (ja) 文字列認識装置および文字列認識方法
JP2002056356A (ja) 文字認識装置、文字認識方法および記録媒体
JP3343305B2 (ja) 文字切り出し装置、及び文字切り出し方法
JP3442206B2 (ja) 文字認識方法及び文字認識装置
JP3077929B2 (ja) 文字切出し方式
JP4732626B2 (ja) 帳票処理方法および装置並びにプログラム
JP2963508B2 (ja) 文字切出し装置
JP2995818B2 (ja) 文字切り出し方法
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPH1166230A (ja) 文書認識装置、文書認識方法及び媒体
JP4544691B2 (ja) 文字読取装置
JP3376931B2 (ja) 文字行抽出方法および装置
JP3919390B2 (ja) 文字認識装置
JPH07120392B2 (ja) 文字パターン切り出し装置
JP2002279344A (ja) 文字認識装置、文字認識方法および記録媒体
JP4878057B2 (ja) 文字認識方法,プログラム及び記録媒体
JPH1040334A (ja) パターン抽出装置及びパターン領域の切り出し方法
JP2795222B2 (ja) 文字切り出し方法および文字切り出し装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060828

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130901

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees