JP4674778B2 - 文字認識システム - Google Patents

文字認識システム Download PDF

Info

Publication number
JP4674778B2
JP4674778B2 JP2000262096A JP2000262096A JP4674778B2 JP 4674778 B2 JP4674778 B2 JP 4674778B2 JP 2000262096 A JP2000262096 A JP 2000262096A JP 2000262096 A JP2000262096 A JP 2000262096A JP 4674778 B2 JP4674778 B2 JP 4674778B2
Authority
JP
Japan
Prior art keywords
character
distance
characters
class
reference vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000262096A
Other languages
English (en)
Other versions
JP2002074268A (ja
Inventor
真也 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2000262096A priority Critical patent/JP4674778B2/ja
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Priority to EP01968239A priority patent/EP1314129B1/en
Priority to PCT/US2001/026927 priority patent/WO2002019248A2/en
Priority to DE60128706T priority patent/DE60128706T2/de
Priority to KR1020027005587A priority patent/KR100843504B1/ko
Priority to CNB018026621A priority patent/CN100501764C/zh
Priority to TW090121484A priority patent/TW540007B/zh
Publication of JP2002074268A publication Critical patent/JP2002074268A/ja
Priority to US10/128,773 priority patent/US7254269B2/en
Application granted granted Critical
Publication of JP4674778B2 publication Critical patent/JP4674778B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1912Selecting the most significant subset of features

Description

【0001】
【発明の属する技術分野】
この発明は、日本語、中国語、韓国語その他多数の文字を含む言語の文字認識に関する。
【0002】
【従来の技術】
日本語、中国語、韓国語など多数の文字を含む言語の文字認識においては、入力パターンから特徴を抽出して特徴ベクトルを求め、認識対象となるすべての文字について予め用意された参照ベクトルとの距離を求めて、距離値の最も小さい参照ベクトルに対応する文字を認識文字として出力することが行われている。
特開平2-186490号公報には、入力された文字のパターンから得られるベクトルと予め記憶されている既知の文字のパターンから得られる参照ベクトルとの距離を計算して文字認識を行うシステムが記載されている。このシステムでは、入力パターンのベクトルと参照ベクトルとの間のユークリッド距離を計算し、予め定められたしきい値と比較して文字認識を行っている。
また、特開平4-286087号公報には、入力された文字パターンから特徴ベクトルを抽出し、特徴辞書に格納されている参照ベクトルとのユークリッド距離を求めて文字認識を行うシステムにおいて、特徴辞書を類似文字カテゴリごとにクラスタに分け、入力パターンの特徴ベクトルとそれぞれのクラスタを代表する参照ベクトルとの距離を調べ、距離が最も近いクラスタに属する類似文字の参照ベクトルについて詳細な識別処理を行うことが記載されている。
【0003】
一般に、日本語、中国語、韓国語など文字数の多い言語においては、識別能力を高めるために、数百、数千といった非常に多くの特徴が用いられる。各候補文字に対する参照ベクトルとの距離に基づく文字認識システムにおいては、一般に、候補文字数と特徴数に比例した計算時間が必要となり、認識速度の低下が問題となる。具体的には、距離としてユークリッド距離、重み付きユークリッド距離、シティブロック距離などがあるが、
ユークリッド距離 Σi=1 m(xi-ri)2
重み付きユークリッド距離 Σi=1 mwi(xi-ri)2
シティブロック距離 Σi=1 m|xi-ri|
ただし、
X=(x1,...,xm) :入力パターンの特徴ベクトル
Rj=(rj1,...,rjm) :候補文字jの参照ベクトル
W=(w1,...,wm) :特徴の重みベクトル
m :特徴の数
n :対象文字数
いずれも、各特徴に関する距離成分(xi-ri)2, |xi-ri| の計算が n × m 回、つまり、(候補文字数)×(特徴数分)だけ必要になる。
上述の特開平4-286087号公報のものは、ユークリッド距離の計算対象を類似文字クラスタに限定することにより、処理速度を向上させている。しかしながら、類似文字クラスタを選択する基準となる代表ベクトルを適正に設定することには困難が予測され、代表ベクトルの品質によっては認識精度が低下することが予測される。
【0004】
【発明が解決しようとする課題】
この発明は、候補文字数の多い言語において、利用する特徴の数が多い場合にも認識精度の低下をもたらすことなく文字認識の速度を向上させることを目的とする。
【0005】
【課題を解決するための手段】
この発明は一面において次の構成の文字認識システムを提供する。すなわち、入力パターンから得られる特徴ベクトルと、予め格納されている既知の文字の参照ベクトルとの距離を比較して文字認識を行う文字認識システムであって、前記既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、該クラスごとに前記参照ベクトルを格納する辞書記憶装置およびコンピュータを備え、前記コンピュータは、前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出し、該クラスに対して定められたクラスしきい値よりも小さい距離が存在するとき、該距離に対応する参照ベクトルの文字を文字候補として選択するようプログラムされている。参照ベクトルとの距離としてユークリッド距離、重み付きユークリッド距離、シティブロック距離などが用いられるが、ここでは一般に距離と呼ぶ。
【0006】
また、既知の文字の出現頻度は、過去のニュース記事などの大量のテキスト形式の文書集合(これをテキストコーパスと呼ぶ)から統計情報として抽出されるものであり、発明者らは各言語ごとに約2000万文字程度からなるテキストコーパスからこの出現頻度の統計値を求め利用している。この発明によると、既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、該クラスごとに参照ベクトルを辞書に格納しておき、前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の参照ベクトルと入力文字パターンから抽出された特徴ベクトルとの距離計算を行い、基準を満たす値の距離値が得られるときは、その文字を文字候補として選択する。発明者が求めた統計によると、たとえば日本語の場合、出現頻度の最上位に属する382文字がテキストコーパスの約80%を占める。従って、対象文書中においても約80%の文字が、この出現頻度最上位382文字に含まれていることが期待できる。本発明はこのような統計的な文字出現頻度の偏りを利用するものであり、まず出現頻度最上位クラスに属する文字集合のみを候補文字集合とし、良好な認識結果が得られた場合に残りの低頻度文字集合の認識処理を省くことで文字認識処理の速度の向上を図る。実際には、候補文字集合は複数の候補文字集合に分割され、頻度順に認識処理が行われ、良好な結果が得られた集合より低頻度の集合の認識処理を省略するようにプログラムされている。
【0007】
この発明は、さらに他の面において、前記クラスしきい値より小さい距離が存在しないとき、2番目に文字の出現頻度が高いクラスに属する複数の文字の参照ベクトルに対する該特徴ベクトルの距離を算出し、該クラスに対して定められた第2のクラスしきい値よりも小さい距離が存在するとき、該距離に対応する参照ベクトルの文字を文字候補として選択する。
また、もう一つの面によると、この発明のシステムは、前記参照ベクトルのうちの1つについての距離計算においても速度を向上させるために、全ての特徴に関する距離成分を累積して距離値を求める過程を、n個の特徴成分を累積して累積距離値を計算するものとし、(1)該累積距離値を文字候補選択閾値と比較し、(2)該しきい値より大きくなければ次のn個の特徴成分の距離成分を累積計算し、(1)および(2)の手順を繰り返して累積距離値が前記文字候補選択閾値を超えると、当該参照ベクトルは候補外であると判断して次の参照ベクトルとの比較に移ることにより処理時間の短縮を図る。さらにこの発明によると、累積する距離成分の順番を変えることで、前記累積距離値に基づく距離計算過程の省略を効率よく行う。具体的には、全文字カテゴリの全訓練パターンを用いて、各特徴に関する距離成分の分布を求め、その平均値の高い順に距離成分の累積を行う。このような距離成分の並べ替えとしては、全候補文字の参照ベクトルに対して共通の並べ替えを行う方法と、各参照ベクトルごとに、距離成分の分布平均の大きい順に並べ替えを行う方法などがある。
【0008】
参照ベクトルは、認識対象の全ての文字についての訓練パターンから特徴ベクトルを抽出して、例えば日本語については数百次元のベクトルとして作成される。全ての文字について各次元ごとに(つまり各特徴ごとに)距離成分の分布を見ると、この距離成分の平均が大きいことは、その次元の特徴は全体の距離値を大きくするように寄与することを意味する。正解文字である場合、距離値は小さくなることが期待されるので、このような次元の特徴は候補外であることを早期に判断するのに有効な特徴であると言うことができる。したがって、参照ベクトルを構成する全ての文字について次元ごとの距離成分の平均を予め訓練データから求め、この平均値の大きい順に各参照ベクトルの特徴値を並べ替えたベクトルを作成する。そして入力パターンから抽出される特徴ベクトルも、この順に並べ替えたベクトルを作成し、1つの参照ベクトルと特徴ベクトルとの距離計算において、距離成分の累積をこの順に行う。例えばまず、50次元までの距離成分を累積した累積距離値を求め、これでしきい値に達すれば、この参照ベクトルは候補外文字であると判定して次の参照ベクトルとの比較に移る。こうすることにより、数百次元全てについて距離成分を計算することなく、認識処理を進めることができるので、認識処理の時間を短縮することができる。
【0009】
さらにこの発明の一面によると、前記コンピュータは、m番目(mは、選択される文字候補の数)に距離値の小さい文字候補の距離値を文字候補選択しきい値として動的に設定するようプログラムされている。
また、この発明は、他の面によると、さらに任意の文字について類似関係にある文字を規定する類似文字辞書を備え、前記コンピュータは、複数の前記文字候補が選択されることに応答して、前記類似文字辞書からそれぞれの文字候補に類似する文字を取り出し、認識すべき前記特徴ベクトルと前記類似する文字の参照ベクトルとの距離を計算し、前記複数の文字候補の距離値および前記類似する文字の距離値をソートし、距離値が小さい方から予め定めた数の文字を認識文字候補として選択するようプログラムされている。これにより、省略された低頻度文字候補クラスに正解が存在する場合にも、類似文字として候補に含めなおすことが可能となり、認識精度の低下を抑えることが可能となる。
【0010】
【発明の実施の形態】
次に図面を参照して、この発明の実施形態を説明する。図1は、この発明を利用する日本語文字認識システムの1例の全体的構成を示す機能ブロック図である。このシステムは、汎用のパーソナルコンピュータまたはワークステーションの上で走るプログラムで実現される。一般にこのようなプログラムは、OCR(Optical Character Recognition)プログラムと呼ばれる。システムへの代表的な入力パターンは、文書を光学的スキャナで走査して得られるイメージデータである。
入力パターンを受け取ると、OCRプログラムの文字切り出し部11がビットマップ形式のデータから文字を切り出す。文字の切り出し自体は、従来のOCRプログラムに組み込まれている機能である。文字単位に切り出されたイメージデータが特徴抽出部12に送られ、文字線の傾き、幅、曲率、面積、その他の特徴(features)が抽出される。この実施例では、日本語については一つの文字あたり200の特徴を抽出する。したがって、入力パターンは、次の式のような200次元のベクトルxで表され、特徴ベクトル(feature vector)と呼ばれる。
【0011】
【数1】
x=(x1,x2,・・・,x200)
こうして得られた特徴ベクトルが特徴の並べ替え部13に送られて、後に説明する距離成分平均順リストにしたがって特徴の並べ替えを行って新たなベクトルを生成し、文字候補選択部14に送られ、参照文字辞書15に格納されている複数の既知の文字の参照ベクトルのそれぞれに対する重み付ユークリッド距離が計算される。
ここで図2を参照して参照文字辞書15について説明する。ある一つの文字に対する参照ベクトルは、その文字の様々な書体や大きさのイメージパターンについて特徴ベクトルを抽出し、平均をとることによって得られる。このとき、特徴値ごとの分散を算出し、その逆数を重み係数とする重み付きユークリッド距離計算に使用する。
【0012】
この手法自体は従来から使われている。認識対象となるすべての文字について参照ベクトルおよび重みベクトルを辞書23に格納する。こうして格納された辞書23のすべての参照ベクトルにわたって、全ての訓練パターンを用いて各特徴成分ごとに距離成分の平均を求め、その大きい順に特徴の次元を並べ替えた距離成分平均順特長リスト24を作る。辞書23に格納されたそれぞれの参照ベクトル、重みベクトルの各特徴成分は、このリストに従って距離成分平均の大きい順に並べ替えられる。距離成分平均が大きいことは、候補文字においてその特徴成分における距離成分値が大きくなることが期待されるので、後に説明する距離計算においてこの距離成分平均の大きい順に距離計算を実行する。この目的のため、入力パターンから抽出された特徴ベクトルは、特徴の並べ替え部13においてこの距離成分平均順特徴リストに従ってその特徴成分が並べ替えられる。
【0013】
図2のテキスト・コーパスは、社会一般で使われる文書のテキスト形式化された集合であり、たとえばオンラインニュースなどの情報源から文書を蓄積したものである。この文書の集合からそれぞれの文字の出現頻度を算出し、出現頻度に応じて文字を3つのクラスに分類する。発明者の観測によると、中国語、日本語および韓国語は、各言語約2000万文字からなるテキストコーパスを利用して次の表のように分類することができる。
【0014】
【表1】
Figure 0004674778
すなわち、日本語について述べると、クラス1に分類される最も出現頻度の高い382の文字がテキスト・コーパスの80.01%を占め、これに次に出現頻度の高いクラス2の1126文字を加えると、テキスト・コーパスの99.00%を占める。さらにこれにクラス3に分類される出現頻度の低い1459の文字を加えると、テキストコーパスを99.96%カバーすることができる。これはJIS第2水準まで入れると約6000文字程度存在する日本語の文字認識システムを構築する上で、そのうちの2967文字のみを対象としても高々0.04%の候補外文字が存在するだけで実害が少ないことを意味する。また、対象とする2967文字においてもかなりの統計的頻度の偏りがあることが分かる。これは中国語、韓国語についても同様の観測が見られる。
【0015】
この発明は、一実施形態において、このような観測に基づいて、参照ベクトルの辞書15に含まれる参照ベクトルを表1に従って3つのクラスに分ける。入力パターンの特徴ベクトルとの距離計算にあたっては、まずクラス1の参照文字のそれぞれとの距離を求め、十分距離の小さい、すなわち近似度が十分高い参照ベクトルが存在するときは、クラス1の参照ベクトルに対する距離計算で認識処理を終了し、クラス2およびクラス3の参照ベクトルに対する距離計算は行わない。この場合、382の参照ベクトルとの距離計算で距離計算を終了し、クラス2の1126の参照ベクトルおよびクラス3の1459の参照ベクトルに対する距離計算を省略するので、その特徴ベクトルについて実行する距離計算の時間を大幅に短縮することができる。
入力パターンの特徴ベクトルとクラス1の382個の参照ベクトルとの距離計算の結果、十分小さい距離値の参照ベクトルが存在しないときは、クラス2の1508個の参照ベクトルとの距離計算を実行し、十分小さい距離値の参照ベクトルがあるときには、クラス2の参照ベクトルに対する距離計算で計算を終了し、クラス3の参照ベクトルに対する距離計算は、行わない。これによって、距離計算の時間を短縮することができる。
【0016】
クラス2の文字まででテキスト・コーパスの99%を占めるから、クラス1およびクラス2の参照ベクトルとの距離計算で適切な文字候補を見つけることができない文字は、所与のテキストに約1%存在すると期待される。この約1%の入力パターンの特徴ベクトルについては、クラス1およびクラス2の参照ベクトルとの距離計算を経てクラス3の参照ベクトルとの距離計算に入る。こうしてクラス3の参照ベクトルのうち距離が小さいものが文字候補として選択される。
このようにして文字候補選択部14で文字候補が選択されると、プロセスは、類似文字処理部16に移る。類似文字処理部16は、類似文字辞書17を参照して文字認識の精度を向上させる。類似文字辞書には、それぞれの文字について、文字認識上混同しやすい文字のリストが用意されている。類似文字処理部16は、文字候補選択部14から1つまたは複数の文字候補を受け取ると、それぞれの文字候補について類似文字辞書を参照して類似文字を読み出し、この類似文字の参照ベクトルを参照ベクトル辞書15から読み出す。
【0017】
入力パターンから抽出された特徴ベクトルと複数の類似文字の参照ベクトルとの距離計算を実行し、文字候補および類似文字を含めた集合の中で最も距離値が小さい所定数の文字を最終的な文字候補として出力する。ここで、最終的というのは、距離計算による文字認識段階を終了することを意味する。実際の文字認識プログラムでは、この後、一般に後処理と呼ばれるプロセスが実行される。後処理は、文脈の分析、連接関係の分析、文字相互間の出現確立などに基づいて文字候補の優先順位を決める処理である。後処理自体は、従来から使われている技術なので、詳細な説明は省略する。
【0018】
クラス1文字候補選択プロセス
次に図3を参照して、この発明の一実施例の文字認識システムのプロセスの流れを説明する。これはクラス1の候補文字集合から10個の候補文字を選択するプロセスである。スキャナによって文書を走査して得られる入力パターンがこの発明の一実施例の文字認識プログラムに渡されると(301)、文字切り出し部11(図1)において、イメージデータから個々の文字領域が切り出され、個々の文字領域について特徴抽出部12(図1)で前述したように特徴抽出が行われる(302)。こうして得られた特徴ベクトルは、特徴の並べ替え部13に送られ、図2に関連して説明した距離成分平均順特徴リストにしたがって特徴が並べ替えられる(303)。次に最初の10個の参照ベクトルのそれぞれについて全次元にわたる10個の距離値が算出され(304)、しきい値Thがこうして得られた10個の距離値のうち最も大きい距離値にセットされる(314)。距離値は、重み付ユークリッド距離値を用い、下に示す数2において、j=1〜200として計算される。ついで参照ベクトル辞書15から読み出すクラス1参照ベクトルの番号iを11と、変数の初期値をk=0、m=0に設定し(305)、距離計算に含める特徴ベクトルおよび参照ベクトルの次元j=m+50×k、として、mを1〜50まで変化させる(306)。こうして参照ベクトルと特徴ベクトルとの次元1から50までの距離Diが次の式によって計算される(307)。
【0019】
【数2】
i=Σwj(xj-rj2
(j=1〜50)
ここで、wjは、図2の参照ベクトル辞書23に関連して説明したそれぞれの参照ベクトルにおける重みベクトルの各成分である。xjが入力パターンから得られる特徴ベクトルの各成分を表し、rjが参照ベクトルの各成分を表す。数2で得られる値の平方根をとった値が重み付きユークリッド距離と呼ばれる距離値である。ここでは、簡単のために平方根をとる前の値を重み付ユークリッド距離の目安として使用し、距離と呼んでいる。参照ベクトルとの距離Diがしきい値Thを超えるときは(321)、この参照ベクトルはこの特徴ベクトルに対する文字候補として不合格と判定する。そのとき、ステップ312でクラス1の382個のすべての参照ベクトルについて距離の比較が終わったかどうか判定し、終わっていなければiをインクリメントして次の参照ベクトルとの距離Diの計算を行う(307)。参照ベクトルとの距離Diがしきい値(Th)以下であると(321)、次元jが200に達したかどうか点検し(308)、達していなければ、kをインクリメントして(309)、jを次の51〜100次元の距離を求める。こうして、j=51〜100について距離を計算して、先にj=1〜50について計算した距離に加算し、j=1〜100についての距離Diを算出する(307)。
【0020】
この結果、DiがThを超えると、ステップ312を経てiをインクリメントし、次の参照ベクトルとの比較に移る。DiがTh以下であれば、ステップ309を経てさらに、kをインクリメントして、距離Di、すなわちj=100〜150についての距離Diを算出する(307)。この処理を繰り返してDiがTh以下の状態でj=200に達すると、すなわちすべての次元を含めた距離Diがしきい値以下であると、そのときの参照ベクトルに対応する文字をシステムの出力の候補となる文字候補としてメモリに記憶する(310)。このメモリには、プロセスの最初に参照された10個の参照ベクトルの文字コードおよびその距離値が記憶されている。新しい文字候補をこのメモリに入れるとともに先に記憶されている文字コードのうち最も距離値の大きい文字をメモリから削除する。こうして、メモリには最も距離値が小さい順に10個の文字候補が記憶されるようにする。そして、10個の文字候補の距離値のうち、最も大きい値を新たなしきい値Thとして設定する(311)。後続の参照ベクトルとの比較の結果、新たな文字候補がメモリに渡されると、それまでにメモリに記憶されていた10個の文字候補のうち最も距離値の大きい文字候補がメモリから削除され、新たな文字候補がメモリに追加される。そして新たな10個の文字候補のうちの最大の距離値がしきい値Thとしてセットされる。
【0021】
このように文字候補の数が10個に達した後は、ブロック307で判定に使われるしきい値は動的に変更される。ブロック312においてi=382が満足され、すなわちクラス1の参照ベクトルすべてについての距離計算が終了すると、メモリに記憶された10個の文字候補の距離値のうち最も小さい距離値Dbestがクラス1の文字候補選択用に予め設定されたクラスしきい値Thstage1よりも小さいかどうか判定する(318)。Thstage1は、この実施例ではたとえば120,000に設定する。この条件を満足する文字候補があることは、クラス1における文字候補選択処理において十分近似度の高い文字候補が得られたことを意味する。したがって、この場合、メモリに記憶された10個の文字候補を類似文字処理部16に渡し、この入力パターンの特徴ベクトルについての文字候補選択処理(14)を終了する。
【0022】
クラス2文字候補選択プロセス
ブロック318の条件が満足されないときは、クラス2の参照ベクトルから文字候補を選択するプロセスに入る(320)。図4を参照してクラス2の文字候補選択プロセスを説明する。いま日本語の文字認識を行っているので、参照ベクトル辞書15には、クラス2の参照ベクトルとして1126個の既知の文字に対する参照ベクトルおよび重みベクトルが格納されている。クラス2の文字候補選択プロセスに入ると、iを1、k=0、m=0に初期設定し(502)、距離計算の対象となる特徴ベクトルおよび参照ベクトルの次元jをj=m+50×k、として、mを1から50まで変化させ(503)、第i参照ベクトルと入力パターンから抽出された特徴ベクトルとの距離値Diの計算を実行する(504)。距離値Diがしきい値Thより大きく(515)、かつi=1126に達していない時には(510)、iをインクリメントして(511)、次の参照ベクトルに対する距離値の計算に移る。
【0023】
距離値Diがしきい値Th以下であるときは、kをインクリメントして次の50次元、すなわちj=51〜100として距離値を計算し、その値を先に求めたj=1〜50についての距離値に加算してj=1〜100についての距離値Diを求める(504)。距離値DiがThを超え、かつi=1126に達していない時には(510)、iをインクリメントして次の参照ベクトルとの距離値計算に移る(511)。DiがThを超えていないときは、kをインクリメントして、jを次の50次元にインクリメントし、前述したのと同様のプロセスによりj=1〜150についての距離値Diを求める(504)。このプロセスを繰り返し、DiがThを超えない状態でj=200に達すると(505)、この参照ベクトルに対応する文字コードをメモリに入れる(508)。メモリには先のクラス1の文字候補選択プロセスで選ばれた文字候補が記憶されている。文字候補の数が10個に達していれば、距離値が最も大きい文字候補をメモリから削除し、新たな文字候補を加えて、文字候補の数を10個に維持する。そして、10個の文字候補の距離値のうち最も大きい距離値を新たなしきい値Thとする(509)。
【0024】
その後は、参照ベクトルがブロック515のテストを通り、メモリに入れられると(508)、上述したのと同様の文字候補の入れ替えが行われ、しきい値Thが動的に変更される。ブロック510でi=1126が満足されるとき、すなわちクラス2の1126個すべての参照ベクトルについて文字候補選択プロセスが実行されると、メモリに記憶された10個の文字候補の距離値のうち最小のものがクラス2のクラスしきい値Thstage2より小さいかどうか判定され(512)、小さければ文字候補選択プロセス(14)を終了して、この10個の文字候補を類似文字処理部16(図1)に渡す。Th stage2は、この実施例ではたとえばThstage1よりも大きい150,000に設定する。すなわちクラス2のクラスしきい値は、クラス1のクラスしきい値よりも緩いものにする。ブロック512の条件が満足されないときは、クラス3の参照ベクトルに対する文字候補選択プロセスに移る。
【0025】
クラス3文字候補選択プロセス
図5は、クラス3の1459個の参照ベクトルに対する文字候補選択プロセスを示す。ブロック602から610は、ブロック610での判定がクラス3の参照ベクトルの数1459であることを除いて図4のブロック502から510と同じである。したがって、これらのブロックの機能についての説明は省略する。ブロックで610でi=1459が満足され、クラス3の1459個すべての参照ベクトルについて文字候補選択プロセスが終了すると、文字候補選択処理を終わり、メモリに記憶された10個の文字候補を類似文字処理部16に渡す。このとき、メモリに蓄積された文字候補の数が10個に満たないときは、そのすべての文字候補を類似文字処理部16に渡す。
【0026】
類似文字処理
次に図6を参照して類似文字処理のプロセスを説明する。図1の類似文字処理部16は、文字候補選択部14から10個の文字候補を受け取ると、それぞれの文字候補について類似文字辞書を参照し、類似文字を読み出す(41)。この類似文字の参照ベクトルおよび重みベクトルを参照ベクトル辞書15から読み出して、入力パターンから抽出された特徴ベクトルとの距離値を算出する(42)。読み出したすべての類似文字について重み付ユークリッド距離値を算出した後、10個の文字候補およびこれらの類似文字の距離値をソートして距離値が小さい順に10個の文字を選ぶ(43)。
【0027】
こうして得られた10個の最終候補のうち距離値が最小のものを認識文字として出力し、残りの9個の文字を代替候補として出力する。ここでは、文字候補の選択を既知の文字についての参照ベクトルとの比較だけに基づいて行っているが、文字候補選択の途中の段階、あるいは文字候補の選択が完了した段階で、テキストの文法的解析、単語の連接関係、文字相互間の依存関係などに基づいて文字候補の優先度を変更する、いわゆる後処理と呼ばれる処理を実行することが好ましい。
OCRプログラムの出力としてユーザにはこうして得られた最高位の優先度の文字の集合としてテキストが提示される。ユーザは、テキストの文脈からOCR出力に認識誤りを見つけることがある。この場合、ユーザがエラー文字をクリックすると、プルダウンの形態で9個の代替文字が表示され、ユーザがそのうちの一つをクリックすると、その文字がエラー文字を置き換える。
以上にこの発明を特定の実施例について説明したが、この発明は、このような実施例に限定されるものではない。
【図面の簡単な説明】
【図1】この発明の一実施例の文字認識システムの全体的な構成を示す機能ブロック図である。
【図2】この発明の一実施例で使用する辞書の概念を説明するためのブロック図である。
【図3】クラス1の参照ベクトルから文字候補を選択するプロセスを示すフローチャートである。
【図4】クラス2の参照ベクトルから文字候補を選択するプロセスを示すフローチャートである。
【図5】クラス3の参照ベクトルから文字候補を選択するプロセスを示すフローチャートである。
【図6】類似文字処理のプロセスを示すフローチャートである。
【符号の説明】
10 文字切り出し部
12 特徴抽出部
13 特徴の並べ替え部
14 文字候補選択部
15 参照ベクトル辞書
16 類似文字処理部
17 類似文字辞書

Claims (15)

  1. 入力パターンから得られる特徴ベクトルと、予め格納されている既知の文字の参照ベクトルとの距離を比較して文字認識を行う文字認識システムであって、
    前記既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、前記クラスごとに前記参照ベクトルを格納する辞書記憶装置およびコンピュータを備え、
    前記コンピュータは、
    前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出し、
    前記クラスに対して定められたクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択し、
    前記入力パターンから得られる特徴ベクトルの特徴を、多数の参照ベクトルの特徴の距離平均値の大きさ順を示すリストに従って距離平均値の大きい順に並べ替えた後、まずn番目の特徴までについて前記参照ベクトルのうちの1つについてその対応する特徴との距離を計算し、
    (1)前記距離を文字候補選択しきい値と比較し、(2)前記しきい値より大きくなければ次のn個の特徴を含めた距離を計算する手順を繰り返して距離が前記文字候補選択しきい値を超えると、次の参照ベクトルとの比較に移る
    ようプログラムされている文字認識システム。
  2. 請求項1に記載のシステムであって、
    前記コンピュータは、全特徴に基づく距離値が前記文字候補選択しきい値を超えないとき、比較対象となった参照ベクトルに対応する文字を文字候補としてメモリに記憶するようプログラムされている
    前記システム。
  3. 請求項2に記載のシステムであって、
    前記コンピュータは、m番目に小さい距離値の文字候補の距離値を文字候補選択しきい値として動的に設定するようプログラムされており、
    mは、選択される文字候補の数である
    前記システム。
  4. 請求項3に記載のシステムであって、
    前記コンピュータは、前記最も文字の出現頻度の高いクラスに属するすべての参照ベクトルに対する前記特徴ベクトルの距離の計算が完了したとき、これらの距離の1つまたは複数が前記クラスに対して定められたしきい値より小さいとき、小さい方から前記m番目までの距離の参照ベクトルに対応するm個の文字を文字候補として選択するようプログラムされている
    前記システム。
  5. 入力パターンから得られる特徴ベクトルと、予め格納されている既知の文字の参照ベクトルとの距離を比較して文字認識を行う文字認識システムであって、
    前記既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、前記クラスごとに前記参照ベクトルを格納する辞書記憶装置およびコンピュータを備え、
    前記コンピュータは、
    前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出し、
    前記クラスに対して定められたクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択し、
    複数の前記文字候補が選択されることに応答して、任意の文字について類似関係にある文字を規定する類似文字辞書からそれぞれの文字候補に類似する文字を取り出し、
    認識すべき前記特徴ベクトルと前記類似する文字の参照ベクトルとの距離を計算し、
    前記複数の文字候補の距離値および前記類似する文字の距離値をソートし、
    距離値が最も小さい予め定めた数の文字を認識文字候補として選択する
    ようプログラムされている文字認識システム。
  6. 入力パターンから得られる特徴ベクトルと、予め格納されている既知の文字の参照ベクトルとの距離を比較して文字認識を行う文字認識システムであって、
    前記既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、前記クラスごとに前記参照ベクトルを格納する辞書記憶装置およびコンピュータを備え、
    前記コンピュータは、
    前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出し、
    前記クラスに対して定められたクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択し、
    前記クラスしきい値より小さい距離が存在しないとき、2番目に文字の出現頻度が高いクラスに属する複数の文字の参照ベクトルに対する前記特徴ベクトルの距離を算出し、
    前記クラスに対して定められた第2のクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択し、
    複数の前記文字候補が選択されることに応答して、任意の文字について類似関係にある文字を規定する類似文字辞書からそれぞれの文字候補に類似する文字を取り出し、
    認識すべき前記特徴ベクトルと前記類似する文字の参照ベクトルとの距離を計算し、
    前記複数の文字候補の距離値および前記類似する文字の距離値をソートし、
    距離値が最も小さい予め定めた数の文字を認識文字候補として出力する
    ようプログラムされている文字認識システム。
  7. 入力文字のパターンから得られる特徴ベクトルと、予め格納されている既知の文字のパターンの参照ベクトルとの距離を比較して文字認識を行う文字認識システムであって、
    前記既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、この分類情報とともに前記参照ベクトルを格納する辞書記憶装置と、
    入力文字の前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出する距離算出手段と、
    前記最も文字の出現頻度の高いクラスに属する1つまたは複数の文字について前記距離算出手段により算出される距離が所定のしきい値よりも小さいとき、前記最も文字出現頻度の高いクラスに属する文字の参照ベクトルとの距離計算に基づいて文字候補を選択する選択手段と、
    を備え、
    前記距離算出手段は、
    前記入力パターンから得られる特徴ベクトルの特徴を、多数の参照ベクトルの特徴の距離平均値の大きさ順を示すリストに従って距離平均値の大きい順に並べ替えた後、まずn番目の特徴までについて前記参照ベクトルのうちの1つについてその対応する特徴との距離を計算し、
    (1)前記距離を文字候補選択しきい値と比較し、(2)前記しきい値より大きくなければ次のn個の特徴を含めた距離を計算する手順を繰り返して距離が前記文字候補選択しきい値を超えると、次の参照ベクトルとの比較に移る
    文字認識システム。
  8. 既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、前記クラスごとに前記参照ベクトルを格納する辞書記憶装置を備えるコンピュータを使用して、入力パターンから得られる特徴ベクトルと、予め格納されている既知の文字のパターンの参照ベクトルとの距離を比較して文字認識を行う文字認識方法であって、
    (a)前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出するステップと、
    (b)前記クラスに対して定められたクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択するステップと、
    (c)前記入力パターンから得られる特徴ベクトルの特徴を、多数の参照ベクトルの特徴の距離平均値の大きさ順を示すリストに従って距離平均値の大きい順に並べ替えた後、まずn番目の特徴までについて前記参照ベクトルのうちの1つについてその対応する特徴との距離を計算するステップと、
    (d)(d−1)前記距離を文字候補選択しきい値と比較するステップと、(d−2)前記しきい値より大きくなければ次のn個の特徴を含めた距離を計算するステップとを繰り返して距離が前記文字候補選択しきい値を超えると、次の参照ベクトルとの比較に移るステップと
    を含む方法。
  9. 請求項に記載の方法であって、
    すべての特徴を含めた距離が前記文字候補選択しきい値を超えないとき、比較対象となった前記参照ベクトルに対応する文字を文字候補としてメモリに記憶する
    方法。
  10. 請求項に記載の方法であって、
    m番目に距離値の小さい文字候補の距離値を文字候補選択しきい値として動的に設定するステップ
    を含み、
    mは出力される文字候補の数である
    方法。
  11. 請求項10に記載の方法であって、
    前記最も文字の出現頻度の高いクラスに属するすべての参照ベクトルに対する前記特徴ベクトルの距離の計算が完了したとき、これらの距離の1つまたは複数が前記クラスに対して定められたしきい値より小さいとき、小さい方から前記m番目までの距離の参照ベクトルに対応するm個の文字を文字候補として選択する
    方法。
  12. 既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、前記クラスごとに前記参照ベクトルを格納する辞書記憶装置を備えるコンピュータを使用して、入力パターンから得られる特徴ベクトルと、予め格納されている既知の文字のパターンの参照ベクトルとの距離を比較して文字認識を行う文字認識方法であって、
    (a)前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出するステップと、
    (b)前記クラスに対して定められたクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択するステップと、
    (c)複数の前記文字候補が選択されることに応答して、任意の文字について類似関係にある文字を規定する類似文字辞書からそれぞれの文字候補に類似する文字を取り出すステップと、
    (d)認識すべき前記特徴ベクトルと前記類似する文字の参照ベクトルとの距離を計算するステップと、
    (e)前記複数の文字候補の距離値および前記類似する文字の距離値をソートするステップと、
    (f)距離値が最も小さい予め定めた数の文字を認識文字候補として出力するステップと
    を含む方法。
  13. 既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、前記クラスごとに前記参照ベクトルを格納する辞書記憶装置を備えるコンピュータを使用して、入力パターンから得られる特徴ベクトルと、予め格納されている既知の文字のパターンの参照ベクトルとの距離を比較して文字認識を行う文字認識方法であって、
    (a)前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出するステップと、
    (b)前記クラスに対して定められたクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択するステップと、
    (c)前記クラスしきい値より小さい距離が存在しないとき、2番目に文字の出現頻度が高いクラスに属する複数の文字の参照ベクトルに対する前記特徴ベクトルの距離を算出するステップと、
    (d)前記クラスに対して定められた第2のクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択するステップと、
    (e)複数の前記文字候補が選択されることに応答して、任意の文字について類似関係にある文字を規定する類似文字辞書からそれぞれの文字候補に類似する文字を取り出し、認識すべき前記特徴ベクトルと前記類似する文字の参照ベクトルとの距離を計算するステップと、
    (f)前記複数の文字候補の距離値および前記類似する文字の距離値をソートし、距離値が最も小さい予め定めた数の文字を認識文字候補として出力するステップと
    を含む方法。
  14. 既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、前記クラスごとに前記参照ベクトルを格納する辞書と、コンピュータ・プログラムとを格納するコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ・プログラムは、
    (a)入力パターンから抽出される特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離値を算出するステップと、
    (b)前記最も文字の出現頻度の高いクラスに対して定められたクラスしきい値よりも小さい距離値が存在するとき、前記距離値をもつ参照ベクトルの文字を文字候補として選択するステップと、
    (c)前記入力パターンから得られる特徴ベクトルの特徴を、多数の参照ベクトルの特徴の距離平均値の大きさ順を示すリストに従って距離平均値の大きい順に並べ替えた後、まずn番目の特徴までについて前記参照ベクトルのうちの1つについてその対応する特徴との距離を計算するステップと、
    (d)(d−1)前記距離を文字候補選択しきい値と比較するステップと、(d−2)前記しきい値より大きくなければ次のn個の特徴を含めた距離を計算するステップとを繰り返して距離が前記文字候補選択しきい値を超えると、次の参照ベクトルとの比較に移るステップと
    をコンピュータに実行させる
    コンピュータ読み取り可能な記憶媒体。
  15. 入力パターンから得られる特徴ベクトルと、予め格納されている既知の文字の参照ベクトルとの距離を比較することによる文字認識を、コンピュータに実行させるプログラムと、前記既知の文字の出現頻度に基づいてすべての文字を複数のクラスに分類し、前記クラスごとに前記参照ベクトルを格納する辞書とを格納するコンピュータ読み取り可能な記憶媒体であって、
    前記プログラムは、
    前記特徴ベクトルと前記複数のクラスのうち最も文字の出現頻度の高いクラスに属する複数の文字の前記参照ベクトルとの距離を算出するステップと、
    前記クラスに対して定められたクラスしきい値よりも小さい距離が存在するとき、前記距離に対応する参照ベクトルの文字を文字候補として選択するステップと、
    複数の前記文字候補が選択されることに応答して、前記類似文字辞書からそれぞれの文字候補に類似する文字を取り出すステップと、
    認識すべき前記特徴ベクトルと前記類似する文字の参照ベクトルとの距離を計算するステップと、
    前記複数の文字候補の距離値および前記類似する文字の距離値をソートし、
    距離値が最も小さい予め定めた数の文字を認識文字候補として選択するステップと
    をコンピュータに実行させる
    コンピュータ読み取り可能な記憶媒体。
JP2000262096A 2000-08-31 2000-08-31 文字認識システム Expired - Fee Related JP4674778B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2000262096A JP4674778B2 (ja) 2000-08-31 2000-08-31 文字認識システム
PCT/US2001/026927 WO2002019248A2 (en) 2000-08-31 2001-08-30 Character recognition system
DE60128706T DE60128706T2 (de) 2000-08-31 2001-08-30 Zeichenerkennungssystem
KR1020027005587A KR100843504B1 (ko) 2000-08-31 2001-08-30 문자 인식 시스템
EP01968239A EP1314129B1 (en) 2000-08-31 2001-08-30 Character recognition system
CNB018026621A CN100501764C (zh) 2000-08-31 2001-08-30 字符识别系统及方法
TW090121484A TW540007B (en) 2000-08-31 2001-08-30 Character recognition system
US10/128,773 US7254269B2 (en) 2000-08-31 2002-04-19 Character recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000262096A JP4674778B2 (ja) 2000-08-31 2000-08-31 文字認識システム

Publications (2)

Publication Number Publication Date
JP2002074268A JP2002074268A (ja) 2002-03-15
JP4674778B2 true JP4674778B2 (ja) 2011-04-20

Family

ID=18749827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000262096A Expired - Fee Related JP4674778B2 (ja) 2000-08-31 2000-08-31 文字認識システム

Country Status (7)

Country Link
EP (1) EP1314129B1 (ja)
JP (1) JP4674778B2 (ja)
KR (1) KR100843504B1 (ja)
CN (1) CN100501764C (ja)
DE (1) DE60128706T2 (ja)
TW (1) TW540007B (ja)
WO (1) WO2002019248A2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1305003C (zh) 2003-09-29 2007-03-14 摩托罗拉公司 用户界面上的书写标记识别
CN1619583B (zh) * 2003-11-20 2010-05-05 摩托罗拉公司 手写识别的方法和系统
CN1308889C (zh) * 2003-11-28 2007-04-04 佳能株式会社 字符识别方法和装置
CN101645134B (zh) * 2005-07-29 2013-01-02 富士通株式会社 整体地名识别方法和整体地名识别装置
JP5020513B2 (ja) * 2006-01-11 2012-09-05 シャープ株式会社 パターン認識装置、パターン認識方法、パターン認識プログラム、および記録媒体
KR100641791B1 (ko) 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템
JP5239419B2 (ja) * 2008-03-14 2013-07-17 オムロン株式会社 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造
KR100921689B1 (ko) * 2008-05-08 2009-10-15 엔에이치엔(주) 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체
CN101593278B (zh) * 2008-05-27 2013-01-16 佳能株式会社 文档图像的语言判别方法和系统
JP5621777B2 (ja) * 2009-09-24 2014-11-12 日本電気株式会社 単語認識装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体並びに発送物区分装置
CN102129560B (zh) * 2010-01-18 2013-11-06 富士通株式会社 字符识别的方法和设备
JP6003492B2 (ja) * 2012-10-01 2016-10-05 富士ゼロックス株式会社 文字認識装置及びプログラム
CN103761477A (zh) * 2014-01-07 2014-04-30 北京奇虎科技有限公司 一种病毒程序样本的获取方法和设备
CN106557766B (zh) * 2016-11-22 2020-05-19 宇龙计算机通信科技(深圳)有限公司 模糊字符处理方法、系统及电子设备
KR20200010777A (ko) * 2018-07-23 2020-01-31 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 유사 문자의 과거 인식 결과를 이용하는 문자 인식
CN111507400B (zh) * 2020-04-16 2023-10-31 腾讯科技(深圳)有限公司 应用分类方法、装置、电子设备以及存储介质
CN111783766B (zh) * 2020-07-10 2023-02-14 上海淇毓信息科技有限公司 一种分步识别图像字符的方法、装置和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4589142A (en) * 1983-12-28 1986-05-13 International Business Machines Corp. (Ibm) Method and apparatus for character recognition based upon the frequency of occurrence of said characters
JPS6282486A (ja) 1985-10-08 1987-04-15 Hitachi Ltd オンライン手書き図形認識装置
US4773099A (en) 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
EP0498978A1 (en) 1991-02-13 1992-08-19 International Business Machines Corporation Mechanical recognition of characters in cursive script
US5479523A (en) * 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets
JP2986074B2 (ja) * 1995-07-26 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 近傍点検出方法及びパターン認識装置
US6345119B1 (en) * 1996-02-19 2002-02-05 Fujitsu Limited Handwritten character recognition apparatus and method using a clustering algorithm
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JPH10143613A (ja) * 1996-10-30 1998-05-29 Hewlett Packard Co <Hp> パタン認識方法
SG98366A1 (en) * 1997-07-11 2003-09-19 Matsushita Electric Ind Co Ltd Recording medium of character data of full text and character string collating apparatus

Also Published As

Publication number Publication date
EP1314129A2 (en) 2003-05-28
KR100843504B1 (ko) 2008-07-04
JP2002074268A (ja) 2002-03-15
WO2002019248A9 (en) 2002-07-11
CN1388947A (zh) 2003-01-01
EP1314129B1 (en) 2007-05-30
CN100501764C (zh) 2009-06-17
DE60128706D1 (de) 2007-07-12
WO2002019248A2 (en) 2002-03-07
TW540007B (en) 2003-07-01
KR20020081210A (ko) 2002-10-26
WO2002019248A3 (en) 2002-05-16
EP1314129A4 (en) 2005-06-01
DE60128706T2 (de) 2008-01-24

Similar Documents

Publication Publication Date Title
JP4674778B2 (ja) 文字認識システム
US7254269B2 (en) Character recognition system
US6442555B1 (en) Automatic categorization of documents using document signatures
US7283669B2 (en) Fine segmentation refinement for an optical character recognition system
US8566349B2 (en) Handwritten document categorizer and method of training
US20160125275A1 (en) Character recognition device, image display device, image retrieval device, character recognition method, and computer program product
US20050286772A1 (en) Multiple classifier system with voting arbitration
CN110807314A (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN110503143B (zh) 基于意图识别的阈值选取方法、设备、存储介质及装置
JP7351178B2 (ja) 画像を処理する装置及び方法
JP2001175811A (ja) 単語大分類装置及びその単語大分類方法並びにその制御プログラムを記録した記録媒体
CN106528776A (zh) 一种文本分类的方法和装置
US5621818A (en) Document recognition apparatus
US20040146200A1 (en) Segmenting touching characters in an optical character recognition system to provide multiple segmentations
US20180005087A1 (en) Pattern recognition device, pattern recognition method, and computer program product
US7181062B2 (en) Modular classification architecture for a pattern recognition application
JP2986074B2 (ja) 近傍点検出方法及びパターン認識装置
JPH07160822A (ja) パターン認識方法
US7167587B2 (en) Sequential classifier for use in pattern recognition system
US5940533A (en) Method for analyzing cursive writing
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP4215385B2 (ja) パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4199954B2 (ja) 文字認識辞書作成方法及び文字認識方法
JP3121401B2 (ja) 認識辞書及び文字認識装置
JP2571236B2 (ja) 文字切出し識別判定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070831

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071220

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110119

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110120

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees