JP2002074268A - 文字認識システム - Google Patents

文字認識システム

Info

Publication number
JP2002074268A
JP2002074268A JP2000262096A JP2000262096A JP2002074268A JP 2002074268 A JP2002074268 A JP 2002074268A JP 2000262096 A JP2000262096 A JP 2000262096A JP 2000262096 A JP2000262096 A JP 2000262096A JP 2002074268 A JP2002074268 A JP 2002074268A
Authority
JP
Japan
Prior art keywords
character
distance
class
reference vector
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000262096A
Other languages
English (en)
Other versions
JP4674778B2 (ja
Inventor
Shinya Nakagawa
真也 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2000262096A priority Critical patent/JP4674778B2/ja
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Priority to KR1020027005587A priority patent/KR100843504B1/ko
Priority to CNB018026621A priority patent/CN100501764C/zh
Priority to PCT/US2001/026927 priority patent/WO2002019248A2/en
Priority to DE60128706T priority patent/DE60128706T2/de
Priority to EP01968239A priority patent/EP1314129B1/en
Priority to TW090121484A priority patent/TW540007B/zh
Publication of JP2002074268A publication Critical patent/JP2002074268A/ja
Priority to US10/128,773 priority patent/US7254269B2/en
Application granted granted Critical
Publication of JP4674778B2 publication Critical patent/JP4674778B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1912Selecting the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】従来技術では、日本語など多数の文字を含む言
語の文字認識において、入力パターンから特徴ベクトル
を求め、特徴ベクトルと参照ベクトルとの距離を求め、
距離値の最も小さい参照ベクトルに対応する文字を認識
文字としている。しかし、多数の文字を含む言語の文字
認識では、比較する参照ベクトルの数が多いために、文
字認識の処理速度の向上には限度があった。 【解決手段】本願発明では、文字の出現頻度に基づい
て、文字に対応する参照ベクトルを複数のクラスに分類
する。特徴ベクトルと参照ベクトルとの距離を計算する
時に、文字の出現頻度の高いクラスの参照ベクトルから
順に比較しすることにより、文字認識の処理速度の向上
を図る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、日本語、中国
語、韓国語その他多数の文字を含む言語の文字認識に関
する。
【0002】
【従来の技術】日本語、中国語、韓国語など多数の文字
を含む言語の文字認識においては、入力パターンから特
徴を抽出して特徴ベクトルを求め、認識対象となるすべ
ての文字について予め用意された参照ベクトルとの距離
を求めて、距離値の最も小さい参照ベクトルに対応する
文字を認識文字として出力することが行われている。特
開平2-186490号公報には、入力された文字のパターンか
ら得られるベクトルと予め記憶されている既知の文字の
パターンから得られる参照ベクトルとの距離を計算して
文字認識を行うシステムが記載されている。このシステ
ムでは、入力パターンのベクトルと参照ベクトルとの間
のユークリッド距離を計算し、予め定められたしきい値
と比較して文字認識を行っている。また、特開平4-2860
87号公報には、入力された文字パターンから特徴ベクト
ルを抽出し、特徴辞書に格納されている参照ベクトルと
のユークリッド距離を求めて文字認識を行うシステムに
おいて、特徴辞書を類似文字カテゴリごとにクラスタに
分け、入力パターンの特徴ベクトルとそれぞれのクラス
タを代表する参照ベクトルとの距離を調べ、距離が最も
近いクラスタに属する類似文字の参照ベクトルについて
詳細な識別処理を行うことが記載されている。
【0003】一般に、日本語、中国語、韓国語など文字
数の多い言語においては、識別能力を高めるために、数
百、数千といった非常に多くの特徴が用いられる。各候
補文字に対する参照ベクトルとの距離に基づく文字認識
システムにおいては、一般に、候補文字数と特徴数に比
例した計算時間が必要となり、認識速度の低下が問題と
なる。具体的には、距離としてユークリッド距離、重み
付きユークリッド距離、シティブロック距離などがある
が、 ユークリッド距離 Σi=1 m(xi-ri)2 重み付きユークリッド距離 Σi=1 mwi(xi-ri)2 シティブロック距離 Σi=1 m|xi-ri| ただし、 X=(x1,...,xm) :入力パターンの特徴ベクトル Rj=(rj 1,...,rjm) :候補文字jの参照ベクトル W=(w1,...,wm) :特徴の重みベクトル m :特徴の数 n :対象文字数 いずれも、各特徴に関する距離成分(xi-ri)2, |xi-ri|
の計算が n × m 回、つまり、(候補文字数)×(特徴
数分)だけ必要になる。上述の特開平4-286087号公報の
ものは、ユークリッド距離の計算対象を類似文字クラス
タに限定することにより、処理速度を向上させている。
しかしながら、類似文字クラスタを選択する基準となる
代表ベクトルを適正に設定することには困難が予測さ
れ、代表ベクトルの品質によっては認識精度が低下する
ことが予測される。
【0004】
【発明が解決しようとする課題】この発明は、候補文字
数の多い言語において、利用する特徴の数が多い場合に
も認識精度の低下をもたらすことなく文字認識の速度を
向上させることを目的とする。
【0005】
【課題を解決するための手段】この発明は一面において
次の構成の文字認識システムを提供する。すなわち、入
力パターンから得られる特徴ベクトルと、予め格納され
ている既知の文字の参照ベクトルとの距離を比較して文
字認識を行う文字認識システムであって、前記既知の文
字の出現頻度に基づいてすべての文字を複数のクラスに
分類し、該クラスごとに前記参照ベクトルを格納する辞
書記憶装置およびコンピュータを備え、前記コンピュー
タは、前記特徴ベクトルと前記複数のクラスのうち最も
文字の出現頻度の高いクラスに属する複数の文字の前記
参照ベクトルとの距離を算出し、該クラスに対して定め
られたクラスしきい値よりも小さい距離が存在すると
き、該距離に対応する参照ベクトルの文字を文字候補と
して選択するようプログラムされている。参照ベクトル
との距離としてユークリッド距離、重み付きユークリッ
ド距離、シティブロック距離などが用いられるが、ここ
では一般に距離と呼ぶ。
【0006】また、既知の文字の出現頻度は、過去のニ
ュース記事などの大量のテキスト形式の文書集合(これ
をテキストコーパスと呼ぶ)から統計情報として抽出さ
れるものであり、発明者らは各言語ごとに約2000万
文字程度からなるテキストコーパスからこの出現頻度の
統計値を求め利用している。この発明によると、既知の
文字の出現頻度に基づいてすべての文字を複数のクラス
に分類し、該クラスごとに参照ベクトルを辞書に格納し
ておき、前記複数のクラスのうち最も文字の出現頻度の
高いクラスに属する複数の文字の参照ベクトルと入力文
字パターンから抽出された特徴ベクトルとの距離計算を
行い、基準を満たす値の距離値が得られるときは、その
文字を文字候補として選択する。発明者が求めた統計に
よると、たとえば日本語の場合、出現頻度の最上位に属
する382文字がテキストコーパスの約80%を占め
る。従って、対象文書中においても約80%の文字が、
この出現頻度最上位382文字に含まれていることが期
待できる。本発明はこのような統計的な文字出現頻度の
偏りを利用するものであり、まず出現頻度最上位クラス
に属する文字集合のみを候補文字集合とし、良好な認識
結果が得られた場合に残りの低頻度文字集合の認識処理
を省くことで文字認識処理の速度の向上を図る。実際に
は、候補文字集合は複数の候補文字集合に分割され、頻
度順に認識処理が行われ、良好な結果が得られた集合よ
り低頻度の集合の認識処理を省略するようにプログラム
されている。
【0007】この発明は、さらに他の面において、前記
クラスしきい値より小さい距離が存在しないとき、2番
目に文字の出現頻度が高いクラスに属する複数の文字の
参照ベクトルに対する該特徴ベクトルの距離を算出し、
該クラスに対して定められた第2のクラスしきい値より
も小さい距離が存在するとき、該距離に対応する参照ベ
クトルの文字を文字候補として選択する。また、もう一
つの面によると、この発明のシステムは、前記参照ベク
トルのうちの1つについての距離計算においても速度を
向上させるために、全ての特徴に関する距離成分を累積
して距離値を求める過程を、n個の特徴成分を累積して
累積距離値を計算するものとし、(1)該累積距離値を
文字候補選択閾値と比較し、(2)該しきい値より大き
くなければ次のn個の特徴成分の距離成分を累積計算
し、(1)および(2)の手順を繰り返して累積距離値
が前記文字候補選択閾値を超えると、当該参照ベクトル
は候補外であると判断して次の参照ベクトルとの比較に
移ることにより処理時間の短縮を図る。さらにこの発明
によると、累積する距離成分の順番を変えることで、前
記累積距離値に基づく距離計算過程の省略を効率よく行
う。具体的には、全文字カテゴリの全訓練パターンを用
いて、各特徴に関する距離成分の分布を求め、その平均
値の高い順に距離成分の累積を行う。このような距離成
分の並べ替えとしては、全候補文字の参照ベクトルに対
して共通の並べ替えを行う方法と、各参照ベクトルごと
に、距離成分の分布平均の大きい順に並べ替えを行う方
法などがある。
【0008】参照ベクトルは、認識対象の全ての文字に
ついての訓練パターンから特徴ベクトルを抽出して、例
えば日本語については数百次元のベクトルとして作成さ
れる。全ての文字について各次元ごとに(つまり各特徴
ごとに)距離成分の分布を見ると、この距離成分の平均
が大きいことは、その次元の特徴は全体の距離値を大き
くするように寄与することを意味する。正解文字である
場合、距離値は小さくなることが期待されるので、この
ような次元の特徴は候補外であることを早期に判断する
のに有効な特徴であると言うことができる。したがっ
て、参照ベクトルを構成する全ての文字について次元ご
との距離成分の平均を予め訓練データから求め、この平
均値の大きい順に各参照ベクトルの特徴値を並べ替えた
ベクトルを作成する。そして入力パターンから抽出され
る特徴ベクトルも、この順に並べ替えたベクトルを作成
し、1つの参照ベクトルと特徴ベクトルとの距離計算に
おいて、距離成分の累積をこの順に行う。例えばまず、
50次元までの距離成分を累積した累積距離値を求め、
これでしきい値に達すれば、この参照ベクトルは候補外
文字であると判定して次の参照ベクトルとの比較に移
る。こうすることにより、数百次元全てについて距離成
分を計算することなく、認識処理を進めることができる
ので、認識処理の時間を短縮することができる。
【0009】さらにこの発明の一面によると、前記コン
ピュータは、m番目(mは、選択される文字候補の数)
に距離値の小さい文字候補の距離値を文字候補選択しき
い値として動的に設定するようプログラムされている。
また、この発明は、他の面によると、さらに任意の文字
について類似関係にある文字を規定する類似文字辞書を
備え、前記コンピュータは、複数の前記文字候補が選択
されることに応答して、前記類似文字辞書からそれぞれ
の文字候補に類似する文字を取り出し、認識すべき前記
特徴ベクトルと前記類似する文字の参照ベクトルとの距
離を計算し、前記複数の文字候補の距離値および前記類
似する文字の距離値をソートし、距離値が小さい方から
予め定めた数の文字を認識文字候補として選択するよう
プログラムされている。これにより、省略された低頻度
文字候補クラスに正解が存在する場合にも、類似文字と
して候補に含めなおすことが可能となり、認識精度の低
下を抑えることが可能となる。
【0010】
【発明の実施の形態】次に図面を参照して、この発明の
実施形態を説明する。図1は、この発明を利用する日本
語文字認識システムの1例の全体的構成を示す機能ブロ
ック図である。このシステムは、汎用のパーソナルコン
ピュータまたはワークステーションの上で走るプログラ
ムで実現される。一般にこのようなプログラムは、OC
R(Optical Character Recognition)プログラムと呼
ばれる。システムへの代表的な入力パターンは、文書を
光学的スキャナで走査して得られるイメージデータであ
る。入力パターンを受け取ると、OCRプログラムの文
字切り出し部11がビットマップ形式のデータから文字を
切り出す。文字の切り出し自体は、従来のOCRプログ
ラムに組み込まれている機能である。文字単位に切り出
されたイメージデータが特徴抽出部12に送られ、文字
線の傾き、幅、曲率、面積、その他の特徴(features)が
抽出される。この実施例では、日本語については一つの
文字あたり200の特徴を抽出する。したがって、入力パ
ターンは、次の式のような200次元のベクトルxで表さ
れ、特徴ベクトル(feature vector)と呼ばれる。
【0011】
【数1】x=(x1,x2,・・・,x200) こうして得られた特徴ベクトルが特徴の並べ替え部13に
送られて、後に説明する距離成分平均順リストにしたが
って特徴の並べ替えを行って新たなベクトルを生成し、
文字候補選択部14に送られ、参照文字辞書15に格納され
ている複数の既知の文字の参照ベクトルのそれぞれに対
する重み付ユークリッド距離が計算される。ここで図2
を参照して参照文字辞書15について説明する。ある一つ
の文字に対する参照ベクトルは、その文字の様々な書体
や大きさのイメージパターンについて特徴ベクトルを抽
出し、平均をとることによって得られる。このとき、特
徴値ごとの分散を算出し、その逆数を重み係数とする重
み付きユークリッド距離計算に使用する。
【0012】この手法自体は従来から使われている。認
識対象となるすべての文字について参照ベクトルおよび
重みベクトルを辞書23に格納する。こうして格納された
辞書23のすべての参照ベクトルにわたって、全ての訓
練パターンを用いて各特徴成分ごとに距離成分の平均を
求め、その大きい順に特徴の次元を並べ替えた距離成分
平均順特長リスト24を作る。辞書23に格納されたそ
れぞれの参照ベクトル、重みベクトルの各特徴成分は、
このリストに従って距離成分平均の大きい順に並べ替え
られる。距離成分平均が大きいことは、候補文字におい
てその特徴成分における距離成分値が大きくなることが
期待されるので、後に説明する距離計算においてこの距
離成分平均の大きい順に距離計算を実行する。この目的
のため、入力パターンから抽出された特徴ベクトルは、
特徴の並べ替え部13においてこの距離成分平均順特徴
リストに従ってその特徴成分が並べ替えられる。
【0013】図2のテキスト・コーパスは、社会一般で
使われる文書のテキスト形式化された集合であり、たと
えばオンラインニュースなどの情報源から文書を蓄積し
たものである。この文書の集合からそれぞれの文字の出
現頻度を算出し、出現頻度に応じて文字を3つのクラス
に分類する。発明者の観測によると、中国語、日本語お
よび韓国語は、各言語約2000万文字からなるテキス
トコーパスを利用して次の表のように分類することがで
きる。
【0014】
【表1】 すなわち、日本語について述べると、クラス1に分類さ
れる最も出現頻度の高い382の文字がテキスト・コーパ
スの80.01%を占め、これに次に出現頻度の高いクラス2
の1126文字を加えると、テキスト・コーパスの99.00%を
占める。さらにこれにクラス3に分類される出現頻度の
低い1459の文字を加えると、テキストコーパスを99.
96%カバーすることができる。これはJIS第2水準
まで入れると約6000文字程度存在する日本語の文字
認識システムを構築する上で、そのうちの2967文字
のみを対象としても高々0.04%の候補外文字が存在
するだけで実害が少ないことを意味する。また、対象と
する2967文字においてもかなりの統計的頻度の偏り
があることが分かる。これは中国語、韓国語についても
同様の観測が見られる。
【0015】この発明は、一実施形態において、このよ
うな観測に基づいて、参照ベクトルの辞書15に含まれる
参照ベクトルを表1に従って3つのクラスに分ける。入
力パターンの特徴ベクトルとの距離計算にあたっては、
まずクラス1の参照文字のそれぞれとの距離を求め、十
分距離の小さい、すなわち近似度が十分高い参照ベクト
ルが存在するときは、クラス1の参照ベクトルに対する
距離計算で認識処理を終了し、クラス2およびクラス3
の参照ベクトルに対する距離計算は行わない。この場
合、382の参照ベクトルとの距離計算で距離計算を終了
し、クラス2の1126の参照ベクトルおよびクラス3の14
59の参照ベクトルに対する距離計算を省略するので、そ
の特徴ベクトルについて実行する距離計算の時間を大幅
に短縮することができる。入力パターンの特徴ベクトル
とクラス1の382個の参照ベクトルとの距離計算の結
果、十分小さい距離値の参照ベクトルが存在しないとき
は、クラス2の1508個の参照ベクトルとの距離計算を実
行し、十分小さい距離値の参照ベクトルがあるときに
は、クラス2の参照ベクトルに対する距離計算で計算を
終了し、クラス3の参照ベクトルに対する距離計算は、
行わない。これによって、距離計算の時間を短縮するこ
とができる。
【0016】クラス2の文字まででテキスト・コーパス
の99%を占めるから、クラス1およびクラス2の参照ベ
クトルとの距離計算で適切な文字候補を見つけることが
できない文字は、所与のテキストに約1%存在すると期
待される。この約1%の入力パターンの特徴ベクトルにつ
いては、クラス1およびクラス2の参照ベクトルとの距
離計算を経てクラス3の参照ベクトルとの距離計算に入
る。こうしてクラス3の参照ベクトルのうち距離が小さ
いものが文字候補として選択される。このようにして文
字候補選択部14で文字候補が選択されると、プロセス
は、類似文字処理部16に移る。類似文字処理部16は、類
似文字辞書17を参照して文字認識の精度を向上させる。
類似文字辞書には、それぞれの文字について、文字認識
上混同しやすい文字のリストが用意されている。類似文
字処理部16は、文字候補選択部14から1つまたは複数の
文字候補を受け取ると、それぞれの文字候補について類
似文字辞書を参照して類似文字を読み出し、この類似文
字の参照ベクトルを参照ベクトル辞書15から読み出す。
【0017】入力パターンから抽出された特徴ベクトル
と複数の類似文字の参照ベクトルとの距離計算を実行
し、文字候補および類似文字を含めた集合の中で最も距
離値が小さい所定数の文字を最終的な文字候補として出
力する。ここで、最終的というのは、距離計算による文
字認識段階を終了することを意味する。実際の文字認識
プログラムでは、この後、一般に後処理と呼ばれるプロ
セスが実行される。後処理は、文脈の分析、連接関係の
分析、文字相互間の出現確立などに基づいて文字候補の
優先順位を決める処理である。後処理自体は、従来から
使われている技術なので、詳細な説明は省略する。
【0018】クラス1文字候補選択プロセス 次に図3を参照して、この発明の一実施例の文字認識シ
ステムのプロセスの流れを説明する。これはクラス1の
候補文字集合から10個の候補文字を選択するプロセス
である。スキャナによって文書を走査して得られる入力
パターンがこの発明の一実施例の文字認識プログラムに
渡されると(301)、文字切り出し部11(図1)におい
て、イメージデータから個々の文字領域が切り出され、
個々の文字領域について特徴抽出部12(図1)で前述し
たように特徴抽出が行われる(302)。こうして得られ
た特徴ベクトルは、特徴の並べ替え部13に送られ、図2
に関連して説明した距離成分平均順特徴リストにしたが
って特徴が並べ替えられる(303)。次に最初の10個
の参照ベクトルのそれぞれについて全次元にわたる10
個の距離値が算出され(304)、しきい値Thがこうして
得られた10個の距離値のうち最も大きい距離値にセッ
トされる(314)。距離値は、重み付ユークリッド距離
値を用い、下に示す数2において、j=1〜200として計算
される。ついで参照ベクトル辞書15から読み出すクラス
1参照ベクトルの番号iを11と、変数の初期値をk=
0、m=0に設定し(305)、距離計算に含める特徴ベ
クトルおよび参照ベクトルの次元j=m+50×k、と
して、mを1〜50まで変化させる(306)。こうして
参照ベクトルと特徴ベクトルとの次元1から50までの距
離Diが次の式によって計算される(307)。
【0019】
【数2】Di=Σwj(xj-rj2 (j=1〜50) ここで、wjは、図2の参照ベクトル辞書23に関連し
て説明したそれぞれの参照ベクトルにおける重みベクト
ルの各成分である。xjが入力パターンから得られる特徴
ベクトルの各成分を表し、rjが参照ベクトルの各成分
を表す。数2で得られる値の平方根をとった値が重み付
きユークリッド距離と呼ばれる距離値である。ここで
は、簡単のために平方根をとる前の値を重み付ユークリ
ッド距離の目安として使用し、距離と呼んでいる。参照
ベクトルとの距離Diがしきい値Thを超えるときは(32
1)、この参照ベクトルはこの特徴ベクトルに対する文字
候補として不合格と判定する。そのとき、ステップ312
でクラス1の382個のすべての参照ベクトルについて距
離の比較が終わったかどうか判定し、終わっていなけれ
ばiをインクリメントして次の参照ベクトルとの距離D
iの計算を行う(307)。参照ベクトルとの距離Diがし
きい値(Th)以下であると(321)、次元jが200に達したか
どうか点検し(308)、達していなければ、kをインク
リメントして(309)、jを次の51〜100次元の距離を求
める。こうして、j=51〜100について距離を計算して、
先にj=1〜50について計算した距離に加算し、j=1〜100
についての距離Diを算出する(307)。
【0020】この結果、DiがThを超えると、ステップ3
12を経てiをインクリメントし、次の参照ベクトルとの
比較に移る。DiがTh以下であれば、ステップ309を経て
さらに、kをインクリメントして、距離Di、すなわちj
=100〜150についての距離Diを算出する(307)。この
処理を繰り返してDiがTh以下の状態でj=200に達する
と、すなわちすべての次元を含めた距離Diがしきい値
以下であると、そのときの参照ベクトルに対応する文字
をシステムの出力の候補となる文字候補としてメモリに
記憶する(310)。このメモリには、プロセスの最初に
参照された10個の参照ベクトルの文字コードおよびそ
の距離値が記憶されている。新しい文字候補をこのメモ
リに入れるとともに先に記憶されている文字コードのう
ち最も距離値の大きい文字をメモリから削除する。こう
して、メモリには最も距離値が小さい順に10個の文字候
補が記憶されるようにする。そして、10個の文字候補の
距離値のうち、最も大きい値を新たなしきい値Thとして
設定する(311)。後続の参照ベクトルとの比較の結
果、新たな文字候補がメモリに渡されると、それまでに
メモリに記憶されていた10個の文字候補のうち最も距離
値の大きい文字候補がメモリから削除され、新たな文字
候補がメモリに追加される。そして新たな10個の文字
候補のうちの最大の距離値がしきい値Thとしてセットさ
れる。
【0021】このように文字候補の数が10個に達した
後は、ブロック307で判定に使われるしきい値は動的に
変更される。ブロック312においてi=382が満足され、す
なわちクラス1の参照ベクトルすべてについての距離計
算が終了すると、メモリに記憶された10個の文字候補の
距離値のうち最も小さい距離値Dbestがクラス1の文字
候補選択用に予め設定されたクラスしきい値Thstage1
りも小さいかどうか判定する(318)。Thstage1は、こ
の実施例ではたとえば120,000に設定する。この条件を
満足する文字候補があることは、クラス1における文字
候補選択処理において十分近似度の高い文字候補が得ら
れたことを意味する。したがって、この場合、メモリに
記憶された10個の文字候補を類似文字処理部16に渡し、
この入力パターンの特徴ベクトルについての文字候補選
択処理(14)を終了する。
【0022】クラス2文字候補選択プロセス ブロック318の条件が満足されないときは、クラス2の
参照ベクトルから文字候補を選択するプロセスに入る
(320)。図4を参照してクラス2の文字候補選択プロ
セスを説明する。いま日本語の文字認識を行っているの
で、参照ベクトル辞書15には、クラス2の参照ベクトル
として1126個の既知の文字に対する参照ベクトルおよび
重みベクトルが格納されている。クラス2の文字候補選
択プロセスに入ると、iを1、k=0、m=0に初期設
定し(502)、距離計算の対象となる特徴ベクトルおよ
び参照ベクトルの次元jをj=m+50×k、として、
mを1から50まで変化させ(503)、第i参照ベクトルと入
力パターンから抽出された特徴ベクトルとの距離値Di
の計算を実行する(504)。距離値Diがしきい値Thより
大きく(515)、かつi=1126に達していない時には(51
0)、iをインクリメントして(511)、次の参照ベクトル
に対する距離値の計算に移る。
【0023】距離値Diがしきい値Th以下であるとき
は、kをインクリメントして次の50次元、すなわちj=51
〜100として距離値を計算し、その値を先に求めたj=1〜
50についての距離値に加算してj=1〜100についての距離
値Diを求める(504)。距離値D iがThを超え、かつi
=1126に達していない時には(510)、iをインクリメ
ントして次の参照ベクトルとの距離値計算に移る(51
1)。DiがThを超えていないときは、kをインクリメン
トして、jを次の50次元にインクリメントし、前述した
のと同様のプロセスによりj=1〜150についての距離値D
iを求める(504)。このプロセスを繰り返し、DiがTh
を超えない状態でj=200に達すると(505)、この参照ベ
クトルに対応する文字コードをメモリに入れる(50
8)。メモリには先のクラス1の文字候補選択プロセス
で選ばれた文字候補が記憶されている。文字候補の数が
10個に達していれば、距離値が最も大きい文字候補を
メモリから削除し、新たな文字候補を加えて、文字候補
の数を10個に維持する。そして、10個の文字候補の
距離値のうち最も大きい距離値を新たなしきい値Thとす
る(509)。
【0024】その後は、参照ベクトルがブロック515の
テストを通り、メモリに入れられると(508)、上述し
たのと同様の文字候補の入れ替えが行われ、しきい値Th
が動的に変更される。ブロック510でi=1126が満足され
るとき、すなわちクラス2の1126個すべての参照ベクト
ルについて文字候補選択プロセスが実行されると、メモ
リに記憶された10個の文字候補の距離値のうち最小のも
のがクラス2のクラスしきい値Thstage2より小さいかど
うか判定され(512)、小さければ文字候補選択プロセ
ス(14)を終了して、この10個の文字候補を類似文字処理
部16(図1)に渡す。Th stage2は、この実施例ではた
とえばThstage1よりも大きい150,000に設定する。すな
わちクラス2のクラスしきい値は、クラス1のクラスし
きい値よりも緩いものにする。ブロック512の条件が満
足されないときは、クラス3の参照ベクトルに対する文
字候補選択プロセスに移る。
【0025】クラス3文字候補選択プロセス 図5は、クラス3の1459個の参照ベクトルに対する文字
候補選択プロセスを示す。ブロック602から610は、ブロ
ック610での判定がクラス3の参照ベクトルの数1459で
あることを除いて図4のブロック502から510と同じであ
る。したがって、これらのブロックの機能についての説
明は省略する。ブロックで610でi=1459が満足され、ク
ラス3の1459個すべての参照ベクトルについて文字候補
選択プロセスが終了すると、文字候補選択処理を終わ
り、メモリに記憶された10個の文字候補を類似文字処理
部16に渡す。このとき、メモリに蓄積された文字候補の
数が10個に満たないときは、そのすべての文字候補を
類似文字処理部16に渡す。
【0026】類似文字処理 次に図6を参照して類似文字処理のプロセスを説明す
る。図1の類似文字処理部16は、文字候補選択部14から
10個の文字候補を受け取ると、それぞれの文字候補につ
いて類似文字辞書を参照し、類似文字を読み出す(4
1)。この類似文字の参照ベクトルおよび重みベクトル
を参照ベクトル辞書15から読み出して、入力パターンか
ら抽出された特徴ベクトルとの距離値を算出する(4
2)。読み出したすべての類似文字について重み付ユー
クリッド距離値を算出した後、10個の文字候補およびこ
れらの類似文字の距離値をソートして距離値が小さい順
に10個の文字を選ぶ(43)。
【0027】こうして得られた10個の最終候補のうち距
離値が最小のものを認識文字として出力し、残りの9個
の文字を代替候補として出力する。ここでは、文字候補
の選択を既知の文字についての参照ベクトルとの比較だ
けに基づいて行っているが、文字候補選択の途中の段
階、あるいは文字候補の選択が完了した段階で、テキス
トの文法的解析、単語の連接関係、文字相互間の依存関
係などに基づいて文字候補の優先度を変更する、いわゆ
る後処理と呼ばれる処理を実行することが好ましい。O
CRプログラムの出力としてユーザにはこうして得られ
た最高位の優先度の文字の集合としてテキストが提示さ
れる。ユーザは、テキストの文脈からOCR出力に認識
誤りを見つけることがある。この場合、ユーザがエラー
文字をクリックすると、プルダウンの形態で9個の代替
文字が表示され、ユーザがそのうちの一つをクリックす
ると、その文字がエラー文字を置き換える。以上にこの
発明を特定の実施例について説明したが、この発明は、
このような実施例に限定されるものではない。
【図面の簡単な説明】
【図1】この発明の一実施例の文字認識システムの全体
的な構成を示す機能ブロック図である。
【図2】この発明の一実施例で使用する辞書の概念を説
明するためのブロック図である。
【図3】クラス1の参照ベクトルから文字候補を選択す
るプロセスを示すフローチャートである。
【図4】クラス2の参照ベクトルから文字候補を選択す
るプロセスを示すフローチャートである。
【図5】クラス3の参照ベクトルから文字候補を選択す
るプロセスを示すフローチャートである。
【図6】類似文字処理のプロセスを示すフローチャート
である。
【符号の説明】
10 文字切り出し部 12 特徴抽出部 13 特徴の並べ替え部 14 文字候補選択部 15 参照ベクトル辞書 16 類似文字処理部 17 類似文字辞書

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】入力パターンから得られる特徴ベクトル
    と、予め格納されている既知の文字の参照ベクトルとの
    距離を比較して文字認識を行う文字認識システムであっ
    て、 前記既知の文字の出現頻度に基づいてすべての文字を複
    数のクラスに分類し、該クラスごとに前記参照ベクトル
    を格納する辞書記憶装置およびコンピュータを備え、前
    記コンピュータは、前記特徴ベクトルと前記複数のクラ
    スのうち最も文字の出現頻度の高いクラスに属する複数
    の文字の前記参照ベクトルとの距離を算出し、該クラス
    に対して定められたクラスしきい値よりも小さい距離が
    存在するとき、該距離に対応する参照ベクトルの文字を
    文字候補として選択するようプログラムされている、文
    字認識システム。
  2. 【請求項2】請求項1に記載のシステムであって、前記
    コンピュータは、前記クラスしきい値より小さい距離が
    存在しないとき、2番目に文字の出現頻度が高いクラス
    に属する複数の文字の参照ベクトルに対する該特徴ベク
    トルの距離を算出し、該クラスに対して定められた第2
    のクラスしきい値よりも小さい距離が存在するとき、該
    距離に対応する参照ベクトルの文字を文字候補として選
    択するようプログラムされている、前記システム。
  3. 【請求項3】請求項1に記載のシステムであって、多数
    の参照ベクトルの特徴の距離平均値の大きさ順を示すリ
    ストを備え、前記コンピュータは、前記入力パターンか
    ら得られる特徴ベクトルの特徴を前記リストに従って距
    離平均値の大きい順に並べ替えた後、まずn番目の特徴
    までについて前記参照ベクトルのうちの1つについてそ
    の対応する特徴との距離を計算し、(1)該距離を文字候
    補選択しきい値と比較し、(2)該しきい値より大きくな
    ければ次のn個の特徴を含めた距離を計算し、(1)およ
    び(2)の手順を繰り返して距離が前記文字候補選択しき
    い値を超えると、次の参照ベクトルとの比較に移るよう
    プログラムされている、前記システム。
  4. 【請求項4】請求項3に記載のシステムであって、前記
    コンピュータは、全特徴に基づく距離値が前記文字候補
    選択しきい値を超えないとき、比較対象となった参照ベ
    クトルに対応する文字を文字候補としてメモリに記憶す
    るようプログラムされている、前記システム。
  5. 【請求項5】請求項4に記載のシステムであって、前記
    コンピュータは、m番目に小さい距離値の文字候補の距
    離値を文字候補選択しきい値として動的に設定するよう
    プログラムされており、mは、選択される文字候補の数
    である、前記システム。
  6. 【請求項6】請求項5に記載のシステムであって、前記
    コンピュータは、前記最も文字の出現頻度の高いクラス
    に属するすべての参照ベクトルに対する前記特徴ベクト
    ルの距離の計算が完了したとき、これらの距離の1つま
    たは複数が該クラスに対して定められたしきい値より小
    さいとき、小さい方から前記m番目までの距離の参照ベ
    クトルに対応するm個の文字を文字候補として選択する
    ようプログラムされている、前記システム。
  7. 【請求項7】請求項1に記載されるシステムであって、
    さらに任意の文字について類似関係にある文字を規定す
    る類似文字辞書を備え、前記コンピュータは、複数の前
    記文字候補が選択されることに応答して、前記類似文字
    辞書からそれぞれの文字候補に類似する文字を取り出
    し、認識すべき前記特徴ベクトルと前記類似する文字の
    参照ベクトルとの距離を計算し、前記複数の文字候補の
    距離値および前記類似する文字の距離値をソートし、距
    離値が最も小さい予め定めた数の文字を認識文字候補と
    して選択するようプログラムされている、前記システ
    ム。
  8. 【請求項8】請求項2に記載のシステムであって、前記
    コンピュータは、前記2番目に文字の出現頻度が高いク
    ラスに対するクラスしきい値より小さい距離が存在しな
    いとき、3番目に文字の出現頻度が高いクラスに属する
    複数の文字の参照ベクトルに対する該特徴ベクトルの距
    離を算出し、該クラスに対して定められたクラスしきい
    値よりも小さい距離が存在するとき、該距離に対応する
    参照ベクトルの文字を文字候補として選択するようプロ
    グラムされている、前記システム。
  9. 【請求項9】請求項2に記載されるシステムであって、
    さらに任意の文字について類似関係にある文字を規定す
    る類似文字辞書を備え、前記コンピュータは、複数の前
    記文字候補が選択されることに応答して、前記類似文字
    辞書からそれぞれの文字候補に類似する文字を取り出
    し、認識すべき前記特徴ベクトルと前記類似する文字の
    参照ベクトルとの距離を計算し、前記複数の文字候補の
    距離値および前記類似する文字の距離値をソートし、距
    離値が最も小さい予め定めた数の文字を認識文字候補と
    して出力するようプログラムされている、前記システ
    ム。
  10. 【請求項10】入力文字のパターンから得られる特徴ベ
    クトルと、予め格納されている既知の文字のパターンの
    参照ベクトルとの距離を比較して文字認識を行う文字認
    識システムであって、前記既知の文字の参照ベクトルの
    特徴の距離平均値を実質的にすべての文字にわたって求
    めて作成された距離平均値の大きい順を表す情報ととも
    に前記参照ベクトルを格納する辞書記憶装置およびコン
    ピュータを備え、 前記コンピュータは、入力文字の前記特徴ベクトルと複
    数の前記参照ベクトルのそれぞれとの距離を算出し、算
    出された距離値のうち比較的小さい距離値をしきい値と
    して設定し、次の参照ベクトルと前記特徴ベクトルとの
    距離を予め決められた途中の次元まで計算し、その次元
    における距離値が前記しきい値を超えるときは、該参照
    ベクトルに対する距離計算を停止し、次の参照ベクトル
    に対する距離計算に移るようプログラムされている、文
    字認識システム。
  11. 【請求項11】請求項10に記載のシステムであって、
    前記コンピュータは、前記途中の次元における距離値が
    前記しきい値を超えないときは、第2の途中の次元まで
    距離値を計算し、該第2の途中の次元における距離値が
    前記しきい値を超えるときは、該参照ベクトルに対する
    距離計算を停止し、次の参照ベクトルに対する距離計算
    に移る前記システム。
  12. 【請求項12】入力文字のパターンから得られる特徴ベ
    クトルと、予め格納されている既知の文字のパターンの
    参照ベクトルとの距離を比較して文字認識を行う文字認
    識システムであって、 前記既知の文字の出現頻度に基づいてすべての文字を複
    数のクラスに分類し、この分類情報とともに前記参照ベ
    クトルを格納する辞書記憶装置と、 入力文字の前記特徴ベクトルと前記複数のクラスのうち
    最も文字の出現頻度の高いクラスに属する複数の文字の
    前記参照ベクトルとの距離を算出する距離算出手段と、 前記最も文字の出現頻度の高いクラスに属する1つまた
    は複数の文字について前記距離算出手段により算出され
    る距離が所定のしきい値よりも小さいとき、該最も文字
    出現頻度の高いクラスに属する文字の参照ベクトルとの
    距離計算に基づいて文字候補を選択する選択手段と、 を備える文字認識システム。
  13. 【請求項13】既知の文字の出現頻度に基づいてすべて
    の文字を複数のクラスに分類し、該クラスごとに前記参
    照ベクトルを格納する辞書記憶装置を備えるコンピュー
    タを使用して、入力パターンから得られる特徴ベクトル
    と、予め格納されている既知の文字のパターンの参照ベ
    クトルとの距離を比較して文字認識を行う文字認識方法
    であって、次の(a)および(b)のステップを含む方
    法: (a)前記特徴ベクトルと前記複数のクラスのうち最も
    文字の出現頻度の高いクラスに属する複数の文字の前記
    参照ベクトルとの距離を算出する、(b)該クラスに対
    して定められたクラスしきい値よりも小さい距離が存在
    するとき、該距離に対応する参照ベクトルの文字を文字
    候補として選択する。
  14. 【請求項14】請求項13に記載の方法であって、次の
    (a)および(b)のステップを含む方法: (a)前記クラスしきい値より小さい距離が存在しない
    とき、2番目に文字の出現頻度が高いクラスに属する複
    数の文字の参照ベクトルに対する該特徴ベクトルの距離
    を算出するステップ、(b)該クラスに対して定められ
    た第2のクラスしきい値よりも小さい距離が存在すると
    き、該距離に対応する参照ベクトルの文字を文字候補と
    して選択するステップ。
  15. 【請求項15】請求項13に記載の方法であって、多数
    の参照ベクトルの特徴の距離平均値の大きさ順を示すリ
    ストを利用し、次の(a)および(b)のステップを含
    む方法: (a)前記入力パターンから得られる特徴ベクトルの特
    徴を前記リストに従って距離平均値の大きい順に並べ替
    えた後、まずn番目の特徴までについて前記参照ベクト
    ルのうちの1つについてその対応する特徴との距離を計
    算するステップ、(b)次の(b−1)および(b−2)の手
    順を繰り返して距離が前記文字候補選択しきい値を超え
    ると、次の参照ベクトルとの比較に移るステップ; (b−1)該距離を文字候補選択しきい値と比較する、(b
    −2)該しきい値より大きくなければ次のn個の特徴を含
    めた距離を計算する。
  16. 【請求項16】請求項15に記載の方法であって、すべ
    ての特徴を含めた距離が前記文字候補選択しきい値を超
    えないとき、比較対象となった前記参照ベクトルに対応
    する文字を文字候補としてメモリに記憶する。
  17. 【請求項17】請求項16に記載の方法であって、m番
    目に距離値の小さい文字候補の距離値を文字候補選択し
    きい値として動的に設定するステップを含み、mは出力
    される文字候補の数である。
  18. 【請求項18】請求項17に記載の方法において:前記
    最も文字の出現頻度の高いクラスに属するすべての参照
    ベクトルに対する前記特徴ベクトルの距離の計算が完了
    したとき、これらの距離の1つまたは複数が該クラスに
    対して定められたしきい値より小さいとき、小さい方か
    ら前記m番目までの距離の参照ベクトルに対応するm個
    の文字を文字候補として選択する。
  19. 【請求項19】請求項13に記載される方法であって、
    さらに任意の文字について類似関係にある文字を規定す
    る類似文字辞書を利用し、次の(a)から(d)のステ
    ップを含む: (a)複数の前記文字候補が選択されることに応答し
    て、前記類似文字辞書からそれぞれの文字候補に類似す
    る文字を取り出すステップ、(b)認識すべき前記特徴
    ベクトルと前記類似する文字の参照ベクトルとの距離を
    計算するステップ、(c)前記複数の文字候補の距離値
    および前記類似する文字の距離値をソートするステッ
    プ、(d)距離値が最も小さい予め定めた数の文字を認
    識文字候補として出力するステップ。
  20. 【請求項20】請求項14に記載の方法であって、次の
    ステップを含む: (a)前記2番目に文字の出現頻度が高いクラスに対す
    るクラスしきい値より小さい距離が存在しないとき、3
    番目に文字の出現頻度が高いクラスに属する複数の文字
    の参照ベクトルに対する該特徴ベクトルの距離を算出す
    る、(b)該クラスに対して定められたクラスしきい値
    よりも小さい距離が存在するとき、該距離に対応する参
    照ベクトルの文字を文字候補として選択する。
  21. 【請求項21】請求項14に記載される方法であって、
    さらに任意の文字について類似関係にある文字を規定す
    る類似文字辞書を利用し、次のステップを含む: (a)複数の前記文字候補が選択されることに応答し
    て、前記類似文字辞書からそれぞれの文字候補に類似す
    る文字を取り出し、認識すべき前記特徴ベクトルと前記
    類似する文字の参照ベクトルとの距離を計算する、
    (b)前記複数の文字候補の距離値および前記類似する
    文字の距離値をソートし、距離値が最も小さい予め定め
    た数の文字を認識文字候補として出力する。
  22. 【請求項22】既知の文字の出現頻度に基づいてすべて
    の文字を複数のクラスに分類し、該クラスごとに前記参
    照ベクトルを格納する辞書、および次のステップを実行
    するコンピュータ・プログラムを格納するコンピュータ
    読み取り可能な記憶媒体: (a)入力パターンから抽出される特徴ベクトルと前記
    複数のクラスのうち最も文字の出現頻度の高いクラスに
    属する複数の文字の前記参照ベクトルとの距離値を算出
    するステップ; および(b)前記最も文字の出現頻度
    の高いクラスに対して定められたクラスしきい値よりも
    小さい距離値が存在するとき、該距離値をもつ参照ベク
    トルの文字を文字候補として選択するステップ。
  23. 【請求項23】請求項22に記載される媒体であって、
    前記プログラムは、次のステップを含む: (a)前記クラスしきい値より小さい距離が存在しない
    とき、2番目に文字の出現頻度が高いクラスに属する複
    数の文字の参照ベクトルに対する該特徴ベクトルの距離
    を算出するステップ;および(b)該クラスに対して定
    められた第2のクラスしきい値よりも小さい距離が存在
    するとき、該距離に対応する参照ベクトルの文字を文字
    候補として選択するステップ。
  24. 【請求項24】請求項22に記載される媒体であって、
    多数の参照ベクトルの特徴の距離平均値の大きさ順を示
    すリストを含み、前記プログラムは、次のステップを含
    む: (a)前記入力パターンから得られる特徴ベクトルの特
    徴を前記リストに従って距離平均値の大きい順に並べ替
    えた後、まずn番目の特徴までについて前記参照ベクト
    ルのうちの1つについてその対応する特徴との距離を計
    算するステップ、(b)次の(b−1)および(b−2)の手
    順を繰り返して距離が前記文字候補選択しきい値を超え
    ると、次の参照ベクトルとの比較に移るステップ; (b−1)該距離を文字候補選択しきい値と比較する、(b
    −2)該しきい値より大きくなければ次のn個の特徴を含
    めた距離を計算する。
JP2000262096A 2000-08-31 2000-08-31 文字認識システム Expired - Fee Related JP4674778B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2000262096A JP4674778B2 (ja) 2000-08-31 2000-08-31 文字認識システム
CNB018026621A CN100501764C (zh) 2000-08-31 2001-08-30 字符识别系统及方法
PCT/US2001/026927 WO2002019248A2 (en) 2000-08-31 2001-08-30 Character recognition system
DE60128706T DE60128706T2 (de) 2000-08-31 2001-08-30 Zeichenerkennungssystem
KR1020027005587A KR100843504B1 (ko) 2000-08-31 2001-08-30 문자 인식 시스템
EP01968239A EP1314129B1 (en) 2000-08-31 2001-08-30 Character recognition system
TW090121484A TW540007B (en) 2000-08-31 2001-08-30 Character recognition system
US10/128,773 US7254269B2 (en) 2000-08-31 2002-04-19 Character recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000262096A JP4674778B2 (ja) 2000-08-31 2000-08-31 文字認識システム

Publications (2)

Publication Number Publication Date
JP2002074268A true JP2002074268A (ja) 2002-03-15
JP4674778B2 JP4674778B2 (ja) 2011-04-20

Family

ID=18749827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000262096A Expired - Fee Related JP4674778B2 (ja) 2000-08-31 2000-08-31 文字認識システム

Country Status (7)

Country Link
EP (1) EP1314129B1 (ja)
JP (1) JP4674778B2 (ja)
KR (1) KR100843504B1 (ja)
CN (1) CN100501764C (ja)
DE (1) DE60128706T2 (ja)
TW (1) TW540007B (ja)
WO (1) WO2002019248A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188190A (ja) * 2006-01-11 2007-07-26 Sharp Corp パターン認識装置、パターン認識方法、パターン認識プログラム、および記録媒体
JP5621777B2 (ja) * 2009-09-24 2014-11-12 日本電気株式会社 単語認識装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体並びに発送物区分装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1305003C (zh) 2003-09-29 2007-03-14 摩托罗拉公司 用户界面上的书写标记识别
CN1619583B (zh) * 2003-11-20 2010-05-05 摩托罗拉公司 手写识别的方法和系统
CN1308889C (zh) * 2003-11-28 2007-04-04 佳能株式会社 字符识别方法和装置
CN101645134B (zh) * 2005-07-29 2013-01-02 富士通株式会社 整体地名识别方法和整体地名识别装置
KR100641791B1 (ko) 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템
JP5239419B2 (ja) * 2008-03-14 2013-07-17 オムロン株式会社 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造
KR100921689B1 (ko) * 2008-05-08 2009-10-15 엔에이치엔(주) 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체
CN101593278B (zh) * 2008-05-27 2013-01-16 佳能株式会社 文档图像的语言判别方法和系统
CN102129560B (zh) * 2010-01-18 2013-11-06 富士通株式会社 字符识别的方法和设备
JP6003492B2 (ja) * 2012-10-01 2016-10-05 富士ゼロックス株式会社 文字認識装置及びプログラム
CN103761477A (zh) * 2014-01-07 2014-04-30 北京奇虎科技有限公司 一种病毒程序样本的获取方法和设备
CN106557766B (zh) * 2016-11-22 2020-05-19 宇龙计算机通信科技(深圳)有限公司 模糊字符处理方法、系统及电子设备
KR20200010777A (ko) * 2018-07-23 2020-01-31 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 유사 문자의 과거 인식 결과를 이용하는 문자 인식
CN111507400B (zh) * 2020-04-16 2023-10-31 腾讯科技(深圳)有限公司 应用分类方法、装置、电子设备以及存储介质
CN111783766B (zh) * 2020-07-10 2023-02-14 上海淇毓信息科技有限公司 一种分步识别图像字符的方法、装置和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4589142A (en) * 1983-12-28 1986-05-13 International Business Machines Corp. (Ibm) Method and apparatus for character recognition based upon the frequency of occurrence of said characters
JPS6282486A (ja) 1985-10-08 1987-04-15 Hitachi Ltd オンライン手書き図形認識装置
US4773099A (en) 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
EP0498978A1 (en) 1991-02-13 1992-08-19 International Business Machines Corporation Mechanical recognition of characters in cursive script
US5479523A (en) * 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets
JP2986074B2 (ja) 1995-07-26 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 近傍点検出方法及びパターン認識装置
US6345119B1 (en) * 1996-02-19 2002-02-05 Fujitsu Limited Handwritten character recognition apparatus and method using a clustering algorithm
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JPH10143613A (ja) * 1996-10-30 1998-05-29 Hewlett Packard Co <Hp> パタン認識方法
SG98366A1 (en) * 1997-07-11 2003-09-19 Matsushita Electric Ind Co Ltd Recording medium of character data of full text and character string collating apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188190A (ja) * 2006-01-11 2007-07-26 Sharp Corp パターン認識装置、パターン認識方法、パターン認識プログラム、および記録媒体
JP5621777B2 (ja) * 2009-09-24 2014-11-12 日本電気株式会社 単語認識装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体並びに発送物区分装置

Also Published As

Publication number Publication date
KR20020081210A (ko) 2002-10-26
EP1314129B1 (en) 2007-05-30
CN100501764C (zh) 2009-06-17
TW540007B (en) 2003-07-01
JP4674778B2 (ja) 2011-04-20
KR100843504B1 (ko) 2008-07-04
EP1314129A2 (en) 2003-05-28
WO2002019248A2 (en) 2002-03-07
WO2002019248A3 (en) 2002-05-16
EP1314129A4 (en) 2005-06-01
DE60128706T2 (de) 2008-01-24
DE60128706D1 (de) 2007-07-12
WO2002019248A9 (en) 2002-07-11
CN1388947A (zh) 2003-01-01

Similar Documents

Publication Publication Date Title
US7254269B2 (en) Character recognition system
JP4674778B2 (ja) 文字認識システム
US20180137349A1 (en) System and method of character recognition using fully convolutional neural networks
US6442555B1 (en) Automatic categorization of documents using document signatures
US6291785B1 (en) Address reader, sorting machine such as a mail thing and character string recognition method
KR101312770B1 (ko) 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템
US7283669B2 (en) Fine segmentation refinement for an optical character recognition system
US20050286772A1 (en) Multiple classifier system with voting arbitration
US5862259A (en) Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US6834121B2 (en) Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
US20040146200A1 (en) Segmenting touching characters in an optical character recognition system to provide multiple segmentations
JP4802176B2 (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
Wang et al. A study on the document zone content classification problem
JP2986074B2 (ja) 近傍点検出方法及びパターン認識装置
US20040042666A1 (en) Sequential classifier for use in pattern recognition system
JPH06223121A (ja) 情報検索装置
JP2002183667A (ja) 文字認識装置及び記録媒体
JP2002099555A (ja) 文書分類装置及び文書分類方法
JP4215385B2 (ja) パターン認識装置、パターン認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3374762B2 (ja) 文字認識方法及びその装置
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム
JP4199954B2 (ja) 文字認識辞書作成方法及び文字認識方法
JP2571236B2 (ja) 文字切出し識別判定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070831

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071220

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110119

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110120

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees