JP2726656B2 - パターン認識方式に使用するパターン分類手段 - Google Patents

パターン認識方式に使用するパターン分類手段

Info

Publication number
JP2726656B2
JP2726656B2 JP61240219A JP24021986A JP2726656B2 JP 2726656 B2 JP2726656 B2 JP 2726656B2 JP 61240219 A JP61240219 A JP 61240219A JP 24021986 A JP24021986 A JP 24021986A JP 2726656 B2 JP2726656 B2 JP 2726656B2
Authority
JP
Japan
Prior art keywords
character
unknown
certainty
pattern
ring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61240219A
Other languages
English (en)
Other versions
JPS63265376A (ja
Inventor
アール.ボクサー ミンディー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PARANCHIIRU CORP ZA
Original Assignee
PARANCHIIRU CORP ZA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=25137404&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2726656(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by PARANCHIIRU CORP ZA filed Critical PARANCHIIRU CORP ZA
Publication of JPS63265376A publication Critical patent/JPS63265376A/ja
Application granted granted Critical
Publication of JP2726656B2 publication Critical patent/JP2726656B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 本発明は文字等のパターン認識方式に関するものであ
って、更に詳細にはこの様なパターン認識装置に使用す
るのに特に適したパターン分類技術に関するものであ
る。 多様なパターン認識方式が従来公知である。この様な
各方式では、認識されるべきパターンを表すデータを光
学的に受け取り、且つその入力パターンを「認識」する
為にそれを既知のパターンと比較すべくこのパターンに
関して或る作業を実行する。パターン認識方式を示した
基本的なフローチャートを第1図に示してある。入力パ
ターンは認識することを所望するパターンである。デジ
タイザ12は入力パターン11をシステムメモリ13内に格納
する為に一連のバイトへ変換させる。これらのバイトは
通常性質的に二進数であり、入力パターン11は基本的に
は黒と白の図であるという事実を反映している。デジタ
イザは公知であり、通常、例えばファクシミリ装置、電
子複写装置(光学的複写装置に対して)及び従来技術の
光学的文字認識方式等の装置において使用されている。
メモリ13は任意の適宜のメモリ装置を有することが可能
であり、例えば公知の構成のランダムアクセスメモリ等
を有する。セグメンテーション14はメモリ13内に格納さ
れた画像データを個別的な文字へ分割する機能を有して
いる。この様なセグメンテーションは従来公知であり、
且つ、例えば、Ariel RosenfeldとAvinash C.Kak共著の
「デジタル画像処理(Digital Picture Processin
g)」、第2版、第2巻、アカデミックプレス出版社、1
982年、特に「セグメンテーション(Segmentation)」
と題した第10章に記載されている。 特徴抽出部15は、セグメンテーション14から受けとら
れたデータの各部分(即ち、各文字)を識別手段16よっ
て使用する為に標準の予め定めた形態に変換させ、該識
別手段16が各文字を既知の組の文字の1つとして識別す
る。出力手段17は、所望により、外部回路(不図示)へ
データ出力(通常、ASCII等)を提供すべく機能する。 識別手段16は、通常パターン認識方式において使用さ
れる多数の従来の識別手段の何れか1つとすることが可
能であり、例えば、更に詳細には、光学的文字認識方式
とすることが可能である。本発明に基づいて使用するの
に適したこの様な識別手段の1つとしては、Toddに対し
て1981年3月31日に発行された米国特許第4,259,661号
「パターン認識装置及び方法(Apparatus and Method f
or Recognizing a Pattern)」に記載されている。識別
手段16は又K.S.Fu著の「統語的パターン認識及び適用
(Syntactic Pattern Recognition and Application
s)」、プレンティスホールインコーポレイテッド、198
2年、特にセクション1.6及びアペンディックスA及びB
に記載されている。 本発明は光学的文字認識方式に使用する識別手段16と
して使用する方法及び装置に関するものであるから、本
明細書は、従来技術の説明を含めて、識別乃至は認識手
段16に関係している。然し乍ら、理解すべきことである
が、本発明は文字以外のパターンを認識するパターン認
識方式に使用する場合にも同様に適用可能であり、又数
学的に表すことの可能な任意の情報を認識する為に使用
される方式にも適用可能であることは勿論である。 従来技術の識別技術はマトリクスオーバーレイ(matr
ix overlay)技術を使用しており、その場合、未知の文
字の各ビットを定義する画素を包含する特徴ベクトル
が、例えば、排他的オア操作によって、既知の基準文字
内の画素を定義する特徴ベクトルと比較される。これ
は、一連の既知の基準文字に対して順番に行われ、且つ
未知の文字と或る1つの基準文字との間に最小数のマッ
チしない画素を発生させる排他的オア操作の結果が該未
知の文字をその基準文字として認識させる。 別の従来の分類技術は、所謂「決定ツリー(decision
tree)」技術である。この技術においては、一連の関
連性のある質問が出されて且つ認識されるべき入力パタ
ーンを定義する入力データによってその質問に対する解
答が出される。これらの質問に対する種々の解答の結果
は、決定ツリーとなり、それは、多数の分岐の後に、該
入力パターンの識別となる。 本発明は、以上の点に鑑みなされたものであって、上
述した如き従来技術の欠点を解消し、認識率が高く高速
の認識を可能とするパターン認識方式を提供することを
目的とし、特にパターン認識方式に使用するのに特に適
した入力データの分類等の処理を行う方式を提供するこ
とを目的とする。 本発明に拠れば、パターン又は文字等の未知の入力デ
ータを識別する独得の方法が提供される。未知の入力文
字を分類する為に、最初に、予備処理期間中に、多数の
基準(乃至は参照)データを収集し且つ解析して各クラ
ス(種類)の入力データに対して「リング状クラスタ
(環状一群)」を形成する。例えば、入力データが文字
である場合、1組のリング状クラスタは、例えば全ての
「e」の如く、単一の文字クラスと関連している。これ
らのリング状クラスタは、後に未知の入力文字を分類す
る場合に使用する為に、形成される。 本発明の1実施例においては、与えられたクラスの全
てのデータは単一の粗いリング状クラスタと関連してい
るように粗いリング状クラスタを使用する。後に、未知
の入力データの分類の期間中に、これらの粗いリング状
クラスタを使用して、該未知の入力データがその粗いリ
ング状クラスタ内に入らない場合には、可能性のある基
準データを未知の入力データとして除去する。 本発明の別の実施例においては、与えられたクラスの
全てのデータが1組の中間リング状クラスタの集まりに
該当する様に、各クラスの基準データに対して1組の中
間リング状クラスタを使用する。1組の中間リング状ク
ラスタを使用することによって、より少ない「エイリア
ン(即ち、該中間リング状クラスタと関連する選択した
データ以外のデータのこと)」が該リング状クラスタに
含まれることとなり、その際に未知の入力文字を正確に
認識する能力を向上させている。 本発明の別の実施例は微細リング状クラスタを使用
し、その中には各与えられた基準データクラスの微細リ
ング状クラスタの集まりの中に含まれる既知のエイリア
ンは存在しない。このことは、未知のデータ入力文字を
分類する上でより大きな精度とすることを可能とする。 本発明の別の特徴である、リング状クラスタ(ringed
cluster)は、「確実性範囲(certainty spheres)」
を有しており、それは未知の入力文字がこの様な確実性
範囲の中に存在している場合に、それを確実性を持って
識別する為に使用される。本発明の別の特徴として、リ
ング状クラスタは、更に、「信頼性範囲(confidence s
phere)」を有しており、それは、確実性を持ってでは
無いが、未知の入力文字を識別し、且つ、この未知の文
字は該リング状クラスタの基準データクラスに対応する
ことの可能性に関連する相対的な信頼性を示す信頼性の
値を割り当てる為に使用される。 以下、添付の図面を参考に、本発明の具体的実施の態
様に付いて詳細に説明する。 本発明に拠れば、文字分類(character classificati
on)は基本的に2つのステップからなる操作によって実
行される。最初に、分類されるべき入力データを受け取
る前に、基準データが入力され且つ解析されて、基準デ
ータ特徴ベクトル及び関連する境界からなる複数個の
「リング状クラスタ」を包含するデータベースを形成す
る。このデータベースは、光学的文字認識の期間中に、
受けとられる未知の文字を分類する為に使用される。 理解すべきことであるが、本発明は、入力される文字
を定義する特徴ベクトル内に包含される正確な情報及び
フォーマットに無関係に使用することが可能である。 尚、本明細書はかなりの長さであるから、以下の如き
題目に従って説明を行うこととする。 目次 A.基準データの収集 A.1単一文字基準組 A.2不良セグメント基準組 A.3基準データの予備処理 A.3.1エイリアン距離、不良セグメント距離の計算 B.予備処理中の基準データ特徴ベクトルのクラスタリン
グ B.1確実性範囲 B.2信頼性範囲 B.3信頼性環形 B.4可能性範囲 B.5クラスタのタイプ B.6微細リング状クラスタ発生技術 B.7中間リング状クラスタ発生技術 B.7.1中間手段の選択 B.7.2可能性半径の計算 B.8粗いリング状クラスタ発生技術 平均 確実性境界 可能性半径 B.9クラスタ後処理 B.9.1信頼性境界の設定 B.9.2粗い可能性境界の設定 B.9.3中間可能性境界の設定 C.基準データの予備処理後の未知入力文字の分類 C.1可能性組の計算 C.1.1クイックチェック C.1.2文字候補リストの取得 C.1.3初期的パス C.1.3.1文字フィルタ C.1.3.1.1粗いフィルタ C.1.3.1.2中間フィルタ C.1.3.1.2.1最良誤差及び 「非常に可能性あり」フラッグをアップデート C.1.3.1.2.2新たな信頼性を計算 C.1.42番目のパス C.1.4.1微細解析操作 C.1.5可能性組を不確実性とされる C.1.6不良セグメントチェック C.1.7付加的な不良セグメントチェック技術 C.1.7.1フォント従属不良セグメントチェック C.1.7.2単純合同チェック操作 C.1.7.2.1ランドマーク値の設定 C.1.7.2.1.1フォント従属方法 C.1.7.2.1.2フォント独立方法 C.1.7.3決定的合同チェック技術 基準データの収集 「基準(又は参照)」は、後述する如く、以下のフィ
ールドを有するデータ構成である。 1.特徴ベクトル 2.ラベル 3.エイリアン距離 4.不良セグメント距離 単一文字基準組 基準ベクトルのファイルを使用して「リング状クラス
タ」を発生し、それは未知の入力文字の分類中に使用さ
れる。 これらの基準ベクトルを形成する為に、認識すること
を所望する単一文字(1/2や%等の文字を含む)を包含
するフォントシートをデジタル化し、且つ第1図に関し
て前述した如く、セグメント化する。各セグメントのラ
ベルフィールドは、該セグメントによって表される文字
のASCII値に設定される。次いで、各セグメントは特徴
抽出モジュール(第1図)によって解析され、且つその
結果得られる特徴ベクトルに、ラベルフィールド、エイ
リアン距離フィールド、及び不良セグメント距離フィー
ルドを付加することによって基準ベクトル(以下、単に
「基準」ともいう)へ変換させる。この段階において、
各基準の特徴ベクトルフィールド及びラベルフィールド
のみが充填される。本明細書においては、Rはこの様な
全ての単一文字基準ベクトルの組のことを意味してい
る。 本発明方法は、未知の入力文字を分類する為に未知の
入力文字の特徴ベクトル内に含まれる情報を使用するの
で、「特徴ベクトル」の中に含まれる情報に基づいて互
いに区別不能の文字クラスに対応する基準ベクトルは更
に処理される。1実施例において、サブライン(sublin
e)情報は特徴ベクトル内に含まれておらず、従って、
例えば、「c」と「C」は区別不能のクラスと考えら
れ、この様な付加的な処理は以下の如くに行われる。 各組の区別不能なクラスに対して、新たな「包括的」
なクラスが定義され、且つ区別不能なクラスの1つに属
する全ての基準はその新たなクラスとして再度ラベルが
付される。例えば、「c」又は「C」とラベルを付され
た全ての基準は新たなクラス「包括的c」として再度ラ
ベルが付される。分類中に、未知の入力文字が「包括的
c」として分類されると、文字候補「包括的c」は2つ
の文字候補「c」及び「C」と置換される。これら2つ
の文字候補のどちらが未知の入力文字に対して正しいラ
ベルであるかの決定は、特徴ベクトル内の情報以外の情
報を使用する後処理モジュールによってなされる。1実
施例においては、この様なモジュールは、サブライン情
報を使用するサブラインチェッカー乃至はサブライン検
査器、及びその選択を行う為に隣接する文字及び英語
(又はその他の関心のある言語)の知識を使用する文脈
ポストプロセサ乃至は文脈後処理器を有している。 或る程度の区別不能な構成要素を持っているが一般的
には区別不能ではないクラスも更に処理される。例え
ば、「I」、「1」、「1」は時々単に垂直なバーとし
て印字される。この場合、新たな「包括的垂直バー」ク
ラスが定義される。視覚的には垂直なバー以外のなにも
のにも見えない様な基準文字はこの新たな幾何学的クラ
スとして再度ラベルが付される。エイリアン距離(後述
する)を計算する場合、特定の「包括的」クラスとして
再度ラベルを付された基準を包含する文字クラスに属す
る基準ベクトルはエイリアンとはされない。例えば、
「I」、「1」、「1」は「包括的垂直バー」のエイリ
アンとはされない。 分類中に、未知の入力文字が特定の「包括的」クラス
として分類されると、この「包括的」クラスはその「包
括的」クラスとして再度ラベルが付された基準が存在し
ていた文字候補と置換される。例えば、未知の文字が
「包括的垂直バー」として分類される場合、これは候補
「I」、「1」、「1」と置換される。次いで、これら
の候補は、前述した如く、その他の後処理モジュールへ
送られる。 不良セグメント基準組 未知の入力文字を分類することに加えて、本発明の1
実施例の分類方法は、又、未知の入力文字が、実際に
は、単一の適切にセグメント化された文字ではない(即
ち、「不良」)ことを認識すべく構成されている。例え
ば、未知の入力文字は、実際には、2つ又はそれ以上の
文字が合体された文字(「合同」)である場合がある。
「不良」セグメントの認識を行う為に、「不良」セグメ
ントから形成された基準を包含する第2基準が形成され
る。好適には、選択された不良セグメント基準は、本発
明の分類器へ最も普通に入力されることが予測されるも
のである。 1実施例においては、分類器へ入力される不良セグメ
ントは2つの文字が合同即ち合体されたものであること
が最も多い。不良セグメント基準組は、文字対即ち「ダ
イグラフ(二重母音活字)」を包含して形成される。こ
のことは、英語における最も普通の文字対を包含するフ
ォントシートを収集することによって達成される。次い
で、これらのシートをデジタル化させ、ダイグラフを分
解しないセグメンテーション手段でセグメント化し、ラ
ベルを付し、且つ特徴を抽出する。その結果得られるラ
ベルを付した特徴ベクトルは基準ベクトルへ変換され
る。本明細書においては、Bはこの様な不良セグメント
基準の組を示している。 基準データの予備処理 単一文字基準組R内の各基準に対して、残りの2つの
充填していないフィールド:即ち、エイリアン距離及び
不良セグメント距離に対して値を計算する。 第2a図は、複数個の基準文字特徴ベクトルを概念的に
示している。これらの特徴ベクトルはドット即ち点で示
してあり且つ単一の特定の文字(又は、「包括的」文
字)を定義する特徴ベクトルを表している。換言する
と、第2図中の全てのドットは、例えば基準データ内に
含まれている小文字「e」を表す全ての特徴ベクトルの
如く、同一のクラスに属する基準文字の特徴ベクトルを
表している。対照的に、全ての非e文字は第2図中にお
いてXとして表されており、それらは「エイリアン」と
呼称される。即ち、2つの基準r及びr2のラベルが等し
くない場合には、これらはエイリアンである。 エイリアン距離、不良セグメント距離の計算 1つの基準に対するエイリアン距離はその基準から最
も近いエイリアンへの距離である。本明細書において
は、2つの特徴ベクトルの間の「距離」はユークリッド
距離の二乗であり且つ以下の式によって定義される。 尚、=ベクトル<v1,v2,・・,vn> =ベクトル<w1,w2,・・,wn> エイリアン距離は以下の式によって定義される。 エイリアン距離(r0)=min({r|r∈R∪B and r.la
bel≠r0.label}) 尚、 r=距離(r0.vector,r.vector)、 r0∈R、 R=単一文字基準組、 B=不良セグメント基準組。 或る1つの基準に対する不良セグメント距離は、その
基準から最も近い不良セグメント基準ベクトルへの距離
であり、且つ以下の式で定義される。 不良セグメント距離(r0)=min({r|r∈B}) 尚、 r=距離(r0.vector,r.vector)、 r0∈R、 R=単一文字基準組、 B=不良セグメント基準組。 R内の各基準のエイリアン距離及び不良セグメント距
離が計算され、且つクラスタリング即ちクラスタ形成の
前に、夫々、エイリアン距離フィールド及び不良セグメ
ント距離フィールド内に格納される。 予備処理中の基準データ特徴ベクトルのクラスタリング 「リング状クラスタ」(第3a図)は以下のフィールド
を有するデータ構成である。 a.平均 基準特徴ベクトルの1つから選択され、クラ
スタの中心における特徴ベクトル。 b.ラベル リング状クラスタによって表される文字のAS
CII値。 c.エイリアン距離 クラスタの平均に対応するエイリア
ン距離。確実性境界を確立する為に使用。 d.不良セグメント距離 クラスタの平均に対応する不良
セグメント距離。 e.可能性境界 可能性範囲の半径。 f.信頼性境界 信頼性範囲の半径。 g.確実性境界 確実性範囲の半径。 h.確実性半径 分類中は不使用。信頼性境界を設定する
のに使用。 i.可能性半径 分類中は不使用。可能性境界を設定する
のに使用。 各リング状クラスタには3つのスフィア(sphere)即
ち範囲(信頼性範囲、可能性範囲、確実性範囲)及びn
次元特徴ベクトル空間内に存在する信頼性アニュラス
(annulus)即ち環形が対応しており、これらは第3b図
乃至第3e図に示してある。 確実性範囲 「確実性範囲」(第3b図)はn次元(球状)範囲であ
り、その中心はリング状クラスタの平均であり、且つそ
の半径はリング状クラスタの確実性境界を画定してい
る。即ち、特徴ベクトルは、距離(,平均)<確実
性境界である場合には、確実性範囲内に存在する。 確実性範囲は、後に、未知の文字の分類中に使用さ
れ、その場合に、未知の入力文字特徴ベクトルがリング
状クラスタの確実性範囲内に存在している場合には、入
力特徴ベクトルは、リング状クラスタのラベルを使用し
て「確実性を持って」分類される。そのように入力特徴
ベクトルを分類する為の正当性は以下の如くである。即
ち、そのリング状クラスタに対する確実性境界は、その
リング状クラスタの平均と関連するエイリアン距離より
も低い値に設定され、従って確実性範囲内にはエイリア
ン基準ベクトルは存在しない。 信頼性範囲 「信頼性範囲」(第3c図)は、その中心がリング状ク
ラスタの平均であり且つその半径がリング状クラスタの
信頼性境界であるスフィア即ち(球状)範囲で画定して
いる。 信頼性環形 「信頼性環形」(第3c図)は、信頼性範囲の内側で確
実性範囲の外側に存在する全ての特徴ベクトルの組であ
る。即ち、特徴ベクトルは、確実性境界≦距離(,
平均)<信頼性境界、である場合、信頼性環形内に存在
する。信頼性環形は未知の文字の分類中に次の如くに使
用される。即ち、未知の入力文字特徴ベクトルがラベル
xを有するリング状クラスタの信頼性環形内に存在する
場合には、文字xは候補文字(未知の文字と等しい可能
性のある文字)とされ且つ信頼性の値はそれを関連して
いる。 可能性範囲 「可能性範囲」(第3d図)は、その中心がリング状ク
ラスタの平均であり且つその半径がリング状クラスタの
可能性境界である範囲を画定している。即ち、特徴ベク
トルは、距離(,平均)<可能性境界である場合
に、可能性範囲内に存在している。可能性範囲は、後に
更に詳述する態様で、候補性から文字を除去する為に、
未知の文字の分類中に使用される。 クラスタのタイプ クラスタリング動作中に、前述した基準の組Rを使用
して3つのタイプのリング状クラスタを発生させる。 微細リング状クラスタ、 中間リング状クラスタ、 粗いリング状クラスタ。 本明細書においては、粗いリング状クラスタに対応す
る可能性範囲は「粗い可能性範囲(coarse possibiliy
sphere)」と呼ばれる。 粗いリング状クラスタは以下の重要な特性を持ってい
る。 1.文字当り1つの粗いリング状クラスタがある。 2.各文字xに対して、対応する粗い可能性範囲はラベル
xを有する全ての基準ベクトルの組をカバーする。 本明細書においては、組V内の全てのベクトルが範
囲S内に存在する場合に、範囲Sは特徴ベクトルの組V
を「カバー」しているという。即ち、 距離(,)<r全ての∈Vに対して、 尚、 は範囲Sの中心、 rは範囲Sの半径。 この事実は以下の如くにして未知の文字の分類におい
て使用される。未知の入力文字特徴ベクトルが文字xに
対応する粗い可能性範囲の外側に存在している場合に
は、文字xは文字候補とならずに除去される。即ち、粗
い可能性範囲は候補を迅速にフィルタする為に使用され
る。 中間リング状クラスタは以下の重要な特性を持ってい
る。 1.各文字に対して、小さな数の対応する中間リング状ク
ラスタがある。 2.各文字xに対して、対応する組の中間可能性範囲は、
ラベルxを有する全ての基準ベクトルの組をカバーす
る。 本明細書においては、組V内の全てのベクトルが該
範囲の少なくとも1つの中に存在する場合には、範囲の
組は特徴ベクトルの組Vを「カバー」する。中間可能性
範囲は、以下の如くして、未知の文字の分類中に使用さ
れる。即ち、入力ベクトルが文字xに対応する全ての
間可能性範囲の外側に存在している場合に、文字xは文
字候補とならずに取り除かれる。即ち、中間可能性範囲
は候補を迅速にフィルタする為に使用される。(然し乍
ら、粗い可能性範囲程迅速ではない)。 微細リング状クラスタは以下の重要な特性を持ってい
る。 1.各文字に対して、比較的多数の微細リング状クラスタ
がある。 2.各文字xに対して、文字xに対応する微細確実性範囲
の組はラベルxを有する全ての基準ベクトルの組をカバ
ーし、即ちラベルxを有する全ての基準ベクトルは文字
xに対応する少なくとも1つの微細確実性範囲内に存在
している。 3.既知のエイリアンは何れの微細リング状クラスタの何
れの確実性範囲内にも含まれていない。 多量の基準データの予備処理中の基準データ特徴ベク
トルのクラスタリングに対する3つの技術に付いて説明
する。 微細リング状クラスタ発生技術 微細リング状クラスタ発生技術の目的は、基準組Rか
ら取得される知識を使用して、文字特徴ベクトルを「マ
ップ(map)」することである。各文字に対して、n次
元特徴ベクトル空間内の微細確実性範囲の組が割り当て
られる。これらの確実性範囲の集まりは文字の「テリト
リー」即ち領域と呼称される。第2a図を参照すると、実
線の円は与えられた文字に対する微細確実性範囲を表し
ている。前述した如く、ドットは与えられた文字として
ラベルを付された基準特徴ベクトルを表しており、xは
エイリアンとしてラベルを付けられた基準特徴ベクトル
を表している。 微細リング状クラスタ発生技術は、以下の目的でこれ
らの微細確実性範囲を形成する。 a.与えられた文字のテリトリーをマップする為に使用さ
れる確実性範囲の数は、メモリ条件を緩和させ且つ未知
の文字の分類を高速化させる為に、可及的に小さくす
る。 b.2番目の目的は、与えられた文字に対応するテリトリ
ーは何等エイリアン特徴ベクトルを包含していないとい
うことである。然し乍ら、この目的を達成する為の唯一
の方法は、全ての可能な文字特徴ベクトルを有する基準
組を持つことを必要とする。一般的に、異なった可能な
文字特徴ベクトルの数は、全ての実際的な目的の為に
は、無限となるので、この様な全てを包含する基準組を
持つということは実際的ではない。例えば、1実施例に
おいては、特徴ベクトルは56フィールドを有しており、
且つ各フィールドは128の異なった可能な値の何れかを
持つことが可能であり、従って12856の異なった可能な
特徴ベクトルが存在している。微細リング状クラスタ発
生技術は、与えられた文字のテリトリー内には既知のエ
イリアン特徴ベクトルが存在しないことを保証すること
によってこの目的を満足させることを試みる。第2a図を
参照すると、xは全ての既知のエイリアン特徴ベクトル
を表しており、それは基準組R及びBにおける全てのエ
イリアン特徴ベクトルである。与えられた文字の「テリ
トリー」を形成する確実性範囲の何れの中にも既知のエ
イリアンは存在しない。更に、第2a図中に示した如く、
各確実性範囲(確実性境界)の半径は、該範囲の中心か
らその最も近い既知のエイリアンへの距離よりも幾分
さな値に設定される。これに対する理由は、基準組R及
びBは全てを包含するものではないという事実を考慮す
ることである。エイリアン特徴ベクトルが最も近い既知
のエイリアン特徴ベクトルよりも確実性範囲の中心へよ
り近く存在することが可能である。従って、2番目の目
的は、確実性境界=(確実性係数)・(エイリアン距
離)の方程式によって、各微細リング状クラスタの確実
性境界(確実性範囲の半径)を設定することによって近
似される。尚、ここで、確実性係数は1未満の或る正の
数であり、且つエイリアン距離は微細リング状クラスタ
の平均(その確実性範囲の中心)からその最も近い既知
のエイリアンへの距離である。本発明の1実施例におい
ては、確実性係数の値は表1によって設定される。 表1 エイリアン距離 確実性係数 10,000以上 0.7 5,000−9,999 0.6 5,000未満 0.5 c.微細リング状クラスタ発生技術の第3の目的は、与え
られた文字に割り当てられたテリトリーはその文字に対
しての全ての可能な特徴ベクトルをカバーするというこ
とである。この第3の目的が存在する理由は、その分類
に与える影響にある。分類の期間中、未知の入力特徴ベ
クトルが与えられた文字のテリトリー内に存在すること
は判別すると直ぐ、未知の入力文字はその文字として分
類され、且つその入力文字に対する分類は完了する。従
って、上述したこの第3の目的と第2の目的の両方が達
成されると、任意の未知の入力文字の正しい分類は常に
保証される。例えば、微細リング状クラスタ発生技術
が、小文字「e」に対する全ての可能な特徴ベクトルが
「e」のテリトリーの内側に入り(第3の目的)且つ
小文字「e」特徴ベクトルもエイリアンのテリトリー
の内側には入らない(第2の目的)様な方法でテリトリ
ーを割り当てることに成功し、且つ、分類の期間中に、
小文字「e」を表す特徴ベクトルが分類モジュールに入
力されると、それは「e」テリトリー内に存在している
ことが判明し且つ正確に分類が行われる。 上述した第2の目的に関して説明した如く、この第3
の目的を達成することは実際的ではない。何故ならば、
そうすることは、全ての可能な文字特徴ベクトルを含む
基準組を必要とするからである。然し乍ら、この第3の
目的は、基準組Rを使用して近似される。即ち、微細リ
ング状クラスタ発生技術によって与えられた文字に割り
当てられたテリトリーは、その与えられた文字に対して
全ての既知の(即ち、基準)特徴ベクトルを包含してい
る。第2a図を参照すると、ドットで表されている与えら
れた文字に対する全ての基準特徴ベクトルは、与えられ
た文字のテリトリーを形成する確実性範囲の少なくとも
1つの中に含まれる。従って、特に、何れかの基準特徴
ベクトルが分類モジュールに入力されると、正しい分類
が保証される。 基準組Rは全ての基準ベクトルを包含するものではな
いので、例えば、「e」テリトリー内に含まれない
「e」特徴ベクトルが存在する可能性がある。この様な
入力特徴ベクトルの正しい分類は、その特徴ベクトルが
「e」の信頼性範囲の1つの中に入る場合には、未だ可
能性がある。リング状クラスタに対応する信頼性範囲
は、一般的に、その確実性範囲よりも大きい。微細信頼
性境界(微細信頼性範囲の半径)に対する値は、クラス
タ後処理段階の期間中に設定される。 一般的に、次いで、分類に先立つ特徴ベクトル空間の
「マッピング」の目的は以下の通りである。 a.分類精度の増加 b.分類速度の増加 c.例えば、最も近い隣の分類方法と比較して必要とされ
るメモリ量の減少。 本発明の1実施例において使用される基準組を使用する
最も近い隣の分類方法は、未知の入力文字を分類するの
に約4,000倍長くかかることがあり、且つ約50倍もメモ
リを余計に必要とする。 分類中に使用される微細リング状クラスタのフィール
ドは、平均、ラベル、確実性境界、信頼性境界である。
1実施例においては、エイリアン距離及び不良セグメン
ト距離のフィールドも、分類中に使用される。この実施
例においては、エイリアン距離は、信頼性の値を設定す
ることを助ける為に使用される。不良セグメント距離
は、未知の入力文字が「不良」であるか否かを判別する
上での手助けとなる為に使用される。 このクラスタリング技術によって設定される微細リン
グ状クラスタのフィールドは、 平均、 ラベル、 確実性境界、 エイリアン距離、 不良セグメント距離、 確実性半径、 である。信頼性境界フィールドに対する値は、エイリア
ン距離、不良セグメント距離、及び確実性半径フィール
ドからの情報を使用して、後述するクラスタ後処理段階
の期間中に設定される。 第4図は、微細リング状クラスタ発生技術の操作を示
したフローチャートである。第4図に示した如く、この
クラスタリング技術は、文字毎に、全ての基準データを
介して処理される。例えば、最初の文字「A」が選択さ
れ、選択した文字に対して微細リング状クラスタが形成
され、次の文字が選択され、その微細リング状クラスタ
が形成され、等々である。 第4図に示した如く、各文字に対して微細リング状ク
ラスタを形成する為に、最初に、選択した文字に対する
全ての基準をファイルからフェッチしスクラッチパッド
メモリ内に配置させる。次いで、これらのベクトルの各
々のステータスは、「非保護」状態に初期化される。微
細リング状クラスタ発生技術は関連して使用される如
く、保護されているベクトルは、微細リング状クラスタ
の確実性範囲内に存在するベクトルであり、即ち距離
(ベクトル、平均)<(確実性係数)(エイリアン距
離)である。 微細リング状クラスタ発生技術は次のステップは、第
5図を参照して後に更に詳細に説明する如く、新たな微
細リング状クラスタを形成することである。 次のステップは、その新たに形成された微細リング状
クラスタによって保護されている全てのベクトルに対し
てステータスフラッグを「保護」状態にセットすること
である。次いで、選択した文字に対しての全ての基準ベ
クトルが保護されているか否かが決定される。もしそう
ならば、クラスタはcmassを減少させることによって類
分けされ、且つ格納される。微細リング状クラスタのcm
assは、その微細リング状クラスタの確実性範囲の内側
に存在する選択した文字に対する基準特徴ベクトルの全
数である。cmassを減少させることにより微細リング状
クラスタを類分けする目的は、入力ベクトルが確実性範
囲内に存在することが判別するや否や、その入力ベクト
ルに対する分類は完了するので、分類を高速化させる為
である。従って、最大のcmassを有する確実性範囲は、
入力ベクトルを含む最高の蓋然性を持っており、且つ分
類の期間中に最初に検査される。選択した文字に対する
微細リング状クラスタの形成は今や完了し、且つ次の文
字が選択され且つその微細リング状クラスタが形成され
る。逆に、選択した文字に対する全ての基準ベクトルが
「保護」されていないと、第4図に示した操作が継続さ
れ、該選択された文字に対して付加的な微細リング状ク
ラスタを形成する。 微細リング状クラスタの形成 第5図は、次の微細リング状クラスタを形成する操作
を示したフローチャートである。最初のステップは、キ
ング(king即ち国王)候補のリストを作成することであ
り、それは第6図を参照して更に詳述する。本明細書に
おいては、キング候補は、新たな微細リング状クラスタ
の平均として使用することが可能であるかもしれない基
準ベクトルである。次に、各キング候補に対応するキン
グダム(kingdom即ち王国)マス(mass即ち集まり)を
計算する。キングダムマスは、キング候補によって保護
される未だ保護されていないベクトルの数である。注意
すべきことであるが、微細リング状クラスタの平均によ
って保護される基準ベクトルの数をカウントするcmas
sは、キングダムマスと同一ではない。キングダムマス
は、既に形成されている微細リング状クラスタの平均に
よって保護されているキングによって保護されている基
準ベクトルをカウントしない。次に、そのキングが、最
大の対応するキングダムマスを有するキング候補として
選択される。次いで、そのベクトルがキングとして選択
された基準を使用して、新たな微細リング状クラスタの
フィールドを充填し、平均、エイリアン距離、不良セグ
メント距離、及びラベルはこの基準から新たな微細リン
グ状クラスタヘコピーされる。確実性境界は、前述した
如く、確実性境界=(確実性係数)(エイリアン距離)
の式によって設定される。確実性半径は以下の如くに設
定される。 1.新たに形成した微細リング状クラスタの確実性範囲の
内側に入る与えられた文字に対する全ての基準ベクトル
の組を形成する。 2.この様な基準ベクトルの各々への平均からの距離を計
算する。 3.確実性半径の値をこの様な距離の最大に設定する。 分類中は使用されないが、確実性半径フィールドは、
クラスタ後処理段階の期間中に使用されて、信頼性境界
に対する値を設定する。 キング候補のリスト作成 第6図は、キング候補のリストを作成する操作をより
詳細に示したフローチャートである。この操作は以下の
如き概略の形態を取る。 キング1→キングダム1→キング2→キングダム2→
キング3・・・・ 即ち、キングが与えられると、それに対応するキング
ダムを計算する。第6図の理解を助ける為に、以下の定
義を与える。 キング→キングダム キングが与えられると、それに対応するキングダム
は、キングによって保護される未だ保護されていない
準ベクトル全ての組、即ち 距離(ベクトル、キング)<(信頼性係数)(エイリ
アン距離) である。キングダム内の基準ベクトルの数は、前述した
如く、キングダムマスである。 キングダム→キング キングダムは以下のプロセスによってキングを「選
択」する。最初に、キングダム内のベクトルのベクトル
平均は次式によって計算される。 尚、 は12、..,kの組のベクトル平均、 [i]はベクトルのi番目要素である。 ベクトル平均を計算した後に、キングダムの各構成要素
からベクトル平均迄の距離を計算する。キングダムによ
って「選択」されるキングは、ベクトル平均に最も近い
キングダムの構成要素として定義される。 第6図を再度参照すると、キング候補のリストを作成
する操作は以下の如く進行する。最初のキング候補が最
も安全な非保護の基準ベクトル、即ちそのエイリアン距
離が可及的に大きな非保護基準ベクトルへ設定される。
次いで、このキング候補はキング候補のリストへ付加さ
れる。次に、キング候補に対応するキングダムが計算さ
れる(前述した如く)。キング候補の数が或る予め設定
した限界に到達すると、キング候補のリストを形成する
操作が完了し、第5図のキング候補のリスト作成操作へ
のリターン即ち復帰がなされる。1実施例においては、
予め設定される限界は20に等しい。キング候補の数が未
だ予め設定した限界より下であると、新たなキング候補
が今形成されたキングダムによって「選択」されたキン
グとして選択される。新たに選択されたキング候補が最
後のキング候補と同一であると、キング候補のリストを
作成する操作は完了する。そうでない場合には、新たに
選択されたキング候補をキング候補のリストへ付加する
ステップから開始して繰り返し操作が継続される。 中間リング状クラスタ発生技術 第2a図のものと同様な態様で、第2b図は複数個の基準
特徴ベクトルを示している。ドットで表されている特徴
ベクトルは、単一の特定の文字を定義する特徴ベクトル
を表しており、且つXによって表わされる全ての特徴ベ
クトルはエイリアンである。第2b図には、更に、与えら
れた文字に対して6つの中間リング状クラスタに対応す
る6つの可能性範囲を示してある。この可能性範囲は、
選択した文字に対しての全ての特徴ベクトルを含んでお
り、且つ最小数のエイリアンを含んでいる。 中間リング状クラスタ発生技術の目的は、基準データ
内に含まれている基準文字(例えば、全ての小文字
「e」)の各クラスに対して、小さな組の中間リング状
クラスタを構成することである。本発明の1実施例にお
いては、任意の所望数を使用することが可能ではある
が、6つの中間リング状クラスタが適切な数であると決
定されている。中間リング状クラスタの発生技術は、各
文字に対して、小さな組のリング状クラスタを構成し、
その可能性範囲は、選択した文字の全ての基準特徴ベク
トルは該可能性範囲の少なくとも1つの内側に存在する
という特性を持っている。然し乍ら、前述した微細リン
グ状クラスタ発生技術によって形成された確実性範囲と
異なり、中間リング状クラスタ発生技術によって形成さ
れた可能性範囲はエイリアン空間とオーバーラップする
ことが可能であり、その際にエイリアンを含むことがあ
る。然し乍ら、この中間リング状クラスタ発生技術は、
このエイリアン空間のオーバーラップを最小とする様に
構成されており、その際に形成される可能性範囲内に含
まれるエイリアンの数を最小としている。 分類の期間中に使用される中間リング状クラスタのフ
ィールドは以下の通りである。 平均 ラベル 確実性境界 信頼性境界 可能性境界 微細リング状クラスタに関して前述した如く、エイリ
アン距離及び不良セグメント距離も、1実施例において
は、分類期間中に使用される。 中間リング状クラスタ(中間可能性範囲の半径)の可
能性境界に対する値は、この中間リング状クラスタ発生
技術によっては設定されないが、可能性境界の値は、可
能性半径の値を使用して、クラスタ後処理段階の期間中
に設定される。各中間リング状クラスタの可能性半径に
対する値は、この中間リング状クラスタ発生技術によっ
て設定される。後に更に詳細に説明する如く、中間平均
が選択された後に、選択された文字に対する各基準ベク
トルは中間平均の1つに割り当てられ、中間平均に対応
する可能性半径はその中間平均に割り当てられた基準ベ
クトルの全てを含む中間平均を中心とする最小範囲の半
径に設定される。この様に、選択された文字に対しての
中間「厳格」可能性範囲の組は、その選択した文字に対
する全ての基準ベクトルの組をカバーする様に構成され
ている。本明細書においては、中間又は粗いリング状ク
ラスタに対応する「厳格」可能性範囲は、その中心がリ
ング状クラスタの平均であり且つその半径がそのリング
状クラスタの可能性半径である範囲である。一般的に、
基準組Rは全ての基準ベクトルを包含するものではない
という事実を考慮する為に、中間又は粗いリング状クラ
スタの可能性境界は、クラスタ後処理段階の期間中に、
その可能性半径よりも多少高い値に設定される。 従って、分類中に使用される可能性範囲は、この中間
リング状クラスタ発生技術によって発生される「厳格」
可能性範囲よりも多少大きい。 中間可能性範囲は、未知の文字の分類期間中に、使用
されて、候補をフィルタする。何故ならば、未知の文字
特徴ベクトルが選択した候補に対する中間リング状クラ
スタに関連する可能性範囲の全ての外側に存在している
と、その選択した候補が未知の文字であることは不可能
だからである。 注意すべきことであるが、微細リング状クラスタの如
く、中間リング状クラスタは、確実性境界フィールド及
び信頼性境界フィールドに対しての値を持っている。分
類中に、中間リング状クラスタは又微細リング状クラス
タの機能も行い、それらを使用して未知の入力特徴ベク
トルを確実性を持って分類するか、又は信頼性の値を割
り当てることが可能である。 本発明の1実施例においては、この基準データの予備
処理期間中の計算時間を最小とし且つ微細平均、中間平
均、及び粗い平均を格納するのに必要なメモリ量を最小
とする為に、中間平均は既に形成された微細平均の組か
ら選択する。この場合、フィールド、エイリアン距離、
不良セグメント距離、平均、ラベル、信頼性境界、及び
信頼性半径は、対応する微細リング状クラスタから中間
リング状クラスタへコピーされる。可能性半径は、この
中間リング状クラスタ発生技術によって計算され、且つ
可能性境界はクラスタ後処理段階中に充填される。 第7図は、中間リング状クラスタ発生技術を示したフ
ローチャートである。中間リング状クラスタ発生技術の
間、各文字はその中間リング状クラスタを順番に発生さ
せる。従って、初期的には、その中間リング状クラスタ
を発生させるべき第1文字が選択される。選択された文
字に対する全ての基準ベクトルは、基準データファイル
からメモリ内にロードされる。次に、選択した文字に対
する全ての微細リング状クラスタが、微細クラスタ発生
操作の間に以前に発生されたデータファイルからメモリ
内にロードされる。次に、第8図を参照して以下により
詳細に説明する如く、中間平均が選択される。前述した
如く、各選択された中間平均は、その選択された文字に
対して既に存在する微細リング状クラスタの平均として
選択される。前に説明した如く、本発明の1実施例にお
いては、高々6つのこの様な中間平均が各選択された文
字に対して選択される。次に、可能性半径が計算され、
この場合、第9図を参照して更に詳細に説明する如く、
各中間平均に対して1つの可能性半径が計算される。信
頼性半径、エイリアン距離、及び不良セグメント距離等
の付加的なデータは、関連する微細リング状クラスタか
らの中間リング状クラスタを形成するデータ構成体内に
コピーされる。選択した文字に対してこの様にして形成
された中間リング状クラスタは後に使用する為にデータ
ファイル内に格納される。中間リング状クラスタとして
再度割り当てられた微細リング状クラスタは、微細リン
グ状クラスタのファイルから削除される。中間リング状
クラスタの形成を必要とする更なる文字が存在する場
合、次の文字が選択され、且つこの操作は、新たに選択
された文字を表す基準データ組内に含まれる全ての特徴
ベクトルをロードするステップで開始して、繰り返し動
作を行う。 中間平均の選択 中間「厳格」可能性範囲が与えられると、第2b図に示
した如く、その「エイリアンオーバラップ」は以下の如
く定義される。 エイリアンオーバーラップ=可能性半径−エイリアン
距離 尚、可能性半径は、「厳格」可能性範囲の半径であり、
且つエイリアン距離は「厳格」可能性範囲からその最も
近いエイリアンへの距離である。可能性半径が、エイリ
アン距離より小さい場合には、「厳格」可能性範囲に対
するエイリアンオーバーラップは0として定義される。 中間平均を選択する操作は多数の反復を必要とする。
与えられた反復の間に、「許容されたエイリアンオーバ
ーラップ」に対して値が設定される。以下の特性を有す
る小さな組の「厳格」可能性範囲を探し出す試みがなさ
れる。 1)「厳格」可能性範囲は選択された文字に対して全て
の基準ベクトルの空間をカバーする。 2)各「厳格」可能性範囲のエイリアンオーバーラップ
は、許容されたエイリアンオーバーラップに対する現在
の反復において設定された値を越えることはない。 選択された文字に対する基準ベクトルは、与えられた
反復の間、以下の条件を満足する場合に中間平均候補に
よって保護されているという。即ち、 距離(平均、ベクトル)<エイリアン距離+許容された
エイリアンオーバーラップ 尚、エイリアン距離は、平均からその最も近いエイリア
ン迄の距離である。注意すべきことであるが、この中間
リング状クラスタ発生技術に関連して使用される「保
護」の定義は、微細リング状クラスタ発生技術に関連し
て使用される「保護」の定義と類似しているが、同一で
はない。 第8図は、中間平均を選択するのに使用するのに適し
たアルゴリズムを示したフローチャートである。初期的
に、選択された中間平均の数を0へ初期化させる。次
に、選択された文字を表す基準データ組の中に含まれる
全ての特徴ベクトルを「非保護」状態に初期化させる。
許容されたエイリアンオーバーラップ距離を0と等しく
設定する。 第8図に示した如く、未だ中間平均として再割り当て
(即ち、コピー)されていない選択された文字に対する
全ての微細平均を包含して候補の組を確立する各中間平
均候補の、即ち今形成した候補の組内に含まれる各微細
平均のマス(mass)を計算する。この中間リング状クラ
スタ発生技術に関連して使用される如く、中間平均候補
のマス(mass)とは、その中間平均候補によって保護さ
れるであろう選択された文字に対する未だ非保護即ち保
護されていない基準ベクトルの数のことである。このマ
スの定義は、微細リング状クラスタ発生技術に関連して
使用されるキングダムマスの定義と異なるが、それは単
に保護」の基本的な定義が異なっているのみである。 各中間平均候補のマスを計算した後に、次の中間平均
が最大のマスを持った中間平均候補として選択される。
この次の中間平均を選択すると、この新たな中間平均に
よって保護されている全ての基準特徴ベクトルは「プロ
テクト(保護)」された状態へアップデートされる。選
択された文字に対しての全ての基準特徴ベクトルが保護
されると、選択した中間平均操作の動作が完了し、第7
図の中間リング状クラスタ操作へのリターン即ち復帰が
なされる。逆に、保護されるべき基準ベクトルが残って
おり、且つその様に選択された中間平均の数が、例えば
6よりも小さいと、中間平均選択操作は、候補組を未だ
中間平均として再割り当てされていない全ての微細平均
の組と等しく設定するステップから初めて反復する。一
方、選択された中間平均の数が6より小さくないと、最
大エイリアンオーバーラップが例えば5,000よりも小さ
いか否かが決定される。5,00よりも小さい場合には、最
大エイリアンオーバーラップは、例えば1,000だけイン
クリメントされ、且つ中間平均選択操作は、選択された
中間平均の数を0と等しく設定するステップから初めて
反復される。この様に、新たに形成された中間「厳格」
可能性範囲内には更に多くのエイリアンが含まれるが、
比較的少ない数の中間リング状クラスタを形成する別の
試みがなされる。 一方、最大エイリアンオーバーラップが5,000よりも
少なくないと、その様に選択された中間平均はそのまま
使用され、且つ非保護の基準特徴ベクトルがある場合に
は、それは可能性半径計算操作(後述する)の期間中に
保護されることとなる。多数のエイリアンが中間「厳
格」可能性範囲内に含まれることを防止する為に、最大
エイリアンオーバーラップを比較的小さく維持すること
が望ましい。次いで、第7図の中間クラスタ操作へリタ
ーンがなされる。 可能性半径の計算 第9図は、可能性半径計算操作の1実施例を示したフ
ローチャートである。最初に、第8図の中間平均選択操
作によって形成される各中間平均に対して、対応する可
能性半径が0へ初期化される。次に、基準データの組か
ら選択された文字の第1基準特徴ベクトルが中間平均の
1つへ割り当てる為に選択される。この割り当ては、最
初に、選択した基準特徴ベクトルと各中間平均との間の
距離を計算することによって実施される。次いで、その
様に計算された距離がその中間平均のエイリアン距離よ
りも小さい全ての中間平均の組であるべく候補の組が確
立される。次に、その候補の組が空か否かが判別され
る。空であると、各中間平均に対して、中間平均と選択
した基準特徴ベクトルとの間の距離と、その中間平均の
エイリアン距離との間の差異に等しいものとしてエラー
即ち誤差が計算される。選択された中間平均は、その様
に計算された最小の誤差を持った中間平均と等しく設定
される。逆に、候補の組が空でないと、選択された中間
平均は、選択した基準特徴ベクトル(単に、「基準ベク
トル」ともいう)に最も近い該候補の組の中にある中間
平均と等しく設定される。 何れの場合にも、選択した中間平均と選択した基準特
徴ベクトルとの間の距離が、その選択した中間平均に対
応する可能性半径よりも大きいか否かが判別される。大
きい場合には、選択した中間平均に対応する可能性半径
は、選択した中間平均と選択した基準特徴ベクトルとの
間に距離と等しくアップデートされる。検査されるべき
基準特徴ベクトルが残っていないと、第7図の中間リン
グ状クラスタ発生操作へリターンがなされる。逆に、検
査されるべき付加的な基準特徴ベクトルが存在する場合
には、次の特徴ベクトルが選択され、且つ可能性半径計
算操作が、各中間平均と新たに選択された基準特徴ベク
トルとの間の距離を計算するステップから開始して、反
復される。 粗いリング状クラスタ発生操作 粗いリング状クラスタ発生操作の目的は、基準データ
内に含まれる基準文字の各クラス(例えば、全ての小文
字「e」)に対して、1つの粗いリング状クラスタを構
成することである。分類中に使用されるこの粗いリング
状クラスタのフィールドは以下の通りである。 平均 ラベル 確実性境界 可能性境界 微細及び中間リング状クラスタ発生技術に関連して説
明した如く、1実施例においては、エイリアン距離及び
不良セグメント距離のフィールドは分類中も使用され
る。 選択した文字に対しての粗いリング状クラスタに対応
する「厳格」可能性範囲は、選択した文字に対する全て
の基準特徴ベクトルがその「厳格」可能性範囲内に存在
する特性を持っている。中間リング状クラスタ発生操作
において説明した如く、粗いリング状クラスタに対応す
る「厳格」可能性範囲は、その中心がリング状クラスタ
の平均であり、且つその半径がそのリング状クラスタの
可能性半径である範囲である。然し乍ら、中間リング状
クラスタに対応する「厳格」可能性範囲と異なり、この
「厳格」可能性範囲はエイリアン空間と大きなオーバー
ラップを持つことがある。 クラスタ後処理段階期間中に、各粗いリング状クラス
タの可能性境界は、可能性半径よりも多少大きな値に設
定される。前に説明した如く、粗いリング状クラスタに
対応する可能性範囲は、その中心がリング状クラスタの
平均であり且つその半径がそのリング状クラスタの可能
性境界である範囲である。この粗い可能性範囲は、分類
中に、文字候補をフィルタ除去する為に使用される。何
故ならば、もしも未知の文字特徴ベクトルが選択した候
補に対する粗い可能性範囲の外側に存在する場合には、
その選択した候補がその未知の文字であることは不可能
だからである。 注意すべきことであるが、微細リング状クラスタの場
合と同じく、粗いリング状クラスタは確実性境フィール
ドに対する値を持っており、従って、分類中に、粗いリ
ング状クラスタは又、確実性を持った未知の入力特徴ベ
クトルを分類する為に使用され得るということにおい
て、微細リング状クラスタの機能も行う。然し乍ら、本
発明の分類方法の1実施例においては、それらは信頼性
の値を割り当てる為には使用されない。 各文字に対して、その粗いリング状クラスタの値は以
下の如くに設定される。 平均 選択した文字に対する全ての基準の組をメモリ内にロ
ードする。この組のベクトル平均を計算する。このベク
トル平均から選択した文字に対する基準ベクトルの各々
への距離を計算し、且つ粗いリング状クラスタの平均を
そのベクトル平均に最も近い基準ベクトルとして選択す
る。 確実性境界 確実性境界=(確実性係数)(エイリアン距離) 尚、エイリアン距離は選択した平均からその最も近いエ
イリアンへの距離であり、且つ確実性係数は、前述した
如く、0と1との間の数である。 可能性半径 粗いリング状クラスタの平均から選択した文字に対す
る基準ベクトルの各々への距離を計算する。可能性半径
はこの様な距離の最大のものに設定する。 クラスタ後処理 微細、中間、及び粗いリング状クラスタを作成した後
に、微細及び中間リング状クラスタの信頼性境界、粗い
リング状クラスタの可能性境界、及び中間リング状クラ
スタの可能性境界に対して値を設定する。 信頼性境界設定 前述した如く、微細リング状クラスタ発生技術により
各文字へ割り当てられた「テリトリー」は、その文字の
微細確実性範囲のユニオン即ち集まりである。各文字の
テリトリーは、その文字に対する全ての基準特徴ベクト
ルを包含する様に構成される。微細リング状クラスタの
幾つかは、中間リング状クラスタ発生技術の期間中に、
中間リング状クラスタとして再度割り当てられるので、
或る文字に対応する「テリトリー」はその文字の微細及
び中間確実性範囲のユニオンとして再度定義される。 信頼性境界計算操作は、各微細及び中間リング状クラ
スタに対して信頼性境界値を設定する。このことは、以
下の目的を持って行われるが、記載の順番に従って重要
性は低下する。 a.各文字に対して、その文字のテリトリー内に存在しな
いその文字に対する全ての特徴ベクトルは、その文字の
信頼性環形(アニュラス)の少なくとも1つの中に存在
するはずである。或る文字の信頼性環形のユニオンはそ
の文字の「ショアライン」と呼ばれる。第2a図を参照す
ると、信頼性範囲は点線の円で示されている。ショアラ
インは影線を付した領域として示されている。この第1
の目的の理由はその分類に与える影響である。例えば、
小文字「e」を表す特徴ベクトルが分類モジュールへ入
力されると、たとえその特徴ベクトルが「e」のテリト
リー内に存在しなくとも、それが「e」のショアライン
内に存在する場合にはそれを未だ正しく分類する可能性
がある。 微細リング状クラスタ発生技術に関連して前述した如
く、基準の組みRが全ての可能な文字特徴ベクトルを包
含している場合には、各テリトリーはその与えられた文
字に対する全ての可能な特徴ベクトルを包含するが、エ
イリアンに対する特徴ベクトルは包含せず、且つ正確な
分類が常に保証される。ショアラインが必要であるの
は、基準の組みRは全部を包括するものではないからで
ある。ショアラインの寸法は、Rがその程度完全である
かに依存する。即ち、基準の組みRは全てを包括する基
準の組みに対する非常に良好な近似である場合には、非
常に広いショアラインを持つことは必要ではない。 基準の組みRがどの程度完全であるかを決定する為
に、第2テスト基準の組みTを使用する。この第2基準
の組みは、オリジナルの単一文字基準の組みRを作成す
る為に使用される頁と異なるデジタル化させた頁から形
成された単一文字基準の組みである。各文字に対して、
このテスト基準の組みは、その文字のテリトリーがその
文字に対しての全ての可能な特徴ベクトルの組をどれ程
良くカバーするかを測定する為に使用される。即ち、選
択した文字に対する多くのテスト特徴ベクトルがその文
字のテリトリーから遠くに存在する場合には、オリジナ
ルの基準の組Rはその選択した文字に対しての全ての可
能な特徴ベクトルの組を近似するのに欠陥性のものであ
ったと結論され、且つ比較的大きな値がその文字の信頼
性境界へ割り当てられ、その文字に「広いショアライ
ン」を与える。 b.1実施例においては、分類モジュールが未知の入力文
字が「不良」であるか否かを判別することを試みる。
「不良」セグメントに対応する特徴ベクトルが分類モジ
ュールに入力され、且つその入力ベクトルが何れの文字
のショアライン又はテリトリー内に存在しない場合に
は、分類モジュールによって、未知の入力文字は「不
良」であると結論される。従って、第2の目的は、各文
字に対して、そのショアラインが包含する不良セグメン
ト特徴ベクトルを可及的に少なくすることである。 c.第3の目的は、分類の誤りの危険性を減少させる為
に、各文字のショアラインが包含するエイリアン特徴ベ
クトルを可及的に少なくすることである。 第10a図は、信頼性境界を設定する為に使用される操
作を示したフローチャートである。第1のステップは、
検査されるべき最初の文字を選択することである。次
に、選択した文字としてラベルを付されたテスト基準組
Tからの全ての基準ベクトルをメモリ内にロードさせ
る。次に、その選択した文字に対応する全ての中間及び
微細リング状クラスタをメモリ内にロードさせる。 次のステップは、その選択した文字に対して微細及び
中間リング状クラスタの各々の信頼性境界に対する値を
設定することである。これらの値を設定する為に独立的
に使用することの可能な3つの異なった技術を後に第10
b図乃至第10d図を参照して説明する。これらの3つの全
ての場合において、微細及び中間の各々のリング状クラ
スタの信頼性境界は、そのリング状クラスタの確実性半
径を使用して設定される。微細リング状クラスタ発生技
術に関連して説明した如く、リング状クラスタの確実性
半径(確実性境界に対して)は、全ての基準ベクトルを
包含しており即ちその平均によって「保護」されている
その選択した文字に対する組Rにおいて、そのリング状
クラスタの平均を中心としている最小範囲の半径であ
る。第10b図及び第10c図のフローチャートを参照して後
に説明する技術においては、テスト基準組Tを使用し
て、各選択した文字に対して、単一のインクリメント定
数を外挿させる。このインクリメント定数は、確実性半
径に関連して、以下の式によって信頼性境界を設定する
のに使用される。 信頼性範囲=確実性半径+インクリメント定数 この信頼性境界の値が確実性境界よりも小さいと、信頼
性境界は確実性境界へ再設定される。従って、第10b図
及び第10c図に示した技術に対して、微細又は中間のリ
ング状クラスタに対応する信頼性範囲は、少なくともそ
の確実性範囲の大きさであり、且つ、一般的には、一様
な量だけ「厳格」確実性範囲を拡張させることによって
設定される。本明細書においては、リング状クラスタに
対応する「厳格」確実性範囲は、その中心が該リング状
クラスタの平均であり且つその半径がそのリング状クラ
スタの確実性半径(確実性境界に対して)である範囲で
ある。第10d図に示した第3の技術は、各文字に対して
単一のインクリメント定数を使用する代りに、3つのイ
ンクリメント定数を使用することを除いて、最初の2つ
と同様である。 選択した文字に対する信頼性境界が設定された後に、
もっと検査すべき文字が存在するか否かが次に決定され
る。存在しない場合には、信頼性境界を設定する操作は
完了する。もっと検査すべき文字があると、次の文字が
選択され、その選択した文字に対するテスト基準をメモ
リ内にロードするステップで開始して上述した操作を反
復する。 選択文字に対する信頼性境界設定:技術#1 第10b図は、選択した文字に対して信頼性境界を設定
する1実施例を示している。第1のステップは、その選
択した文字に対して各テスト基準ベクトルに対する誤差
値を計算することである。各選択したテスト基準ベクト
ルに対して、その対応する誤差値は以下の如く計算され
る。選択したテスト基準ベクトルが選択した文字のテリ
トリー内に存在すると、即ちどれかの微細又は中間リン
グ状クラスタに対して、選択したテスト基準ベクトルか
ら平均への距離は確実性境界よりも小さいと、その選択
したテスト基準ベクトルに対する誤差値は0に設定され
る。そうでない場合、選択したテスト基準ベクトルから
各微細又は中間「厳格」確実性範囲への距離は、以下の
式によって計算される。 距離=距離(テスト基準ベクトル,平均)−確実性半径 この選択したテスト基準ベクトルに対する誤差値は最小
のこの様な距離に設定される。 次に、0でない誤差値の標準偏差が計算される。次い
で、インクリメント定数値が、標準偏差の何倍かに設定
される。1実施例においては、インクリメント定数値は
標準偏差の3倍に設定される。2番目の実施例において
は、希な文字よりも一般的な文字に対してより大きな倍
数を使用する。例えば、選択した文字が「e」である場
合、使用される倍数は3であり、選択される文字が
「j」である場合には、使用する倍数は2である。 インクリメント定数を設定した後、選択した文字に対
する各微細及び中間リング状クラスタの信頼性境界フィ
ールドは、以下の式によって設定される。 信頼性境界=最大値(確実性半径+インクリメント定
数,確実性境界) 選択文字に対する信頼性境界の設定:技術#2 選択した文字に対して信頼性境界を設定する第2の方
法を第10c図のフローチャートに示してある。インクリ
メント定数値を設定する為に標準偏差を使用する代り
に、この技術では非パラメータ反復方法を使用する。 最初のステップは、インクリメント定数を0に設定す
ることである。次いで、インクリメント定数を使用し、
且つ前述した如く、以下の式を使用して、各信頼性境界
に対する一時的な値を設定する。 信頼性境界=最大値(確実性半径+インクリメント定
数,確実性境界) 次に、選択した文字に対するテスト基準ベクトルがカバ
ーされているかどうかを決定する。即ち、その選択した
文字に対する全てのテスト基準ベクトルが少なくとも1
つの信頼性範囲の中に存在するか否かを判別する。存在
する場合には、現在の一時的な信頼性境界は固定され、
操作は完了する。そうでない場合には、全てのテスト基
準ベクトルがカバーされ、インクリメント定数は或る予
め定めた量(1実施例においては、1,000)だけ増加さ
れ、且つ新しいインクリメント定数を使用して一時的な
信頼性境界を設定するステップから初めて、操作を反復
する。 選択文字に対する信頼性境界の設定:技術#3 選択した文字に対して信頼性境界を設定する第3の方
法は第10d図のフローチャートに示されている。前述し
た如く、この信頼性境界を設定する上で3つの目的があ
る。 a.選択した目的に対し全ての可能な特徴ベクトルをカバ
ーする。 b.不良セグメント空間のオーバーラップを可及的に少な
くする。 c.エイリアン空間のオーバーラップを可及的に少なくす
る。 この第1の目的はいまなお最も重要であると考えられ
るが、前述した第2技術におけるよりもこの第3技術に
おいては、後の2つの目的により重要性が与えられる。 この第3の技術は上述した第2の技術に類似している
が、異なる点としては、信頼性境界を設定する為に単一
のインクリメント定数値を使用する代りに、3つのイン
クリメント定数値、即ち大きいインクリメント定数、小
さなインクリメント定数、及び中間のインクリメント定
数を使用する。 操作は、これら3つのインクリメント定数値の各々を
0に初期化させることによって開始される。次に、一時
的な信頼性境界値が、以下の如くにして、各微細及び中
間リング状クラスタへ割り当てられる。一時的な信頼性
境界値は、最初に、次の如くに設定される。 信頼性境界=最大値(確実性半径+大きなインクリメン
ト定数,確実性境界) その結果得られる信頼性範囲がエイリアン空間とオーバ
ーラップする場合、即ち信頼性境界が与えられたリング
状クラスタに対するエイリアン距離よりも大きいと、信
頼性境界は、以下の如く再設定される。 信頼性境界=最大値(確実性半径+中間インクリメント
定数,確実性境界) その結果得られる信頼性範囲が不良セグメント空間にオ
ーバーラップすると、即ち信頼性境界が与えられたリン
グ状クラスタに対する不良セグメント距離よりも大きい
と、信頼性境界は以下の如く再設定される。 信頼性境界=最大値(確実性半径+小さなインクリメン
ト定数,確実性境界) 一時的な信頼性境界が各微細及び中間リング状クラスタ
に割り当てられると、次に、全てのテスト基準ベクトル
がカバーされているか否かが判別され、即ちその選択し
た文字に対する全てのテスト基準ベクトルがその選択し
た文字と関連する微細又は中間信頼性範囲の少なくとも
1つの中に存在するか否かを判別する。存在する場合に
は、一時的な信頼性値は固定され、操作は完了する。全
てのテスト基準ベクトルがカバーされていないと、該イ
ンクリメント定数の各々が増加される。大きなインクリ
メント定数は、予め定めた大きな量(1実施例において
は、1,000)だけ増加される。中間のインクリメント定
数は、中間の予め定めた量(1実施例においては、50
0)だけ増加される。小さなインクリメント定数は、予
め定めた小さいな量(1実施例においては、250)だけ
増加される。次いで、これらの新しいインクリメント定
数を使用して、新しい一時的な信頼性境界を設定するス
テップから開始して操作を反復させる。 粗い可能性境界の設定 各文字に対して、その粗いリング状クラスタの可能性
半径が、前述した如く、決定されたので、対応する「厳
格」可能性範囲は選択した文字に対する組R内の全ての
基準ベクトルの組をカバーしていた。基準の組Rは全部
の基準ベクトルを包含するものではないので、粗いリン
グ状クラスタの可能性境界は、可能性半径よりも多少大
きい値に設定される。即ち、 可能性境界=可能性半径+インクリメント定数このイ
ンクリメント定数は、第10b図に関連して説明したもの
と類似するパラメータ方法か、又は第10c図に関連して
説明したものと類似する非パラメータ方法の反復方法の
何れかを使用して、設定される。1実施例においては、
選択した文字の粗いリング状クラスタの可能性境界を設
定する為に使用されるインクリメント定数は、その選択
した文字の標準的な英語使用法における頻度に従属して
いる。例えば、「e」の可能性境界に対して使用される
インクリメント定数は3,000であり、「j」の可能性境
界に対するインクリメント定数は0である。 中間可能性境界の設定 各文字に対して、その中間リング状クラスタの可能性
半径は、前述した如く、決定されているので、対応する
「厳格」可能性範囲は選択した文字に対する組R内の全
ての基準ベクトルの組をカバーしていた。基準組のRは
全ての基準ベクトルを包含するものではないから、中間
リング状クラスタの可能性境界は、対応する可能性半径
よりも多少大きな値に設定される。各文字に対して、テ
スト基準組Tが使用されて、第10c図のフローチャート
に関連して前に説明したのと同様な反復態様でインクリ
メント定数を外挿する。選択した文字に対する各可能性
境界は次式によって設定される。 可能性境界=可能性半径+インクリメント定数基準デー
タの予備処理後の未知入力文字の分類 各未知入力文字に対して、分類モジュールは可能性の
組を発生し、それは該未知の文字であるかもしれない文
字及び関連する信頼性のリストである。この様な可能性
のある文字は本明細書においては「候補文字」乃至は
「文字候補」と呼んでいる。一般的に、可能性の組は単
一文字候補を有しているが、この可能性の組が文字候補
を有しないか又は1つを越えた文字候補を有することも
可能である。 文字候補を有していない可能性の組は、「非認識可能
性の組」と呼んでおり、これは、入力文字は単に認識さ
れなかったことを表している。本発明の1実施例におい
ては、非認識可能性の組に対応するセグメントは、所望
により、更に処理する為に送られる。例えば、付加的な
モジュールを使用して、2つ又はそれ以上の文字(「合
同」文字)に対応するセグメントを分割してノイズをフ
ィルタするか、又は現在1つを越えたデータセグメント
(「スプリット(分割)」)に分断されている1つの文
字の部分を一体とさせることが可能である。 非認識可能性の組に対応するセグメントに関して付加
的な処理がなされない場合には、この可能性の組は、所
望により、後処理を行う為に、例えば、綴り補正器モジ
ュールへ送られ、それは文脈情報を使用して該非認識可
能性の組を単一を文字候補を有する可能性の組と置換さ
せる。 本発明の1実施例においては、非認識可能性組に対応
する最終的文書出力は「@」記号であり、従ってワード
プロセサのオペレータは、光学的文字認識処理が完了し
た後に全ての認識されなかった文字を見つけ出すことが
可能である。 作成した可能性の組が1つの文字候補を越えて包含し
ている場合には、本発明の1実施例においては、可能性
の組は、後処理の為にサブラインチェッカーや文脈モジ
ュール等のその他のモジュールへ送られ、従ってこの後
処理が完了した後には可能性の組の中に唯1つの文字候
補のみが残る。 文字候補のリストに加えて、作成された可能性の組
は、対応する信頼性のリストを有しており、それは確実
性を持って認識されなかった文字にフラッグを立てる為
に使用することが可能であり、従ってそれをワードプロ
セサのオペレータが検査することが可能である。信頼性
の値は又、前述した後処理モジュールによって、文字候
補の1つを選択することを助ける為に使用することが可
能である。 未知入力文字は、前述した、予め計算された粗い、中
間、及び微細のリング状クラスタを使用して、分類され
る。分類モジュール及びクラスタリングアルゴリズム
は、未知入力文字の特徴ベクトルが少なくとも1つのリ
ング状クラスタの確実性範囲の内側に入ることの可能性
を最大とすべく構成されている。この場合に、未知入力
はそのリング状クラスタに対応する文字候補として分類
される。典型的に、未知入力文字の97%は確実性範囲に
よって分類される。分類モジュールは、この様な確実性
範囲を可及的に速やかに発見し且つ出来るだけ多くのリ
ング状クラスタを検査することを回避する様に構成され
ている。本発明の1実施例においては、8,000のリング
状クラスタがあり、又典型的に、各未知入力に対して検
査されるものは100である。従って、分類は、全てのリ
ング状クラスタが検査されたとする場合と比較して、約
80倍高速である。 分類されるべき各未知の文字に対して、分類モジュー
ルへの入力は特徴ベクトル及び幾何学的形状である。特
徴ベクトルは、その未知の文字の選択した特徴を定義す
る情報を有している。重要なことであるが、本発明の技
術は、どのようにして特徴ベクトルが派生されるか又ど
のようなタイプの特徴を使用して特徴ベクトルが構成さ
れるかということに拘らず、適切に動作する。本発明の
1実施例においては、特徴ベクトルは、David Just in
Rossの発明に関する「パターン認識方式において使用す
る特徴抽出技術(Feature Extraction Technique For U
se In a Pattern Recognition System)」という名称の
特許出願に記載されている如くに形成されている。 未知の文字の幾何学的形状は、文字を形成する「オ
ン」画素によって画定される如き文字の幅や高さ、及び
文字に関するサブライン(subline)情報を供給する。
サブライン情報は、未知の文字の頂部から、デセンダー
(decender)、ベース(base)、小文字、及びアセンダ
ー(ascender)の各サブラインへの距離を与える。第11
図はこれらのサブライン及びそれらの種々の文字タイプ
との関係を示している。 第12図は、分類モジュールを示すフローチャートであ
る。分類モジュールにおいて最初のステップは、高さア
レイ及び幅アレイを初期化させることである。高さ及び
幅のアレイは、第26図のフローチャートを参照して後述
する如く、不良セグメントチェック操作の期間中に使用
されて、未知入力文字が、実際に、単一の適切にセグメ
ント化即ち1個の切り出された文字であるか否かを判別
することを助ける。何れかの文字候補に対する高さ及び
幅の値は、夫々、その文字候補として確実性を持って認
識された最後の入力文字の高さと幅である。本発明の1
実施例においては、入力文字の最大限可能な高さ及び幅
は127である。各文字候補はその高さ及び幅の値を127よ
りも大きな数字へ初期化させて、その文字候補として確
実性を持って未だ認識された入力文字は存在しないこと
を表す。 この初期化ステップの後に、分類ループが開始する。
分類ループの最初のステップは、未知の文字の幾何学的
形状と特徴ベクトルの両方を取得する為である。次に、
第13図に関連して後述する如く、未知の文字に対する可
能性の組を作成する。 最後のステップは、所望により、付加的な処理及び/
又はその他の回路へ出力する為に可能性の組を次のモジ
ュールへ出力させることである。次いで、次の未知の文
字に対する幾何学的形状及び特徴ベクトルを取得し且つ
可能性の組を計算し且つその可能性の組を出力すること
によって、その分類ループは繰り返される。 可能性の組の計算 第13図は、第12図の可能性の組を計算する操作を更に
詳細に示したフローチャートである。可能性の組の計算
操作への入力は、未知の文字の特徴ベクトル及び幾何学
的形状である。最初のステップは、「終了(done)」フ
ラッグを「偽」へ初期化することである。もし、可能性
の組の計算操作の期間中の何れかの時点において、終了
フラッグが「真」に設定されると、これは、未知の文字
が確実性を持って認識され且つ可能性の組が作成された
ことを表す。可能性の組の計算操作はこれで完了する。 次のステップはクイックチェック(quickcheck)即ち
迅速な検査の操作である。第14図のフローチャートに関
連して後述する如く、クイックチェック操作の目的は、
前に確実性を持って認識された入力文字に関する情報を
使用して、未知の文字を迅速に分類することである。処
理時間はこのクイックチエック操作によって著しく減少
される。クイックチェック操作が未知の文字を分類する
ことに成功すると、可能性の組が作成され且つ「終了」
フラッグが「真」に設定される。 クイックチェック操作を実行した後に、「終了」フラ
ッグの値がチェックされる。それが「真」に等しいと、
可能性の組の計算操作が完了し、且つ第12図の文字分類
操作へのリターンがなされ、それは今形成された可能性
の組を出力し且つ認識されるべき次の未知の文字の特徴
ベクトル及び幾何学的形状を読み取る。一方、「終了」
フラッグが「真」に等しくないと、次のステップはステ
ータスアレイ、信頼性アレイ、及び不良セグメント可能
フラッグを初期化することである。 ステータスアレイは、第13図の可能性の組の計算操作
の期間中に使用されて、各文字候補に対して、その現在
のステータスを記録し、それは以下の4つの可能な値の
1つを取ることが可能である。 a.「確実」 未知入力文字はこの文字候補として確実性
を持って分類されている。 b.「可能」 未知入力文字はこの文字候である可能性が
これまでに決定されている。 c.「不可能」未知の文字がこの文字候補であることは不
可能であることが決定されている。 d.「未知」 この文字候補に関しては未だ解析を終了し
ていない。 各文字候補は、そのステータス値を「未知」へ初期化
する。 信頼性アレイは、可能性の組の計算操作の期間中に使
用されて、そのステータスが「可能」である各文字候補
に対して、その現在の信頼性の値を与える。本発明の1
実施例においては、信頼性の値は1乃至254の範囲であ
り、低い信頼性の値は高い信頼性に対応している。信頼
性の値の0は、未知の文字が確実性を持って分類された
ことを表す為に予約されている。255の信頼性の値は、
未だ信頼性の値が与えられていないことを表す為に予約
されている。各文字候補はその信頼性の値を255へ初期
化させる。 「不良セグメント可能」フラッグは「真」に初期化さ
れる。このフラッグは、後述する如く、粗いフィルタ、
中間フィルタ、又は微細解析操作によって修正すること
が可能である。未知の文字が確実性を持って分類されな
い場合には、「不良セグメント可能」フラッグが不良セ
グメントチェック操作によって使用されて、未知の文字
が、実際に、単一の適切にセグメント化された文字でな
いか否かを決定することを助ける。 ステータスアレイ、信頼性アレイ、及び「不良セグメ
ント可能」フラッグが初期化された後に、本発明の1実
施例においては、次のステップは前走査(prescan)で
ある。前走査の操作の目的は、文字候補のステータス値
を簡単な決定手順によって修正する為の機会を与えるこ
とである。1実施例においては、未知の文字の高さ、
幅、及びサブライン情報を使用して、未知入力がピリオ
ドであるか、カンマであるか、又はダッシュであるか否
かを判別する為の決定基準を経験的に確立する。以下は
2つの例である。 例#1: 基準:未知の文字の高さが12未満であると、その未知の
文字はピリオドか、カンマか、又はダッシュの何れかに
違いない。 与えられた未知の文字の高さが、実際に、12未満である
と、前走査の操作は、ピリオド、カンマ、及びダッシュ
のステータス値を「可能」に設定し、且つその他の全て
のステータス値を「不可能」に設定する。注意すべきこ
とであるが、この基準は、読み取られる対象の最小のポ
イント寸法を仮定している。 例#2: 基準:未知の文字の高さが11未満であり且つアスペクト
比が1.7を越えていると、その未知の文字はダッシュに
違いない。 文字のアスペクト比とは幅/高さである。実際に、未知
の文字の高さが11未満であって且つそのアスペクト比が
少なくとも1.7であると、この前走査の操作はダッシュ
のステータス値を「確実」に設定し且つダッシュを含む
可能性の組を形成する。 一般的に、プレスキャン(前走査)操作が文字のステ
ータス値を「確実」に設定すると、それは又その文字を
含む可能性の組を形成し且つ「終了」フラッグの値を
「真」へ再設定する。これは可能性の組の計算操作にお
ける唯一のステップであり、その場合にリング状クラス
タを使用せずに分類を行うことが可能である。上述した
如く、プレスキャンで文字のステータス値を「確実」に
設定することがなかった場合、幾つかのステータス値を
「可能」又は「不可能」の何れかに再設定することによ
って有用な情報を提供することが可能である。 プレスキャン操作の後に、「終了」フラッグが「真」
に等しいと、可能性の組の計算操作は完了し、且つ第13
図の可能性の組の計算操作へのリターンがなされる。そ
うでなく、「終了」フラッグが「真」と等しくない場合
には、未知の文字の付加的な処理が行われる。 本発明の1つの新規な特徴として、この付加的な処理
の最初のステップは、1つ又はそれ以上の文字候補のリ
ストを取得することである。最初のリストは、第2のリ
ストの中のものよりも未知の文字である蓋然性がより高
い文字候補を有しており、以下同じである。各リストに
おいて、そのリストの開始における文字候補は、そのリ
ストの終りにおける文字候補よりも蓋然性は一層高いも
のと考えられる。文字候補リスト取得操作(第15図)に
よって形成された各リストは順番に検査される。リスト
上の文字候補が確実性を持って未知の文字であると判別
されると、検査は終了する。この様に、最も蓋然性の高
い文字候補が最初に評価され、その際に未知の文字が確
実性を持って分類される場合の操作を高速化させてい
る。このことは、リング状クラスタを発生させる為に使
用される基準組が十分に完全である場合には、殆ど何時
もその通りである。 文字候補リスト取得操作によってリストが取得される
と、第1の文字候補リストが評価の為に選択される。評
価は、初期的なパス操作で開始する。 初期的なパス操作は、第16図に関連して以下に説明す
るが、選択した文字候補リスト上の各文字候補を比較的
迅速に検査し且つそのステータスを「確実」、「可
能」、又は「不可能」の何れかへ修正する。初期的なパ
ス操作は、可能な場合には、選択した文字候補リスト上
の文字候補をフィルタし、且つ未知の入力文字を確実性
を持って分類すべく機能する。 与えられた文字候補に対して、初期的パス操作が、そ
の未知入力文字がその文字候補であることが不可能であ
ると結論すると、その文字候補のステータス値は「不可
能」へ変化される。この様に、選択した文字候補リスト
上の幾つかの候補(実際には、リスト上の候補の殆ど)
がフィルタして除外され、従って、後述する一層時間の
かかる第2パス操作によって検査されることはない。与
えられた文字候補に対して、初期的パス操作が、確実性
を持って、未知の入力文字が文字候補であると決定する
と、その特定の文字候補を包含する可能性の組が形成さ
れ且つ「終了」フラッグが「真」に設定される。ステー
タス値が初期的パス操作によって「可能」へ設定される
文字に対して、信頼性アレイ内に格納される対応する信
頼性の値も割り当てられる。 初期的パス操作の後に、「終了」フラッグが「真」に
等しいと、即ち初期的パス操作が未知の文字を確実性を
持って認識することに成功すると、可能性の組の計算操
作が完了し、且つ第12図の文字分類アルゴリズムへのリ
ターンがなされる。一方、「終了」フラッグが「真」に
設定されない場合には、可能性の組の計算操作が継続
し、選択した文字候補リストに関して第2パス操作が行
われる。 第2パス操作は、第17図に関連して後述するが、それ
は初期的なパス操作によってステータスが「不可能」へ
変化されていない選択した文字候補リスト上の各文字候
補を詳細に検査する。初期的パス操作の場合の如く、第
2パス操作が、未知の文字が選択した文字候補リスト上
の文字候補であることを確実性を持って結論する場合に
は、その文字候補を包含する可能性の組を形成し、且つ
「終了」フラッグを「真」へ設定する。そのステータス
が「可能」である文字の信頼性の値もアップデートさせ
ることが可能である。その他の文字もそれらのステータ
スを「不可能」へアップデートさせることも可能であ
る。 選択した文字候補リストの検査は、第2パス操作の後
に完了する。「終了」フラッグが「真」と等しいと、可
能性の組の計算操作は完了し、且つ第12図の文字分類ア
ルゴリズムへのリターンがなされる。「終了」フラッグ
が「真」に設定されないと、その選択した文字候補リス
ト上の候補のどれもが「確実」なものではない。付加的
な文字候補リストがある場合には、次のリストが選択さ
れ、且つ新たに選択した文字候補リストに関する初期的
パス操作を開始することによってその操作を繰り返す。
一方、全ての文字候補リストが既に検査されると、未知
の入力文字は確実性を持っては認識されなかったことと
なり、可能性の組の作成−不確実性操作(第18図)によ
って可能性の組が形成される。 重要なことであるが、可能性の組の作成−不確実性操
作は、必ずしもそのステータスの値が「可能」である全
ての文字候補を包含するものではない。可能性の組は、
他の「可能」文字候補と比較して非常に低い信頼性を持
った文字候補を省略する。本発明の1実施例において
は、可能性の組作成−不確実性操作は、又、未知の文字
が、実際に、単一の適切にセグメント化された文字では
ないかどうかを判別することを試み、且つ、そうである
と、未知の文字は、付加的な処理の為に、例えばノイズ
除去や合同(合体)−分離、不図示のその他の手段へ送
られる。ノイズが文字から除去された後に、「クリー
ン」な文字が第13図の可能性の組の計算アルゴリズムを
介して操作される。同様に、2つまたはそれ以上の文字
が分離された後に、分離された文字の各々が第13図の可
能性の組の計算アルゴリズムを介して処理されて、新た
な分離された文字を識別する。 クイックチェック クイックチェックサブルーチンは、第14図のフローチ
ャートに示されており、前に確実性を持って分類された
入力文字に関する情報を使用して、現在の未知の文字を
迅速に分類することを試みる。例えば、特定のリング状
クラスタの確実性範囲内に該当するので幾つかの「e〕
が確実性を持って認識されると、同一のタイプフォント
から派生した場合の如く、1番目の「e」に非常に類似
する2番目の「e」が入力されると、この2番目の
「e」を確実性を持って認識する為に同一のリング状ク
ラスタを使用することが可能である蓋然性がある。クイ
ックチェック操作は、前の入力文字を確実性を持って分
類することに成功したリング状クラスタのリスト(「ク
イックリスト」)を使用することにより、この知見を有
効に利用するものである。 クイックリスト内のデータの量は比較的少ないので、
クイックチェック操作それ自信は非常に高速である。入
力頁が、例えば2つの「e」が非常に似ていることのな
い頁であるランサムノート即ち身の代金要求の手紙でな
い限り、クイックチェック操作は、殆どの入力文字を確
実性を持って分類することが可能である。このことは、
頁が複数個のフォントを有する場合でも言えることであ
る。従って、クイックチェック操作は著しく認識速度を
増加させる。 クイックリストは、複数個のスロットを有する円形の
バッファである。本発明の1実施例においては、クイッ
クリストには70個のスロットがあり、各スロットは以下
の3つの項目を有している。 a.リング状クラスタの平均のメモリ内のアドレス位置 b.リング状クラスタの確実性境界 c.リング状クラスタのラベル(文字候補) このクイックチェック操作は、クイックリストを処理し
て、クイックリスト上の任意のスロットに対して、未知
の文字の特徴ベクトルからそのスロットに関連する平均
への距離がそのスロットに関連する確実性境界よりも小
さいか否かを判別する。そうであれば、クイックチェッ
ク操作は、未知の文字を確実性を持って分類することに
成功したこととなる。 クイックリストは以下の如くにしてアップデートされ
る。第13図の可能性の組の計算アルゴリズムの残り中で
未知の入力文字が確実性を持って分類されると、その未
知の文字を識別する為に使用されたリング状クラスタか
らの関係のある情報はクイックリストの頭に配置され、
クイックリストの前のデータはクイックリスト内深くへ
1スロット分押し込まれる。 注意すべきであるが、このことはクイックリストにお
いて重複を発生させることはない。未知の文字を確実性
を持って分類する為に、特定のリング状クラスタが第13
図の可能性の組の計算アルゴリズムの残部において使用
されると、そのリング状クラスタに関する関連性のある
情報は既にクイックリスト上に現われることは不可能で
ある。そうでなければ、クイックチェック操作は成功し
ており、且つ第13図の可能性の組の計算アルゴリズムは
実行されることはない。クイックリストもクイックチェ
ック操作自身によってアップデートされることが可能で
ある。未知の文字がクイックチェック操作期間中に確実
性を持って識別されると、未知の文字を識別する為に使
用されたクイックリスト内に含まれるデータはクイック
リストの頭に移動される。この様に、最も最近に確実性
を持って識別された入力文字に関するデータは、それが
クイックチェック操作自身におけるものであろうが又は
その他の第13図の可能性の組の計算アルゴリズムにおけ
るものであるかに拘らず、クイックリストの頭に現われ
且つ最初にクイックチェック操作によってチェックされ
る。注意すべきことであるが、クイックリストは円形バ
ッファであるから、クイックリストが充填されると、バ
ッファの後部におけるデータは書き消され、即ちクイッ
クリストから落とされる。然し乍ら、バッファの後部に
おけるデータは、、未知の入力文字を確実性を持って識
別する為に最近使用されたことのないデータである。入
力頁上にタイプフォントの変化があると、新しいタイプ
フォントに関するデータがクイックリストに加えられる
ので、前のタイプフォントに関するデータはクイックリ
ストから落とされる傾向となる。 第14図を参照すると、クイックチェック操作は、まず
クイックリスト内に何等かのエントリが為されているか
否かを判別する為の検査によって開始される。クイック
リストが空であると、クイックチェック操作は終了し、
且つ第13図の可能性の組の計算操作へリターンする。そ
うでない場合には、クイックリストの頭にあるスロット
を選択する。 次に、未知の文字の特徴ベクトルと選択したスロット
に関連する平均との間の距離を計算する。その距離が選
択したスロットに関連する確実性境界よりも小さいと、
クイックチェック操作は未知の文字を確実性を持って分
類することに成功したこととなる。この場合に、現在の
スロットに関連する文字候補を包含する可能性の組が形
成され、「終了」フラッグが「真」に設定され、現在
(即ち、成功の)スロットがクイックリストの頭へ移動
され、且つ第13図の可能性の計算アルゴリズムへのリタ
ーンがなされる。逆に、その距離が確実性境界よりも小
さくないと、クイックチェック操作が継続され、検査さ
れるべきデータで充填されたクイックリスト上にもっと
スロットがあるか否かが判別される。 検査すべきスロットが最早存在しない場合には、クイ
ックチェック操作は、未知の文字を分類する上で成功し
なかったこととなり、第13図の可能性の組の計算アルゴ
リズムへのリターンがなされる。もっとスロットが存在
する場合には、クイックリスト上の次のスロットが選択
され、操作が繰り返し行われ、その場合に未知の文字の
特徴ベクトルと選択したスロットに関連する平均との間
の距離を計算するステップから開始する。 文字候補リスト取得 文字候補リスト取得操作(第15図)は、検査中の与え
られた未知の文字に対して、チェックすべき文字候補の
一連の1つ又はそれ以上のリストを与える。最初のリス
トは、第2リストにおけるものよりも一層未知の文字で
ある蓋然性の高いものと考えられる文字候補を包含して
おり、以下同様である。各文字候補リスト内には、リス
トの前方にある候補はリストの後方にある候補よりも蓋
然性が高いと考えられるものである。或る推定的な蓋然
性の目安によって検査されるべき文字候補を順序付ける
ことの目的は、認識速度を増加させることであり、何故
ならば未知の文字に対する分類は、その特徴ベクトルが
確実性範囲の内側に入ることが判別されると直ぐに終了
するからである。 1実施例においては、文字候補リストは、サブライン
タイプ及び英語の用法において発生頻度を考慮すること
によって用意される。与えられた未知の文字に対して、
その幾何学的形状はその未知の文字をサブラインのタイ
プによって類別するのに必要な情報を供給する。第11図
及び表2を参照すると、サブラインに基づいて、9つの
可能な文字タイプがある。 例えば、その上部サブラインが小文字ラインと等しく且
つその下部サブラインがベースラインと等しい文字のサ
ブラインのタイプは「a」の型である。 各サブラインのタイプに対して、1組のリストが前以
て用意され且つメモリ内に格納される。1例として、表
3は「a」サブラインタイプに関連したリストを示して
いる。 リスト#1は、「a」サブラインのタイプを持った文字
候補を包含している。リスト#2は、その他の全ての文
字候補を包含している。各リスト内の文字候補は、英語
の使用(又はその他の興味のある言語)の頻度の順番と
なっている。1実施例においては、サブライン情報にお
ける誤差の可能性の為に、文字候補リスト取得操作は、
何れかの文字候補を除外する為にサブライン情報を使用
しない。例えば、未知の文字のサブラインタイプが
「a」タイプであると、上のリスト#1が第13図の可能
性の組の計算操作によって最初に検査される。このリス
ト上の文字候補が未知の文字であると確実性を持って決
定されない場合、リスト#2内の文字候補のサブライン
のタイプはその未知の文字のサブラインのタイプと一致
しないが、上のリスト#2が検査される。 第15図は、文字候補リスト取得操作の1実施例を示し
ている。最初の2つのステップは、未知の文字の上部及
び下部のサブラインを計算する為のものである。これ
は、前に説明した未知の文字の幾何学的形状に与えられ
るサブライン情報を使用して、計算される。次に、未知
の文字のサブラインのタイプが決定される。文字候補リ
ストの数及び各サブラインタイプに対する文字候補リス
トのリストは予め計算されており且つメモリ内に格納さ
れる。 初期的なパス 第16図は、第13図の可能性の組の計算操作に関連して
前に説明した、初期的なパス操作を示したフローチャー
トである。初期的なパス操作への入力は検査されるべき
文字候補リストである。文字候補リスト上の最初の候補
は、検査されるべき文字候補として選択される。次に、
ステータスアレイ内に格納されている選択した文字候補
に対するステータス値が検査される。 選択した文字候補に対するステータス値が「不可能」
であると、即ち未知の入力文字が選択した文字候補であ
ると前に判別されている場合に、選択した文字候補に関
して何等付加的な解析はなされず、且つ初期的なパス操
作が継続して行われて入力文字候補リスト上に検査すべ
き文字候補がもっとあるか否定かを判別するチェックの
ステップが行われる。 選択した文字に対するステータス値は「不可能」でな
いと、第19図を参照して後述する文字フィルタ操作が行
われる。文字フィルタ操作は、選択した文字に対するス
テータス値を、「確実」「可能」、又は「不可能」へ設
定する。そのステータスが「確実」に設定されると、そ
の選択した文字候補を包含する可能性の組が、文字フィ
ルタ操作によって作成される。ステータスが「可能」に
設定されると、その選択した文字に対する信頼性の値
が、文字フィルタ操作によって計算され且つ信頼性アレ
イ内に格納される。 文字フィルタ操作後に、選択した文字候補に対するス
テータス値がチェックされて、それは「確実」に変化さ
れたか否かを判別する。そうであると、その未知入力文
字が確実性を持って分類され且つ可能性の組が形状され
ていることを表す「終了」フラッグが「真」に設定さ
れ、且つ初期的なパス操作が完了し、第13図の可能性の
組の計算操作へのリターンがなされる。その選択した文
字に対するステータス値が「確実」へ変化されていない
と、選択した文字候補リストに検査されるべき付加的な
候補が存在するか否かを次に判別する。 選択した文字候補リストに更に検査すべき候補がある
と、選択したリスト内の次の候補が選択され、且つ新た
に選択した候補に対するステータス値をチェックするス
テップから開始して、初期的なパス操作が繰り返し行わ
れる。逆に、選択した文字候補リストに残存する文字候
補が最早存在しない場合には、初期的なパス操作は完了
し、第13図の可能な組の計算操作へのリターンが行われ
る。 文字フィルタ 第16図の初期的なパス操作において言及されている文
字フィルタ操作の1実施例は、第19図のフローチャート
に詳細に示されている。文字フィルタ操作への入力は文
字候補であって、その現在のステータス値はステータス
アレイ内に格納されており、「可能」か又は「未知」の
何れかである。文字フィルタ操作は、このステータス値
を「確実」か又は「不可能」かの何れかへリセットする
ことを試みる。文字フィルタ操作中の何れかの点におい
て、ステータス値が「確実」か又は「不可能」かの何れ
かに変化されると、文字フィルタ操作が終了し、第16図
の初期的なパス操作へのリターンが行われる。文字フィ
ルタ操作は、「不可能」である文字候補を除去するか又
は未知の文字を確実性を持って文字候補として分類する
かの何れかを行うことに失策すると、ステータス値は
「可能」に設定され、且つ関連する信頼性の値を計算し
信頼性アレイ内に格納させることが可能である。 第19図に参照すると、文字フィルタ操作は、実際に
は、3つの別々のフィルタを有しており、即ちアスペク
ト化フィルタ、粗いフィルタ、及び中間フィルタであ
る。アスペクト比フィルタは、未知の文字幾何学的形状
の情報から文字高さ及び文字幅を取得し且つアスペクト
比(幅を高さで割ったもの)を計算する。アスペクト比
フィルタ操作は、未知の文字のアスペクト比を、検査中
の文字候補に対しての前に計算され且つ格納されている
最小及び最大のアスペクト比と比較する。未知の文字の
アスペクト比が、以前に格納したデータの最小のアスペ
クト比よりも小さいか又は最大のアスペクト比よりも大
きいと、その未知の入力文字がその文字候補であること
が不可能であると判別され、且つアスペクト比フィルタ
操作は検査中の文字候補に対するステータス値「不可
能」に設定する。この場合に、文字フィルタ操作は完了
し、選択した文字候補リスト中の付加的な文字候補を審
査する為に、第16図の初期的なパス操作へ復帰する。 一方、未知の文字のアスペクト比がその文字候補の予
め計算したアスペクト比内に入る場合には、その文字候
補に対するステータス値は「可能」に設定され、且つ粗
いフィルタ操作が次に行われる。 第20図を参照して後に詳細に説明する粗いフィルタ操
作は、選択した文字候補に対して前以て計算し且つ格納
されたリング状クラスタを使用する。入力特徴ベクトル
がこの粗いリング状クラスタに対応する確実性範囲の内
側に存在する場合には、未知の入力文字が文字候補であ
ることが確実であると思われる。その選択した文字候補
を包含する可能性の組が形成され、且つその文字候補に
対するステータス値が「確実」に設定される。入力特徴
ベクトルがその選択した文字候補に対する粗いリング状
クラスタに対応する可能性範囲の外側に存在する場合、
その未知入力文字が文字候補であることは不可能である
と思われ、且つその文字候補に対するステータス値は
「不可能」に設定される。 粗いフィルタ操作の後に、選択した文字候補に対する
ステータス値は3つの可能性のある値の1つを取ること
が可能である。即ち、「確実」と、「可能」と、「不可
能」である。粗いフィルタ操作の後に、選択した文字候
補に対するステータス値が「不可能」であると、文字フ
ィルタ操作は完了し、選択したリスト内の付加的な文字
候補の審査の為に第16図の初期的なパス操作へのリター
ンが行われる。ステータス値が「確実」であると、再度
文字フィルタ操作が完了し、初期的なパス操作へのリタ
ーンがなされる。ステータス値が「可能」であると、文
字フィルタ操作が継続され、中間フィルタ操作が行われ
る。 中間フィルタ操作(第21図を参照して詳細に後述す
る)は、その選択した文字候補に対応する前以て計算さ
れており且つ格納されている中間リング状クラスタを使
用する。未知の文字の特徴ベクトルがこれらの中間リン
グ状クラスタに対応する中間可能性範囲の全ての外側に
存在する場合には、その未知の文字が選択した文字候補
であることは不可能と思われ且つその選択した文字候補
に対するステータス値は「不可能」に設定される。入力
特徴ベクトルが対応する中間確実範囲の少なくとも1つ
の内側に存在する場合には、その未知の文字は選択した
文字候補であることが確実であると決定され、その場合
には、その選択した文字候補を包含して可能性の組が形
成され、且つその選択した文字候補に対するステータス
値を「確実」に設定する。入力特徴ベクトルが少なくと
も1つの中間信頼性環状形の内側であるが、全ての中間
確実範囲の外側に存在している場合には、その選択した
文字候補に対する信頼性の値が計算され且つ信頼性アレ
イ内に格納される。 中間フィルタ操作が完了した後に、第16図の初期的な
パス操作へのリターンが行われる。 粗いフィルタ 第20図は、第19図の文字フィルタ操作に関連して説明
した粗いフィルタ操作を詳細に示したフローチャートで
ある。粗いフィルタ操作への入力は文字候補であって、
そのステータス値はステータスアレイ内に格納されてお
り「可能」である。即ち、文字候補は、プレスキャン操
作(第13図)又はアスペクト比フィルタ(第19図)の何
れかによって「不可能」とは思われていなかった。粗い
フィルタ操作の期間中、前に説明した如く予め計算され
ており且つメモリ内に格納されている選択した文字候補
に対する粗いリング状クラスタは、未知の入力文字が選
択した文字候補であることが確実か、可能か、又は不可
能かの何れかであるかを決定する為に使用される。メモ
ル内に格納されており且つ粗いフィルタ操作の期間中に
使用される粗いリング状クラスタのフィールドは以下の
通りである。 平均 可能性境界 確実性境界 エイリアン距離 不良セグメント距離 第20図を参照すると、粗いフィルタ操作の第1ステッ
プは、選択した文字候補用の粗いリング状クラスタを選
択することである。入力特徴ベクトルと粗いリング状ク
ラスタとの間の距離を計算する。次いで、この距離が選
択した粗いリング状クラスタに対応する可能性境界より
も小さいか否かが判別される。小さくない場合には、未
知の入力文字が文字候補であることが不可能であると判
別される。何故ならば、与えられた文字候補に対する粗
いリング状クラスタに対応する可能性範囲は、その文字
候補に対する全ての基準特徴ベクトルを包含する様に構
成されているからであり、且つその半径は増加されて基
準の組は全ての基準ベクトルを包含するものではないと
いう事実を考慮に入れる。文字候補に対するステータス
値は「不可能」に設定され、且つ付加的な文字候補の解
析の為に、第19図の文字フィルタ操作へのリターンがな
される。 該距離が可能性境界よりも小さいと、次に、この距離
が粗いリング状クラスタの確実性境界よりも小さいか否
かが決定される。小さい場合には、未知の文字は選択し
た文字候補であることが確実性を持って決定される。文
字候補に対するステータス値は、「確実」に設定され、
且つその文字候補を包含する可能性の組が形成される。
更に、第19図の文字フィルタ操作へリターンがなされる
前に、もう2つの操作が行われる。即ち、クイックリス
トのアップデートとフォント情報のアップデートであ
る。これらの2つの操作は、文字が確実性を持って認識
される場合にはいつでも行われる。 クイックリストアップデート操作は、クイックリスト
の頭に以下の3つの充填されたフィールドを有するスロ
ットを挿入することによって行われる。 平均アドレス 確実性境界 ラベル 平均アドレスは、確実性を持って未知の入力文字を認識
する為に使用されるリング状クラスタの平均のメモリ内
のアドレスである。確実性境界は、そのリング状クラス
タの確実性境界である。ラベルはそのリング状クラスタ
のラベル(文字候補)である。この情報は、前述したク
イックチェック操作によって使用される。 フォント情報アップデート操作は、この未知入力文字
の高さと幅を等しくさせる為に、確実性を持って未知入
力文字を分類する為に今使用された文字候補に対する高
さ値と幅値をアップデートすることを有している。確実
性を持って分類されない将来の入力文字に対して、これ
らの高さ及び幅の値は、その入力文字が不適切にセグメ
ント化されるか否かを判別する不良セグメント操作を助
ける為に使用される。 第20図を再度参照すると、未知の文字の特徴ベクトル
からの距離が選択した粗いリング状クラスタと関連する
可能性境界よりも小さいが、確実性境界よりも小さくは
ない場合には、未知の文字がその選択した文字候補であ
る可能性があると判断し、その場合には、その文字候補
に対するステータスをその「可能」な値に維持する。そ
の文字候補の付加的な解析の為に第19図の文字フィルタ
操作へリターンする前に、もう2つの操作を行う。 第1に、信頼性アレイ内に格納されている文字候補用
の信頼性の値をアップデートさせる。粗いフィルタ操作
の現在の実施例においては、このアップデートは、未知
の文字の特徴ベクトルから選択したリング状クラスタの
平均への距離がそのリング状クラスタのエイリアン距離
よりも小さい場合にのみ発生する。記憶される通り、保
守的な手筈として、リング状クラスタの確実性境界はエ
イリアン距離よりも幾分小さい値に設定される。平均へ
の距離が確実性境界よりも小さくないが、エイリアン距
離よりも小さいと、その未知の文字は文字候補であり且
つ非常に高い信頼性を表す信頼性の値が割り当てられる
「非常にあり得る」ものと考えられる。1実施例におい
て、低い信頼性の値は高い信頼性を表している。0の信
頼性の値は、未知の文字が確実性を持って分類されたこ
とを表す為に予約されており、且つ1の信頼性の値は
「非常にあり得る」ことを表す為に予約されている。従
って、平均への距離がエイリアン距離よりも小さいと、
その文字候補に対する信頼性の値は1に設定される。 第2に、不良セグメント可能フラッグの値がアップデ
ートされる。未知の文字の特徴ベクトルから選択した文
字候補の平均への距離が選択した粗いリング状クラスタ
の不良セグメント距離よりも小さいと、即ちその特徴ベ
クトルが何等不良セグメント基準ベクトルを包含してい
なかった特徴ベクトルスペース内の範囲内に存在してい
る場合に、該不良セグメント可能フラッグの値は「偽」
に設定される。 中間フィルタ 第19図の文字フィルタ操作内に言及された中間フィル
タ操作は、第21図のフローチャートに詳細に示されてい
る。中間フィルタ操作への入力は文字候補であって、そ
の現在のステータス値はステータスアレイ内に格納され
ており、「可能」である。この中間フィルタは、その文
字候補のステータスを再評価する為に、この文字候補と
関連する中間リング状クラスタを使用する。前述した如
く、各文字候補に関連して、小さな組の予め計算された
中間リング状クラスタ(1実施例においては、典型的に
6個)が設けられている。メモリ内に格納されており且
つ中間フィルタ操作期間中に使用される中間リング状ク
ラスタのフィールドは以下の如くである。 平均 確実性境界 可能性境界 信頼性境界 エイリアン距離 不良セグメント距離 第22図は、未知の文字特徴ベクトルと中間リング状ク
ラスタとの間に存在することの可能な4つの可能性のあ
る関係を示している。第22図は2次元的な図であるが、
特徴ベクトル及び平均は、多次元空間における点を表す
ベクトルである、ことを記憶しておくことが重要であ
る。第22図は、粗い可能性スフィア即ち範囲を示してお
り、その中に未知の文字特徴ベクトルが存在せねばなら
ない。何故ならば、そうでないと、粗いフィルタ操作の
期間中に除外されてしまっているはずだからである。 ケース1は、未知の文字特徴ベクトルが、選択した文
字候補に対して中間リング状クラスタに対応する全ての
中間可能性範囲の外側に存在している。前述した如く、
中間リング状クラスタに対応する中間可能性範囲は多次
元空間であり、その中心は中間リング状クラスタの平均
であり且つその半径は中心リング状クラスタの可能性境
界である。各文字に対しての中間可能性範囲は、クラス
タリング段階中に、構成されてその文字に対する全ての
基準ベクトルの空間をカバーする。これらの範囲は、ク
ラスタ後処理段階中に多少拡張されて、基準の組は全て
の基準ベクトルを包含するものではなかったという事実
に配慮する。ケース1における如く、入力特徴ベクトル
が、検査中の文字候補にの全ての中間可能性範囲の外側
に存在する場合には、その未知の文字がその文字候補で
あることが不可能であると結論する。 ケース2は、未知の文字特徴ベクトルが、その文字候
補に対しての中間リング状クラスタに対応する少なくと
も1つの中間確実性範囲内に存在する場合である。前述
した如く、中間リング状クラスタに対応する中間確実性
範囲は、その中心がそのリング状クラスタの平均であり
且つその半径がそのリング状クラスタの確実性境界であ
る範囲である。各文字に対する中間確実性範囲は、クラ
スタリング段階の間に、その文字に対する基準ベクトル
を包含するエイリアン基準ベクトルは包含しない様に構
成される。ケース2における如く、未知の文字特徴ベク
トルが検査中の文字候補に対する少なくとも1つの中間
確実性範囲の内側に存在する場合には、その未知の文字
はその文字候補であると結論される。この場合、その文
字候補を包含する可能性の組が構成される。 ケース3は、未知の文字特徴ベクトルが、検査中の文
字候補に対しての中間リング状クラスタに対応する少な
くも1つの中間信頼性環状形内に存在するが、何れの中
間確実性範囲内には存在しない場合である。前述した如
く、中間リング状クラスタに対応する中間信頼性範囲
は、その中心がそのリング状クラスタの平均であり且つ
その半径がそのリング状クラスタの信頼性境界である範
囲である。中間リング状クラスタに対応する中間信頼性
環状形は、その中間リング状クラスタの中間信頼性範囲
内であるがその中間確実性範囲の外側に存在する特徴ベ
クトルの組である。ケース3における如く、未知の文字
特徴ベクトルが少なくとも1つの中間信頼性環状形内の
内側に存在するが、何れかの中間確実性範囲内には存在
しない場合には、その未知の文字は検査中のその文字候
補であることが可能であると結論され、且つその候補に
対する信頼性の値が計算される。 ケース4は、未知の文字特徴ベクトルが、少なくとも
1つの中間可能性範囲内に存在するが、何れの中間信頼
性範囲の内側にも存在しない場合である。この場合、そ
の未知の文字はその文字候補であることが可能であると
結論されるが、信頼性の値はその候補へは割り当てられ
ない。信頼性の値は、第17図を参照して以下に説明する
第2パス操作の間に割り当てられる。 第21図を参照すると、中間フィルタ操作は4つの初期
化ステップで開始する。第1の初期化ステップは、一時
的なステータス変数を「不可能」に設定する。中間フィ
ルタ操作中に、未知の文字特徴ベクトルが検査中の文字
候補に対しての少なくとも1つの中間可能性範囲の内側
に存在することが決定されると、一時的なステータスは
「可能」へ変化される。第2の初期化ステップは、最良
誤差変数を最大値へ設定する。本発明の1実施例におい
ては、最良誤差変数は4バイト変数であり、それはこれ
ら4バイトで表すことの可能な最大の正の整数に初期化
される。未知の文字の特徴ベクトルを包含する各中間信
頼性環状体に対して、特徴ベクトルから対応する中間確
実性範囲への距離を計算し且つ最良誤差値をこれらの距
離の最小値に等しく設定される。この最良誤差値は、そ
の文字候補に対する信頼性の値を計算する為に使用され
る。第3の初期化ステップは、「非常にあり得る」フラ
ッグを「偽」へ設定する。未知の文字の特徴ベクトルか
らその文字候補に対する或る中間リング状クラスタの平
均への距離が対応するエイリアン距離よりも小さいと、
「非常にあり得る」フラッグは「真」にセットされる。
このフラッグの値は、信頼性の値が与えられる前に検査
される。第4で最後の初期化ステップは、検査する為に
文字候補に対しての最初の中間リング状クラスタを選択
することである。 選択した中間リング状クラスタを以下の如く検査す
る。最初に、未知の文字特徴ベクトルと選択した中間リ
ング状クラスタの平均との間の距離(以下、「平均距
離」ともいう)を計算する。 この平均距離が、中間リング状クラスタの可能性境界
よりも小さくないと、既ち未知の文字特徴ベクトルが選
択した中間リング状クラスタの可能性範囲内に存在しな
いと、現在の中間リング状クラスタの検査を完了する。
選択した文字候補に対して次の中間リング状クラスタを
検査することによって中間フィルタ操作を継続する。 一方、平均距離が選択した中間リング状クラスタの可
能性境界よりも小さいと、一時的ステータス変数は「可
能」に設定される。次に、平均距離が現在の中間リング
状クラスタの確実性境界より小さいか否かを判別する。
小さい場合には、即ち未知の文字特徴ベクトルが現在の
中間リング状クラスタの確実性範囲の内側に入ると、未
知の文字は検査中の文字候補であると確実性を持って決
定されることとなる。この場合に、文字候補のステータ
スは「確実」に設定され、その文字候補を含んだ可能性
の組が形成され、前述した如くクイックリスト及びフォ
ント情報がアップデートされ、且つ第14図の文字フィル
タ操作へのリターンがなされる。 一方、平均距離が確実性境界よりも小さくないと、不
良セグメント可能フラッグアップデートされる。平均距
離が選択した中間リング状クラスタに対応する不良セグ
メント距離よりも小さい場合には、不良セグメント可能
フラッグが「偽」へ設定される。 次に、平均距離が選択した中間リング状クラスタの信
頼性境界と比較される。平均距離が信頼性境界よりも小
さいと、更に詳細に第23図のフローチャートを参照して
後述する如く、最良誤差変数及び「非常にあり得る」フ
ラッグがアップでートされる。最良誤差変数及び「非常
にあり得る」フラッグは両方共、未知の文字の特徴ベク
トルが文字候補に対応する中間確実性範囲の内側に存在
しない場合に、信頼性の値を計算する為に使用される。 現在の中間リング状クラスタの検査は完了する。検査
されるべき文字候補に対して更に中間リング状クラスタ
が存在する場合には、次の中間リング状クラスタが選択
され、且つ未知の入力文字特徴ベクトルと中間リング状
クラスタの平均との間の距離を計算するステップから開
始してその処理を繰り返し行う。 一方、検査されるべき文字候補に対して既に中間リン
グ状クラスタが存在しない場合には、一時的ステータス
変数が未だ「不可能」に設定されているか否かを次に判
別する。設定されている場合には、未知入力文字はその
文字候補である可能性はないと判断され、その文字候補
に対するステータス値が「不可能」と設定され、第19図
の文字フィルタ操作へのリターンがなされる。一時的ス
テータス変数が「不可能」に設定されないと、未知の入
力文字が文字候補である可能性があると判断される。文
字候補に対するステータスはその「可能」の値を維持す
る。第23図のフローチャートに関連して更に詳細に説明
する如く、最良誤差変数及び「非常にあり得る」フラッ
グを使用して、新たな信頼性値を計算する。新たな信頼
性の値が信頼性アレイ内に格納されている文字候補に対
応する値よりも小さい(即ち、信頼性の程度がより大き
い)場合には、信頼性アレイ内に格納されている値はア
ップデートされてこの新たな信頼性の値と等しくなる。 最良誤差及び「非常にあり得る」フラッグのアップデー
ト 第23図のフローチャートに示した最良誤差及び「非常
にあり得る」フラッグのアップデート操作は、中間フィ
ルタ操作(第21図)及び微細解析操作(第25図)の両方
によってコールされる。その目的は、信頼性の値を計算
する為に使用された最良誤差及び非常にあり得るフラッ
グをアップデートすることである。一般的に、最良誤差
の値のみを使用して信頼性の値を計算する。然し乍ら、
「非常にあり得る」フラッグが「真」に等しいと、信頼
性の値は1セットされ、非常に高い信頼性を表す。 この操作は、最初に、「非常にあり得る」フラッグが
アップデートされるべきであるか否かを判別する為のチ
ェックを行う。それが既に「真」に等しいと、現在のリ
ング状クラスタを更に解析することによって何等信頼性
の値が改良されることはないので、その操作は完了す
る。そうではない場合、未知の文字の特徴ベクトルとリ
ング状クラスタの平均との間の平均距離がそのリング状
クラスタのエイリアン距離と比較される。その平均距離
がエイリアン距離よりも小さい場合には、「非常にあり
得る」フラッグは「真」にリセットされ且つ操作が完了
する。 操作は、次に、最良誤差値がアップデートされるべき
か否かを判別する為のチェックを行う。このことは、最
初に、平均距離とリング状クラスタの確実性境界との間
の差異と等しくセットすることによって行われる。この
誤差が以前に格納した最良誤差よりも小さい場合には、
得られる最良誤差はこの新たに計算された誤差に等しく
アップデートされる。 新たな信頼性の計算 第24図は新たな信頼性の計算操作の1実施例を示して
おり、それは中間フィルタ操作(第21図)及び微細解析
操作(第25図)の両方によってコールされる。それは、
入力特徴ベクトルが確実性範囲の内側には入らなかった
が、少なくとも1つの信頼性環状形内に入った場合に、
信頼性の値を計算する為に使用される。最良誤差及び
「非常にあり得る」フラッグはこの信頼性の値を設定す
る為に使用される。 「非常にあり得る」フラッグが「真」に等しいと、新
たな信頼性の値は1と等しくセットされ、操作は完了す
る。そうでない場合には、最良誤差フィールドがその初
期化最大可能値にセットされ、未知の文字の特徴ベクト
ルが信頼性範囲内に入らなかった時には、新たな信頼性
を255にセットされ、「信頼性無し」を表し、操作は完
了する。 そうでない場合には、新たな信頼性値を下記式を使用
して計算する。 新たな信頼性の値=(最良誤差/28)+20の信頼性の
値は、未知の文字が確実性を持って認識されたことを表
す為に予約されている。1の信頼性の値は、「非常にあ
り得る」ことを表すために予約されている。最良誤差は
28で割っているが、これは、本実施例においては、信頼
性の値が単一のバイトで格納されているからである。 第2のパス 第17図は、第13図の可能性の組の計算操作に関連して
前に説明した第2のパス操作を詳細に示したフローチャ
ートである。入力は検査されるべき文字入力のリストで
ある。このリストは、文字候補リスト取得操作(第15
図)によって発生され、且つ初期的なパス操作(第16
図)によってフィルタされる。初期的なパス操作によっ
て「不可能」へ変化されたステータス値である文字候補
は、この第2のパス操作によっては検査されない。重要
なことであるが、この段階において、入力文字候補リス
ト上の文字のどれもが初期的なパス操作の期間中に「確
実」と思われたものではない。何故ならば、そうでなけ
れば、第13図の可能性の組の計算操作は、初期的なパス
操作の直後に終了されているからである。 第2のパス操作は、入力文字候補リスト上の最初の文
字を選択することによって開始する。この文字候補のス
テータス値が「不可能」であると、即ち、未知の入力文
字が文字候補であることが不可能であると前に判別され
ている場合には、この文字候補に付いて更に検査が行わ
れることはなく、本第2のパス操作は、入力文字候補リ
スト上の次の文字を検査することにより継続される。 文字候補のステータス値が「不可能」ではないと、微
細解析操作が、第25図のフローチャートに関連して説明
する如くに、行われる。この微細解析操作は、その未知
の入力文字を分類することを試みる為にその文字候補に
対して予め計算されている微細リング状クラスタを使用
する。未知の文字の特徴ベクトルが選択した文字候補に
関連する微細確実性範囲の1つの中に存在する場合に
は、微細解析操作がその文字候補を含む可能性の組を作
成し、その文字候補のステータス値を「確実」にリセッ
トする。未知の文字の特徴ベクトルが微細確実性範囲の
何れにも存在しない場合には、微細解析操作はその文字
候補に対する信頼性の値を変更させることは可能であ
る。 微細解析操作の後に、現在の文字候補に対するステー
タス値が「確実」に変化された場合、「終了」フラッグ
が「真」にセットされ、未知の入力文字が確実性を持っ
て認識され且つ可能性の組が作成されたことを表し、第
13図の可能性の組の計算操作へのリターンがなされる。 一方、現在の文字候補に対するステータス値が「確
実」ではない場合、次に、入力文字候補リスト上に検査
すべき文字候補がもっとあるか否かが判断される。存在
しないと、第2のパス操作は完了する。もっと文字候補
が存在する場合には、入力文字候補リスト上の次の文字
候補が選択され、その文字候補の検査が、そのステータ
ス値が「不可能」であるか否かを判別するチェックステ
ップから開始される。 微細解析操作 微細解析操作(第25図)への入力は、その現在のステ
ータス値が「可能」である文字候補である。微細解析操
作は、その文字候補のステータスを再評価する為に、そ
の文字候補に関連する微細リング状クラスタを使用す
る。前述した如く、各文字候補に関連して、1組の予め
計算された微細リング状クラスタ(1実施例において
は、典型的に30乃至100)が設けられている。この微細
リング状クラスタのフィールドは、メモリ内に格納され
ており、微細解析操作の期間中に使用されるが、以下の
項目を有している。 平均 確実性境界 信頼性境界 エイリアン距離 不良セグメント距離 未知の文字の特徴ベクトルと文字候補に対する微細リ
ング状クラスタとの間に、3つの可能な関係が存在し得
る。第1の場合は、未知の文字の特徴ベクトルが1つ又
はそれ以上の微細確実性範囲内に入る場合である。前に
定義した如く、微細リング状クラスタに対応する微細確
実性範囲は、その中心が微細リング状クラスタの平均で
あり且つその半径がその微細リング状クラスタの確実性
境界である範囲である。文字候補に対する微細確実性範
囲は、その文字候補に対する全ての基準ベクトルの空間
をカバーし且つエイリアン基準ベクトルを含まない様に
構成されている。未知の文字の特徴ベクトルが少なくと
も1つの微細確実性範囲内に入ると、その未知の文字は
その文字候補であると確実性を持って判断される。 第2の場合においては、未知の文字の特徴ベクトルが
その文字候補に対する全ての微細確実性範囲の外側に存
在する。前述した如く、微細リング状クラスタに対応す
る微細信頼性範囲は、その中心が微細リング状クラスタ
の平均であり且つその半径がその微細リング状クラスタ
の信頼性境界である範囲である。信頼性境界に対する値
は、クラスタ後処理段階中にセットされて、基準の組が
全ての包含するものではなかったという事実を考慮に入
れる。未知の文字の特徴ベクトルが全ての信頼性の範囲
の外側に存在する場合、中間フィルタ操作の期間中に文
字候補へ割り当てられた信頼性の値は微細解析操作によ
っては変化されない。 第3の場合においては、未知の文字特徴ベクトルは幾
つかの微細信頼性環状形内に入るが、何れかの微細確実
性範囲の中には入らない場合である。前述した如く、微
細リング状クラスタに対応する微細信頼性環状形は、微
細リング状クラスタに対応する信頼性範囲内に入るがそ
の確実性範囲の外側にある全ての特徴ベクトルの組であ
る。この場合、中間フィルタ操作に関して説明した方法
を使用して、微細信頼性の値を計算する。この微細信頼
性の値が中間フィルタ操作期間中に得られた信頼性の値
よりも小さい(即ち、より一層の信頼性がある)場合に
は、信頼性アレイ内に格納されているその文字候補に対
する信頼性の値を該微細信頼性の値と等しくアップデー
トする。 第19図のフローチャートを参照すると、微細解析操作
は3つの初期化ステップで開始される。最初の初期化ス
テップは、最良誤差変数を4バイトフィールドで格納さ
れることの可能な最大数へセットする。第2初期化ステ
ップは、「非常にあり得る」フラッグを「偽」へセット
する。第3の初期化ステップは、検査すべき次の微細リ
ング状クラスタを、その文字候補に対する最初の微細リ
ング状クラスタへセットする。 次に、未知の文字の特徴ベクトルと微細リング状クラ
スタの平均との間の距離が計算される。この距離が微細
リング状クラスタの確実性境界よりも小さいと、未知の
文字が文字候補であると確実性を持って決定される。こ
の場合、その文字候補に対するステータス値は「確実」
にリセットされ、その文字候補を包含する可能性の組が
作成され、クイックリストがアップデートされ、フォン
ト情報がアップデートされ、且つ第17図の第2のパス操
作へのリターンがなされる。 この距離が微細リング状クラスタの確実性境界よりも
小さいと、不良セグメント可能フラッグをアップデート
することによって操作が継続される。平均距離が選択し
た微細リング状クラスタに対応するエイリアン距離より
も小さいと、不良セグメント可能グラッグは「偽」へセ
ットされる。次に、平均距離は微細リング状クラスタの
信頼性境界と比較される。平均距離が信頼性境界よりも
小さいと、最良誤差フィールド及び非常にあり得るフラ
ッグが、第23図に関して説明した如く、アップデートさ
れる。 この最良誤差フィールド及び非常にあり得るフラッグ
の行われることのあるアップデートに続いて、又は平均
距離が信頼性境界よりも小さくないと判断された場合に
は、検査されるべき文字候補に対して付加的な微細リン
グ状クラスタがあるか否かが判断される。 検査されるべき付加的な微細リング状クラスタがある
場合には、次の微細リング状クラスタが選択され、且つ
未知の入力文字の特徴ベクトルと現在の微細リング状ク
ラスタの平均との間の距離を計算するステップから開始
して本微細解析処理が繰り返し行われる。 一方、検査されるべき文字候補に対してもう既に微細
リング状クラスタが存在しない場合には、微細解析操作
は、未知の文字を確実性を持って分類することが不成功
に終ったこととなる。第24図のフローチャートに関連し
て説明した如く、最良誤差フィールド及び非常にあり得
るフラッグを使用して、新たな信頼性の値が計算され
る。この新たな信頼性が、初期的なパス操作の期間中に
セットされ且つ信頼性アレイ内に格納されている信頼性
の値よりも小さいと、格納されている信頼性の値はこの
新たな信頼性の値と等しくアップデートされる。 可能性の組の不確実化 可能性の組を不確実性とさせる操作は、文字候補リス
ト取得操作によって提供されたリスト上の全ての文字候
補が初期的なパス操作及び第2のパス操作によって検査
された後に、どれも「確実性」のものではなかった場合
に、可能性の組を作成する為に使用される。 第18図は可能性の組を不確実性とさせる操作を示した
フローチャートである。最初のステップは、文字候補の
候補リストを作成することである。このリストは、ステ
ータスアレイ内に格納される如く、そのステータスが
「可能」であり且つ、信頼性アレイ内に格納される如
く、その信頼性が初期化した最大値信頼性の値よりも小
さい全ての文字候補を有している。次に、このリスト上
の文字候補の数がチェックされる。文字候補数が0に等
しいと、予め定義されている非認識文字を含む非認識可
能性の組が形成され、未知の文字は分類されなかったこ
とを表す。文字候補数が1に等しいと、信頼性アレイ内
に格納されているその候補に対する信頼性の値と共に、
その単一の文字候補を包含する可能性の組が形成され
る。 候補数が1より大きいと、次のステップは、最高の信
頼性を持った候補(即ち、最低の信頼性の値を持った候
補)が候補リストの頭にある様に、信頼性の値が増加す
る順番によって候補リストも類別することである。次
に、候補リストは2つのステップでトランケート即ち丸
められる。その最初のステップは、候補が可能性の組の
中に収まる様に候補リストをトランケートする。本発明
の1実施例においては、可能性の組の中に格納すること
の可能な候補の最大数は10である。従って、格納されて
いる候補リスト上に10を越える候補がある場合には、10
番目の文字候補の後は候補はトランケース即ち切り捨て
られる。2番目のトランケートステップは、類別した信
頼性リストのトップにある候補に関連する信頼性よりも
著しく低い(即ち、著しく大きな信頼性の値の)信頼性
を持った候補を取り除くべく候補リストをトランケート
する。本発明の1実施例においては、このトランケート
操作は以下の式を使用して行われる。 Kt=1.5K0+5 尚、K0は候補リストの頭における文字候補の信頼性の値
であり、Ktはトランケート操作の値である。Ktよりも大
きいか又はそれに等しい信頼性の値を持った文字候補は
候補リストからトランケート即ち切り捨てられる。 候補リストが格納され且つトランケートされた後に、
又は候補リストが1つの文字候補のみを有するものであ
る場合に、関連する信頼性と共に文字候補リスト上の文
字候補を包含する可能性の組が作成される。 1実施例においては、今形成された可能性の組が不良
セグメントチェック操作(第26図)へ送られる。この不
良セグメントチェック操作の目的は、未知の文字が、実
際には、単一の適切にセグメント化された文字ではない
かどうかの判別をする為である。その判別が肯定である
場合には、非認識可能性の組が形成され、それは、所望
にり、付加的なデバイスにフラッグして、不適切にセグ
メント化された文字を処理する。 不良セグメント検査 第18図の可能性の組を不確実性とさせる操作において
言及されている不良セグメント検査操作は、確実性を持
って分類されていない与えられた未知の入力文字に対し
て、入力文字が「不良」であるか、即ち、単一の適切に
セグメント化された文字であるか否かを判別する為に使
用される。未知の入力が「不良」であると判別される
と、それは、第18図の可能性の組を不確実性とさせる操
作によって形成された可能性の組を非認識可能性の組と
置換させる。 判別は以下の如くになされる。不良セグメント可能フ
ラッグが「偽」にセットされると、未知の文字は「不
良」ではないと判断され且つ可能性の組は修正されな
い。不良セグメント可能フラッグが「真」にセットされ
ると、未知の文字は「不良」であると判断され且つ可能
性の組は非認識可能性の組と置換される。 不良セグメント可能フラッグに基づいてなされる判断
の論理は以下の如くである。前述した如く、不良セグメ
ント可能フラッグは可能性の組の作成操作の期間中に
「真」へ初期化される。粗いフィルタ、中間フィルタ、
又は微細解析操作の期間中に、或るリング状クラスタに
対して、未知の文字の特徴ベクトルからリング状クラス
タの平均への距離がそのリング状クラスタの不良セグメ
ント距離よりも小さいことが判別された場合にのみ、そ
の値は「偽」へリセットされている。前述した如く、予
め計算した不良セグメント距離は、リング状クラスタの
平均から不良セグメント基準組B内の最も近い不良セグ
メント基準ベクトルへの距離である。従って、不良セグ
メント可能フラッグが「偽」へセットされると、未知の
文字の特徴ベクトルは何等不良セグメント基準特徴ベク
トルを包含することのない特徴ベクトル空間内の範囲内
に存在しており、従って未知の文字は不良セグメントで
はないと判断される。一方、不良セグメント可能フラッ
グが未だ「真」にセットされている場合には、不良セグ
メント空間とオーバーラップしなかった未知の文字の特
徴ベクトルを包含する範囲は特徴ベクトル空間内に発見
されず、従って未知の入力は「不良」であると結論され
る。 付加的な不良セグメント検査技術 不良セグメント基準組Bが十分に完全ではない場合、
丁度上に説明した不良セグメント検査技術に関連して使
用することの可能な3つのそのほかの技術がある。 1.フォント従属不良セグメント検査 2.単純合同検査 3.決定的合同検査 前述した不良セグメント検査技術の場合における如
く、これらの技術は、確実性を持って分類されなかった
未知入力文字に対してのみ適用される。上にリストした
最後の2つの技術、即ち単純合同検査及び決定的合同検
査は、前に説明した不良セグメント検査操作又はフォン
ト従属不良セグメント検査よりも汎用性は少なく、それ
らは、未知の文字が「不良」であるか否かを決定するも
のではなく、未知の文字が合同乃至は合体であるか否か
を決定すべく構成されている。然し乍ら、多くの「不
良」入力文字は合同であり、従って合同検査技術は「不
良」入力の大多数に対して有効である。フォント従属不
良セグメント検査操作は、不良ステータスフラッグを、
「YES」、「NO」、又は「不定」の何れかへセットす
る。不良ステータスフラッグが「YES」にセットされる
と、未知の文字は実際に「不良」であり且つその可能性
の組を非認識可能性の組と置換されるべきであることを
表す。不良ステータスフラッグが「NO」へセットされる
と、未知の文字が「不良」ではないと判断され且つ可能
性の組を変更すべきではないことを表す。不良ステータ
スフラッグが「不定」にセットされると、それは決定を
行うのに情報が不充分であったことを表す。同様に、単
純合同検査操作は、合同ステータスフラッグを「YE
S」、「NO」、又は「不定」の何れかへセットする。決
定的合同検査操作は、該合同ステータスフラッグを「YE
S」か又は「NO」の何れかへセットする。 これら3つの操作を結合する1方法が第26図にフロー
チャートで示されている。単純合同検査操作は、フォン
ト従属不良セグメント検査操作が不良ステータスフラッ
グを「不定」へセットした場合にコールされる。決定的
合同検査操作は、単純合同検査操作が合同ステータスフ
ラッグを「不定」にセットした場合にコールされる。決
定的合同検査は、常に、合同ステータスフラッグを「YE
S」又は「NO」の何れかへセットする。不良ステータス
フラッグ又は合同ステータスフラッグの何れかがこれら
の操作の1つによって「YES」にセットされると、可能
性の組は非認識可能性の組と置換される。 決定的合同検査操作は、未知入力文字が合同乃至は合
体であるか否かに関して最良の推定を行う為の蓋然的情
報であった。1実施例においては、この最良の推定にお
ける誤差の可能性の為に、決定的合同検査操作は使用さ
れていない。フォント従属不良セグメント検査操作及び
単純合同検査操作の両方が「不定」であると、未知の入
力文字は「条件付き循環」される。即ち、可能性の組の
コピーがメモリ内に格納される。例えばノイズ除去プロ
セサ又はセグメント分断プロセサ等のその他のプロセサ
(不図示)に対して、可能性の組を形成したセグメント
に関して作業させるために非認識可能性の組を出力させ
る。この再処理されるセグメントに対応する特徴ベクト
ルは、次いで、分類モジュールへリターンされる。次い
で、分類処理が、新たな可能性の組が古いものよりも良
好に見えるか否かを判別し、良く見える場合には、新た
な可能性の組を出力させる。そうでない場合には、古い
可能性の組を出力させる。 フォント従属不良セグメント検査 フォント従属不良セグメント検査操作は、不良セグメ
ントフラッグを、「YES」、「NO」、「不定」の何れか
へセットする。この操作は、決定を行う為に、読取中の
現在のタイプのフォントに関する情報を使用する。例え
ば、確実性を持って分類されていない現在の未知の文字
に対する可能性の組が文字候補「n」を有しており且つ
前の入力が確実性を持って「n」として分類されてお
り、且つその最後の「n」は確実性を持って分類された
のでタイプのフォント変化は無かったと信じられる場合
には、その最後の「n」に関する情報は、現在の未知の
入力文字が「n」であることが可能であるか否かを決定
する為に、現在の未知の入力文字に関する情報と比較さ
れる。1実施例において、確実性を持って分類された入
力文字に関して使用される情報はその高さ及び幅であ
る。前述した如く、高さ及び幅のアレイ内に格納されて
いる文字候補に対応する高さ及び幅の値は、確実性を持
ってその文字候補として分類された最後の未知入力文字
の高さ及び幅である。フォント従属不良セグメント検査
操作は、可能性の組における文字候補の格納されている
高さ及び幅の値と共に、現在の未知の入力の高さ及び幅
を使用し、且つ一貫性に関して計算する。2組の高さ一
幅の値、即ち(高さ1,幅1)及び(高さ2,幅2)に対応
する高さ一幅誤差は以下の式によって定義される。 誤差=|高さ1−高さ2|+|幅1−幅2|2組の高さ一幅
の値は、この高さ一幅の誤差が或る予め確立された一貫
性スレッシュホールドの値(1実施例においては、6)
よりも小さい場合には、「一貫性」があると言われる。 未知の入力文字の幅及び高さが可能性の組の少なくと
も1構成要素の格納されている高さ及び幅と一貫性があ
る場合には、不良セグメントフラッグは「NO」へセット
される。未知の入力文字の幅及び高さが可能性の組の全
ての構成要素の格納されている高さ及び幅の値と一貫性
がない場合、不良セグメントステータスフラッグは「YE
S」へセットされる。幅及び高さが未知の文字の幅及び
高さと一貫性のある可能性の組の構成要素が無いが、未
だに幅及び高さが割り当てられていない少なくとも1つ
の構成要素が可能性の組中にある場合には、この操作は
判断を留保し且つ不良ステータスフラッグを「不定」へ
セットする。 1実施例においては、未知の文字と一貫性のないと思
われる可能性の組の構成要素は「疑わしい」としてフラ
ッグが立てられる。その可能性の組が非認識可能性の組
と置換されないと、これらのフラッグは、例えばサブラ
インチェッカー又は文脈モジュール(不図示)等の後処
理モジュールによって使用されて、可能性の組のどの構
成要素を選択するかに関する一層良い情報に基づく決定
をすることが可能である。 以下に幾つかの例を示す。 未知文字の高さ 20 未知文字の幅 25 確実性を持って分類された最後の「n」の高さ 20 確実性を持って分類された最後の「n」の幅 15 確実性を持って分類された最後の「r」の高さ 21 確実性を持って分類された最後の「r」の幅 13 確実性を持って分類された最後の「m」の高さ 20 確実性を持って分類された最後の「m」の幅 26 確実性を持って分類された最後の「+」の高さ未だ値割
当無 確実性を持って分類された最後の「+」の幅未だ値割当
可能性の組 不良セグメントステータス設定 {n,r} YES {n,m} NO {m,+} NO {n,+} 不定 タイプのフォント変化に起因する不正確な判定を回避
する為に、タイプのフォント変化の証拠が無い場合に
は、格納されているタイプのフォント情報は消去され
る。1実施例において、タイプのフォント変化があった
との決定は以下の如くに行われる。入力文字が或る特定
の文字候補として確実性を持って分類され、且つ入力文
字の高さ及び幅が文字候補に対する格納されている高さ
及び幅と一貫性(上述した如く)がない場合、フラッグ
がセットされ、タイプのフォント変化の疑いがあること
を表す。或る特定の文字候補として確実性を持って分類
される次の入力文字の高さ及び幅もその文字候補に対す
る格納されている高さ及び幅の情報と一貫性が無い場
合、タイプのフォント変化があったと結論され且つ高さ
及び幅のアレイは「未だ値割当無」を表す値へ再度初期
化される。控え目な手法として、タイプのフォント変化
があったか否かを判別する為に使用される一貫性スレッ
シュホールド値は、フォント従属不良セグメント検査操
作によって使用される一貫性スレッシュホールド値より
も低い。1実施例においては、タイプのフォント変化が
あったか否かを決定する為に使用される一貫性スレッシ
ュホールド値は4である。この様に、フォント従属不良
セグメント検査操作及び後述する合同検査操作は、格納
されているタイプのフォント情報が現在の未知の文字に
適用可能であることがかなり確実である場合にのみ、前
に格納されたタイプのフォント情報を使用する。 単純合同検査操作 単純合同検査操作技術は、合同ステータスフラッグ
「YES」、「NO」、「不定」の何れかにセットする。こ
の操作の最初のステップは2つのランドマーク(landma
rk)幅の値を確立するためのものである。即ち、広い単
一ランドマーク値及び狭い合同ランドマーク値である。
これらの値を確立する為に使用される方法は以下の通り
である。広い単一ランドマーク値は、現在のタイプフォ
ントに対して、非常に広い単一文字の幅である幅値であ
る。狭い合同ランドマーク値は、現在のタイプフォント
に対して、再も狭い2つの文字合同の幅である幅値であ
る。これらの値は、幅アレイ内に格納されている現在の
タイプフォントに関する幅情報を使用することによって
決定される。その情報が得られない場合には、該値は予
め計算されており且つ格納されているタイプフォント独
立アスペクト比情報に基づいて決定される。一般的に、
この操作は単一合同検査操作の適切な操作に対しては必
要ではないが、広い単一ランドマーク値は狭い合同ラン
ドマーク値よりも大きい。 該2つのランドマーク値は全ての幅値を3つのカテゴ
リーへ区分する為に使用される。このことを第27図に示
してある。幅単一ランドマーク値よりも大きい幅の組は
「合同領域」である。狭い合同ランドマーク値よりも狭
い幅の組は「単一文字領域」である。狭い合同ランドマ
ーク値と広い単一ランドマーク値との間に入る幅の組は
「不定幅領域」である。未知の文字の幅が「合同領域」
に入る(即ち、その幅が幅単一ランドマーク値よりも大
きい)場合、未知の文字は合同であると判断され、且つ
合同ステータスフラッグが「YES」にセットされる。未
知の文字の幅が「単一文字領域」の中に入る(即ち、そ
の幅は狭い合同ランドマーク値よりも小さい)場合、未
知の文字は単一の文字であると判断され、且つ合同ステ
ータスフラッグは「NO」へセットされる。未知の文字は
幅が「不定」領域内に入る場合には、その未知の文字が
合同か否かを判断するのに十分な情報は無いと判断さ
れ、且つ合同ステータスフラッグは「不定」にセットさ
れる。 ランドマーク値の設定 単純合同検査技術によって使用されるランドマーク値
設定操作の目的は、広い単一ランドマーク値及び狭い合
同ランドマーク値に対する値を設定することである。広
い単一ランドマーク値は広い単一文字の幅である。狭い
合同ランドマーク値は狭い合同の幅である。これらの値
を設定する為に2つの方法が与えられる。 第1の方法は、確実性を持って分類された未知の入力
文字から収集された幅情報を使用し、従ってフォント従
属性である。2番目の方法フォント独立的であり且つ予
め計算されているアスペクト比情報を使用する。第1の
方法は読取中の現在のタイプフォントに影響されるの
で、それは一層厳しく境界の設定を行うので望ましく、
且つ一層有用である。然し乍ら、第1の技術に対して必
要とされる関係のある幅情報が与えられない場合には、
第2の技術が使用される。 フォント従属方法 広い単一ランドマーク値は、確実性を持って「広い」
文字として分類された前の入力文字の幅へセットされ
る。1実施例において、以下の文字は「広い」と考えら
れる。 「m」,「W」,「M」,「W」 未知の文字のサブラインの型が「A」タイプ又は「q」
タイプであると、アッパーケース即ち大文字の「広い」
文字の幅の値を使用することが望ましく、そうでない場
合には、ロワーケース即ち小文字の「広い」文字の幅の
値を使用することが望ましい。控え目とする為に、広い
単一ランドマーク値が広い文字の幅の値にセットされた
後に、それは或る小さな量だけインクリメントされる。
1実施例において、未知の文字が「A」タイプか又は
「q」タイプであり且つ広い単一ランドマーク値が小文
字の「広い」文字にセットされると、広い単一ランドマ
ーク値は6だけインクリメントされ、そうでない場合に
は、3だけインクリメントされる。狭い合同ランドマー
ク値は、幅アレイ内に幅エントリを持っている2つの
「狭い」文字の幅の和にセットされる。例えば、未知の
文字が「A」又は「q」タイプの文字であり且つ文字
「1」の幅が既知の場合、狭い合同ランドマーク値はそ
の幅の2倍にセットされる。 フォント独立方法 ランドマーク値を隔離するフォント独立方法は、フォ
ント従属幅情報の代りに、予め計算してあるアスペスト
比情報を使用する。使用されるアスペクト比情報の第1
のタイプは、異なった文字タイプに対して、最小の合同
アスペクト比を与え、それはそれよりも下の未知の文字
は単一の文字であることが保証されるアスペクト比であ
る。最小合同アスペクト比は、各文字タイプに対して多
数の合同させたセグメントの最小アスペクト比を計算す
ることによって前以て決定される。1実施例において
は、「A」タイプ文字の最小合同アスペクト比は0.55で
あり、非「A」文字タイプに対しては1.25である。 使用されるアスペクト比情報の第2のタイプは最大単
一文字アスペクト比であり、それはそれより上の文字は
合同であることを保証される文字のアスペクト比であ
る。最大単一文字アスペクト比は基準組における全ての
単一文字(ダッシュを除く)の最大のアスペクト比とし
て計算される。 1実施例において、アスペクト比は幅/高さとして定
義されるので、広い単一ランドマーク値は、未知の文字
の高さによる最大単一文字アスペクト比を掛けることに
よって得られる。同様に、狭い合同ランドマーク値は、
未知の文字の高さによる未知の文字の文字タイプの最小
合同アスペクト比を掛けることによって得られる。 決定的合同検査技術 決定的合同検査技術は、単純合同検査操作が合同ステ
ータスフラッグを「不定」にセットし、未知の文字は明
らかに合同であるには十分に広くはなく又明らかに単一
文字であるには十分に狭くはないことを表す場合に、使
用される。決定的合同検査技術は、未知の文字の幅及び
可能性の組(可能性の組の信頼性の値)における第1
(最もあり得る)候補の信頼性の値の両方に依存して、
「YES」又は「NO」へセットする。 未知の文字がかなり広いと、その可能性の組の信頼性
の値が非常に低く(即ち、非常に信頼性がある)ない限
り、合同であると思われる。未知の文字がかなり狭い
と、その可能性の組の信頼性の値が非常に高く(即ち、
信頼性を非常に欠いている)ない限り、単一の文字と思
われる。 この操作の第1のステップは、信頼性のカットオフ値
を未知の文字の幅と関連させることである。第27a図及
び第27b図は、これらの信頼性カットオフ値を決定する
為の2つの類似する方法を示している。第27a図を参照
すると、「不定領域」(単純合同検査操作によって計算
される)は予め確立された数の副領域へ細分割される。
第27a図の実施例においては、該領域は3つの等しい副
領域に分割される。各副領域に対応して、信頼性カット
オフ値があり、ステップ関数を形成している。一般的
に、信頼性カットオフ値は、幅値が増加するに従い、減
少する(即ち、一層厳格となる)。 第27b図を参照すると、信頼性カットオフ値を割り当
てる第2の方法は、ステップ関数ではなく、広い単一ラ
ンドマーク値に対して低い信頼性カットオフ値を且つ狭
い合同ランドマーク値に対して高い信頼性カットオフ値
を設定することにり形成される直線を使用する。1実施
例においては、第27b図における如く、広い単一ランド
マーク値と関連するカットオフ値は2であり、狭い合同
ランドマーク値と関連するカットオフ値は30である。 未知の文字の幅に関連する信頼性カットオフ値を決定
した後に、未知の文字は合同でありか否かに関する判断
がなされる。可能性の組の第1の構成要素の信頼性の値
が信頼性カットオフ値よりも低いと、未知の文字は合同
であると判断され且つ合同ステータスフラッグは「YE
S」へセットされる。そうでない場合には、未知の文字
は合同ではないと判断され且つ合同ステータスフラッグ
は「NO」へセットされる。 以上、本発明の具体的実施の態様に付いて詳細に説明
したが、本発明はこれら具体例にのみ限定されるべきも
のでは無く、本発明の技術的範囲を逸脱すること無しに
種々の変形が可能であることは勿論である。
【図面の簡単な説明】 第1図は従来の文字認識方式のブロック図、第2a図及び
第2b図は複数個の基準文字特徴ベクトル及びそれに関連
する複数個のリング状クラスタの各説明図、第3a図乃至
第3e図は確実性境界と信頼性境界と可能性境界と確実性
範囲と信頼性範囲と可能性範囲と信頼性範囲等の関連す
る平均と共に複数個のリング状クラスタを示した各説明
図、第4図は本発明の1実施例の微細リング状クラスタ
発生技術を示したフローチャート図、第5図は選択した
基準文字に対し微細リング状クラスタを形成する操作の
1実施例を示したフローチャート図、第6図は新たな微
細リング状クラスタを形成する方法を示したフローチャ
ート図、第7図は微細リング状クラスタ発生において使
用されるキング候補のリストを形成する技術の1実施例
を示したフローチャート図、第8図は本発明に基づいて
使用される中間リング状クラスタ発生技術の1実施例を
示したフローチャート図、第9図は中間平均を選択する
技術の1実施例を示したフローチャート図、第10a図乃
至第10d図はリング状クラスタに関連する特別の情報を
計算する操作を示した各フローチャート図、第11図は文
字情報と関連するアセンダーサブラインと小文字サブラ
インとベースサブラインとデセンダーサブラインとを示
した説明図、第12図は本発明に基づいて使用される文字
分類技術の1実施例を示したフローチャート図、第13図
は本発明に基づき可能性の組を計算する為の技術の1実
施例を示したフローチャート図、第14図は未知の入力文
字を分類する速度を著しく向上させる為に使用させる
「クイックチェック」操作の1実施例のフローチャート
図、第15図は本発明の1実施例の「リスト取得」操作を
示したフローチャート図、第16図は未知の入力文字を分
類する為に本発明の1実施例に基づいて使用される「初
期的なパス」操作を示したフローチャート図、第17図は
未知の入力文字を分類する為に本発明に従って使用され
る第2のパス操作の1実施例を示したフローチャート
図、第18図は本発明に従って不確実性文字を包含する可
能性の組を形成する技術の1実施例を示したフローチャ
ート図、第19図は本発明に従って使用される文字フィル
タ操作の1実施例を示したフローチャート図、第20図は
第19図の文字フィルタにおける粗いフィルタ操作の1実
施例を示したフローチャート図、第21図は第19図の文字
フィルタの中間フィルタ操作の1実施例を示したフロー
チャート図、第22図は本発明に基づいて前以て構成され
ている1組の中間リング状クラスタと未知の入力文字特
徴ベクトルとの間の可能な関係を示した説明図、第23図
は最良誤差及び非常にあり得るフラッグをアップデート
させる操作を示したフローチャート図、第24図は第20図
及び第21図の粗い及び中間フィルタにおいて使用される
新たな信頼性値を計算する技術の1実施例を示したフロ
ーチャート図、第25図は第17図の第2パス操作に従って
行われる微細解析の1実施例を示したフローチャート
図、第26図はフォント従属不良セグメント検査の1実施
例を示したフローチャート図、第27a図及び第27b図は第
26図の不良セグメント検査の2つの別々の実施例に基づ
いて使用される狭い合同ランドマークと広い単一ランド
マーク及び信頼性値との間の関係を示した各説明図、で
ある。 (符号の説明) 11:入力パターン 12:デジタイザ 13:メモリ 14:セグメンテーション 15:特徴抽出 16:識別 17:出力

Claims (1)

  1. (57)【特許請求の範囲】 1.光学読取装置によって読み取ったパターンのパター
    ン認識に使用する判別基準作成方法において、 (1)複数個の既知のパターンの各々に対して所定のデ
    ータ構成を有する複数個の特徴データを決定し、 (2)前記複数個の特徴データから、前記複数個の既知
    のパターンの各々に対して、各パターンに関連する特徴
    データのみを包含する少なくとも一つの確実性境界を画
    定し、 (3)前記複数個の特徴データから、前記複数個の既知
    のパターンの各々に対して、各パターンに関連する特徴
    データと、少なくとも一つの別のパターンに関連してお
    り且つ可及的に少ない数のエイリアン特徴データとを包
    含する少なくとも一つの可能性境界を画定する、 上記各ステップを有することを特徴とするパターン認識
    に使用する判別基準作成方法。 2.特許請求の範囲第1項において、前記既知のパター
    ンが少なくとも文字及び記号の少なくとも一方を包含す
    ることを特徴とするパターン認識に使用する判別基準作
    成方法。 3.特許請求の範囲第1項又は第2項において、前記特
    徴データがN次元空間におけるN個のパラメータによっ
    て定義される特徴ベクトルであることを特徴とするパタ
    ーン認識に使用する判別基準作成方法。 4.特許請求の範囲第1項乃至第3項の内のいずれか1
    項において、前記各確実性境界はその確実性境界内に存
    在する特徴データの平均として選択されるN次元空間に
    おける点と、前記点を中心とし前記点に最も近いエイリ
    アンへの距離よりも小さな距離に設定される半径とによ
    って定義されることを特徴とするパターン認識に使用す
    る判別基準作成方法。 5.特許請求の範囲第1項乃至第4項の内のいずれか1
    項において、上記ステップ(3)が、第1複数個のエイ
    リアン特徴データを包含する少なくとも1個の粗い可能
    性境界を画定すると共に、前記第1複数個よりも少数の
    第2複数個のエイリアン特徴データを包含し且つ前記粗
    い可能性境界よりも多数の中間可能性境界を画定するこ
    とを特徴とするパターン認識に使用する判別基準作成方
    法。 6.パターン認識方法において、 (1)光学読取装置によって読み取った認識すべき未知
    のパターンから所定のデータ構成を有する特徴データを
    決定し、 (2)前記未知のパターンの特徴データを予め画定して
    ある複数個の既知のパターンの夫々の可能性境界と比較
    し、その際に前記未知のパターンの特徴データが或る既
    知のパターンの可能性境界の中には存在しないことが判
    明した場合には前記未知のパターンがその既知のパター
    ンには該当しないことを判別する、 上記各ステップを有しており、前記可能性境界は、前記
    複数個の既知のパターンの各々に対して、各パターンに
    関連する特徴データと、少なくとも一つの別のパターン
    に関連しており且つ可及的に少ない数のエイリアン特徴
    データとを包含するものとして定義されていることを特
    徴とするパターン認識方法。 7.特許請求の範囲第6項において、(3)前記未知の
    パターンの特徴データを予め画定してある複数個の既知
    のパターンの夫々の確実性境界と比較し、その際に前記
    未知のパターンの特徴データが或る既知のパターンの確
    実性境界の中に存在することが判明した場合には前記未
    知のパターンがその既知のパターンに該当することを判
    別する、ステップを有しており、前記確実性境界は、前
    記複数個の既知のパターンの各々に対して、各パターン
    に関連する特徴データのみを包含するものとして定義さ
    れていることを特徴とするパターン認識方法。 8.特許請求の範囲第7項において、前記ステップ
    (3)を実施する場合に、前記ステップ(2)における
    結果に基づいて、前記未知のパターンの特徴データが前
    記既知のパターンの内でそれらの可能性境界の中に存在
    することが判明したものについてのみ前記ステップ
    (3)を実施することを特徴とするパターン認識方法。
JP61240219A 1985-10-10 1986-10-11 パターン認識方式に使用するパターン分類手段 Expired - Fee Related JP2726656B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/786,035 US4773099A (en) 1985-10-10 1985-10-10 Pattern classification means for use in a pattern recognition system
US786035 1985-10-10

Publications (2)

Publication Number Publication Date
JPS63265376A JPS63265376A (ja) 1988-11-01
JP2726656B2 true JP2726656B2 (ja) 1998-03-11

Family

ID=25137404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61240219A Expired - Fee Related JP2726656B2 (ja) 1985-10-10 1986-10-11 パターン認識方式に使用するパターン分類手段

Country Status (3)

Country Link
US (1) US4773099A (ja)
EP (1) EP0220032A3 (ja)
JP (1) JP2726656B2 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5060277A (en) * 1985-10-10 1991-10-22 Palantir Corporation Pattern classification means using feature vector regions preconstructed from reference data
US5133023A (en) * 1985-10-15 1992-07-21 The Palantir Corporation Means for resolving ambiguities in text based upon character context
JP2517036B2 (ja) * 1985-11-27 1996-07-24 ザ・トラステイ−ズ・オブ・ボストン・ユニバ−シテイ パタ―ン認識システム及び方法
FR2604004B1 (fr) * 1986-09-11 1990-05-11 Anatex Procede de reconnaissance d'ecriture manuscrite
USRE36823E (en) * 1988-05-20 2000-08-15 Matsushita Electric Industrial Co., Ltd. Inference rule determining method and inference device
US5255344A (en) * 1988-05-20 1993-10-19 Matsushita Electric Industrial Co., Ltd. Inference rule determining method and inference device
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
DE69101500T2 (de) * 1990-01-25 1994-08-18 Mitsubishi Motors Corp Regelsystem für die Antriebsleistung von Kraftfahrzeugen.
US5077805A (en) * 1990-05-07 1991-12-31 Eastman Kodak Company Hybrid feature-based and template matching optical character recognition system
JP2991779B2 (ja) * 1990-06-11 1999-12-20 株式会社リコー 文字認識方法及び装置
US5020123A (en) * 1990-08-03 1991-05-28 At&T Bell Laboratories Apparatus and method for image area identification
US5146512A (en) * 1991-02-14 1992-09-08 Recognition Equipment Incorporated Method and apparatus for utilizing multiple data fields for character recognition
US5440742A (en) * 1991-05-10 1995-08-08 Siemens Corporate Research, Inc. Two-neighborhood method for computing similarity between two groups of objects
US5428788A (en) * 1991-05-10 1995-06-27 Siemens Corporate Research, Inc. Feature ratio method for computing software similarity
US5438676A (en) * 1991-05-10 1995-08-01 Siemens Corporate Research, Inc. Method for adapting a similarity function for identifying misclassified software objects
US5485621A (en) * 1991-05-10 1996-01-16 Siemens Corporate Research, Inc. Interactive method of using a group similarity measure for providing a decision on which groups to combine
EP0513652A2 (en) * 1991-05-10 1992-11-19 Siemens Aktiengesellschaft Method for modelling similarity function using neural network
US5317741A (en) * 1991-05-10 1994-05-31 Siemens Corporate Research, Inc. Computer method for identifying a misclassified software object in a cluster of internally similar software objects
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods
JP3361124B2 (ja) * 1991-07-30 2003-01-07 ゼロックス・コーポレーション テキストを含む2次元画像上での画像処理方法と画像処理装置
JP3118725B2 (ja) * 1991-09-11 2000-12-18 株式会社日立製作所 自動分類方法
US5361379A (en) * 1991-10-03 1994-11-01 Rockwell International Corporation Soft-decision classifier
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
EP0602932B1 (en) * 1992-12-18 2001-03-14 Raytheon Company Improved pattern recognition system for sonar and other applications
NL9300310A (nl) * 1993-02-19 1994-09-16 Oce Nederland Bv Inrichting en werkwijze voor syntactische signaal-analyse.
US5455872A (en) * 1993-04-26 1995-10-03 International Business Machines Corporation System and method for enhanced character recogngition accuracy by adaptive probability weighting
US5479523A (en) * 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets
US5802205A (en) * 1994-09-09 1998-09-01 Motorola, Inc. Method and system for lexical processing
US5854855A (en) * 1994-09-09 1998-12-29 Motorola, Inc. Method and system using meta-classes and polynomial discriminant functions for handwriting recognition
US5463564A (en) 1994-09-16 1995-10-31 3-Dimensional Pharmaceuticals, Inc. System and method of automatically generating chemical compounds with desired properties
JP3027321B2 (ja) * 1994-09-27 2000-04-04 財団法人工業技術研究院 拘束のない手書き英数字のオンライン認識の方法及び装置
US5862259A (en) * 1996-03-27 1999-01-19 Caere Corporation Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US5946415A (en) * 1996-10-24 1999-08-31 The United States Of America As Represented By The Secretary Of The Army Method and apparatus to process drawing images
US5940535A (en) * 1996-10-31 1999-08-17 Industrial Technology Research Institute Method and apparatus for designing a highly reliable pattern recognition system
US6571227B1 (en) 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
US6295514B1 (en) 1996-11-04 2001-09-25 3-Dimensional Pharmaceuticals, Inc. Method, system, and computer program product for representing similarity/dissimilarity between chemical compounds
US6453246B1 (en) * 1996-11-04 2002-09-17 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for representing proximity data in a multi-dimensional space
JP2815045B2 (ja) * 1996-12-16 1998-10-27 日本電気株式会社 画像特徴抽出装置,画像特徴解析装置,および画像照合システム
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6442542B1 (en) * 1999-10-08 2002-08-27 General Electric Company Diagnostic system with learning capabilities
AU2001241800A1 (en) 2000-02-29 2001-09-12 3-Dimensional Pharmaceuticals, Inc. Method and computer program product for designing combinatorial arrays
US7039621B2 (en) 2000-03-22 2006-05-02 Johnson & Johnson Pharmaceutical Research & Development, L.L.C. System, method, and computer program product for representing object relationships in a multidimensional space
WO2001075790A2 (en) 2000-04-03 2001-10-11 3-Dimensional Pharmaceuticals, Inc. Method, system, and computer program product for representing object relationships in a multidimensional space
US6519575B1 (en) * 2000-04-24 2003-02-11 General Electric Company System and method for classifying unknown data patterns in multi-variate feature space
JP2004507821A (ja) * 2000-08-22 2004-03-11 3−ディメンショナル ファーマシューティカルズ, インコーポレイテッド ライブラリー構築ブロックの特徴からのコンビナトリアルライブラリー生成物の特性を決定するための方法、システムおよびコンピュータプログラム製品
JP4674778B2 (ja) 2000-08-31 2011-04-20 ヒューレット・パッカード・カンパニー 文字認識システム
US7254269B2 (en) * 2000-08-31 2007-08-07 Hewlett-Packard Development Company, L.P. Character recognition system
AU2001292740A1 (en) * 2000-09-20 2002-04-02 Dimitris K. Agrafiotis Method, system, and computer program product for encoding and building products of a virtual combinatorial library
WO2002061419A1 (en) * 2001-01-29 2002-08-08 3-Dimensional Pharmaceuticals, Inc. Method, system, and computer program product for analyzing combinatorial libraries
US7035431B2 (en) * 2002-02-22 2006-04-25 Microsoft Corporation System and method for probabilistic exemplar-based pattern tracking
US7171061B2 (en) * 2002-07-12 2007-01-30 Xerox Corporation Systems and methods for triage of passages of text output from an OCR system
US7313267B2 (en) * 2002-11-13 2007-12-25 Lockheed Martin Corporation Automatic encoding of a complex system architecture in a pattern recognition classifier
US7305132B2 (en) * 2003-11-19 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Classification in likelihood spaces
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
JP5906071B2 (ja) * 2011-12-01 2016-04-20 キヤノン株式会社 情報処理方法、情報処理装置、および記憶媒体
JP6335012B2 (ja) * 2014-04-30 2018-05-30 グローリー株式会社 文字有無判定システム及び文字有無判定方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3623015A (en) * 1969-09-29 1971-11-23 Sanders Associates Inc Statistical pattern recognition system with continual update of acceptance zone limits
JPS5549779A (en) * 1978-10-04 1980-04-10 Hajime Sangyo Kk Standard memory take-in method
JPS5819109B2 (ja) * 1978-11-10 1983-04-16 肇産業株式会社 パタ−ン判別方法
JPS5567607A (en) * 1978-11-17 1980-05-21 Hajime Sangyo Kk Pattern discrimination method
DE3026055C2 (de) * 1980-07-09 1984-01-12 Computer Gesellschaft Konstanz Mbh, 7750 Konstanz Schaltungsanordnung zur maschinellen Zeichererkennung
JPS57178578A (en) * 1981-04-27 1982-11-02 Toshiba Corp Pattern recognition system
JPS6086685A (ja) * 1983-10-19 1985-05-16 Hitachi Ltd パタ−ン整合方式
US4589142A (en) * 1983-12-28 1986-05-13 International Business Machines Corp. (Ibm) Method and apparatus for character recognition based upon the frequency of occurrence of said characters
US4618988A (en) * 1984-07-25 1986-10-21 Fingermatrix, Inc. Matcher
US4611347A (en) * 1984-09-24 1986-09-09 At&T Bell Laboratories Video recognition system
JPS61246885A (ja) * 1985-04-25 1986-11-04 Fujitsu Ltd 複数辞書作成方式

Also Published As

Publication number Publication date
US4773099A (en) 1988-09-20
EP0220032A2 (en) 1987-04-29
JPS63265376A (ja) 1988-11-01
EP0220032A3 (en) 1990-03-14

Similar Documents

Publication Publication Date Title
JP2726656B2 (ja) パターン認識方式に使用するパターン分類手段
US5943443A (en) Method and apparatus for image based document processing
US5657397A (en) Preprocessing means for use in a pattern classification system
US6047251A (en) Automatic language identification system for multilingual optical character recognition
CN110032998B (zh) 自然场景图片的文字检测方法、系统、装置和存储介质
US5077807A (en) Preprocessing means for use in a pattern classification system
JP2619429B2 (ja) 接触文字の分離方法
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
EP2685405A1 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
JPH05217019A (ja) ビジネスフォーム識別システム及び画像処理システム
EP0045803A1 (en) System and method for processing horizontal line characteristics in an image
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN112070649B (zh) 一种去除特定字符串水印的方法及系统
WO2020097734A1 (en) Automatically predicting text in images
CN113963147B (zh) 一种基于语义分割的关键信息提取方法及系统
JP3228938B2 (ja) 分布マップを用いる画像の分類方法及び装置
CN111563505A (zh) 一种基于像素分割合并的文字检测方法及装置
JPH1131226A (ja) 情報処理方法及び装置
JPS62254282A (ja) 重畳するパタ−ンを分離する方法及び装置
Siddique et al. Development of an automatic vehicle license plate detection and recognition system for Bangladesh
JP5414631B2 (ja) 文字列探索方法、文字列探索装置、記録媒体
JPH06180771A (ja) 英文字認識装置
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法
CN117274817B (zh) 裂缝自动化识别方法、装置、终端设备及存储介质
JPH06309503A (ja) 英文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees