JP2000099723A - 辞書作成方法及び装置 - Google Patents

辞書作成方法及び装置

Info

Publication number
JP2000099723A
JP2000099723A JP10271091A JP27109198A JP2000099723A JP 2000099723 A JP2000099723 A JP 2000099723A JP 10271091 A JP10271091 A JP 10271091A JP 27109198 A JP27109198 A JP 27109198A JP 2000099723 A JP2000099723 A JP 2000099723A
Authority
JP
Japan
Prior art keywords
pattern
class
dictionary
patterns
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10271091A
Other languages
English (en)
Inventor
Akitoshi Tsukamoto
明利 塚本
Akihiro Fujii
明宏 藤井
Takahiro Watanabe
孝弘 渡辺
Makoto Torigoe
真 鳥越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10271091A priority Critical patent/JP2000099723A/ja
Publication of JP2000099723A publication Critical patent/JP2000099723A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 最適な項目数の登録を自動処理で実現できる
ようにする。 【解決手段】 入力パターンより、パターン認識用の辞
書を作成する辞書作成方法に、入力パターン相互間の距
離を算出後、その距離が閾値以下となるパターンの数を
各パターンに対する評価値として求める処理と、評価値
の高いものから順番に登録し、その際、先に登録された
パターンに包含される包含パターンについては次の登録
対象から予め除外する処理とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パターン認識に用
いられる辞書の作成に用いて好適な作成方法及び装置に
関するものである。
【0002】
【従来の技術】文字認識装置や個人識別装置などのパタ
ーン認識装置は、入力されるパターンから特徴量を抽出
し、又は特徴の有無を示すコードを生成し、これを予め
辞書に登録されたものと照合することにより、入力パタ
ーンがどのクラスに属するかの認識を行う。ここでのク
ラスとは、特定の文字や人物など、認識装置が行う識別
の対象を表す。辞書の登録内容は、各クラスを代表する
パターンの特徴量やコードとそのクラス情報である。
【0003】実際の入力パターンは、例えば手書き文字
の場合の個人差や画像入力の場合の解像度や照明の違い
など、いろいろな要因により変化する。このため、必ず
しも辞書に登録されたものと完全に一致する特徴量やコ
ードが得られるとは限らない。
【0004】このような入力パターンの変化に対応でき
るパターン認識装置を実現するために、例えば文献(若
林他、「手書き数字認識における特徴選択に関する考
察」,信学論(D-II),78-D-II,11,1627-1638,1995年11
月)に記載の方法などにより、入力パターンの変化に頑
強な特徴を採用することが行われてきた。
【0005】
【発明が解決しようとする課題】しかし、同一クラスに
属するパターンが多様なものである場合には、辞書に登
録する特徴量やコードなどの項目を複数にすることで多
様性に対応する方が良い場合がある。この複数項目の辞
書登録は、例えば、印刷文字に対する各種フォントな
ど、登録すべきパターンを事前に準備できる場合は手動
で行うことも可能であるが、特徴量の分布を求めること
によって初めて明らかとなる場合も多い。
【0006】例えば、図2に例示の特徴量分布を持つパ
ターンを3つのクラスに分類することを考えると、クラ
スAはクラスBやCより離れており、クラスCは2つの
グループに分かれている。この場合、クラスAやクラス
Bについては辞書への登録をそれぞれ1項目ずつとして
も良いが、クラスCについては2つのグループそれぞれ
について個別に辞書に登録した方が後の認識において有
利であることが想定できる。
【0007】辞書作成に伴う作業量を低減させるために
は、自動的に辞書が作成されることが望ましい。また、
登録項目の数は、記憶容量の削減や照合時間の短縮のた
めできるだけ少数であることが望ましく、また他のクラ
スのパターンを誤認識しないよう考慮されなければなら
ない。
【0008】
【課題を解決するための手段】(A)かかる課題を解決
するため、第1の発明においては、入力パターンより、
パターン認識用の辞書を作成する辞書作成方法(又は装
置)において、以下の処理(又は手段)を備えるように
する。
【0009】すなわち、(1)入力パターン相互間の距
離を算出後、その距離が閾値以下となるパターンの数を
各パターンに対する評価値として求める処理(又は手
段)と、(2)評価値の高いものから順番に登録し、そ
の際、先に登録されたパターンに包含される包含パター
ンについては次の登録対象から予め除外する処理(又は
手段)とを備えるようにする。 (B)また、第2の発明においては、入力パターンよ
り、各パターンの属するクラス認識用の辞書を作成する
辞書作成方法(又は装置)において、以下の処理(又は
手段)を備えるようにする。
【0010】すなわち、(1)入力パターンをそれが属
するクラスに分類する処理(又は手段)と、(2)各パ
ターンと別のクラスに属するパターンとの最小距離を算
出する処理(又は手段)と、(3)同一クラスに属する
パターン相互間の距離を算出後、その距離が閾値以下と
なるパターンの数を各パターンに対する評価値として求
める処理(又は手段)と、(4)原則として、前記評価
値の高いものから順番に対応するクラスの辞書に登録
し、その際、先に登録されたパターンに包含される包含
パターンについては次の登録対象から予め除外するもの
の、前記最小距離が前記評価値を求めるのに用いた閾値
以下である場合には、前記評価値が高くても辞書に登録
しない処理(又は手段)とを備えるようにする。 (C)また、第3の発明においては、入力パターンよ
り、各パターンの属するクラス認識用の辞書を作成する
辞書作成方法(又は装置)において、以下の処理(又は
手段)を備えるようにする。
【0011】すなわち、(1)入力パターンをそれが属
するクラスに分類する処理(又は手段)と、(2)各パ
ターンと別のクラスに属するパターンとの最小距離を算
出する処理(又は手段)と、(3)最小距離が閾値以上
の場合、同一クラスに属するパターン相互間の距離が閾
値以下となるパターンの数を当該パターンに対する評価
値として求める一方、最小距離が閾値未満の場合、同一
クラスに属するパターン相互間の距離が最小距離以下と
なるパターンの数を当該パターンに対する評価値として
求める処理(又は手段)と、(4)評価値の高いものか
ら順番に登録し、その際、先に登録されたパターンに包
含される包含パターンについては次の登録対象から予め
除外する処理(又は手段)とを備えるようにする。 (D)また、第4の発明においては、第2又は第3の発
明に加えてさらに、既存の辞書に、新たなクラスを追加
する場合、当該クラスの追加によって影響を受ける既存
のクラスを選択し、新たに追加するクラス及び選択され
た各クラスそれぞれについての登録内容を改めて決定す
る処理(又は手段)を備えるようにする。 (E)また、第5の発明においては、第2〜第4の発明
のいずれかに加えてさらに、既存の辞書からあるクラス
を削除する場合、当該クラスの削除によって影響を受け
る既存のクラスを選択し、選択された各クラスについて
の登録内容を改めて決定する処理(又は手段)を備える
ようにする。
【0012】
【発明の実施の形態】(A)パターン認識装置の構成 まず最初に、本発明に係る作成方法又は装置で作成され
た辞書を使用して動作するパターン認識装置の構成につ
いて説明する。図3は、かかる装置構成の一例について
表したものである。
【0013】同図において、パターン入力部201は、
認識対象のパターンを入力する部分である。これには、
スキャナ、カメラ、電子ペン、タッチパネルその他の入
力手段を用いることができる。特徴量算出部202は、
ある特定の方法で入力パターンを処理することで、特徴
量やコードを得る部分である。これには、例えば文字認
識の場合、前記文献に記載の方法などを用いることがで
きる。
【0014】照合部203は、入力パターンから得られ
た特徴量を予め準備した照合用辞書205に登録されて
いる内容と照合し、入力パターンがどのクラスに属する
か判定する部分である。この判定処理には、例えば、最
も距離の近い登録パターンのクラスに属すると判定する
最近傍判定法(Nearest‐Neighbor法 )などが用いられ
る。なお、この距離が事前に設定した閾値よりも大きい
場合には、認識対象外(リジェクト)と判定することも
できる。特徴量間の距離の定義には、ユークリッド距離
(各特徴量の差分自乗和の平方根)、マハラノビス距離
(各特徴量を標準化したユークリッド距離)、コード間
の距離としてハミング距離(ビット毎の比較で値の異な
るビットの数)などが用いられる。
【0015】結果出力部204は、照合結果を出力する
部分である。これには、例えば文字認識装置における文
字コードや個人識別装置における個人情報など、照合結
果の情報出力部が相当する。
【0016】照合用辞書205は、本発明に係る方法又
は装置によって作成される辞書に相当する。以下、この
辞書の作成方法(装置)について説明する。 (B)第1の実施形態 (B−1)装置構成 図1に、第1の実施形態に係る辞書作成装置の構成例を
示す。なお、この辞書作成装置は、実際上、各種周辺装
置を備えるワークステーションやパーソナルコンピュー
タ等の情報処理装置の一機能として実現されるが、辞書
作成に係る機能を機能ブロック化すると図1の構成とな
る。他の実施形態についても同様である。なお言うまで
もないが、かかる装置をハードウェア的に構成すること
も可能である。
【0017】第1の実施形態に係る辞書作成装置は、パ
ターン入力部101と、特徴量算出部102と、辞書作
成部103(距離算出部104、テーブル解析部10
5、辞書出力部106)と、特徴量記憶部107とから
なる。
【0018】このうち、パターン入力部101と特徴量
算出部102の2つは、図2のパターン入力部201及
び特徴量算出部202と同じである。但し、特徴量算出
部102で算出された特徴量は、距離算出部104と特
徴量記憶部107にそれぞれ送られる。
【0019】距離算出部104は、特徴量記憶部107
に記憶された特徴量との間で距離算出を行う。この距離
は、図2の照合部203で算出される距離と同じ定義に
よるものである。距離算出結果は、入力パターン(辞書
作成用のサンプルパターン)相互間の距離が記載された
距離テーブルとして出力される。
【0020】テーブル解析部105は、生成された距離
テーブルを解析し、辞書に登録すべきパターンを決定す
る部分である。辞書に登録すべきと決定された各パター
ンについては、その特徴量と所属クラスの情報が辞書出
力部106によって出力される。出力された特徴量と所
属クラスの情報は、辞書として以降の認識処理で用いら
れる。
【0021】なお、以下の説明では、距離算出部10
4、テーブル解析部105、辞書出力部106を総称し
て辞書作成部103と呼ぶことにする。 (B−2)作成動作 以下、辞書作成部103による辞書作成動作を説明す
る。
【0022】最初に、距離算出部104の動作について
説明する。図4に、距離算出部104の動作内容をフロ
ーチャートに示す。なお本実施形態では、同一クラスに
属するパターンを入力するものとする。
【0023】まず、ステップ401において、距離算出
部104は、与えられたN個の入力パターンから算出さ
れた特徴量を受け取る。説明のため、現在の入力パター
ンをPi、得られた特徴量をVi(1≦i≦N)と表
す。一般に、特徴量は、多くの種類が用いられ、Viは
多次元ベクトルとなる。なお、特徴量算出部102は、
特徴量の代わりにコードを生成する場合もあるが、処理
は同様であるため説明は省略する。
【0024】次に、ステップ402において、距離算出
部104は、特徴量記憶部107に記憶された特徴量V
i(1≦j<i)を順次取り出す。Vjは、過去の入力
パターンPj(1≦j≦i)から得られた特徴量であ
る。
【0025】続く、ステップ403において、距離算出
部104は、入力パターンPiの特徴量Viと、過去の
入力パターンPjの特徴量Vjとの間の距離D(Vi,
Vj)を算出する。算出された距離は、別途用意された
N×Nの2次元配列である距離テーブルに記憶される。
【0026】通常、距離Dについては、D(Vi,V
i)=0と、D(Vi,Vj)=D(Vj,Vi)の関
係が成り立つので、N個の入力パターン全てについてこ
の処理を行った時点で、距離テーブルの全ての要素を埋
めることができる。但し、これらの条件を満たさない距
離尺度を用いている場合には、それらも別途算出する。
【0027】次に、テーブル解析部105の処理につい
て説明する。図5に、テーブル解析部105の処理フロ
ーチャートを示す。本実施形態では、テーブル解析部1
05で実行される処理においてパラメータTを導入す
る。
【0028】まず、ステップ501において、テーブル
解析部105は、各パターンPi(1≦i≦N)の評価
値Ai(1≦i≦N)を算出する。この評価値は、D
(Vj,Vi)≦TとなるパターンPj(1≦i≦N)
の個数である。
【0029】次に、ステップ502において、テーブル
解析部105は、評価値Aiが最大であるパターンを1
つ選出する。このパターンをPk(1≦k≦N)とす
る。
【0030】続く、ステップ503において、テーブル
解析部105は、該当するパターンの特徴量Vkを、属
するクラスの情報と共に辞書に登録する。
【0031】そして、ステップ504において、D(V
j,VK)≦Tとなる全てのパターンPj(1≦j≦
N)の評価値Ajを0にする。以下、このパターンPj
を、パターンPkの「包含パターン」と呼ぶことにす
る。ここで、包含パターンには、自分自身も含むことに
注意する。
【0032】次に、ステップ505において、テーブル
解析部105は、残った0でない評価値を持つ各パター
ンについて、評価値の再計算を行う。これは、登録した
パターンの包含パターンを除き、距離が閾値T以下であ
る同じクラスのパターンの数として求める。これは、評
価値からPkの包含パターン分を除外する処理である。
【0033】このような処理を繰り返し、全てのパター
ンの評価値が0となれば、処理を終了する。 (B−3)実施形態の効果 本実施形態の効果を示すため、例として図6に示すよう
な2次元の特徴量をそれぞれ持つパターンを用いる。ま
た、距離に対する閾値T=2.5とし、各パターンを中
心とする半径Tの円を点線で示す。この円に含まれるパ
ターンが円の中心にあるパターンの包含パターンであ
り、その個数が評価値算出処理で求められる評価値であ
る。
【0034】このパターンについて生成される距離テー
ブル及び評価値は、図7のようになる。但し、距離はユ
ークリッド距離として算出した。
【0035】テーブル解析部105の処理は、この距離
テーブルを参照して行われる。初めに、テーブル解析部
105は、評価値最大のパターンとしてP3を選択し、
その特徴量を所属クラスの情報と共に辞書に登録する。
図7において選択されたパターンの評価値に○をつけて
示す。このとき、P3の包含パターンは、P1,P2,
P3及びP4であるので、これらの評価値を0にする。
そして、残ったパターンP5及びP6について評価値の
再計算を行う。このとき、パターンP5については、P
4,p5,p6との距離がいずれもT以下である。しか
し、パターンP4は、登録パターンP3の包含パターン
P4であるので、評価値は2である。パターンP6の評
価値は、変化無く2である。この再計算後の評価値を図
7の右側に示す。
【0036】次に、再び評価値最大のパターンを選択す
る。この場合、パターンP5とP6の評価値がいずれも
2であるため、どちらか一方を選択する。この場合の選
択には、例えばそれまでの処理における評価値の変化が
少ないパターンP6などとすることができる。
【0037】パターンP6を選択した場合、その特徴量
を所属クラスの情報と共に辞書に登録する。このとき、
パターンP6の包含パターンは、パターンP5とP6で
あるので、これらの評価値を0にする。これにより、全
てのパターンの評価値が0となり、処理が終了する。
【0038】この結果、例のパターンについては、パタ
ーンP3とP6が自動的に辞書に登録される。
【0039】以上述べたように、この第1の実施形態に
係る辞書作成装置によれば、同一クラスに属するパター
ンを与えるだけで、このクラスに必要な個数の項目を登
録した辞書を自動的に作成することができる。 (C)第2の実施形態 (C−1)装置構成 図8に、第2の実施形態に係る辞書作成装置の構成例を
示す。図8は、図1との対応部分に対応符号、同一部分
に同一符号を付して示したものである。この第2の実施
形態は、他のクラスに属するパターンを利用して、誤認
識のより起り難い辞書を自動的に生成することを目的と
するものである。
【0040】なお、以下の説明では、全クラス数をC、
クラスCのパターン数をNcとし、クラスc(1≦c≦
C)に属する第i(1≦i≦Nc)パターンをPciと
表記する。また、本実施形態における入力パターンは、
全クラスのパターンとする。
【0041】第2の実施形態に係る辞書作成装置は、パ
ターン入力部101と、特徴量算出部102と、辞書作
成部103A(クラス内距離算出部104A、テーブル
解析部105A、辞書出力部106A)と、特徴量記憶
部107と、クラス間距離算出部801と、クラス間距
離記憶部802とからなる。
【0042】第2の実施形態と第1の実施形態の基本的
な違いは、新たに、クラス間距離算出部801と、クラ
ス間距離記憶部802を設けた点である。
【0043】クラス間距離算出部801は、入力された
パターンPciの特徴量Vciに基づいて、そのクラス
cと異なるクラスのパターンとの最小距離min(D
(Vci,Vc'j))(1≦c'≦C、1≦j≦N
c'、c'≠c)を求める部分である。以下、求められた
最小距離をLciと表記する。また、最小距離Lciを
与えたパターンVc'jのクラスc'を、パターンPci
の「最近傍クラス」と呼ぶ。クラス問距離記憶部802
は、各パターンPciにつき、最小距離Lciと最近傍
クラスを記憶する部分である。 (C−2)作成動作 以下、辞書作成部103Aによる辞書作成動作を説明す
る。
【0044】最初に、クラス内距離算出部104Aの動
作について説明する。図9に、クラス内距離算出部10
4Aの動作内容をフローチャートに示す。このクラス内
距離算出部104Aの処理も基本的に第1の実施形態と
同様である。但し、クラス内距離算出部104Aは、第
1の実施形態と同様の距離算出処理をクラス毎に行い、
パターン相互間の距離を記載した距離テーブルを各クラ
ス毎に作成する。
【0045】次に、テーブル解析部105Aの処理につ
いて説明する。図10に、テーブル解析部105Aの処
理フローチャートを示す。このテーブル解析部105A
の処理も基本的に第1の実施形態と同様である。但し、
テーブル解析部105Aは、第1の実施形態と同様の距
離テーブル作成処理をクラス毎に行う。
【0046】まず、ステップ1001において、テーブ
ル解析部105Aは、各パターンPci(1≦i≦N
c)の評価値Aci(1≦i≦Nc)を算出する。この
処理は、第1の実施形態の場合と同様、距離が閾値T以
下である同じクラスのパターンの数として求める。
【0047】なお、パターンPciのクラス間距離Lc
iが閾値Tよりも小さい場合については、評価値の算出
方法に次の2種類がある。 方法A:評価値を0とする。 方法B:クラス問距離を閾値として評価値を算出する。
すなわち、パターンPciの評価値Aciは、D(Vc
i,Vcj)≦min(T,Lci)となるPcj(1
≦j≦Nc)の個数である。ここで、VciはPciの
特徴量である。
【0048】上記方式は、どちらを採用することも可能
であるが、パターンの分布によって辞書に登録される項
目の数に違いの生じることがある。一般的には、方法B
を採用することが望ましい。
【0049】次に、ステップ1002において、テーブ
ル解析部105Aは、評価値Aci(1≦i≦Nc)が
最大であるパターンを1つ選出する。
【0050】続く、ステップ1003において、テーブ
ル解析部105Aは、選出パターンの特徴量と所属クラ
スを辞書に登録する。
【0051】さらに、ステップ1004において、テー
ブル解析部105Aは、包含パターンの評価値を0とす
る。
【0052】そして、ステップ1005において、テー
ブル解析部105Aは、残った0でない評価値を持つ各
パターンについて、選出パターンの包含パターンのうち
距離が閾値T以下であるものの個数だけその評価値を減
じる。
【0053】これらの処理はいずれも第1の実施形態と
同様である。以上の処理を各クラス毎について行う。 (C−3)実施形態の効果 本実施形態の効果を示すため、例として図11に示すよ
うな2次元の特徴量をそれぞれ持つ、2つのクラスに属
するパターンを用いる。それぞれのクラスは、黒丸と白
丸で表す。また、距離に対する閾値をT=1.2とし、
各パターンを中心とする半径Tの円を点線で示す。
【0054】このパターンについてクラス毎に生成され
る距離テーブルを図12に示す。距離はユークリッド距
離である。また、クラス間距離(他のクラスに属するパ
ターンとの最小距離)も同図に示す。
【0055】テーブル解析部105Aの処理は、この距
離テーブルを参照して行われる。始めに、テーブル解析
部105Aは、クラス1のパターンについて評価値を算
出する。ここでは方法Aによって評価値を算出するもの
とする。
【0056】このとき、クラス間距離がTよりも小さい
P13の評価値は0である。この評価値も図12に示
す。また、以降の処理で選択されるパターンの評価値に
○をつけて示す。
【0057】次に、テーブル解析部105Aは、評価値
が最大であるものを選択する。ここでは、評価値が最大
の3であるP12を選択する。そして、P12の特徴量
V12と所属クラス1を辞書に登録する。このとき、P
12の「包含パターン」はP11及びP13であるの
で、これらの評価値を0にする。P14の評価値は1に
なる。
【0058】次に、パターン選択処理においてP14が
選択され、辞書に登録される。そしてP14の評価値も
0となり、クラス1に関する処理が終了する。
【0059】次に、テーブル解析部105Aは、クラス
2について処理を行う。まず評価値が算出されるが、ク
ラス間距離がTよりも小さいP21は評価値が0であ
る。
【0060】次に、テーブル解析部105Aは、評価値
が最大であるものを選択する。ここではP22とP23
がそれぞれ最大の評価値3をもっている。このような場
合の選択方法として、包含パターンにP21のようなク
ラス間距離がTよりも小さいものを多く含むものとする
ことができる。
【0061】このとき、テーブル解析部105AはP2
2を選択し、P22の特徴量と所属クラスを辞書に登録
する。そして、P22の包含パターンP21、P22、
P23の評価値を0にする。また、P24の評価値は1
となる。
【0062】次に、パターン選択処理においてP24が
選択され、辞書に登録される。そしてP24の評価値も
0となり、クラス2に関する処理が終了する。
【0063】このような処理により、他のクラスのパタ
ーンを包含パターンに持つものを登録しないような辞書
が自動的に作成できる。
【0064】次に、方法Bによって評価値を算出する場
合の効果について説明する。まず、図11の分布を持つ
パターンについて、距離の閾値を、閾値Tとクラス間距
離Lciのうち小さい方としたときの包含パターンを図
13に示す。P13とP21について円の半径がクラス
間距離1.0となっている。この各円に含まれるパター
ンの数が中心にあるパターンの評価値である。距離テー
ブルと閾値、評価値を図14に示す。また、以降の処理
で選択されるパターンの評価値に○をつけて示す。
【0065】テーブル解析部105Aの処理は次のよう
になる。まず、テーブル解析部105Aは、クラス1の
パターンについて評価値を算出し、最大評価値を持つパ
ターンを選択する。ここではP12とP13がそれぞれ
最大の評価値3を持っている。さらに前述のような、ク
ラス間距離がTより小さい包含パターンの数もいずれも
1であり等しい。このような場合、選択方法として、ク
ラス間距離の大きい方とすることができる。
【0066】このとき、テーブル解析部105Aは、P
12を選択し、前述と同様にクラス1に関する処理を行
う。
【0067】次に、テーブル解析部105Aは、クラス
2について処理を行う。まず、評価値を算出し、次に、
最大評価値を持つパターンを選択する。ここでは、P2
2とP23がそれぞれ最大の評価値3を持っている。こ
の場合、前述のクラス間距離Lciが閾値Tより小さい
ものを多く含むP22を選択する。以降の処理は、前述
と同様である。
【0068】以上、説明したように、第2の実施形態に
よれば、各クラスのパターンを入力することにより、他
のクラスのパターンを包含パターンに含まないものによ
って、自動的に辞書を作成することができる。これは他
のクラスに近いパターンを辞書に登録しないため、誤認
識を起しにくい辞書を作成することができる。 (D)第3の実施形態 (D−1)装置構成 図15に、第3の実施形態に係る辞書作成装置の構成例
を示す。図15は、図8との対応部分に対応符号、同一
部分に同一符号を付して示したものである。この第3の
実施形態は、既存の辞書に新たなクラスを追加する際
に、そのクラスに属するパターンの入力に応じて辞書の
内容を再構成するものである。
【0069】第3の実施形態に係る辞書作成装置は、パ
ターン入力部101と、特徴量算出部102と、辞書作
成部103B(登録クラス選択部1501と、クラス内
距離算出部104A、テーブル解析部105A、辞書出
力部106A)と、特徴量記憶部107と、クラス間距
離算出部801と、クラス間距離記憶部802とからな
る。
【0070】第3の実施形態と第2の実施形態の基本的
な違いは、新たに、登録クラス選択部1501を辞書作
成部103Bに設けた点である。
【0071】登録クラス選択部1501は、新たなクラ
スに属するパターンによって影響を受ける登録済みのク
ラスを抽出し、その各クラスにつき辞書の再登録を行う
ものである。 (D−2)作成動作 以下、辞書作成部103Bによる辞書作成動作を説明す
る。なお、第3の実施形態の説明をするにあたり、既に
第2の実施形態の手法にてc−1個のクラスに関する辞
書が作成済みであるとする。さらに、c番目のクラスに
属するNc個のパターンPci(1≦i≦Nc)を追加
し、新たな辞書を作成するものとする。
【0072】本装置では、まず第2の実施形態と同様、
特徴量算出部102により、新たに追加されるパターン
Pci(1≦i≦Nc)の特徴量Vci(1≦i≦N
c)を算出する。得られた特徴量は、特徴量記憶部10
7に記憶される。
【0073】次に、クラス間距離算出部801が、特徴
量記憶部107に記憶されている登録済みクラスの全パ
ターンとの最短距離を求め、これをクラス間距離として
算出する。すなわち、パターンPciのクラス間距離L
ciは、Lci=min(D(Vci,Vc'j))
(1≦j≦Nc')であり、最近傍クラスは、上記Lc
iを与えたパターンVc'jの属するクラスである。こ
れらをクラス間距離と共にクラス間距離記憶部802に
記憶しておく。
【0074】次に、登録クラス選択部1501が、辞書
の更新を行うクラスを選択する。ここで選択するクラス
は、次のいずれかのものである。 1.追加登録するクラスc 2.クラス間距離Lciが閾値T以下となった追加パタ
ーンPciの最近傍クラス ここで、閾値Tは、距離の閾値パラメータである。
【0075】そして、登録クラス選択部1501は、上
記条件に該当する各クラスc'(1≦c'<c)につい
て、クラス内距離算出部104A、テーブル解析部10
5Aでの処理を行い、辞書の再登録処理を行う。各部で
の処理内容は、第2の実施形態の場合と同様である。
【0076】なお、選択されないクラスについては、辞
書に登録されている内容をそのまま出力する。得られた
辞書は、辞書出力部106Aより出力される。 (D−3)実施形態の効果 以上、説明したように、第3の実施形態によれば、新し
いクラスに属するパターンを入力することにより、既に
登録済みのクラスを含めて誤認識を起し難い辞書を自動
的に作成することができる。 (E)第4の実施形態 (E−1)装置構成 図16に、第4の実施形態に係る辞書作成装置の構成例
を示す。図16は、図15との対応部分に対応符号、同
一部分に同一符号を付して示したものである。この第4
の実施形態は、既存の辞書から指定されたクラスの内容
を削除した際に、辞書の内容を再構成し、無駄なパター
ンを登録しないような辞書を作成するものである。
【0077】第4の実施形態に係る辞書作成装置は、削
除クラス入力部1601と、特徴量抹消部1602と、
辞書作成部103C(登録クラス選択部1501、クラ
ス間距離算出部801、クラス間距離記憶部802、ク
ラス内距離算出部104A、テーブル解析部105A、
辞書出力部106A)と、特徴量記憶部107とからな
る。
【0078】第4の実施形態と第3の実施形態との基本
的な違いは、パターン入力部101が削除クラス入力部
1601に置き換わっている点と、特徴量算出部102
が特徴量抹消部1602に置き換わっている点の2点で
ある。
【0079】削除クラス入力部1601は、削除するク
ラスcをオペレータが入力する部分である。これは、実
際上、パターン入力部101と同様の装置で構成可能で
あり、キーボードなど様々な入力装置が用いられる。
【0080】特徴量抹消部1602は、特徴量記憶部1
07に記憶されているクラスcに属するパターンの特徴
量を抹消する部分である。
【0081】登録クラス選択部1501は、第3の実施
形態の場合と同様、指定されたクラスcを抹消すること
により影響を受ける他のクラスを抽出し、その各クラス
について辞書再登録を行う部分である。 (E−2)作成動作 以下、辞書作成部103Cによる辞書作成動作を説明す
る。なお、第4の実施形態の説明をするにあたり、辞書
には第2又は第3の実施形態の手法にてC個のクラスに
関する辞書が作成済みであるとする。この辞書に対し、
c番目のクラスの項目を削除した辞書を作成するものと
する。
【0082】まず、削除クラス入力部1601が、削除
クラスcを受け取る。次に、特徴量抹消部1602が、
クラスcに属する各パターンPciの特徴量Vciを、
特徴量記憶部107から抹消する。
【0083】次に、登録クラス選択部1501が、辞書
への再登録を行うクラスを選択する。これは抹消するク
ラスの各パターンの最近傍クラスとして、クラス間距離
記憶部802に記憶されているクラスである。これ以外
のクラスについては、既に登録されている内容をそのま
ま出力する。
【0084】次に、選択されたクラスc'について、ク
ラス間距離算出部801が、各パターンPc'iのクラ
ス間距離及び最近傍クラスを算出する。この際、既に削
除処理を終えた特徴量記憶部107の内容を参照するた
め、抹消するクラスcのパターンとの距離は算出されな
い。
【0085】次に、クラス内距離算出部104Aがクラ
ス内距離を算出し、距離テーブルの作成を行う。但し、
クラスc'の登録時に作成した距離テーブルが保存され
ている場合には、ここで再度作成する必要はない。
【0086】そして、テーブル解析部105Aが、クラ
スc'の辞書への登録を行い、得られた辞書を辞書出力
部106Aより出力する。この処理は、本明細書におけ
る第2の実施形態と同様である。 (E−3)実施形態の効果 以上、説明したように、第4の実施形態によれば、指定
したクラスの内容を削除した辞書を生成する際、削除す
るクラスによって影響を受けていた他のクラスの登録内
容を変更し、影響のない登録内容に戻すことができる。
【0087】通常、互いに近接したクラスについては多
くの項目が登録されることが多いため、このような処理
により不必要な項目を減らし、辞書の大きさを削減する
ことができる。 (F)他の実施形態 上述の説明では、各実施形態に係る作成方法又は装置で
作成される辞書を使用する装置をパターン認識装置とし
て説明したが、このパターン認識装置の具体例には、例
えば、文字認識装置や個人識別装置が含まれる。
【0088】
【発明の効果】上述のように、第1の発明によれば、同
一クラスのパターンを与えるだけで、必要個数の項目を
自動的に登録できる辞書作成方法(又は装置)を実現で
きる。
【0089】また、第2又は第3の発明によれば、他の
クラスに属し得るパターンを自動的に包含パターンから
除くようにしたことにより、誤認識の一層生じ難い辞書
を作成できる辞書作成方法(又は装置)を実現できる。
【0090】また、第4の発明によれば、新しいクラス
の登録時に、既存のクラスを含めて誤認識の生じ難い辞
書を作成できる辞書作成方法(又は装置)を実現でき
る。
【0091】また、第5の発明によれば、既存のクラス
の削除時に、削除によって影響を受ける既存のクラスの
内容を影響のない内容に戻すことにより、誤認識の一層
生じ難い辞書を作成できる辞書作成方法(又は装置)を
実現できる。
【図面の簡単な説明】
【図1】辞書作成装置の第1の実施形態例を示す機能ブ
ロック図である。
【図2】パターンの特微分布例を示す図である。
【図3】パターン認識装置の構成例を示す機能ブロック
図である。
【図4】距離算出部における処理内容を示すフローチャ
ートである。
【図5】テーブル解析部における処理内容を示すフロー
チャートである。
【図6】サンプルパターンの分布例を示す図である。
【図7】図6のサンプルパターンについて求めた距離と
評価値を示す図である。
【図8】辞書作成装置の第2の実施形態例を示す機能ブ
ロック図である。
【図9】距離算出部における処理内容を示すフローチャ
ートである。
【図10】テーブル解析部における処理内容を示すフロ
ーチャートである。
【図11】2クラスのサンプルパターン分布例を示す図
である。
【図12】図11のクラス毎に求めた距離テーブルと評
価値、クラス間距離を示す図である。
【図13】クラス間距離により閾値を変更したサンプル
パターン分布例を示す図である。
【図14】クラス間距離により変更した閾値と評価値を
示す図である。
【図15】辞書作成装置の第3の実施形態例を示す機能
ブロック図である。
【図16】辞書作成装置の第4の実施形態例を示す機能
ブロック図である。
【符号の説明】
101、201…パターン入力部、102、202…特
徴量算出部、103、103A、103B、103C…
辞書作成部、104…距離算出部、104A…クラス内
距離算出部、105、105A…テーブル解析部、10
6、106A…辞書出力部、107…特徴量記憶部、2
03…照合部、204…結果出力部、205…照合用辞
書、104…距離算出部、105…テーブル解析部、1
06…辞書出力部、107…特徴量記憶部、801…ク
ラス間距離算出部、802…クラス間距離記憶部、15
01…登録クラス選択部、1601…削除クラス入力
部、1602…特徴量抹消部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 渡辺 孝弘 東京都港区虎ノ門1丁目7番12号 沖電気 工業 株式会社内 (72)発明者 鳥越 真 東京都港区虎ノ門1丁目7番12号 沖電気 工業 株式会社内 Fターム(参考) 5L096 BA17 FA66 GA51 JA22 JA25 KA13 MA07

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力パターンより、パターン認識用の辞
    書を作成する辞書作成方法において、 入力パターン相互間の距離を算出後、その距離が閾値以
    下となるパターンの数を各パターンに対する評価値とし
    て求める処理と、 前記評価値の高いものから順番に登録し、その際、先に
    登録されたパターンに包含される包含パターンについて
    は次の登録対象から予め除外する処理とを備えることを
    特徴とする辞書作成方法。
  2. 【請求項2】 入力パターンより、各パターンの属する
    クラス認識用の辞書を作成する辞書作成方法において、 入力パターンをそれが属するクラスに分類する処理と、 各パターンと別のクラスに属するパターンとの最小距離
    を算出する処理と、 同一クラスに属するパターン相互間の距離を算出後、そ
    の距離が閾値以下となるパターンの数を各パターンに対
    する評価値として求める処理と、 原則として、前記評価値の高いものから順番に対応する
    クラスの辞書に登録し、その際、先に登録されたパター
    ンに包含される包含パターンについては次の登録対象か
    ら予め除外するものの、前記最小距離が前記評価値を求
    めるのに用いた閾値以下である場合には、前記評価値が
    高くても辞書に登録しない処理とを備えることを特徴と
    する辞書作成方法。
  3. 【請求項3】 入力パターンより、各パターンの属する
    クラス認識用の辞書を作成する辞書作成方法において、 入力パターンをそれが属するクラスに分類する処理と、 各パターンと別のクラスに属するパターンとの最小距離
    を算出する処理と、 前記最小距離が閾値以上の場合、同一クラスに属するパ
    ターン相互間の距離が前記閾値以下となるパターンの数
    を当該パターンに対する評価値として求める一方、前記
    最小距離が閾値未満の場合、同一クラスに属するパター
    ン相互間の距離が前記最小距離以下となるパターンの数
    を当該パターンに対する評価値として求める処理と、 前記評価値の高いものから順番に登録し、その際、先に
    登録されたパターンに包含される包含パターンについて
    は次の登録対象から予め除外する処理とを備えることを
    特徴とする辞書作成方法。
  4. 【請求項4】 請求項2又は3に記載の辞書作成方法に
    おいて、 既存の辞書に、新たなクラスを追加する場合、当該クラ
    スの追加によって影響を受ける既存のクラスを選択し、
    新たに追加するクラス及び選択された各クラスそれぞれ
    についての登録内容を改めて決定する処理をさらに備え
    ることを特徴とする辞書作成方法。
  5. 【請求項5】 請求項2〜4のいずれかに記載の辞書作
    成方法において、 既存の辞書からあるクラスを削除する場合、当該クラス
    の削除によって影響を受ける既存のクラスを選択し、選
    択された各クラスについての登録内容を改めて決定する
    処理をさらに備えることを特徴とする辞書作成方法。
  6. 【請求項6】 入力パターンより、パターン認識用の辞
    書を作成する辞書作成装置において、 辞書作成部が、入力パターン相互間の距離を算出する手
    段と、その距離が閾値以下となるパターンの数を各パタ
    ーンに対する評価値として求める手段と、前記評価値の
    高いものから順番に登録し、その際、先に登録されたパ
    ターンに包含される包含パターンについては次の登録対
    象から予め除外する手段とを備えることを特徴とする辞
    書作成装置。
  7. 【請求項7】 入力パターンより、各パターンの属する
    クラス認識用の辞書を作成する辞書作成装置において、 辞書作成部が、入力パターンをそれが属するクラスに分
    類する手段と、各パターンと別のクラスに属するパター
    ンとの最小距離を算出する手段と、同一クラスに属する
    パターン相互間の距離を算出後、その距離が閾値以下と
    なるパターンの数を各パターンに対する評価値として求
    める手段と、原則として、前記評価値の高いものから順
    番に対応するクラスの辞書に登録し、その際、先に登録
    されたパターンに包含される包含パターンについては次
    の登録対象から予め除外するものの、前記最小距離が前
    記評価値を求めるのに用いた閾値以下である場合には、
    前記評価値が高くても辞書に登録しない手段とを備える
    ことを特徴とする辞書作成装置。
  8. 【請求項8】 入力パターンより、各パターンの属する
    クラス認識用の辞書を作成する辞書作成装置において、 辞書作成部が、入力パターンをそれが属するクラスに分
    類する手段と、各パターンと別のクラスに属するパター
    ンとの最小距離を算出する手段と、前記最小距離が閾値
    以上の場合、同一クラスに属するパターン相互間の距離
    が前記閾値以下となるパターンの数を当該パターンに対
    する評価値として求める一方、前記最小距離が閾値未満
    の場合、同一クラスに属するパターン相互間の距離が前
    記最小距離以下となるパターンの数を当該パターンに対
    する評価値として求める手段と、前記評価値の高いもの
    から順番に登録し、その際、先に登録されたパターンに
    包含される包含パターンについては次の登録対象から予
    め除外する手段とを備えることを特徴とする辞書作成装
    置。
  9. 【請求項9】 請求項7又は8に記載の辞書作成装置に
    おいて、 前記辞書作成部が、既存の辞書に、新たなクラスを追加
    する場合、当該クラスの追加によって影響を受ける既存
    のクラスを選択し、新たに追加するクラス及び選択され
    た各クラスそれぞれについての登録内容を改めて決定す
    る手段をさらに備えることを特徴とする辞書作成装置。
  10. 【請求項10】 請求項7〜9のいずれかに記載の辞書
    作成装置において、 前記辞書作成部が、既存の辞書からあるクラスを削除す
    る場合、当該クラスの削除によって影響を受ける既存の
    クラスを選択し、選択された各クラスについての登録内
    容を改めて決定する手段をさらに備えることを特徴とす
    る辞書作成装置。
JP10271091A 1998-09-25 1998-09-25 辞書作成方法及び装置 Pending JP2000099723A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10271091A JP2000099723A (ja) 1998-09-25 1998-09-25 辞書作成方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10271091A JP2000099723A (ja) 1998-09-25 1998-09-25 辞書作成方法及び装置

Publications (1)

Publication Number Publication Date
JP2000099723A true JP2000099723A (ja) 2000-04-07

Family

ID=17495243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10271091A Pending JP2000099723A (ja) 1998-09-25 1998-09-25 辞書作成方法及び装置

Country Status (1)

Country Link
JP (1) JP2000099723A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191834A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 文書分類方法、文書分類装置、およびプログラム
WO2020178893A1 (ja) * 2019-03-01 2020-09-10 日本電気株式会社 辞書生成装置、生体認証装置、監視システム、辞書生成方法、および記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191834A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 文書分類方法、文書分類装置、およびプログラム
WO2020178893A1 (ja) * 2019-03-01 2020-09-10 日本電気株式会社 辞書生成装置、生体認証装置、監視システム、辞書生成方法、および記録媒体
JPWO2020178893A1 (ja) * 2019-03-01 2021-11-11 日本電気株式会社 辞書生成装置、生体認証装置、辞書生成方法、およびプログラム
JP7248097B2 (ja) 2019-03-01 2023-03-29 日本電気株式会社 辞書生成装置、生体認証装置、辞書生成方法、およびプログラム

Similar Documents

Publication Publication Date Title
KR100297482B1 (ko) 수기입력의문자인식방법및장치
JP3925971B2 (ja) 統合同値類の作成方法
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
US9047655B2 (en) Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
US5835634A (en) Bitmap comparison apparatus and method using an outline mask and differently weighted bits
MXPA04009150A (es) Metodo y aparato para detectar una lista en una entrada de tinta.
US8103099B2 (en) Method and system for recognizing characters and character groups in electronically represented text
JPH09198511A (ja) シンボルの分類方法
EP2073146A1 (en) Pattern recognizing device for recognizing input pattern by using dictionary pattern
JP3313272B2 (ja) 住所読み取り方法および識別関数重みベクトル生成方法
JP2000099723A (ja) 辞書作成方法及び装置
JPH0944602A (ja) 近傍点検出方法及びパターン認識装置
JP2009122758A (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP2853168B2 (ja) パターン認識装置
JP2002092674A (ja) 切手検出装置、切手検出方法、書状処理装置および書状処理方法
CN109800433A (zh) 基于邮件二分类模型的建档方法、装置、电子设备及介质
JP3815934B2 (ja) 手書き文字認識装置および方法
JP3221488B2 (ja) 検証機能付きオンライン文字認識装置
JP2001314820A (ja) 宛名領域検出装置
JP3320083B2 (ja) 文字認識装置及び方法
JP2976990B2 (ja) 文字認識装置
JPH06290272A (ja) 高速マッチング方式
JPS5942908B2 (ja) 実時間文字認識装置