JP3374793B2 - 高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体 - Google Patents

高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体

Info

Publication number
JP3374793B2
JP3374793B2 JP20550399A JP20550399A JP3374793B2 JP 3374793 B2 JP3374793 B2 JP 3374793B2 JP 20550399 A JP20550399 A JP 20550399A JP 20550399 A JP20550399 A JP 20550399A JP 3374793 B2 JP3374793 B2 JP 3374793B2
Authority
JP
Japan
Prior art keywords
template
subset
category
classification
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP20550399A
Other languages
English (en)
Other versions
JP2001034709A (ja
Inventor
昇 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP20550399A priority Critical patent/JP3374793B2/ja
Publication of JP2001034709A publication Critical patent/JP2001034709A/ja
Application granted granted Critical
Publication of JP3374793B2 publication Critical patent/JP3374793B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は高速認識検索システ
ム及びそれに用いる認識検索高速化方法並びにその制御
プログラムを記録した記録媒体に関し、特に多数の子ノ
ードからなるデータ集合から所望の子ノードを抽出する
認識検索処理を高速化する方法に関する。
【0002】
【従来の技術】従来、決定木による認識システムにおい
ては、特徴抽出部と、標本辞書部と、離散型決定木生成
部と、決定木記憶部と、バックトラック決定木探索部と
から構成されている。
【0003】上記の決定木による認識システムでは文字
パターンが入力されると、特徴抽出部によって特徴ベク
トルが生成される。予め離散型決定木生成部によって生
成された決定木は決定木記憶部に記憶されている。
【0004】特徴ベクトルは決定木の各ノードに記憶さ
れた条件にしたがって識別され、識別結果にしたがった
子ノードが選択されて以降の識別が行われる。同様な分
類が終端ノードに到達するまで繰り返して行われる。
【0005】終端ノードにおいては最終的な標本辞書と
の照合が行われる。この照合を良好に行えない場合、バ
ックトラック決定木探索部は辞書を上位の階層に遡って
検索を行う。上記の決定木による認識システムについて
は、特開平6−282687号公報に開示されている。
【0006】
【発明が解決しようとする課題】上述した従来の決定木
による認識システムでは、上記の方法のようなバックト
ラックのインプリメンテーションを最適に行うことは一
般に困難で、実際の探索効率が改善されないことが多
い。最悪の場合、全探索と同程度まで劣化してしまうこ
とがあるうえに、検索パターンによって検索時間が不安
定になるため、必ずしも検索効率を改善させることがで
きない。
【0007】また、階層構造の構築には、例えば特徴空
間内での特定の位置からのユークリッド距離で評価され
るといったような確定的かつ画一的な基準が設けられて
おり、被検索要素の性質にしたがって特定の決定木の構
造修正を行うことは不可能であるため、通常、体感的な
検索効率を改善させるために、被検索頻度の高い要素を
高速に出力する枠組みを準備すべきであるが、上記の方
法ではこれを実現することが不可能である。
【0008】そこで、本発明の目的は上記の問題点を解
消し、バックトラックを伴わずに安定な所用時間で高速
に検索を実行できる高速認識検索システム及びそれに用
いる認識検索高速化方法並びにその制御プログラムを記
録した記録媒体を提供することにある。
【0009】本発明の他の目的は、対象の出現確率にし
たがって決定木の構造を最適化でき、体感的な検索効率
の改善を行うことができる高速認識検索システム及びそ
れに用いる認識検索高速化方法並びにその制御プログラ
ムを記録した記録媒体を提供することにある。
【0010】
【課題を解決するための手段】本発明による高速認識検
索システムは、入力された文字パターンから特徴ベクト
ルを生成し、前記特徴ベクトルを予め生成された決定木
の各ノードに記憶された条件にしたがって識別し、その
識別結果にしたがって子ノードを順次選択し、この分類
を終端ノードに到達するまで繰り返し行う高速認識検索
システムであって、予め設定された正解カテゴリを付与
してあるパターンの集合から認識辞書に記憶された複数
次元の特徴ベクトルのテンプレートを生成する生成手段
と、前記生成手段で作成されたテンプレートと前記テン
プレートの生成に寄与したパターンとを関連付けて記憶
するテンプレート辞書記憶手段と、現在着目しているテ
ンプレート及び当該テンプレートそれぞれに対応するパ
ターンの集合と前記正解カテゴリの出現頻度とを部分集
合に分類しかつ前記部分集合に属するテンプレートと前
記部分集合への分離を行うための閾値とを出力する部分
集合生成手段と、前記部分集合生成手段が逐次生成する
前記テンプレートの部分集合を該当する分離前のテンプ
レートの部分集合に関連付けて記憶する階層辞書手段
と、前記階層辞書記憶手段に記憶された階層構造を上位
階層から順に入力して入力パターンを分類しかつ分類さ
れた結果の子ノードを出力する決定木分類手段と、前記
階層構造のリーフノードからテンプレートを決定するた
めに効果的な特徴量を読出してそれらの特徴量を用いて
大分類を行うカテゴリ決定手段とを備え 前記部分集合
生成手段は、決定された閾値に跨って存在するカテゴリ
を閾値の両側の部分集合に含めて決定木を生成してい
る。
【0011】本発明による認識検索高速化方法は、入力
された文字パターンから特徴ベクトルを生成し、前記特
徴ベクトルを予め生成された決定木の各ノードに記憶さ
れた条件にしたがって識別し、その識別結果にしたがっ
て子ノードを順次選択し、この分類を終端ノードに到達
するまで繰り返し行う高速認識検索システムの認識検索
高速化方法であって、予め設定された正解カテゴリを付
与してあるパターンの集合から認識辞書に記憶された複
数次元の特徴ベクトルのテンプレートを生成するステッ
プと、現在着目しているテンプレート及び当該テンプレ
ートそれぞれに対応するパターンの集合と前記正解カテ
ゴリの出現頻度とを部分集合に分類しかつ前記部分集合
に属するテンプレートと前記部分集合への分離を行うた
めの閾値とを出力するステップと、逐次生成されるテン
プレートの部分集合を該当する分離前のテンプレートの
部分集合に関連付けて記憶する階層辞書手段に記憶され
た階層構造を上位階層から順に入力して入力パターンを
分類しかつ分類された結果の子ノードを出力するステッ
プと、前記階層構造のリーフノードからテンプレートを
決定するために効果的な特徴量を読出してそれらの特徴
量を用いて大分類を行うステップとを備え 前記部分集
合に属するテンプレートと部分集合とへの分離を行うた
めの閾値を出力するステップは、決定された閾値に跨っ
て存在するカテゴリを閾値の両側の部分集合に含めて決
定木を生成している。
【0012】本発明による認識検索高速化制御プログラ
ムを記録した記録媒体は、入力された文字パターンから
特徴ベクトルを生成し、前記特徴ベクトルを予め生成さ
れた決定木の各ノードに記憶された条件にしたがって識
別し、その識別結果にしたがって子ノードを順次選択
し、この分類を終端ノードに到達するまで繰り返し行う
認識検索装置における認識検索を高速化するための認識
検索高速化制御プログラムを記録した記録媒体であっ
て、前記認識検索高速化制御プログラムは前記認識検索
装置に、予め設定された正解カテゴリを付与してあるパ
ターンの集合から認識辞書に記憶された複数次元の特徴
ベクトルのテンプレートを生成させ、現在着目している
テンプレート及び当該テンプレートそれぞれに対応する
パターンの集合と前記正解カテゴリの出現頻度とを部分
集合に分類しかつ前記部分集合に属するテンプレートと
部分集合への分離を行うための閾値とを出力させ、逐次
生成されるテンプレートの部分集合を該当する分離前の
テンプレートの部分集合に関連付けて記憶する階層辞書
手段に記憶された階層構造を上位階層から順に入力して
入力パターンを分類しかつ分類された結果の子ノードを
出力させ、前記階層構造のリーフノードからテンプレー
トを決定するために効果的な特徴量を読出してそれらの
特徴量を用いて大分類を行わせ、前記部分集合に属する
テンプレートと部分集合とへの分離を行うための閾値を
出力させる際に、決定された閾値に跨って存在するカテ
ゴリを閾値の両側の部分集合に含めて決定木を生成させ
ている。
【0013】すなわち、本発明の高速認識検索システム
は、予め設定された正解カテゴリを付与してあるパター
ンの集合から認識辞書に保存される複数次元の特徴ベク
トルのテンプレートを生成する辞書作成部と、作成され
たテンプレートとテンプレートの生成に寄与したパター
ンとを関連付けて記憶するテンプレート記憶部と、現在
着目しているテンプレート及びテンプレートそれぞれに
対応するパターンの集合を入力してこれらを部分集合に
分類しかつ部分集合に属するテンプレートと部分集合へ
の分離を行うための閾値または識別境界とを出力し、併
せて、もし出力するノードをリーフノードとする場合に
該当する部分集合に属するテンプレートの特徴ベクトル
を縮退して以降の識別に有効な優位な特徴のみを選択し
て出力する部分集合生成部と、部分集合生成部が逐次生
成するテンプレートの部分集合を入力して該当する分離
前のテンプレートの部分集合と関連付けて記憶する階層
構造記憶部とから構成される学習処理部を有している。
【0014】また、本発明の高速認識検索システムは、
この学習処理部の階層構造記憶部に記憶された階層構造
を上位階層から順に入力し、入力パターンを分類し、分
類された結果の子ノードを出力し、もしパターンの子ノ
ードへの分類が最下層まで終了している場合に分類を終
了するパターン分類部と、階層構造を記憶している階層
構造記憶部とから構成される識別処理部を有している。
【0015】さらに、本発明の高速認識検索システム
は、階層構造のリーフノードから各特徴量の寄与率を読
出して寄与率の低い特徴のみを用いて大分類を行う大分
類部とを有し、分類の経過にしたがって以降の分類を高
速に行えるように動作している。この場合、部分集合生
成部は決定された識別境界に跨って存在するカテゴリを
閾値の両側の部分集合に含めて決定木を生成するため、
冗長な決定木のバックトラックを行わずに安定した検索
時間でパターンの検索が行えるよう動作する。
【0016】さらにまた、本発明の高速認識検索システ
ムは、部分集合への識別境界の決定時に、正解カテゴリ
ωj の事前確率を算出し、これに応じて部分集合として
出力することを特徴とし、頻出する文字を決定木の早い
階層で確定できるように設計されているため、体感的な
検索速度を向上させられるよう動作する。
【0017】
【発明の実施の形態】次に、本発明の実施例について図
面を参照して説明する。図1は本発明の一実施例による
高速認識検索システムの構成を示すブロック図である。
図1において、本発明の一実施例による高速認識検索シ
ステムは学習処理手段1と、識別処理手段2とから構成
されている。
【0018】学習処理手段1はテンプレート辞書作成部
11と、テンプレート辞書記憶部12と、部分集合生成
部13と、階層辞書記憶部14とからなり、識別処理手
段2は決定木分類部21と、カテゴリ決定部21とから
なる。尚、識別処理手段2は学習処理手段1のテンプレ
ート辞書記憶部12と階層辞書記憶部14とを含む。
【0019】学習処理手段1のテンプレート辞書作成部
11は予め設定された正解カテゴリ(例えば、「あ」な
らば「あ」のカテゴリ)を付与してあるパターンの集合
から認識辞書に保存される複数次元の特徴ベクトルのテ
ンプレート(参照パターン)を生成する。テンプレート
辞書記憶部12は作成されたテンプレートとテンプレー
トの生成に寄与したパターンとを関連付けて記憶する。
【0020】部分集合生成部13は着目しているテンプ
レート及びテンプレートそれぞれに対応するパターンの
集合と正解カテゴリの出現頻度とを入力し、これらを部
分集合に分類し、部分集合に属するテンプレートと部分
集合とへの分離を行うための閾値を出力する。階層辞書
記憶部14は部分集合生成部13が逐次生成するテンプ
レートの部分集合を入力し、該当する分離前のテンプレ
ートの部分集合と関連付けて記憶する。
【0021】識別処理手段2の決定木分類部21はテン
プレート辞書記憶部12とカテゴリ決定部22と学習処
理手段1の階層構造記憶部14に記憶された階層構造を
上位階層から順に入力し、入力パターンを分類し、分類
された結果の子ノードを出力し、もしパターンの子ノー
ドへの分類が最下層まで終了している場合に分類を終了
する。
【0022】カテゴリ決定部21は階層構造を記憶して
いる階層構造記憶部から、階層構造のリーフノード(末
端ノード)からテンプレートを決定するために効果的な
特徴量を読出し、それらの特徴量を用いて大分類を行
う。
【0023】図2は図1の学習処理手段1の処理動作を
示すフローチャートであり、図3は図1の識別処理手段
2の処理動作を示すフローチャートである。図4〜図7
は本発明の一実施例による高速認識検索システムの処理
動作を説明するための図である。
【0024】これら図1〜図7を参照して本発明の一実
施例による高速認識検索システムの全体の動作について
説明する。尚、図2及び図3に示す処理動作は学習処理
手段1及び識別処理手段2が図示せぬ制御メモリのプロ
グラムを実行することで実現され、制御メモリとしては
ROM(リードオンリメモリ)やIC(集積回路)メモ
リ等が使用可能である。
【0025】学習処理手段1は入力された正解カテゴリ
つきの学習パターンから、テンプレートを生成する(図
2ステップS1)。テンプレートの生成方法は、例えば
同一の正解カテゴリを持つパターン(特徴ベクトル)を
平均することで生成する。
【0026】学習処理手段1は注目ノードに属するテン
プレートを登録する(図2ステップS2)。初回のルー
プの場合、注目ノードはルートノード、それに属するテ
ンプレートは全テンプレートとなる。
【0027】学習処理手段1は注目ノードに属するテン
プレートをクラスタリングによって複数の部分集合に分
類する(図2ステップS3)。クラスタリングの方法と
しては、例えば既存のk平均アルゴリズム(Tou 、Gonz
alez著、「Pattern Recognition Principles」、Addiso
n-Weisley Publishing Company社刊、p.90)を用いて実
現することができる。
【0028】学習処理手段1は生成された部分集合の境
界となる識別面を求める。識別面はより簡単な計算で表
現できたほうが、決定木による識別の高速化に効果があ
る。識別面を、例えば線形の超平面とした場合には、部
分集合の識別面とテンプレートそのものによる識別境界
とが一致しない。
【0029】このため、部分集合の識別面付近で、パタ
ーンの識別結果が部分集合の識別面による識別結果と各
テンプレートによる識別結果との間で矛盾が生じる可能
性がある(図4に示す斜線の領域)。この場合、矛盾を
生じた特徴空間内の領域に寄与するテンプレートは該当
する両方の部分集合に含める(図4に示す黒丸のテンプ
レート)。
【0030】ここで、部分集合の識別面の求め方は、例
えば部分集合に属するテンプレートの特徴ベクトルの平
均を部分集合の中心とし、部分集合中心間の二等分超平
面を識別面とする方法を用いることができる。
【0031】学習処理手段1はクラスタリングによって
生成されたテンプレートの部分集合をそれぞれ注目ノー
ドの下位ノードとして登録する(図2ステップS4)。
学習処理手段1はこれとあわせて、ステップS3で生成
した識別面を注目ノードに対応付けて登録する。登録し
たノードをリーフノードとする条件は、例えば「ノード
に属するテンプレート数が規定値未満になるまで減少し
た場合」というように設定することができる。
【0032】学習処理手段1は登録したノードがリーフ
ノードの条件を満たしているか否かの判定を行い、リー
フノードでないと判定された場合にはステップS6へ、
リーフノードであると判定された場合にはステップS7
へ移動する(図2ステップS5)。
【0033】学習処理手段1は登録された子ノードを、
さらに子ノードへと分割される注目ノードとして更新
し、上述したステップS2以下の処理を再帰的に適用す
る(図2ステップS6)。
【0034】学習処理手段1はリーフノードとして登録
されたノードに属するテンプレートに対して、テンプレ
ートを分類するのに有効な特徴を選択する。選択の方法
としては、例えば該当するテンプレートの特徴ベクトル
の主成分分析を行った際の第1〜第n主成分とする。こ
のようにして、選択した特徴成分をリーフノードに対応
付けて記憶する(図2ステップS7)。
【0035】学習処理手段1は全リーフノードの登録が
終了したら上記の動作を終了し、終了していなかった
ら、ステップS9の処理に移る(図2ステップS8)。
すなわち、学習処理手段1はリーフノードがまだ登録さ
れていないノードをサーチし、注目ノードをそのノード
に移して上記のステップS2以降の処理を継続する(図
2ステップS9)。
【0036】一方、識別処理手段2は入力パターンの特
徴ベクトルが、注目ノードに保存してある識別面と比較
して下位のノードのいずれに分類されるかを決定する
(図3ステップS11)。上記のように、識別の方法に
線形の超平面である識別面を用いる場合には、入力され
た特徴ベクトルが識別面のどちら側に存在するかで識別
を行う。
【0037】ステップS11で決定された下位ノードが
リーフノードであった場合にはステップS13へ、それ
以外の場合には下位ノードを注目ノードに置き換えて上
記のステップS11以降の処理を再帰的に適用する(図
3ステップS12)。
【0038】識別処理手段2はリーフノードと対応付け
て記憶されている選択された特徴の要素を読出す(図3
ステップS13)。識別処理手段2は選択された特徴の
要素を用いて、入力パターンとリーフノード以下のテン
プレートとのマッチングを行い、各テンプレートに属す
る距離値を出力する(図3ステップS14)。最後に、
識別処理手段2は距離値の最小となるテンプレートのカ
テゴリを認識結果として出力する(図3ステップS1
5)。
【0039】本発明の一実施例では決定木によって決定
されるリーフノードの部分集合応じて、以降の分類方法
が最適化されているため、安定かつ高速化な認識検索を
行うことができる。また、本発明の一実施例はクラスタ
リング時の境界面に矛盾が生じた場合にテンプレートを
両方のノードに含めて登録することで、認識時の煩雑な
バックトラックを防ぐことが可能となり、どのテンプレ
ートに対しても一定の検索時間で検索結果を呈示するこ
とができる。
【0040】次に、文字の特徴パターンから二分木によ
って正解カテゴリを検索する例を用いて説明する。図5
に示すように、2次元の特徴空間にテンプレートが分布
しているとする。また、リーフノードに属するテンプレ
ート数は簡単のため、2未満とする。2次元の場合、部
分集合の識別面は直線となる。
【0041】上記のアルゴリズムにしたがって識別面を
生成した結果は、図6に示すようになる。図6では識別
面の太さを違えて表示しているが、太→細の順序に部分
集合の識別面が生成されたことを示している。
【0042】これに対応する二分木は、図7に示すよう
になる。部分集合の識別面に跨って存在するテンプレー
トは、図7の「あ」や「リ」のように二分木上に重複し
て登録されている。
【0043】このため、認識時にはバックトラックを行
うことなく、1回の縦型探索でテンプレートのカテゴリ
を特定することが可能となる。また、リーフノードでは
2つのテンプレートを最適に識別するための特徴が選択
されているため、計算効率を削減することができる。
【0044】図6及び図7に示す場合と異なり、実際に
は特徴ベクトルが多次元から構成されるため、二分木に
よる識別の過程で既に用いられかつリーフノードに属す
るテンプレートのマッチングを行うのに不要となった特
徴ベクトルの要素を除外することは、マッチングの効率
をあげるのに有効である。
【0045】図8は本発明の他の実施例による高速認識
検索システムの構成を示すブロック図である。図8にお
いて、本発明の他の実施例による高速認識検索システム
は学習処理手段3にカテゴリ出現頻度計測部15を追加
した以外は、図1に示す本発明の一実施例による高速認
識検索システムと同様の構成となっており、同一構成要
素には同一符号を付してある。また、同一構成要素の動
作は本発明の一実施例による高速認識検索システムと同
様である。
【0046】カテゴリ出現頻度計測部15は認識検索対
象となるデータの集合に対して、カテゴリの出現の事前
確率を計測し、これを部分集合生成部13に出力する。
部分集合生成部13はカテゴリ出現頻度頻度計測部15
の出力するカテゴリの出現頻度を考慮してテンプレート
の部分集合を生成する。
【0047】例えば、注目ノード内に頻出するカテゴリ
のテンプレートが含まれている場合には出現頻度にした
がって、該当するテンプレートを含んだ部分集合のサイ
ズを小さくするように修正する。これによって、頻出す
るテンプレートを早期にリーフノードにすることが可能
となる。
【0048】頻出するテンプレートが上位の階層でリー
フノードとなっていると、リーフノードに到達するまで
に要する計算量を削減することができ、頻出するカテゴ
リを速く検索することが可能となる。ここで、部分集合
サイズの制御方法としては、例えば下位の部分集合を生
成する際に、識別面を二等分超平面とせずに、出現頻度
の大きい部分集合側に識別面を平行に移動する。
【0049】次に、注目ノードG0 から、部分集合G
1 ,G2 を生成する場合について説明する。従来、出現
頻度を考慮しない場合(部分集合G1 ,G2 に属するカ
テゴリωj の出現頻度が等しい場合)、 (x1 −x2 )x−(‖x12 −‖x22 )/2=
0 となる。ここで、x1 ,x2 ,xはベクトルである。
【0050】各部分集合の各カテゴリωj の出現頻度が
大きい部分集合の方向に識別面を平行移動することを考
えると、 (x1 −x2 )x−{(A+1)(x12 −(2A+
1)x12 +A(x22 }=0 となる。ここで、
【数1】 であり、定数kは0<k≦1をとり、出現頻度比の1/
2からのずれに応じて変化させる識別面の移動量を制御
するパラメータである。
【0051】学習処理手段1のその他の処理部及び識別
処理手段2に関しては、本発明の一実施例による高速認
識検索システムと同様に動作するため、それらの動作の
説明は省略する。
【0052】本発明の他の実施例では部分集合に属する
カテゴリの出現頻度が大きい場合に、その出現頻度の大
きさに応じて部分集合の特徴空間内での大きさを制御す
るように構成しているため、出現頻度が大きいカテゴリ
を決定木の浅い階層でリーフノードにすることができ
る。このため、出現頻度が高いカテゴリのテンプレート
は少ない計算量でカテゴリを特定することができるた
め、検索の体感的な高速化を実現することができる。
【0053】例えば、文字認識の場合、ひらがなが文書
の大半を占めるが、対象文書における文字種の頻度分布
が既知であれば、それに応じた決定木を構築することが
できる。認識時に、ひらがなは決定木の浅い階層で分類
が終了するように記録されているので、文書全体にわた
る文字の認識を高速に行うことができる。
【0054】このように、決定木のリーフノードに属す
るテンプレートの分布に応じて、以降のカテゴリを特定
するための分類方法を最適化することによって、高速な
認識検索を行うことができる。
【0055】また、決定木の生成を行う際に、部分集合
の境界面に跨って存在するテンプレートを両方のノード
に含めて登録することによって、認識時の煩雑なバック
トラックを防ぐことができるので、どのテンプレートに
対しても安定した検索時間で検索結果を呈示することが
できる。
【0056】さらに、部分集合に属するカテゴリの出現
頻度が大きい場合に、その出現頻度の大きさに応じて部
分集合の特徴空間内での大きさを制御することによっ
て、出現頻度が大きいカテゴリを決定木の浅い階層でリ
ーフノードにし、出現頻度が高いカテゴリのテンプレー
トが少ない計算量でカテゴリを特定することができるの
で、対象のカテゴリの出現頻度に応じてさらなる体感的
な検索高速化を実現することができる。
【0057】
【発明の効果】以上説明したように本発明の高速認識検
索システムによれば、決定木のリーフノードに属するテ
ンプレートの分布に応じて、以降のカテゴリを特定する
ための分類方法を最適化し、決定木の生成を行う際に、
部分集合の境界面に跨って存在するテンプレートを両方
のノードに含めて登録することによって、バックトラッ
クを伴わずに安定な所用時間で高速に検索を実行できる
という効果がある。
【0058】また、本発明の他の高速認識検索システム
によれば、部分集合に属するカテゴリの出現頻度が大き
い場合に、その出現頻度の大きさに応じて部分集合の特
徴空間内での大きさを制御することによって、対象の出
現確率にしたがって決定木の構造を最適化でき、体感的
な検索効率の改善を行うことができるという効果があ
る。
【図面の簡単な説明】
【図1】本発明の一実施例による高速認識検索システム
の構成を示すブロック図である。
【図2】図1の学習処理手段の処理動作を示すフローチ
ャートである。
【図3】図1の識別処理手段の処理動作を示すフローチ
ャートである。
【図4】本発明の一実施例による高速認識検索システム
の処理動作を説明するための図である。
【図5】本発明の一実施例による高速認識検索システム
の処理動作を説明するための図である。
【図6】本発明の一実施例による高速認識検索システム
の処理動作を説明するための図である。
【図7】本発明の一実施例による高速認識検索システム
の処理動作を説明するための図である。
【図8】本発明の他の実施例による高速認識検索システ
ムの構成を示すブロック図である。
【符号の説明】
1 学習処理手段 2 識別処理手段 11 テンプレート辞書作成部 12 テンプレート辞書記憶部 13 部分集合生成部 14 階層辞書記憶部 15 カテゴリ出現頻度計測部 21 決定木分類部 22 カテゴリ決定部

Claims (11)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された文字パターンから特徴ベクト
    ルを生成し、前記特徴ベクトルを予め生成された決定木
    の各ノードに記憶された条件にしたがって識別し、その
    識別結果にしたがって子ノードを順次選択し、この分類
    を終端ノードに到達するまで繰り返し行う高速認識検索
    システムであって、 予め設定された正解カテゴリを付与してあるパターンの
    集合から認識辞書に記憶された複数次元の特徴ベクトル
    のテンプレートを生成する生成手段と、 前記生成手段で作成されたテンプレートと前記テンプレ
    ートの生成に寄与したパターンとを関連付けて記憶する
    テンプレート辞書記憶手段と、 現在着目しているテンプレート及び当該テンプレートそ
    れぞれに対応するパターンの集合と前記正解カテゴリの
    出現頻度とを部分集合に分類しかつ前記部分集合に属す
    るテンプレートと前記部分集合への分離を行うための閾
    値とを出力する部分集合生成手段と、 前記部分集合生成手段が逐次生成する前記テンプレート
    の部分集合を該当する分離前のテンプレートの部分集合
    に関連付けて記憶する階層辞書手段と、 前記階層辞書記憶手段に記憶された階層構造を上位階層
    から順に入力して入力パターンを分類しかつ分類された
    結果の子ノードを出力する決定木分類手段と、 前記階層構造のリーフノードからテンプレートを決定す
    るために効果的な特徴量を読出してそれらの特徴量を用
    いて大分類を行うカテゴリ決定手段とを有し、 前記部分集合生成手段は、決定された閾値に跨って存在
    するカテゴリを閾値の両側の部分集合に含めて決定木を
    生成する ことを特徴とする高速認識検索システム。
  2. 【請求項2】 前記部分集合生成手段は、前記部分集合
    をリーフノードとする場合に該当する部分集合に含まれ
    るテンプレートの特徴縮退を行い、有効な特徴成分のみ
    を選択して出力することを特徴とする請求項1記載の高
    速認識検索システム。
  3. 【請求項3】 前記決定木分類手段は、前記パターンの
    子ノードへの分類が最下層まで終了している場合にその
    分類を終了することを特徴とする請求項1または請求項
    2記載の高速認識検索システム。
  4. 【請求項4】 前記正解カテゴリの出現頻度を計測しか
    つ前記正解カテゴリの出現頻度を前記部分集合生成手段
    に出力するカテゴリ出現頻度計測手段を含み、 前記部分集合生成手段は、前記テンプレート集合の前記
    部分集合への分類に前記正解カテゴリの事前確率に応じ
    て分類のための境界を制御する閾値として出力すること
    を特徴とする請求項1から請求項のいずれか記載の高
    速認識検索システム。
  5. 【請求項5】入力された文字パターンから特徴ベクトル
    を生成し、前記特徴ベクトルを予め生成された決定木の
    各ノードに記憶された条件にしたがって識別し、その識
    別結果にしたがって子ノードを順次選択し、この分類を
    終端ノードに到達するまで繰り返し行う高速認識検索シ
    ステムであって、 予め設定された正解カテゴリを付与してあるパターンの
    集合から認識辞書に記憶された複数次元の特徴ベクトル
    のテンプレートを生成する生成手段と、 前記生成手段で作成されたテンプレートと前記テンプレ
    ートの生成に寄与したパターンとを関連付けて記憶する
    テンプレート辞書記憶手段と、 現在着目しているテンプレート及び当該テンプレートそ
    れぞれに対応するパターンの集合と前記正解カテゴリの
    出現頻度とを部分集合に分類しかつ前記部分集合に属す
    るテンプレートと前記部分集合への分離を行うための閾
    値とを出力する部分集合生成手段と、 前記部分集合生成手段が逐次生成する前記テンプレート
    の部分集合を該当する分離前のテンプレートの部分集合
    に関連付けて記憶する階層辞書手段と、 前記階層辞書記憶手段に記憶された階層構造を上位階層
    から順に入力して入力パターンを分類しかつ分類された
    結果の子ノードを出力する決定木分類手段と、 前記階層構造のリーフノードからテンプレートを決定す
    るために効果的な特徴量を読出してそれらの特徴量を用
    いて大分類を行うカテゴリ決定手段と、 前記正解カテゴリの出現頻度を計測しかつ前記正解カテ
    ゴリの出現頻度を前記部分集合生成手段に出力するカテ
    ゴリ出現頻度計測手段とを有し前記部分集合生成手段は、前記テンプレート集合の前記
    部分集合への分類に前記正解カテゴリの事前確率に応じ
    て分類のための境界を制御する閾値として出力 すること
    を特徴とする高速認識検索システム。
  6. 【請求項6】 入力された文字パターンから特徴ベクト
    ルを生成し、前記特徴ベクトルを予め生成された決定木
    の各ノードに記憶された条件にしたがって識別し、その
    識別結果にしたがって子ノードを順次選択し、この分類
    を終端ノードに到達するまで繰り返し行う高速認識検索
    システムの認識検索高速化方法であって、 予め設定された正解カテゴリを付与してあるパターンの
    集合から認識辞書に記憶された複数次元の特徴ベクトル
    のテンプレートを生成するステップと、現在着目してい
    るテンプレート及び当該テンプレートそれぞれに対応す
    るパターンの集合と前記正解カテゴリの出現頻度とを部
    分集合に分類しかつ前記部分集合に属するテンプレート
    と前記部分集合への分離を行うための閾値とを出力する
    ステップと、逐次生成されるテンプレートの部分集合を
    該当する分離前のテンプレートの部分集合に関連付けて
    記憶する階層辞書手段に記憶された階層構造を上位階層
    から順に入力して入力パターンを分類しかつ分類された
    結果の子ノードを出力するステップと、前記階層構造の
    リーフノードからテンプレートを決定するために効果的
    な特徴量を読出してそれらの特徴量を用いて大分類を行
    うステップとを有し、 前記部分集合に属するテンプレートと部分集合とへの分
    離を行うための閾値を出力するステップは、決定された
    閾値に跨って存在するカテゴリを閾値の両側の部分集合
    に含めて決定木を生成 することを特徴とする認識検索高
    速化方法。
  7. 【請求項7】 前記部分集合に属するテンプレートと部
    分集合とへの分離を行うための閾値を出力するステップ
    は、前記部分集合をリーフノードとする場合に該当する
    部分集合に含まれるテンプレートの特徴縮退を行い、有
    効な特徴成分のみを選択して出力することを特徴とする
    請求項6記載の認識検索高速化方法。
  8. 【請求項8】 前記分類された結果の子ノードを出力す
    るステップは、前記パターンの子ノードへの分類が最下
    層まで終了している場合にその分類を終了することを特
    徴とする請求項6または請求項7記載の認識検索高速化
    方法。
  9. 【請求項9】 前記正解カテゴリの出現頻度を計測しか
    つ前記正解カテゴリの出現頻度を前記部分集合生成手段
    に出力するステップを含み、 前記部分集合に属するテンプレートと部分集合とへの分
    離を行うための閾値を出力するステップは、前記テンプ
    レート集合の前記部分集合への分類に前記正解カテゴリ
    の事前確率に応じて分類のための境界を制御する閾値と
    して出力することを特徴とする請求項6から請求項
    いずれか記載の認識検索高速化方法。
  10. 【請求項10】 入力された文字パターンから特徴ベク
    トルを生成し、前記特徴ベクトルを予め生成された決定
    木の各ノードに記憶された条件にしたがって識別し、そ
    の識別結果にしたがって子ノードを順次選択し、この分
    類を終端ノードに到達するまで繰り返し行う高速認識検
    索システムの認識検索高速化方法であって、 予め設定された正解カテゴリを付与してあるパターンの
    集合から認識辞書に記憶された複数次元の特徴ベクトル
    のテンプレートを生成するステップと、現在着目してい
    るテンプレート及び当該テンプレートそれぞれに対応す
    るパターンの集合と前記正解カテゴリの出現頻度とを部
    分集合に分類しかつ前記部分集合に属するテンプレート
    と前記部分集合への分離を行うための閾値とを出力する
    ステップと、逐次生成されるテンプレートの部分集合を
    該当する分離前のテンプレートの部分集合に関連付けて
    記憶する階層辞書手段に記憶された階層構造を上位階層
    から順に入力して入力パターンを分類しかつ分類された
    結果の子ノードを出力するステップと、前記階層構造の
    リーフノードからテンプレートを決定するために効果的
    な特徴量を読出してそれらの特徴量を用いて大分類を行
    うステップと、前記正解カテゴリの出現頻度を計測しか
    つ前記正解カテゴリの出現頻度を前記部分集合生成手段
    に出力するステップとを有し、 前記部分集合に属するテンプレートと部分集合とへの分
    離を行うための閾値を出力するステップは、前記テンプ
    レート集合の前記部分集合への分類に前記正解カテゴリ
    の事前確率に応じて分類のための境界を制御する閾値と
    して出力することを特徴とする認識検索高速化方法。
  11. 【請求項11】 入力された文字パターンから特徴ベク
    トルを生成し、前記特徴ベクトルを予め生成された決定
    木の各ノードに記憶された条件にしたがって識別し、そ
    の識別結果にしたがって子ノードを順次選択し、この分
    類を終端ノードに到達するまで繰り返し行う認識検索装
    置における認識検索を高速化するための認識検索高速化
    制御プログラムを記録した記録媒体であって、 前記認識検索高速化制御プログラムは前記認識検索装置
    に、予め設定された正解カテゴリを付与してあるパター
    ンの集合から認識辞書に記憶された複数次元の特徴ベク
    トルのテンプレートを生成させ、現在着目しているテン
    プレート及び当該テンプレートそれぞれに対応するパタ
    ーンの集合と前記正解カテゴリの出現頻度とを部分集合
    に分類しかつ前記部分集合に属するテンプレートと部分
    集合への分離を行うための閾値とを出力させ、逐次生成
    されるテンプレートの部分集合を該当する分離前のテン
    プレートの部分集合に関連付けて記憶する階層辞書手段
    に記憶された階層構造を上位階層から順に入力して入力
    パターンを分類しかつ分類された結果の子ノードを出力
    させ、前記階層構造のリーフノードからテンプレートを
    決定するために効果的な特徴量を読出してそれらの特徴
    量を用いて大分類を行わせ、前記部分集合に属するテン
    プレートと部分集合とへの分離を行うための閾値を出力
    させる際に、決定された閾値に跨って存在するカテゴリ
    を閾値の両側の部分集合に含めて決定木を生成させるこ
    とを特徴とする認識検索高速化制御プログラムを記録し
    た記録媒体。
JP20550399A 1999-07-21 1999-07-21 高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体 Expired - Lifetime JP3374793B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20550399A JP3374793B2 (ja) 1999-07-21 1999-07-21 高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20550399A JP3374793B2 (ja) 1999-07-21 1999-07-21 高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001034709A JP2001034709A (ja) 2001-02-09
JP3374793B2 true JP3374793B2 (ja) 2003-02-10

Family

ID=16507949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20550399A Expired - Lifetime JP3374793B2 (ja) 1999-07-21 1999-07-21 高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3374793B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3896868B2 (ja) 2002-02-27 2007-03-22 日本電気株式会社 パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置
US7949207B2 (en) 2004-12-24 2011-05-24 Nec Corporation Video structuring device and method

Also Published As

Publication number Publication date
JP2001034709A (ja) 2001-02-09

Similar Documents

Publication Publication Date Title
Heutte et al. A structural/statistical feature based vector for handwritten character recognition
US7958070B2 (en) Parameter learning method, parameter learning apparatus, pattern classification method, and pattern classification apparatus
US5060277A (en) Pattern classification means using feature vector regions preconstructed from reference data
Kanai et al. Automated evaluation of OCR zoning
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
Huang et al. Isolated Handwritten Pashto Character Recognition Using a K‐NN Classification Tool based on Zoning and HOG Feature Extraction Techniques
Hamida et al. Handwritten arabic words recognition system based on hog and gabor filter descriptors
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
Behnke et al. Competitive neural trees for pattern classification
Ramteke et al. A novel weighted SVM classifier based on SCA for handwritten marathi character recognition
JP4802176B2 (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
JP2008033851A (ja) 郵便自動区分機及び郵便自動区分方法
Shayegan et al. A New Dataset Size Reduction Approach for PCA‐Based Classification in OCR Application
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Singhal et al. Image classification using bag of visual words model with FAST and FREAK
JP3313272B2 (ja) 住所読み取り方法および識別関数重みベクトル生成方法
Azizi et al. From static to dynamic ensemble of classifiers selection: Application to Arabic handwritten recognition
JP3374793B2 (ja) 高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体
JP3095069B2 (ja) 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
JPH07160822A (ja) パターン認識方法
Hamza et al. An end-to-end administrative document analysis system
JPH0638276B2 (ja) パターン識別装置
Nayef Geometric-based symbol spotting and retrieval in technical line drawings
JP3925011B2 (ja) パターン認識装置及び認識方法
CN113468936A (zh) 一种食材识别方法、装置和设备

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3374793

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071129

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081129

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091129

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101129

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111129

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121129

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121129

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131129

Year of fee payment: 11

EXPY Cancellation because of completion of term