JP2002318818A

JP2002318818A - データ処理装置及びその方法、及びそのプログラム

Info

Publication number: JP2002318818A
Application number: JP2001122755A
Authority: JP
Inventors: Teruyoshi Washisawa; 輝芳鷲澤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-04-20
Filing date: 2001-04-20
Publication date: 2002-10-31

Abstract

(57)【要約】【課題】与えられたベクトルデータに対して内積を基
にした類似度によるデータ検索が高速に実行できるよう
にする。【解決手段】プロトタイプとなるベクトルの各成分に
対するソーティング・リストを作成しておき、テストベ
クトルX及び−Xのm成分値に最も近い値をリストから探
索し、それぞれの位置をPTR⁺及びPTR^-に格納する(S30
3)。k個の近傍集合の初期化を行い(S304)、PTRと関連す
る変数を更新する(S306)。順次プロトタイプY_tを取り出
し、判定処理によって、類似度が今までの最小値より大
きければ、最小値に対応するプロトタイプとY_tを入れ替
え、近傍集合及び最小値を更新する(S308〜311)。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データの検索また
は認識を行なうデータ処理装置に関し、特にベクトルで
表現されたデータ間の内積を基にした類似度によってデ
ータを検索もしくは認識する装置に関するものである。

【０００２】

【従来の技術】ベクトルで表現されたデータ間の類似度
として内積が広く用いられている。例えば文字認識や音
声認識システムでは、サンプリングされたデータを適当
な基底で張られた特徴量空間に写像し、ベクトル表現さ
れたデータをプロトタイプとして記憶しておく。新たに
入力されたデータとプロトタイプとの内積を計算し、入
力データを最も近いプロトタイプに対応するクラスに属
するものとして同定する。最も効率の悪い計算方法は全
数探索であり、その計算量はベクトルの次元とプロトタ
イプ数の積のオーダーになる。

【０００３】内積の計算量が決定的な障害として認識さ
れるのは、データベース検索においてである。近年のコ
ンピュータ処理能力の飛躍的発達によってデータベース
は文書データのみならず、画像や音声といった非テクス
トデータをも蓄積できるようになった。これら非テクス
トデータを従来のキーワードで検索するためにはキーワ
ードを付与しなければならない。キーワード付与の手間
を避けたいなら特徴量ベクトルによる類似検索を行わな
ければならない。

【０００４】また文書データを検索する場合でも、より
柔軟な検索を可能にするために文書をベクトルで表現
し、このベクトルに基づく類似検索を行うアルゴリズム
も実現されている。このとき前記計算量が検索システム
実現の本質的問題となる。通常のデータベースに格納さ
れるデータ件数は数十万件を超える。従ってベクトルの
次元数が１個増加する度に計算量が数十万増加するとい
う絶望的な状況になる。このような状況を回避するため
には、ベクトルの次元を減らすか、計算するデータ数を
減らすしかない。

【０００５】前者はデータの表現空間の次元を減らすこ
とに等しいので、データ検索に必要な情報がベクトルの
成分として十分表現されない可能性がある。後者は、検
索結果として要求されているデータ数がデータの総数に
比べて十分小さいときに意味のある方法論である。k-NN
探索で取り扱う問題はこの種のものであり、いくつかの
有効な方法が提案されている。

【０００６】k-NN探索は、システムに記憶されているプ
ロトタイプの集合から、テストベクトルに近いk個を探
索し、それらのクラスを基に、テストベクトルのクラス
を同定するための方法である。このような場合、テスト
ベクトルに近いk個のプロトタイプを如何に高速に見つ
けることができるかが重要な課題の１つである。このよ
うな要求はデータベース検索においても存在する。検索
ユーザーは、データベースに格納されている大量のデー
タのうち、自分が指定した検索キーに近いいくつかのデ
ータだけが欲しいのであって、他のデータの、ましてや
内積の値などに何の価値も見出さない。検索ユーザーの
このような要求に応えるための技術は、k-NN探索の高速
アルゴリズムの目的と一致する。

【０００７】プロトタイプの集合からテストベクトルに
近いk個を抽出する場合、探索の計算量を軽減するため
に予めプロトタイプの集合を構造化しておくのが一般的
である。構造化の際にデータの性質を反映させればさせ
るほど、探索の計算量の軽減が期待できる。例えばプロ
トタイプを階層的に構造化する場合では、プロトタイプ
が表現されているN次元ベクトル空間を分割するという
操作を再帰的に繰り返すことによって達成される。

【０００８】空間を分割管理するときに用いられる境界
が超平面であるものをK-D-B Tree〔文献１〕、矩形領域
で分割する方法をR-Tree 〔文献２〕、超球で分割する
方法をSS-Tree 〔文献３〕、矩形と超球との組み合わせ
で空間を分割する方法をSR-Tree 〔文献４〕という。更
にN次元ベクトル空間をプロトタイプの分布の共分散行
列に関する固有ベクトルで張られる空間に変換し直して
おけば、探索の計算量に対して、より効果的な構造化が
期待できる〔文献５，６〕。

【０００９】しかしこれらの方法はデータ構造化のため
の計算量と記憶容量がベクトルの次元数の増加に対して
指数関数的に増大してしまい、高次元ベクトルで表現さ
れているデータへの応用が事実上制限されてしまう可能
性がある。更に、致命的なことに、内積に基づく類似度
は、テストベクトルが与えられなければ計算できない。
従って、類似度を内積で定義した場合、このようなデー
タの構造化が利用できない。

【００１０】〔文献１〕JT. Robinson: ”The K-D-B
Tree: A Search Structure forLarge Multidime
nsional Dynamic Indexes,” Proc. On ACM SIGM
OD,pp.10-18, 1981. 〔文献２〕A. Guttman: “R-trees: A dynamic ind
ex structure for spatial searching,” Proc.
ACM SIGMOD, Boston, USA, pp.47-57, Jun.1984. 〔文献３〕DA. White and R. Jain: “Similarity i
ndexing with the SS-tree,” Proc. Of the 12
^th Int. Conf. On Data Engineering, NewOrlean
s, USA, pp.323-331, Feb. 1996. 〔文献４〕片山，佐藤: “SR-Tree：高次元点データに
対する最近接検索のためのインデクス構造の提案,”
信学論(D-I), vol.18-D-I, no.8, pp.703-717,Aug.
1997. 〔文献５〕RF. Sproull: “Refinemants to Neares
t Neighbor Searchingin k-Dimensional Trees,”
Algorithmica, 6, pp.579-589, 991. 〔文献６〕DA. Hite and R. Jain: “Similarity
Indexing: Algorithmsand Performance,” Proc.
On SPIE, pp.62-73, 1996.

【００１１】一方、統計的性質を利用しない”緩い”構
造化と、少し”賢い”探索アルゴリズムによって計算量
の軽減を達成しているアルゴリズムもある。この種のア
ルゴリズムが、内積に基づく類似検索に対して取り得る
唯一の戦略である。そのうち最も基本的なもののひとつ
が射影アルゴリズムと呼ばれるFriedmanらのアルゴリズ
ムである〔文献７〕。〔文献７〕JH. Friedman, F. Baskett, and LJ.
Shustek: “An Algorithm for Finding Nearest
Neighbors,” IEEE Trans. On Computers,pp.1000-
1006, Oct. 1975. 射影アルゴリズムで前処理として要求されるデータの構
造化は、ベクトルの各成分毎のソーティングであり、位
相に基づく構造化である。つまり、プロトタイプがｄ次
元ベクトルのときは、ｄ個のソーティング・リストが生
成されることになる。

【００１２】この処理で、昇順に並べられたj成分値を
格納したリストV_jと、対応するプロトタイプID番号を格
納したリストI_jの２種類が、ベクトルの次元数だけ得ら
れる。即ち、V_jの先頭からn+1番目の値V_j(n+1)はn番目
の値V_j(n)以上である。また、I_j(n)をID番号とするプロ
トタイプY_Ij(n)のj成分値Y_Ij(n)(j)がV_j(n)と一致す
る。

【００１３】プロトタイプ集合からテストベクトルXに
最も近いもの1組を抽出するための射影アルゴリズムの
原理を図１３を用いて説明する。探索は、適当な基準で
選択された１個のソーティング・リストV_mとI_mに沿って
行われる。これは、図中、m軸を選択したことに対応し
ている。I_mは成分値によってソーティングされたデータ
番号が格納されているので、リスト上での並びがm軸上
での位相を正確に反映している。まずテストベクトルX
のm成分X(m)に最も近い値をV_mから探す。これをV_m(j)と
する。これに対応するプロトタイプはY_Im(j)である。図
ではY_Im(j)がY₁である。Y₁はm成分に関してXに最も近い
が、全空間での距離が最も近いとは限らない。

【００１４】さて次に、XとY₁との距離ρ(X,Y₁)を計算
する。すると、m成分の値が開区間(X(m)ρ(X,Y₁),X(m)+
ρ(X,Y₁))(図中の開区間Ａ）に属するプロトタイプのみ
が、Y ₁よりXに近い可能性があり、探索の対象として意
味があることがわかる。図の例では、m成分に関して次
に近いプロトタイプY₂を検査することによって、探索対
象となるプロトタイプの集合が更に(X(m)ρ(X,Y₂),X(m)
+ρ(X,Y₂))(図中の開区間Ｂ）に制限される。このよう
に1次元部分空間での成分値をもとに、探索の対象とな
るプロトタイプ集合を小さくしていくことによって、計
算量の軽減を図っているのが射影アルゴリズムである。

【００１５】

【発明が解決しようとする課題】上述したFriedmanらの
射影アルゴリズムは、距離に基づく類似検索のための方
法であって、内積の絶対値、あるいは二乗に基づく類似
検索のためには適用できなかった。

【００１６】

【課題を解決するための手段】上述した課題を解決する
ために、本発明によれば、多次元ベクトルで記述された
プロトタイプ集合から、与えられた第１のテストベクト
ルに類似する所定個のプロトタイプを検索結果として抽
出するデータ処理装置に、前記多次元ベクトルの各成分
につき、前記プロトタイプ集合の各プロトタイプの識別
子と成分値とを成分値の順に並べたリストを作成し、各
プロトタイプのノルムの２乗を計算する前処理手段と、
前記第１のテストベクトルから第２のテストベクトルを
生成するテストベクトル生成手段と、前記リスト及び前
記各プロトタイプのノルムの２乗と、第１及び第２のテ
ストベクトルとを用いて、当該第１のテストベクトルと
各プロトタイプとの内積の絶対値に基づく類似度を計算
する類似度計算手段と、前記類似度の値に基づく省略条
件の判断により、以後の処理を省略する省略制御手段
と、前記類似度の値に基づいて検索結果を更新する更新
手段とを備える。

【００１７】また、本発明の他の態様によれば、多次元
ベクトルで記述されたプロトタイプ集合から、与えられ
た第１のテストベクトルに類似する所定個のプロトタイ
プを検索結果として抽出するデータ処理方法に、前記多
次元ベクトルの各成分につき、前記プロトタイプ集合の
各プロトタイプの識別子と成分値とを成分値の順に並べ
たリストを作成し、各プロトタイプのノルムの２乗を計
算する前処理工程と、前記第１のテストベクトルから第
２のテストベクトルを生成するテストベクトル生成工程
と、前記リスト及び前記各プロトタイプのノルムの２乗
と、第１及び第２のテストベクトルとを用いて、当該第
１のテストベクトルと各プロトタイプとの内積の絶対値
に基づく類似度を計算する類似度計算工程と、前記類似
度の値に基づく省略条件の判断により、以後の処理を省
略する省略制御工程と、前記類似度の値に基づいて検索
結果を更新する更新工程とを備える。

【００１８】更に、本発明の他の態様によれば、多次元
ベクトルで記述されたプロトタイプ集合から、与えら得
れた第１のテストベクトルに類似する所定個のプロトタ
イプを検索結果として抽出するデータ処理プログラムに
より、前記多次元ベクトルの各成分につき、前記プロト
タイプ集合の各プロトタイプの識別子と成分値とを成分
値の順に並べたリストを作成し、各プロトタイプのノル
ムの２乗を計算する前処理工程と、前記第１のテストベ
クトルから第２のテストベクトルを生成するテストベク
トル生成工程と、前記リスト及び前記各プロトタイプの
ノルムの２乗と、第１及び第２のテストベクトルとを用
いて、当該第１のテストベクトルと各プロトタイプとの
内積の絶対値に基づく類似度を計算する類似度計算工程
と、前記類似度の値に基づく省略条件の判断により、以
後の処理を省略する省略制御工程と、前記類似度の値に
基づいて検索結果を更新する更新工程とをコンピュータ
に実行させる。

【００１９】

【発明の実施の形態】＜第１の実施形態＞本実施形態で
は、内積と距離との関係式を導出し、内積の高速計算法
として、射影アルゴリズムを利用した。更に、絶対値を
評価するために、与えられたテストベクトルに対する内
積と、テストベクトルと逆方向のベクトルに対する内積
とを評価した。従って、プロトタイプ集合に対する”硬
い”構造化や、予め設定すべきパラメタを必要としない
汎用的なものである。

【００２０】本実施形態のアルゴリズムの詳細を述べる
前に、問題設定、語句と記号の定義を明らかにしてお
く。

【００２１】想定する問題は、d次元ベクトルとして表
現されたN個のプロトタイプY_jの集合をΩとする： Ω＝{Y₁,Y₂,・・・,Y_N},Y_j∈R^d このとき、適当に与えられたテストベクトルX∈ R^dに、
計量ρ_G(X,Y_j)の絶対値に関して大きいk個のプロトタイ
プをΩから抽出する。ただし計量ρ_G(X,Y_j)は内積とし
て定義される：

【００２２】

【外１】ここで、テストベクトルX、プロトタイプY_jのk成分値を
それぞれX(k)、Y_j(k)と表記した。

【００２３】本実施形態の特徴は、計量ρ_G (X,Yj)と同
じ位相を与える関数として、後述するδ(Z,Y_j)を採用し
たことである。ρ_G (X,Y_j)の絶対値の大きい順にプロト
タイプを抽出するということは、ρ_G (X,Y_j)とρ_G (-X,
Y_j)の大きい順にプロトタイプを評価することに等し
い。即ち、ρ_G (X,Y_j)が小さくてもρ_G (-X,Y_j)が大き
ければ、Y_jは内積の絶対値が大きい。

【００２４】ρ_G(X,Y_j)及びρ_G(-X,Y_j)は以下のような2
段階の処理に分割できる： Z＝GX ρ_G(X,Y_j)＝X^TGY＝(GX)^TY＝Z^TY＝ρ(Z,Y_j) ρ_G(-X,Y_j)＝-X^TGY＝-(GX)^TY＝-Z^TY＝ρ(-Z,Y_j) ここでρ(Z,Y_j)及びρ(-Z,Y_j)は正規直交系における内
積である。一方、ZとY_jとの距離の２乗を展開して次式
を得る： ‖Z-Y_j‖²＝(Z-Y_j)^T(Z-Y_j)＝‖Z‖²+‖Y_j‖²-2ρ(Z,Y_j) 上式を更に変形して次式を得る： 2ρ(Z,Y_j)-‖Z‖²＝‖Y_j‖²-‖Z-Y_j‖² 上式の右辺(或いは左辺)を新たな関数δ(X,Y_j)として定
義する： δ(Z,Y_j)＝‖Y_j‖²-‖Z-Y_j‖² 同様に δ(-Z,Y_j)＝‖Y_j‖²-‖Z＋Y_j‖² 今、k個のプロトタイプと、それらのテストベクトルXと
の内積の絶対値が与えられているとする。これら内積の
絶対値のうち、最小値をξとする。このｋ個が、現時点
での最近接点であるとする。

【００２５】新たに与えられたプロトタイプY_jとXとの
内積の絶対値がξよりも小さいか等しければ、プロトタ
イプY_jは、k個の全てのプロトタイプよりも、内積の絶
対値が小さいか等しいので、k個の最近傍点で有り得な
いことが保証される。即ち、次式を満足するかどうかで
判定できる：（ξ≧δ(Z,Y_j)）∧（ξ≧δ(-Z,Y_j)） (2) このようにして、最近傍点集合を更新することが出来
る。一方、δ(Z,Y_j)の定義式の右辺第２項に関して以下
の不等式が成立する： ‖Z-Y_j‖²≧‖P(Z-Y_j)‖² ただし、Pは部分空間への直交射影作用素である。従っ
て δ(Z,Y_j)≦‖Y_j‖²-‖P(Z-Y_j)‖² (3) 同様に δ(-Z,Y_j)≦‖Y_j‖²-‖P(Z＋Y_j)‖² (4) 判定条件(2)式は、(3)及び(4)式を用いて以下のように
書き換えられる：（ξ≧‖Y_j‖²-‖P(Z-Y_j)‖²）∧（ξ≧‖Y_j‖²-‖P(Z＋Y_j)‖²） (5) 例えば、ベクトルのm成分に関する差と和の二乗‖Z(m)-
Y_j(m)‖²と‖Z(m)＋Y_j(m)‖²を計算して、(5)式の判定
条件を満たせば、Y_jが最近傍点に含まれないことがわか
る。

【００２６】(5)式での評価は、(2)式を利用するより
も、計算量の点で効果的である。実際、(2)式を評価す
るための計算量を概算してみると、右辺第１項は、予め
計算できるから、考慮する必要はない。第２項は、ベク
トルの次元数分の乗算と加算が必要になる。一方(5)式
の評価には、部分空間の次元数分の乗算と加算で十分で
ある。よって、(5)式が成立する部分空間の次元が小さ
ければ小さいほど、計算量の軽減が期待出来る。

【００２７】以下、図面を用いて本発明の１実施形態を
詳細に説明する。

【００２８】〔実施形態１〕図１に本実施形態のデータ
検索装置の構成を示す。入出力装置１０１は、通信回線
やキーボード等の検索データやコマンドを入力する手段
と、通信制御手段や表示装置等の検索結果を出力する手
段を備える。例えばスタンドアロンのコンピュータの場
合は、該入出力装置１０１はキーボードと表示装置から
成り、キーボードから入力された入力データを内積計算
装置１０２へ送信し、内積計算装置１０２から送信され
たデータを表示装置に出力する。

【００２９】一方、通信回線に接続されている通信端末
の場合は、該入出力装置は通信制御装置から成り、通信
回線を介して入力された入力データを類似度計算装置１
０２に送信し、類似度計算装置１０２から受信したデー
タを通信回線を介して指定されたアドレスに送信する。
データベース１０３には、d次元ベクトルで表現されたN
個のプロトタイプの集合が格納されており、類似度計算
装置１０２によってアクセスされる。

【００３０】＜類似度計算装置１０２＞次に、類似度計
算装置１０２の処理手順を図２のフローチャートを用い
て説明する。

【００３１】まず、ステップS201で入出力装置１０１か
ら入力があったかどうかを検査し、なければステップS2
01を繰り返し、あればステップS202へ進む。ステップS2
02では、入力データがデータベースのデータを更新する
ものかどうかを検査し、そうであればステップS203へ、
そうでなければステップS204へ進む。ステップS203で
は、後述する前処理を実行し、それが終了したらステッ
プS201へ進む。ステップS204では該入力データが計算処
理のものかどうかを検査し、そうであればステップS205
へ、そうでなければステップS201へ進む。ステップS205
では、後述する検索処理を実行し、それが終了したらス
テップS201へ進む。

【００３２】図９を用いてステップS203で実行される前
処理について説明する。

【００３３】前処理では、プロトタイプ集合に属するプ
ロトタイプのノルムの２乗と、各成分値に関するソーテ
ィング・リストを作成する。前者はプロトタイプY_jのノ
ルムの２乗‖Y_j‖²を計算して記憶しておくだけなの
で、以下では後者の処理を説明する。この処理で、昇順
に並べられたj成分値を格納したリストV_jと、対応する
プロトタイプID番号を格納したリストI_jという２種類の
リストが、ベクトルの次元数だけ得られる。

【００３４】ステップS801でnを１に設定する。ステッ
プS802で、N個のプロトタイプそれぞれについて、n成分
値とID番号のペアを作成する。即ち： {(Y₁(n),n),(Y₂(n),n), ・・・,(Y_N(n),N)} ステップS803で上記ペアをn成分値の昇順に並べ替え
る。

【００３５】{(YIn(1)(n),In(1)),(YIn(2)(n),In(2)),
・・・ ,(YIn(N)(n),In(N))} 以下、成分値の並びとID番号の並びを別々にリストVn、
Inとする： V_n＝{Y_In(1)(n),Y_In(2)(n), ・・・ ,Y_In(N)(n)} (6) I_n＝{I_n(1),I_n(2), ・・・ ,I_n(N)} (7) ステップS804ではnをインクレメントし、ベクトルの次
元ｄを超えていたら処理を終了し、そうでなければステ
ップS802へ進む。2種類のリストの関係は次のとおりで
ある。V_jの先頭からn+1番目の値V_j(n+1)はn番目の値V
_j(n)以上である。また、I_j(n)をID番号とするプロトタ
イプYI_j(n)の_j成分値YI_j(n)(j)がV_j(n)と一致する。

【００３６】今度は図３を用いてステップS205で実行さ
れる検索処理を説明する。検索処理の入力として、検索
のためのベクトルX（以下テストベクトルと呼ぶ）と、
計量テンソルG、検索結果として要求されているプロト
タイプの個数kが与えられている。

【００３７】ステップS301ではテストベクトルに計量テ
ンソルを左から乗じてベクトルZを得る： Z＝GX ステップS302ではベクトル空間の基底のインデクスリス
トを作成する。これは後述する棄却条件を適用する基底
の順序を定めるリストであり、例えば、テストベクトル
Xの成分値の絶対値の大きい順に対応するリストであ
る： Λ＝{λ₁,λ₂,・・・,λ_d} (8) また小さいほうからL個の集合をΛ_Lと書く： Λ_L＝{λ_d-L+1,λ_d-L+2,・・・,λ_d} (9) 更にｍをλ1に設定する。

【００３８】ステップS303ではPTR及び関連する変数の
初期化処理を実行する。この処理を図４を用いて説明す
る。

【００３９】ステップS401でm成分値のソーティング・
リストV_mを取得する。ステップS402ではテストベクトル
のm成分値X(m)に最も近い値をV_mから探索し、その位置
をPTR ⁺に格納する。即ち： |V_m(PTR⁺)X(m)|≦|V_m(j)X(m)|,∀_j∈{1,2,・・・,N} 同様に、-X(m)に最も近い値をV_mから探索し、その位置
をPTR^-に格納する。即ち： |V_m(PTR^-)+X(m)|≦|Vm(j)+X(m)|,∀j∈{1,2,・・・,N} ステップS403では、関連する変数は以下のように初期化
する： PTR⁺ _L＝PTR⁺ ₁,BND⁺ _L＝0,CAL⁺ _L＝0 PTR⁺ _H＝PTR⁺ ₊ ₁,BND⁺ _H＝0,CAL⁺ _H＝0 PTR^- _L＝PTR^- ₁,BND^- _L＝0,CAL^- _L＝0 PTR^- _H＝PTR^-,BND^- _H＝0,CAL^- _H＝0 PTR＝PTR⁺ ステップS304ではk個の近傍集合の初期化を行う。この
処理を図５を用いて説明する。

【００４０】ステップS501では近傍集合N₀(X)を空集合
に初期化する。ステップS502ではtを１に設定する。ス
テップS503では、図６を用いて後述するPTRの更新を行
う。ステップS504ではID番号I_m(PTR)のプロトタイプY
_Im(PTR)とΔ_sを計算する： s＝I_m(PTR) Δ_s＝２|ρ(Z,Y_j)| ただし上式の右辺第１項は前処理で計算されているの
で、記憶装置からの読み出しだけで良い。

【００４１】ステップS505では近傍集合N_t-1(X)にID番
号とΔ_sの値とを追加する： N_t(X)＝N_t-1(X) + {(s,Δ_s)} ステップS506でtをインクレメントし、kを超えればステ
ップS507へ進み、そうでなければステップS503へ戻る。

【００４２】ステップS507では近傍集合のなかでΔ_sの
最小値をξ_t-1、またそれに対応するID番号sをτ_t-1と
して記憶する。以上でステップS304の近傍集合の初期化
を終了する。

【００４３】ステップS305ではtをk+1に設定する。ステ
ップS306ではPTRの更新を実行する。この処理を図６、
７を用いて説明する。

【００４４】ステップS601ではBND^- _L が０かつPTR^- _Lが
０かどうかを検査し、そうであればステップS602へ、そ
うでなければステップS603へ進む。ステップS602では以
下の処理を実行する： BND^- _L＝1,Dx^- _L＝∞ ステップS603ではBND^- _Hが０かつPTR^- _HがPTR⁺ _Hと等しい
かどうかを検査し、そうであればステップS604へ、そう
でなければステップS605へ進む。ステップS604では以下
の処理を実行する： BND^- _H ＝ 1,Dx^- _H＝∞ ステップS605ではBND⁺ _Lが０かつPTR⁺ _LがPTR-Hより小さ
いどうかを検査し、そうであればステップS606へ、そう
でなければステップS607へ進む。ステップS606では以下
の処理を実行する： BND^- _H＝1,Dx^- _H＝∞ BND⁺ _L＝1,Dx⁺ _L＝∞ ステップS607ではBND⁺ _Hが０かつPTR⁺ _HがN2以上かどうか
を検査し、そうであればステップS608へ、そうでなけれ
ばステップS609へ進む。ステップS608では以下の処理を
実行する： BND⁺ _H＝1,Dx⁺ _H＝∞ ステップS609ではBND^- _LとBND^- _H及びBND⁺ _LとBND⁺ _Hの４個
の数の積が１かどうかを検査し、そうであれば検索処理
を終了し、そうでなければステップS610へ進む。

【００４５】ステップS610ではBND^- _L+CAL^- _Lが１かどう
かを検査し、そうであればステップS611へ、そうでなけ
ればステップS612へ進む。ステップS611では以下の処理
を実行する： Dx^- _L＝|V_m(PTR^- _L)-Z(m)| CAL^- _L＝1 ステップS612ではBND^- _H+CAL^- _Hが１かどうかを検査し、
そうであればステップS613へ、そうでなければステップ
S614へ進む。ステップS613では以下の処理を実行する： Dx^- _H＝|V_m(PTR^- _H)-Z(m)| CAL^- _H＝1 ステップS614ではBND⁺ _L+CAL⁺ _Lが１かどうかを検査し、
そうであればステップS615へ、そうでなければステップ
S616へ進む。ステップS615では以下の処理を実行する： Dx⁺ _L＝ｚV_m(PTR⁺ _L)-Z(m)| CAL⁺ _L＝1 ステップS616ではBND⁺ _H+CAL⁺ _Hが１かどうかを検査し、
そうであればステップS617へ、そうでなければステップ
S618へ進む。ステップS617では以下の処理を実行する： Dx⁺ _H＝|V_m(PTR⁺ _H)-Z(m)| CAL⁺ _H＝1 ステップS618ではDx^- _LがDx^- _H、Dx⁺ _L、Dx⁺ _Hのいずれより
も小さければステップS619へ、そうでなければステップ
S620へ進む。

【００４６】ステップS619では以下の処理を実行し、ス
テップS306のPTRの更新を終了する： Dx＝Dx^- _L,PTR＝PTR^- _L,CAL^- _L＝0 ステップS620ではDx^- _HがDx^- _L、Dx⁺ _L、Dx⁺ _Hのいずれより
も小さければステップS621へ、そうでなければステップ
S622へ進む。

【００４７】ステップS621では以下の処理を実行し、ス
テップS306のPTRの更新を終了する： Dx＝Dx^- _H,PTR＝PTR^- _H,CAL^- _H＝0 ステップS622ではDx⁺ _LがDx^- _L、Dx^- _H、Dx⁺ _Hのいずれより
も小さければステップS623へ、そうでなければステップ
S624へ進む。

【００４８】ステップS623では以下の処理を実行し、ス
テップS306のPTRの更新を終了する： Dx＝Dx⁺ _L,PTR＝PTR⁺ _L,CAL⁺ _L＝0 ステップS624では以下の処理を実行し、ステップS306の
PTRの更新を終了する： Dx＝Dx⁺ _H,PTR＝PTR⁺ _H,CAL⁺ _H＝0 PTRの更新処理では、PTRと関連する変数の値を変更し、
条件が満足されれば、図３に示した検索処理そのものを
終了する。

【００４９】ステップS307では、次式でρ⁺及びρ^-を計
算する： ρ⁺＝‖Y_s‖-‖Z‖ ρ^-＝‖Y_s‖-‖Z‖ ステップS308では、図８につき後述する判定処理によっ
て（5）式を評価する。

【００５０】ステップS309では、ステップS308で行った
処理の戻り値がFALSEかどうかを判定し、FALSEならステ
ップS310へ、そうでなければステップS312へ進む。

【００５１】ステップS310では、近傍集合からξ_t-1に
対応する要素を削除し、現在処理中のプロトタイプを追
加する： N_t(X)←N_t-1(X){(τ_t-1,ξ_t-1)}+{(I_m(PTR),Dx)} ステップS311では、N_t(X)の要素のうちのDxの最小値を
ξ_tに、そのID番号をτ _tに格納し、ステップS313へ進
む。

【００５２】ステップS312では次式を実行し、ステップ
S313へ進む： ξ_t＝ξ_t-1 τ_t＝τ_t-1 ステップS313ではtをインクレメントし、その結果がNを
超えたら処理を終了し、そうでなければステップS306へ
進む。

【００５３】ステップS308の判定処理で実行する関数計
算を図８を用いて説明する。

【００５４】ステップS701ではjを1に設定する。ステッ
プS702では以下の処理を実行する： ρ⁺＝ρ⁺-(Ys(λ_j)-X(λ_j))² ρ^-＝ρ^--(Ys(λ_j)＋X(λ_j))² Dx←Dx-(Ys(λ_j)-X(λ_j))² ステップS703では次式を判定し、満足したら戻り値にTR
UEを設定して処理を終了し、そうでなければステップS7
04へ進む。ステップS704では、jをインクレメントし、
その結果がベクトルの次元dを超えたら、戻り値にFALSE
を設定して処理を終了し、そうでなければステップS702
へ戻る。

【００５５】ステップS313で終了したときの、N_t(X)が
検索結果として出力される。

【００５６】以上説明した実施形態による効果を計算機
実験によって検証する。

【００５７】〔計算機実験〕上述した実施形態の有効性
を検証するために、検索結果として要求されるプロトタ
イプ数k＝10個、プロトタイプ数N＝10000個に対して探
索の計算機実験を行った。以下の項目が実験パラメタで
ある：・ベクトルの次元：d＝{10から100まで、10きざみ} 実験に使用した計算機の諸元は以下のとおりである：・CPU:PentiumIII,(500MHz) ・メインメモリ:128MB ・OS:Linux-2.0.36 尚、プログラム言語はＣを用いた。

【００５８】〔実験手順〕 (1) 一様乱数を用いて、d次元ベクトルN個より成るプロ
トタイプ集合を生成する。 (2) 一様乱数を用いて、d次元ベクトル空間の計量テン
ソルを１個、生成する。 (3) 一様乱数を用いて、d次元のテストベクトルを１
個、生成する。 (4) 全数探索を行う。 (5) 提案アルゴリズムによる探索を行う。

【００５９】上記５つの手順を10回繰り返し、以下に示
す相対CPU時間の平均値を計算した。相対CPU時間＝(提案アルゴリズムのCPU時間)/(全数探索
のCPU時間) 実験結果を図１０に示す。図中、ベクトルの次元(numbe
r of dimensions)を横軸、相対CPU時間(CPU time r
atio)を縦軸、プロトタイプ数Nをパラメタとして示し
た。

【００６０】図よりプロトタイプ数Nに関わらず、ベク
トルの次元の増加に伴って相対ＣＰＵ時間が１次のオー
ダーで増加していることがわかる。しかしN＝10000個の
ときの傾きは非常に小さい。このときの相対CPU時間の
値は、10次元で2%、100次元でも18%と、高次元でも十分
小さい値を示している。

【００６１】＜実施形態２＞上述した類似度計算を認識
装置に適用する場合について説明する。

【００６２】図１１は、本実施形態の認識装置の構成を
示す図である。データベース１０３には、d次元ベクト
ルで表現されたN個のプロトタイプの集合が格納されて
おり、認識対象となる各カテゴリに対してそれぞれ複数
のプロトタイプが存在する。その他は図１と同様であ
る。

【００６３】データベース１０３に格納されるｄ次元ベ
クトルは、例えば顔認識の場合は、各人物（Aさん、Bさ
ん、・・・）の複数の角度、表情等における画像に、その
人物の情報を関係付けることによって、構成することが
出来る。このような場合、下記に述べる処理によって、
入力画像と近いｋ個の画像が選択され、それぞれに関係
付けられた人物番号の頻度を集計し、頻度の最も高い人
物を、画像に対応する人物であると特定することが出来
る。

【００６４】また、類似度計算装置１０２の処理手順
は、実施形態１と同様に図２に従う。但し、ステップS2
04〜205では、検索処理は、検索を用いた認識処理とな
る。この認識処理について図１２のフローチャートを用
いて説明する。

【００６５】図１２において、ステップS301〜313は、
図３と同一である。ステップS314では、近傍集合に属す
るID番号に関連付けられたクラス番号の頻度を計算す
る。ステップS315では、クラス番号の頻度の大きい順
に、ID番号を並べ替える。これにより、テストベクトル
が属する可能性が高い順にクラス候補が得られる。この
うち最も頻度の大きいクラスを認識結果として出力して
もよいし、頻度順に所定個あるいは全部のクラスを認識
候補として出力してもよい。

【００６６】尚、本発明は、単一の機器からなる装置に
適用しても、複数の機器から構成されるシステムに適用
してもよい。また、上述した実施形態の機能を実現する
ソフトウェアのプログラムコードを記憶した記憶媒体
を、装置あるいはシステムに供給し、装置あるいはシス
テム内のコンピュータが記憶媒体に格納されたプログラ
ムコードを読み出して実行することによって達成しても
よい。

【００６７】更に、装置あるいはシステム内のコンピュ
ータが記憶媒体に格納されたプログラムコードを読み出
して実行することによって、上述した実施形態の機能を
直接実現するばかりでなく、そのプログラムコードの指
示に基づいて、コンピュータ上で稼動しているＯＳなど
の処理により、上述の機能を実現される場合も含まれ
る。

【００６８】これらの場合、そのプログラムコードを記
憶した記憶媒体は本発明を構成することになる。

【００６９】

【発明の効果】以上説明したように、本発明によれば、
ベクトルの内積の絶対値に基づく類似度を、高速に計算
することができるので、この類似度に基づいて、与えら
れたベクトル表現されたデータに対して、類似データの
検索や属するクラスの認識を高速に実行することができ
るという効果がある。

【図面の簡単な説明】

【図１】本発明に係る一実施形態のデータ検索装置の構
成を示すブロック図である。

【図２】距離計算処理の手順を示すフローチャートであ
る。

【図３】検索処理の詳細手順を示すフローチャートであ
る。

【図４】PTRの初期化手順を示すフローチャートであ
る。

【図５】近傍集合の初期化手順を示すフローチャートで
ある。

【図６】PTRの更新手順を示すフローチャートである。

【図７】PTRの更新手順を示すフローチャートである。

【図８】判定処理の手順を示すフローチャートである。

【図９】前処理の手順を示すフローチャートである。

【図１０】計算機実験の結果を示す図である。

【図１１】認識装置の構成を示すブロック図である。

【図１２】認識処理の詳細手順を示すフローチャートで
ある。

【図１３】射影アルゴリズムを説明する図である。

Claims

【特許請求の範囲】

【請求項１】多次元ベクトルで記述されたプロトタイ
プ集合から、与えられた第１のテストベクトルに類似す
る所定個のプロトタイプを検索結果として抽出するデー
タ処理装置であって、前記多次元ベクトルの各成分につき、前記プロトタイプ
集合の各プロトタイプの識別子と成分値とを成分値の順
に並べたリストを作成し、各プロトタイプのノルムの２
乗を計算する前処理手段と、前記第１のテストベクトルから第２のテストベクトルを
生成するテストベクトル生成手段と、前記リスト及び前記各プロトタイプのノルムの２乗と、
第１及び第２のテストベクトルとを用いて、当該第１の
テストベクトルと各プロトタイプとの内積の絶対値に基
づく類似度を計算する類似度計算手段と、前記類似度の値に基づく省略条件の判断により、以後の
処理を省略する省略制御手段と、前記類似度の値に基づいて検索結果を更新する更新手段
とを有することを特徴とするデータ処理装置。
【請求項２】上記テストベクトル生成手段が、前記第
２のテストベクトルとして、前記第１のテストベクトル
とノルムが等しく方向が逆であるようなベクトルを生成
することを特徴とする請求項１に記載のデータ処理装
置。
【請求項３】前記プロトタイプ及び第１のテストベク
トルが表現されているベクトル空間の次元をｄとする
と、前記類似度計算手段は、まず１次元部分空間に対し
て類似度を計算し、前記省略制御手段が、当該１次元部分空間における類似
度に基づく省略条件のを判断し、該省略条件を満足しな
ければ、部分空間の次元を上げて類似度計算を行うよう
に前記類似度計算手段を制御し、前記更新手段は、部分空間の次元がｄに達してもなお省
略条件を満足しないときに、検索結果を更新することを
特徴とする請求項１に記載のデータ処理装置。
【請求項４】前記類似度計算手段が、プロトタイプの
ノルムの２乗から第１のテストベクトルとプロトタイプ
の差の２乗を減じたものと、プロトタイプのノルムの２
乗から第２のテストベクトルとプロトタイプの差の２乗
を減じたものとを用いて、類似度を計算することを特徴
とする請求項１に記載のデータ処理装置。
【請求項５】検索結果として抽出された前記所定個の
プロトタイプが属するクラスに基づいて、前記第１のテ
ストベクトルの属するクラスを認識する認識手段を有す
ることを特徴とする請求項１に記載のデータ処理装置。
【請求項６】多次元ベクトルで記述されたプロトタイ
プ集合から、与えられた第１のテストベクトルに類似す
る所定個のプロトタイプを検索結果として抽出するデー
タ処理方法であって、前記多次元ベクトルの各成分につき、前記プロトタイプ
集合の各プロトタイプの識別子と成分値とを成分値の順
に並べたリストを作成し、各プロトタイプのノルムの２
乗を計算する前処理工程と、前記第１のテストベクトルから第２のテストベクトルを
生成するテストベクトル生成工程と、前記リスト及び前記各プロトタイプのノルムの２乗と、
第１及び第２のテストベクトルとを用いて、当該第１の
テストベクトルと各プロトタイプとの内積の絶対値に基
づく類似度を計算する類似度計算工程と、前記類似度の値に基づく省略条件の判断により、以後の
処理を省略する省略制御工程と、前記類似度の値に基づいて検索結果を更新する更新工程
とを有することを特徴とするデータ処理方法。
【請求項７】多次元ベクトルで記述されたプロトタイ
プ集合から、与えられた第１のテストベクトルに類似す
る所定個のプロトタイプを検索結果として抽出するデー
タ処理プログラムであって、前記多次元ベクトルの各成分につき、前記プロトタイプ
集合の各プロトタイプの識別子と成分値とを成分値の順
に並べたリストを作成し、各プロトタイプのノルムの２
乗を計算する前処理工程と、前記第１のテストベクトルから第２のテストベクトルを
生成するテストベクトル生成工程と、前記リスト及び前記各プロトタイプのノルムの２乗と、
第１及び第２のテストベクトルとを用いて、当該第１の
テストベクトルと各プロトタイプとの内積の絶対値に基
づく類似度を計算する類似度計算工程と、前記類似度の値に基づく省略条件の判断により、以後の
処理を省略する省略制御工程と、前記類似度の値に基づいて検索結果を更新する更新工程
とをコンピュータに実行させるためのデータ処理プログ
ラム。