JP2000112944A

JP2000112944A - データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体

Info

Publication number: JP2000112944A
Application number: JP10277657A
Authority: JP
Inventors: Teruyoshi Washisawa; 輝芳鷲澤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-09-30
Filing date: 1998-09-30
Publication date: 2000-04-21

Abstract

(57)【要約】【課題】データベース内のベクトル形式のデータ中か
らテストベクトルと内積に基づく類似度の高い所定個の
データを高速に抽出する。【解決手段】データベースの各データのノルムの二乗
を求め、当該各データをベクトルの１成分の値の順に並
べたデータのリストを各成分について作成しておき、テ
ストデータに計量テンソルを作用させ(s301)、基底イン
デクスから順次選択された１つの成分につき、前記リス
トからテストデータと成分値の差の小さい順にデータを
指すポインタを更新し(s306)、ポインタの指すデータの
ノルムに基づく当該データとテストデータとの部分空間
における類似度に基づいて、棄却条件を満足するかを判
定し(s309 〜310)、満足しなければポインタの指すデー
タとテストデータとの全空間における類似度を計算し(s
312)、計算された類似度の高い順に所定数のデータを抽
出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ベクトル形式のデ
ータの処理に関し、特に、入力ベクトルとの内積に基づ
いてデータベースより所定数のデータを抽出するデータ
処理装置及びその方法に関するものである。

【０００２】

【従来の技術】ベクトルで表現されたデータ間の類似度
として内積が広く用いられている。例えば文字認識や音
声認識システムでは、サンプリングされたデータを適当
な基底で張られた特徴量空間に写像し、ベクトル表現さ
れたデータをプロトタイプとして記憶しておく。新たに
入力されたデータとプロトタイプとの距離を計算し、入
力データを最も近いプロトタイプに対応するクラスに属
するものとして同定する。

【０００３】最も効率の悪い計算方法は全数探索であ
り、その計算量はベクトルの次元とプロトタイプ数の積
のオーダーになる。

【０００４】内積の計算量が決定的な障害として認識さ
れるのは、データベース検索においてである。近年のコ
ンピュータ処理能力の飛躍的発達によってデータベース
は文書データのみならず、画像や音声といった非テクス
トデータをも蓄積できるようになった。これら非テクス
トデータを従来のキーワードで検索するためにはキーワ
ードを付与しなければならない。キーワード付与の手間
を避けたいなら特徴量ベクトルによる類似検索を行わな
ければならない。

【０００５】また文書データを検索する場合でも、より
柔軟な検索を可能にするために文書をベクトルで表現
し、このベクトルに基づく類似検索を行うアルゴリズム
も実現されている。このとき前記計算量が検索システム
実現の本質的問題となる。通常のデータベースに格納さ
れるデータ件数は数十万件を超える。従ってベクトルの
次元数が１個増加する度に計算量が数十万増加するとい
う絶望的な状況になる。

【０００６】このような状況を回避するためには、ベク
トルの次元を減らすか、計算するデータ数を減らすしか
ない。前者はデータの表現空間の次元を減らすことに等
しいので、データ検索に必要な情報がベクトルの成分と
して十分表現されない可能性がある。後者は、検索結果
として要求されているデータ数がデータの総数に比べて
十分小さいときに意味のある方法論である。k-NN探索で
取り扱う問題はこの種のものであり、いくつかの有効な
方法が提案されている。

【０００７】k-NN探索は、システムに記憶されているプ
ロトタイプの集合から、テストベクトルに近いk 個を探
索し、それらのクラスを基に、テストベクトルのクラス
を同定するための方法である。このような場合、テスト
ベクトルに近いk 個のプロトタイプを如何に高速に見つ
けることができるかが重要な課題の１つである。このよ
うな要求はデータベース検索においても存在する。

【０００８】検索ユーザーは、データベースに格納され
ている大量のデータのうち、自分が指定した検索キーに
近いいくつかのデータだけが欲しいのであって、他のデ
ータの、ましてや内積の値などに何の価値も見出さな
い。検索ユーザーのこのような要求に応えるための技術
は、k-NN探索の高速アルゴリズムの目的と一致する。

【０００９】プロトタイプの集合からテストベクトルに
近いk 個を抽出する場合、探索の計算量を軽減するため
に、予めプロトタイプの集合を構造化しておくのが一般
的である。構造化の際にデータの性質を反映させればさ
せるほど、探索の計算量の軽減が期待できる。

【００１０】例えばプロトタイプを階層的に構造化する
場合では、プロトタイプが表現されているN 次元ベクト
ル空間を分割するという操作を再帰的に繰り返すことに
よって達成される。空間を分割管理するときに用いられ
る境界が超平面であるものをK-D-B Tree 〔文献１〕、
矩形領域で分割する方法をR-Tree 〔文献２〕、超球で
分割する方法をSS-Tree 〔文献３〕、矩形と超球との組
み合わせで空間を分割する方法をSR-Tree 〔文献４〕と
いう。更にN 次元ベクトル空間をプロトタイプの分布の
共分散行列に関する固有ベクトルで張られる空間に変換
し直しておけば、探索の計算量に対して、より効果的な
構造化が期待できる〔文献５，６〕。

【００１１】しかしこれらの方法はデータ構造化のため
の計算量と記憶容量がベクトルの次元数の増加に対して
指数関数的に増大してしまい、高次元ベクトルで表現さ
れているデータへの応用が事実上制限されてしまう可能
性がある。〔文献１〕JT. Robinson: "The K-D-B Tree: A Search
Structure for Large Multidimensional Dynamic Index
es," Proc. on ACM SIGMOD, pp.10-18, 1981. 〔文献２〕A. Guttman: "R-trees: A dynamic index st
ructure for spatial searching," Proc. ACM SIGMOD,
Boston, USA, pp.47-57, Jun. 1984. 〔文献３〕DA. White and R. Jain: "Similarity index
ing with the SS-tree,"Proc. of the 12th Int. Conf.
on Data Engineering, New Orleans, USA, pp.323-33
1, Feb. 1996. 〔文献４〕片山，佐藤: "SR-Tree：高次元点データに対
する最近接検索のためのインデクス構造の提案," 信学
論(D-I), vol.18-D-I, no.8, pp.703-717, Aug.1997. 〔文献５〕RF. Sproull: "Refinemants to Nearest Nei
ghbor Searching in k-Dimensional Trees," Algorithm
ica, 6, pp.579-589, 1991. 〔文献６〕ＤＡ．ＷｈｉｔｅａｎｄＲ．Ｊａｉ
ｎ： ”ＳｉｍｉｌａｒｉｔｙＩｎｄｅｘｉｎｇ：
ＡｌｇｏｒｉｔｈｍｓａｎｄＰｅｒｆｏｒｍａｎｃ
ｅ，” Ｐｒｏｃ．ｏｎＳＰＩＥ，ｐｐ．６２−
７３，１９９６．

【００１２】一方、統計的性質を利用しない” 緩い"
構造化と、少し“賢い”探索アルゴリズムによって計算
量の軽減を達成しているアルゴリズムもある。そのうち
最も基本的なもののひとつが射影アルゴリズムと呼ばれ
るFriedmanらのアルゴリズムである〔文献７〕。〔文献７〕JH. Friedman, F. Baskett, and LJ. Shuste
k: "An Algorithm for Finding Nearest Neighbors," I
EEE Trans. on Computers, pp.1000-1006, Oct.1975.

【００１３】射影アルゴリズムで前処理として要求され
るデータの構造化は、ベクトルの各成分毎のソーティン
グであり、位相に基づく構造化である。つまり、プロト
タイプがｄ次元ベクトルのときは、ｄ個のソーティング
・リストが生成されることになる。

【００１４】この処理により、昇順に並べられたj 成分
値を格納したリストV_jと、対応するプロトタイプID番号
を格納したリストI_jの２種類が、ベクトルの次元数だけ
得られる。即ち、V_jの先頭からn+1 番目の値V_j(n+1) は
n 番目の値V_j(n) 以上である。また、I_j(n) をID番号と
するプロトタイプY_Ij(n)のj 成分値Y_Ij(n)(j) がV_j(n)
と一致する。

【００１５】プロトタイプ集合からテストベクトルX に
最も近いもの1 組を抽出するための射影アルゴリズムの
原理を図１０を用いて説明する。探索は、適当な基準で
選択された１個のソーティング・リストV_mとI_mに沿って
行われる。これは、図中、mを選択したことに対応して
いる。I_mは成分値によってソーティングされたデータ番
号が格納されているので、リスト上での並びがm 軸上で
の位相を正確に反映している。まずテストベクトルX の
m 成分X(m)に最も近い値をV_mから探す。これをV_m(j) と
する。これに対応するプロトタイプはY_Im(j)である。図
ではY_Im(j)がY₁である。Y₁はm 成分に関してX に最も近
いが、全空間での距離が最も近いとは限らない。

【００１６】さて次に、X とY₁との距離ρ(X,Y₁)を計算
する。すると、m 成分の値が開区間( X(m) - ρ(X,
Y₁), X(m) + ρ(X,Y₁) )( 図中A の領域）に属するプ
ロトタイプのみが、Y₁よりX に近い可能性があり、探索
の対象として意味があることがわかる。図１０の例で
は、m 成分に関して次に近いプロトタイプY₂を検査する
ことによって、探索対象となるプロトタイプの集合が更
に( X(m) - ρ(X,Y₂), X(m)+ ρ(X,Y₂) )( 図中B の
領域）に制限される。このように1 次元部分空間での成
分値をもとに、探索の対象となるプロトタイプ集合を小
さくしていくことによって、計算量の軽減を図っている
のが射影アルゴリズムである。

【００１７】

【発明が解決しようとする課題】しかしながら、Friedm
anらの射影アルゴリズムは、距離計算のための方法であ
って内積のための方法ではない。

【００１８】

【課題を解決するための手段】上記課題を解決するため
に、本発明では、データ処理装置に、ベクトル形式のデ
ータの集合を記憶したデータベースと、該データベース
の各データのノルムの二乗を求め、当該各データをベク
トルの１成分の値の順に並べたデータのリストを各成分
について作成する前処理手段と、ベクトル形式のテスト
データを入力して計量テンソルを作用させる入力手段
と、前記ベクトル形式における１つの成分を順次選択す
る成分選択手段と、該成分選択手段により選択された１
つの成分につき、前記リストから前記テストデータと成
分値の差の小さい順に順次データを選択するデータ選択
手段と、該データ選択手段により選択されたデータのノ
ルムの二乗を用いて当該データと前記テストデータとの
全空間における類似度を計算する類似度計算手段と、該
類似度計算手段により計算された類似度の大きい順に所
定数のデータを抽出する抽出手段と、前記データ選択手
段により選択されたデータと前記テストデータとの部分
空間における類似度に基づいて、前記類似度計算手段に
より全空間における類似度を計算するか否かを制御する
類似度計算制御手段とを備える。

【００１９】また、他の態様によれば、データ処理方法
に、ベクトル形式のデータの集合を記憶したデータベー
スの各データのノルムの二乗を求め、当該各データをベ
クトルの１成分の値の順に並べたデータのリストを各成
分について作成する前処理工程と、ベクトル形式のテス
トデータを入力して計量テンソルを作用させる入力工程
と、前記ベクトル形式における１つの成分を順次選択す
る成分選択工程と、該成分選択工程により選択された１
つの成分につき、前記リストから前記テストデータと成
分値の差の小さい順に順次データを選択するデータ選択
工程と、該データ選択工程により選択されたデータのノ
ルムの二乗を用いて当該データと前記テストデータとの
全空間における類似度を計算する類似度計算工程と、該
類似度計算手段により計算された類似度の大きい順に所
定数のデータを抽出する抽出工程と、前記データ選択工
程により選択されたデータと前記テストデータとの部分
空間における類似度に基づいて、前記類似度計算工程に
より全空間における類似度を計算するか否かを制御する
類似度計算制御工程とを備える。

【００２０】また、他の態様によれば、記憶媒体に、ベ
クトル形式のデータの集合を記憶したデータベースの各
データのノルムの二乗を求め、当該各データをベクトル
の１成分の値の順に並べたデータのリストを各成分につ
いて作成する前処理工程と、ベクトル形式のテストデー
タを入力して計量テンソルを作用させる入力工程と、前
記ベクトル形式における１つの成分を順次選択する成分
選択工程と、該成分選択工程により選択された１つの成
分につき、前記リストから前記テストデータと成分値の
差の小さい順に順次データを選択するデータ選択工程
と、該データ選択工程により選択されたデータのノルム
の二乗を用いて当該データと前記テストデータとの全空
間における類似度を計算する類似度計算工程と、該類似
度計算手段により計算された類似度の大きい順に所定数
のデータを抽出する抽出工程と、前記データ選択工程に
より選択されたデータと前記テストデータとの部分空間
における類似度に基づいて、前記類似度計算工程により
全空間における類似度を計算するか否かを制御する類似
度計算制御工程とを備えるデータ処理プログラムを記憶
する。

【００２１】

【発明の実施の形態】本実施形態では内積と距離との関
係式を導出し、内積の高速計算法として、射影アルゴリ
ズムを利用したものである。従って、プロトタイプ集合
に対する" 硬い" 構造化や、予め設定すべきパラメタを
必要としない汎用的なものである。

【００２２】まず、提案アルゴリズムの詳細を述べる前
に、問題設定、語句と記号の定義を明らかにしておく。

【００２３】想定する問題は、d 次元ベクトルとして表
現されたN 個のプロトタイプYjの集合をΩとする： Ω = { Y₁, Y₂, …, Y_N }, Y_j∈R^d このとき、適当に与えられたテストベクトルX ∈R^dに、
計量ρ_G(X,Y_j) に関して近いk 個のプロトタイプをΩか
ら抽出する。ただし計量ρ_G(X,Y_j) は内積として定義さ
れ、従って空間は直交基底で張られていることを前提と
している：

【００２４】

【外１】ここで、テストベクトルX 、プロトタイプY_jのk 成分値
をそれぞれX(k)、Y_j(k)表記した。

【００２５】本実施形態の第1 の特徴は計量ρ_G(X,Y_j)
と同じ位相を与える関数としてδ(X,Y_j)を採用したこと
である。ρ_G(X,Y_j) は以下のような2 段階の処理に分割
できる： Z = G X ρ_G(X,Y_j) = X^TG Y = (GX)^TY = Z^TY =ρ(Z,Y_j) ここでρ(Z,Y_j)は正規直交系における内積である。

【００２６】一方、Z とY_jとの距離の2 乗を展開して次
式を得る： ‖Z − Y_j ‖² = (Z− Y_j)^T(Z − Y_j) =‖Z ‖² + ‖Y_j
‖² − 2ρ(Z,Y_j) 上式を更に変形して次式を得る： 2 ρ(Z,Y_j) −‖Z ‖² = ‖Y_j‖² −‖Z − Y_j ‖² 上式の右辺( 或いは左辺) を新たな関数δ(X,Y_j)として
定義する： δ(X,Y_j) =‖Y_j‖² −‖Z − Y_j ‖²

【００２７】図１は、本発明の1 実施形態であるデータ
処理装置の機能構成を表す図である。入出力部１０１
は、受信装置やキーボード等の入力部と、送信装置や表
示装置等の出力部とを備える。

【００２８】例えばスタンドアロンのコンピュータの場
合は、入出力部１０１はキーボードと表示装置から成
り、キーボードから入力された入力データを距離計算部
１０２へ送信し、内積計算部１０２から送信されたデー
タを表示装置に出力する。

【００２９】或いは、通信回線に接続されている通信端
末の場合は、入出力部１０１は送受信を行なう通信制御
装置から成り、通信回線を介して入力された入力データ
を内積計算部１０２に送信し、内積計算部１０２から送
信されたデータを通信回線を介して指定されたアドレス
に送信する。

【００３０】また、内積計算部１０２は、ＣＰＵがＲＯ
Ｍやディスクメモリ等に記憶された各機能プログラム
（フローチャートにつき後述する処理手順に対応するプ
ログラムを含む）を実行することにより実現され、計算
結果や処理により生成される各種データを記憶するため
のＲＡＭなどのメモリを備える。

【００３１】データベース１０３には、d 次元ベクトル
で表現されたN 個のプロトタイプの集合が格納されてお
り、内積計算部１０２によってアクセスされる。

【００３２】内積計算部１０２の処理を図2 を用いて説
明する。

【００３３】ステップS201で入出力部１０１から入力が
あったかどうかを検査し、なければステップS201を繰り
返し、あればステップS202へ進む。ステップS202では、
入力データがデータベース１０３のデータを更新するも
のかどうかを検査し、そうであればステップS203へ、そ
うでなければステップS204へ進む。ステップS203では、
後述する前処理を実行し、それが終了したらステップS2
01へ進む。ステップS204では該入力データが計算処理の
ものかどうかを検査し、そうであればステップS205へ、
そうでなければステップS201へ進む。ステップS205で
は、後述する検索処理を実行し、それが終了したらステ
ップS201へ進む。

【００３４】図８を用いてステップS203で実行される前
処理について説明する。

【００３５】前処理では、プロトタイプ集合に属するプ
ロトタイプのノルムの２乗と、各成分値に関するソーテ
ィング・リストを作成する。前者はプロトタイプY_jのノ
ルムの２乗‖Y_j‖² を計算して記憶しておくことであ
る。以下に後者の処理を説明する。

【００３６】この処理で、昇順に並べられたj 成分値を
格納したリストV_jと、対応するプロトタイプID番号を格
納したリストI_jという２種類のリストが、ベクトルの次
元数だけ得られる。ステップS801でn を１に設定する。
ステップS802で、N 個のプロトタイプそれぞれについ
て、n 成分値とID番号のペアを作成する。即ち： { (Y₁(n), 1), (Y₂(n), ２), ... , (Y_N(n),N) } ステップS803で上記ペアの集合をn 成分値の昇順に並べ
替える。

【００３７】{ (Y_In(1)(n), In(1)), (Y_In(2)(n), In
(2)), ... , (Y_In(N)(n), In(N)) }以下、成分値の並び
とID番号の並びを別々にリストX 、I とする： V_n＝{ Y_In(1)(n), Y_In(2)(n), ... , Y_In(N)(n) } (2) I_n＝{ I_n(1), I_n(2), ... , I_n(N) } (3) ステップS804ではn をインクレメントし、ベクトルの次
元ｄを超えていたら処理を終了し、そうでなければステ
ップS802へ進む。

【００３８】2 種類のリストの関係は次のとおりであ
る。V_jの先頭からn+1 番目の値V_j(n+1) はn 番目の値V_j
(n) 以上である。また、I_j(n) をID番号とするプロトタ
イプY_Ij(n)のj 成分値Y_Ij(n)(j) がV_j(n) と一致する。

【００３９】次に図３を用いてステップS205で実行され
る検索処理を説明する。

【００４０】検索処理の入力として、検索のためのベク
トルX （以下テストベクトルと呼ぶ）と、計量テンソル
G 、検索結果として要求されているプロトタイプの個数
k が与えられている。

【００４１】ステップS301ではテストベクトルX に計量
テンソルG を左から乗じてベクトルZ を得る： Z = G X

【００４２】ステップS302ではベクトル空間の基底のイ
ンデクスリストを作成する。これは後述する棄却条件を
適用する基底の順序を定めるリストであり、例えば、テ
ストベクトルX の成分値の絶対値の大きい順に対応する
リストである： Λ = { λ₁, λ₂, ..., λ_d} (4) また小さいほうからL 個の集合をΛ_L と書く： Λ_L = { λ_d-L+1, λ_d-L+2, ..., λ_d} (5) 更にｍをλ1 に設定する。

【００４３】ステップS303ではPTR 及び関連する変数の
初期化処理を実行する。この処理を図4 を用いて説明す
る。

【００４４】ステップS401でm 成分値のソーティング・
リストV_mを取得する。ステップS402ではテストベクトル
のm 成分値X(m)に最も近い値をV_mから探索し、その位置
をPTR に格納する。即ち： |V_m(PTR) - X(m)|≦|V_m(j) - X(m)|, ∀j ∈ {1, 2,
..., N} 関連する変数は以下のように初期化する： PTR_L = PTR - 1, BND_L = 0, CAL_L = 0 PTR_H = PTR + 1, BND_H = 0, CAL_H = 0

【００４５】ステップS304ではk 個の近傍集合の初期化
を行う。この処理を図５を用いて説明する。

【００４６】ステップS501では近傍集合N₀(X) を空集合
に初期化する。ステップS502ではt１に設定する。ステ
ップS503では、図6 につき後述するPTR の更新を行う。
ステップS504ではID番号I_m(PTR) のプロトタイプY
_Im(PTR)とΔ_S を計算する： s = I_m(PTR) Δ_S = ‖Y_S‖² −‖Z −Y_S‖² ただし上式の右辺第1 項は前処理で計算されているの
で、記憶装置からの読み出しだけで良い。

【００４７】ステップS505では近傍集合N_t-1(X) にID番
号s とΔ_S の値とを追加する： N_t(X) ＝N_t-1(X) + {(s,Δ_S)}

【００４８】ステップS506でt をインクレメントし、k
を超えればステップS507へ、そうでなければステップS5
03へ進む。

【００４９】ステップS507では近傍集合のなかでΔ_S の
最小値をξ_t-1 、またそれに対応するID番号s をτ_t-1
として記憶する。

【００５０】図３に戻り、ステップS305ではt をk+1 に
設定する。ステップS306ではPTR の更新を実行する。こ
の処理を図６を用いて説明する。

【００５１】ステップS601ではPTRLが１未満かどうかを
検査し、そうであればステップS602へ、そうでなければ
ステップS603へ進む。ステップS602では以下の処理を実
行する： BND_L = 1, Dx_L = ∞

【００５２】ステップS603ではPTRHがN を超えるかどう
かを検査し、そうであればステップS604へ、そうでなけ
ればステップS605へ進む。ステップS604では以下の処理
を実行する： BND_H = 1, Dx_H = ∞

【００５３】ステップS605ではBND_LとBND_Hの積が１かど
うかを検査し、そうであれば検索処理を終了し、そうで
なければステップS606へ進む。

【００５４】ステップS606ではBND_L+CAL_L が１かどうか
を検査しそうであればステップS607へ、そうでなければ
ステップS608へ進む。ステップS607では以下の処理を実
行する： Dx_L = ‖Y_Im(PTRL) ‖² −(V_m(PTR_L) −Z(m))² CALL = 1

【００５５】ステップS608ではBNDH+CALH が１かどうか
を検査しそうであればステップS609へ、そうでなければ
ステップS610へ進む。ステップS609では以下の処理を実
行する： Dx_H = ‖Y_Im(PTRH) ‖² −(V_m(PTR_H) −Z(m))² ＣＡＬ_Ｈ＝１

【００５６】ステップＳ６１０ではDx_L がDx_H より小さ
ければステップS611へ、そうでなければステップS612へ
進む。

【００５７】ステップS611では以下の処理を実行し、図
3 の検索処理のステップS306へ戻る： Dx=Dx_L, PTR=PTR_L, CAL_L = 0

【００５８】ステップS612では以下の処理を実行し、図
3 の検索処理のステップS306へ戻る： Dx=Dx_H, PTR=PTR_H, CAL_H = 0

【００５９】PTR の更新処理では、PTR と関連する変数
の値を変更し、終了条件が満足されれば、図3 に示した
検索処理そのものを終了する。ステップS307ではステッ
プS306で計算されたDxの値が次式を満足したかどうかを
検査し、満足すればステップS316へ、そうでなければス
テップS308へ進む： Dx ≦ ξ_t-1 (8)

【００６０】ステップS308ではn に２を設定する。ステ
ップS309では次式の処理を実行する： s = I_m(PTR) Dx ← Dx − (Y_S( λ_n)−X(λ_n))²

【００６１】ステップS310ではDxが次式を満足したかど
うかを検査し、満足したらステップS316へ、そうでなけ
ればステップS311へ進む： Dx ≦ ξ_t-1 (9)

【００６２】ステップS311ではn をインクレメントし、
その結果がg を超えたらステップS312へ、そうでなけれ
ばステップS309へ進む。

【００６３】ステップS312では図7 で後述する関数計算
を実行しステップS313へ進む。ただしg がベクトルの次
元d に等しい場合は関数計算を実行せずにステップS314
へ進む。

【００６４】ステップS313ではステップS312の関数計算
で値を更新されたDxが次式を満足するかどうかを検査
し、満足したらステップS316へ、そうでなければステッ
プS314へ進む： Dx ≦ ξ_t-1

【００６５】ステップS314では、近傍集合からξ_t-1 に
対応する要素を削除し、現在処理中のプロトタイプを追
加する： N_t(X) ←N_t-1(X) - { ( τ_t-1,ξ_t-1) } + { (I_m(PTR),
Dx) }

【００６６】ステップS315では、N_t(X) の要素のうちの
Dxの最小値をξt に、そのID番号をτ_t に格納し、ステ
ップS317へ進む。

【００６７】ステップS316では次式を実行し、ステップ
S317へ進む： ξ_t=ξ_t-1 、τ_t=τ_t-1

【００６８】ステップS317ではt をインクレメントし、
その結果がN を超えたら処理を終了し、そうでなければ
ステップS306へ進む。

【００６９】ステップS312で実行する関数計算を図7 を
用いて説明する。

【００７０】ステップS701ではj をg+1 に設定する。ス
テップS702では以下の処理を実行する： Dx ← Dx − (Y_s( λ_j)−X(λ_j))² ステップS703ではj をインクレメントし、その結果がベ
クトルの次元d を超えたらステップS312の関数計算を終
了する。そうでなければステップS702へ進む。

【００７１】ステップS317で終了したときのN_t(X) が、
検索結果として出力される。

【００７２】以上説明した発明による効果を計算機実験
によって検証する。〔計算機実験〕本実施形態の有効性を検証するために、
検索結果として要求されるプロトタイプ数k=10個、プロ
トタイプ数N=10000 個に対して探索の計算機実験を行っ
た。以下の項目が実験パラメタである：・ベクトルの次元：d = {10, 20, 30, 40, 50, 60, 70,
80, 90, 100 } 実験に使用した計算機の諸元は以下のとおりである：・シリコングラフィクス社製Ｏ２・CPU: MIPS R10000, Rev2.6(175 MHz) ・メインメモリ: 128 MB ・OS: IRIX Release 6.3 尚、プログラム言語はＣを用いた。〔実験手順〕 (1) 一様乱数を用いて、d 次元ベクトルN 個より成るプ
ロトタイプ集合を生成する。 (2) 一様乱数を用いて、d 次元ベクトル空間の計量テ
ンソルを1 個、生成する。 (3) 一様乱数を用いて、d 次元のテストベクトルを1
個、生成する。 (4) 全数探索を行う。 (5) 提案アルゴリズムによる探索を行う。

【００７３】上記５つの手順を100 回繰り返し、相対CP
U 時間の平均値を計算した。ここで、相対CPU 時間 =
(提案アルゴリズムのCPU 時間)/( 全数探索のCPU 時間)
である。

【００７４】実験結果を図９に示す。図中、ベクトルの
次元(dimensionarity)を横軸、相対CPU 時間 (CPU time
ratio) η_T を縦軸、プロトタイプ数N をパラメタとし
て示した。

【００７５】図１０より、プロトタイプ数N に関わら
ず、ベクトルの次元の増加に伴って相対ＣＰＵ時間が１
次のオーダーで増加していることがわかる。しかしN=10
000 個のときの傾きは非常に小さい。このときの相対CP
U 時間の値は、10次元で3%、100 次元でも11% と、高次
元でも十分小さい値を示している。実際、100 次元ベク
トル10000 個から最近接プロトタイプ10個を取り出す探
索処理では、全数探索3.7(sec)に対して、提案方式では
0.40(sec) で終了した。

【００７６】尚、本発明は、上述した実施形態の機能を
実現するソフトウェアのプログラムコードを記憶した記
憶媒体を、装置あるいはシステムに供給し、装置あるい
はシステム内のコンピュータが記憶媒体に格納されたプ
ログラムコードを読み出して実行することによって達成
してもよい。

【００７７】更に、装置あるいはシステム内のコンピュ
ータが記憶媒体に格納されたプログラムコードを読み出
して実行することによって、上述した実施形態の機能を
直接実現するばかりでなく、そのプログラムコードの指
示に基づいて、コンピュータ上で稼動しているＯＳなど
の処理により、上述の機能を実現される場合も含まれ
る。

【００７８】これらの場合、そのプログラムコードを記
憶した記憶媒体は本発明を構成することになる。

【００７９】

【発明の効果】以上説明したように、本発明によれば、
与えられたベクトル形式のデータとの内積に基づいて、
ベクトル形式のデータ集合から所定数のデータを高速に
抽出することができる。これにより、例えば画像などの
データベースの検索を高速に行なうことができる。

【図面の簡単な説明】

【図１】実施形態の情報処理装置の機能構成図である。

【図２】内積計算部の処理手順を示すフローチャートで
ある。

【図３】検索処理手順を示すフローチャートである。

【図４】ポインタの初期化処理手順を示すフローチャー
トである。

【図５】近傍集合の初期化処理手順を示すフローチャー
トである。

【図６】ポインタの更新処理手順を示すフローチャート
である。

【図７】関数計算の処理手順を示すフローチャートであ
る。

【図８】前処理手順を示すフローチャートである。

【図９】計算機実験の結果を示す図である。

【図１０】射影アルゴリズムの原理を示す図である。

Claims

【特許請求の範囲】

【請求項１】ベクトル形式のデータの集合を記憶した
データベースと、該データベースの各データのノルムの二乗を求め、当該
各データをベクトルの１成分の値の順に並べたデータの
リストを各成分について作成する前処理手段と、ベクトル形式のテストデータを入力して計量テンソルを
作用させる入力手段と、前記ベクトル形式における１つの成分を順次選択する成
分選択手段と、該成分選択手段により選択された１つの成分につき、前
記リストから前記テストデータと成分値の差の小さい順
に順次データを選択するデータ選択手段と、該データ選択手段により選択されたデータのノルムの二
乗を用いて当該データと前記テストデータとの全空間に
おける類似度を計算する類似度計算手段と、該類似度計算手段により計算された類似度の大きい順に
所定数のデータを抽出する抽出手段と、前記データ選択手段により選択されたデータと前記テス
トデータとの部分空間における類似度に基づいて、前記
類似度計算手段により全空間における類似度を計算する
か否かを制御する類似度計算制御手段とを備えたことを
特徴とするデータ処理装置。
【請求項２】前記リスト作成手段は、各成分につい
て、前記データベースの各データの当該成分の値を、当
該値の順に並べたリストと、前記各データの識別子を前
記値の順に並べたリストとを作成することを特徴とする
請求項１に記載のデータ処理装置。
【請求項３】前記成分選択手段は、前記テストデータ
の各成分値の絶対値の大きい順に、１つの成分を選択す
ることを特徴とする請求項１に記載のデータ処理装置。
【請求項４】前記抽出手段が、前記所定数のデータと該所定数のデータと前記テストデ
ータとの全空間における類似度の最小値とを記憶するデ
ータ記憶手段と、前記類似度計算手段により新たに類似度が計算されたデ
ータの類似度が前記最小値より大きい場合に、当該デー
タを前記最小値に対応するデータに代えて前記データ記
憶手段に追加し、最小値を更新する記憶制御手段とを有
することを特徴とする請求項１に記載のデータ処理装
置。
【請求項５】前記類似度計算制御手段が、前記部分空
間における類似度が前記最小値以下である場合に、全空
間における類似度の計算を不実施とするように制御する
ことを特徴とする請求項４に記載のデータ処理装置。
【請求項６】前記データと前記テストデータとの類似
度が、当該データのノルムの二乗から前記テンソルを作
用させたテストデータと当該データとの距離の二乗を減
じた値であることを特徴とする請求項１に記載のデータ
処理装置。
【請求項７】ベクトル形式のデータの集合を記憶した
データベースの各データのノルムの二乗を求め、当該各
データをベクトルの１成分の値の順に並べたデータのリ
ストを各成分について作成する前処理工程と、ベクトル形式のテストデータを入力して計量テンソルを
作用させる入力工程と、前記ベクトル形式における１つの成分を順次選択する成
分選択工程と、該成分選択工程により選択された１つの成分につき、前
記リストから前記テストデータと成分値の差の小さい順
に順次データを選択するデータ選択工程と、該データ選択工程により選択されたデータのノルムの二
乗を用いて当該データと前記テストデータとの全空間に
おける類似度を計算する類似度計算工程と、該類似度計算手段により計算された類似度の大きい順に
所定数のデータを抽出する抽出工程と、前記データ選択工程により選択されたデータと前記テス
トデータとの部分空間における類似度に基づいて、前記
類似度計算工程により全空間における類似度を計算する
か否かを制御する類似度計算制御工程とを備えたことを
特徴とするデータ処理方法。
【請求項８】前記リスト作成工程において、各成分に
ついて、前記データベースの各データの当該成分の値
を、当該値の順に並べたリストと、前記各データの識別
子を前記値の順に並べたリストとを作成することを特徴
とする請求項７に記載のデータ処理方法。
【請求項９】前記成分選択工程では、前記テストデー
タの各成分値の絶対値の大きい順に、１つの成分を選択
することを特徴とする請求項７に記載のデータ処理方
法。
【請求項１０】前記抽出工程が、前記所定数のデータと該所定数のデータと前記テストデ
ータとの全空間における類似度の最小値とをデータ記憶
部に記憶するデータ記憶工程と、前記類似度計算工程により新たに類似度が計算されたデ
ータの類似度が前記最小値より大きい場合に、当該デー
タを前記最小値に対応するデータに代えて前記データ記
憶部に追加し、最小値を更新する記憶制御工程とを有す
ることを特徴とする請求項７に記載のデータ処理方法。
【請求項１１】前記類似度計算制御工程では、前記部
分空間における類似度が前記最小値以下である場合に、
全空間における類似度の計算を不実施とするように制御
することを特徴とする請求項１０に記載のデータ処理方
法。
【請求項１２】前記データと前記テストデータとの類
似度が、当該データのノルムの二乗から前記テンソルを
作用させたテストデータと当該データとの距離の二乗を
減じた値であることを特徴とする請求項７に記載のデー
タ処理方法。
【請求項１３】ベクトル形式のデータの集合を記憶し
たデータベースの各データのノルムの二乗を求め、当該
各データをベクトルの１成分の値の順に並べたデータの
リストを各成分について作成する前処理工程と、ベクトル形式のテストデータを入力して計量テンソルを
作用させる入力工程と、前記ベクトル形式における１つの成分を順次選択する成
分選択工程と、該成分選択工程により選択された１つの成分につき、前
記リストから前記テストデータと成分値の差の小さい順
に順次データを選択するデータ選択工程と、該データ選択工程により選択されたデータのノルムの二
乗を用いて当該データと前記テストデータとの全空間に
おける類似度を計算する類似度計算工程と、該類似度計算手段により計算された類似度の大きい順に
所定数のデータを抽出する抽出工程と、前記データ選択工程により選択されたデータと前記テス
トデータとの部分空間における類似度に基づいて、前記
類似度計算工程により全空間における類似度を計算する
か否かを制御する類似度計算制御工程とを備えたデータ
処理プログラムを記憶した記憶媒体。