JPH11218806A

JPH11218806A - データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体

Info

Publication number: JPH11218806A
Application number: JP10018934A
Authority: JP
Inventors: Yasushi Seiki; 康清木; Takatsugu Kitagawa; 高嗣北川; Teruyoshi Washisawa; 輝芳鷲澤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-01-30
Filing date: 1998-01-30
Publication date: 1999-08-10
Anticipated expiration: 2018-01-30
Also published as: JP4194680B2; US6334129B1

Abstract

(57)【要約】【課題】データベースのデータの中から問い合わせベ
クトルに類似する所定個数の候補データを高速に出力す
る。【解決手段】データベース103に記憶されたベクトル
形式のデータの集合から、問い合わせベクトルと類似度
の高いデータを第１の所定数抽出するデータ処理装置
に、データベース103のデータをベクトルの１成分の強
度の降順に並べたデータのリストを各成分について作成
するリスト作成部101と、入力された問い合わせベクト
ルに基づいて、前記リストに対する優先順位を決定し、
前記リストから前記リスト優先度とリスト内の順位とに
基づいて未出力のデータを第２の所定数ずつ順次選択
し、選択された前記第２の所定数のデータから、該デー
タの各々と前記問い合わせデータとの類似度に基づいて
１つのデータを出力する候補出力部102とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ベクトル間の類似
度を計算するデータ処理装置及びその方法に関し、特
に、問い合わせベクトルとの類似度に基づいて所定数の
データを出力するデータ処理装置及びその方法に関する
ものである。

【０００２】

【従来の技術】ベクトル間の類似度を計算する方法とし
て距離が一般的に用いられている。一般には、あるキー
・ベクトルが与えられたときに、予め定められたベクト
ルの集合の中から、キー・ベクトルに近いものをＬ個抽
出するという問題を扱うことが多い。このような問題設
定では、全てのベクトルとの比較演算を行っていたので
は、計算量のオーダーは、ベクトルの次元Ｍとベクトル
の集合の要素数Ｎに対して、Ｏ(ＭＮ)となってしまう。

【０００３】そこで、距離計算に対する高速アルゴリズ
ムがいくつか提供されている。これら高速アルゴリズム
に共通の戦略は、予めデータを構造化しておき、距離計
算時の計算複雑性を軽減しようというものである。

【０００４】例えばベクトルの各軸の成分値をもとにソ
ーティング・リストを作成しておく方法では、キーとな
るベクトルが与えられたときに、適当な優先度によって
軸をソーティングし、最上位に位置する軸のソーティン
グ・リスト中で、キー・ベクトルの成分値がどこに位置
するかを特定する。そして、近い位置に格納されている
ベクトルから順に、そのＩＤをもとに、ベクトルとキー
・ベクトルとの距離を計算していく。正確な結果を得る
ためには全てのベクトルとの距離を計算しなければなら
ないが、もしも、選択した軸の成分値に関する順序が実
際のベクトル間の距離を良く反映していれば、少ない計
算量で満足できる結果が期待できる。

【０００５】この方法ではデータの構造化にＯ(Ｎlog₂
Ｎ)、Ｌ個のベクトルとの比較演算にＯ(Ｌlog₂Ｎ)のオ
ーダーの計算量で済む。射影方式と呼ばれるこの方式の
他にも、K-dツリーや、その派生バージョンがあるが、
前処理と検索時の計算量のオーダーは同じ程度である。

【０００６】以上説明した従来技術はベクトルの距離計
算に関するものであったが、ベクトル間の類似度を表現
する尺度としてノルムが有効な場合がある。例えば、
「Kiyoki Y., Kitagawa T., and Hayama T., "A Metada
tabase System for Semantic Image Search by a Mathe
matical Model of Meaning," SIGMOD RECORD, Col.23,N
o.4, (Dec.1994)」（以下文献１と称する）では、文脈
ベクトルとの類似度を以下のように計算している。即
ち、文脈ベクトルをもとに表現空間に対する射影作用素
を生成し、この射影作用素によって抽出された部分空間
でのベクトルのノルムを計算することによって、文脈ベ
クトルとの類似度を定義している。

【０００７】また、「宮原，清木，北川：“意味の数学
モデルによる意味的画像探索のための高速化アルゴリズ
ム，”情報処理学会研究報告，データベースシステム１
１３−４１,（1997.7.15）」（以下文献２と称する）で
は、このような類似度計算のための高速計算アルゴリズ
ムが提案されている。これは上記、距離計算における、
射影方式の直接的な応用となっている。即ち、予め各軸
に対するソーティング・リストを作成しておく。そして
文脈ベクトルが与えられると、文脈ベクトルの成分値に
基づいて各軸の優先度を決定する。ソーティング・リス
トの優先度と、各リストにおける順位に基づいて、文脈
ベクトルとの類似度を決定する。この方式では、前処理
の計算量がＯ(Ｎlog₂Ｎ)、比較計算は結果として出力す
るデータ数Ｌのオーダーである。

【０００８】

【発明が解決しようとする課題】しかしながら、上記文
献２の従来方式には以下のような問題がある。これを図
２を用いて説明する。図２は、文献２の従来方式で作成
されるソーティング・リストの例を示す図である。

【０００９】文献2の方式では、最初に、優先度が最も
高い軸のソーティング・リストの最上位に位置するベク
トルを最も類似度が高いと判断する。図２ではID番号10
のベクトルである。次に同じ軸の第2位に位置するベク
トル、図２中ID番号6のベクトルを、2番目に類似度が高
いとする。3番目に類似度が高いベクトルは、優先度が2
番目の軸のソーティング・リストの最上位に位置するベ
クトル、図中ID番号3のベクトルと決定する。このよう
に、文献２の方式では、リスト上の位置の順に類似度を
決定していくので、例えばID番号6とID番号3の順序が実
際の類似度とは逆転している可能性がある。

【００１０】

【課題を解決するための手段】上記課題を解決するため
に、本発明では、ベクトル形式のデータの集合から、問
い合わせベクトルと類似度の高いデータを第１の所定数
抽出するデータ処理装置に、ベクトル形式のデータの集
合を記憶したデータベースと、該データベースのデータ
をベクトルの１成分の強度の降順に並べたデータのリス
トを各成分について作成するリスト作成手段と、前記リ
ストのそれぞれに対する優先度を決定するリスト優先度
決定手段と、問い合わせベクトルを入力する入力手段
と、前記リストから前記リスト優先度とリスト内の順位
とに基づいて未出力のデータを第２の所定数ずつ順次選
択する選択手段と、該選択手段により順次選択された前
記第２の所定数のデータから、該データの各々と前記問
い合わせデータとの類似度に基づいて１つのデータを出
力する出力手段とを備える。

【００１１】また、他の態様によれば、データベースに
記憶されたベクトル形式のデータの集合から、問い合わ
せベクトルと類似度の高いデータを第１の所定数抽出す
るデータ処理方法に、前記データベースのデータをベク
トルの１成分の強度の降順に並べたデータのリストを各
成分について作成するリスト作成工程と、前記リストの
それぞれに対する優先度を決定するリスト優先度決定工
程と、問い合わせベクトルを入力する入力工程と、前記
リストから前記リスト優先度とリスト内の順位とに基づ
いて未出力のデータを第２の所定数ずつ順次選択する選
択工程と、該選択工程により順次選択された前記第２の
所定数のデータから、該データの各々と前記問い合わせ
データとの類似度に基づいて１つのデータを出力する出
力工程とを備える。

【００１２】また、他の態様によれば、記憶媒体に、デ
ータベースに記憶されたベクトル形式のデータの集合か
ら、問い合わせベクトルと類似度の高いデータを第１の
所定数抽出するデータ処理プログラムであって、前記デ
ータベースのデータをベクトルの１成分の強度の降順に
並べたデータのリストを各成分について作成するリスト
作成工程と、前記リストのそれぞれに対する優先度を決
定するリスト優先度決定工程と、問い合わせベクトルを
入力する入力工程と、前記リストから前記リスト優先度
とリスト内の順位とに基づいて未出力のデータを第２の
所定数ずつ順次選択する選択工程と、該選択工程により
順次選択された前記第２の所定数のデータから、該デー
タの各々と前記問い合わせデータとの類似度に基づいて
１つのデータを出力する出力工程とを備えるデータ処理
プログラムを記憶する。

【００１３】

【発明の実施の形態】図１は、本発明の1実施形態であ
るデータ処理装置の機能構成を表す図である。装置の各
部は、以下に説明する機能を実現するものであれば、そ
れぞれが専用のプログラムメモリやプロセッサを含む機
器であってもよいし、複数の機能部を、同一のＣＰＵが
ＲＯＭやディスクメモリ等に記憶された各機能プログラ
ム（フローチャートにつき後述する処理手順に対応する
プログラムを含む）を実行することにより、あるいは各
機能に対応する特定のハードウェアを制御する制御プロ
グラムを実行することにより実現してもよい。

【００１４】図１において、データベース103は、ベク
トルとして記述された検索対象データを格納している。
リスト作成部101は、データベース103のデータについ
て、成分毎に降順に並べたデータIDのリストを作成・記
憶する。候補出力部102は、問い合わせベクトルとデー
タベース103のデータとの類似度を計算して所定数の候
補データを出力する。

【００１５】＜リスト作成部101＞処理の対象となるデ
ータは、適当な次元を持つ計量ベクトル空間上のベクト
ルとして表現されているとし、ベクトルの次元をＤとす
る。以下、データ集合に属する任意のデータXのm成分強
度をX_mと記述する。また、データ集合Ωに含まれるデー
タをXj, j∈ (1,2, ... , N)と記述する。

【００１６】リスト作成部101では、データ集合に含ま
れる全てのデータの各成分値毎のソーティング・リスト
を作成し、記憶する。

【００１７】m番目の成分に関するソーティング・リス
トのn番目の値をR(m,n)と書く。すなわち、R(m,n)は、m
番目の成分に関してn番目に大きい値を持つベクトルの
インデクスを表す。

【００１８】＜候補出力部102＞候補出力部102では、与
えられた文脈ベクトルの下でのベクトルXのノルムを計
算する。その処理の流れを説明する前に、計算に用いら
れるデータについて、図７を用いて説明する。図７は、
具体例による各データの計算の途中結果を示す図であ
る。

【００１９】PAXはベクトル空間の各軸の優先順位を表
わすベクトル変数であり、優先順位の高い順に軸の番号
が格納されている。図７の例では、第４成分が最も優先
順位が高く、次が第３成分となっている。Rはリスト作
成部101により作成される、各成分値に基づくデータID
のソーティング・リストである。

【００２０】INDXは、各成分で現在計算の対象となって
いるのが、ソーティング・リストＲの何番目のベクトル
かを示すベクトル変数である。図７ではINDX(1)が１で
あるが、これは第1成分に対するソーティング・リスト
の第1番目のベクトル、即ちID10のベクトルが計算の対
象となっていることを示している。NRMは上記計算の対
象となっている各ベクトルのノルムを格納するベクトル
変数である。

【００２１】PTRは計算の対象としているベクトルを指
すポインタを成分に持つベクトルである。TNRMはPTRで
指し示されるベクトルのノルムを格納する。ANSは検索
結果を格納する。

【００２２】図３は、候補出力部102の処理手順を示す
フローチャートである。同図を用いて候補出力部102の
処理の流れを説明する。

【００２３】ステップＳ３０１では、問い合わせベクト
ルの成分値に基づいてPAXを作成する。ここでは、問い
合わせベクトルの成分強度の降順に軸の優先順位を定
め、優先順位の高い順に軸の番号を格納するものとす
る。ステップＳ３０２では、PTR、D、INDX、NRMを初期
化する。

【００２４】ここで、PTRは計算の対象としているベク
トルを指すポインタを成分に持つ３次元ベクトルであ
り、以下のように初期化する： PTR = (0, 1, 2)^T (1)

【００２５】DはPTRの有効成分数を表すものであり、ベ
クトルの次元数Mに初期化する。

【００２６】INDXはデータベクトルと同じ次元数Mを持
つベクトル変数であり、INDX(n)には、n番目の成分に対
するソーティング・リストにおいて現在計算の対象とな
っている要素が何番目の要素かが格納されている。

【００２７】例えば、INDX(m)にnが格納されているとき
には、R(m,n)の内容（ベクトルのID番号）を指すポイン
タを意味している。全ての要素に対して１で初期化され
る。

【００２８】NRMはデータベクトルと同じ次元数Mを持つ
ベクトル変数であり、NRM(n)には、INDX(n)で指し示さ
れるID番号のノルムが格納されている。ノルムの計算
は、要求されるまでは行わない。そこで、−1を格納す
ることによって、まだ計算されていないことを表すこと
にする。従って、初期値は全ての値に対して−1を設定
する。

【００２９】TNRMはPTRと同じ次元を持つベクトル変数
であり、PTRで指し示される3個のベクトルのノルムを格
納する。

【００３０】PTR、PAX、そしてINDXによってベクトルの
ID番号が決定される。実際、PTR(n)に対応するベクトル
ID番号Jは次式で計算される： J = R( PAX(PTR(n)), INDX(PAX(PTR(n))) （２）例えば、図７のPTR(2)に対するベクトルのID番号Jは、 J = R( PAX(PTR(2)), INDX(PAX(PTR(2))) = R( PAX(1), INDX(PAX(1))) = R( 4, INDX(4)) = R( 4, 1) = 7 と計算される。

【００３１】ステップＳ３０３では、図4につき後述す
る処理によって、PTRで指し示される3個のベクトルのノ
ルムの計算を行う。これにより変数TNRMが更新される。
ただし、PTRが指すベクトルID番号が適当でないとき、
例えば０以下であったり、データの総数を超えるような
場合、或いはPTRが直接指し示すべき行列Rのインデクス
が適当でないような場合には、−１が格納される。これ
によって格納されている値が有効かどうかが判断でき
る。

【００３２】ステップＳ３０４では、検索結果が何番目
であるかを示すmを１に設定する。ステップＳ３０５で
は、PTR(2)に対応するベクトルID番号を(2)式で計算
し、ｍ番目の検索結果ANS(m)として出力する。

【００３３】ステップＳ３０６では、ｍが出力すべき候
補数Ｌ以上であれば処理を終了し、そうでなければステ
ップＳ３０７へ進む。ステップＳ３０７では、INDX(PAX
(PTR(2)))の内容に１を加算する。ステップＳ３０８で
は、NRM(PAX(PTR(2)))に−1を格納する。

【００３４】ステップＳ３０９では、図4につき後述す
るノルム計算処理によってノルムを計算し、TNRMの値を
更新する。ステップＳ３１０では、図６につき後述する
ポインタ更新処理によってPTRの値を更新する。ステッ
プＳ３１１では、ｍに１を加算し、ステップＳ３０５へ
進む。

【００３５】図４は、ポインタの指すベクトルのノルム
計算処理手順を示すフローチャートである。図4につきT
NRMのノルムの計算処理を説明する。

【００３６】ステップＳ４０１では、ｎを１に初期化す
る。ステップＳ４０２では、図5につき後述するノルム
計算処理によって、PTR(n)に対応するベクトルのノルム
を計算し、TNRM(n)に値を格納する。ステップＳ４０３
では、ｎに１を加算する。ステップＳ４０４では、ｎが
３を超えたかどうか検査し、超えていなければＳ４０２
へ進み、超えていれば処理を終了する。

【００３７】図５は、各ベクトルのノルム計算処理手順
を示すフローチャートである。図５につきステップＳ４
０２で実行されるノルム計算処理を説明する。この処理
はポインタPTR(n)の指すベクトルのID番号Jを引数とし
て受け取る。

【００３８】ステップＳ５０１では、PAX(J)が０を超
え、かつN以下かどうかを検査し、この範囲内であれば
ステップＳ５０２へ、そうでなければステップＳ５０６
へ進む。

【００３９】ステップＳ５０２では、NRM(PAX(J))が非
負かどうか検査し、そうであればステップＳ５０５へ、
そうでなければステップＳ５０３へ進む。

【００４０】ステップＳ５０３では、ID番号J = R( PAX
(PTR(n)), INDX(PAX(PTR(n)))が既に答えとして出力さ
れたかどうかを検査し、出力されていればステップＳ５
０６へ、そうでなければステップＳ５０４へ進む。

【００４１】ステップＳ５０４では、次式によってID番
号JのベクトルＸのノルムを計算し、NRM(PAX(PTR(J)))
に格納する： ‖X‖ = (Σ_jK_j ²X_j ²)^1/2 (3) ただし、Ｋ=(K₁, K₂, ... , K_M)はユーザによって与え
られた問い合わせベクトルである。あるいはノルムの２
乗でも構わない： ‖X‖² = (Σ_jK_j ²X_j ²) （３）’

【００４２】ステップＳ５０５では、戻り値としてＮＲ
Ｍ（ＰＡＸ（ＰＴＲ（Ｊ）））をセットする。ステップ
Ｓ５０６では戻り値として−１をセットする。

【００４３】図６は、ポインタの更新処理手順を示すフ
ローチャートである。図６につきステップＳ３１０で実
行される処理を説明する。

【００４４】ステップＳ６０１では、TNRMの３個の成分
のうちの最大値を求め、そのインデクスが１であればス
テップＳ６０２へ、そうでなければステップＳ６０３へ
進む。ステップＳ６０２では、PTRの全ての成分から１
を減ずる。ステップＳ６０３では、最大値のインデクス
が３であればステップＳ６０４へ、そうでなければ処理
を終了する。ステップＳ６０４では、PTRの全ての成分
に１を加算する。以上により、PTR(2)はTNRMの３個の成
分のうちの最大値に対応するベクトルを指すようにな
り、ステップＳ３０５で、そのID番号が検索結果として
出力される。

【００４５】上記装置を用いて、以下に示す１０個の５
次元（縦）ベクトルのソーティングリストを作成する。
ただし、ユーザーが指定した問い合わせベクトルK =
(0.1208, 0.3529, 0.6511, 0.6595, 0.0439)^T、Ｌ=３と
する。

【００４６】 X1 = ( 0.1612, 0.0346, 0.4996, 0.5000, 0.6879 )^T X2 = ( 0.3638, 0.4927, 0.7882, 0.0328, 0.0507 )^T X3 = ( 0.5638, 0.7144, 0.0082, 0.4081, 0.0712 )^T X4 = ( 0.2602, 0.4280, 0.3671, 0.5799, 0.5274 )^T X5 = ( 0.4488, 0.0783, 0.5570, 0.3543, 0.5972 )^T X6 = ( 0.6401, 0.5359, 0.1845, 0.0334, 0.5176 )^T X7 = ( 0.2215, 0.4269, 0.5105, 0.6688, 0.2465 )^T X8 = ( 0.1550, 0.6164, 0.4534, 0.4726, 0.4087 )^T X9 = ( 0.0603, 0.5242, 0.7343, 0.2263, 0.3622 )^T Ｘ１０＝（０．７３８６，０．４６０４，
０．２２９１，０．２６４９，０．３４６２）^Ｔ

【００４７】さて、まずリスト作成部１０１において、
成分毎の強度に関する降順リストとして以下の５個のリ
ストを生成し、記憶する：１番目の成分 → ｛X10, X6, X3, X5, X2, X4, X7, X1, X8, X9｝２番目の成分 → ｛X3, X8, X6, X9, X2, X10, X4, X7, X5, X1｝３番目の成分 → ｛X2, X9, X5, X7, X1, X8, X4, X10, X6, X3｝４番目の成分 → ｛X7, X4, X1, X8, X3, X5, X10, X9, X6, X2｝５番目の成分 → ｛X1, X5, X4, X6, X8, X9, X10, X7, X3, X2｝

【００４８】降順リストの計算量はデータ数Nに対して
Ｏ(NlogN)であるから、ベクトルがM次元であるとする
と、予めO(MNlogN)の準備を行えばよい。

【００４９】次に候補出力部102の処理を実行する。

【００５０】ステップＳ３０１で、問い合わせベクトル
の成分値からPAXは以下のように決定できる： PAX = ( 4, 3, 2, 1, 5 ) (4)

【００５１】ステップＳ３０２で以下のように初期化を
行う： D = 5 PTR = ( 0, 1, 2 ) INDX = ( 1, 1, 1, 1, 1) NRM = ( -1, -1, -1, -1, -1 )

【００５２】ステップＳ３０３では、ノルムを計算す
る。PTR(1)に対応する行列Rのインデクスは、(PAX(PTR
(1)), INDX(PAX(PTR(1)))) = (PAX(0), INDX(PAX(0)))
となり、PAX(0)は適当でないので、PTR(1)に対応するID
番号は存在せず、TNRM(1)には−１が格納される。

【００５３】PTR(2)に対応する行列Rのインデクスは、 (PAX(PTR(2)), INDX(PAX(PTR(2)))) = (PAX(1), INDX(P
AX(1)))= (4, 1) となり、ベクトルID番号はR(4, 1)の値、即ち７と与え
られる。ID７のベクトルX7のノルムを(3)式を用いて計
算すれば0.5376が得られ、NRM(PAX(PTR(2))) = NRM(4)
に格納する。同様にPTR(3)に対し、NRM(PAX(PTR(3))) =
NRM(3)にX2のノルム、0.5070を格納する。

【００５４】ステップＳ３０４では、ｍを１に設定す
る。ステップＳ３０５では、PTR(2)に対応するベクトル
ID番号である７を出力する。ステップＳ３０６では、ｍ
がL以上かどうかを検査し、ｍがL未満なのでステップＳ
３０７に進む。

【００５５】ステップＳ３０７では、INDX(PAX(PTR
(2))) = INDX(4)の値１に１を加算し、２とする。ステ
ップＳ３０８では、NRM(PAX(PTR(2))) = NRM(4)に−1を
格納する。

【００５６】ステップＳ３０９ではノルムを計算する。
PTRで指し示されているNRMのインデクスは４と３であ
り、NRM(4)とNRM(3)のうち、値が負であるのはNRM(4)な
ので、ID番号がR(4, INDX(4)) = R(4, 2) = 4のベクト
ルのノルムを計算する。その結果0.3945という値が得ら
れ、この値をNRM(4)及びTNRM(2)に格納する。

【００５７】ステップＳ３１０では、PTRの値を更新す
る。図6に示すフローチャートに基づけば、TNRMの値に
基づいて処理が行われる。現在のTNRMはTNRM = ( -1,
0.3945, 0.5070 )^Tであり、最大値を取る成分のインデ
クスは３なので、PTRの全ての値に１を加算し、 PTR = ( 1, 2, 3)^T となる。ここまでの処理によって、各データの値は図８
に示すように更新される。

【００５８】ステップＳ３１１では、ｍに１を加算す
る。ステップＳ３０５では、R(PAX(PTR(2)), INDX(PAX
(PTR(2)))) = 2を2番目の結果として出力する。ステッ
プＳ３０６では、mがL以上かどうか検査し、ｍはL未満
なのでステップＳ３０７へ進む。ステップＳ３０７で
は、INDX(PAX(PTR(2))) = 1に１を加算し２にする。ス
テップＳ３０８では、NRM(PAX(PTR(2)))に−1を格納す
る。

【００５９】ステップＳ３０９では、ノルムを計算す
る。NRM(PTR(1))、NRM(PTR(2))、NRM(PTR(3))のうちで
−1なのはNRM(PTR(2))とNRM(PTR(3))なので、これらに
対応するベクトル、即ち、ID番号９と３のベクトルのノ
ルムを計算する。その結果、 NRM(PTR(3)) = 0.4880, TNRM(2) = 0.4880 NRM(PTR(2)) = 0.3286, TNRM(3) = 0.3286 となる。

【００６０】ステップＳ３１０では、PTRを更新する。T
NRMの成分のうち最大値を取るのは２番目の成分なの
で、PTRの値はそのままである。ここまでの処理によっ
て、各データの値は図９に示すように更新される。

【００６１】ステップＳ３１１において、mを更新す
る。ステップＳ３０５では、R(PAX(PTR(2)), INDX(PAX
(PTR(2)))) = R(3, 2) = 9なので、９を結果として出力
する。ステップＳ３０６でｍがL以上かどうか検査する
が、ｍ＝Lなので処理を終了する。

【００６２】上記例題に対する出力として、{X7, X2, X
9}という候補リストが得られた。内積計算を正確に行っ
た結果である{ X7, X2, X9, X8, X4, X1, X3, X5, X10,
X6}の上位3個と比較すると、上述の高速近似計算の結
果全てが正解であったことがわかる。常に正解を与える
保証はないが、本発明が良い近似解を与えることが期待
できる。以上の処理の計算量は、ベクトルの次元Ｍと抽
出すべきデータ数Ｌに対してＭＬ個の乗算と加算で十分
である。

【００６３】これに対し、通常の内積計算を行うには、
全データ数をＮとすると、それぞれの内積を計算するた
めにＭＮ個の乗算と加算が必要である。従って、ＬがＮ
に比べて非常に小さい場合、計算量の点で有効な技術で
ある。膨大なＮを扱う状況は、一般の認識問題で常に出
くわすものであり、その際、基本となるデータKと近い
データをせいぜい数個得られれば、その後の処理にとっ
て十分有効である場合が多い。上記の方法は、そのよう
な場合に有効である。

【００６４】尚、本発明は、上述した実施形態の機能を
実現するソフトウェアのプログラムコードを記憶した記
憶媒体を、装置あるいはシステムに供給し、装置あるい
はシステム内のコンピュータが記憶媒体に格納されたプ
ログラムコードを読み出して実行することによって達成
してもよい。

【００６５】更に、装置あるいはシステム内のコンピュ
ータが記憶媒体に格納されたプログラムコードを読み出
して実行することによって、上述した実施形態の機能を
直接実現するばかりでなく、そのプログラムコードの指
示に基づいて、コンピュータ上で稼動しているＯＳなど
の処理により、上述の機能を実現される場合も含まれ
る。

【００６６】これらの場合、そのプログラムコードを記
憶した記憶媒体は本発明を構成することになる。

【００６７】

【発明の効果】以上説明したように、本発明によれば、
与えられたベクトルとの類似度に基づくデータ集合のソ
ーティング・リストの一部を、高速に生成することがで
きる。これにより、問い合わせベクトルとの類似度の高
いデータをデータベースから検索する場合において、検
索速度を劇的に短縮することができる。

【図面の簡単な説明】

【図１】実施形態の情報処理装置の機能構成図である。

【図２】ソーティング・リストの例を示す図である。

【図３】候補出力部の処理手順を示すフローチャートで
ある。

【図４】ポインタの指すベクトルのノルム計算処理手順
を示すフローチャートである。

【図５】各ベクトルのノルム計算処理手順を示すフロー
チャートである。

【図６】ポインタの更新処理手順を示すフローチャート
である。

【図７】具体例による計算の途中結果を示す図である。

【図８】具体例による計算の途中結果を示す図である。

【図９】具体例による計算の途中結果を示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者北川高嗣茨城県つくば市並木２−207−202 (72)発明者鷲澤輝芳東京都大田区下丸子３丁目30番２号キヤノン株式会社内

Claims

【特許請求の範囲】

【請求項１】ベクトル形式のデータの集合から、問い
合わせベクトルと類似度の高いデータを第１の所定数抽
出するデータ処理装置であって、ベクトル形式のデータの集合を記憶したデータベース
と、該データベースのデータをベクトルの１成分の強度の降
順に並べたデータのリストを各成分について作成するリ
スト作成手段と、前記リストのそれぞれに対する優先度を決定するリスト
優先度決定手段と、問い合わせベクトルを入力する入力手段と、前記リストから前記リスト優先度とリスト内の順位とに
基づいて未出力のデータを第２の所定数ずつ順次選択す
る選択手段と、該選択手段により順次選択された前記第２の所定数のデ
ータから、該データの各々と前記問い合わせデータとの
類似度に基づいて１つのデータを出力する出力手段とを
備えたことを特徴とするデータ処理装置。
【請求項２】前記リスト優先度決定手段は、前記問い
合わせベクトルの成分強度に基づいて前記リスト優先度
を決定することを特徴とする請求項１に記載のデータ処
理装置。
【請求項３】前記類似度は、前記問い合わせベクトル
の成分強度に基づいて重み付けされた各データのノルム
であることを特徴とする請求項１に記載のデータ処理装
置。
【請求項４】前記選択手段は、前記リストから前記第
２の所定数のリストを選択し、当該選択された各リスト
より未出力のデータ中で最上位のデータを選択すること
を特徴とする請求項１に記載のデータ処理装置。
【請求項５】前記選択手段は、前記出力手段により前
回出力されたデータの優先度に基づいて、前記第２の所
定数のリストを選択することを特徴とする請求項４に記
載のデータ処理装置。
【請求項６】前記選択手段により選択された前記第２
の所定数のデータの中で、前記問い合わせデータとの類
似度を未計算のデータについて当該類似度を計算する類
似度計算手段を備えたことを特徴とする請求項１に記載
のデータ処理装置。
【請求項７】データベースに記憶されたベクトル形式
のデータの集合から、問い合わせベクトルと類似度の高
いデータを第１の所定数抽出するデータ処理方法であっ
て、前記データベースのデータをベクトルの１成分の強度の
降順に並べたデータのリストを各成分について作成する
リスト作成工程と、前記リストのそれぞれに対する優先度を決定するリスト
優先度決定工程と、問い合わせベクトルを入力する入力工程と、前記リストから前記リスト優先度とリスト内の順位とに
基づいて未出力のデータを第２の所定数ずつ順次選択す
る選択工程と、該選択工程により順次選択された前記第２の所定数のデ
ータから、該データの各々と前記問い合わせデータとの
類似度に基づいて１つのデータを出力する出力工程とを
備えたことを特徴とするデータ処理方法。
【請求項８】前記リスト優先度決定工程では、前記問
い合わせベクトルの成分強度に基づいて前記リスト優先
度を決定することを特徴とする請求項７に記載のデータ
処理方法。
【請求項９】前記類似度は、前記問い合わせベクトル
の成分強度に基づいて重み付けされた各データのノルム
であることを特徴とする請求項７に記載のデータ処理方
法。
【請求項１０】前記選択工程では、前記リストから前
記第２の所定数のリストを選択し、当該選択された各リ
ストより未出力のデータ中で最上位のデータを選択する
ことを特徴とする請求項７に記載のデータ処理方法。
【請求項１１】前記選択工程では、前記出力工程によ
り前回出力されたデータの優先度に基づいて、前記第２
の所定数のリストを選択することを特徴とする請求項１
０に記載のデータ処理方法。
【請求項１２】前記選択工程により選択された前記第
２の所定数のデータの中で、前記問い合わせデータとの
類似度を未計算のデータについて当該類似度を計算する
類似度計算工程を備えたことを特徴とする請求項７に記
載のデータ処理方法。
【請求項１３】データベースに記憶されたベクトル形
式のデータの集合から、問い合わせベクトルと類似度の
高いデータを第１の所定数抽出するデータ処理プログラ
ムであって、前記データベースのデータをベクトルの１成分の強度の
降順に並べたデータのリストを各成分について作成する
リスト作成工程と、前記リストのそれぞれに対する優先度を決定するリスト
優先度決定工程と、問い合わせベクトルを入力する入力工程と、前記リストから前記リスト優先度とリスト内の順位とに
基づいて未出力のデータを第２の所定数ずつ順次選択す
る選択工程と、該選択工程により順次選択された前記第２の所定数のデ
ータから、該データの各々と前記問い合わせデータとの
類似度に基づいて１つのデータを出力する出力工程とを
備えたことを特徴とするデータ処理プログラムを記憶し
た記憶媒体。