JP2023541086A

JP2023541086A - 検索データベースを構築するための方法、装置、デバイス及び記憶媒体

Info

Publication number: JP2023541086A
Application number: JP2022567637A
Authority: JP
Inventors: イン，ジエ; ファン，ペン
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2021-08-16
Filing date: 2022-03-16
Publication date: 2023-09-28
Also published as: US20230041611A1; US11960455B2; EP4160434A1; EP4160434A4

Abstract

本開示は、検索データベースを構築するための方法、装置、デバイス及び記憶媒体を提供し、人工知能の技術分野に関し、特に、知能推薦及び深層学習の技術分野に関する。当該方法は、データセットを取得し、データセットを第１のデータセットと第２のデータセットに分割するステップと、第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得るステップと、一次クラスタリングセンターに基づいて、第１のデータセット内のデータをクラスタリングして少なくとも１つの対応する二次クラスタリングセンターを得るステップと、第１のデータセット内のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応するコードブックを得るステップと、第１のデータセットに対応するコードブックに基づいて、第２のデータセットを訓練してデータセットに対応するコードブックを得るステップと、を含む。本開示の検索データベースを構築するための方法は、検索データベースが占有するメモリを削減し、検索再現率を向上させ、データベース構築の速度を向上させる。

Description

＜関連出願の相互参照＞
本特許出願は、２０２１年０８月１６日に提出された、出願番号が２０２１１０９３７１１０．０であり、発明の名称が「検索データベースを構築するための方法、装置、デバイス及び記憶媒体」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本出願に組み込む。

本開示は、人工知能の技術分野に関し、具体的には、知能推薦及び深層学習の技術分野に関し、特に、検索データベースを構築するための方法、装置、デバイス及び記憶媒体に関する。

ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、畳み込みニューラルネットワーク）の幅広い適用に伴い、ＣＮＮ特徴に適用される基本的な検索技術ＡＮＮ（ＡｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ、近似最近傍検索）も急速に開発されている。大規模なデータセットの場合、現在の業界での主流の検索アルゴリズムは、ＨＮＳＷ（ＨｉｅｒａｒｃｈｉｃａｌＮａｖｉｇａｂｌｅＳｍａｌｌＷｏｒｌｄ）、ＩＶＦ（ＩｎｖｅｒｔｅｄＦｉｌｅＳｙｓｔｅｍ）などがある。ただし、ＨＮＳＷアルゴリズムは、計算量が大きいため、多くのメモリを必要とし、ＩＶＦアルゴリズムは、クラスタリングセンターの数が多く、反復回数が多いため、総合計算量が指数関数的成長に近い。

本開示は、検索データベースを構築するための方法、装置、デバイス及び記憶媒体を提供する。

本開示の第１の態様によれば、検索データベースを構築するための方法を提供し、当該方法は、データセットを取得し、データセットを第１のデータセットと第２のデータセットに分割するステップであって、第１のデータセット内のデータ量は、第２のデータセット内のデータ量よりも小さいステップと、第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得るステップと、一次クラスタリングセンターに基づいて第１のデータセット内のデータをクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得るステップと、第１のデータセット内のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応するコードブックを得るステップと、第１のデータセットに対応するコードブックに基づいて、第２のデータセットを訓練して、データセットに対応するコードブックを得るステップと、を含む。

本開示の第２の態様によれば、検索方法を提供し、当該検索方法は、被検索データを取得するステップと、被検索データと検索データベース内の一次クラスタリングセンターとの間の距離を計算し、プリセット条件を満たしている第３のプリセット数の一次クラスタリングセンターを得るステップであって、検索データベースは、第１の態様のいずれかの実現方法で説明された方法により得られるステップと、被検索データと第３のプリセット数の一次クラスタリングセンターにおける各一次クラスタリングセンターの下の二次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第４のプリセット数の二次クラスタリングセンターを得るステップと、検索データベース内のデータセットに対応するコードブックに基づいて、第４のプリセット数の二次クラスタリングセンターにおける各二次クラスタリングセンターに対応するサンプルデータを順次取得するステップと、被検索データとサンプルデータとの間の距離を計算し、計算結果に基づいて、第５のプリセット数のサンプルデータを返すステップと、を含む。

本開示の第３の態様によれば、検索データベースを構築するための装置を提供し、当該装置は、データセットを取得し、データセットを第１のデータセットと第２のデータセットに分割するように構成される第１の取得モジュールであって、第１のデータセット内のデータ量は、第２のデータセット内のデータ量よりも小さい第１の取得モジュールと、第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得るように構成される第１のクラスタリングモジュールと、一次クラスタリングセンターに基づいて第１のデータセット内のデータをクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得るように構成される第２のクラスタリングモジュールと、第１のデータセット内のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応するコードブックを得るように構成される取得モジュールと、第１のデータセットに対応するコードブックに基づいて、第２のデータセットを訓練して、データセットに対応するコードブックを得るように構成される訓練モジュールと、を備える。

本開示の第４の態様によれば、検索装置を提供し、当該検索装置は、被検索データを取得するように構成される第２の取得モジュールと、被検索データと検索データベース内の一次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第３のプリセット数の一次クラスタリングセンターを得るように構成される第１の計算モジュールであって、検索データベースは、第１の態様のいずれかの実現方法で説明された方法により得られる第１の計算モジュールと、被検索データと第３のプリセット数の一次クラスタリングセンターにおける各一次クラスタリングセンターの下の二次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第４のプリセット数の二次クラスタリングセンターを得るように構成される第２の計算モジュールと、検索データベース内のデータセットに対応するコードブックに基づいて、第４のプリセット数の二次クラスタリングセンターにおける各二次クラスタリングセンターに対応するサンプルデータを順次取得するように構成される第３の取得モジュールと、被検索データとサンプルデータとの間の距離を計算し、計算結果に基づいて、第５のプリセット数のサンプルデータを返すように構成される第３の計算モジュールと、を備える。

本開示の第５の態様によれば、電子デバイスを提供し、当該電子デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されるメモリと、を備え、メモリには、少なくとも１つのプロセッサによって実行可能な指令が記憶され、前記指令は、少なくとも１つのプロセッサが第１の態様又は第２の態様のいずれかの実現方法で説明された方法を実行できるように、少なくとも１つのプロセッサによって実行される。

本開示の第６の態様によれば、コンピュータに第１の態様又は第２の態様のいずれかの実現方法で説明された方法を実行させるために使用されるコンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体を提供する。

本開示の第７の態様によれば、プロセッサによって実行されると、第１の態様又は第２の態様のいずれかの実現方法で説明された方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本明細書で説明された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するためにも使用されないことを理解すべきである。本開示の他の特徴は、以下の説明により容易に理解され得る。

図面は、本スキームをよりよく理解するために使用され、本開示を限定するものではない。

本開示が適用され得る例示的なシステムアーキテクチャ図である。本開示による検索データベースを構築するための方法の一実施例のフローチャートである。本開示による検索データベースを構築するための方法の別の実施例のフローチャートである。図３に示される検索データベースを構築するための方法の訓練ステップの分解フローチャートである。本開示による検索方法の一実施例のフローチャートである。本開示による検索データベースを構築するための装置の一実施例の構造概略図である。本開示による検索装置の一実施例の構造概略図である。本開示の実施例に係る検索データベースを構築するための方法を実現するために使用される電子デバイスのブロック図である。

以下、本開示の例示的な実施例について、図面を参照して説明し、それには、理解を容易にするために本開示の実施例の様々な詳細が含まれており、それらが単なる例示的であると見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例の様々な変更及び修正を行うことができることを認識すべきである。同様に、明確かつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

なお、矛盾しない場合は、本開示の実施例及び実施例の特徴は、互いに組み合わせることができる。以下、図面を参照し、実施例と併せて本開示を詳細に説明する。

図１は、本開示の検索データベースを構築するための方法又は検索データベースを構築するための装置を適用できる実施例の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクの媒体を提供するために使用される。ネットワーク１０４は、有線、無線通信リンク又は光ファイバケーブルなどの様々な接続タイプを含み得る。

ユーザは、端末装置１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５と対話して情報などを受信又は送信することができる。端末装置１０１、１０２、１０３には、様々なクライアントアプリケーションがインストールされてもよい。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない様々な電子デバイスであってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記電子デバイスにインストールされてもよい。それは、複数のソフトウェア又はソフトウェアモジュールとして実現されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に制限はない。

サーバ１０５は、様々なサービスを提供することができる。例えば、サーバ１０５は、端末装置１０１、１０２、１０３から取得したデータセットを分析及び処理し、処理結果（例えば、データセットに対応するコードブック）を生成することができる。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバで構成される分散サーバクラスタとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ１０５がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するために使用される）として実現されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に制限はない。

なお、本開示の実施例が提供する検索データベースを構築するための方法は、一般にサーバ１０５によって実行され、それに応じて、検索データベースを構築するための装置は、一般にサーバ１０５に設置される。

図１の端末装置、ネットワーク及びサーバの数は、単なる例示的であることを理解すべきである。実現のニーズに応じて、任意の数の端末装置、ネットワーク及びサーバを有することができる。

図２を参照し続けると、図２は、本開示による検索データベースを構築するための方法の一実施例のフロー２００を示す。当該検索データベースを構築するための方法は、以下のステップを含む。

ステップ２０１：データセットを取得し、データセットを第１のデータセットと第２のデータセットに分割する。

本実施例では、検索データベースを構築するための方法の実行本体（例えば、図１に示されるサーバ１０５）は、データセットを取得することができる。当該データセットは、様々な方法で取得された元のデータを含み得、元のデータ内のデータは、画像、ビデオ及び／又はオーディオなどであってもよく、次に、各元のデータの特徴を抽出して、元のデータセットに対応する特徴セット、すなわち上記データセットを得る。データセット内のデータ量は、一般に千億又は兆のレベルに達する可能性があり、そのうちの各データは、一般に多次元である。

上記実行本体は、データセットを取得した後、データセットを第１のデータセットと第２のデータセットに分割し、例えば、任意の時点でデータセットをサンプリングすることにより、第１のデータセットを得、次に、第１のデータセットを除くデータセットの一部を第２のデータセットとして使用することができる。なお、第１のデータセット内のデータ量は、第２のデータセット内のデータ量よりもはるかに少なく、例えば、データセット内のデータ量が１億の場合、第１のデータセット内のデータ量は、５００万になる可能性がある。

ステップ２０２：第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得る。

本実施例では、上記実行本体は、クラスタリングアルゴリズムを利用して、第１のデータセット内のデータをクラスタリングして少なくとも１つの一次クラスタリングセンターを得ることができる。クラスタリングアルゴリズムとは、ラベル付けされていない大量のデータをいくつかのカテゴリに自動的に分割する方法を指し、教師なし学習法に属し、それは、サンプル間の距離又は類似性（親和性）に基づいて、似ているほど、差異が小さいサンプルを１つのクラス（クラスター）にグループ化し、最後に、複数のクラスターを形成し、各クラスターのセンター、すなわちクラスタリングセンターを得ることができ、得られたクラスタリングセンターは、そのカバー範囲内のすべてのデータに関連しており、すべてのデータの平均ベクトルである。クラスタリングセンターのベクトルは、その下のデータ分布を完全に説明することができ、異なるクラスタリングセンター間にはある程度の差別がある。

オプションで、Ｋ－Ｍｅａｎｓ（Ｋ平均）クラスタリングアルゴリズムを使用して、第１のデータセット内のデータをクラスタリングすることにより、対応する一次部分空間及び対応する少なくとも１つの一次クラスタリングセンターを得ることができる。具体的には、まず、Ｋ値、すなわち希望するクラスターの数を設定し、次に、第１のデータセットからセントロイド（クラスタリングセンター）としてＫ個のデータポイントをランダムに選択し、次に、第１のデータセットの各点について、その点と各セントロイドとの間の距離（ユークリッド距離など）を計算し、あるセントロイドに近いものを、当該セントロイドが属するセットに分割する。すべてのデータをセットにグループ化した後、合計Ｋ個のセットがあり、次に、各セットのセントロイドを再計算し、新しく計算されたセントロイドと元のセントロイドとの間の距離が設定された特定のしきい値よりも小さい場合（再計算されたセントロイドの位置があまり変化せず、安定又は収束する傾向があることを示す）、クラスタリングが所望の結果に達すると見なされ得、アルゴリズムは、終了するが、新しいセントロイドと元のセントロイドとの間の距離が大きく変化する場合、安定するまで、上記ステップを反復する必要がある。もちろん、第１のデータセット内のデータをクラスタリングするために、他のクラスタリングアルゴリズムも選択することができ、本開示はこれを具体的に限定しない。

一次部分空間内のデータが後で再度グループ化されるため、本ステップでは、一次部分空間内のデータを細かく分割する必要はなく、異なる一次クラスタリングセンターに、ある程度の差別があることを確保すればよい。

ステップ２０３：一次クラスタリングセンターに基づいて、第１のデータセット内のデータをクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得る。

本実施例では、上記実行本体は、ステップ２０２で得られた一次クラスタリングセンターに基づいて、第１のデータセット内のデータを再びクラスタリングして、対応する二次部分空間及び少なくとも１つの対応する二次クラスタリングセンターを得ることができる。ここで、二次部分空間内のデータ分布と一次部分空間内のデータ分布は、似ており、二次クラスタリングセンターの複数のサブセットは、各部分空間を正確に説明することができる。

一例として、第１のデータセット内の第１のデータとそれに最も近い一次クラスタリングセンターとの間の残差ベクトルを計算して、各第１のデータに対応する残差ベクトルを得ることができ、上記各第１のデータに対応する残差ベクトルは、残差ベクトル空間を構成し、残差ベクトル空間は、データとクラスタリングセンターの相対的な位置分布を説明する。次に、Ｋ－Ｍｅａｎｓクラスタリングアルゴリズムを使用して当該残差ベクトル空間をクラスタリングして、新しい空間内のデータ分布を説明し、それにより少なくとも１つの対応する二次クラスタリングセンターを得る。

なお、一次部分空間内では、同じクラスタリングセンターに属するデータは、二次部分空間で任意のクラスタリングセンターに属することができ、二次部分空間内で同じクラスタリングセンターに属する残差ベクトルは、異なる一次部分空間のクラスタリングセンターに由来する可能性がある。一次部分空間と二次部分空間では、いずれも同じクラスタリングセンターに属するデータは、高度に類似していると見なされる。

例えば、データ量が４億のデータセットで、一次部分空間Ａの数が５０００である場合、各部分空間のサンプルの平均総数は、約８００００であり、二次部分空間Ｂは、５０００の部分空間に分割されると仮定する。Ａの部分空間
の場合、その下のすべてのサンプルは、
に属することができ、
は、
のサブセットであり、各サンプルはいずれも、クラスタリングセンターペア、すなわち
で識別することができる。このとき、訓練コストは、２＊５０００のクラスタリングセンターであり、
に比べて、コストは、大幅に削減される。また、クラスタリングセンターを階層化することにより、データベース構築プロセスにおける計算量を削減することができるため、データベース構築の効率と検索の効率を向上させることができる。

ステップ２０４：第１のデータセット内のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応するコードブックを得る。

本実施例では、上記実行本体は、第１のデータセット内のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応するコードブックを得ることができる。一例として、第１のデータセット内の第１のデータが属する一次クラスタリングセンター及び二次クラスタリングセンターを計算し、次に、第１のデータセット内の第１のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差を計算することにより、新しい特徴空間（残差ベクトル空間）を得ることができ、次に、この新しい特徴空間内でそれを量子化し、新しい特徴空間内での特徴の値の範囲が大幅に縮小するため、量子化損失も大幅に削減することができる。

オプションで、量子化方法は、ＰＱ量子化（ＰｒｏｄｕｃｔＱｕａｎｔｉｚａｔｉｏｎ、積量子化）であってもよく、ＰＱ量子化は、古典的なＡＮＮアルゴリズムに属し、ＰＱ量子化は、記憶量を削減し、計算量を削減し、計算量を削減することができる。新しい特徴空間に対してＰＱ量子化を実行して、第１のデータセットに対応するコードブックを得ることができる。ＰＱ量子化を使用する場合、通常は４分の１量子化が使用される。

ステップ２０５：第１のデータセットに対応するコードブックに基づいて、第２のデータセットを訓練して、データセットに対応するコードブックを得る。

本実施例では、上記実行本体は、第１のデータセットに対応するコードブックに基づいて、第２のデータセットを訓練して、データセットに対応するコードブックを得ることができる。すなわち、上記実行本体は、第１のデータセットに対応するコードブックにおけるクラスタリングセンターのＩＤ（ＩｄｅｎｔｉｔｙＤｏｃｕｍｅｎｔ、識別番号）で第２のデータセット内の特徴ベクトルを識別することができるため、検索プロセス中に、元の特徴ベクトルをロードする必要はないため、検索プロセス中に必要なメモリを削減することができる。

本開示の実施例が提供する検索データベースを構築するための方法では、まず、データセットを取得し、データセットを第１のデータセットと第２のデータセットに分割し、次に、第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得、次に、一次クラスタリングセンターに基づいて第１のデータセット内のデータをクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得、そして、第１のデータセット内のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応するコードブックを得、最後に、第１のデータセットに対応するコードブックに基づいて第２のデータセットを訓練して、データセットに対応するコードブックを得る。本実施例における検索データベースを構築するための方法は、反転インデックス法に属し、当該方法は、特徴ベクトル空間を空間的に分割することにより、訓練時間を短縮することができ、それにより、得られたクラスタリングセンターは、データ分布をよりよく説明することができ、さらに、新しい特徴空間を量子化することにより、量子化損失を削減することができ、検索プロセス中に必要なメモリを削減することができ、また、当該方法は、複数のデータベース構築モードをサポートし、リアルタイム／日／週／月レベルのインデックス更新をサポートするため、再現率が高く、スループットが高く、レイテンシーが低く、メモリが低い基本的な検索能力を提供することができる。

本開示の技術的解決手段では、関連するユーザの個人情報の収集、記憶、使用、加工、送信、提供及び開示などの処理はいずれも、関連する法律と法規の規定に適合しており、公序良俗に違反しない。

図３を参照し続けると、図３は、本開示による検索データベースを構築するための方法の別の実施例のフロー３００を示す。当該検索データベースを構築するための方法は、以下のステップを含む。

ステップ３０１：データセットを取得し、データセットを第１のデータセットと第２のデータセットに分割する。

ステップ３０２：第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得る。

ステップ３０１～３０２は、基本的に前述の実施例のステップ２０１～２０２と同じであり、具体的な実現方法については、ステップ２０１～２０２の前述の説明を参照することができ、ここでは繰り返さない。

ステップ３０３：第１のデータセット内での各第１のデータについて、第１のデータに最も近い一次クラスタリングセンターの残差を計算して、第１のデータセットに対応する第１の残差ベクトル空間を得る。

本実施例では、第１のデータセット内での各第１のデータについて、検索データベースを構築するための方法の実行本体（例えば、図１に示されるサーバ１０５）は、それに最も近い一次クラスタリングセンターの残差を計算することができるため、第１のデータセットに対応する第１の残差ベクトル空間を得ることができ、当該残差ベクトル空間は、データとクラスタリングセンターの相対的な位置分布を説明する。ここで、それに最も近い一次クラスタリングセンターは、距離計算結果によって決定することができる。

ステップ３０４：第１の残差ベクトル空間をクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得る。

本実施例では、上記実行本体は、ステップ３０３で得られた第１の残差ベクトル空間をクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得ることができる。具体的には、Ｋ－Ｍｅａｎｓクラスタリングアルゴリズムを採用して第１の残差ベクトル空間をクラスタリングすることができる。一次クラスタリングセンターと二次クラスタリングセンターは、データ空間全体を複数の部分空間に分割し、すべての一次クラスタリングセンターは、二次クラスタリングセンターを共有する。

第１のデータセット内のデータをクラスタリングすることにより、一次クラスタリングセンター及び二次クラスタリングセンターを得ることができるため、大規模なデータセットをより細かく空間的に分割することができ、クラスタリングセンターのベクトルは、その下のすべてのデータをよりよく表すことができ、さらにデータの分布状況をよりよく説明することができる。

ステップ３０５：第１のデータセット内での各第１のデータについて、第１のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応する第２の残差ベクトル空間を得る。

本実施例では、第１のデータセット内での各第１のデータについて、上記実行本体は、各第１のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応する第２の残差ベクトル空間を得ることができる。例えば、対応する第２の残差ベクトル空間を得るために、各第１のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差を計算することができる。

ステップ３０６：第２の残差ベクトル空間を量子化して、第１のデータセットに対応するコードブックを得る。

本実施例では、上記実行本体は、ステップ３０５で得られた第２の残差ベクトル空間を量子化して、第１のデータセットに対応するコードブックを得ることができる。オプションで、量子化方法は、ＰＱ量子化であってもよく、通常は、４分の１量子化を使用し、ＰＱ量子化損失は、各特徴次元内で特徴値とクラスタリングセンターの差値として表され、サンプル特徴は各次元の値の範囲が大きい場合、それを示すために固定数のクラスタリングセンターを使用すると、量子化損失の増加を必然的にもたらすため、本ステップでは、第２の残差ベクトル空間を量子化するため、特徴の値の範囲を縮小することができ、さらに量子化損失を縮小することができる。ＰＱ量子化は、記憶量を削減し、計算量を削減し、計算量を削減することができる。

本実施例のいくつかのオプションの実施形態では、ステップ３０６は、第２の残差ベクトル空間を第１のプリセット数の部分空間に分割することと、第１のプリセット数の部分空間内での各部分空間をそれぞれクラスタリングして、第２のプリセット数の空間クラスタリングセンターを得ることと、空間クラスタリングセンターの識別番号ＩＤをそれぞれマーキングして、各部分空間のコードブックを得ることと、各部分空間のコードブックを直積して、第１のデータセットに対応するコードブックを得ることと、を含む。ここで、第１のプリセット数と第２のプリセット数は、実際の状況に応じて設定されてもよく、本開示はこれを具体的に限定しない。

具体的には、Ｎ個の訓練サンプルがあり、各サンプルの次元Ｄが６４であると仮定する。各サンプルをＭ＝８セグメントに分割し、各セグメントをＫ＝２５６クラスにクラスタリングして、Ｍ＊Ｋ個のクラスタリングセンターを得、各クラスタリングセンターの次元は、Ｄ／Ｍであり、これらのクラスタリングセンターは、コードブックと呼ばれ、訓練してコードブックを得、それを保存する。各サブセグメントＭについて、Ｋ個のクラスタリングセンターから最も近いクラスタリングセンターＵ（Ｍ）を見つける。各クラスの対応するサブクラスのラベルリストを記憶する。このように訓練が完了すると、Ｎ個のサンプルに対して、最後に、Ｋ＊Ｍ個のクラスタリングセンターとＮ＊Ｍ個のサンプルに対応するクラスタリングセンターのラベルのみが保存されるため、データの記憶メモリを大幅に削減し、計算量及び計算量を削減することができる。

ステップ３０７：第１のデータセットに対応するコードブックに基づいて、第２のデータセットを訓練して、データセットに対応するコードブックを得る。

ステップ３０７は、前述の実施例のステップ２０５と基本的に同じであり、具体的な実現方法については、ステップ２０５の前述の説明を参照することができ、ここでは繰り返さない。

図３から分かるように、図２に対応する実施例と比較して、本実施例における検索データベースを構築するための方法は、二次クラスタリングセンターを得、第１のデータセットに対応するコードブックを得るプロセスを強調するため、データセットをより細かく空間的に分割するため、検索のレイテンシーを減少させ、検索の再現率を向上させ、メモリを節約することができる。

図４を参照し続けると、図４は、図３に示される検索データベースを構築するための方法の訓練ステップの分解フロー４００を示す。当該訓練ステップは、次のように分解される。

ステップ４０１：第２のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の距離を計算する。

本実施例では、前記第２のデータセット内での各第２のデータについて、各第２のデータと各一次クラスタリングセンター及び各二次クラスタリングセンターとの間の距離を計算し、ここで、当該距離は、ユークリッド距離（Ｌ２距離）又はコサイン距離（ＣＯＳ距離）であってもよく、ユークリッド距離又はコサイン距離の計算方法は、従来技術であるため、ここでは繰り返さない。

本実施例のいくつかのオプションの実施形態では、ステップ４０１は、第２のデータと一次クラスタリングセンターとの間の第１の距離を計算することと、一次クラスタリングセンターと二次クラスタリングセンターとの間の第２の距離と第１の距離との間が三角不等式を満たしていないことに応答して、剪定操作を実行することと、を含む。

本実施例では、Ｌ２／ＣＯＳ距離空間の場合、任意の３点は、三角不等式を満たし、第２のデータと一次クラスタリングセンターとの間の第１の距離を計算した後、一次クラスタリングセンターと二次クラスタリングセンターとの間の距離が既知であるため、三角不等式に従って剪定操作を実行することができ、すなわち、三角不等式に従って、第２のデータと各部分空間の上限を予測することができ、すべての部分空間を特定の規則従ってソートすることができ、距離の上限に従って剪定することができるため、総合計算量を大幅に削減することができる。三角不等式は、次の形式で表すことができる。

ここで、
は、空間内の任意の３点、すなわち上記の第２のデータ、一次クラスタリングセンター及び二次クラスタリングセンターを表し、ｄは、任意の２点間の距離を表す。

１，０００万個のＳＩＦＴ１Ｂデータセットで検証された当該剪定は、ベクトル計算の９４％をカットすることができるため、データベースの構築時間を大幅に短縮することができる。さらに、当該剪定方法は、訓練と検索プロセス中に任意のサンプルと部分空間との間の距離を計算する必要があるプロセスで再利用することができる。

本実施例のいくつかのオプションの実施形態では、ステップ４０１は、一次クラスタリングセンターと二次クラスタリングセンターとの間の第２の距離と第１の距離との間が三角不等式を満たしていることに応答して、第２のデータと二次クラスタリングセンターとの間の距離を計算することをさらに含む。すなわち、一次クラスタリングセンターと二次クラスタリングセンターとの間の第２の距離と第１の距離との間が三角不等式を満たしている場合にのみ、第２のデータと二次クラスタリングセンターとの間の距離を計算することができる。第１の距離と第２の距離が三角不等式を満たしているかどうかを判断することにより、計算量を削減することができる。

ステップ４０２：計算結果に基づいて、第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターを決定する。

本実施例では、ステップ４０１の計算結果に基づいて、第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターを決定する。ステップ４０１の計算結果が小さいほど距離が近いため、最も近い一次クラスタリングセンター及び二次クラスタリングセンターを決定することができる。

ステップ４０３：第２のデータセット内での各第２のデータについて、第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、各第２のデータに対応する残差ベクトルを得る。

本実施例では、第２のデータセット内での各第２のデータについて、第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターを決定した後、第２のデータとそれに最も近い一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差を計算することができるため、各第２のデータに対応する残差ベクトルを得ることができる。

ステップ４０４：残差ベクトルを第１のプリセット数の部分空間に分割する。

本実施例では、ステップ４０３で得られた残差ベクトルを第１のプリセット数の部分空間に分割することができ、ここで、第１のプリセット数は、実際の状況に応じて設定されてもよい。

ステップ４０５：第１のプリセット数の部分空間内での各部分空間について、部分空間内の残差ベクトルと部分空間内の空間クラスタリングセンターとの間の距離を計算する。

本実施例では、第１のプリセット数の部分空間内での各部分空間について、各部分空間内の残差ベクトルと部分空間内の空間クラスタリングセンターとの間の距離を計算することができるため、当該部分空間内の残差ベクトルに最も近い空間クラスタリングセンターを決定し、当該クラスタリングセンターのＩＤを記録することができる。

ステップ４０６：部分空間内の残差ベクトルに最も近い空間クラスタリングセンターのＩＤで第２のデータセット内での各第２のデータをマーキングして、データセットに対応するコードブックを得る。

本実施例では、ステップ４０５で決定された部分空間内の残差ベクトルに最も近い空間クラスタリングセンターのＩＤで第２のデータセット内での各第２のデータをマーキングすることができるため、データセットに対応するコードブックを得ることができる。

図４からわかるように、当該訓練方法では、第１のデータセット内での各クラスタリングセンターの識別子で第２のデータセット内での第２のデータをマーキングすることができるため、検索プロセス中に、元の特徴ベクトルをロードする必要はないため、検索プロセスに必要なメモリを大幅に削減することができる。

図５を参照し続けると、図５は、本開示による検索方法の一実施例のフロー５００を示す。当該検索方法は、以下のステップを含む。

ステップ５０１：被検索データを取得する。

本実施例では、検索方法の実行本体（例えば、図１に示されるサーバ１０５）は、被検索データを取得することができる。ここで、被検索データは、画像、ビデオ及び／又はオーディオであってもよい。オプションで、上記実行本体は、被検索データを取得した後、よりよく検索するために、被検索データの特徴を抽出し、抽出された特徴を正規化処理する。

ステップ５０２：被検索データと検索データベース内の一次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第３のプリセット数の一次クラスタリングセンターを得る。

本実施例では、上記実行本体は、被検索データと検索データベース内での各一次クラスタリングセンターとの間の距離を計算し、計算結果に基づいて、昇順でソートするなどを実行することができるため、プリセット条件を満たしている第３のプリセット数の一次クラスタリングセンターを得ることができ、ここで、第３のプリセット数は、実際の状況に応じて設定されてもよく、例えば、第３のプリセット数を１０に設定し、すなわち、昇順ソートの結果に従って、１０個の最も近い一次クラスタリングセンターを選択し、選択されなかった部分空間は後続の検索プロセスでアクセスされないため、計算量を削減し、時間を削減することができる。ここで、検索データベースは、前述の実施例における方法で得られる。

ステップ５０３：被検索データと第３のプリセット数の一次クラスタリングセンターにおける各一次クラスタリングセンターの下の二次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第４のプリセット数の二次クラスタリングセンターを得る。

本実施例では、被検索データに最も近い第３のプリセット数の一次クラスタリングセンターを決定した後、上記実行本体は、被検索データと第３のプリセット数の一次クラスタリングセンターにおける各一次クラスタリングセンターの下の二次クラスタリングセンターとの間の距離を計算し、計算結果実を昇順でソートするなどを実行することができるため、プリセット条件を満たしている第４のプリセット数の二次クラスタリングセンターを得ることができ、例えば、第４のプリセット数を２０に設定し、すなわち、昇順ソートの結果に従って、最も近い２０個の二次クラスタリングセンターを選択し、一次クラスタリングセンターの数が１０である場合、この時点で合計１０＊２０＝２００個の二次クラスタリングセンターが得られる。

ステップ５０４：検索データベース内のデータセットに対応するコードブックに基づいて、第４のプリセット数の二次クラスタリングセンターにおける各二次クラスタリングセンターに対応するサンプルデータを順次取得する。

本実施例では、上記実行本体は、検索データベース構築する際に得られたデータセットに対応するコードブックに基づいて、優先度付きキューで、最も近い二次クラスタリングセンターから開始し、対応するサンプルデータを順次取り出すことができる。

ステップ５０５：被検索データとサンプルデータとの間の距離を計算し、計算結果に基づいて、第５のプリセット数のサンプルデータを返す。

本実施例では、上記実行本体は、被検索データとステップ５０４で取り出されたサンプルデータとの間の距離を計算し、計算結果をソートして、第５のプリセット数のサンプルデータを返すことができる。第５のプリセット数は、実際の状況に応じて設定されてもよく、第５のプリセット数を２００に設定すると仮定すると、上記実行本体は、ソート結果に基づいて、被検索データに最も近い最初の２００個のサンプルデータを返す。

本開示の実施例が提供する検索方法では、まず、被検索データを取得し、次に、被検索データと検索データベース内の一次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第３のプリセット数の一次クラスタリングセンターを得、次に、被検索データと第３のプリセット数の一次クラスタリングセンターにおける各一次クラスタリングセンターの下の二次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第４のプリセット数の二次クラスタリングセンターを得、検索データベース内のデータセットに対応するコードブックに基づいて、第４のプリセット数の二次クラスタリングセンターにおける各二次クラスタリングセンターに対応するサンプルデータを順次取得し、最後に、被検索データとサンプルデータとの間の距離を計算し、計算結果に基づいて、第５のプリセット数のサンプルデータを返す。本実施例における検索方法は、予め構築された検索データベースに基づいて検索することができるため、検索再現率を向上させ、検索レイテンシーを減少させることができるため、検索効率を向上させることができる。

さらに図６を参照すると、上記各図に示される方法の実現として、本開示は、検索データベースを構築するための装置の一実施例を提供し、当該装置の実施例は、図２に示される方法の実施例に対応し、当該装置は、具体的には、様々な電子デバイスに適用され得る。

図６に示すように、本実施例の検索データベースを構築するための装置６００は、第１の取得モジュール６０１、第１のクラスタリングモジュール６０２、第２のクラスタリングモジュール６０３、取得モジュール６０４及び訓練モジュール６０５を含む。ここで、第１の取得モジュール６０１は、データセットを取得し、データセットを第１のデータセットと第２のデータセットに分割するように構成され、ここで、第１のデータセット内のデータ量は、第２のデータセット内のデータ量よりも小さく、第１のクラスタリングモジュール６０２は、第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得るように構成され、第２のクラスタリングモジュール６０３は、一次クラスタリングセンターに基づいて第１のデータセット内のデータをクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得るように構成され、取得モジュール６０４は、第１のデータセット内のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応するコードブックを得るように構成され、訓練モジュール６０５は、第１のデータセットに対応するコードブックに基づいて、第２のデータセットを訓練して、データセットに対応するコードブックを得るように構成される。

本実施例では、検索データベースを構築するための装置６００において、第１の取得モジュール６０１、第１のクラスタリングモジュール６０２、第２のクラスタリングモジュール６０３、取得モジュール６０４及び訓練モジュール６０５の具体的な処理及びそれによる技術的効果については、図２の対応する実施例におけるステップ２０１～２０５の関連する説明をそれぞれ参照することができ、ここでは繰り返さない。

本実施例のいくつかのオプションの実現方法では、第２のクラスタリングモジュールは、第１のデータセット内での各第１のデータについて、第１のデータに最も近い一次クラスタリングセンターの残差を計算して、第１のデータセットに対応する第１の残差ベクトル空間を得るように構成される第１の計算サブモジュールと、第１の残差ベクトル空間をクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得るように構成されるクラスタリングサブモジュールと、を含む。

本実施例のいくつかのオプションの実現方法では、取得モジュールは、第１のデータセット内での各第１のデータについて、第１のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、第１のデータセットに対応する第２の残差ベクトル空間を得るように構成される第１の取得サブモジュールと、第２の残差ベクトル空間を量子化して、第１のデータセットに対応するコードブックを得るように構成される量子化サブモジュールと、を含む。

本実施例のいくつかのオプションの実現方法では、量子化サブモジュールは、第２の残差ベクトル空間を第１のプリセット数の部分空間に分割するように構成される分割ユニットと、第１のプリセット数の部分空間内での各部分空間をそれぞれクラスタリングして、第２のプリセット数の空間クラスタリングセンターを得るように構成されるクラスタリングユニットと、空間クラスタリングセンターの識別番号ＩＤをそれぞれマーキングして、各部分空間のコードブックを得るように構成されるマーキングユニットと、各部分空間のコードブックを直積して、第１のデータセットに対応するコードブックを得るように構成される直積ユニットと、を含む。

本実施例のいくつかのオプションの実現方法では、訓練モジュールは、第２のデータセット内での各第２のデータについて、第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、各第２のデータに対応する残差ベクトルを得るように構成される第２の取得サブモジュールと、残差ベクトルを第１のプリセット数の部分空間に分割するように構成される分割サブモジュールと、第１のプリセット数の部分空間内での各部分空間について、部分空間内の残差ベクトルと部分空間内の空間クラスタリングセンターとの間の距離を計算するように構成される第２の計算サブモジュールと、部分空間内の残差ベクトルに最も近い空間クラスタリングセンターのＩＤで第２のデータセット内での各第２のデータをマーキングして、データセットに対応するコードブックを得るように構成される第３の取得サブモジュールと、を含む。

本実施例のいくつかのオプションの実現方法では、訓練モジュールは、第２のデータと一次クラスタリングセンター及び二次クラスタリングセンターとの間の距離を計算するように構成される第３の計算サブモジュールと、第３の計算サブモジュールの計算結果に基づいて、第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターを決定するように構成される決定サブモジュールと、をさらに含む。

本実施例のいくつかのオプションの実現方法では、第３の計算サブモジュールは、第２のデータと一次クラスタリングセンターとの間の第１の距離を計算するように構成される第１の計算ユニットと、一次クラスタリングセンターと二次クラスタリングセンターとの間の第２の距離と第１の距離との間が三角不等式を満たしていないことに応答して、剪定操作を実行するように構成される剪定ユニットと、を含む。

本実施例のいくつかのオプションの実現方法では、第３の計算サブモジュールは、一次クラスタリングセンターと二次クラスタリングセンターとの間の第２の距離と第１の距離との間が三角不等式を満たしていることに応答して、第２のデータと二次クラスタリングセンターとの間の距離を計算するように構成される第２の計算ユニットをさらに含む。

さらに図７を参照すると、上記各図に示される方法の実現として、本開示は、検索装置の一実施例を提供し、当該装置の実施例は、図５に示される方法の実施例に対応し、当該装置は、具体的には、様々な電子デバイスに適用され得る。

図７に示すように、本実施例の検索装置７００は、第２の取得モジュール７０１、第１の計算モジュール７０２、第２の計算モジュール７０３、第３の取得モジュール７０４及び第３の計算モジュール７０５を含む。ここで、第２の取得モジュール７０１は、被検索データを取得するように構成され、第１の計算モジュール７０２は、被検索データと検索データベース内の一次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第３のプリセット数の一次クラスタリングセンターを得るように構成され、第２の計算モジュール７０３は、被検索データと第３のプリセット数の一次クラスタリングセンターにおける各一次クラスタリングセンターの下の二次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第４のプリセット数の二次クラスタリングセンターを得るように構成され、第３の取得モジュール７０４は、検索データベース内のデータセットに対応するコードブックに基づいて、第４のプリセット数の二次クラスタリングセンターにおける各二次クラスタリングセンターに対応するサンプルデータを順次取得するように構成され、第３の計算モジュール７０５は、被検索データとサンプルデータとの間の距離を計算し、計算結果に基づいて、第５のプリセット数のサンプルデータを返すように構成される。

本実施例では、検索装置７００において、第２の取得モジュール７０１、第１の計算モジュール７０２、第２の計算モジュール７０３、第３の取得モジュール７０４及び第３の計算モジュール７０５の具体的な処理及びそれによる技術的効果は、図５の対応する実施例におけるステップ５０１～５０５の関連する説明をそれぞれ参照することができ、ここでは繰り返さない。

本開示の実施例によれば、本開示はさらに、電子デバイス、可読記憶媒体及びコンピュータプログラム製品を提供する。

図８は、本開示の実施例を実施するために使用され得る例示的な電子デバイス８００の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的としている。電子デバイスは、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書で説明及び／又は要求される本開示の実現を限定することを意図するものではない。

図８に示すように、デバイス８００は、読み取り専用メモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム又は記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット８０１を含む。ＲＡＭ８０３には、デバイス８００の動作に必要な様々なプログラム及びデータも記憶されていてもよい。計算ユニット８０１、ＲＯＭ８０２及びＲＡＭ８０３は、バス８０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続されている。

デバイス８００における、キーボード、マウスなどの入力ユニット８０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット８０７と、磁気ディスク、光ディスクなどの記憶ユニット８０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット８０９と、を含む複数のコンポーネントは、Ｉ／Ｏインターフェース８０５に接続されている。通信ユニット８０９は、デバイス８００がインターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット８０１は、処理及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット８０１のいくつかの例は、セントラルプロセッシングユニット（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット８０１は、上述したそれぞれの方法及び処理、例えば、検索データベースを構築するための方法又は検索方法を実行する。例えば、いくつかの実施例では、検索データベースを構築するための方法又は検索方法は、記憶ユニット８０８などの機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ８０２及び／又は通信ユニット８０９を介してデバイス８００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ８０３にロードされて計算ユニット８０１によって実行されると、上述した検索データベースを構築するための方法又は検索方法の１つ又は複数のステップを実行することができる。あるいは、他の実施例では、計算ユニット８０１は、他の任意の適切な方法で（例えば、ファームウェアにより）検索データベースを構築するための方法又は検索方法を実行するように構成され得る。

本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈することが可能な１つ又は複数のコンピュータプログラムで実施されてもよく、当該プログラマブルプロセッサは、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置から、データ及び指令を受信し、データ及び指令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信することが可能な専用又は汎用プログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されることも、部分的に機械上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的に機械上で実行されながら部分的にリモート機械上で実行されることも、又は完全にリモート機械又はサーバ上で実行されることも可能である。

本開示の文脈において、機械可読媒体は、指令実行システム、装置又はデバイスによって使用される、又は指令実行システム、装置又はデバイスと組み合わせて使用されるためのプログラムを含む又は記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又はデバイス、又は上記の内容の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記の内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータ上で、ここで説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）と、を有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとの対話を提供するために使用されることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとして）、又はミドルウェアコンコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含む計算システム（例えば、ユーザがここで説明されるシステム及び技術の実施形態と対話するために使用され得るグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ）、又はこのようなバックエンドコンポーネント、ミドルウェアコンコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施されてもよい。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって互いに接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、を含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介して対話する。クライアントとサーバの関係は、対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバ、分散システムサーバ、又はブロックチェーンと組み合わせたサーバであってもよい。

上記に示される様々な形式のフローを使用して、ステップを再ソート、追加又は削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示に開示された技術的解決手段が所望の結果を実現することができる限り、本明細書では限定されない。

上記の具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などはいずれも、本開示の保護範囲内に含まれなければならない。

Claims

データセットを取得し、前記データセットを第１のデータセットと第２のデータセットとに分割するステップであって、前記第１のデータセット内のデータ量は、前記第２のデータセット内のデータ量よりも小さいステップと、
前記第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得るステップと、
前記一次クラスタリングセンターに基づいて前記第１のデータセット内のデータをクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得るステップと、
前記第１のデータセット内のデータと前記一次クラスタリングセンター及び前記二次クラスタリングセンターとの間の残差に基づいて、前記第１のデータセットに対応するコードブックを得るステップと、
前記第１のデータセットに対応するコードブックに基づいて、前記第２のデータセットを訓練して前記データセットに対応するコードブックを得るステップと、
を含む、検索データベースを構築するための方法。
前記前記一次クラスタリングセンターに基づいて前記第１のデータセット内のデータをクラスタリングして少なくとも１つの対応する二次クラスタリングセンターを得るステップは、
前記第１のデータセット内での各第１のデータについて、前記第１のデータに最も近い一次クラスタリングセンターの残差を計算して、前記第１のデータセットに対応する第１の残差ベクトル空間を得るステップと、
前記第１の残差ベクトル空間をクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得るステップと、
を含む、請求項１に記載の方法。
前記前記第１のデータセット内のデータと前記一次クラスタリングセンター及び前記二次クラスタリングセンターとの間の残差に基づいて前記第１のデータセットに対応するコードブックを得るステップは、
前記第１のデータセット内での各第１のデータについて、前記第１のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、前記第１のデータセットに対応する第２の残差ベクトル空間を得るステップと、
前記第２の残差ベクトル空間を量子化して、前記第１のデータセットに対応するコードブックを得るステップと、
を含む、請求項１又は２に記載の方法。
前記前記第２の残差ベクトル空間を量子化して前記第１のデータセットに対応するコードブックを得るステップは、
前記第２の残差ベクトル空間を第１のプリセット数の部分空間に分割するステップと、
前記第１のプリセット数の部分空間内での各部分空間をそれぞれクラスタリングして、第２のプリセット数の空間クラスタリングセンターを得るステップと、
前記空間クラスタリングセンターの識別番号ＩＤをそれぞれマーキングして、各部分空間のコードブックを得るステップと、
前記各部分空間のコードブックを直積して、前記第１のデータセットに対応するコードブックを得るステップと、
を含む、請求項３に記載の方法。
前記前記第１のデータセットに対応するコードブックに基づいて前記第２のデータセットを訓練して前記データセットに対応するコードブックを得るステップは、
前記第２のデータセット内での各第２のデータについて、前記第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、各第２のデータに対応する残差ベクトルを得るステップと、
前記残差ベクトルを第１のプリセット数の部分空間に分割するステップと、
前記第１のプリセット数の部分空間内での各部分空間について、前記部分空間内の残差ベクトルと前記部分空間内の空間クラスタリングセンターとの間の距離を計算するステップと、
前記部分空間内の残差ベクトルに最も近い空間クラスタリングセンターのＩＤで前記第２のデータセット内での各第２のデータをマーキングして、前記データセットに対応するコードブックを得るステップと、
を含む、請求項４に記載の方法。
前記前記第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、各第２のデータに対応する残差ベクトルを得る前に、前記方法は、
前記第２のデータと前記一次クラスタリングセンター及び前記二次クラスタリングセンターとの間の距離を計算するステップと、
計算結果に基づいて、前記第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターを決定するステップと、
をさらに含む、請求項５に記載の方法。
前記前記第２のデータと前記一次クラスタリングセンター及び前記二次クラスタリングセンターとの間の距離を計算するステップは、
前記第２のデータと前記一次クラスタリングセンターとの間の第１の距離を計算するステップと、
前記一次クラスタリングセンターと前記二次クラスタリングセンターとの間の第２の距離と前記第１の距離との間が三角不等式を満たしていないことに応答して、剪定操作を実行するステップと、
を含む、請求項６に記載の方法。
前記前記第２のデータと前記一次クラスタリングセンター及び前記二次クラスタリングセンターとの間の距離を計算するステップは、
前記一次クラスタリングセンターと前記二次クラスタリングセンターとの間の第２の距離と前記第１の距離との間が三角不等式を満たしていることに応答して、前記第２のデータと前記二次クラスタリングセンターとの間の距離を計算するステップ
をさらに含む、請求項７に記載の方法。
被検索データを取得するステップと、
前記被検索データと検索データベース内の一次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第３のプリセット数の一次クラスタリングセンターを得るステップであって、前記検索データベースは、請求項１～８のいずれか一項に記載の方法で得られるステップと、
前記被検索データと前記第３のプリセット数の一次クラスタリングセンターにおける各一次クラスタリングセンターの下の二次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第４のプリセット数の二次クラスタリングセンターを得るステップと、
前記検索データベース内の前記データセットに対応するコードブックに基づいて、前記第４のプリセット数の二次クラスタリングセンターにおける各二次クラスタリングセンターに対応するサンプルデータを順次取得するステップと、
前記被検索データと前記サンプルデータとの間の距離を計算し、計算結果に基づいて、第５のプリセット数のサンプルデータを返すステップと、
を含む、検索方法。
データセットを取得し、前記データセットを第１のデータセットと第２のデータセットとに分割するように構成される第１の取得モジュールであって、前記第１のデータセット内のデータ量は、前記第２のデータセット内のデータ量よりも小さい第１の取得モジュールと、
前記第１のデータセット内のデータをクラスタリングして、少なくとも１つの一次クラスタリングセンターを得るように構成される第１のクラスタリングモジュールと、
前記一次クラスタリングセンターに基づいて前記第１のデータセット内のデータをクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得るように構成される第２のクラスタリングモジュールと、
前記第１のデータセット内のデータと前記一次クラスタリングセンター及び前記二次クラスタリングセンターとの間の残差に基づいて、前記第１のデータセットに対応するコードブックを得るように構成される取得モジュールと、
前記第１のデータセットに対応するコードブックに基づいて、前記第２のデータセットを訓練して前記データセットに対応するコードブックを得るように構成される訓練モジュールと、
を備える、検索データベースを構築するための装置。
前記第２のクラスタリングモジュールは、
前記第１のデータセット内での各第１のデータについて、前記第１のデータに最も近い一次クラスタリングセンターの残差を計算して、前記第１のデータセットに対応する第１の残差ベクトル空間を得るように構成される第１の計算サブモジュールと、
前記第１の残差ベクトル空間をクラスタリングして、少なくとも１つの対応する二次クラスタリングセンターを得るように構成されるクラスタリングサブモジュールと、
を備える、請求項１０に記載の装置。
前記取得モジュールは、
前記第１のデータセット内での各第１のデータについて、前記第１のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、前記第１のデータセットに対応する第２の残差ベクトル空間を得るように構成される第１の取得サブモジュールと、
前記第２の残差ベクトル空間を量子化して、前記第１のデータセットに対応するコードブックを得るように構成される量子化サブモジュールと、
を備える、請求項１０又は１１に記載の装置。
前記量子化サブモジュールは、
前記第２の残差ベクトル空間を第１のプリセット数の部分空間に分割するように構成される分割ユニットと、
前記第１のプリセット数の部分空間内での各部分空間をそれぞれクラスタリングして、第２のプリセット数の空間クラスタリングセンターを得るように構成されるクラスタリングユニットと、
前記空間クラスタリングセンターの識別番号ＩＤをそれぞれマーキングして、各部分空間のコードブックを得るように構成されるマーキングユニットと、
前記各部分空間のコードブックを直積して、前記第１のデータセットに対応するコードブックを得るように構成される直積ユニットと、
を備える、請求項１２に記載の装置。
前記訓練モジュールは、
前記第２のデータセット内での各第２のデータについて、前記第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターとの間の残差に基づいて、各第２のデータに対応する残差ベクトルを得るように構成される第２の取得サブモジュールと、
前記残差ベクトルを第１のプリセット数の部分空間に分割するように構成される分割サブモジュールと、
前記第１のプリセット数の部分空間内での各部分空間について、前記部分空間内の残差ベクトルと前記部分空間内の空間クラスタリングセンターとの間の距離を計算するように構成される第２の計算サブモジュールと、
前記部分空間内の残差ベクトルに最も近い空間クラスタリングセンターのＩＤで前記第２のデータセット内での各第２のデータをマーキングして、前記データセットに対応するコードブックを得るように構成される第３の取得サブモジュールと、
を備える、請求項１３に記載の装置。
前記訓練モジュールは、
前記第２のデータと前記一次クラスタリングセンター及び前記二次クラスタリングセンターとの間の距離を計算するように構成される第３の計算サブモジュールと、
前記第３の計算サブモジュールの計算結果に基づいて前記第２のデータに最も近い一次クラスタリングセンターと二次クラスタリングセンターを決定するように構成される決定サブモジュールと、
をさらに備える、請求項１４に記載の装置。
前記第３の計算サブモジュールは、
前記第２のデータと前記一次クラスタリングセンターとの間の第１の距離を計算するように構成される第１の計算ユニットと、
前記一次クラスタリングセンターと前記二次クラスタリングセンターとの間の第２の距離と前記第１の距離との間が三角不等式を満たしていないことに応答して、剪定操作を実行するように構成される剪定ユニットと、
を備える、請求項１５に記載の装置。
前記第３の計算サブモジュールは、
前記一次クラスタリングセンターと前記二次クラスタリングセンターとの間の第２の距離と前記第１の距離との間が三角不等式を満たしていることに応答して、前記第２のデータと前記二次クラスタリングセンターとの間の距離を計算するように構成される第２の計算ユニットをさらに備える、請求項１６に記載の装置。
被検索データを取得するように構成される第２の取得モジュールと、
前記被検索データと検索データベース内の一次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第３のプリセット数の一次クラスタリングセンターを得るように構成される第１の計算モジュールであって、前記検索データベースは、請求項１～８のいずれか一項に記載の方法で得られる第１の計算モジュールと、
前記被検索データと前記第３のプリセット数の一次クラスタリングセンターにおける各一次クラスタリングセンターの下の二次クラスタリングセンターとの間の距離を計算して、プリセット条件を満たしている第４のプリセット数の二次クラスタリングセンターを得るように構成される第２の計算モジュールと、
前記検索データベース内のデータセットに対応するコードブックに基づいて、前記第４のプリセット数の二次クラスタリングセンターにおける各二次クラスタリングセンターに対応するサンプルデータを順次取得するように構成される第３の取得モジュールと、
前記被検索データと前記サンプルデータとの間の距離を計算し、計算結果に基づいて、第５のプリセット数のサンプルデータを返すように構成される第３の計算モジュールと、
を備える、検索装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を備える電子デバイスであって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が記憶され、前記指令は、前記少なくとも１つのプロセッサが請求項１～９のいずれか一項に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子デバイス。
コンピュータに請求項１～９のいずれか一項に記載の方法を実行させるためのコンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～９のいずれか一項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。