CN116701746A - 查询感知量化方法 - Google Patents
查询感知量化方法 Download PDFInfo
- Publication number
- CN116701746A CN116701746A CN202210173007.8A CN202210173007A CN116701746A CN 116701746 A CN116701746 A CN 116701746A CN 202210173007 A CN202210173007 A CN 202210173007A CN 116701746 A CN116701746 A CN 116701746A
- Authority
- CN
- China
- Prior art keywords
- codebook
- sample
- vector
- dimension
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013139 quantization Methods 0.000 title claims abstract description 17
- 230000008447 perception Effects 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种查询感知量化方法,包括步骤1、从数据集中随机选择K个样本点,按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c,维度为Kd维;步骤2、在留出集中均匀采样若干个数据点作为样品集;步骤3、利用码本为每个数据点进行编码;步骤4、基于步骤3中得到的编码,更新码本通过最小化损失函数,步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛;步骤6、在验证集上根据所需指标进行评价,保存最好的码本和样品;步骤7、重复步骤2到步骤6直到最大轮数,得到最好的码本和样品,利用其为数据库所有数据点进行编码。该方法量化效果更好,大大提升了最大内积搜索的准确性。
Description
技术领域
本发明涉及机器学习领域,具体地,涉及一种查询感知量化方法。
背景技术
最大内积搜索大量应用在推荐系统、信息检索、自然语言处理等方面。内积在推荐系统中被广泛用于估计用户对物品的偏好,在信息检索中估计查询和响应之间的相关性,在自然语言过程中估计下一个词出现的可能性。由于现实场景中数据库的规模庞大,穷尽的内积搜索花费很多时间,因此,如何高效地完成最大内积搜索是亟需解决一个研究问题。
围绕这个研究问题,研究者们提出了多种方式。其中,一种有效的量化方法是将分数感知损失应用到乘积量化上,并且假设查询向量的方向均匀分布在单位球上。然而,在真实的数据集中,上述关于查询向量的假设不一定成立。
因此,急需要一种查询感知量化方法来解决这个问题。
发明内容
本发明的目的是提供一种查询感知量化方法,该方法量化效果更好,大大提升了最大内积搜索的准确性。
为了实现上述目的,本发明提供了一种查询感知量化方法,该方法包括:
假设每个数据点都是d维,n个数据点组成的数据集用矩阵X∈Rn×d来表示;关于查询向量的验证集用V∈RN×d来表示;关于查询向量的留出集用H来表示;首先,把d维空间划分成M个子空间,每个子空间d/M维,具体的,将d维向量x分成M个子向量,其中,/>表示连接操作,每个子向量维度是d/M维;通过M个码本,每个码本由若干码字向量组成,每个码字向量为d/M维,把每个原始的数据点编码成M个整数,每个整数取值范围{1,2,...,K},其中K表示每个码本中的码字向量的个数;通过码字的连接,数据点x被近似为/>
其中,c(k)表示第k个码本,ik(x)表示在码本c(k)中选择第ik(x)个码字向量;
为了获得适用于最大内积搜索的码本c和数据点的编码i(x),设计如下损失函数:
给定样品集Z,其中p(q|xi)是集合{<xi,q>:q∈Z}上的softmax概率;
步骤1、从数据集中随机选择K个样本点,按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c,维度为Kd维;
步骤2、在留出集中均匀采样若干个数据点作为样品集;
步骤3、利用码本为每个数据点进行编码;各个子空间中随机分配码字作为编码的初始化,而后每个子空间逐个更新,重复三轮;在更新第k个子空间的编码时,固定住其他空间的选好的码字,通过详尽检查该码本中的所有码字,选择使目标损失达到最小的码字;
步骤4、基于步骤3中得到的编码,更新码本通过最小化损失函数,具体的公式如下:
其中,Bi为一索引矩阵,为行向量,只由0,1组成,将ik(xi)位置设为1,其余为0,
Id/M为d/M维的单位矩阵;
步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛;
步骤6、在验证集上根据所需指标进行评价,保存最好的码本和样品;
步骤7、重复步骤2到步骤6直到最大轮数,得到最好的码本和样品,利用其为数据库所有数据点进行编码。
优选地,步骤2中采样500个数据点。
根据上述技术方案,本发明提供一种基于量化方法的最大内积搜索方法,设计全新的损失函数将量化方法适应到最大内积搜索任务中。该方法利用到查询向量自身的分布,并结合softmax概率,根据内积得分进行调整,在不同的数据集上都具有良好的表现,大大提升了最大内积搜索的准确性。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
具体实施方式
以下对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明提供一种查询感知量化方法,该方法包括:
假设每个数据点都是d维,n个数据点组成的数据集用矩阵X∈Rn×d来表示;关于查询向量的验证集用V∈RN×d来表示;关于查询向量的留出集用H来表示;首先,把d维空间划分成M个子空间,每个子空间d/M维,具体的,将d维向量x分成M个子向量,其中,/>表示连接操作,每个子向量维度是d/M维;通过M个码本,每个码本由若干码字向量组成,每个码字向量为d/M维,把每个原始的数据点编码成M个整数,每个整数取值范围{1,2,...,K},其中K表示每个码本中的码字向量的个数;通过码字的连接,数据点x被近似为/>
其中,c(k)表示第k个码本,ik(x)表示在码本c(k)中选择第ik(x)个码字向量;
为了获得适用于最大内积搜索的码本c和数据点的编码i(x),设计如下损失函数:
给定样品集Z,其中p(q|xi)是集合{<xi,q>:q∈Z}上的softmax概率;
步骤1、从数据集中随机选择K个样本点,按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c,维度为Kd维;
步骤2、在留出集中均匀采样若干个数据点作为样品集;
步骤3、利用码本为每个数据点进行编码;各个子空间中随机分配码字作为编码的初始化,而后每个子空间逐个更新,重复三轮;在更新第k个子空间的编码时,固定住其他空间的选好的码字,通过详尽检查该码本中的所有码字,选择使目标损失达到最小的码字;
步骤4、基于步骤3中得到的编码,更新码本通过最小化损失函数,具体的公式如下:
其中,Bi为一索引矩阵,为行向量,只由0,1组成,将ik(xi)位置设为1,其余为0,
Id/M为d/M维的单位矩阵;
步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛;
步骤6、在验证集上根据所需指标进行评价,保存最好的码本和样品;
步骤7、重复步骤2到步骤6直到最大轮数,得到最好的码本和样品,利用其为数据库所有数据点进行编码。
在本实施方式中,优选步骤2中采样500个数据点。
通过上述技术方案,本发明设计全新的损失函数将量化方法适应到最大内积搜索任务中。该方法利用到查询向量自身的分布,并结合softmax概率,根据内积得分进行调整,在不同的数据集上都具有良好的表现,大大提升了最大内积搜索的准确性。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (2)
1.一种查询感知量化方法,其特征在于,所述方法包括:
假设每个数据点都是d维,n个数据点组成的数据集用矩阵X∈Rn×d来表示;关于查询向量的验证集用V∈RN×d来表示;关于查询向量的留出集用H来表示;首先,把d维空间划分成M个子空间,每个子空间d/M维,具体的,将d维向量x分成M个子向量,其中,/>表示连接操作,每个子向量维度是d/M维;通过M个码本,每个码本由若干码字向量组成,每个码字向量为d/M维,把每个原始的数据点编码成M个整数,每个整数取值范围{1,2,...,K},其中K表示每个码本中的码字向量的个数;通过码字的连接,数据点x被近似为/>
其中,c(k)表示第k个码本,ik(x)表示在码本c(k)中选择第ik(x)个码字向量;
为了获得适用于最大内积搜索的码本c和数据点的编码i(x),设计如下损失函数:
给定样品集Z,其中p(q|xi)是集合{<xi,q>:q∈Z}上的softmax概率;
步骤1、从数据集中随机选择K个样本点,按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c,维度为Kd维;
步骤2、在留出集中均匀采样若干个数据点作为样品集;
步骤3、利用码本为每个数据点进行编码;各个子空间中随机分配码字作为编码的初始化,而后每个子空间逐个更新,重复三轮;在更新第k个子空间的编码时,固定住其他空间的选好的码字,通过详尽检查该码本中的所有码字,选择使目标损失达到最小的码字;
步骤4、基于步骤3中得到的编码,更新码本通过最小化损失函数,具体的公式如下:
其中,Bi为一索引矩阵,为行向量,只由0,1组成,将ik(xi)位置设为1,其余为0,
Id/M为d/M维的单位矩阵;
步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛;
步骤6、在验证集上根据所需指标进行评价,保存最好的码本和样品;
步骤7、重复步骤2到步骤6直到最大轮数,得到最好的码本和样品,利用其为数据库所有数据点进行编码。
2.根据权利要求1所述的查询感知量化方法,其特征在于,步骤2中采样500个数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210173007.8A CN116701746A (zh) | 2022-02-24 | 2022-02-24 | 查询感知量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210173007.8A CN116701746A (zh) | 2022-02-24 | 2022-02-24 | 查询感知量化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116701746A true CN116701746A (zh) | 2023-09-05 |
Family
ID=87839772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210173007.8A Pending CN116701746A (zh) | 2022-02-24 | 2022-02-24 | 查询感知量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701746A (zh) |
-
2022
- 2022-02-24 CN CN202210173007.8A patent/CN116701746A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | K-means hashing: An affinity-preserving quantization method for learning binary compact codes | |
Babenko et al. | Additive quantization for extreme vector compression | |
CN103902704B (zh) | 面向大规模图像视觉特征的多维倒排索引与快速检索算法 | |
CN111078911B (zh) | 一种基于自编码器的无监督哈希方法 | |
CN107943938A (zh) | 一种基于深度乘积量化的大规模图像相似检索方法及系统 | |
CN112732864A (zh) | 一种基于稠密伪查询向量表示的文档检索方法 | |
EP2413250A1 (en) | Method and system for compressed encoding and decoding for word stock | |
Wang et al. | Composite quantization | |
Ozan et al. | K-subspaces quantization for approximate nearest neighbor search | |
CN112256727B (zh) | 基于人工智能技术的数据库查询处理及优化方法 | |
JP2020515986A (ja) | ベクトル量子化の混合に基づく符号化方法及びこれを用いた最近傍探索(nns)方法 | |
CN116018589A (zh) | 用于基于乘积量化的矩阵压缩的方法和系统 | |
CN106126668A (zh) | 一种基于哈希重建的图像特征点匹配方法 | |
Jain et al. | Learning a complete image indexing pipeline | |
CN117453861A (zh) | 基于对比学习与预训练技术的代码搜索推荐方法和系统 | |
CN117574450B (zh) | 一种基于同态加密算法的数据处理系统 | |
Jain et al. | Approximate search with quantized sparse representations | |
Variani et al. | West: Word encoded sequence transducers | |
CN116701746A (zh) | 查询感知量化方法 | |
CN113449849A (zh) | 基于自编码器的学习型文本哈希方法 | |
CN109670057B (zh) | 一种渐进式的端到端深度特征量化系统及方法 | |
Liu et al. | Generalized residual vector quantization and aggregating tree for large scale search | |
CN110909027B (zh) | 一种哈希检索方法 | |
CN110704655B (zh) | 在线多量化图像检索方法 | |
CN110830044A (zh) | 基于稀疏最小二乘优化的数据压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |