CN116701746A - 查询感知量化方法 - Google Patents

查询感知量化方法 Download PDF

Info

Publication number
CN116701746A
CN116701746A CN202210173007.8A CN202210173007A CN116701746A CN 116701746 A CN116701746 A CN 116701746A CN 202210173007 A CN202210173007 A CN 202210173007A CN 116701746 A CN116701746 A CN 116701746A
Authority
CN
China
Prior art keywords
codebook
sample
vector
dimension
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210173007.8A
Other languages
English (en)
Inventor
连德富
张锦
陈恩红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210173007.8A priority Critical patent/CN116701746A/zh
Publication of CN116701746A publication Critical patent/CN116701746A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种查询感知量化方法,包括步骤1、从数据集中随机选择K个样本点,按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c,维度为Kd维;步骤2、在留出集中均匀采样若干个数据点作为样品集;步骤3、利用码本为每个数据点进行编码;步骤4、基于步骤3中得到的编码,更新码本通过最小化损失函数,步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛;步骤6、在验证集上根据所需指标进行评价,保存最好的码本和样品;步骤7、重复步骤2到步骤6直到最大轮数,得到最好的码本和样品,利用其为数据库所有数据点进行编码。该方法量化效果更好,大大提升了最大内积搜索的准确性。

Description

查询感知量化方法
技术领域
本发明涉及机器学习领域,具体地,涉及一种查询感知量化方法。
背景技术
最大内积搜索大量应用在推荐系统、信息检索、自然语言处理等方面。内积在推荐系统中被广泛用于估计用户对物品的偏好,在信息检索中估计查询和响应之间的相关性,在自然语言过程中估计下一个词出现的可能性。由于现实场景中数据库的规模庞大,穷尽的内积搜索花费很多时间,因此,如何高效地完成最大内积搜索是亟需解决一个研究问题。
围绕这个研究问题,研究者们提出了多种方式。其中,一种有效的量化方法是将分数感知损失应用到乘积量化上,并且假设查询向量的方向均匀分布在单位球上。然而,在真实的数据集中,上述关于查询向量的假设不一定成立。
因此,急需要一种查询感知量化方法来解决这个问题。
发明内容
本发明的目的是提供一种查询感知量化方法,该方法量化效果更好,大大提升了最大内积搜索的准确性。
为了实现上述目的,本发明提供了一种查询感知量化方法,该方法包括:
假设每个数据点都是d维,n个数据点组成的数据集用矩阵X∈Rn×d来表示;关于查询向量的验证集用V∈RN×d来表示;关于查询向量的留出集用H来表示;首先,把d维空间划分成M个子空间,每个子空间d/M维,具体的,将d维向量x分成M个子向量,其中,/>表示连接操作,每个子向量维度是d/M维;通过M个码本,每个码本由若干码字向量组成,每个码字向量为d/M维,把每个原始的数据点编码成M个整数,每个整数取值范围{1,2,...,K},其中K表示每个码本中的码字向量的个数;通过码字的连接,数据点x被近似为/>
其中,c(k)表示第k个码本,ik(x)表示在码本c(k)中选择第ik(x)个码字向量;
为了获得适用于最大内积搜索的码本c和数据点的编码i(x),设计如下损失函数:
给定样品集Z,其中p(q|xi)是集合{<xi,q>:q∈Z}上的softmax概率;
步骤1、从数据集中随机选择K个样本点,按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c,维度为Kd维;
步骤2、在留出集中均匀采样若干个数据点作为样品集;
步骤3、利用码本为每个数据点进行编码;各个子空间中随机分配码字作为编码的初始化,而后每个子空间逐个更新,重复三轮;在更新第k个子空间的编码时,固定住其他空间的选好的码字,通过详尽检查该码本中的所有码字,选择使目标损失达到最小的码字;
步骤4、基于步骤3中得到的编码,更新码本通过最小化损失函数,具体的公式如下:
其中,Bi为一索引矩阵,为行向量,只由0,1组成,将ik(xi)位置设为1,其余为0,
Id/M为d/M维的单位矩阵;
步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛;
步骤6、在验证集上根据所需指标进行评价,保存最好的码本和样品;
步骤7、重复步骤2到步骤6直到最大轮数,得到最好的码本和样品,利用其为数据库所有数据点进行编码。
优选地,步骤2中采样500个数据点。
根据上述技术方案,本发明提供一种基于量化方法的最大内积搜索方法,设计全新的损失函数将量化方法适应到最大内积搜索任务中。该方法利用到查询向量自身的分布,并结合softmax概率,根据内积得分进行调整,在不同的数据集上都具有良好的表现,大大提升了最大内积搜索的准确性。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
具体实施方式
以下对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明提供一种查询感知量化方法,该方法包括:
假设每个数据点都是d维,n个数据点组成的数据集用矩阵X∈Rn×d来表示;关于查询向量的验证集用V∈RN×d来表示;关于查询向量的留出集用H来表示;首先,把d维空间划分成M个子空间,每个子空间d/M维,具体的,将d维向量x分成M个子向量,其中,/>表示连接操作,每个子向量维度是d/M维;通过M个码本,每个码本由若干码字向量组成,每个码字向量为d/M维,把每个原始的数据点编码成M个整数,每个整数取值范围{1,2,...,K},其中K表示每个码本中的码字向量的个数;通过码字的连接,数据点x被近似为/>
其中,c(k)表示第k个码本,ik(x)表示在码本c(k)中选择第ik(x)个码字向量;
为了获得适用于最大内积搜索的码本c和数据点的编码i(x),设计如下损失函数:
给定样品集Z,其中p(q|xi)是集合{<xi,q>:q∈Z}上的softmax概率;
步骤1、从数据集中随机选择K个样本点,按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c,维度为Kd维;
步骤2、在留出集中均匀采样若干个数据点作为样品集;
步骤3、利用码本为每个数据点进行编码;各个子空间中随机分配码字作为编码的初始化,而后每个子空间逐个更新,重复三轮;在更新第k个子空间的编码时,固定住其他空间的选好的码字,通过详尽检查该码本中的所有码字,选择使目标损失达到最小的码字;
步骤4、基于步骤3中得到的编码,更新码本通过最小化损失函数,具体的公式如下:
其中,Bi为一索引矩阵,为行向量,只由0,1组成,将ik(xi)位置设为1,其余为0,
Id/M为d/M维的单位矩阵;
步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛;
步骤6、在验证集上根据所需指标进行评价,保存最好的码本和样品;
步骤7、重复步骤2到步骤6直到最大轮数,得到最好的码本和样品,利用其为数据库所有数据点进行编码。
在本实施方式中,优选步骤2中采样500个数据点。
通过上述技术方案,本发明设计全新的损失函数将量化方法适应到最大内积搜索任务中。该方法利用到查询向量自身的分布,并结合softmax概率,根据内积得分进行调整,在不同的数据集上都具有良好的表现,大大提升了最大内积搜索的准确性。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (2)

1.一种查询感知量化方法,其特征在于,所述方法包括:
假设每个数据点都是d维,n个数据点组成的数据集用矩阵X∈Rn×d来表示;关于查询向量的验证集用V∈RN×d来表示;关于查询向量的留出集用H来表示;首先,把d维空间划分成M个子空间,每个子空间d/M维,具体的,将d维向量x分成M个子向量,其中,/>表示连接操作,每个子向量维度是d/M维;通过M个码本,每个码本由若干码字向量组成,每个码字向量为d/M维,把每个原始的数据点编码成M个整数,每个整数取值范围{1,2,...,K},其中K表示每个码本中的码字向量的个数;通过码字的连接,数据点x被近似为/>
其中,c(k)表示第k个码本,ik(x)表示在码本c(k)中选择第ik(x)个码字向量;
为了获得适用于最大内积搜索的码本c和数据点的编码i(x),设计如下损失函数:
给定样品集Z,其中p(q|xi)是集合{<xi,q>:q∈Z}上的softmax概率;
步骤1、从数据集中随机选择K个样本点,按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c,维度为Kd维;
步骤2、在留出集中均匀采样若干个数据点作为样品集;
步骤3、利用码本为每个数据点进行编码;各个子空间中随机分配码字作为编码的初始化,而后每个子空间逐个更新,重复三轮;在更新第k个子空间的编码时,固定住其他空间的选好的码字,通过详尽检查该码本中的所有码字,选择使目标损失达到最小的码字;
步骤4、基于步骤3中得到的编码,更新码本通过最小化损失函数,具体的公式如下:
其中,Bi为一索引矩阵,为行向量,只由0,1组成,将ik(xi)位置设为1,其余为0,
Id/M为d/M维的单位矩阵;
步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛;
步骤6、在验证集上根据所需指标进行评价,保存最好的码本和样品;
步骤7、重复步骤2到步骤6直到最大轮数,得到最好的码本和样品,利用其为数据库所有数据点进行编码。
2.根据权利要求1所述的查询感知量化方法,其特征在于,步骤2中采样500个数据点。
CN202210173007.8A 2022-02-24 2022-02-24 查询感知量化方法 Pending CN116701746A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210173007.8A CN116701746A (zh) 2022-02-24 2022-02-24 查询感知量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210173007.8A CN116701746A (zh) 2022-02-24 2022-02-24 查询感知量化方法

Publications (1)

Publication Number Publication Date
CN116701746A true CN116701746A (zh) 2023-09-05

Family

ID=87839772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210173007.8A Pending CN116701746A (zh) 2022-02-24 2022-02-24 查询感知量化方法

Country Status (1)

Country Link
CN (1) CN116701746A (zh)

Similar Documents

Publication Publication Date Title
He et al. K-means hashing: An affinity-preserving quantization method for learning binary compact codes
Babenko et al. Additive quantization for extreme vector compression
CN107943938A (zh) 一种基于深度乘积量化的大规模图像相似检索方法及系统
Martinez et al. Stacked quantizers for compositional vector compression
CN111078911B (zh) 一种基于自编码器的无监督哈希方法
US20040221192A1 (en) Method and system for minimizing the length of a defect list for a storage device
Xu et al. Online product quantization
CN109446414B (zh) 一种基于神经网络分类的软件信息站点快速标签推荐方法
EP2413250A1 (en) Method and system for compressed encoding and decoding for word stock
Fischer Combined data structure for previous-and next-smaller-values
Wang et al. Composite quantization
CN111597371B (zh) 外观专利的多模态图像检索方法及系统
US20190266474A1 (en) Systems And Method For Character Sequence Recognition
Ozan et al. K-subspaces quantization for approximate nearest neighbor search
CN112732864A (zh) 一种基于稠密伪查询向量表示的文档检索方法
JP2020515986A (ja) ベクトル量子化の混合に基づく符号化方法及びこれを用いた最近傍探索(nns)方法
Jain et al. Learning a complete image indexing pipeline
CN112256727A (zh) 基于人工智能技术的数据库查询处理及优化方法
Jain et al. Approximate search with quantized sparse representations
CN116701746A (zh) 查询感知量化方法
CN112612948A (zh) 一种基于深度强化学习的推荐系统构建方法
CN109670057B (zh) 一种渐进式的端到端深度特征量化系统及方法
Liu et al. Generalized residual vector quantization and aggregating tree for large scale search
CN109634953B (zh) 一种面向高维大数据集的加权量化哈希检索方法
CN110909027B (zh) 一种哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination