CN116701746A

CN116701746A - 查询感知量化方法

Info

Publication number: CN116701746A
Application number: CN202210173007.8A
Authority: CN
Inventors: 连德富; 张锦; 陈恩红
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2023-09-05

Abstract

本发明公开了一种查询感知量化方法，包括步骤1、从数据集中随机选择K个样本点，按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c，维度为Kd维；步骤2、在留出集中均匀采样若干个数据点作为样品集；步骤3、利用码本为每个数据点进行编码；步骤4、基于步骤3中得到的编码，更新码本通过最小化损失函数，步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛；步骤6、在验证集上根据所需指标进行评价，保存最好的码本和样品；步骤7、重复步骤2到步骤6直到最大轮数，得到最好的码本和样品，利用其为数据库所有数据点进行编码。该方法量化效果更好，大大提升了最大内积搜索的准确性。

Description

查询感知量化方法

技术领域

本发明涉及机器学习领域，具体地，涉及一种查询感知量化方法。

背景技术

最大内积搜索大量应用在推荐系统、信息检索、自然语言处理等方面。内积在推荐系统中被广泛用于估计用户对物品的偏好，在信息检索中估计查询和响应之间的相关性，在自然语言过程中估计下一个词出现的可能性。由于现实场景中数据库的规模庞大，穷尽的内积搜索花费很多时间，因此，如何高效地完成最大内积搜索是亟需解决一个研究问题。

围绕这个研究问题，研究者们提出了多种方式。其中，一种有效的量化方法是将分数感知损失应用到乘积量化上，并且假设查询向量的方向均匀分布在单位球上。然而，在真实的数据集中，上述关于查询向量的假设不一定成立。

因此，急需要一种查询感知量化方法来解决这个问题。

发明内容

本发明的目的是提供一种查询感知量化方法，该方法量化效果更好，大大提升了最大内积搜索的准确性。

为了实现上述目的，本发明提供了一种查询感知量化方法，该方法包括：

假设每个数据点都是d维，n个数据点组成的数据集用矩阵X∈R^n×d来表示；关于查询向量的验证集用V∈R^N×d来表示；关于查询向量的留出集用H来表示；首先，把d维空间划分成M个子空间，每个子空间d/M维，具体的，将d维向量x分成M个子向量，其中，/>表示连接操作，每个子向量维度是d/M维；通过M个码本，每个码本由若干码字向量组成，每个码字向量为d/M维，把每个原始的数据点编码成M个整数，每个整数取值范围{1，2，...，K}，其中K表示每个码本中的码字向量的个数；通过码字的连接，数据点x被近似为/>

其中，c^(k)表示第k个码本，i_k(x)表示在码本c^(k)中选择第i_k(x)个码字向量；

为了获得适用于最大内积搜索的码本c和数据点的编码i(x)，设计如下损失函数：

给定样品集Z，其中p(q|x_i)是集合{<x_i，q>：q∈Z}上的softmax概率；

步骤1、从数据集中随机选择K个样本点，按照子空间的顺序将这K个样本点连接成一个列向量作为码本向量c，维度为Kd维；

步骤2、在留出集中均匀采样若干个数据点作为样品集；

步骤3、利用码本为每个数据点进行编码；各个子空间中随机分配码字作为编码的初始化，而后每个子空间逐个更新，重复三轮；在更新第k个子空间的编码时，固定住其他空间的选好的码字，通过详尽检查该码本中的所有码字，选择使目标损失达到最小的码字；

步骤4、基于步骤3中得到的编码，更新码本通过最小化损失函数，具体的公式如下：

其中，B_i为一索引矩阵，为行向量，只由0，1组成，将i_k(x_i)位置设为1，其余为0，

I_d/M为d/M维的单位矩阵；

步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛；

步骤6、在验证集上根据所需指标进行评价，保存最好的码本和样品；

步骤7、重复步骤2到步骤6直到最大轮数，得到最好的码本和样品，利用其为数据库所有数据点进行编码。

优选地，步骤2中采样500个数据点。

根据上述技术方案，本发明提供一种基于量化方法的最大内积搜索方法，设计全新的损失函数将量化方法适应到最大内积搜索任务中。该方法利用到查询向量自身的分布，并结合softmax概率，根据内积得分进行调整，在不同的数据集上都具有良好的表现，大大提升了最大内积搜索的准确性。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

具体实施方式

以下对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明提供一种查询感知量化方法，该方法包括：

步骤2、在留出集中均匀采样若干个数据点作为样品集；

I_d/M为d/M维的单位矩阵；

步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛；

在本实施方式中，优选步骤2中采样500个数据点。

通过上述技术方案，本发明设计全新的损失函数将量化方法适应到最大内积搜索任务中。该方法利用到查询向量自身的分布，并结合softmax概率，根据内积得分进行调整，在不同的数据集上都具有良好的表现，大大提升了最大内积搜索的准确性。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种查询感知量化方法，其特征在于，所述方法包括：

给定样品集Z，其中p(q|x_i)是集合{＜x_i，q＞：q∈Z}上的softmax概率；

步骤2、在留出集中均匀采样若干个数据点作为样品集；

I_d/M为d/M维的单位矩阵；

步骤5、重复步骤3和步骤4直到最大迭代轮数或者收敛；

2.根据权利要求1所述的查询感知量化方法，其特征在于，步骤2中采样500个数据点。