CN114880360A

CN114880360A - 一种基于贝叶斯优化的数据检索方法及装置

Info

Publication number: CN114880360A
Application number: CN202210788585.2A
Authority: CN
Inventors: 韩瑞峰; 杨红飞; 程东
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Hangzhou Firestone Technology Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-08-09

Abstract

本发明公开了一种基于贝叶斯优化的数据检索方法及装置，计算检索数据与数据集数据的距离，用数据与距离构成训练集；用GAN网络的编码器得到训练集中数据的隐空间表示向量，用高斯过程对隐空间表示向量和检索数据与数据集数据的距离构成的向量数据集拟合，得到高斯过程模型；利用高斯过程模型，通过最优化采样函数对向量数据集进行采样，得到使得采样函数最大的隐空间上的q个变量；用GAN网络的解码器q个变量对解码，得到一组数据，用距离函数得到采样点与检索数据的距离，进行迭代训练，将采样点中距离小于阈值的点作为数据检索的结果。

Description

一种基于贝叶斯优化的数据检索方法及装置

技术领域

本发明涉及数据检索领域，尤其涉及一种基于贝叶斯优化的数据检索方法及装置。

背景技术

在各种数据检索应用中，如图片、文本、化学分子式等数据，需要在包含大量同类数据的数据集中查找相同或相近的数据，通常需要训练特征空间并构造特征索引，步骤繁琐且需要大量的训练数据，本发明提出的方法对训练数据的标注量要求较小，可在没有标注数据的条件下实现。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于贝叶斯优化的数据检索方法及装置，利用贝叶斯优化的计算过程，逐步迭代地在数据集中寻找与检索数据最相似的数据，得到按相似度排序的检索结果，实现相似数据检索的方法。利用GAN网络训练隐空间，对数据特征空间压缩，加速计算效率。

本发明的目的是通过以下技术方案来实现的：第一方面，本发明提供了一种基于贝叶斯优化的数据检索方法，该方法包括以下步骤：

（1）对于一条检索数据I，在待检索的数据集中随机选取一部分数据作为训练集，计算训练集中每条数据j与检索数据I之间的距离d_j_I，用数据j和数据j与检索数据I之间的距离d_j_I形成的数据对（j, d_j_I）构成训练集；

（2）将检索数据I输入GAN网络，基于GAN网络编码层输出按照高斯分布随机采样得到样本z，建立以样本z为输入，数据j与检索数据I之间的距离d_j_I为输出的全连接预测网络；同时建立以样本z为输入，用0和1为输出表示为生成和真实样本的全连接真实样本预测网络；计算数据重建损失、KL散度损失、度量学习损失、目标预测损失、真实和生成数据预测损失，训练GAN网络；

（3）用训练后的GAN网络的编码器得到训练集中数据j的隐空间表示向量z_j，将隐空间表示向量z_j和数据j与检索数据I之间的距离d_j_I构建向量数据集（z_j, d_j_I），用高斯过程对该向量数据集（z_j, d_j_I）进行拟合，得到高斯过程模型；

（4）基于贝叶斯优化过程，迭代地拟合高斯过程模型、采样新数据，具体为：通过最优化采样函数对向量数据集进行采样，得到使得采样函数最大的隐空间上的q个样本z；用GAN网络的解码器对样本z解码，得到一组数据j2，将其中不存在于待检索的数据集中的数据去除后，用距离函数得到采样点与检索数据I的距离d_j2_I，将（j2，d_j2_I）新增到训练集中，返回步骤（3）重新训练高斯过程模型，重复这一过程直到与检索数据I的距离小于阈值；迭代得到的采样点中距离d_j2_I小于阈值的点作为数据检索的结果。

进一步地，步骤（4）中，迭代过程中如果达到了最大迭代次数，则直接取目前为止采样点中与检索数据I距离最近的作为数据检索的结果。

进一步地，两条数据之间的相似距离度量方法为score_function。

进一步地，数据重建损失具体为：检索数据I输入GAN网络，通过编码网络得到向量u和std，u和std分别表示检索数据I经过编码之后的均值和方差，按照高斯分布随机采样得到样本z，用二分类用的交叉熵损失函数BCE对样本z和检索数据I计算数据重建损失。

进一步地，KL散度损失具体为：计算u和std表示的分布与样本z表示的分布之间的KL散度。

进一步地，真实和生成数据预测损失具体为：输入样本z，用全连接真实样本预测网络得到输出，与真值1计算交叉熵损失，得到预测损失；用与输入数据维度相同的随机向量作为GAN网络输入，经过编码器网络得到随机向量的样本z2，用全连接真实样本预测网络得到输出，与真值0计算交叉熵损失，得到预测损失。

进一步地，度量学习损失具体为：对样本z进行计算对比学习损失或triplet损失。

进一步地，目标预测损失具体为：用样本z作为全连接预测网络的输入，用输出和数据j与检索数据I之间的距离d_j_I计算交叉熵损失，得到预测损失。

第二方面，本发明还提供了一种基于贝叶斯优化的数据检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现所述的基于贝叶斯优化的数据检索方法的步骤。

第三方面，本发明还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的基于贝叶斯优化的数据检索方法的步骤。

本发明的有益效果：本发明应用于海量数据的相似检索，不需要大规模的对比、大量的训练数据和建立特征索引的过程，可在有限的训练、拟合、采样步骤后得到与输入数据最相似的检索结果。

附图说明

图1为本发明提供的一种基于贝叶斯优化的数据检索方法流程图。

图2为本发明高斯过程模型迭代示意图。

图3为本发明提供的一种基于贝叶斯优化的数据检索装置结构示意图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示，本发明提供的一种基于贝叶斯优化的数据检索方法，具体步骤如下：

1.对一条检索数据I，在待检索的数据集中随机选取一部分数据作为训练集，计算训练集中每条数据j与检索数据I之间的距离d_j_I，用数据与距离形成的数据对（j, d_j_I）构成训练集；假设应用场景中有大量数据，两条数据之间的相似距离度量方法score_function，如图像数据的度量方法为余弦距离或jaccard距离，推荐场景中数据的度量方法为人物与物品属性向量之间的距离。

2.利用GAN网络训练隐空间，对数据特征空间压缩；

计算数据重建损失、KL散度损失、度量学习损失、目标预测损失、真实和生成数据预测损失，训练GAN网络，GAN网络包括编码器网络和解码器网络。编码器网络通过一系列卷积和全连接网络将数据维度d压缩到lat维，输出2个lat维的向量u和std，分别表示检索数据I经过编码之后的均值和方差。解码器网络通过一系列反卷积和全连接网络从一个lat维的向量得到d维数据。将检索数据I输入GAN网络，基于GAN网络编码层输出按照高斯分布随机采样得到样本z，建立以样本z为输入，数据j与检索数据I之间的距离d_j_I为输出的全连接预测网络，并建立以样本z为输入，用0和1为输出表示为生成和真实样本的全连接真实样本预测网络。

用全部数据集GAN网络作为输入，计算如下损失：

数据重建损失：GAN网络输入检索数据I，通过编码器网络得到向量u和std，按照分布u和std随机采样得到样本z，用二分类用的交叉熵损失函数BCE对样本z和检索数据I计算数据重建损失；

KL散度损失：计算u和std表示的分布与样本z表示的分布之间的KL散度；

真实和生成数据预测损失：输入样本z，用全连接真实样本预测网络得到输出，与真值1计算交叉熵损失，得到预测损失。用与输入数据维度相同的随机向量作为GAN网络输入，经过编码器网络得到随机向量的样本z2，用全连接真实样本预测网络得到输出，与真值0计算交叉熵损失，得到预测损失。

用训练数据集作为输入，计算如下损失：

度量学习损失：对样本z进行计算对比学习损失或triplet损失；

目标预测损失：用样本z作为全连接预测网络的输入，用输出和数据j与检索数据I之间的距离d_j_I计算交叉熵损失，得到预测损失；

3.训练高斯过程模型：

用训练后的GAN网络的编码器得到训练集数据j的隐空间表示向量z_j，用高斯过程对向量数据集（z_j, d_j_I）进行拟合，得到高斯过程模型；

4. 基于贝叶斯优化过程，迭代地拟合高斯过程模型、采样新数据，如图2所示，具体如下：

利用高斯过程模型，通过最优化采样函数（如EI（Expected Improvement））对向量数据集进行采样，得到使得采样函数最大的隐空间上的q（如q=20）个新的样本z；

用GAN网络的解码器网络对样本z解码，得到一组数据j2，将其中不存在于待检索的数据集中的数据去除后，用距离函数得到采样点与检索数据I的距离d_j2_I，将（j2，d_j2_I）新增到训练集中，返回步骤（3）重新训练高斯过程模型，重复这一过程直到与检索数据I距离小于阈值，或达到最大迭代次数；

如果计算过程中采样点与检索数据I距离小于阈值，则将迭代得到的新的采样点中距离d_j2_I小于阈值的点j2作为本次检索的结果。若迭代过程中如果达到了最大迭代次数，则直接取目前为止采样点中与检索数据I距离最近的作为数据检索的结果。

结合应用场景的具体实施例：

以一个表达式检索的场景为例对本发明进行解释说明，输入的检索表达式为1/3+(x)+sin(x*x)，从一个10万条表达式的数据集中检索，该表达式中的x在[-10,10]区间上1000个平均间隔点上的取值时得到对应的表达式结果y，y为1000维，该表达式与另一表达式结果y2的距离计算为log(1+(y-y2)^2)。

在数据集的表达式中随机取3000个与输入表达式计算距离后得到训练数据，训练GAN网络。用GAN对训练数据得到对应的隐空间向量，维度为25，对如下贝叶斯优化过程循环执行进行50轮，得到新的50个检索数据，或达到距离阈值提前退出：

拟合100轮得到新的高斯过程模型：基于高斯过程模型，通过EI函数采样1个隐空间表达式，如[-0.0291, -0.0343, 0.0093, 0.0214, 0.0126, 0.0226, -0.0848, -0.0368, 0.0211, 0.1267, 0.0406, 0.0222, 0.0239, 0.0025, 0.0333, -0.0072,0.0097, -0.0147, 0.0591, 0.0036, 0.0243, 0.0037, -0.0013, 0.1101, -0.0075]，用GAN解码得到表达式1/1+(x)+(x+1)，与输入表达式的距离3.62337，加入训练数据中，拟合100轮得到新的高斯过程模型。

贝叶斯优化过程循环进行50轮后，若没有找到阈值以内的表达式，则用新增的数据重新训练GAN，再执行如上50轮贝叶斯优化，直到找到或达到最大查询次数，返回距离最近的表达式。例如，在第15轮的时候得到检索结果表达式x+1/3+sin(x*x)，和输入表达式距离小于距离阈值0.01，得到检索结果。

与前述基于贝叶斯优化的数据检索方法的实施例相对应，本发明还提供了基于贝叶斯优化的数据检索装置的实施例。

参见图3，本发明实施例提供的一种基于贝叶斯优化的数据检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的基于贝叶斯优化的数据检索方法。

本发明基于贝叶斯优化的数据检索装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明基于贝叶斯优化的数据检索装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于贝叶斯优化的数据检索方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于贝叶斯优化的数据检索方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法，其特征在于，步骤（4）中，迭代过程中如果达到了最大迭代次数，则直接取目前为止采样点中与检索数据I距离最近的作为数据检索的结果。

3.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法，其特征在于，两条数据之间的相似距离度量方法为score_function。

4.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法，其特征在于，数据重建损失具体为：检索数据I输入GAN网络，通过编码网络得到向量u和std，u和std分别表示检索数据I经过编码之后的均值和方差，按照高斯分布随机采样得到样本z，用二分类用的交叉熵损失函数BCE对样本z和检索数据I计算数据重建损失。

5.根据权利要求4所述的一种基于贝叶斯优化的数据检索方法，其特征在于，KL散度损失具体为：计算u和std表示的分布与样本z表示的分布之间的KL散度。

6.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法，其特征在于，真实和生成数据预测损失具体为：输入样本z，用全连接真实样本预测网络得到输出，与真值1计算交叉熵损失，得到预测损失；用与输入数据维度相同的随机向量作为GAN网络输入，经过编码器网络得到随机向量的样本z2，用全连接真实样本预测网络得到输出，与真值0计算交叉熵损失，得到预测损失。

7.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法，其特征在于，度量学习损失具体为：对样本z进行计算对比学习损失或triplet损失。

8.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法，其特征在于，目标预测损失具体为：用样本z作为全连接预测网络的输入，用输出和数据j与检索数据I之间的距离d_j_I计算交叉熵损失，得到预测损失。

9.一种基于贝叶斯优化的数据检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，用于实现如权利要求1-8中任一项所述的基于贝叶斯优化的数据检索方法的步骤。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，实现如权利要求1-8中任一项所述的基于贝叶斯优化的数据检索方法的步骤。