CN114880360A - 一种基于贝叶斯优化的数据检索方法及装置 - Google Patents

一种基于贝叶斯优化的数据检索方法及装置 Download PDF

Info

Publication number
CN114880360A
CN114880360A CN202210788585.2A CN202210788585A CN114880360A CN 114880360 A CN114880360 A CN 114880360A CN 202210788585 A CN202210788585 A CN 202210788585A CN 114880360 A CN114880360 A CN 114880360A
Authority
CN
China
Prior art keywords
data
retrieval
loss
distance
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210788585.2A
Other languages
English (en)
Inventor
韩瑞峰
杨红飞
程东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Firestone Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202210788585.2A priority Critical patent/CN114880360A/zh
Publication of CN114880360A publication Critical patent/CN114880360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于贝叶斯优化的数据检索方法及装置,计算检索数据与数据集数据的距离,用数据与距离构成训练集;用GAN网络的编码器得到训练集中数据的隐空间表示向量,用高斯过程对隐空间表示向量和检索数据与数据集数据的距离构成的向量数据集拟合,得到高斯过程模型;利用高斯过程模型,通过最优化采样函数对向量数据集进行采样,得到使得采样函数最大的隐空间上的q个变量;用GAN网络的解码器q个变量对解码,得到一组数据,用距离函数得到采样点与检索数据的距离,进行迭代训练,将采样点中距离小于阈值的点作为数据检索的结果。

Description

一种基于贝叶斯优化的数据检索方法及装置
技术领域
本发明涉及数据检索领域,尤其涉及一种基于贝叶斯优化的数据检索方法及装置。
背景技术
在各种数据检索应用中,如图片、文本、化学分子式等数据,需要在包含大量同类数据的数据集中查找相同或相近的数据,通常需要训练特征空间并构造特征索引,步骤繁琐且需要大量的训练数据,本发明提出的方法对训练数据的标注量要求较小,可在没有标注数据的条件下实现。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于贝叶斯优化的数据检索方法及装置,利用贝叶斯优化的计算过程,逐步迭代地在数据集中寻找与检索数据最相似的数据,得到按相似度排序的检索结果,实现相似数据检索的方法。利用GAN网络训练隐空间,对数据特征空间压缩,加速计算效率。
本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于贝叶斯优化的数据检索方法,该方法包括以下步骤:
(1)对于一条检索数据I,在待检索的数据集中随机选取一部分数据作为训练集,计算训练集中每条数据j与检索数据I之间的距离d_j_I,用数据j和数据j与检索数据I之间的距离d_j_I形成的数据对(j, d_j_I)构成训练集;
(2)将检索数据I输入GAN网络,基于GAN网络编码层输出按照高斯分布随机采样得到样本z,建立以样本z为输入,数据j与检索数据I之间的距离d_j_I为输出的全连接预测网络;同时建立以样本z为输入,用0和1为输出表示为生成和真实样本的全连接真实样本预测网络;计算数据重建损失、KL散度损失、度量学习损失、目标预测损失、真实和生成数据预测损失,训练GAN网络;
(3)用训练后的GAN网络的编码器得到训练集中数据j的隐空间表示向量z_j,将隐空间表示向量z_j和数据j与检索数据I之间的距离d_j_I构建向量数据集(z_j, d_j_I),用高斯过程对该向量数据集(z_j, d_j_I)进行拟合,得到高斯过程模型;
(4)基于贝叶斯优化过程,迭代地拟合高斯过程模型、采样新数据,具体为:通过最优化采样函数对向量数据集进行采样,得到使得采样函数最大的隐空间上的q个样本z;用GAN网络的解码器对样本z解码,得到一组数据j2,将其中不存在于待检索的数据集中的数据去除后,用距离函数得到采样点与检索数据I的距离d_j2_I,将(j2,d_j2_I)新增到训练集中,返回步骤(3)重新训练高斯过程模型,重复这一过程直到与检索数据I的距离小于阈值;迭代得到的采样点中距离d_j2_I小于阈值的点作为数据检索的结果。
进一步地,步骤(4)中,迭代过程中如果达到了最大迭代次数,则直接取目前为止采样点中与检索数据I距离最近的作为数据检索的结果。
进一步地,两条数据之间的相似距离度量方法为score_function。
进一步地,数据重建损失具体为:检索数据I输入GAN网络,通过编码网络得到向量u和std,u和std分别表示检索数据I经过编码之后的均值和方差,按照高斯分布随机采样得到样本z,用二分类用的交叉熵损失函数BCE对样本z和检索数据I计算数据重建损失。
进一步地,KL散度损失具体为:计算u和std表示的分布与样本z表示的分布之间的KL散度。
进一步地,真实和生成数据预测损失具体为:输入样本z,用全连接真实样本预测网络得到输出,与真值1计算交叉熵损失,得到预测损失;用与输入数据维度相同的随机向量作为GAN网络输入,经过编码器网络得到随机向量的样本z2,用全连接真实样本预测网络得到输出,与真值0计算交叉熵损失,得到预测损失。
进一步地,度量学习损失具体为:对样本z进行计算对比学习损失或triplet损失。
进一步地,目标预测损失具体为:用样本z作为全连接预测网络的输入,用输出和数据j与检索数据I之间的距离d_j_I计算交叉熵损失,得到预测损失。
第二方面,本发明还提供了一种基于贝叶斯优化的数据检索装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现所述的基于贝叶斯优化的数据检索方法的步骤。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于贝叶斯优化的数据检索方法的步骤。
本发明的有益效果:本发明应用于海量数据的相似检索,不需要大规模的对比、大量的训练数据和建立特征索引的过程,可在有限的训练、拟合、采样步骤后得到与输入数据最相似的检索结果。
附图说明
图1为本发明提供的一种基于贝叶斯优化的数据检索方法流程图。
图2为本发明高斯过程模型迭代示意图。
图3为本发明提供的一种基于贝叶斯优化的数据检索装置结构示意图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种基于贝叶斯优化的数据检索方法,具体步骤如下:
1.对一条检索数据I,在待检索的数据集中随机选取一部分数据作为训练集,计算训练集中每条数据j与检索数据I之间的距离d_j_I,用数据与距离形成的数据对(j, d_j_I)构成训练集;假设应用场景中有大量数据,两条数据之间的相似距离度量方法score_function,如图像数据的度量方法为余弦距离或jaccard距离,推荐场景中数据的度量方法为人物与物品属性向量之间的距离。
2.利用GAN网络训练隐空间,对数据特征空间压缩;
计算数据重建损失、KL散度损失、度量学习损失、目标预测损失、真实和生成数据预测损失,训练GAN网络,GAN网络包括编码器网络和解码器网络。编码器网络通过一系列卷积和全连接网络将数据维度d压缩到lat维,输出2个lat维的向量u和std,分别表示检索数据I经过编码之后的均值和方差。解码器网络通过一系列反卷积和全连接网络从一个lat维的向量得到d维数据。将检索数据I输入GAN网络,基于GAN网络编码层输出按照高斯分布随机采样得到样本z,建立以样本z为输入,数据j与检索数据I之间的距离d_j_I为输出的全连接预测网络,并建立以样本z为输入,用0和1为输出表示为生成和真实样本的全连接真实样本预测网络。
用全部数据集GAN网络作为输入,计算如下损失:
数据重建损失:GAN网络输入检索数据I,通过编码器网络得到向量u和std,按照分布u和std随机采样得到样本z,用二分类用的交叉熵损失函数BCE对样本z和检索数据I计算数据重建损失;
KL散度损失:计算u和std表示的分布与样本z表示的分布之间的KL散度;
真实和生成数据预测损失:输入样本z,用全连接真实样本预测网络得到输出,与真值1计算交叉熵损失,得到预测损失。用与输入数据维度相同的随机向量作为GAN网络输入,经过编码器网络得到随机向量的样本z2,用全连接真实样本预测网络得到输出,与真值0计算交叉熵损失,得到预测损失。
用训练数据集作为输入,计算如下损失:
度量学习损失:对样本z进行计算对比学习损失或triplet损失;
目标预测损失:用样本z作为全连接预测网络的输入,用输出和数据j与检索数据I之间的距离d_j_I计算交叉熵损失,得到预测损失;
3.训练高斯过程模型:
用训练后的GAN网络的编码器得到训练集数据j的隐空间表示向量z_j,用高斯过程对向量数据集(z_j, d_j_I)进行拟合,得到高斯过程模型;
4. 基于贝叶斯优化过程,迭代地拟合高斯过程模型、采样新数据,如图2所示,具体如下:
利用高斯过程模型,通过最优化采样函数(如EI(Expected Improvement))对向量数据集进行采样,得到使得采样函数最大的隐空间上的q(如q=20)个新的样本z;
用GAN网络的解码器网络对样本z解码,得到一组数据j2,将其中不存在于待检索的数据集中的数据去除后,用距离函数得到采样点与检索数据I的距离d_j2_I,将(j2,d_j2_I)新增到训练集中,返回步骤(3)重新训练高斯过程模型,重复这一过程直到与检索数据I距离小于阈值,或达到最大迭代次数;
如果计算过程中采样点与检索数据I距离小于阈值,则将迭代得到的新的采样点中距离d_j2_I小于阈值的点j2作为本次检索的结果。若迭代过程中如果达到了最大迭代次数,则直接取目前为止采样点中与检索数据I距离最近的作为数据检索的结果。
结合应用场景的具体实施例:
以一个表达式检索的场景为例对本发明进行解释说明,输入的检索表达式为1/3+(x)+sin(x*x),从一个10万条表达式的数据集中检索,该表达式中的x在[-10,10]区间上1000个平均间隔点上的取值时得到对应的表达式结果y,y为1000维,该表达式与另一表达式结果y2的距离计算为log(1+(y-y2)^2)。
在数据集的表达式中随机取3000个与输入表达式计算距离后得到训练数据,训练GAN网络。用GAN对训练数据得到对应的隐空间向量,维度为25,对如下贝叶斯优化过程循环执行进行50轮,得到新的50个检索数据,或达到距离阈值提前退出:
拟合100轮得到新的高斯过程模型:基于高斯过程模型,通过EI函数采样1个隐空间表达式,如[-0.0291, -0.0343, 0.0093, 0.0214, 0.0126, 0.0226, -0.0848, -0.0368, 0.0211, 0.1267, 0.0406, 0.0222, 0.0239, 0.0025, 0.0333, -0.0072,0.0097, -0.0147, 0.0591, 0.0036, 0.0243, 0.0037, -0.0013, 0.1101, -0.0075],用GAN解码得到表达式1/1+(x)+(x+1),与输入表达式的距离3.62337,加入训练数据中,拟合100轮得到新的高斯过程模型。
贝叶斯优化过程循环进行50轮后,若没有找到阈值以内的表达式,则用新增的数据重新训练GAN,再执行如上50轮贝叶斯优化,直到找到或达到最大查询次数,返回距离最近的表达式。例如,在第15轮的时候得到检索结果表达式x+1/3+sin(x*x),和输入表达式距离小于距离阈值0.01,得到检索结果。
与前述基于贝叶斯优化的数据检索方法的实施例相对应,本发明还提供了基于贝叶斯优化的数据检索装置的实施例。
参见图3,本发明实施例提供的一种基于贝叶斯优化的数据检索装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于贝叶斯优化的数据检索方法。
本发明基于贝叶斯优化的数据检索装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明基于贝叶斯优化的数据检索装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于贝叶斯优化的数据检索方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (10)

1.一种基于贝叶斯优化的数据检索方法,其特征在于,该方法包括以下步骤:
(1)对于一条检索数据I,在待检索的数据集中随机选取一部分数据作为训练集,计算训练集中每条数据j与检索数据I之间的距离d_j_I,用数据j和数据j与检索数据I之间的距离d_j_I形成的数据对(j, d_j_I)构成训练集;
(2)将检索数据I输入GAN网络,基于GAN网络编码层输出按照高斯分布随机采样得到样本z,建立以样本z为输入,数据j与检索数据I之间的距离d_j_I为输出的全连接预测网络;同时建立以样本z为输入,用0和1为输出表示为生成和真实样本的全连接真实样本预测网络;计算数据重建损失、KL散度损失、度量学习损失、目标预测损失、真实和生成数据预测损失,训练GAN网络;
(3)用训练后的GAN网络的编码器得到训练集中数据j的隐空间表示向量z_j,将隐空间表示向量z_j和数据j与检索数据I之间的距离d_j_I构建向量数据集(z_j, d_j_I),用高斯过程对该向量数据集(z_j, d_j_I)进行拟合,得到高斯过程模型;
(4)基于贝叶斯优化过程,迭代地拟合高斯过程模型、采样新数据,具体为:通过最优化采样函数对向量数据集进行采样,得到使得采样函数最大的隐空间上的q个样本z;用GAN网络的解码器对样本z解码,得到一组数据j2,将其中不存在于待检索的数据集中的数据去除后,用距离函数得到采样点与检索数据I的距离d_j2_I,将(j2,d_j2_I)新增到训练集中,返回步骤(3)重新训练高斯过程模型,重复这一过程直到与检索数据I的距离小于阈值;迭代得到的采样点中距离d_j2_I小于阈值的点作为数据检索的结果。
2.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法,其特征在于,步骤(4)中,迭代过程中如果达到了最大迭代次数,则直接取目前为止采样点中与检索数据I距离最近的作为数据检索的结果。
3.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法,其特征在于,两条数据之间的相似距离度量方法为score_function。
4.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法,其特征在于,数据重建损失具体为:检索数据I输入GAN网络,通过编码网络得到向量u和std,u和std分别表示检索数据I经过编码之后的均值和方差,按照高斯分布随机采样得到样本z,用二分类用的交叉熵损失函数BCE对样本z和检索数据I计算数据重建损失。
5.根据权利要求4所述的一种基于贝叶斯优化的数据检索方法,其特征在于,KL散度损失具体为:计算u和std表示的分布与样本z表示的分布之间的KL散度。
6.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法,其特征在于,真实和生成数据预测损失具体为:输入样本z,用全连接真实样本预测网络得到输出,与真值1计算交叉熵损失,得到预测损失;用与输入数据维度相同的随机向量作为GAN网络输入,经过编码器网络得到随机向量的样本z2,用全连接真实样本预测网络得到输出,与真值0计算交叉熵损失,得到预测损失。
7.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法,其特征在于,度量学习损失具体为:对样本z进行计算对比学习损失或triplet损失。
8.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法,其特征在于,目标预测损失具体为:用样本z作为全连接预测网络的输入,用输出和数据j与检索数据I之间的距离d_j_I计算交叉熵损失,得到预测损失。
9.一种基于贝叶斯优化的数据检索装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,用于实现如权利要求1-8中任一项所述的基于贝叶斯优化的数据检索方法的步骤。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现如权利要求1-8中任一项所述的基于贝叶斯优化的数据检索方法的步骤。
CN202210788585.2A 2022-07-06 2022-07-06 一种基于贝叶斯优化的数据检索方法及装置 Pending CN114880360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210788585.2A CN114880360A (zh) 2022-07-06 2022-07-06 一种基于贝叶斯优化的数据检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210788585.2A CN114880360A (zh) 2022-07-06 2022-07-06 一种基于贝叶斯优化的数据检索方法及装置

Publications (1)

Publication Number Publication Date
CN114880360A true CN114880360A (zh) 2022-08-09

Family

ID=82683003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210788585.2A Pending CN114880360A (zh) 2022-07-06 2022-07-06 一种基于贝叶斯优化的数据检索方法及装置

Country Status (1)

Country Link
CN (1) CN114880360A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807114A (zh) * 2024-03-01 2024-04-02 深圳市快金数据技术服务有限公司 物流信息智慧检索方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807114A (zh) * 2024-03-01 2024-04-02 深圳市快金数据技术服务有限公司 物流信息智慧检索方法、系统、设备及存储介质
CN117807114B (zh) * 2024-03-01 2024-05-07 深圳市快金数据技术服务有限公司 物流信息智慧检索方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111010592B (zh) 一种视频推荐方法、装置、电子设备及存储介质
CN114329109B (zh) 基于弱监督哈希学习的多模态检索方法及系统
CN111651668B (zh) 用户画像的标签生成方法及装置、存储介质、终端
CN111914950B (zh) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN115391578A (zh) 一种跨模态图文检索模型训练方法及系统
CN114880360A (zh) 一种基于贝叶斯优化的数据检索方法及装置
CN115408558A (zh) 基于多尺度多示例相似度学习的长视频检索方法及装置
Zhang et al. Irgen: Generative modeling for image retrieval
KR102615073B1 (ko) 유사도 검색을 위한 신경 해싱
CN113989697B (zh) 基于多模态自监督深度对抗网络的短视频分类方法及装置
CN113761124B (zh) 文本编码模型的训练方法、信息检索方法及设备
CN114417161A (zh) 基于异构图的虚拟物品时序推荐方法、装置、介质及设备
Xiao et al. Plug-and-play document modules for pre-trained models
US11755671B2 (en) Projecting queries into a content item embedding space
CN115221960A (zh) 基于双向Transformers的推荐模型的训练方法、训练装置和推荐方法
Mahmoud et al. A comparison of mutual information, linear models and deep learning networks for protein secondary structure prediction
CN110377822B (zh) 用于网络表征学习的方法、装置及电子设备
CN115544379A (zh) 基于四元数图卷积神经网络的推荐方法和装置
CN110309235B (zh) 一种数据处理方法、装置、设备及介质
CN116089491B (zh) 基于时序数据库的检索匹配方法和装置
CN117892801B (zh) 域名生成模型的训练方法、钓鱼网站发现方法及相关装置
Mu et al. TSC-AutoML: meta-learning for automatic time series classification algorithm selection
Lee et al. Unsupervised soft-to-hard hashing with contrastive learning
Zhang et al. PrivFR: Privacy-Enhanced Federated Recommendation With Shared Hash Embedding
CN114154037A (zh) 一种基于聚合相似度的深度哈希的不平衡商标检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220809