CN113837260A

CN113837260A - 模型训练方法、对象匹配方法、装置及电子设备

Info

Publication number: CN113837260A
Application number: CN202111094800.0A
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-24

Abstract

本公开提供了一种模型训练方法、对象匹配方法、装置及电子设备及可读存储介质，涉及人工智能技术领域，尤其涉及机器学习技术领域。具体实现方案为：确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本和键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本以及至少一个与所述查询项样本不同的负例训练样本；基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络和第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。

Description

模型训练方法、对象匹配方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及机器学习技术领域，进一步涉及一种模型训练方法、对象匹配方法、装置及电子设备。

背景技术

随着人工智能技术的发展，通常，各不同的应用场景下需要训练相应的人工智能模型，如何有效提高训练出的人工智能模型的性能成为了一个亟待解决的问题。

发明内容

本公开提供了一种模型训练方法、对象匹配方法、装置及电子设备。

根据本公开的第一方面，提供了一种模型训练方法，包括：

确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本和键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本以及至少一个与所述查询项样本不同的负例训练样本；

基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络和第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。

根据本公开的第二方面，提供了一种对象匹配方法，包括：

确定目标对象，以及确定所述目标对象的待匹配候选对象；

基于预训练的目标匹配模型的第一编码网络提取所述目标对象的目标对象特征，以及基于所述目标匹配模型的第二编码网络提取所述待匹配候选对象的候选对象特征；所述目标匹配模型为根据第一方面训练得到的目标匹配模型；

基于所述目标对象特征与所述候选对象特征确定所述目标对象与所述待匹配候选对象的匹配结果。

根据本公开的第三方面，提供了一种模型训练方法，包括：

第一确定模块，用于确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本和键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本以及至少一个与所述查询项样本不同的负例训练样本；

训练模块，用于基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络和第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。

根据本公开的第四方面，提供了一种对象匹配装置，包括：

第二确定模块，用于确定目标对象，以及确定所述目标对象的待匹配候选对象；

提取模块，用于基于预训练的目标匹配模型的第一编码网络提取所述目标对象的目标对象特征，以及基于所述目标匹配模型的第二编码网络提取所述待匹配候选对象的候选对象特征；所述目标匹配模型为根据第一方面训练得到的目标匹配模型；

第三确定模块，用于基于所述目标对象特征与所述候选对象特征确定所述目标对象与所述待匹配候选对象的匹配结果。

根据本公开的第五方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与上述至少一个处理器通信连接的存储器；其中，

存储器存储有可被上述至少一个处理器执行的指令，指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行上述方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使计算机执行上述方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述方法。

本公开提供的技术方案带来的有益效果是：

本公开实施例提供的方案，本公开通过确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本和键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本以及至少一个与所述查询项样本不同的负例训练样本；基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络和第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。即确定第一编码网络的第一网络参数后，通过动量更新的方式确定第二编码网络的第二网络参数，也即利用第一网络参数来确定第二网络参数，避免确定第二参数时进行重复计算，进而能够加速目标匹配模型的收敛速度，提升了目标匹配模型的训练效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开提供的模型训练方法流程示意图；

图2是根据本公开提供的模型训练示例图；

图3是根据本公开提供的对象匹配方法流程示意图；

图4是根据本公开提供的模型训练装置的结构示意图；

图5是根据本公开提供的对象匹配装置的结构示意图；

图6是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1示出了本公开实施例提供的一种模型训练方法，如图1所示，包括：

步骤S101，确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本和键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本、以及至少一个与所述查询项样本不同的负例训练样本；

具体地，目标匹配模型的训练，需要相应的训练样本，对于本公开，需要多个训练样本对来进行目标匹配模型的训练；其中，各个训练样本对包括查询项样本(即qurey)、键值项样本(即key)，所述键值项样本包括与查询项样本相同的正例训练样本、以及至少一个与所述查询项样本不同的负例训练样本。

示例性地，比如有A、B、C、D、E五个训练样本，训练样本集合的构建可以是：1.A作为查询项样本，A、B、C、D、E为键值项样本，其中，键值项样本中的A为查询项样本的正例训练样本，键值项样本中的B、C、D、E为查询项样本的负例训练样本；

2.B作为查询项样本，A、B、C、D、E为键值项样本，其中，键值项样本中的B为查询项样本的正例训练样本，键值项样本中的A、C、D、E为查询项样本的负例训练样本；

3.C作为查询项样本，A、B、C、D、E为键值项样本，其中，键值项样本中的C为查询项样本的正例训练样本，键值项样本中的A、B、D、E为查询项样本的负例训练样本；

其中，查询项样本A与键值项样本A、B、C、D、E为一个训练样本对；查询项样本B与键值项样本A、B、C、D、E为一个训练样本对；查询项样本C与键值项样本A、B、C、D、E为一个训练样本对。

其中，可以根据得到的训练样本(如A、B、C、D、E)，进行相应的排列组合，得到相应的样本对组合，进而进行后续的训练。

步骤S102，基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络、第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。

其中，机器学习大致可以分为有监督学习、无监督学习、半监督学习；监督学习指的是训练数据中每个样本都有标签，通过标签可以指导模型进行学习，学到具有判别性的特征，从而对未知样本进行预测；无监督学习指的是训练数据完全没有标签，通过算法从数据中发现一些数据之间的约束关系，比如数据之间的关联、距离关系等。典型的无监督算法如聚类，根据一定的度量指标，将“距离”相近的样本聚集在一起。半监督学习，指的是介于监督学习和无监督学习之间的一种学习方式，它的训练数据既包含有标签数据，也包含无标签数据。

其中，本公开采用无监督学习的方式进行模型的训练，其中，目标匹配模型可以包括第一编码网络和第二编码网络；其中，可选的，第一编码网络、第二编码网络可以是并列的两个网络，即两个网络是相互独立的，分别单独完成特征的提取。其中，训练的过程，即确定第一编码网络、第二编码网络的网络参数的过程。

其中，可以通过相应的损失函数，根据损失值通过反向传播的方式确定第一编码网络的第一网路参数，然后基于第一编码网络的第一网络参数通过动量更新方法确定所述第二编码网络的第二网络参数。

其中，动量更新在深度学习过程中可以获得不错收敛率的学习方法，该方法的灵感来自物理学，动量是模拟物理中的概念；一般而言，一个物体的动量指的是这个物体在它运动方向上保持运动的趋势，是物体的质量和速度的乘积。当将一个小球从山上滚下来，没有阻力时，它的动量会越来越大(速度越来越快)，但是如果遇到了阻力，速度就会变小。动量优化法就是借鉴此思想，使得梯度方向在不变的维度上，参数更新变快，梯度有所改变时，更新参数变慢，这样就能够加快收敛并且减少动荡。

动量优化法或动量更新方法是用之前积累动量来替代真正的梯度，每次迭代的梯度可以看作是加速度，包括Momentum和Nesterov两种算法。momentum算法思想：参数更新时在一定程度上保留之前更新的方向，同时又利用当前batch的梯度微调最终的更新方向，简言之就是通过积累之前的动量来加速当前的梯度。Nesterov加速梯度(NesterovAccelerated Gradient，NAG)，也叫Nesterov动量法(Nesterov Momentum)，是对Momentum算法的一种改进，可以看成是Momentum算法的一种变体。

本公开实施例提供的方案，通过确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本、键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本、以及至少一个与所述查询项样本不同的负例训练样本；基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络、第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。即确定第一编码网络的第一网络参数后，通过动量更新的方式确定第二编码网络的第二网络参数，也即是说利用第一网络参数来确定第二网络参数，避免确定第二参数时进行重复计算，进而能够加速目标匹配模型的收敛速度，提升了目标匹配模型的训练效率。

本申请实施例提供了一种可能的实现方式，其中，所述训练样本集合的训练样本为视频样本、图像样本或者音频样本。

随着计算机通信和互联网技术的快速发展以及数字化信息广泛应用，版权保护变得日益突出，各大音视频网站、图片网站，都不惜重金购买了大量的独播音视频版权或者图片版权，建立起属于自己的音视频数据库或图片库，如何在海量数据库中及时判断，某个网站视频、音频或者图片是否为己方的盗版视频、音频或者图片就显得十分必要。

对于本公开实施例，训练样本集合的训练样本可以为视频样本、图像样本或者音频样本。即训练的相应的目标匹配模型，可以用于检测他人使用的视频、音频或图像是否为己方的视频、音频或图像。此外，本公开训练的目标匹配模型，还可以应用于视频、音频或图像检索的场景下，以及其他需要进行视频、音频或图像匹配的场景下。

对于本申请实施例，解决了确定视频、音频或图像是否为盗用己方视频、音频或图像的神经网络模型的训练问题。

本申请实施例提供了一种可能的实现方式，其中，所述第一编码网络用于提取查询项样本的样本特征，所述第二编码网络用于提取键值项样本的样本特征。

示例性地，如图2所示，第一编码网络可以是Encoder网络、第二编码网络可以是Momentum Encoder网络，第一编码网络用于提取查询项样本的样本特征(即q)，所述第二编码网络用于提取键值项样本的样本特征(可以对训练样本对中的键值项中的训练样本分别进行特征提取，其中，正例训练样本的特征为k⁺，负例训练样本的特征为k^-)；其中，第一编码网络与第二编码网络的架构可以相同，也可以不同，其中，第一编码网络可以是VGG神经网络(如VGG16网络)，也可以是其他神经网络，如ResNet网络。

根据训练样本的类型不同，则相应的训练处理有一定的差别，进行相应的调整处理即可，示例性地，如果训练样本为音频样本，可以对音频进行相应的预处理(如分帧等)，然后提取相应的频域上的特征，具体地，还可以对提取的特征进行二阶差分增强处理等。

对于本申请实施例，解决了训练样本的特征的提取问题。

本申请实施例提供了一种可能的实现方式，其中，采用目标损失函数训练所述目标匹配模型，其中，所述目标损失函数为同构比较损失函数，所述同构比较损失函数用于使得查询项样本与所述键值项样本的正例训练样本的相似度小于查询项样本与所述键值项样本的负例训练样本的相似度。

其中，采用目标损失函数训练所述目标匹配模型，其中，所述目标损失函数为同构比较损失函数，从而使得构建的训练空间中，查询项与键值项中正例样本的距离近，与键值项中负例样本的距离远。

具体地到本公开实施例，所述同构比较损失函数用于使得查询项训练样本与所述键值项训练样本的正例训练样本的相似度小于查询项训练样本与所述键值项训练样本的负例训练样本的相似度。

具体地，采用的同构比较损失函数，可以是：

其中，其中τ为超参数，经验值，可以根据实际场景配置，一般取为0.06，q为查询向量，k⁺，k^-为待比较的特征向量，k⁺与q来自与同一样本，称为正样本，k^-与q来自不同样本，称为负样本，{k^-}表示若干个负样本的集合，L为损失函数，目标是最小化该值，即让q与k⁺距离小(q*k⁺值增大)，与k-距离大(q*k⁺值减小)。

对于本申请实施例，通过同构比较损失函数，缩小查询项与键值项中正例样本的距离，拉大与键值项中负例样本的距离，从而避免后续应用中，由于目标对象与多个待匹配目标对象比较相似，从而其向量距离都比较近，从而出现误匹配的问题。

本申请实施例提供了一种可能的实现方式，其中，可以通过如下方式确定第一编码网络的第一网络参数，包括：

基于梯度下降方法确定所述第一编码网络的第一网络参数。

梯度下降是迭代法的一种，可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降(Gradient Descent)是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。

对于本申请实施例，解决了如何进行模型优化的问题。

本申请实施例提供了一种可能的实现方式，其中，可以通过如下公式确定所述第二编码网络的第二网络参数，

θ_k+1＝mθ_k+(1-m)θ_q

基于确定的第一编码网络的第一网络参数确定第二编码网络的第二网络参数；其中，θ_k+1表示新的第二网络参数，θ_k表示当前的第二网络参数，即可以根据当前的第二网络参数θ_k以及θ_q，确定新的第二网络参数，并进一步地，根据新的第二网络参数θ_k+1，对网络进一步进行训练；θ_q表示第一网络参数，m表示动量系数，m∈[0，1)；其中，k表示对应的键值项样本(key)，θ_k、θ_k+1表示提取键值项样本特征的第二编码网络的第二网络参数；q表示对应的查询项样本特征(qurey)，θ_q表示提取查询项样本特征的第一编码网络的第一网络参数。

对于本申请实施例，解决了如何通过动量更新的方法确定第二网络参数的问题。

实施例二

本公开实施例提供了一种对象匹配方法，如图3所示，包括：

步骤S301，确定目标对象，以及确定所述目标对象的待匹配候选对象；

步骤S302，基于预训练的目标匹配模型的第一编码网络提取所述目标对象的目标对象特征，以及基于所述目标匹配模型的第二编码网络提取所述待匹配候选对象的候选对象特征；所述目标匹配模型为实施例一训练得到的目标匹配模型；

步骤S302，基于所述目标对象特征与所述候选对象特征确定所述目标对象与所述待匹配候选对象的匹配结果。

其中，所述目标对象、待匹配候选对象为视频样本、图像样本或者音频样本。

示例性地，以目标对象为音乐的音频，以判断目标对象(即目标音频)是否为盗版音频为例，待匹配候选对象可以是一个音频，也可以是多个音频。可以基于预训练的目标匹配模型的第一编码网络提取所述目标音频的目标音频特征，以及基于所述目标匹配模型的第二编码网络提取所述待匹配候选对象的候选音频特征；然后计算目标音频特征与候选音频特征的相似度(即向量距离)，如果相似度越高(向量距离小于预定阈值)，则说明两个音频为同一音频，则说明是使用方盗用了己方的音频；如果相似度较低(向量距离大于预定阈值)，则说明两个音频不是同一音频，则说明使用方未盗用己方的音频。

对于本申请实施例，解决了视频样本、图像样本或者音频样本等目标对象是否为盗用的确定问题。

本公开实施例提供了一种模型训练装置，如图4所示，包括：

第一确定模块401，用于确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本和键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本以及至少一个与所述查询项样本不同的负例训练样本；

训练模块402，用于基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络和第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。可选地，第一编码网络和第二编码网络可以是并列的两个网络，即两个网络是相互独立的，分别单独完成特征的提取。

本公开实施例提供了一种可能的实现方式，其中，所述训练样本集合的训练样本为视频样本、图像样本或者音频样本。

本公开实施例提供了一种可能的实现方式，其中，所述训练模块，还用于基于梯度下降方法确定所述第一编码网络的第一网络参数。

本公开实施例提供了一种可能的实现方式，其中，所述训练模块，还用于通过如下公式，

θ_k+1＝mθ_k+(1-m)θ_q

基于确定的第一编码网络的第一网络参数确定第二编码网络的第二网络参数；θ_k+1表示新的第二网络参数，θ_k表示当前的第二网络参数，θ_q表示第一网络参数，m表示动量系数，m∈[0，1)；其中，k表示对应的键值项样本(key)，θ_k、θ_k+1表示提取键值项样本特征的第二编码网络的第二网络参数；q表示对应的查询项样本特征(qurey)，θ_q表示提取查询项样本特征的第一编码网络的第一网络参数。

本公开实施例提供了一种可能的实现方式，其中，所述第一编码网络用于提取查询项样本的样本特征，所述第二编码网络用于提取键值项样本的样本特征。

本公开实施例提供了一种可能的实现方式，其中，采用目标损失函数训练所述目标匹配模型，其中，所述目标损失函数为同构比较损失函数，所述同构比较损失函数用于使得查询项样本与所述键值项样本的正例训练样本的相似度小于查询项样本与所述键值项样本的负例训练样本的相似度。

本申请实施例提供了一种对象匹配装置，如图5所示，包括：

第二确定模块501，用于确定目标对象，以及确定所述目标对象的待匹配候选对象；

提取模块502，用于基于预训练的目标匹配模型的第一编码网络提取所述目标对象的目标对象特征，以及基于所述目标匹配模型的第二编码网络提取所述待匹配候选对象的候选对象特征；所述目标匹配模型为根据实施例一训练得到的目标匹配模型；

第三确定模块503，用于基于所述目标对象特征与所述候选对象特征确定目标对象与所述待匹配候选对象的匹配结果。

本公开实施例提供了一种可能的实现方式，其中，所述目标对象、待匹配候选对象为视频样本、图像样本或者音频样本。

对于本申请实施例，其实现的有益效果同上述方法实施例，此处不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例提供的方法。

该电子设备，通过确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本、键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本、以及至少一个与所述查询项样本不同的负例训练样本；基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络、第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。即确定第一编码网络的第一网络参数后，通过动量更新的方式确定第二编码网络的第二网络参数，也即是说利用第一网络参数来确定第二网络参数，避免确定第二参数时进行重复计算，进而能够加速目标匹配模型的收敛速度，提升了目标匹配模型的训练效率。

该可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例提供的方法。

该可读存储介质，通过确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本、键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本、以及至少一个与所述查询项样本不同的负例训练样本；基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络、第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。即确定第一编码网络的第一网络参数后，通过动量更新的方式确定第二编码网络的第二网络参数，也即是说利用第一网络参数来确定第二网络参数，避免确定第二参数时进行重复计算，进而能够加速目标匹配模型的收敛速度，提升了目标匹配模型的训练效率。

该计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开的第一方面中所示的方法。

该计算机程序产品，通过确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本、键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本、以及至少一个与所述查询项样本不同的负例训练样本；基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络、第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更新方法确定。即确定第一编码网络的第一网络参数后，通过动量更新的方式确定第二编码网络的第二网络参数，也即是说利用第一网络参数来确定第二网络参数，避免确定第二参数时进行重复计算，进而能够加速目标匹配模型的收敛速度，提升了目标匹配模型的训练效率。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口607也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如方法模型训练方法或对象匹配方法。例如，在一些实施例中，方法模型训练方法或对象匹配方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元607。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的方法模型训练方法或对象匹配方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法模型训练方法或对象匹配方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述训练样本集合的训练样本为视频样本、图像样本或者音频样本。

3.根据权利要求1所述的方法，其中，通过以下方式确定第一编码网络的第一网络参数：

基于梯度下降方法确定所述第一编码网络的第一网络参数。

4.根据权利要求1所述的方法，其中，通过以下公式确定所述第二编码网络的第二网络参数：

θ_k+1＝mθ_k+(1-m)θ_q

θ_k+1表示新的第二网络参数，θ_k表示当前第二网络参数，θ_q表示第一网络参数，m表示动量系数，m∈[0，1)。

5.根据权利要求1-4中任一项所述的方法，其中，所述第一编码网络用于提取查询项样本的样本特征，所述第二编码网络用于提取键值项样本的样本特征。

6.根据权利要求1-5任一项所述的方法，其中，所述基于所述训练样本集合通过无监督训练方法训练目标匹配模型包括：

采用目标损失函数训练所述目标匹配模型，其中，所述目标损失函数为同构比较损失函数，所述同构比较损失函数用于使得查询项样本与所述键值项样本的正例训练样本的相似度小于查询项样本与所述键值项样本的负例训练样本的相似度。

7.一种对象匹配方法，包括：

确定目标对象，以及确定所述目标对象的待匹配候选对象；

基于预训练的目标匹配模型的第一编码网络提取所述目标对象的目标对象特征，以及基于所述目标匹配模型的第二编码网络提取所述待匹配候选对象的候选对象特征；所述目标匹配模型为根据权利要求1-6任一项训练得到的目标匹配模型；

8.一种模型训练装置，包括：

第一确定模块，用于确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本和键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本、以及至少一个与所述查询项样本不同的负例训练样本；

9.根据权利要求8所述的装置，其中，所述训练样本集合的训练样本为视频样本、图像样本或者音频样本。

10.根据权利要求8所述的装置，其中，所述训练模块，还用于基于梯度下降方法确定所述第一编码网络的第一网络参数。

11.根据权利要求8所述的装置，其中，所述训练模块，还用于通过如下公式，

θ_k+1＝mθ_k+(1-m)θ_q

基于确定的第一编码网络的第一网络参数确定第二编码网络的第二网络参数；其中，θ_k+1表示新的第二网络参数，θ_k表示当前的第二网络参数，θ_q表示第一网络参数，m表示动量系数，m∈[0，1)。

12.根据权利要求8-11任一项所述的装置，其中，所述第一编码网络用于提取查询项样本的样本特征，所述第二编码网络用于提取键值项样本的样本特征。

13.根据权利要求8-12任一项所述的装置，其中，采用目标损失函数训练所述目标匹配模型，其中，所述目标损失函数为同构比较损失函数，所述同构比较损失函数用于使得查询项样本与所述键值项样本的正例训练样本的相似度小于查询项样本与所述键值项样本的负例训练样本的相似度。

14.一种对象匹配装置，包括：

提取模块，用于基于预训练的目标匹配模型的第一编码网络提取所述目标对象的目标对象特征，以及基于所述目标匹配模型的第二编码网络提取所述待匹配候选对象的候选对象特征；所述目标匹配模型为根据权利要求1-6任一项训练得到的目标匹配模型；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。