CN112182292A

CN112182292A - 视频检索模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN112182292A
Application number: CN202011063215.XA
Authority: CN
Inventors: 王书敬; 刘杰; 王正; 管铭; 杨羿; 陈晓冬; 李�一; 刘林; 贺翔; 朱延峰
Original assignee: Baidu China Co Ltd
Current assignee: Baidu China Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-05
Anticipated expiration: 2040-09-30
Also published as: CN112182292B

Abstract

本申请公开了一种视频检索模型的训练方法、装置、电子设备及存储介质，涉及深度学习技术领域。具体方案为：响应于待训练的视频检索模型不满足预先设置的收敛条件，将当前训练样本集合输入至待训练的视频检索模型中，得到当前训练样本集合对应的相关性矩阵；根据当前训练样本集合对应的相关性矩阵计算当前训练样本集合对应的损失函数值；根据当前训练样本集合对应的损失函数值对待训练的视频检索模型进行训练；直到待训练的视频检索模型满足收敛条件为止。本申请可以自动地对训练样本的权重值进行调整，重点学习错误的样本，忽略容易的样本或者已经学习好的样本，从而可以有效地提高视频检索模型的训练效率和准确度，可靠性更高，识别效果更好。

Description

视频检索模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能领域，进一步涉及深度学习技术领域，尤其是一种视频检索模型的训练方法、装置、电子设备及存储介质。

背景技术

基于用户提交的搜索词检索相关的视频内容，在商业应用上具有越来越重要的应用场景。视频检索技术是解决上述问题的有效方法，但是由于视频中包含大量信息，如声音、图像、文本等，如何基于视频中包含的信息进行准确可靠的视频检索是一个需要攻克的难题。

现有技术通常基于视频中包含的信息，如视频标题、视频标签和视频分类信息等，将其转化为语义特征和搜索词语义进行计算，得到搜索词相关的视频；并且，在模型训练方面，一般采用常用的cross-entropy Loss和Triplet-Loss等进行计算。

由于视频中包含的文本无法完整地表示视频内容，因此会导致搜索词和视频的相关性存在差异；而且标签维护成本高、粒度粗、实效性低；并且上述方案对于不同的样本无差别对待，因此也会导致模型训练效率低、识别效果不好。

发明内容

本申请提供了一种视频检索模型的训练方法、装置、电子设备及存储介质，可以自动地对训练样本的权重值进行调整，重点学习错误的样本，忽略容易的样本或者已经学习好的样本，从而可以有效地提高视频检索模型的训练效率和准确度，可靠性更高，识别效果更好。

第一方面，本申请提供了一种视频检索模型的训练方法，所述方法包括：

响应于待训练的视频检索模型不满足预先设置的收敛条件，将当前训练样本集合输入至所述待训练的视频检索模型中，通过所述待训练的视频检索模型得到所述当前训练样本集合对应的相关性矩阵；其中，所述当前训练样本集合包括N个搜索词和N个候选视频；所述相关性矩阵中的第i个搜索词与第i个候选视频相关；第i个搜索词与第i个候选视频以外的候选视频均不相关；N为大于1的自然数；i大于等于1且小于等于N；

根据所述当前训练样本集合对应的相关性矩阵计算所述当前训练样本集合对应的损失函数值；

根据所述当前训练样本集合对应的损失函数值对所述待训练的视频检索模型进行训练；将下一个训练样本集合作为所述当前训练样本集合，重复执行上述操作，直到所述待训练的视频检索模型满足所述收敛条件为止。

第二方面，本申请提供了一种视频检索模型的训练装置，所述装置包括：特征提取模块、计算模块和训练模块；其中，

所述特征提取模块，用于响应于待训练的视频检索模型不满足预先设置的收敛条件，将当前训练样本集合输入至所述待训练的视频检索模型中，通过所述待训练的视频检索模型得到所述当前训练样本集合对应的相关性矩阵；其中，所述当前训练样本集合包括N个搜索词和N个候选视频；所述相关性矩阵中的第i个搜索词与第i个候选视频相关；第i个搜索词与第i个候选视频以外的候选视频均不相关；N为大于1的自然数；i大于等于1且小于等于N；

所述计算模块，用于根据所述当前训练样本集合对应的相关性矩阵计算所述当前训练样本集合对应的损失函数值；

所述训练模块，用于根据所述当前训练样本集合对应的损失函数值对所述待训练的视频检索模型进行训练；将下一个训练样本集合作为所述当前训练样本集合，重复执行上述操作，直到所述待训练的视频检索模型满足所述收敛条件为止。

第三方面，本申请实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请任意实施例所述的视频检索模型的训练方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请任意实施例所述的视频检索模型的训练方法。

根据本申请的技术解决了现有技术在训练视频检索模型时，对不同的样本无差别对待，导致模型训练效率低、识别效果不好的技术问题，本申请提供的技术方案，可以自动地对训练样本的权重值进行调整，重点学习错误的样本，忽略容易的样本或者已经学习好的样本，从而可以有效地提高视频检索模型的训练效率和准确度，可靠性更高，识别效果更好。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的视频检索模型的训练方法的第一流程示意图；

图2是本申请实施例提供的视频检索模型的训练方法的第二流程示意图；

图3是本申请实施例提供的视频检索模型的训练方法的第三流程示意图；

图4是本申请实施例提供的损失函数的优化原理示意图；

图5是本申请实施例提供的视频检索模型的训练装置的结构示意图；

图6是本申请实施例提供的特征提取模块的结构示意图；

图7是用来实现本申请实施例的视频检索模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1是本申请实施例提供的视频检索模型的训练方法的第一流程示意图，该方法可以由视频检索模型的训练装置或者电子设备来执行，该装置或者电子设备可以由软件和/或硬件的方式实现，该装置或者电子设备可以集成在任何具有网络通信功能的智能设备中。如图1所示，视频检索模型的训练方法可以包括以下步骤：

S101、响应于待训练的视频检索模型不满足预先设置的收敛条件，将当前训练样本集合输入至待训练的视频检索模型中，通过待训练的视频检索模型得到当前训练样本集合对应的相关性矩阵。

在本申请的具体实施例中，响应于待训练的视频检索模型不满足预先设置的收敛条件，电子设备可以将当前训练样本集合输入至待训练的视频检索模型中，通过待训练的视频检索模型得到当前训练样本集合对应的相关性矩阵；其中，当前训练样本集合包括N个搜索词和N个候选视频；相关性矩阵中的第i个搜索词和第i个候选视频相关；第i个搜索词与第i个候选视频以外的候选视频均不相关；N为大于1的自然数；i大于等于1且小于等于N。例如，假设当前训练样本集合包括五个搜索词和五个候选视频；五个搜索词分别为：搜索词1、搜索词2、搜索词3、搜索词4和搜索词5；五个候选视频分别为：候选视频1、候选视频2、候选视频3、候选视频4和候选视频5；其中，搜索词1与候选视频1相关；搜索词1与候选视频2、候选视频3、候选视频4、候选视频5均不相关；搜索词2与候选视频2相关；搜索词2与候选视频1、候选视频3、候选视频4、候选视频5均不相关；搜索词3与候选视频3相关；搜索词3与候选视频1、候选视频2、候选视频4、候选视频5均不相关；搜索词4与候选视频4相关；搜索词4与候选视频1、候选视频2、候选视频3、候选视频5均不相关；搜索词5与候选视频5相关；搜索词5与候选视频1、候选视频2、候选视频3、候选视频4均不相关。

具体地，电子设备可以先将当前训练样本集合中的N个候选视频输入至待训练的视频检索模型的视频特征提取网络中，通过视频特征提取网络得到各个候选视频对应的视频语义表征；然后将当前训练样本集合中的N个搜索词输入至待训练的视频检索模型的搜索词特征提取网络中，通过搜索词特征提取网络得到各个搜索词对应的搜索词语义表征；再根据各个候选视频对应的视频语义表征和各个搜索词对应的搜索词语义表征，确定所述当前训练样本集合对应的相关性矩阵。

S102、根据当前训练样本集合对应的相关性矩阵计算当前训练样本集合对应的损失函数值。

在本步骤中，电子设备可以根据当前训练样本集合对应的相关性矩阵计算当前训练样本集合对应的损失函数值。具体地，电子设备可以先在相关性矩阵中分别提取出对角线元素和非对角线元素；然后根据相关性矩阵中的对角线元素和非对角线元素，计算当前训练样本集合对应的损失函数值。

S103、根据当前训练样本集合对应的损失函数值对待训练的视频检索模型进行训练；将下一个训练样本作为当前训练样本集合，重复执行上述操作，直到待训练的视频检索模型满足收敛条件为止。

在本步骤中，电子设备可以根据当前训练样本集合对应的损失函数值对待训练的视频检索模型进行训练；将下一个训练样本作为当前训练样本集合，重复执行上述操作，直到待训练的视频检索模型满足收敛条件为止。具体地，电子设备可以根据当前训练样本集合对应的损失函数值对视频检索模型进行反向传播以逐层调整层级权重直至获取到下一个训练周期的视频检索模型。

本申请实施例提出的视频检索模型的训练方法，响应于待训练的视频检索模型不满足预先设置的收敛条件，先将当前训练样本集合输入至待训练的视频检索模型中，通过待训练的视频检索模型得到当前训练样本集合对应的相关性矩阵；其中，当前训练样本集合包括N个搜索词和N个候选视频；相关性矩阵中的第i个搜索词与第i个候选视频相关；第i个搜索词与第i个候选视频以外的候选视频均不相关；然后根据训练样本对应的相关性矩阵计算当前训练样本集合对应的损失函数值；再根据当前训练样本集合对应的损失函数值对待训练的视频检索模型进行训练；直到待训练的视频检索模型满足收敛条件为止。也就是说，训练样本中的N和搜索词和N个候选视频可以组成一个训练样本矩阵，该在训练样本矩阵中，对角线元素相关；而非对角线元素均不相关。基于上述训练样本集合进行模型训练时，可以自动地对训练样本集合中的各个样本的权重值进行调整，重点学习错误的样本，忽略容易的样本或者已经学习好的样本。而在现有的视频检索模型的训练方法中，对不同的样本无差别对待，导致模型训练效率低、识别效果不好。因为本申请采用了通过特定结构的训练样本集合对视频检索模型进行训练的技术手段，克服了现有技术中在训练视频检索模型时，对不同的样本无差别对待，导致模型训练效率低、识别效果不好的技术问题，本申请提供的技术方案，可以自动地对训练样本的权重值进行调整，重点学习错误的样本，忽略容易的样本或者已经学习好的样本，从而可以有效地提高视频检索模型的训练效率和准确度，可靠性更高，识别效果更好；并且，本申请实施例的技术方案实现简单方便、便于普及，适用范围更广。

实施例二

图2是本申请实施例提供的视频检索模型的训练方法的第二流程示意图。基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2所示，视频检索模型的训练方法可以包括以下步骤：

S201、响应于待训练的视频检索模型不满足预先设置的收敛条件，将当前训练样本集合中的N个候选视频输入至待训练的视频检索模型的视频特征提取网络中，通过视频特征提取网络得到各个候选视频对应的视频语义表征。

在本步骤中，响应于待训练的视频检索模型不满足预先设置的收敛条件，电子设备可以将当前训练样本集合中的N个候选视频输入至待训练的视频检索模型的视频特征提取网络中，通过视频特征提取网络得到各个候选视频对应的视频语义表征。具体地，电子设备可以通过视频特征提取网络先在各个候选视频中提取至少一个关键帧；然后在各个关键帧中提取出区域稠密特征和检测框位置信息特征；其中，检测框位置信息特征至少包括：检测框左上点坐标、检测框右下点坐标、检测框的面积占关键帧的面积的比例；再基于各个关键帧的区域稠密特征和检测框位置信息特征得到各个候选视频对应的视频语义表征。具体地，电子设备可以通过Resnet101在各个关键帧中提取出区域稠密特征和检测框位置信息特征。

S202、将当前训练样本集合中的N个搜索词输入至待训练的视频检索模型的搜索词特征提取网络中，通过搜索词特征提取网络得到各个搜索词对应的搜索词语义表征。

在本步骤中，电子设备可以将当前训练样本集合中的N个搜索词输入至待训练的视频检索模型的搜索词特征提取网络中，通过搜索词特征提取网络得到各个搜索词对应的搜索词语义表征。具体地，电子设备可以通过搜索词特征提取网络将当前搜索词划分为至少一个分词；并获取各个分词的初始特征；再将各个分词的初始特征输入至预先训练好的编解码器中，通过编解码器得到各个搜索词对应的搜索词语义表征。

S203、根据各个候选视频对应的视频语义表征和各个搜索词对应的搜索词语义表征，确定当前训练样本集合对应的相关性矩阵。

在本步骤中，电子设备可以根据各个候选视频对应的视频语义表征和各个搜索词对应的搜索词语义表征，确定当前训练样本集合对应的相关性矩阵。具体地，电子设备可以先在当前训练样本集合中分别提取出一个搜索词和一个候选视频作为当前搜索词和当前候选视频；然后将当前搜索词对应的搜索词语义表征和当前候选视频对应的视频语义表征输入至预先训练好的特征交叉层网络中，通过特征交叉层网络得到当前搜索词与当前候选视频的相关性结果；重复执行上述操作，直到得到各个搜索词和各个候选视频的相关性结果；其中，相关性结果包括：相关或者不相关；再基于各个搜索词和各个候选视频的相关性结果，得到当前训练样本集合对应的相关性矩阵。

具体地，电子设备可以先通过特征交叉层网络将当前搜索词对应的搜索词语义表征和当前候选视频对应的视频语义表征进行语义对齐，得到语义对齐后的当前搜索词对应的搜索词语义表征和当前候选视频对应的视频语义表征；然后通过特征交叉层网络将语义对齐后的当前搜索词对应的搜索词语义表征和当前候选视频对应的视频语义表征进行反复交叉，得到当前搜索词对应的新的搜索词语义表征和当前候选视频对应的新的视频语义表征；再根据当前搜索词对应的新的搜索词语义表征和当前候选视频对应的新的视频语义表征，计算出当前搜索词与当前候选视频的相关性结果。

具体地，电子设备可以在当前搜索词中提取出一个分词作为当前分词；在当前候选视频中提取出一个检测框作为当前检测框；响应于当前分词与当前检测框相关，电子设备可以将当前分词对应的原始的分词语义表征变换为一个新的基于当前检测框的分词语义表征，将新的基于当前检测框的分词语义表征作为当前分词对应的目标分词语义表征；并将当前检测框对应的原始的检测框语义表征变换为一个新的基于当前分词的检测框语义表征，将新的基于当前分词的检测框语义表征作为当前检测框对应的目标检测框语义表征；响应于当前分词与当前检测框不相关，电子设备可以将当前分词对应的原始的分词语义表征作为当前分词对应的目标分词语义表征；并将当前检测框对应的原始的检测框语义表征作为当前检测框对应的目标检测框语义表征；重复执行上述操作，直到得到各个分词对应的目标分词语义表征和各个检测框对应的目标检测框语义表征；最后基于各个分词对应的目标分词语义表征确定出当前搜索词对应的新的搜索词语义表征；基于各个检测框对应的目标检测框语义表征确定出当前候选视频对应的新的视频语义表征。

具体地，电子设备在确定出当前搜索词对应的新的搜索词语义表征以及当前候选视频对应的新的视频语义表征之后，根据当前搜索词对应的新的搜索词语义表征以及当前候选视频对应的新的视频语义表征，基于注意力attention机制计算出当前搜索词语当前候选视频的相关性分值；然后根据该相关性分值与预先确定的相关性阈值，确定出当前搜索词语当前候选视频的相关性。具体地，当前搜索词对应的新的搜索词语义表征可以是一个X1×Y的矩阵；X1表示当前搜索词中包括的分词的个数；Y表示每个分词有Y个维度；例如，当前搜索词对应的新的搜索词语义表征可以为10×128。另外，当前候选视频对应的新的视频语义表征可以是一个X2×Y的矩阵；X2表示当前候选视频中包括的搜索框的个数；Y表示每个搜索框有Y个维度；例如，当前候选视频对应的新的视频语义表征可以为15×128。然后电子设备可以基于attention机制以当前搜索词对应的新的搜索词语义表征为基准，将当前候选视频对应的新的视频语义表征变换为一个X1×Y的矩阵；也可以以当前候选视频对应的新的视频语义表征为基准，将当前搜索词对应的新的搜索词语义表征变换为一个X2×Y的矩阵。例如，电子设备可以将当前候选视频对应的新的视频语义表征变换为一个10×128的矩阵；然后基于两个X1×Y或者两个X2×Y的矩阵，计算每一行的余弦距离；基于X1行的余弦距离或者X2行的余弦距离计算出当前搜索词语当前候选视频的相关性分值。具体地，电子设备可以通过求最大值、求和、求平均值的方式计算出当前搜索词语当前候选视频的相关性分值。

S204、根据训练样本对应的相关性矩阵计算当前训练样本集合对应的损失函数值。

S205、根据当前训练样本集合对应的损失函数值对待训练的视频检索模型进行训练；将下一个训练样本作为当前训练样本集合，重复执行上述操作，直到待训练的视频检索模型满足收敛条件为止。

实施例三

图3是本申请实施例提供的视频检索模型的训练方法的第三流程示意图。基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图3所示，视频检索模型的训练方法可以包括以下步骤：

S301、响应于待训练的视频检索模型不满足预先设置的收敛条件，将当前训练样本集合中的N个候选视频输入至待训练的视频检索模型的视频特征提取网络中，通过视频特征提取网络得到各个候选视频对应的视频语义表征。

S302、将当前训练样本集合中的N个搜索词输入至待训练的视频检索模型的搜索词特征提取网络中，通过搜索词特征提取网络得到各个搜索词对应的搜索词语义表征。

S303、根据各个候选视频对应的视频语义表征和各个搜索词对应的搜索词语义表征，确定当前训练样本集合对应的相关性矩阵。

S304、在相关性矩阵中分别提取出对角线元素和非对角线元素。

在本步骤中，电子设备可以在相关性矩阵中分别提取出对角线元素和非对角线元素。当前训练样本集合中的N个搜索词和N个候选视频可以组成一个方阵，因此，当前训练样本集合对应的相关性矩阵也是一个方阵，所以电子设备可以在相关性矩阵中分别提取出对角线元素和非对角线元素。

S305、根据相关性矩阵中的对角线元素和非对角线元素，计算当前训练样本集合对应的损失函数值。

在本步骤中，电子设备根据相关性矩阵中的对角线元素和非对角线元素，计算当前训练样本集合对应的损失函数值。具体地，电子设备可以分别计算当前训练样本集合中的N个搜索词相对于N个候选视频的损失函数值以及N个候选视频相对于N个搜索词的损失函数值。具体地，N个搜索词相对于N个候选视频的损失函数值以及N个候选视频相对于N个搜索词的损失函数值可以分别采用以下公式计算：

其中，i为相关性矩阵中的行的序号；j为相关性矩阵中的列的序号；k为相关性矩阵中的行/列的个数；S(i,j)为相关性矩阵中的非对角线元素的取值；S(i,i)和S(j,j)为相关性矩阵中的对角线元素的取值；u为预先设置的阈值；p为预先设置的权重调整因子。

S306、根据当前训练样本集合对应的损失函数值，计算当前训练样本集合对应的损失函数值。

在本步骤中，电子设备可以当前训练样本集合对应的损失函数值，计算当前训练样本集合对应的损失函数值。具体地，电子设备可以使用以下公式计算当前训练样本集合对应的损失函数值：

当p＝1时，

当p＝∞时，令f(i,j)＝[S(i,j)-S(i,i)+u]₊；g(i,j)＝[S(i,j)-S(j,j)+u]₊

S307、根据当前训练样本集合对应的损失函数值对待训练的视频检索模型进行训练；将下一个训练样本作为当前训练样本集合，重复执行上述操作，直到待训练的视频检索模型满足收敛条件为止。

图4是本申请实施例提供的损失函数的优化原理示意图。如图4所示，虚线圆圈为正样本与负样本的分界线；实心小圆圈表示正样本；实心小三角表示非降权负样本；空心小三角表示降权负样本；其中，实心小圆圈和空心小三角为不需要重点学习的样本，这些样本是容易的样本或者已经学习好的样本；空心小三角为需要重点学习的样本。

实施例四

图5是本申请实施例四提供的视频检索模型的训练装置的结构示意图。如图5所示，所述装置500包括：特征提取模块501、计算模块502和训练模块503；其中，

所述特征提取模块501，用于响应于待训练的视频检索模型不满足预先设置的收敛条件，将当前训练样本集合输入至所述待训练的视频检索模型中，通过所述待训练的视频检索模型得到所述当前训练样本集合对应的相关性矩阵；其中，所述当前训练样本集合包括N个搜索词和N个候选视频；所述相关性矩阵中的第i个搜索词与第i个候选视频相关；第i个搜索词与第i个候选视频以外的候选视频均不相关；N为大于1的自然数；i大于等于1且小于等于N；

所述计算模块502，用于根据所述当前训练样本集合对应的相关性矩阵计算所述当前训练样本集合对应的损失函数值；

所述训练模块503，用于根据所述当前训练样本集合对应的损失函数值对所述待训练的视频检索模型进行训练；将下一个训练样本集合作为所述当前训练样本集合，重复执行上述操作，直到所述待训练的视频检索模型满足所述收敛条件为止。

图6是本申请实施例提供的特征提取模块的结构示意图。如图6所示，所述特征提取模块501包括：第一特征提取子模块5011、第二特征提取子模块5012和确定子模块5013；其中，

所述第一特征提取子模块5011，用于将所述当前训练样本集合中的N个候选视频输入至所述待训练的视频检索模型的视频特征提取网络中，通过所述视频特征提取网络得到各个候选视频对应的视频语义表征；

所述第二特征提取子模块5012，用于将所述当前训练样本集合中的N个搜索词输入至所述待训练的视频检索模型的搜索词特征提取网络中，通过所述搜索词特征提取网络得到各个搜索词对应的搜索词语义表征；

所述确定子模块5013，用于根据各个候选视频对应的视频语义表征和各个搜索词对应的搜索词语义表征，确定所述当前训练样本集合对应的相关性矩阵。

进一步的，所述第一特征提取子模块5011，具体用于通过所述视频特征提取网络在各个候选视频中提取至少一个关键帧；在各个关键帧中提取出区域稠密特征和检测框位置信息特征；其中，所述检测框位置信息特征至少包括：检测框左上点坐标、检测框右下点坐标、检测框的面积占关键帧的面积的比例；基于各个关键帧的区域稠密特征和检测框位置信息特征得到各个候选视频对应的视频语义表征。

进一步的，所述第二特征提取子模块5012，具体用于通过所述搜索词特征提取网络将所述当前搜索词划分为至少一个分词；并获取各个分词的初始特征；将各个分词的初始特征输入至预先训练好的编解码器中，通过所述编解码器得到各个搜索词对应的搜索词语义表征。

进一步的，所述确定子模块5013，具体用于在所述当前训练样本集合中分别提取出一个搜索词和一个候选视频作为当前搜索词和当前候选视频；将所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征输入至预先训练好的特征交叉层网络中，通过所述特征交叉层网络得到所述当前搜索词与所述当前候选视频的相关性结果；重复执行上述操作，直到得到各个搜索词和各个候选视频的相关性结果；其中，所述相关性结果包括：相关或者不相关；基于各个搜索词和各个候选视频的相关性结果，得到所述当前训练样本集合对应的相关性矩阵。

进一步的，所述确定子模块5013，具体用于通过所述特征交叉层网络将所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征进行语义对齐，得到语义对齐后的所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征；通过所述特征交叉层网络将所述语义对齐后的所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征进行反复交叉，得到所述当前搜索词对应的新的搜索词语义表征和所述当前候选视频对应的新的视频语义表征；根据所述当前搜索词对应的新的搜索词语义表征和所述当前候选视频对应的新的视频语义表征，计算出所述当前搜索词与所述当前候选视频的相关性结果。

进一步的，所述确定子模块5013，具体用于在所述当前搜索词中提取出一个分词作为当前分词；在所述当前候选视频中提取出一个检测框作为当前检测框；响应于所述当前分词与所述当前检测框相关，将所述当前分词对应的原始的分词语义表征变换为一个新的基于所述当前检测框的分词语义表征，将所述新的基于所述当前检测框的分词语义表征作为所述当前分词对应的目标分词语义表征；并将所述当前检测框对应的原始的检测框语义表征变换为一个新的基于所述当前分词的检测框语义表征，将所述新的基于所述当前分词的检测框语义表征作为所述当前检测框对应的目标检测框语义表征；重复执行上述操作，直到得到各个分词对应的目标分词语义表征和各个检测框对应的目标检测框语义表征；基于各个分词对应的目标分词语义表征确定出所述当前搜索词对应的新的搜索词语义表征；基于各个检测框对应的目标检测框语义表征确定出所述当前候选视频对应的新的视频语义表征。

进一步的，所述确定子模块5013，还用于响应于所述当前分词与所述当前检测框不相关，将所述当前分词对应的原始的分词语义表征作为所述当前分词对应的目标分词语义表征；并将所述当前检测框对应的原始的检测框语义表征作为所述当前检测框对应的目标检测框语义表征。

进一步的，所述计算模块502，具体用于在所述相关性矩阵中分别提取出对角线元素和非对角线元素；根据所述相关性矩阵中的对角线元素和非对角线元素，计算所述当前训练样本集合对应的损失函数值。

上述视频检索模型的训练装置可执行本申请任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请任意实施例提供的视频检索模型的训练方法。

实施例五

根据本申请的实施例，本申请实施例还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例的视频检索模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频检索模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频检索模型的训练方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频检索模型的训练方法对应的程序指令/模块(例如，附图5所示的特征提取模块501、计算模块502和训练模块503)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频检索模型的训练方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据视频检索模型的训练方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至视频检索模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频检索模型的训练方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与视频检索模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，响应于待训练的视频检索模型不满足预先设置的收敛条件，先将当前训练样本集合输入至待训练的视频检索模型中，通过待训练的视频检索模型得到当前训练样本集合对应的相关性矩阵；其中，当前训练样本集合包括N个搜索词和N个候选视频；相关性矩阵中的第i个搜索词与第i个候选视频相关；第i个搜索词与第i个候选视频以外的候选视频均不相关；然后根据训练样本对应的相关性矩阵计算当前训练样本集合对应的损失函数值；再根据当前训练样本集合对应的损失函数值对待训练的视频检索模型进行训练；直到待训练的视频检索模型满足收敛条件为止。也就是说，训练样本中的N和搜索词和N个候选视频可以组成一个训练样本矩阵，该在训练样本矩阵中，对角线元素相关；而非对角线元素均不相关。基于上述训练样本集合进行模型训练时，可以自动地对训练样本集合中的各个样本的权重值进行调整，重点学习错误的样本，忽略容易的样本或者已经学习好的样本。而在现有的视频检索模型的训练方法中，对不同的样本无差别对待，导致模型训练效率低、识别效果不好。因为本申请采用了通过特定结构的训练样本集合对视频检索模型进行训练的技术手段，克服了现有技术中在训练视频检索模型时，对不同的样本无差别对待，导致模型训练效率低、识别效果不好的技术问题，本申请提供的技术方案，可以自动地对训练样本的权重值进行调整，重点学习错误的样本，忽略容易的样本或者已经学习好的样本，从而可以有效地提高视频检索模型的训练效率和准确度，可靠性更高，识别效果更好；并且，本申请实施例的技术方案实现简单方便、便于普及，适用范围更广。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频检索模型的训练方法，所述方法包括：

2.根据权利要求1所述的方法，所述将当前训练样本集合输入至所述待训练的视频检索模型中，通过所述待训练的视频检索模型得到所述当前训练样本集合对应的相关性矩阵，包括：

将所述当前训练样本集合中的N个候选视频输入至所述待训练的视频检索模型的视频特征提取网络中，通过所述视频特征提取网络得到各个候选视频对应的视频语义表征；

将所述当前训练样本集合中的N个搜索词输入至所述待训练的视频检索模型的搜索词特征提取网络中，通过所述搜索词特征提取网络得到各个搜索词对应的搜索词语义表征；

根据各个候选视频对应的视频语义表征和各个搜索词对应的搜索词语义表征，确定所述当前训练样本集合对应的相关性矩阵。

3.根据权利要求2所述的方法，所述将所述当前训练样本集合中的N个候选视频输入至所述待训练的视频检索模型的视频特征提取网络中，通过所述视频特征提取网络得到各个候选视频对应的视频语义表征，包括：

通过所述视频特征提取网络在各个候选视频中提取至少一个关键帧；

在各个关键帧中提取出区域稠密特征和检测框位置信息特征；其中，所述检测框位置信息特征至少包括：检测框左上点坐标、检测框右下点坐标、检测框的面积占关键帧的面积的比例；

基于各个关键帧的区域稠密特征和检测框位置信息特征得到各个候选视频对应的视频语义表征。

4.根据权利要求2所述的方法，所述将所述当前训练样本集合中的N个搜索词输入至所述待训练的视频检索模型的搜索词特征提取网络中，通过所述搜索词特征提取网络得到各个搜索词对应的搜索词语义表征，包括：

通过所述搜索词特征提取网络将所述当前搜索词划分为至少一个分词；并获取各个分词的初始特征；

将各个分词的初始特征输入至预先训练好的编解码器中，通过所述编解码器得到各个搜索词对应的搜索词语义表征。

5.根据权利要求2所述的方法，所述根据各个候选视频对应的视频语义表征和各个搜索词对应的搜索词语义表征，确定所述当前训练样本集合对应的相关性矩阵，包括：

在所述当前训练样本集合中分别提取出一个搜索词和一个候选视频作为当前搜索词和当前候选视频；

将所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征输入至预先训练好的特征交叉层网络中，通过所述特征交叉层网络得到所述当前搜索词与所述当前候选视频的相关性结果；重复执行上述操作，直到得到各个搜索词和各个候选视频的相关性结果；其中，所述相关性结果包括：相关或者不相关；

基于各个搜索词和各个候选视频的相关性结果，得到所述当前训练样本集合对应的相关性矩阵。

6.根据权利要求5所述的方法，所述将所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征输入至预先训练好的特征交叉层网络中，通过所述特征交叉层网络得到所述当前搜索词与所述当前候选视频的相关性结果，包括：

通过所述特征交叉层网络将所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征进行语义对齐，得到语义对齐后的所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征；

通过所述特征交叉层网络将所述语义对齐后的所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征进行反复交叉，得到所述当前搜索词对应的新的搜索词语义表征和所述当前候选视频对应的新的视频语义表征；

根据所述当前搜索词对应的新的搜索词语义表征和所述当前候选视频对应的新的视频语义表征，计算出所述当前搜索词与所述当前候选视频的相关性结果。

7.根据权利要求6所述的方法，所述通过所述特征交叉层网络将所述语义对齐后的所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征进行反复交叉，得到所述当前搜索词对应的新的搜索词语义表征和所述当前候选视频对应的新的视频语义表征，包括：

在所述当前搜索词中提取出一个分词作为当前分词；在所述当前候选视频中提取出一个检测框作为当前检测框；

响应于所述当前分词与所述当前检测框相关，将所述当前分词对应的原始的分词语义表征变换为一个新的基于所述当前检测框的分词语义表征，将所述新的基于所述当前检测框的分词语义表征作为所述当前分词对应的目标分词语义表征；并将所述当前检测框对应的原始的检测框语义表征变换为一个新的基于所述当前分词的检测框语义表征，将所述新的基于所述当前分词的检测框语义表征作为所述当前检测框对应的目标检测框语义表征；重复执行上述操作，直到得到各个分词对应的目标分词语义表征和各个检测框对应的目标检测框语义表征；

基于各个分词对应的目标分词语义表征确定出所述当前搜索词对应的新的搜索词语义表征；基于各个检测框对应的目标检测框语义表征确定出所述当前候选视频对应的新的视频语义表征。

8.根据权利要求7所述的方法，所述方法还包括：

响应于所述当前分词与所述当前检测框不相关，将所述当前分词对应的原始的分词语义表征作为所述当前分词对应的目标分词语义表征；并将所述当前检测框对应的原始的检测框语义表征作为所述当前检测框对应的目标检测框语义表征。

9.根据权利要求1所述的方法，根据所述训练样本对应的相关性矩阵计算所述当前训练样本集合对应的损失函数值，包括：

在所述相关性矩阵中分别提取出对角线元素和非对角线元素；

根据所述相关性矩阵中的对角线元素和非对角线元素，计算所述当前训练样本集合对应的损失函数值。

10.一种视频检索模型的训练装置，所述装置包括：特征提取模块、计算模块和训练模块；其中，

11.根据权利要求10所述的装置，所述特征提取模块包括：第一特征提取子模块、第二特征提取子模块和确定子模块；其中，

所述第一特征提取子模块，用于将所述当前训练样本集合中的N个候选视频输入至所述待训练的视频检索模型的视频特征提取网络中，通过所述视频特征提取网络得到各个候选视频对应的视频语义表征；

所述第二特征提取子模块，用于将所述当前训练样本集合中的N个搜索词输入至所述待训练的视频检索模型的搜索词特征提取网络中，通过所述搜索词特征提取网络得到各个搜索词对应的搜索词语义表征；

所述确定子模块，用于根据各个候选视频对应的视频语义表征和各个搜索词对应的搜索词语义表征，确定所述当前训练样本集合对应的相关性矩阵。

12.根据权利要求11所述的装置，所述第一特征提取子模块，具体用于通过所述视频特征提取网络在各个候选视频中提取至少一个关键帧；在各个关键帧中提取出区域稠密特征和检测框位置信息特征；其中，所述检测框位置信息特征至少包括：检测框左上点坐标、检测框右下点坐标、检测框的面积占关键帧的面积的比例；基于各个关键帧的区域稠密特征和检测框位置信息特征得到各个候选视频对应的视频语义表征。

13.根据权利要求11所述的装置，所述第二特征提取子模块，具体用于通过所述搜索词特征提取网络将所述当前搜索词划分为至少一个分词；并获取各个分词的初始特征；将各个分词的初始特征输入至预先训练好的编解码器中，通过所述编解码器得到各个搜索词对应的搜索词语义表征。

14.根据权利要求11所述的装置，所述确定子模块，具体用于在所述当前训练样本集合中分别提取出一个搜索词和一个候选视频作为当前搜索词和当前候选视频；将所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征输入至预先训练好的特征交叉层网络中，通过所述特征交叉层网络得到所述当前搜索词与所述当前候选视频的相关性结果；重复执行上述操作，直到得到各个搜索词和各个候选视频的相关性结果；其中，所述相关性结果包括：相关或者不相关；基于各个搜索词和各个候选视频的相关性结果，得到所述当前训练样本集合对应的相关性矩阵。

15.根据权利要求14所述的装置，所述确定子模块，具体用于通过所述特征交叉层网络将所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征进行语义对齐，得到语义对齐后的所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征；通过所述特征交叉层网络将所述语义对齐后的所述当前搜索词对应的搜索词语义表征和所述当前候选视频对应的视频语义表征进行反复交叉，得到所述当前搜索词对应的新的搜索词语义表征和所述当前候选视频对应的新的视频语义表征；根据所述当前搜索词对应的新的搜索词语义表征和所述当前候选视频对应的新的视频语义表征，计算出所述当前搜索词与所述当前候选视频的相关性结果。

16.根据权利要求15所述的装置，所述确定子模块，具体用于在所述当前搜索词中提取出一个分词作为当前分词；在所述当前候选视频中提取出一个检测框作为当前检测框；响应于所述当前分词与所述当前检测框相关，将所述当前分词对应的原始的分词语义表征变换为一个新的基于所述当前检测框的分词语义表征，将所述新的基于所述当前检测框的分词语义表征作为所述当前分词对应的目标分词语义表征；并将所述当前检测框对应的原始的检测框语义表征变换为一个新的基于所述当前分词的检测框语义表征，将所述新的基于所述当前分词的检测框语义表征作为所述当前检测框对应的目标检测框语义表征；重复执行上述操作，直到得到各个分词对应的目标分词语义表征和各个检测框对应的目标检测框语义表征；基于各个分词对应的目标分词语义表征确定出所述当前搜索词对应的新的搜索词语义表征；基于各个检测框对应的目标检测框语义表征确定出所述当前候选视频对应的新的视频语义表征。

17.根据权利要求16所述的装置，所述确定子模块，还用于响应于所述当前分词与所述当前检测框不相关，将所述当前分词对应的原始的分词语义表征作为所述当前分词对应的目标分词语义表征；并将所述当前检测框对应的原始的检测框语义表征作为所述当前检测框对应的目标检测框语义表征。

18.根据权利要求10所述的装置，所述计算模块，具体用于在所述相关性矩阵中分别提取出对角线元素和非对角线元素；根据所述相关性矩阵中的对角线元素和非对角线元素，计算所述当前训练样本集合对应的损失函数值。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。