CN109086709B

CN109086709B - 特征提取模型训练方法、装置及存储介质

Info

Publication number: CN109086709B
Application number: CN201810841956.2A
Authority: CN
Inventors: 龚国平; 徐敘遠; 吴韬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2023-04-07
Anticipated expiration: 2038-07-27
Also published as: CN109086709A; US20200394416A1; US11538246B2; WO2020019926A1

Abstract

本发明实施例公开了一种特征提取模型训练方法、装置及存储介质，属于视频处理技术领域。该方法包括：对于至少一个样本视频中的每个样本视频，对样本视频中的多个图像进行检测，获取包含同一对象的至少两个图像；将包含同一对象的至少两个图像确定为样本图像；根据确定的样本图像进行训练，得到特征提取模型，特征提取模型用于提取视频的视频特征。由于包含同一对象的至少两个图像可以描述对象在时间维度上的变化情况，因此根据确定的样本图像训练得到特征提取模型时，可以考虑到视频数据在时间维度上的变化情况，提升特征提取模型在时间维度上的抗噪性能，进而提升了视频特征的准确性和鲁棒性。

Description

特征提取模型训练方法、装置及存储介质

技术领域

本发明实施例涉及视频处理技术领域，特别涉及一种特征提取模型训练方法、装置及存储介质。

背景技术

随着互联网技术的快速发展和互联网视频的蓬勃兴起，视频识别在视频推荐、版权检测、目标跟踪、视频监控等多种领域得到了广泛应用。而提取视频特征是进行视频识别的关键步骤，为了提高视频特征的准确率，通常可以先训练特征提取模型，基于特征提取模型来提取视频特征。

在训练特征提取模型的阶段，获取至少一个样本视频中的多个图像，对该多个图像进行增强处理，如图像缩放、平移等，将处理后的多个图像确定为样本图像，根据确定的多个样本图像进行训练，即可得到特征提取模型。在进行视频识别的阶段，针对待识别的目标视频，选取目标视频中的多个图像，将多个图像输入至已训练的特征提取模型中，基于该特征提取模型即可获取到目标视频的视频特征。

上述方案在选取样本图像时，并未考虑到视频数据在时间维度上的变化情况，导致特征提取模型在时间维度上的抗噪性能较差，影响了提取到的视频特征的准确性。

发明内容

本发明实施例提供了一种特征提取模型训练方法、装置及存储介质，可以解决相关技术中的缺陷。所述技术方案如下：

一方面，提供了一种特征提取模型训练方法，所述方法包括：

对于至少一个样本视频中的每个样本视频，对所述样本视频中的多个图像进行检测，获取包含同一对象的至少两个图像，所述至少两个图像用于描述所述对象在时间维度上的变化情况；

将所述包含同一对象的至少两个图像确定为样本图像；

根据确定的样本图像进行训练，得到特征提取模型，所述特征提取模型用于提取视频的视频特征。

另一方面，提供了一种特征提取模型训练装置，所述装置包括：

图像获取模块，用于对于至少一个样本视频中的每个样本视频，对所述样本视频中的多个图像进行检测，获取包含同一对象的至少两个图像，所述至少两个图像用于描述所述对象在时间维度上的变化情况；

样本确定模块，用于将所述包含同一对象的至少两个图像确定为样本图像；

训练模块，用于根据确定的样本图像进行训练，得到特征提取模型，所述特征提取模型用于提取视频的视频特征。

另一方面，提供了一种特征提取模型训练装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现所述的特征提取模型训练方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现所述的特征提取模型训练方法中所执行的操作。

本发明实施例提供的方法、装置及存储介质，通过对于至少一个样本视频中的每个样本视频，对样本视频中的多个图像进行检测，获取包含同一对象的至少两个图像；将包含同一对象的至少两个图像确定为样本图像；根据确定的样本图像进行训练，得到特征提取模型，特征提取模型用于提取视频的视频特征。由于包含同一对象的至少两个图像可以描述对象在时间维度上的变化情况，因此根据确定的样本图像训练得到特征提取模型时，可以考虑到视频数据在时间维度上的变化情况，提升特征提取模型在时间维度上的抗噪性能，进而提升了提取到的视频特征的准确性和鲁棒性。

并且，能够在训练特征提取模型时，根据信息熵损失函数对每个样本特征取值的比例进行控制，可以保证样本特征为1的样本图像与样本特征为0的样本图像可以达到比例均衡，样本特征分布均匀，从而使信息熵最大化，提升了信息量，将视频特征应用于视频识别过程可以达到更高的准确率和召回率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明实施例提供的一种实施环境的结构示意图；

图1B是本发明实施例提供的一种特征提取模型训练方法的流程图；

图2是本发明实施例提供的一种特征提取流程示意图；

图3是本发明实施例提供的一种特征提取模型训练示意图；

图4是本发明实施例提供的一种操作流程的示意图；

图5是本发明实施例提供的一种特征提取模型训练装置的结构示意图；

图6是本发明实施例提供的一种终端的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，在训练特征提取模型时，通常会获取至少一个样本视频中的多个图像，对该多个图像进行增强处理，将处理后的图像作为样本图像，从而根据确定的多个样本图像进行训练，得到特征提取模型。其中，对图像进行增强处理可以提高特征提取模型在空间维度上的抗噪性能。

但是，视频包括空间维度信息和时间维度信息，上述相关技术并未考虑到视频在时间维度上的变化情况，导致特征提取模型无法学习到视频在时间维度上的变化情况，在时间维度上的抗噪性能较差，基于该特征提取模型来提取视频特征时，会影响视频特征的准确性。例如，当视频中的对象发生形变时，该特征提取模型无法学习到该形变，也就无法基于该特征提取模型检测到该视频发生形变后的视频，识别准确率很低。

而本发明实施例中，对于每个样本视频，会将包含同一对象的至少两个图像确定为样本图像，由于该至少两个图像可以描述同一对象在时间维度上的变化情况，因此充分考虑了视频在时间维度上的变化情况，构建样本图像时能结合全局信息和局部信息，丰富了样本的多样性，那么根据样本图像进行训练时，可以使特征提取模型学习到视频在时间维度上的变化情况，进而提高在时间维度上的抗噪性能，即使在视频发生形变时也具有较好的抗噪能力，能将发生形变后的视频准确地识别出来。并且，本发明实施例通过训练特征提取模型来学习样本图像的抽象表示，基于特征提取模型进行视频识别时，可以在保证高召回率的同时，大幅度地提高识别视频的准确率，与其他视频特征提取方法相比，对时长缩放、像素缩放、调整对比度等各种视频处理方式均有更好的抗噪效果。

本发明实施例可以应用于提取视频特征的场景下。例如，在视频推荐场景下，可以采用本发明实施例提供的方法，获取用户已播放过的视频的视频特征，并获取数据库中每个视频的视频特征，从中选取出视频特征与用户已播放过的视频的视频特征类似的视频，推荐给用户。

或者，在版权检测的场景下，将收集到的每个视频的视频信息及视频特征对应存储于数据库中，当要对目标视频进行重复检测时，获取目标视频的视频特征，在数据库中查找与该视频特征对应的视频信息，从而检测到与目标视频存在重复内容的视频。采用上述版权检测方式，可以准确确定每个视频的原创发布者，为原创发布者提供奖励数据，为原创发布者提供原创保护，从而鼓励更多的视频发布者提供更多优质的视频。还能够及时发现抄袭类视频，净化互联网的存量视频，提高视频质量。

当然，本发明实施例还可以应用于视频片段识别、视频监控、目标跟踪、片头片尾检测等多种场景下，在此不再赘述。

图1A是本发明实施例提供的一种实施环境示意图，参见图1A，该实施环境包括终端110和服务器120，终端110和服务器120之间通过网络连接。终端110或服务器120可以设置训练装置，通过训练装置来训练特征提取模型，基于特征提取模型提取视频的视频特征。

以服务器120设置训练装置为例进行说明，在视频推荐场景下，服务器120可以获取新发布视频的视频特征，存储至数据库中。在终端110播放视频的过程中，服务器120可以收集终端110的视频播放记录，针对视频播放记录中每个已播放的视频，获取视频的视频特征，从数据库中选取视频特征相似的新发布视频，推送给终端110，由终端110展示给用户，实现为用户推荐新视频的目的。

在版权检测场景下，服务器120会将已发布视频的视频信息和视频特征存储至数据库中，当终端110向服务器120发送一个新视频，请求发布该视频时，服务器120获取该视频的视频特征，将该视频特征与数据库中每个视频的视频特征进行比对，当确定数据库中不存在与视频的视频特征相同或相似的视频时，确定该视频为原创视频，终端用户为该视频的原创发布者，则允许发布该视频。之后，将该视频的视频信息和视频特征也存储至数据库中。

后续当终端110向服务器120发送对该视频的重复检测请求时，服务器120可以将该视频的视频特征与其他视频的视频特征进行比对，查找出与该视频特征类似的视频特征以及类似视频特征对应的视频信息，发送给终端110，从而为原创发布者提供了抄袭视频的相关信息，便于原创发布者对原创视频进行维权。

当然，在其他场景下也可以采用上述实施环境来获取视频的视频特征，本发明实施例在此不再赘述。

图1B是本发明实施例提供的一种特征提取模型训练方法的流程图，该特征提取模型训练方法的执行主体为训练装置，对训练特征提取模型的过程进行说明。该训练装置可以为图1A所示的终端110或服务器120，或者也可以为设置于终端110或服务器120中的功能模块，或者也可以为其他类型的装置。参见图1B，该方法包括：

101、训练装置获取至少一个样本视频，对于每个样本视频，对样本视频中的多个图像进行检测，获取包含同一对象的至少两个图像。

102、训练装置将包含同一对象的至少两个图像确定为样本图像。

其中，该训练装置可以为手机、计算机等终端，也可以为服务器，如视频播放网站关联的视频服务器、专门用于训练模型的模型管理服务器等。

该训练装置要训练特征提取模型时，获取至少一个样本视频，该至少一个样本视频可以为该训练装置从互联网中收集到的视频，如用户在视频播放网站上传的视频、视频提供商发送的视频等。之后，对于该至少一个样本视频中的每个样本视频，训练装置可以对样本视频中的多个图像进行检测，获取包含同一对象的至少两个图像。

其中，该多个图像可以为样本视频中的所有图像，也可以为从样本视频中进行采样得到的一个或多个图像。该对象是指样本视频中出现的物体，如人物、动物、植物、下雨下雪等天气元素、河流山川等景物等。

其中，对图像进行检测时，可以从图像中提取多个特征点，将该多个特征点与一种或多种预设对象的特征点进行匹配，从而确定与该多个特征点匹配的预设对象，即为图像中包含的对象。该预设对象可以包括生活中常见的物体或天气元素、预先获取到的人脸图像、河流山川等景物等。

该样本视频中可能会包括至少一个对象，且该样本视频中包括按照时间先后顺序排列的多个图像，则该至少一个对象在该样本视频的多个图像中可能会发生位置或姿态的变化，从而产生了时间维度上的数据变化。因此，训练装置通过检测获取到包含同一对象的至少两个图像，该至少两个图像可以用于描述同一对象在时间维度上的变化情况，那么采用该至少两个图像训练特征提取模型时，可使特征提取模型学习到同一对象在时间维度上的变化情况，提高特征提取模型在时间维度上的抗噪性能。

在一种可能实现方式中，训练装置可以对样本视频中的第一图像进行检测，确定第一图像中包含的第一对象，在除第一图像之外的其他图像中跟踪第一对象，得到包含第一对象的第二图像，将第一图像和第二图像均确定为样本图像。其中，该第一图像可以为样本视频中的任一图像，如第一个图像、最后一个图像或者播放次数最多的图像等，该第二图像可以为时间维度上在该第一图像之后的图像，或者也可以为时间维度上在该第一图像之前的图像，该第一图像和该第二图像可以描述该第一对象在时间维度上的变化情况。

可选地，在除第一图像之外的其他图像中跟踪第一对象时，可以采用预设特征提取算法，从第一图像中的第一对象所在的区域提取特征点，之后从第一图像开始进行前向追踪和后向追踪，根据上一图像中的特征点采用特征点匹配算法，确定该特征点在下一图像中的位置，从而确定在下一个图像中该第一对象所在的区域，检测到下一个图像中的第一对象，以此类推即可检测出包含第一对象的所有图像。其中，该预设特征提取算法可以为FAST(Features from Accelerated Segment Test，加速段测试特征点)检测算法、Shi-Tomasi(史托马西)角点检测算法等，该特征点匹配算法可以为Lucas-Kanade(卢卡斯-卡纳德)光流算法或者其他算法，

该第一对象在样本视频中可能会出现两次以上，导致样本视频中存在两个以上包含该第一对象的图像。因此，该训练装置可以在除第一图像之外的其他图像中跟踪该第一对象，可以得到包含第一对象的多个其他图像。

此时，可以将该多个其他图像均作为第二图像。或者，从多个其他图像中，选取与第一图像之间的距离大于预设距离的一个或多个图像，得到包含第一对象的第二图像，其中，两个图像之间的距离是指这两个图像之间间隔的图像数量，该预设距离可以为2、3等数值，具体根据样本图像的数量需求以及包含该对象的图像数量综合确定。或者，从多个其他图像中，选取时间维度上的最后一个图像，得到包含第一对象的第二图像。这样可以保证第二图像与第一图像在时间维度上相差较远，能够充分体现出该第一对象的变化情况。

需要说明的是，本发明实施例仅是以第一对象为例进行说明，除该第一对象之外，该训练装置还可以检测出样本视频中存在的其他对象，针对每个对象执行与第一对象类似的操作，从而针对多个对象获取到包含相应对象的至少两个图像，并将获取到的图像确定为样本图像。

需要说明的是，该训练装置获取到包含同一对象的至少两个图像时，还可以对该至少两个图像进行增强处理，将处理后的图像确定为样本图像，提高特征提取模型在空间维度上的抗噪性能，进而提高视频特征的准确性。

其中，上述增强处理可以包括缩放、平移、旋转、调整对比度、剪切、增加黑框、增加字幕、增加标志等多种处理方式。在一种可能实现方式中，该训练装置可以采用增强处理工具对获取到的每个图像进行增强处理。

需要说明的是，在样本视频中，除了上述包含同一对象的图像之外，还可以另外选取其他的图像作为样本图像。如从样本视频中选取时间维度上的第一个图像和最后一个图像作为样本图像，并按照预先确定的采样频率在样本视频中进行采样，得到多个样本图像。或者将选取的这些图像进行增强处理后，将处理后的图像确定为样本图像，提高特征提取模型在空间维度上的抗噪性能，进而提高视频特征的准确性。

103、训练装置根据确定的样本图像进行训练，得到特征提取模型。

训练装置可以初始化特征提取模型，当确定多个样本图像时，根据该多个样本图像中的每个样本图像对该特征提取模型进行训练，调整该特征提取模型中的模型参数，进而得到训练好的特征提取模型。后续过程中，特征提取模型可以用于提取视频的视频特征，以视频特征来对视频进行区分。

其中，训练装置采用的训练算法可以为深度学习算法、支持向量机算法、卷积神经网络算法、循环神经网络算法等多种算法，采用不同的训练算法可以训练得到不同的网络模型。

以深度学习算法为例，采用深度学习算法可以训练出深度学习网络模型，作为特征提取模型。该深度学习网络模型包括卷积层、池化层、非线性层和全连接层等多个网络层，每个网络层包括多个特征图，每个特征图中包括多个特征元。其中，前预设数量的网络层可以称为网络浅层，网络浅层之后的网络层称为网络深层。每个网络浅层中可以采用7*7的卷积核，特征图数量设置为32，每个网络深层中可以采用3*3的卷积核，最后两层全连接层中神经元的节点数分别设置为128和32。相比于大尺寸的卷积核，小卷积核可以在减少计算量的同时提高网络模型的深度，同时达到提高速度和提高准确率的效果。

当然，该深度学习网络模型中卷积核尺寸、特征图数量和特征元数量也可以采用其他的数值。

在一种可能实现方式中，训练装置可以先获取每个样本图像的标签，该标签用于区分该样本图像与其他样本图像是否相似，如可以将多个样本图像划分为两类，一类采用第一标签进行标注，另一类可以采用第二标签进行标注，该第一标签和该第二标签可以为不同的标签，如该第一标签为1时该第二标签为0，该第一标签为0时该第二标签为1。之后，根据该多个样本图像中的每个样本图像以及每个样本图像的标签，对该特征提取模型进行训练，进而得到训练好的特征提取模型。其中，每个样本图像的标签可以人工标注得到，或者还可以采用无监督的分类算法计算得到。

需要说明的是，参见图2，特征提取模型包括输入层、中间层和输出层，将任一样本图像输入至输入层中，经过输入层和中间层的计算之后，最后一个中间层会向输出层输出样本特征的数值，此数值为浮点数类型，而在输出层中会将样本特征的数值与预设阈值进行对比，如果该数值大于或者等于该预设阈值，则确定样本特征的数值对应的二进制数值为1，而该数值小于该预设阈值，则确定样本特征的数值对应的二进制数值为0，从而在输出层实现了对样本特征的二值化。

在另一种可能实现方式中，参见图3，训练装置可以根据多个样本图像和预设损失函数进行训练，得到特征提取模型，以使特征提取模型满足预设损失函数最小的目标。

其中，预设损失函数至少包括如下信息熵损失函数：

L_b表示信息熵损失函数，u表示确定的多个样本图像的样本特征均值。

例如，每个样本图像的样本特征包括c个维度的数值，则针对d个样本图像，可以计算d个样本特征在c个维度中每个维度上的数值的平均值，得到一个c维向量，并将c维向量中的每个数值相加，得到样本特征均值u。其中，c和d为正整数。

上述信息熵损失函数根据多个样本图像的样本特征均值u与0.5之间的差值确定，信息熵损失函数达到最小时，可以保证样本特征均值u接近于0.5，因此，根据该信息熵损失函数和多个样本图像进行训练，可以保证样本特征为1的样本图像与样本特征为0的样本图像可以达到比例均衡，样本特征分布均匀，从而使信息熵最大化，提升了信息量。

另外，预设损失函数还可以包括距离损失函数和量化损失函数：

距离损失函数如下：L_t＝max{(x_a-x_p)+m-(x_a-x_n),0}；L_t表示距离损失函数，x_a表示任一指定样本图像的样本特征，x_p表示与指定样本图像标签相同的样本图像的样本特征，x_n表示与指定样本图像标签不同的样本图像的样本特征，m表示间隔常数，m大于0，可以为浮点数类型。

量化损失函数如下：

L_q表示距离损失函数，x表示任一样本图像的样本特征中的任一数值，x大于0，可以为浮点数类型。

上述距离损失函数根据样本图像与相同标签的样本图像之间的距离和样本图像与不同标签的样本图像之间的距离确定，在距离损失函数达到最小时，可以保证相同标签的样本图像之间的距离最小、不同标签的样本图像之间的距离最大，因此，根据该距离损失函数和多个样本图像进行训练，可以实现对样本图像的准确划分，提高样本特征的准确性，进而提高特征提取模型的准确性。

上述量化损失函数根据多个样本特征中的数值确定，量化损失函数达到最小时，可以保证样本特征中的数值为0或者为1，使特征提取模型在训练过程中将样本特征向0或1收敛，使二值化后的损失达到最小。

例如，L＝αL_t+βL_q+λL_b，L表示预设损失函数，α、β和γ表示距离损失函数、量化损失函数和信息熵损失函数的权重，可以根据需求设置如α、β和γ均等于1。通过调整α、β和γ的数值可以调整各项损失函数对预设损失函数的影响程度。

104、训练装置获取目标视频中的至少一个图像，基于特征提取模型，对至少一个图像进行特征提取，得到目标视频的视频特征。

其中，目标视频为待提取特征的视频，可以为在线播放的任一视频、用户提交的待查询视频、其他设备发送的视频等。当要提取目标视频的视频特征时，获取目标视频中的至少一个图像，该至少一个图像可以包括目标视频中的所有图像，或者可以包括从目标视频中按照采样频率采集到的图像等。之后将该至少一个图像输入至特征提取模型中，基于该特征提取模型对至少一个图像进行特征提取，得到目标视频的视频特征。

在一种可能实现方式中，该训练装置可以创建数据库，该数据库用于对应存储每个视频的视频特征与视频信息，当训练装置获取目标视频的视频特征以及目标视频的视频信息，将视频特征与视频信息对应存储于数据库中。另外，还可以将目标视频本身也存储于数据库中。

其中，视频信息至少包括视频标识，该视频标识用于确定唯一对应的视频，可以为视频名称、视频编号等，根据该视频标识可以从大量视频中确定目标视频为哪一个视频。另外，该视频信息还可以包括目标视频的发布时间、存储时间、存储地址等。

可选地，当获取到目标视频的视频特征与视频信息时，建立倒排索引，得到视频特征对应的视频信息。

可选地，为了便于对多个视频进行区分，训练装置可以采用分桶的方式，针对每个视频创建一个数据桶，在数据桶中存储视频的视频特征与视频信息，并以视频特征对应的十进制数值作为数据桶标识，从而将不同视频的数据桶区分开来，以便后续根据任一视频的视频特征可以识别到相应的数据桶，查询到数据桶中的视频信息。

可选地，训练装置在存储目标视频的视频特征与视频信息之前，可以先判断该目标视频的视频特征是否满足预设条件，该预设条件用于规定视频特征的存储条件，只有当目标视频的视频特征满足预设条件时，才允许存储目标视频的视频特征与视频信息。例如，该预设条件可以为数据库中不存在重复视频，当某一视频在数据库中存在相同的视频特征时，表示该目标与某一更早的视频存在重复，此时无法存储该视频的视频特征与视频信息。

在另一种可能实现方式中，当训练装置获取目标视频的视频特征时，在数据库中查询与视频特征对应的视频信息，从而实现对目标视频的识别。

可选地，如果数据库中采用分桶的方式存储每个视频的视频特征与视频信息，则该训练装置可以获取目标视频的视频特征，并计算得到视频特征对应的十进制数值，将该十进制数值作为数据桶标识，从该数据桶标识对应的数据桶中获取视频信息，根据该视频信息即可查询到与目标视频的视频特征相同的视频。

图4是本发明实施例提供的一种操作流程示意图，对于待存储的视频，可以基于特征提取模型获取视频的视频特征，在判断确定视频特征满足预设条件后，可以采用分桶的方式，将视频特征与视频信息对应存储于该视频特征的十进制数值对应的数据桶中。

之后，对于待识别的视频，可以基于特征提取模型获取视频的视频特征，并确定视频特征对应的十进制数值，从而在该十进制数值对应的数据桶中查询与该视频特征对应的视频信息，实现对视频的识别。

需要说明的是，本发明实施例以训练装置基于特征提取模型进行特征提取为例进行说明，而在另一实施例中，当训练装置训练好特征提取模型后，可以将特征提取模型提供给其他设备，由其他设备基于该特征提取模型进行特征提取及视频识别。

例如，该训练装置向视频播放网站的视频服务器提供特征提取模型，该视频服务器即可基于该特征提取模型，提取每个视频的视频特征，从而根据每个视频的视频特征，进行查询视频的操作或者检测重复视频的操作等。

本发明实施例提供的方法，通过对于至少一个样本视频中的每个样本视频，对样本视频中的多个图像进行检测，获取包含同一对象的至少两个图像；将包含同一对象的至少两个图像确定为样本图像；根据确定的样本图像进行训练，得到特征提取模型，特征提取模型用于提取视频的视频特征。由于包含同一对象的至少两个图像可以描述对象在时间维度上的变化情况，因此根据确定的样本图像训练得到特征提取模型时，可以考虑到视频数据在时间维度上的变化情况，提升特征提取模型在时间维度上的抗噪性能，进而提升了提取到的视频特征的准确性和鲁棒性。

并且，相关技术中采用的损失函数如下：

其中，将任两个相同样本图像组成一个样本对，从而得到N个样本对，L_t表示损失函数，y_i表示第i个样本对的标签，b_i，1表示第i个样本对中第一个样本的样本特征，b_i，2表示第i个样本对中第二个样本的样本特征，α表示二值哈希函数的权重，m表示间隔常数，i和N为正整数，m大于0。

在训练特征提取模型时，该损失函数并未对每个样本特征进行比例均衡控制，导致取值为1的样本特征和取值为0的样本特征之间的比例不均衡，存在很多冗余信息，即信息熵的损失较大。

而本发明实施例提供的方法采用了预设损失函数，该预设损失函数中至少包括信息熵损失函数，能够在训练特征提取模型时，根据该信息熵损失函数对每个样本特征取值的比例进行控制，可以保证样本特征为1的样本图像与样本特征为0的样本图像可以达到比例均衡，样本特征分布均匀，从而使信息熵最大化，提升了信息量，将视频特征应用于视频识别过程，可以达到更高的准确率和召回率。

图5是本发明实施例提供的一种特征提取模型训练装置的结构示意图。参见图5，该装置包括：

图像获取模块501，用于执行上述实施例中获取包含同一对象的至少两个图像的步骤；

样本确定模块502，用于执行上述实施例中确定样本图像的步骤；

训练模块503，用于执行上述实施例中根据确定的样本图像进行训练，得到特征提取模型的步骤。

可选地，图像获取模块501包括：

检测单元，用于执行上述实施例中对样本视频中的第一图像进行检测，确定第一图像中包含的第一对象的步骤；

跟踪单元，用于执行上述实施例中在除第一图像之外的其他图像中跟踪第一对象，得到包含第一对象的第二图像的步骤。

可选地，跟踪单元，包括：

跟踪子单元，用于执行上述实施例中在除第一图像之外的其他图像中跟踪第一对象，得到包含第一对象的多个其他图像的步骤；

选取子单元，用于执行上述实施例中从多个其他图像中，选取与第一图像之间的距离大于预设距离的图像，或者选取最后一个图像，得到包含第一对象的第二图像的步骤。

可选地，训练模块503，用于执行上述实施例中根据确定的样本图像和预设损失函数进行训练，得到特征提取模型，以使特征提取模型满足预设损失函数最小的目标的步骤；

其中，预设损失函数至少包括如下信息熵损失函数：

L_b表示信息熵损失函数，u表示确定的样本图像的样本特征均值。

可选地，预设损失函数还包括距离损失函数和量化损失函数；

距离损失函数如下：L_t＝max{(x_a-x_p)+m-(x_a-x_n),0}；

量化损失函数如下：

其中，L_t表示距离损失函数，x_a表示任一指定样本图像的样本特征，x_p表示与指定样本图像标签相同的样本图像的样本特征，x_n表示与指定样本图像标签不同的样本图像的样本特征，m表示间隔常数，m大于0；L_q表示距离损失函数，x表示任一样本图像的样本特征中的任一数值，x大于0。

可选地，装置还包括：

目标获取模块，用于执行上述实施例中获取目标视频中的至少一个图像的步骤；

特征提取模块，用于执行上述实施例中基于特征提取模型，对至少一个图像进行特征提取，得到目标视频的视频特征的步骤。

需要说明的是：上述实施例提供的特征提取模型训练装置在训练特征提取模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将训练装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的特征提取模型训练装置与特征提取模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6示出了本发明一个示例性实施例提供的终端600的结构框图。该终端600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、5核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所具有以实现本申请中方法实施例提供的特征提取模型训练方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及6G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，包括主摄像头和如下至少一种摄像头：景深摄像头、广角摄像头、长焦摄像头，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本发明实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器700可以用于执行上述特征提取模型训练方法中训练装置所执行的步骤。

本发明实施例还提供了一种特征提取模型训练装置，该特征提取模型训练装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并执行以实现上述实施例的特征提取模型训练方法中所执行的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并执行以实现上述实施例的特征提取模型训练方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种特征提取模型训练方法，其特征在于，所述方法包括：

将所述包含同一对象的至少两个图像确定为样本图像；

根据所述确定的样本图像和预设损失函数进行训练，得到特征提取模型，以使所述特征提取模型满足所述预设损失函数最小的目标，所述特征提取模型用于提取视频的视频特征；

其中，所述预设损失函数至少包括如下信息熵损失函数：

L_b表示所述信息熵损失函数，u表示所述确定的样本图像的样本特征均值。

2.根据权利要求1所述的方法，其特征在于，所述对所述样本视频中的多个图像进行检测，获取包含同一对象的至少两个图像，包括：

对所述样本视频中的第一图像进行检测，确定所述第一图像中包含的第一对象；

在除所述第一图像之外的其他图像中跟踪所述第一对象，得到包含所述第一对象的第二图像。

3.根据权利要求2所述的方法，其特征在于，所述在除所述第一图像之外的其他图像中跟踪所述第一对象，得到包含所述第一对象的第二图像，包括：

在除所述第一图像之外的其他图像中跟踪所述第一对象，得到包含所述第一对象的多个其他图像；

从所述多个其他图像中，选取与所述第一图像之间的距离大于预设距离的图像，两个图像之间的距离是指所述两个图像之间间隔的图像数量，或者，从所述多个其他图像中，选取最后一个图像，得到包含所述第一对象的第二图像。

4.根据权利要求1所述的方法，其特征在于，所述预设损失函数还包括距离损失函数和量化损失函数；

所述距离损失函数如下：L_t＝max{(x_a-x_p)+m-(x_a-x_n),0}；

所述量化损失函数如下：

其中，L_t表示所述距离损失函数，x_a表示任一指定样本图像的样本特征，x_p表示与所述指定样本图像标签相同的样本图像的样本特征，x_n表示与所述指定样本图像标签不同的样本图像的样本特征，m表示间隔常数，m大于0；L_q表示所述距离损失函数，x表示任一样本图像的样本特征中的任一数值，x大于0。

5.根据权利要求1所述的方法，其特征在于，所述根据所述确定的样本图像和预设损失函数进行训练，得到特征提取模型之后，所述方法还包括：

获取目标视频中的至少一个图像；

基于所述特征提取模型，对所述至少一个图像进行特征提取，得到所述目标视频的视频特征。

6.根据权利要求5所述的方法，其特征在于，所述基于所述特征提取模型，对所述至少一个图像进行特征提取，得到所述目标视频的视频特征之后，所述方法还包括：

将所述视频特征与所述目标视频的视频信息对应存储于数据库中；或者，

在所述数据库中查询与所述视频特征对应的视频信息，所述数据库用于对应存储每个视频的视频特征与视频信息。

7.一种特征提取模型训练装置，其特征在于，所述装置包括：

训练模块，用于根据所述确定的样本图像和预设损失函数进行训练，得到特征提取模型，以使所述特征提取模型满足所述预设损失函数最小的目标，所述特征提取模型用于提取视频的视频特征；

其中，所述预设损失函数至少包括如下信息熵损失函数：

8.根据权利要求7所述的装置，其特征在于，所述图像获取模块包括：

检测单元，用于对所述样本视频中的第一图像进行检测，确定所述第一图像中包含的第一对象；

跟踪单元，用于在除所述第一图像之外的其他图像中跟踪所述第一对象，得到包含所述第一对象的第二图像。

9.根据权利要求8所述的装置，其特征在于，所述跟踪单元，包括：

跟踪子单元，用于在除所述第一图像之外的其他图像中跟踪所述第一对象，得到包含所述第一对象的多个其他图像；

选取子单元，用于从所述多个其他图像中，选取与所述第一图像之间的距离大于预设距离的图像，两个图像之间的距离是指所述两个图像之间间隔的图像数量，或者，从所述多个其他图像中，选取最后一个图像，得到包含所述第一对象的第二图像。

10.根据权利要求7所述的装置，其特征在于，所述预设损失函数还包括距离损失函数和量化损失函数；

所述距离损失函数如下：L_t＝max{(x_a-x_p)+m-(x_a-x_n),0}；

所述量化损失函数如下：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

目标获取模块，用于获取目标视频中的至少一个图像；

特征提取模块，用于基于所述特征提取模型，对所述至少一个图像进行特征提取，得到所述目标视频的视频特征。

12.一种特征提取模型训练装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至6任一权利要求所述的特征提取模型训练方法中所执行的操作。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至6任一权利要求所述的特征提取模型训练方法中所执行的操作。