CN110765882A

CN110765882A - 一种视频标签确定方法、装置、服务器及存储介质

Info

Publication number: CN110765882A
Application number: CN201910910551.4A
Authority: CN
Inventors: 周鑫鹏; 李阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-02-07
Anticipated expiration: 2039-09-25
Also published as: CN110765882B

Abstract

本发明公开了一种视频标签确定方法、装置、服务器及存储介质，其中，视频标签确定方法包括：获取目标视频的帧图像得到帧图像集；对所述帧图像集中的各个帧图像进行显著性检测，确定每个帧图像中像素点对应的显著性权值；对所述帧图像集中的各个帧图像进行特征提取，得到每个帧图像的第一特征图；根据每个帧图像中像素点对应的显著性权值对所述帧图像对应的第一特征图进行加权处理，得到显著性加权特征图；对所述显著性加权特征图进行目标检测得到目标信息，所述目标信息作为所述显著性加权特征图所对应的帧图像的标签信息；根据所述帧图像集中帧图像的标签信息，确定所述目标视频的视频标签。本发明提高了视频标签确定的准确率。

Description

一种视频标签确定方法、装置、服务器及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种视频标签确定方法、装置、服务器及存储介质。

背景技术

视频标签是对视频内容的简单描述和分类，视频标签可用于视频的分类、推荐及检索等任务中。

相关技术中，可以通过视频的标题来抽取视频标签，由于视频的标题受用户影响较大，当用户对视频类别体现了解不清晰或者未正确填写视频标题时，抽取的视频标签错误率较高，从而给视频的应用及推荐带来错误的结果。还可以采用对视频进行图像分类的方法来确定视频标签，这种方法虽然可以实现对视频内容大类的分类，如“猫”，“狗”，“汽车”等类别，但对细粒度类别通常分类准确率较低，如在大类“狗”的细粒度类别中区分不同品种狗时，准确率较低。因此，相关技术中存在确定的视频标签的准确率低的问题，需要更为有效的方案，以提高视频标签确定的准确率。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种视频标签确定方法、装置、服务器及存储介质。所述技术方案如下：

一方面，提供了一种视频标签确定方法，所述方法包括：

获取目标视频的帧图像，得到帧图像集；

对所述帧图像集中的各个帧图像进行显著性检测，确定每个帧图像中像素点对应的显著性权值；

对所述帧图像集中的各个帧图像进行特征提取，得到每个帧图像的第一特征图；

根据每个帧图像中像素点对应的显著性权值对所述帧图像对应的第一特征图进行加权处理，得到显著性加权特征图；

对所述显著性加权特征图进行目标检测得到目标信息，所述目标信息作为所述显著性加权特征图所对应的帧图像的标签信息；

根据所述帧图像集中帧图像的标签信息，确定所述目标视频的视频标签。

另一方面，提供了一种视频标签确定装置，所述装置包括：

获取模块，用于获取目标视频的帧图像，得到帧图像集；

显著性检测模块，用于对所述帧图像集中的各个帧图像进行显著性检测，确定每个帧图像中像素点对应的显著性权值；

第一特征提取模块，用于对所述帧图像集中的各个帧图像进行特征提取，得到每个帧图像的第一特征图；

加权处理模块，用于根据每个帧图像中像素点对应的显著性权值对所述帧图像对应的第一特征图进行加权处理，得到显著性加权特征图；

目标检测模块，用于对所述显著性加权特征图进行目标检测得到目标信息，所述目标信息作为所述显著性加权特征图所对应的帧图像的标签信息；

视频标签确定模块，用于根据所述帧图像集中帧图像的标签信息，确定所述目标视频的视频标签。

可选的，所述显著性检测模块包括：

第一确定模块，用于针对所述帧图像集中的每个帧图像，确定所述帧图像的背景像素点集合；

第一计算模块，用于计算所述帧图像中每个像素点与所述背景像素点集合中的背景像素点之间的距离值，得到每个像素点对应的距离值集合；

选取模块，用于从每个像素点对应的距离值集合中选取最小距离值，得到所述帧图像的最小距离值集合；

归一化处理模块，用于对所述最小距离值集合中的最小距离值进行归一化处理，将归一化处理后的最小距离值作为所述帧图像中相应像素点的显著性权值。

可选的，所述加权处理模块包括：

调整模块，用于根据预设权值调整参数对每个帧图像中像素点对应的显著性权值进行调整，得到每个帧图像中像素点对应的调整显著性权值；

处理子模块，用于根据每个帧图像中像素点对应的调整显著性权值对所述帧图像对应的第一特征图进行加权处理，得到所述显著性加权特征图。

可选的，所述目标检测模块包括：

第二特征提取模块，用于基于卷积神经网络对所述显著性加权特征图特征提取，得到第二特征图；

目标检测子模块，用于基于目标检测网络对所述第二特征图进行目标检测，得到所述目标检测网络输出的目标信息。

可选的，所述第二特征图包括不同尺度的多个第二特征图；

相应的，所述目标检测网络包括多个目标检测子网络，每个所述目标检测子网络与一种尺度的所述第二特征图相对应。

可选的，所述标签信息包括类别和置信度；

相应的，所述视频标签确定模块包括：

判断模块，用于针对所述帧图像集中每个帧图像的标签信息，判断所述标签信息中的置信度是否大于置信度阈值；

第二确定模块，用于在判断模块的判断结果为是时，确定所述标签信息中的类别为候选类别，得到候选类别集；

第二计算模块，用于计算所述候选类别集中每种候选类别的数量；

第三确定模块，用于将所述数量大于预设数量阈值的候选类别，确定为所述目标视频的视频标签。

可选的，所述获取模块具体用于：每隔预设时间间隔从所述目标视频中提取帧图像，得到所述帧图像集。

另一方面，提供了一种服务器，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述视频标签确定方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的视频标签确定方法。

本发明实施例通过确定帧图像中像素点的显著性权值，利用该显著性权值对相应帧图像的特征图进行加权处理，得到显著性加权特征图，进而对该显著性加权特征图进行目标检测，将目标检测得到的目标信息作为显著性加权特征图对应的帧图像的标签信息，最后根据目标视频的帧图像集中各个帧图像的标签信息来确定该目标视频的视频标签，从而提高了帧图像中显著性区域特征对该帧图像类别分类的影响，同时降低了帧图像中环境信息对目标识别的影响，提高了识别的准确性，尤其是小目标识别的准确性，进而提高了视频标签确定的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的一种视频标签确定方法的流程示意图；

图3是本发明实施例提供的对帧图像集中的各个帧图像进行显著性检测，确定每个帧图像中像素点对应的显著性权值的一种方法的流程示意图；

图4a是本发明实施例提供的某一帧图像的示意图；

图4b是对应于图4a的显著性特征图的示意图；

图5是本发明实施例提供的一种机器学习模型的示意图；

图6是本发明实施例提供的根据帧图像集中帧图像的标签信息确定目标视频的视频标签的一种方法的流程示意图；

图7是本发明实施例提供的一种视频标签确定装置的结构示意图；

图8是本发明实施例提供的一种服务器的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，其所示为本发明实施例提供的一种实施环境示意图，该实施环境可以包括服务器110以及与该服务器110通过网络进行连接的至少一个终端120，该网络可以为有限网络或者无线网络。

其中，终端120中可以配置有具备上传视频功能的客户端，用户可以通过该客户端进行视频的上传，例如用户可以将自行录制的小视频或者短视频通过该客户端上传，当用户上传视频后，服务器110相应的接收该视频并依据本发明实施例的视频标签确定方法来为该视频打上相应的视频标签。具体的，终端120可以但不限于包括智能手机、台式电脑、平板电脑、笔记本电脑等等。服务器110可以是一个独立运行的服务器，也可以是由多个服务器组成的服务器集群。

请参阅图2，其所示为本发明实施例提供的一种视频标签确定方法的流程示意图，该方法可以应用于图1中的服务器。需要说明的是，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201，获取目标视频的帧图像，得到帧图像集。

其中，目标视频为需要打上视频标签的视频，该目标视频可以但不限于是用户通过终端中的客户端自行录制的小视频或短视频等。

所述帧图像是指构成视频的图像，视频可以看作是多个帧图像顺序构成的图像序列，视频的播放可以理解为顺序显示该图像序列中的帧图像，由于视频帧的显示频率大于人眼可识别的数值范围，由此形成人眼看到的连续变化的视频画面。

本说明书实施例中，在获取目标视频的帧图像时，可以每隔预设时间间隔从该目标视频中提取帧图像，所有提取的帧图像形成该目标视频的帧图像集，该预设时间间隔可以根据实际需要进行设定，例如可以是3秒或者5秒等。

具体的实施中，可以从目标视频的首帧开始，先提取首帧的帧图像，然后每隔预设时间间隔提取一次帧图像；也可以从目标视频的最后一帧开始，先提取最后一帧的帧图像，然后每隔预设时间间隔提取一次帧图像。

S203，对所述帧图像集中的各个帧图像进行显著性检测，确定每个帧图像中像素点对应的显著性权值。

本说明书实施例中，可以采用图3中的方法实现对所述帧图像集中的各个帧图像进行显著性检测，确定每个帧图像中像素点对应的显著性权值，如图3所示，该方法可以包括：

S301，针对所述帧图像集中的每个帧图像，确定所述帧图像的背景像素点集合。

本说明书实施例中，假设图像的边界区域和背景区域的相似度很高，将图像的边界区域像素作为背景像素点形成背景像素点集合。针对帧图像集合中的每个帧图像，将该帧图像的边界区域像素点作为背景像素点，形成该帧图像的背景像素点集合。

S303，计算所述帧图像中每个像素点与所述背景像素点集合中的背景像素点之间的距离值，得到每个像素点对应的距离值集合。

本说明书实施例中采用路径代价函数来计算每个像素点与背景像素点集合中的背景像素点之间的距离值，该路径代价函数表示为以下公式：

其中，π表示一条路径，π＝{π(0),π(1),……，π(k)}是图像I上的一些列相邻的像素点对；I(·)表示某一像素点的像素值；β_I(π)表示路径代价函数值，即，像素点与背景像素点之间的距离值可以为路径代价函数值即路径中包含的最大像素值与最小像素值之差。

S305，从每个像素点对应的距离值集合中选取最小距离值，得到所述帧图像的最小距离值集合。

具体的，帧图像中的每个像素对应一个距离值集合，从该距离值集合中选取最小距离值，该最小距离值可以作为相应像素点的显著性值。帧图像中的所有像素点对应的最小距离值形成最小距离值集合。

本说明书实施例中，由于最小距离值可以作为相应像素点的显著性值，那么基于帧图像的最小距离值集合可以输出该帧图像对应的显著性特征图。如图4a是某一帧图像的示意图，图4b是图4a对应的显著性特征图。

S307，对所述最小距离值集合中的最小距离值进行归一化处理，将归一化处理后的最小距离值作为所述帧图像中相应像素点的显著性权值。

本说明书实施例中可以采用最大最小值归一化方法，该方法可以表示为如下公式：

其中，x_i表示最小距离值集合中的任一最小距离值；min(x)表示最小距离值集合中数值最小的最小距离值；max(x)表示最小距离值集合中数值最大的最小距离值；w表示对x_i归一化后的值即为显著性权值，其范围为[0,1]。

实际应用中，可以结合OpenCV(open source computer vision library，开放源代码计算机视觉类库)提供的函数实现输出的帧图像对应的显著性特征图的最大最小归一化。

需要说明的是，上述只是给出归一化处理的一个示例，实际应用中还可以采用其他的归一化处理方法以将最小距离值集合中的各最小距离值转换到0～1之间，从而得到帧图像中相应像素点的显著性权值。

S205，对所述帧图像集中的各个帧图像进行特征提取，得到每个帧图像的第一特征图。

本说明书实施例中，可以采用训练好的卷积神经网络，将帧图像集中的各个帧图像分别输入至该卷积神经网络中，通过卷积神经网络进行各个帧图像的特征提取。其中，输入至卷积神经网络的帧图像可以为jpg格式的图像，图像输入为R，G，B三通道像素值。

一个可选的实施方式中，卷积神经网络可以包括卷积层、归一化网络层(BatchNorm网络层)和激活函数层(LeakyReLu网络层)。

其中，卷积层由卷积核的权值和偏置项构成。在一个卷积层中，输入数据首先经卷积核进行卷积计算，然后通过激活函数f得到输出的特征图，特征图是组合卷积多个通道的输入数据得到的结果，每个卷积核可生成一个特征图，计算方法如下：

其中，

代表了连接第l层的i单元和l+1层的j单元的权值参数，

是连接第l层偏置单元和第l+1层的j单元对应的参数；FM_l是第l层的特征图集合，

代表第l层的第i个特征图。

上述公式中，第l层获得的所有特征图分别与之对应的l+1层的j单元的权值相乘，求和之后加上第l层偏置单元和第l+1层的j单元对应的参数，然后通过一个激活函数就可以得到第l+1层的第j个特征图

归一化网络层(BatchNorm网络层)可归一化网络参数，用于提高网络训练收敛速度，防止网络过拟合，计算方法如下：

其中，x^(k)为第k层特征值；为y^(k)归一化后的结果；μ为第k层特征均值；σ为第k层特征值标准差；γ^(k)和β^(k)为训练参数；ε为常数，其可以根据实际需要进行设定。

激活函数层(LeakyReLu网络层)用于对上一层的输出进行修正，所采用的激活函数可以如下：

其中，x_i为为上一层的输出，y_i为经过激活函数层修正后的输出，a_i为(1,+∞)内的固定参数。

S207，根据每个帧图像中像素点对应的显著性权值对所述帧图像对应的第一特征图进行加权处理，得到显著性加权特征图。

具体的，将第一特征图与相应的帧图像按照像素点相对应，计算第一特征图中各像素点的特征值与相对应的显著性权值的乘积，从而得到显著性加权特征图，其中，像素点的特征值是像素点的像素值经过卷积处理后转换成的。通过对第一特征图中各像素点的特征值与相对应的显著性权值相乘，可以提高显著性区域特征对后续类别分类的影响，并同时降低环境信息对类别分类的影响，有利于提高类别分类的准确性，进行可以提高基于该类别分类确定的视频标签。

实际应用中，像素点对应的显著性权值可能存在为零的情况，当像素点对应的显著性权值为零时，在将第一特征图中相对应的像素点的特征值与该显著性权值相乘时导致生成的显著性加权特征图中相对应的像素点的特征值为零，从而导致丢失了第一特征图中的相应特征。

为了避免在加权处理时出现的特征丢失的现象，本说明书实施例中，在实施步骤S207时，可以先根据预设权值调整参数对每个帧图像中像素点对应的显著性权值进行调整，得到每个帧图像中像素点对应的调整显著性权值，然后根据每个帧图像中像素点对应的调整显著性权值对该帧图像对应的第一特征图进行加权处理，得到显著性加权特征图。具体的实施中，上述调整可以是在帧图像中各像素点对应的显著性权值的基础上加上预设权值调整参数，可以理解的该预设权值调整参数可以是不为零的固定数值，在一个可选的实施方式中，该预设权值调整参数可以为0.5。

S209，对所述显著性加权特征图进行目标检测得到目标信息，所述目标信息作为所述显著性加权特征图所对应的帧图像的标签信息。

目标检测结合了目标分类和定位两个任务，其是计算机视觉应用的基础。计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本说明书实施例中，在对显著性加权特征图进行目标检测时可以先基于卷积神经网络对显著性加权特征图进行特征提取，得到第二特征图，然后基于目标检测网络对第二特征图进行目标检测，得到目标检测网络输出的目标信息。其中，卷积神经网络用于对显著性加权特征图进行卷积操作提取特征，其结构可以包括前述步骤205中提及的卷积神经网络的结构。目标检测网络用于根据提取的特征确定目标的类别和目标的位置，该目标检测网络可以但不限于包括yolo网络、Faster RCNN、Mask RCNN等。其中，目标的类别可以包括多个，目标检测网络可以输出目标属于每个类别的概率，即类别的置信度。

本说明书实施例中，为了提高对不同大小目标的目标检测的准确性，在一个可选的实施方式中，卷积神经网络可以包括多个层的卷积操作，不同的层输出的特征图尺度(即大小)不同，从网络的不同层抽取不同尺度的特征图作为上述的第二特征图，也就是说，第二特征图可以包括不同尺度的多个第二特征图。

相应的，目标检测网络可以包括多个目标检测子网络，每个目标检测子网络与一种尺度的第二特征图相对应，用于根据该尺度的第二特征图进行目标检测，一般采用小尺度的第二特征图进行大目标的检测，采用大尺度的第二特征图进行小目标的检测，可以很好的提高对小目标检测的准确性。在采用大尺度的第二特征图进行小目标的检测时，可以获取对应于小尺度的第二特性图的目标检测子网络中的第三特征图，将该第三特征图进行上采样处理后与该大尺度的第二特征图进行融合，然后基于融合后的第二特征图进行小目标的检测，以提高检测精度。

在一个可选的实施方式中，本说明书实施例中的步骤S205至步骤S209可以通过图5所示的机器学习模型来实现。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

如图5所示，该机器学习模型包括左侧用于进行特征提取的卷积神经网络，和右侧用于目标检测网络，其中，卷积神经网络可以但不限于包括darknet53网络，目标检测网络可以但不限于包括yolo网络。

图5中的卷积神经网络为残差网络结构，可以包括多个残差模块，如图5中示出的5个残差模块，Residual为残差计算层，其可以为残差连接(Skip Connection)结构，即将输出表示为输入和输入的一个非线性变换的线性叠加。

图5中的卷积神经网络中设置有注意力层，该注意力层用于实现根据每个帧图像中像素点对应的显著性权值对所述帧图像对应的第一特征图进行加权处理得到显著性加权特征图的功能。可以理解的，卷积神经网络中的注意力层可以是一个也可以是多个，该注意力层的设置位置也不限于图5中位置，还可以设置在该卷积神经网络的其他位置。

图5中从卷积神经网络的三个层分别抽取了三种不同尺度的特征图，该特征图从卷积神经网络由上到下尺度逐渐增大，也就是说，最上层抽取的特征图的尺度最小，往下特征图的尺度逐渐增大，图5中的特征图的尺度由小到大依次为：特征图1<特征图2<特征图3。该三种不同尺度的特征图分别作为三个目标检测子网络的输入，基于该三个不同尺度的特征图输出目标检测的结果。图5中在进行目标检测时，基于最小尺度的特征图(即特征图1)进行大目标的检测，得到目标信息1，基于最大尺度的特征图(即特征图3)进行小目标的检测，得到目标信息3，基于中间尺度的特征图(即特征图2)进行中间目标的检测，得到目标信息2。在进行中间目标的检测时，获取对应于特征图1的目标检测子网络中的特征图，对该特征图进行上采样后与特征图2进行拼接(Concatenate)，然后基于拼接后的特征图进行中间目标的检测。在进行小目标的检测时，获取对应于特征图2的目标检测子网络中的特征图，对该特征图进行上采样后与特征图3进行拼接(Concatenate)，然后基于拼接后的特征图进行小目标的检测。

需要说明的是，从卷积神经网络中抽取的特征图不限于图5中示出三种尺度的特征图，实际应用中还可以根据需要抽取其他层的特征图，不同尺度的特征图也不限于图5中的三种，还可以根据实际需要设置为更多或者更少种尺度。

图5中示出的Conv表示由卷积层、BatchNorm网络层和LeakyReLU组成；Conv2d表示原始卷积层，该原始卷积层的计算方法可以参见前述步骤205中提及的卷积神经网络中的卷积层操作；Up Sampling为上采样层，可以采用内插值法即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素，从而扩大原图像的大小；Concatenate表示对图像的拼接，具体的可以是不同图像中相对应像素相加。

S211，根据所述帧图像集中帧图像的标签信息，确定所述目标视频的视频标签。

本说明书实施例中，目标检测网络输出的检测结果即目标信息包括类别和该类别所对应的置信度，当然该目标信息中还可以包括目标位置(一般为目标框位置)。

在一个可选的实施方式中，目标检测网络训练过程中使用的损失函数Loss可以包括以下三部分：目标置信度损失、目标框位置损失以及目标类别损失，其中:目标置信度损失表示为

目标框位置损失表示为

目标类别损失表示为

则上述的损失函数可以表示为Loss＝Loss_box+Loss_class+Loss_confidence。

本说明书实施例中，在根据所述帧图像集中帧图像的标签信息确定所述目标视频的视频标签时，可以采用图6中的方法实现，如图6所示，该方法可以包括：

S601，针对所述帧图像集中每个帧图像的标签信息，判断所述标签信息中的置信度是否大于置信度阈值。

由于每个帧图像的标签信息即为目标检测的目标信息，每个目标信息包括类别以及该类别对应的置信度，可以理解的，每个帧图像可以对应有多个目标信息。本说明书实施例，针对目标视频的帧图像集中的每个帧图像，获取该帧图像的标签信息，判断该标签信息中的置信度是否大于置信度阈值，若大于置信度阈值，则执行步骤S603，若不大于置信度阈值则略过该条标签信息。

其中，置信度阈值可以根据实际需要进行设置，例如可以设置为0.3等。

S603，确定所述标签信息中的类别为候选类别，得到候选类别集。

本说明书实施例中，将大于置信度阈的值置信度所对应的类别确定为候选类别，所有帧图像对应的候选类别构成候选类别集。

S605，计算所述候选类别集中每种候选类别的数量。

S607，将所述数量大于预设数量阈值的候选类别，确定为所述目标视频的视频标签。

其中，预设数量阈值可以根据实际需要进行设置，例如可以设置为3等等。

实际应用中，在确定了目标视频的视频标签后，还可以根据视频标签来为用户推荐其感兴趣的视频，例如可以获取用户的画像信息，该画像信息可以包括用户感兴趣的视频的类别，通过将视频标签与用户的画像信息进行匹配，从而可以确定用户感兴趣的目标视频，进而可以在用户感兴趣的方面推荐相关视频。

由本发明实施例的上述技术方案可见，本发明实施例通过确定帧图像中像素点的显著性权值，利用该显著性权值对相应帧图像的特征图进行加权处理，得到显著性加权特征图，进而对该显著性加权特征图进行目标检测，将目标检测得到的目标信息作为显著性加权特征图对应的帧图像的标签信息，最后根据目标视频的帧图像集中各个帧图像的标签信息来确定该目标视频的视频标签，从而提高了帧图像中显著性区域特征对该帧图像类别分类的影响，同时降低了帧图像中环境信息对目标识别的影响，提高了识别的准确性，尤其是小目标识别的准确性，进而提高了视频标签确定的准确率。

与上述几种实施例提供的视频标签确定方法相对应，本发明实施例还提供一种视频标签确定装置，由于本发明实施例提供的视频标签确定装置与上述几种实施例提供的视频标签确定方法相对应，因此前述视频标签确定方法的实施方式也适用于本实施例提供的视频标签确定装置，在本实施例中不再详细描述。

请参阅图7，其所示为本发明实施例提供的一种视频标签确定装置的结构示意图，该装置具有实现上述方法实施例中视频标签确定方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。如图7所示，该装置可以包括：

获取模块710，用于获取目标视频的帧图像，得到帧图像集；

显著性检测模块720，用于对所述帧图像集中的各个帧图像进行显著性检测，确定每个帧图像中像素点对应的显著性权值；

第一特征提取模块730，用于对所述帧图像集中的各个帧图像进行特征提取，得到每个帧图像的第一特征图；

加权处理模块740，用于根据每个帧图像中像素点对应的显著性权值对所述帧图像对应的第一特征图进行加权处理，得到显著性加权特征图；

目标检测模块750，用于对所述显著性加权特征图进行目标检测得到目标信息，所述目标信息作为所述显著性加权特征图所对应的帧图像的标签信息；

视频标签确定模块760，用于根据所述帧图像集中帧图像的标签信息，确定所述目标视频的视频标签。

在一个可选的实施方式中，显著性检测模块720可以包括：

在一个可选的实施方式中，加权处理模块740可以包括：

在一个可选的实施方式中，目标检测模块750可以包括：

在一个可选的实施方式中，所述第二特征图可以包括不同尺度的多个第二特征图；

在一个可选的实施方式中，标签信息可以包括类别和置信度；

相应的，视频标签确定模块760可以包括：

在一个可选的实施方式中，获取模块具体用于：每隔预设时间间隔从所述目标视频中提取帧图像，得到所述帧图像集。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例的视频标签确定装置通过确定帧图像中像素点的显著性权值，利用该显著性权值对相应帧图像的特征图进行加权处理，得到显著性加权特征图，进而对该显著性加权特征图进行目标检测，将目标检测得到的目标信息作为显著性加权特征图对应的帧图像的标签信息，最后根据目标视频的帧图像集中各个帧图像的标签信息来确定该目标视频的视频标签，从而提高了帧图像中显著性区域特征对该帧图像类别分类的影响，同时降低了帧图像中环境信息对目标识别的影响，提高了识别的准确性，尤其是小目标识别的准确性，进而提高了视频标签确定的准确率。

本发明实施例提供了一种服务器，该服务器包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的视频标签确定方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及视频标签的确定。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图8是本发明实施例提供的运行一种视频标签确定方法的服务器的硬件结构框图，如图8所示，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)810(处理器810可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器830，一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中，存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器810可以设置为与存储介质820通信，在服务器800上执行存储介质820中的一系列指令操作。服务器800还可以包括一个或一个以上电源860，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口840，和/或，一个或一个以上操作系统821，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器800的通信供应商提供的无线网络。在一个实例中，输入输出接口840包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口840可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图8所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器800还可包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。

本发明的实施例还提供了一种计算机可读存储介质，所述存储介质可设置于终端之中以保存用于实现一种视频标签确定方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的视频标签确定方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频标签确定方法，其特征在于，所述方法包括：

获取目标视频的帧图像，得到帧图像集；

2.根据权利要求1所述的视频标签确定方法，其特征在于，所述对所述帧图像集中的各个帧图像进行显著性检测，确定每个帧图像中像素点对应的显著性权值包括：

针对所述帧图像集中的每个帧图像，确定所述帧图像的背景像素点集合；

计算所述帧图像中每个像素点与所述背景像素点集合中的背景像素点之间的距离值，得到每个像素点对应的距离值集合；

从每个像素点对应的距离值集合中选取最小距离值，得到所述帧图像的最小距离值集合；

对所述最小距离值集合中的最小距离值进行归一化处理，将归一化处理后的最小距离值作为所述帧图像中相应像素点的显著性权值。

3.根据权利要求1所述的视频标签确定方法，其特征在于，所述根据每个帧图像中像素点对应的显著性权值对所述帧图像对应的第一特征图进行加权处理，得到显著性加权特征图包括：

根据预设权值调整参数对每个帧图像中像素点对应的显著性权值进行调整，得到每个帧图像中像素点对应的调整显著性权值；

根据每个帧图像中像素点对应的调整显著性权值对所述帧图像对应的第一特征图进行加权处理，得到所述显著性加权特征图。

4.根据权利要求1所述的视频标签确定方法，其特征在于，所述对所述显著性加权特征图进行目标检测得到目标信息包括：

基于卷积神经网络对所述显著性加权特征图特征提取，得到第二特征图；

基于目标检测网络对所述第二特征图进行目标检测，得到所述目标检测网络输出的目标信息。

5.根据权利要求4所述的视频标签确定方法，其特征在于，所述第二特征图包括不同尺度的多个第二特征图；

6.根据权利要求1所述的视频标签确定方法，其特征在于，所述标签信息包括类别和置信度；

相应的，根据所述帧图像集中帧图像的标签信息，确定所述目标视频的视频标签包括：

针对所述帧图像集中每个帧图像的标签信息，判断所述标签信息中的置信度是否大于置信度阈值；

在判断的结果为是时，确定所述标签信息中的类别为候选类别，得到候选类别集；

计算所述候选类别集中每种候选类别的数量；

将所述数量大于预设数量阈值的候选类别，确定为所述目标视频的视频标签。

7.根据权利要求1所述的视频标签确定方法，其特征在于，所述获取目标视频的帧图像，得到帧图像集包括：

每隔预设时间间隔从所述目标视频中提取帧图像，得到所述帧图像集。

8.一种视频标签确定装置，其特征在于，所述装置包括：

获取模块，用于获取目标视频的帧图像，得到帧图像集；

9.一种服务器，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1～7中任一项所述的视频标签确定方法。

10.一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1～7任一项所述的视频标签确定方法。