CN112101154B

CN112101154B - 视频分类方法、装置、计算机设备和存储介质

Info

Publication number: CN112101154B
Application number: CN202010907778.6A
Authority: CN
Inventors: 宋奕兵; 姜文浩; 翁俊武; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2023-12-15
Anticipated expiration: 2040-09-02
Also published as: CN112101154A

Abstract

本申请涉及人工智能的计算机视觉技术、机器学习等技术，一种视频分类方法、装置、计算机设备和存储介质。所述方法包括：获取待分类视频片段；将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息；将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果，根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果。采用本方法能够得到准确的视频分类结果。

Description

视频分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种视频分类方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了视频分类技术。视频分类技术主要应用于对视频片段进行归类打标签操作，利用打好标签的视频片段，可以在接收到视频搜索请求时实现更准确的相关视频反馈。

传统技术中，是利用视频分类深度学习网络进行视频分类的，在视频分类时，会将待分类视频片段输入已训练的视频分类深度学习网络，使已训练的视频分类深度学习网络基于给定的视频类别和内容进行分类，得到视频分类结果。

然而，当视频片段内容相似时，常规视频分类技术存在分类不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种分类准确的视频分类方法、装置、计算机设备和存储介质。

一种视频分类方法，所述方法包括：

获取待分类视频片段；

将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息；

将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果；

根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果。

一种视频分类装置，所述装置包括：

获取模块，用于获取待分类视频片段；

第一分类模块，用于将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息；

第二分类模块，用于将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果；

处理模块，用于根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待分类视频片段；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待分类视频片段；

上述视频分类方法、装置、计算机设备和存储介质，通过将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息，将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果，根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果。整个过程，通过先分别利用视频分类网络和人脸识别网络得到视频分类结果，再综合两个视频分类结果得到目标视频分类结果，能够得到准确的视频分类结果。

附图说明

图1为一个实施例中视频分类方法的流程示意图；

图2为一个实施例中视频分类网络的示意图；

图3为一个实施例中视频分类方法的应用场景图；

图4为另一个实施例中视频分类方法的流程示意图；

图5为一个实施例中视频分类装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等技术，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在一个实施例中，如图1所示，提供了一种视频分类方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，获取待分类视频片段。

其中，待分类视频片段是指需要分类的视频片段。比如，待分类视频片段具体可以是指用户上传的未标注视频类别的视频片段。又比如，待分类视频片段具体可以是指用户上传的视频标签不准确的视频片段。举例说明，待分类视频片段具体可以是指影视剧片段，未标注视频类别具体可以是指未标注影视剧片段对应的影视剧名称，视频标签不准确具体可以是指虽然已标注视频类别，但所标注的视频类别并不是与影视剧片段对应的影视剧名称。

具体的，服务器可以从预设视频数据库中获取待分类视频片段，预设视频数据库中存储的待分类视频片段可以为用户通过其终端上传的。

步骤104，将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息。

其中，已训练的视频分类网络是指用于根据预设视频类别对视频进行分类的网络。比如，已训练的视频视频分类网络具体可以是指已训练的TSN(Temporal SegmentNetwork，基于时序片段进行切割的视频分类深度学习网络)。第一视频分类结果是指已训练的视频分类网络输出的分类结果。比如，第一视频分类结果具体可以是与预设视频类别数量对应的多维向量，向量的维数与预设视频类别数量相同，多维向量中的每一个元素的值代表待分类视频片段属于预设视频类别的概率。比如，当待分类视频片段为影视剧片段时，第一视频分类结果具体可以是与预设影视剧对应的多维向量，多维向量中的每一个元素的值代表影视剧片段属于预设影视剧的概率。

其中，已训练的人脸识别网络是指用于对视频各帧图像进行人脸检测和识别的网络。比如，人脸识别网络具体可以是基于深度学习的人脸识别网络。人物信息是指在通过待分类视频片段截取出的各帧图像中出现的人物的信息。比如，当待分类视频片段为影视剧片段时，人物信息具体可以是在该段影视剧片段中出现的演员信息。举例说明，当待分类视频片段为影视剧片段时，人物信息具体可以是指待分类视频片段中出现的演员列表。

具体的，服务器将待分类视频片段输入已训练的视频分类网络，通过视频分类网络先对待分类视频片段进行场景切分，得到场景切分后的视频特征数据，再利用视频分类网络中的卷积网络对视频特征数据进行分类预测，得到分类预测向量，最后根据分类预测向量得到第一视频分类结果。同时，服务器会将待分类视频片段输入已训练的人脸识别网络，通过已训练的人脸识别网络先将待分类视频片段拆分为多帧图像，再对每一帧图像进行人脸检测与识别，得到与待分类视频片段对应的人物信息。

步骤106，将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果。

其中，各预设视频类别是指已预先设置的视频类别，对待分类视频片段进行分类即是要确定待分类视频片段归属的预设视频类别。比如，预设视频类别具体可以是指各影视剧，则待分类视频片段即是指影视剧片段，对待分类视频片段进行分类即是要确定影视剧片段归属的影视剧。人物信息集合是指在各预设视频类别中会出现的人物的信息集合。比如，当预设视频类别为各影视剧时，人物信息集合具体可以是指在影视剧中会出现的演员的信息集合。举例说明，当预设视频类别为各影视剧时，人物信息集合具体可以是指影视剧的演员列表。第二视频分类结果是指已训练的人脸识别网络输出的分类结果，比如，第二视频分类结果具体可以是与待分类视频片段对应的视频类别。举例说明，当待分类视频片段为影视剧片段时，第二视频分类结果具体可以是与影视剧片段对应的影视剧。

具体的，服务器通过将人物信息与各预设视频类别的人物信息集合进行比对，可以得到人物信息与各预设视频类别的人物信息集合之间的相似度，从而根据相似度得到第二视频分类结果。

步骤108，根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果。

其中，目标视频分类结果是指综合第一视频分类结果以及第二视频分类结果得到的、待分类视频片段的分类结果。

具体的，服务器会根据预设分类权重，确定与第一视频分类结果对应的第一权重以及与第二视频分类结果对应的第二权重，进而根据第一视频分类结果、第一权重、第二视频分类结果以及第二权重，得到目标视频分类结果。其中，预设分类权重是指预先设置的第一视频分类结果的权重以及第二视频分类结果的权重，用于表征第一视频分类结果以及第二视频分类结果的重要程度。比如，预设分类权重具体可以是指第一视频分类结果的权重系数以及第二视频分类结果的权重系数。

上述视频分类方法，通过将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息，将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果，根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果。整个过程，通过先分别利用视频分类网络和人脸识别网络得到视频分类结果，再综合两个视频分类结果得到目标视频分类结果，能够得到准确的视频分类结果。

在一个实施例中，步骤将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果之前，还包括：

获取携带类别标签的待训练视频片段；

根据待训练视频片段对初始视频分类网络进行训练，得到已训练的视频分类网络。

其中，类别标签用于区分各预设视频类别。比如，类别标签具体可以是指用于区别各预设视频类别的名词。举例说明，当预设视频类别为影视剧时，类别标签具体可以是指该影视剧的名称。待训练视频片段是指用于训练的视频片段。比如，当预设视频类别为影视剧时，待训练视频片段具体可以是指待训练的影视剧片段。初始视频分类网络是指尚未训练的视频分类网络，与已训练的视频分类网络的网络框架相同，对初始视频分类网络进行训练即是指对初始视频分类网络中的网络参数进行调整，使视频分类网络能够对待训练视频片段进行准确预测。

具体的，服务器可以从预设视频数据库中获取携带各预设视频类别的类别标签的待训练视频片段，将待训练视频片段输入初始视频分类网络中，使初始视频分类网络输出预测分类结果，再比对预测分类结果和类别标签，得到分类误差，根据分类误差进行反向传播，对初始视频分类网络中的网络参数进行调整，直到初始视频分类网络的预测分类结果与类别标签之间的分类误差满足预设误差条件时，得到已训练的视频分类网络。其中预设误差条件可按照需要自行设置。比如，预设误差条件具体可以是分类准确率达到95％以上。

本实施例中，通过获取携带类别标签的待训练视频片段，根据待训练视频片段对初始视频分类网络进行训练，得到已训练的视频分类网络，能够实现对已训练的视频分类网络的获取。

在一个实施例中，步骤将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果包括：

将待分类视频片段输入已训练的视频分类网络，通过已训练的视频分类网络对待分类视频片段进行场景切分，得到与待分类视频片段对应的视频特征数据；

通过已训练的视频分类网络中的卷积网络对视频特征数据进行分类预测，得到与视频特征数据对应的分类预测向量；

对与视频特征数据对应的分类预测向量进行向量融合，得到第一视频分类结果。

其中，进行场景切分是指根据场景变化信息对待分类视频片段进行切分，场景变化信息具体可以包括场景人物变化信息，场景明暗程度信息、场景饱和度变化信息等。视频特征数据是指经过场景切分后得到的视频片段的特征数据。比如，视频特征数据具体可以是指与场景切分后的视频片段对应的单帧图像以及一系列光流图像。卷积网络是指在视频分类网络中用于对视频特征数据进行分类预测的网络。比如，当已训练的视频分类网络为TSN时，卷积网络具体可以是指Spatial ConvNet和Temporal ConvNet。分类预测向量是指卷积网络输出的、针对视频特征数据进行分类预测得到的向量。分类预测向量的向量维度与预设视频类别数量相同，且分类预测向量中的每一个元素的值代表视频特征数据归属于各预设视频类别的概率。进行向量融合是指将各分类预测向量中表征为同一个预设视频类别的概率的各元素的值相叠加。举例说明，当分类预测向量为A＝[0.1,0.4,0.5]，B＝[0.2,0.5,0.3]时，进行向量融合，可以得到第一视频分类结果为[0.3,0.9,0.8]，其中分类预测向量A和分类预测向量B中相同位置的元素表征同一个预设视频类别。

具体的，服务器会将待分类视频片段输入已训练的视频分类网络，首先使已训练的视频分类网络根据场景变化信息对待分类视频片段进行场景切分，得到与待分类视频片段对应的多个视频特征数据，再通过已训练的视频分类网络中的卷积网络对各视频特征数据进行分类预测，得到与各视频特征数据对应的分类预测向量，最后通过已训练的视频分类网络对与各视频特征数据对应的分类预测向量进行向量融合，得到第一视频分类结果。

举例说明，如图2所示，可以通过已训练的TSN实现对待分类视频片段进行分类预测，得到第一视频分类结果。服务器首先将待分类视频片段输入已训练的TSN，通过已训练的TSN对待分类视频片段(Video)进行场景切分，得到与待分类视频片段对应的视频特征数据(Snippets)，通过已训练的TSN中的卷积网络(Spatial ConvNet和Temporal ConvNet)对视频特征数据进行分类预测，得到与视频特征数据对应的分类预测向量，对与视频特征数据对应的分类预测向量进行向量融合(Class Score Fusion)，得到第一视频分类结果。

本实施例中，通过将待分类视频片段输入已训练的视频分类网络，通过已训练的视频分类网络进行场景切分、卷积分类预测以及向量融合，得到第一视频分类结果，能够实现对第一视频分类结果的获取。

在一个实施例中，步骤将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息包括：

将待分类视频片段输入已训练的人脸识别网络，通过已训练的人脸识别网络对待分类视频片段中每一帧图像进行人脸检测，得到与待分类视频片段对应的人脸集合；

比对人脸集合中的人脸图像和预设人脸图像信息库，得到与待分类视频片段对应的人物信息。

其中，与待分类视频片段对应的人脸集合是指在待分类视频片段中出现的人脸图像的集合。比如，当待分类视频片段为影视剧片段时，与待分类视频片段对应的人脸集合具体可以是指在影视剧片段中出现的演员图像的集合。预设人脸图像信息库是指预先设置的存储有人脸图像的信息库。比如，当待分类视频片段为影视剧片段时，预设人脸图像信息库具体可以是指存储有演员图像的信息库。

具体的，服务器会将待分类视频片段输入已训练的人脸识别网络，先通过已训练的人脸识别网络对待分类视频片段中每一帧图像进行人脸检测，得到与待分类视频片段对应的人脸集合，再比对人脸集合中的人脸图像和预设人脸图像信息库中的预设人脸图像，确定人脸集合中的人脸图像与预设人脸图像信息库中的预设人脸图像之间的对应关系，由于预设人脸图像信息库中的预设人脸图像是已知的，通过确定对应关系，就可以根据对应关系得到与待分类视频片段对应的人物信息了。

举例说明，当待分类视频片段为影视剧片段时，具体的，服务器会将影视剧片段输入已训练的人脸识别网络，先通过已训练的人脸识别网络对影视剧片段中每一帧图像进行人脸检测，得到与影视剧片段对应的演员人脸集合，再比对演员人脸集合中的演员人脸图像和预设演员图像信息库中的预设演员图像，确定演员人脸集合中的演员人脸图像与预设演员图像信息库中的预设演员图像之间的对应关系，由于预设演员图像信息库中的预设演员图像是已知的，通过确定对应关系，就可以根据对应关系得到与影视剧片段对应的演员信息了。

本实施例中，通过将待分类视频片段输入已训练的人脸识别网络，对待分类视频片段中每一帧图像进行人脸检测，并与预设人脸图像信息库进行比对，能够实现对与待分类视频片段对应的人物信息的获取。

在一个实施例中，步骤将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果包括：

根据预设人物向量和人物信息，得到与人物信息对应的待比对向量，并获取与人物信息集合对应的人物特征向量；

计算待比对向量与人物特征向量的相似度；

根据相似度计算结果，从各预设视频类别中确定与人物信息对应的目标视频类别，得到第二视频分类结果。

其中，预设人物向量是指根据所有可能在待分类视频片段中出现的人物设置的向量，在预设人物向量中，向量维数与预设人物数量相同，向量中的每个元素位置对应一个人物。比如，当待分类视频片段为影视剧片段时，预设人物向量具体可以是指根据各影视剧片段确定的所有可能在影视剧片段中出现的演员设置的向量，向量中的每个元素对应一个人物。

其中，待比对向量用于表征预设人物在待分类视频片段中的出现情况，待比对向量的向量维度与预设人物向量的向量维度相同，均为预设人物数量。当预设人物在待分类视频片段中出现时，在待比对向量中与预设人物向量的元素位置对应的元素值为1，当预设人物未在待分类视频片段中出现时，在待比对向量中与预设人物向量的元素位置对应的元素值为0。比如，当待分类视频片段为影视剧片段时，待比对向量具体可以用于表征预设演员在影视剧片段中的出现情况，当演员在影视剧片段中出现时，与演员对应的元素位置对应的元素值为1，当演员未在影视剧片段中出现时，与演员对应的元素位置对应的元素值为0。

其中，与人物信息集合对应的人物特征向量是指根据所有在预设视频类别中出现的人物设置的向量，可根据预设人物向量预先设置，并存储在视频数据库中，服务器可直接从视频数据库中获取。人物特征向量的向量维数也与预设人物数量相同，当预设人物在预设视频类别中出现时，在人物特征向量中与预设人物向量的元素位置对应的元素值为1，当预设人物未在预设视频类别中出现时，在人物特征向量中与预设人物向量的元素位置对应的元素值为0。比如，当待分类视频片段为影视剧片段时，人物特征向量是指根据所有在影视剧中出现的人物设置的向量，当演员在影视剧中出现时，在人物特征向量中与演员的元素位置对应的元素值为1，当演员未在影视剧中出现时，在人物特征向量中与演员的元素位置对应的元素值为0。相似度用于表征待比对向量与人物特征向量的相似程度。与人物信息对应的目标视频类别是指与相似度最大的人物特征向量对应的预设视频类别。比如，当待分类视频片段为影视剧片段时，与人物信息对应的目标视频类别是指与待比对演员列表对应的影视剧。

具体的，服务器会先根据预设人物向量和人物信息，确定与人物信息对应的待比对向量中各元素的元素值，得到与人物信息对应的待比对向量，并获取预先已在视频数据库中存储的、与人物信息集合对应的人物特征向量，再计算待比对向量与各人物特征向量之间的相似度，根据相似度计算结果，对与各人物特征向量对应的各预设视频类别进行排序，从各预设视频类别中选取出相似度最大的预设视频类别，作为与人物信息对应的目标视频类别，得到第二视频分类结果。

举例说明，当待分类视频片段为影视剧片段时，服务器可以将所有出现的演员(比如200人)整理为一个200维的预设人物向量，每个元素位置对应一个演员。所有影视剧(即预设视频类别)均可以由这一个200维的向量表示，即影视剧的人物特征向量。第一部影视剧中有10位演员，那么这200维向量在对应10个位置为1，其余位置为0。同理，我们对于影视剧片段也进行类似的向量生成，得到待比对向量。从而将影视剧片段以及影视剧均转换成了200维的向量。进而通过将待比对向量和影视剧的人物特征向量进行一一的比对，计算相似度(可以采用欧式距离、余弦距离等度量方式进行评估)，根据相似度计算结果，最终确定与影视剧片段最相似的影视剧。

本实施例中，通过根据预设人物向量和人物信息，得到与人物信息对应的待比对向量，并获取与人物信息集合对应的人物特征向量，计算待比对向量与人物特征向量的相似度，根据相似度计算结果，从各预设视频类别中确定与人物信息对应的目标视频类别，得到第二视频分类结果，能够实现对第二视频分类结果的获取。

在一个实施例中，步骤根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果包括：

根据预设视频类别数量对第二视频分类结果进行向量维数扩展，得到扩展后的第二视频分类结果，扩展后的第二视频分类结果的向量维数与第一视频分类结果的向量维数相同；

根据扩展后的第二视频分类结果、第一视频分类结果以及预设分类权重进行向量叠加，得到第三视频分类结果；

获取第三视频分类结果中最大元素值对应的视频类别，得到目标视频分类结果。

其中，预设视频类别数量是指预先设置的视频类别的数量。比如，当待分类视频片段为影视剧片段时，预设视频类别数量具体可以是指影视剧数量。进行向量维数扩展是指将第二视频分类结果扩展为一个与第一视频分类结果的向量维数相同的向量，在扩展后的第二视频分类结果中，与扩展前的第二视频分类结果对应的元素位置的元素值为1，其余元素位置的元素值为0，与扩展前的第二视频分类结果对应的元素位置是指与扩展前的第二视频分类结果对应的预设视频类别，所对应的元素位置。在第一视频分类结果和扩展后的第二视频分类结果中，各预设视频类别都有对应的元素位置。

具体的，服务器会根据预设视频类别数量对第二视频分类结果进行向量维数扩展，将与第二视频分类结果对应的预设视频类别所对应的元素位置的元素值设置为1，其他预设视频类别所对应的元素位置的元素值设置为0，得到扩展后的第二视频分类结果，根据预设分类权重将扩展后的第二视频分类结果以及第一视频分类结果中各对应元素位置的元素值进行叠加，得到第三视频分类结果，对第三视频分类结果中各元素值进行排序，从中选取最大元素值，获取第三视频分类结果中最大元素值对应的视频类别，得到目标视频分类结果。其中，第三视频分类结果中各元素值用于表征待分类视频归属于各预设视频类别的概率，各元素值分别与各预设视频类别一一对应，其对应关系与第一视频分类结果中各元素值与各预设视频类别的对应关系相同。

举例说明，当待分类视频片段为影视剧片段时，假设预设视频类别为100部影视剧，根据影视剧片段，视频分类网络可以输出一个100维的向量作为第一视频分类结果，即S＝(a1，a2，a3，……，a100)，其中ai为该影视剧片段隶属于某一部影视剧的概率。同时我们根据人脸识别网络得到的第二视频分类结果是最可能的影视剧类别k，将其拓展为一个100维的向量。形式为F＝(0，0，0，…，1，…，0)。这个向量只有一个元素值为1，其他元素值均为0。值为1的元素所在的位置即为第k个影视剧的类别。我们将这两个向量进行加权相加，得到最终预测的结果：Pred_final＝x1*S+x2*F，其中x1和x2分别为与第一视频分类结果以及第二视频分类结果对应的预设分类权重。所以最终的输出结果依然为一个100维的向量。我们在这个向量中选取值为大的元素所在的类别定为该影视剧片段所隶属的影视剧类别。

本实施例中，通过综合第一视频分类结果、第二视频分类结果以及预设分类权重，计算得到第三视频分类结果，能够实现对第三视频分类结果的获取。

在一个实施例中，视频分类方法还包括：

根据目标视频分类结果为待分类视频片段标注视频标签。

其中，视频标签用于表征待分类视频片段的视频类别，即用于表征待分类视频片段属于哪一个预设视频类别。比如，视频标签具体可以是预设视频类别的名称。比如，当待分类视频片段为影视剧片段时，视频标签用于表征影视剧片段属于哪一个影视剧，具体可以是影视剧名称。

具体的，服务器会先根据目标视频分类结果确定视频标签，再为待分类视频片段标注视频标签。进一步的，在标注视频标签之后，服务器会将已标注视频标签的待分类视频片段存储，当接收到携带搜索关键字的视频检索请求时，可以根据搜索关键字匹配视频标签，查找到符合要求的视频片段并返回。举例说明，当待分类视频片段为影视剧片段时，当接收到携带影视剧名称的视频检索请求时，服务器可以根据影视剧名称匹配视频标签，查找到符合要求的影视剧片段并返回。

本实施例中，通过根据目标视频分类结果为待分类视频片段标注视频标签，能够实现对待分类视频片段的标注，从而可以在接收到视频搜索请求的时候，实现准确反馈。

本申请还提供一种应用场景，如图3所示，该应用场景应用上述的视频分类方法。具体地，该视频分类方法在该应用场景的应用如下：

服务器获取影视剧片段(即待分类视频片段)，将影视剧片段输入视频分类网络TSN(即已训练的视频分类网络)，得到预测分数(即第一视频分类结果)，并将影视剧片段输入人脸检测和识别网络(即已训练的人脸识别网络)，得到与影视剧片段对应的演员信息，将演员信息与各影视剧的演员信息集合进行比对，得到预测分数(即第二视频分类结果)，根据预测分数(第一视频分类结果以及第二视频分类结果)进行影视剧预测分数融合，得到影视剧片段归属于哪个影视剧的分类结果(即目标视频分类结果)。

如图4所示，提供一个详细实施例来说明本申请的视频分类方法，该视频分类方法包括以下步骤：

步骤402，获取待分类视频片段；

步骤404，获取携带类别标签的待训练视频片段；

步骤406，根据待训练视频片段对初始视频分类网络进行训练，得到已训练的视频分类网络；

步骤408，将待分类视频片段输入已训练的视频分类网络，通过已训练的视频分类网络对待分类视频片段进行场景切分，得到与待分类视频片段对应的视频特征数据；

步骤410，通过已训练的视频分类网络中的卷积网络对视频特征数据进行分类预测，得到与视频特征数据对应的分类预测向量；

步骤412，对与视频特征数据对应的分类预测向量进行向量融合，得到第一视频分类结果；

步骤414，将待分类视频片段输入已训练的人脸识别网络，通过人脸识别网络对待分类视频片段中每一帧图像进行人脸检测，得到与待分类视频片段对应的人脸集合；

步骤416，比对人脸集合中的人脸图像和预设人脸图像信息库，得到与待分类视频片段对应的人物信息；

步骤418，根据预设人物向量和人物信息，得到与人物信息对应的待比对向量，并获取与人物信息集合对应的人物特征向量；

步骤420，计算待比对向量与人物特征向量的相似度；

步骤422，根据相似度计算结果，从各预设视频类别中确定与人物信息对应的目标视频类别，得到第二视频分类结果；

步骤424，根据预设视频类别数量对第二视频分类结果进行向量维数扩展，得到扩展后的第二视频分类结果，扩展后的第二视频分类结果的向量维数与第一视频分类结果的向量维数相同；

步骤426，根据扩展后的第二视频分类结果、第一视频分类结果以及预设分类权重进行向量叠加，得到第三视频分类结果；

步骤428，获取第三视频分类结果中最大元素值对应的视频类别，得到目标视频分类结果；

步骤430，根据目标视频分类结果为待分类视频片段标注视频标签。

应该理解的是，虽然图1和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种视频分类装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块502、第一分类模块504、第二分类模块506和处理模块508，其中：

获取模块502，用于获取待分类视频片段；

第一分类模块504，用于将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息；

第二分类模块506，用于将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果；

处理模块508，用于根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果。

上述视频分类装置，通过将待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将待分类视频片段输入已训练的人脸识别网络，得到与待分类视频片段对应的人物信息，将人物信息与各预设视频类别的人物信息集合进行比对，得到第二视频分类结果，根据第一视频分类结果以及第二视频分类结果，得到目标视频分类结果。整个过程，通过先分别利用视频分类网络和人脸识别网络得到视频分类结果，再综合两个视频分类结果得到目标视频分类结果，能够得到准确的视频分类结果。

在一个实施例中，视频分类装置还包括训练模块，训练模块用于获取携带类别标签的待训练视频片段，根据待训练视频片段对初始视频分类网络进行训练，得到已训练的视频分类网络。

在一个实施例中，第一分类模块还用于将待分类视频片段输入已训练的视频分类网络，通过已训练的视频分类网络对待分类视频片段进行场景切分，得到与待分类视频片段对应的视频特征数据，通过已训练的视频分类网络中的卷积网络对视频特征数据进行分类预测，得到与视频特征数据对应的分类预测向量，对与视频特征数据对应的分类预测向量进行向量融合，得到第一视频分类结果。

在一个实施例中，第一分类模块还用于将待分类视频片段输入已训练的人脸识别网络，通过已训练的人脸识别网络对待分类视频片段中每一帧图像进行人脸检测，得到与待分类视频片段对应的人脸集合，比对人脸集合中的人脸图像和预设人脸图像信息库，得到与待分类视频片段对应的人物信息。

在一个实施例中，第二分类模块还用于根据预设人物向量和人物信息，得到与人物信息对应的待比对向量，并获取与人物信息集合对应的人物特征向量，计算待比对向量与人物特征向量的相似度，根据相似度计算结果，从各预设视频类别中确定与人物信息对应的目标视频类别，得到第二视频分类结果。

在一个实施例中，处理模块还用于根据预设视频类别数量对第二视频分类结果进行向量维数扩展，得到扩展后的第二视频分类结果，扩展后的第二视频分类结果的向量维数与第一视频分类结果的向量维数相同，根据扩展后的第二视频分类结果、第一视频分类结果以及预设分类权重进行向量叠加，得到第三视频分类结果，获取第三视频分类结果中最大元素值对应的视频类别，得到目标视频分类结果。

在一个实施例中，视频分类装置还包括标注模块，标注模块用于根据目标视频分类结果为待分类视频片段标注视频标签。

关于视频分类装置的具体限定可以参见上文中对于视频分类方法的限定，在此不再赘述。上述视频分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分类视频片段数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频分类方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频分类方法，其特征在于，所述方法包括：

获取待分类视频片段；

将所述待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将所述待分类视频片段输入已训练的人脸识别网络，得到与所述待分类视频片段对应的人物信息；

根据预设人物向量和所述人物信息，得到与所述人物信息对应的待比对向量，并获取与所述人物信息集合对应的人物特征向量；

计算所述待比对向量与所述人物特征向量的相似度；

根据相似度计算结果，从所述各预设视频类别中确定与所述人物信息对应的目标视频类别，得到第二视频分类结果；

根据所述第一视频分类结果以及所述第二视频分类结果，得到目标视频分类结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果之前，还包括：

获取携带类别标签的待训练视频片段；

根据所述待训练视频片段对初始视频分类网络进行训练，得到已训练的视频分类网络。

3.根据权利要求1所述的方法，其特征在于，所述将所述待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果包括：

将所述待分类视频片段输入已训练的视频分类网络，通过所述已训练的视频分类网络对所述待分类视频片段进行场景切分，得到与所述待分类视频片段对应的视频特征数据；

通过所述已训练的视频分类网络中的卷积网络对所述视频特征数据进行分类预测，得到与所述视频特征数据对应的分类预测向量；

对所述与所述视频特征数据对应的分类预测向量进行向量融合，得到第一视频分类结果。

4.根据权利要求1所述的方法，其特征在于，所述将所述待分类视频片段输入已训练的人脸识别网络，得到与所述待分类视频片段对应的人物信息包括：

将所述待分类视频片段输入已训练的人脸识别网络，通过所述已训练的人脸识别网络对所述待分类视频片段中每一帧图像进行人脸检测，得到与所述待分类视频片段对应的人脸集合；

比对所述人脸集合中的人脸图像和预设人脸图像信息库，得到与所述待分类视频片段对应的人物信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频分类结果以及所述第二视频分类结果，得到目标视频分类结果包括：

根据预设视频类别数量对所述第二视频分类结果进行向量维数扩展，得到扩展后的第二视频分类结果，所述扩展后的第二视频分类结果的向量维数与所述第一视频分类结果的向量维数相同；

根据所述扩展后的第二视频分类结果、所述第一视频分类结果以及预设分类权重进行向量叠加，得到第三视频分类结果；

获取所述第三视频分类结果中最大元素值对应的视频类别，得到目标视频分类结果。

6.根据权利要求1-5任意一项所述的方法，其特征在于，还包括：

根据所述目标视频分类结果为所述待分类视频片段标注视频标签。

7.一种视频分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类视频片段；

第一分类模块，用于将所述待分类视频片段输入已训练的视频分类网络，得到第一视频分类结果，并将所述待分类视频片段输入已训练的人脸识别网络，得到与所述待分类视频片段对应的人物信息；

第二分类模块，用于根据预设人物向量和所述人物信息，得到与所述人物信息对应的待比对向量，并获取与所述人物信息集合对应的人物特征向量，计算所述待比对向量与所述人物特征向量的相似度，根据相似度计算结果，从所述各预设视频类别中确定与所述人物信息对应的目标视频类别，得到第二视频分类结果；

处理模块，用于根据所述第一视频分类结果以及所述第二视频分类结果，得到目标视频分类结果。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括训练模块，所述训练模块用于获取携带类别标签的待训练视频片段，根据所述待训练视频片段对初始视频分类网络进行训练，得到已训练的视频分类网络。

9.根据权利要求7所述的装置，其特征在于，所述第一分类模块还用于将所述待分类视频片段输入已训练的视频分类网络，通过所述已训练的视频分类网络对所述待分类视频片段进行场景切分，得到与所述待分类视频片段对应的视频特征数据，通过所述已训练的视频分类网络中的卷积网络对所述视频特征数据进行分类预测，得到与所述视频特征数据对应的分类预测向量，对所述与所述视频特征数据对应的分类预测向量进行向量融合，得到第一视频分类结果。

10.根据权利要求7所述的装置，其特征在于，所述第一分类模块还用于将所述待分类视频片段输入已训练的人脸识别网络，通过所述已训练的人脸识别网络对所述待分类视频片段中每一帧图像进行人脸检测，得到与所述待分类视频片段对应的人脸集合，比对所述人脸集合中的人脸图像和预设人脸图像信息库，得到与所述待分类视频片段对应的人物信息。

11.根据权利要求7所述的装置，其特征在于，所述处理模块还用于根据预设视频类别数量对所述第二视频分类结果进行向量维数扩展，得到扩展后的第二视频分类结果，所述扩展后的第二视频分类结果的向量维数与所述第一视频分类结果的向量维数相同，根据所述扩展后的第二视频分类结果、所述第一视频分类结果以及预设分类权重进行向量叠加，得到第三视频分类结果，获取所述第三视频分类结果中最大元素值对应的视频类别，得到目标视频分类结果。

12.根据权利要求7-11任意一项所述的装置，其特征在于，视频分类装置还包括标注模块，所述标注模块还用于根据所述目标视频分类结果为所述待分类视频片段标注视频标签。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。