CN109960745B

CN109960745B - 视频分类处理方法及装置、存储介质和电子设备

Info

Publication number: CN109960745B
Application number: CN201910212758.4A
Authority: CN
Inventors: 姜波; 林丽; 于佳弘; 周磊
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2021-03-23
Anticipated expiration: 2039-03-20
Also published as: CN109960745A

Abstract

本发明的实施方式提供了一种视频分类处理方法及装置、存储介质和电子设备。该视频分类处理方法包括：从视频中提取多个视频帧，并确定各视频帧中标签的概率分布；根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征；基于各视频帧中标签的概率分布以及各视频帧中标签的概率差异特征确定所述视频的第一标签概率分布；利用所述视频的第一标签概率分布对所述视频进行分类。本发明实施例的技术方案可以有效提高视频分类的准确度。

Description

视频分类处理方法及装置、存储介质和电子设备

技术领域

本发明的实施方式涉及视频处理技术领域，更具体地，本发明的实施方式涉及视频分类处理方法、视频分类处理装置、存储介质和电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着社交媒体的快速发展，越来越多的视频出现在人们的生活工作中，涉及影视、美食、科技、旅游、教育、游戏等多方面的内容。这些视频来源广泛，生产成本低，每日生产的视频数量在千万级别，且传播速度快。这些特点给视频的分类管理造成了挑战。

传统的视频分类往往采用的是人工分类方式，需要消耗大量的人力物力。另外，由于视频形式多，内容广泛，一个视频可能包含有多个类别，而且视频中还会存在各种特效、场景切换等复杂的内容，造成传统的人工分类方式渐渐被淘汰。

发明内容

在一些技术中，使用众包的方式让用户给视频注明类别。然而，用户存在主观判断的因素，不同用户针对同一视频可能会确定出不一样的类别，可信度不高；在另一些技术中，利用视频标题、音频信息、图片信息等多元信息对视频进行分析，确定出视频的类别。这种方法依赖于视频的多源信息，然而，实际中往往可能缺少多源信息中的一个或多个，造成分类结果不准确；在另一些技术中，对视频片段或视频中有代表性的图像帧进行分析，并据此确定出视频的类别。然而，这种方法在一段视频中提取有多个图像帧时会产生互相冲突的分析结果，确定出的分类结果也不准确。

为此，非常需要一种改进的视频分类方案，以提高视频分类的准确度。

在本上下文中，本发明的实施方式期望提供一种视频分类处理方法、视频分类处理装置、存储介质和电子设备。

在本发明实施方式的第一方面中，提供了一种视频分类处理方法，包括：从视频中提取多个视频帧，并确定各视频帧中标签的概率分布；根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征；基于各视频帧中标签的概率分布以及各视频帧中标签的概率差异特征确定所述视频的第一标签概率分布；利用所述视频的第一标签概率分布对所述视频进行分类。

在本发明的一些实施例中，利用所述视频的第一标签概率分布对所述视频进行分类包括：确定多个标签之间的关联数据；基于所述关联数据确定标签关联矩阵；根据所述视频的第一标签概率分布以及所述标签关联矩阵确定第二标签概率分布；利用所述视频的第二标签概率分布对所述视频进行分类。

在本发明的一些实施例中，基于所述关联数据确定标签关联矩阵包括：从所述关联数据中获取各标签出现在样本中的次数；基于各标签出现在样本中的次数，利用列归一化算法确定标签关联矩阵。

在本发明的一些实施例中，根据所述第二标签概率分布对所述视频进行分类包括：确定各标签的概率补偿值；根据所述视频的第二标签概率分布以及各标签的概率补偿值，确定所述视频的第三标签概率分布；根据所述视频的第三标签概率分布对所述视频进行分类。

在本发明的一些实施例中，利用所述视频的第一标签概率分布对所述视频进行分类包括：确定各标签的概率补偿值；根据所述视频的第一标签概率分布以及各标签的概率补偿值，确定所述视频的第四标签概率分布；根据所述视频的第四标签概率分布对所述视频进行分类。

在本发明的一些实施例中，确定各标签的概率补偿值包括：在样本实验中，分别确定各标签被表示为样本分类结果的准确率；基于所述准确率确定各标签的概率补偿值。

在本发明的一些实施例中，确定各视频帧中标签的概率分布包括：利用一训练后的标签预测模型对各视频帧进行处理，以确定各视频中多个标签的概率；根据各视频帧中多个标签的概率确定各视频帧中标签的概率分布。

在本发明的一些实施例中，根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征包括：利用各视频帧中标签的概率分布计算各视频帧中标签概率分布的方差，并将各视频帧中标签概率分布的方差确定为各视频帧中标签的概率差异特征。

在本发明的一些实施例中，根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征包括：对各视频帧中标签的概率进行归一化处理，以确定各视频帧中标签的归一化概率分布；利用各视频帧中标签的归一化概率分布计算各视频帧中标签概率分布的信息熵；根据各视频帧中标签概率分布的信息熵确定各视频帧中标签的概率差异特征。

在本发明的一些实施例中，利用所述视频的第一标签概率分布对所述视频进行分类包括：分别将所述视频的第一标签概率分布中各标签的概率值与第一标签阈值进行比较；将概率值大于所述第一标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，利用所述视频的第二标签概率分布对所述视频进行分类包括：分别将所述视频的第二标签概率分布中各标签的概率值与第二标签阈值进行比较；将概率值大于所述第二标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，根据所述视频的第三标签概率分布对所述视频进行分类包括：分别将所述视频的第三标签概率分布中各标签的概率值与第三标签阈值进行比较；将概率值大于所述第三标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，根据所述视频的第四标签概率分布对所述视频进行分类包括：分别将所述视频的第四标签概率分布中各标签的概率值与第四标签阈值进行比较；将概率值大于所述第四标签阈值的标签确定为所述视频的分类结果。

在本发明实施方式的第二方面中，提供了一种视频分类处理装置，该视频分类处理装置包括帧标签概率确定模块、差异特征确定模块、第一概率分布确定模块和分类处理模块。

具体的，帧标签概率确定模块用于从视频中提取多个视频帧，并确定各视频帧中标签的概率分布；差异特征确定模块用于根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征；第一概率分布确定模块用于基于各视频帧中标签的概率分布以及各视频帧中标签的概率差异特征确定所述视频的第一标签概率分布；分类处理模块用于利用所述视频的第一标签概率分布对所述视频进行分类。

在本发明的一些实施例中，分类处理模块包括第一分类处理单元。

具体的，第一分类处理单元被配置为执行：确定多个标签之间的关联数据；基于所述关联数据确定标签关联矩阵；根据所述视频的第一标签概率分布以及所述标签关联矩阵确定第二标签概率分布；利用所述视频的第二标签概率分布对所述视频进行分类。

在本发明的一些实施例中，第一分类处理单元还被配置为执行：从所述关联数据中获取各标签出现在样本中的次数；基于各标签出现在样本中的次数，利用列归一化算法确定标签关联矩阵。

在本发明的一些实施例中，第一分类处理单元还被配置为执行：确定各标签的概率补偿值；根据所述视频的第二标签概率分布以及各标签的概率补偿值，确定所述视频的第三标签概率分布；根据所述视频的第三标签概率分布对所述视频进行分类。

在本发明的一些实施例中，分类处理模块包括第二分类处理单元。

具体的，第二分类处理单元被配置为执行：确定各标签的概率补偿值；根据所述视频的第一标签概率分布以及各标签的概率补偿值，确定所述视频的第四标签概率分布；根据所述视频的第四标签概率分布对所述视频进行分类。

在本发明的一些实施例中，第一分类处理单元或第二分类处理单元还被配置为执行：在样本实验中，分别确定各标签被表示为样本分类结果的准确率；基于所述准确率确定各标签的概率补偿值。

在本发明的一些实施例中，帧标签概率确定模块包括帧标签概率确定单元。

具体的，帧标签概率确定单元被配置为执行：利用一训练后的标签预测模型对各视频帧进行处理，以确定各视频中多个标签的概率；根据各视频帧中多个标签的概率确定各视频帧中标签的概率分布。

在本发明的一些实施例中，差异特征确定模块包括第一差异特征确定单元。

具体的，第一差异特征确定单元被配置为执行：利用各视频帧中标签的概率分布计算各视频帧中标签概率分布的方差，并将各视频帧中标签概率分布的方差确定为各视频帧中标签的概率差异特征。

在本发明的一些实施例中，差异特征确定模块包括第二差异特征确定单元。

具体的，第二差异特征确定单元被配置为执行：对各视频帧中标签的概率进行归一化处理，以确定各视频帧中标签的归一化概率分布；利用各视频帧中标签的归一化概率分布计算各视频帧中标签概率分布的信息熵；根据各视频帧中标签概率分布的信息熵确定各视频帧中标签的概率差异特征。

在本发明的一些实施例中，分类处理模块包括第一结果确定单元。

具体的，第一结果确定单元被配置为执行：分别将所述视频的第一标签概率分布中各标签的概率值与第一标签阈值进行比较；将概率值大于所述第一标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，第一分类处理单元包括第二结果确定单元。

具体的，第二结果确定单元被配置为执行：分别将所述视频的第二标签概率分布中各标签的概率值与第二标签阈值进行比较；将概率值大于所述第二标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，第一分类处理单元包括第三结果确定单元。

具体的，第三结果确定单元被配置为执行：分别将所述视频的第三标签概率分布中各标签的概率值与第三标签阈值进行比较；将概率值大于所述第三标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，第二分类处理单元包括第四结果确定单元。

具体的，第四结果确定单元被配置为执行分别将所述视频的第四标签概率分布中各标签的概率值与第四标签阈值进行比较；将概率值大于所述第四标签阈值的标签确定为所述视频的分类结果。

在本发明实施方式的第三方面中，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一实施例所述的视频分类处理方法。

在本发明实施方式的第四方面中，提供了一种电子设备，包括：处理器；存储器，用于存储处理器的可执行指令；其中，所述处理器配置为经由执行可执行指令来执行上述任意一实施例所述的视频分类处理方法。

根据本发明实施方式的视频分类处理方法、视频分类处理装置、存储介质和电子设备，通过视频的多个视频帧中标签的概率分布确定各视频帧中标签的概率差异特征，基于各视频帧中标签的概率分布以及概率差异特征确定出整个视频的标签概率分布，并根据整个视频的标签概率分布确定视频的分类结果。本发明通过视频帧的标签概率分布确定整个视频的概率分布，利用整个视频的概率分布对视频进行分类，这种采用基于视频帧的多标签融合的方法，可以提高视频分类的准确度。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了根据本发明的示例性实施方式的视频分类处理方法的流程图；

图2示意性示出了根据本发明的示例性实施方式的未应用标签关联数据与应用标签关联数据而确定出分类结果的前后对比图；

图3示意性示出了根据本发明的示例性实施方式的应用标签关联数据与既应用标签关联数据又应用标签概率补偿值而确定出分类结果的前后对比图；

图4示意性示出了根据本发明的示例性实施方式的视频分类处理装置的方框图；

图5示意性示出了根据本发明的示例性实施方式的分类处理模块的方框图；

图6示意性示出了根据本发明的另一示例性实施方式的分类处理模块的方框图；

图7示意性示出了根据本发明的示例性实施方式的帧标签概率确定模块的方框图；

图8示意性示出了根据本发明的示例性实施方式的差异特征确定模块的方框图；

图9示意性示出了根据本发明的另一示例性实施方式的差异特征确定模块的方框图；

图10示意性示出了根据本发明的又一示例性实施方式的分类处理模块的方框图；

图11示意性示出了根据本发明的示例性实施方式的第一分类处理单元的方框图；

图12示意性示出了根据本发明的另一示例性实施方式的第一分类处理单元的方框图；

图13示意性示出了根据本发明的示例性实施方式的第二分类处理单元的方框图；

图14示意性示出了根据本发明的示例性实施方式的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种视频分类处理方法、视频分类处理装置、存储介质和电子设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有技术中，虽然存在一些对视频进行分类的方案，然而，这些方案均存在不同的问题，导致视频分类的准确度不高。

基于上述内容，本发明的基本思想在于：在提取多个视频帧进行分类预测的基础上，利用各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征，进而根据各视频帧中标签的概率分布以及概率差异特征确定整个视频的标签概率分布，并利用视频的标签概率分布对视频进行分类。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本发明示例性实施方式的视频分类处理方法。

图1示意性地示出了根据本发明的示例性实施方式的视频分类处理方法的流程图。参考图1，根据本发明的示例性实施方式的视频分类处理方法可以包括以下步骤：

S12.从视频中提取多个视频帧，并确定各视频帧中标签的概率分布。

本发明示例性实施方式的视频分类处理方法针对的视频可以是线上任意一视频，也可以是本地存储的视频，本发明对视频的来源、大小、格式等均不作特殊限制。

视频的标签或视频帧的标签可以是表征视频涉及内容的信息，例如，标签可以包括但不限于影视、美食、科技、旅游、教育、游戏等。此外，标签还可以包括更加细致的信息，例如，影视剧名称、旅游地名称、材料、计算机、人工智能等。本发明对标签的内容不做特殊限制。

首先，服务器可以获取一个待进行分类的视频，从视频中提取多个视频帧。

针对从视频中提取多个视频帧的过程，可以预先配置一时间间隔，每隔该时间间隔从视频中提取视频帧，以获取多个视频帧，这些视频帧能够反映出视频在不同时刻呈现的内容。其中，该时间间隔可以根据视频的总时长而确定出，视频的总时长越长，视频帧的数量越多，由此，确保了能够获取反映该视频内容的视频帧。例如，时间间隔的选取可以与视频总时长成正比。本发明对该时间间隔的具体取值不做特殊限制。

另外，在服务器资源不足的情况下，还可以等间隔地从视频中提取固定数量个视频帧，例如，无论视频的总时长是多少，均从视频中等间隔提取8个视频帧。

此外，还可以对视频进行分析，确定视频中复杂度满足一预设复杂度要求的视频帧，作为待提取的视频帧。例如，可以利用视频的各视频帧的灰度级直方图的方差来表征各视频帧的复杂度，本发明对提取视频帧的过程不做特殊限制。

接下来，服务器可以确定各视频帧中标签的概率分布。

具体的，针对提取出的多个视频帧中的每一个视频帧，均执行下述操作：利用一训练后的标签预测模型对视频帧进行处理，以确定视频帧中涉及的多个标签的概率。其中，该标签预测模型是基于深度卷积神经网络训练构建得到的标签分类模型，并且可以通过人工对样本添加标记的形式确定训练样本并进行训练，以确定训练后的标签预测模型。在这种情况下，可以将视频帧的图像输入该标签预测模型，模型的输出即为该视频帧涉及的多个标签的概率。

随后，可以利用各视频帧中多个标签的概率确定各视频帧中标签的概率分布。也就是说，每一个视频帧均对应一个标签概率分布。

S14.根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征。

在本发明的示例性实施方式中，视频帧中标签的概率差异特征可以是用于表征视频帧中各标签的标签概率之间差异的特征。

根据本发明的一些实施例，概率差异特征可以是标签概率分布的方差。也就是说，可以利用各视频帧中标签的概率分布计算各视频帧中标签概率分布的方差，并将各视频帧中标签概率分布的方差确定为各视频帧中标签的概率差异特征。

具体的，可以将视频中提取的第j个视频帧中标签的概率分布表示为：

其中，C表示标签类别的总数量，j∈{1,2,...,N}，N表示提取的视频帧的总数量。

当视频帧中包含能明显确定出标签的对象时，步骤S12中所述的标签预测模型预测的概率分布中相应标签的概率值会明显高于其他不相关标签的概率值，概率分布中各标签的概率值会存在比较明显的差异；而当视频帧中没有能明显确定出标签的对象时，标签预测模型预测的概率分布中各标签概率值会比较近似且普遍偏低，概率分布中各标签的概率值差异较小。因此，利用方差可以有效地突出视频中影响分类结果的重要的视频帧，进而提高视频分类的准确度。

各视频帧中标签概率分布的方差可以表示为：

其中，μ(S_j)表示各标签概率值的平均值。

根据本发明的另一些实施例，还可以根据信息熵确定概率差异特征。

首先，可以对各视频帧中标签的概率进行归一化处理。具体的，可以利用公式1来进行归一化处理：

其中，

表示归一化概率分布。

接下来，可以利用各视频帧中标签的归一化概率分布计算各视频帧中标签概率分布的信息熵。具体的，可以利用公式2确定出信息熵H_j：

应当理解的是，当各标签概率值差异较大时，信息熵较小，这意味着标签预测模型的确定性较高；而当个标签概率值差异较小时，信息熵较大，意味着标签预测模型的不确定性增加。

随后，可以根据信息熵确定出视频帧中标签的概率差异特征。具体的，可以将概率差异特征表示为

其中，α大于0，以使

为单调递减函数。针对α的取值，可以预先进行设定，也可以通过机器学习的方式在标签预测模型的训练集中进行训练而确定出，本发明对此不做特殊限制。

S16.基于各视频帧中标签的概率分布以及各视频帧中标签的概率差异特征确定所述视频的第一标签概率分布。

在确定出各视频帧中标签的概率分布后，可以将它们进行融合处理，以确定出整个视频的第一标签概率分布S_v，具体的，可以利用公式3来进行计算：

其中，w_j表示第j个视频帧在确定整个视频的第一标签概率分布时的权重，可以用步骤S14中确定出的概率差异特征表示权重。也就是说，可以将权重表示为：

或者

通过方差或信息熵的方式构建影响各视频帧标签概率分布的权重，有助于随后将概率值明显较大的标签确定为视频的分类结果，进而提高视频分类的准确度。

S18.利用所述视频的第一标签概率分布对所述视频进行分类。

根据本发明的一些实施例，可以预先配置第一标签阈值，在基于视频的第一标签概率分布确定出各标签的概率值后，可以将视频的各标签的概率值与第一标签阈值分别进行比较，并将概率值大于第一标签阈值的标签确定为视频的分类结果。其中，可以将第一标签阈值设置为0.8，例如，如果确定出一个视频的标签包括健身、足球、广告，概率值分别为0.6、0.71、0.88，则可以将广告作为该视频的分类结果。

根据本发明的一些实施例，考虑到很多情况下，标签与标签之间往往存在关联关系，例如，针对影视剧片段的短视频，主演的姓名和影视剧的名称这两个标签通常同时出现。

鉴于此，可以结合标签之间的关联关系确定出视频的分类，提高视频分类的准确度。

首先，可以确定标签之间的关联数据，并基于关联数据确定标签关联矩阵。具体的，可以从标签预测模型的训练集中确定出关联数据，这种关联数据可以由人工的标记结果确定。从关联数据中获取各标签出现在样本中的次数，并基于各标签出现在样本中的次数，利用列归一化算法确定标签关联矩阵。

其中，列归一化是指矩阵中每列元素求和后，将和作为分母，该列的元素作为分子进行运算，得到每列的结果之和为1。例如，针对标签A和标签B的关联关系，矩阵

中第1行第1列表示标签A在训练集中出现了a₁₁次，第2行第1列表示标签B和标签A同时在训练集中出现了a₂₁次，第2列的情况同理表示。在进行列归一化操作时，对每列中的元素进行求和作为分母且原元素作为分子，以得到列归一化后的矩阵：

可以将列归一化后的矩阵确定为标签关联矩阵。

接下来，可以根据视频的第一标签概率分布以及标签关联矩阵确定第二标签概率分布。具体的，可以利用公式4进行表示：

S_v+R＝R×S_v (公式4)

其中，S_v+R表示视频的第二标签概率分布，R∈R^C×C，表示利用上述过程确定出的标签关联矩阵。

随后，可以利用视频的第二标签概率分布对视频进行分类。与仅基于第一标签概率分布对视频进行分类类似，可以分别将视频的第二标签概率分布中各标签的概率值与第二标签阈值进行比较，并将概率值大于第二标签阈值的标签确定为视频的分类结果。其中，第二标签阈值可以与第一标签阈值相同。然而，第二标签阈值还可以设置与第一标签阈值不同。具体分类过程不再赘述。

图2示意性示出了根据本发明的示例性实施方式的未应用标签关联数据与应用标签关联数据而确定出分类结果的前后对比图。参考图2，在未应用标签关联数据的情况下，仅有标签7超过了标签阈值T，也就是说，将视频分类为标签7的内容。而参见应用标签关联数据的结果，可以看出，标签2对应的概率值也超过了标签阈值T，也就是说，此时将视频分类结果确定为标签2和标签7的内容。

由此可见，通过考虑标签之间的关联关系，可以提高视频分类的准确度。

根据本发明的一些实施例，在考虑了标签之间的关联关系的情况下，还可以对视频标签的概率值进行补偿，以进一步提高视频分类的准确度。

首先，可以确定各标签的概率补偿值。具体的，容易理解的是，最终的分类结果是基于标签而确定出的，也就是说，往往不是所有的标签都被认为是视频的分类结果。鉴于此，可以利用训练集中标记的样本数据分别确定各标签被表示为样本分类结果的准确率，可以将标签k的准确率记为Acc^k，例如，标签k共计出现了10次，而被确定为最终分类结果的次数为3次，则准确率Acc^k可以是0.3。考虑到标签的准确率可以反映出在出现标签的情况下视频分类结果是否可能包含该标签，也就是说，准确率Acc^k可以作为概率补偿值E的函数，记为Acc^k(E)。不同的E值可以对应不同的Acc^k(E)。通过使Acc^k(E)最大化，即可得到标签k的概率补偿值。可以将该概率补偿值表示为argmax_EAcc^k(E)，其中，k＝1,2,…,C。

接下来，可以根据视频的第二标签概率分布以及各标签的概率补偿值，以确定视频的第三标签概率分布。具体的，可以利用公式5进行表示：

S_v+R+E＝S_v+R+E (公式5)

其中，S_v+R+E为第三标签概率分布，应当理解的是，针对不同标签，对应的概率补偿值E有所不同。

随后，可以利用视频的第三标签概率分布对视频进行分类。与上述采用第一标签概率分布或第二标签概率分布进行分类类似，可以分别将视频的第三标签概率分布中各标签概率值与第三标签阈值进行比较，并将概率大于第三标签阈值的标签确定为视频的分类结果。其中，第三标签阈值可以与第一标签阈值或第二标签阈值相同。然而，容易理解的是，第三标签阈值可以不同于第一标签阈值和第二标签阈值。具体过程不再赘述。

图3示意性示出了根据本发明的示例性实施方式的应用标签关联数据与既应用标签关联数据又应用标签概率补偿值而确定出分类结果的前后对比图。参考图3，在应用标签关联数据的情况下，仅有标签2和标签7超过了标签阈值T，也就是说，将视频分类结果确定为标签2和标签7的内容。而在应用标签关联数据和标签概率补偿值的实施例中，可以看出，标签5对应的概率值也超过了标签阈值T，也就是说，此时将视频分类结果确定为标签2、标签5和标签7的内容。

由此可见，在考虑标签之间关联关系的基础上，结合标签概率补偿，可以进一步提高视频分类的准确度。

根据本发明的另一些实施例，还存在仅考虑标签概率补偿值而不涉及标签之间关联关系的情况。具体的，首先，可以确定各标签的概率补偿值，具体过程不再赘述。接下来，可以根据视频的第一标签概率分布以及各标签的概率补偿值，确定视频的第四标签概率分布。具体的，可以利用公式6进行表示：

S_v+E＝S_v+E (公式6)

随后，可以利用视频的第四标签概率分布对视频进行分类。与上述采用第一标签概率分布、第二标签概率分布或第三标签概率分布进行分类类似，可以分别将视频第四标签概率分布中各标签概率值与第四标签阈值进行比较，并将概率大于第四标签阈值的标签确定为视频的分类结果。其中，第四标签阈值可以与第一标签阈值、第二标签阈值或第三标签阈值相同。然而，容易理解的是，第四标签阈值可以不同于第一标签阈值、第二标签阈值和第三标签阈值。具体过程不再赘述。

此外，在显示侧，为了避免过多的分类结果使用户产生厌恶感。本发明还提供了一种限制视频分类数量的方案。

首先，预先配置一个预设数量阈值，例如，可以将该预设数量阈值设置为2；接下来，确定视频分类结果包含的标签数量，如果小于等于该预设数量阈值，则向用户反馈分类结果；如果大于预设数量阈值，则基于标签概率值由高到低的顺序，从标签中确定出预设数量阈值个标签，并将所述预设数量阈值个标签作为分类结果反馈给用户。

本发明示例性实施方式对视频进行分类的结果可以应用于视频管理的场景，可以分类对视频进行存储，以便基于分类结果快速调取视频，满足观看、分析、再加工等需求。

此外，视频的分类结果还可以应用于向用户推荐视频的场景，例如，用户A经常浏览教育类的视频，则可以定向为用户推荐教育类或与教育类相关的视频。

本发明上述实施例的技术方案通过视频的多个视频帧中标签的概率分布确定各视频帧中标签的概率差异特征，基于各视频帧中标签的概率分布以及概率差异特征确定出整个视频的标签概率分布，并根据整个视频的标签概率分布确定视频的分类结果。本发明通过视频帧的标签概率分布确定整个视频的概率分布，利用整个视频的概率分布对视频进行分类，这种采用基于视频帧的多标签融合的方法，可以提高视频分类的准确度。

示例性装置

在介绍了本发明示例性实施方式的视频分类处理方法之后，接下来，参考图4至图13对本发明示例性实施方式的视频分类处理装置进行描述。

参考图4，根据本发明的示例性实施方式的视频分类处理装置4可以包括帧标签概率确定模块41、差异特征确定模块43、第一概率分布确定模块45和分类处理模块47。

具体的，帧标签概率确定模块41可以用于从视频中提取多个视频帧，并确定各视频帧中标签的概率分布；差异特征确定模块43可以用于根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征；第一概率分布确定模块45可以用于基于各视频帧中标签的概率分布以及各视频帧中标签的概率差异特征确定所述视频的第一标签概率分布；分类处理模块47可以用于利用所述视频的第一标签概率分布对所述视频进行分类。

根据本发明示例性实施方式的视频分类处理装置，通过视频帧的标签概率分布确定整个视频的概率分布，利用整个视频的概率分布对视频进行分类，这种采用基于视频帧的多标签融合的方法，可以提高视频分类的准确度。

在本发明的一些实施例中，参考图5，分类处理模块47可以包括第一分类处理单元501。

具体的，第一分类处理单元501可以被配置为执行：确定多个标签之间的关联数据；基于所述关联数据确定标签关联矩阵；根据所述视频的第一标签概率分布以及所述标签关联矩阵确定第二标签概率分布；利用所述视频的第二标签概率分布对所述视频进行分类。

通过结合标签之间的关联关系来对视频进行分类，进一步提高了视频分类的准确度。

在本发明的一些实施例中，第一分类处理单元501还可以被配置为执行：从所述关联数据中获取各标签出现在样本中的次数；基于各标签出现在样本中的次数，利用列归一化算法确定标签关联矩阵。

在本发明的一些实施例中，第一分类处理单元501还可以被配置为执行：确定各标签的概率补偿值；根据所述视频的第二标签概率分布以及各标签的概率补偿值，确定所述视频的第三标签概率分布；根据所述视频的第三标签概率分布对所述视频进行分类。

通过结合标签的概率补偿值来对视频进行分类，更进一步提高了视频分类的准确度。

在本发明的一些实施例中，参考图6，分类处理模块61与分类处理模块47存在差别，分类处理模块61可以包括第二分类处理单元601。

具体的，第二分类处理单元601可以被配置为执行：确定各标签的概率补偿值；根据所述视频的第一标签概率分布以及各标签的概率补偿值，确定所述视频的第四标签概率分布；根据所述视频的第四标签概率分布对所述视频进行分类。

在本发明的一些实施例中，第一分类处理单元501或第二分类处理单元601还可以被配置为执行：在样本实验中，分别确定各标签被表示为样本分类结果的准确率；基于所述准确率确定各标签的概率补偿值。

在本发明的一些实施例中，参考图7，帧标签概率确定模块41可以包括帧标签概率确定单元701。

具体的，帧标签概率确定单元701可以被配置为执行：利用一训练后的标签预测模型对各视频帧进行处理，以确定各视频中多个标签的概率；根据各视频帧中多个标签的概率确定各视频帧中标签的概率分布。

在本发明的一些实施例中，参考图8，差异特征确定模块43可以包括第一差异特征确定单元801。

具体的，第一差异特征确定单元801可以被配置为执行：利用各视频帧中标签的概率分布计算各视频帧中标签概率分布的方差，并将各视频帧中标签概率分布的方差确定为各视频帧中标签的概率差异特征。

在本发明的一些实施例中，参考图9，差异特征确定模块91与差异特征确定模块43不同，差异特征确定模块91可以包括第二差异特征确定单元901。

具体的，第二差异特征确定单元901可以被配置为执行：对各视频帧中标签的概率进行归一化处理，以确定各视频帧中标签的归一化概率分布；利用各视频帧中标签的归一化概率分布计算各视频帧中标签概率分布的信息熵；根据各视频帧中标签概率分布的信息熵确定各视频帧中标签的概率差异特征。

在本发明的一些实施例中，参考图10，分类处理模块101可以包括第一结果确定单元1001。

具体的，第一结果确定单元1001可以被配置为执行：分别将所述视频的第一标签概率分布中各标签的概率值与第一标签阈值进行比较；将概率值大于所述第一标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，参考图11，第一分类处理单元501可以包括第二结果确定单元1101。

具体的，第二结果确定单元1101可以被配置为执行：分别将所述视频的第二标签概率分布中各标签的概率值与第二标签阈值进行比较；将概率值大于所述第二标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，参考图12，第一分类处理单元501可以包括第三结果确定单元1201。

具体的，第三结果确定单元1201可以被配置为执行：分别将所述视频的第三标签概率分布中各标签的概率值与第三标签阈值进行比较；将概率值大于所述第三标签阈值的标签确定为所述视频的分类结果。

在本发明的一些实施例中，参考图13，第二分类处理单元601可以包括第四结果确定单元1301。

具体的，第四结果确定单元1301可以被配置为执行分别将所述视频的第四标签概率分布中各标签的概率值与第四标签阈值进行比较；将概率值大于所述第四标签阈值的标签确定为所述视频的分类结果。

由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

示例性设备

在介绍了本发明示例性实施方式的视频分类处理方法、视频分类处理装置之后，接下来，将对本发明的示例性实施方式的电子设备进行描述。其中，本发明的示例性实施方式的电子设备包括上述视频分类处理装置之一。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“方法”部分中描述的根据本发明各种示例性实施方式的视频分类处理方法中的步骤。例如，所述处理单元可以执行如图1所述的步骤S12至步骤S18。

下面参照图14来描述根据本发明的这种实施方式的电子设备1400。图14显示的电子设备1400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于：上述至少一个处理单元1410、上述至少一个存储单元1420、连接不同系统组件(包括存储单元1420和处理单元1410)的总线1430、显示单元1440。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1410执行，使得所述处理单元1410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1410可以执行如图1中所示的步骤S12：从视频中提取多个视频帧，并确定各视频帧中标签的概率分布；步骤S14：根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征；步骤S16：基于各视频帧中标签的概率分布以及各视频帧中标签的概率差异特征确定所述视频的第一标签概率分布；步骤S18：利用所述视频的第一标签概率分布对所述视频进行分类。

存储单元1420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)14201和/或高速缓存存储单元14202，还可以进一步包括只读存储单元(ROM)14203。

存储单元1420还可以包括具有一组(至少一个)程序模块14205的程序/实用工具14204，这样的程序模块14205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1400也可以与一个或多个外部设备1500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1400交互的设备通信，和/或与使得该电子设备1400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1450进行。并且，电子设备1400还可以通过网络适配器1460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1460通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

示例性程序产品

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“方法”部分中描述的根据本发明各种示例性实施方式的视频分类处理方法中的步骤，例如，所述终端设备可以执行如图1所述的步骤S12至步骤S18。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光盘、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。另外，随着技术的发展，可读存储介质也应进行相应解读。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了视频分类处理装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种视频分类处理方法，其特征在于，包括：

从视频中提取多个视频帧，并确定各视频帧中标签的概率分布；

根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征；

基于各视频帧中标签的概率分布以及各视频帧中标签的概率差异特征确定所述视频的第一标签概率分布；

确定多个标签之间的关联数据；

基于所述关联数据确定标签关联矩阵；

根据所述视频的第一标签概率分布以及所述标签关联矩阵确定第二标签概率分布；

利用所述视频的第二标签概率分布对所述视频进行分类。

2.根据权利要求1所述的视频分类处理方法，其特征在于，基于所述关联数据确定标签关联矩阵包括：

从所述关联数据中获取各标签出现在样本中的次数；

基于各标签出现在样本中的次数，利用列归一化算法确定标签关联矩阵。

3.根据权利要求1所述的视频分类处理方法，其特征在于，根据所述第二标签概率分布对所述视频进行分类包括：

确定各标签的概率补偿值；

根据所述视频的第二标签概率分布以及各标签的概率补偿值，确定所述视频的第三标签概率分布；

根据所述视频的第三标签概率分布对所述视频进行分类。

4.根据权利要求3所述的视频分类处理方法，其特征在于，确定各标签的概率补偿值包括：

在样本实验中，分别确定各标签被表示为样本分类结果的准确率；

基于所述准确率确定各标签的概率补偿值。

5.根据权利要求1所述的视频分类处理方法，其特征在于，确定各视频帧中标签的概率分布包括：

利用一训练后的标签预测模型对各视频帧进行处理，以确定各视频中多个标签的概率；

根据各视频帧中多个标签的概率确定各视频帧中标签的概率分布。

6.根据权利要求1所述的视频分类处理方法，其特征在于，根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征包括：

利用各视频帧中标签的概率分布计算各视频帧中标签概率分布的方差，并将各视频帧中标签概率分布的方差确定为各视频帧中标签的概率差异特征。

7.根据权利要求1所述的视频分类处理方法，其特征在于，根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征包括：

对各视频帧中标签的概率进行归一化处理，以确定各视频帧中标签的归一化概率分布；

利用各视频帧中标签的归一化概率分布计算各视频帧中标签概率分布的信息熵；

根据各视频帧中标签概率分布的信息熵确定各视频帧中标签的概率差异特征。

8.根据权利要求1所述的视频分类处理方法，其特征在于，利用所述视频的第一标签概率分布对所述视频进行分类包括：

分别将所述视频的第一标签概率分布中各标签的概率值与第一标签阈值进行比较；

将概率值大于所述第一标签阈值的标签确定为所述视频的分类结果。

9.根据权利要求1或2所述的视频分类处理方法，其特征在于，利用所述视频的第二标签概率分布对所述视频进行分类包括：

分别将所述视频的第二标签概率分布中各标签的概率值与第二标签阈值进行比较；

将概率值大于所述第二标签阈值的标签确定为所述视频的分类结果。

10.根据权利要求3所述的视频分类处理方法，其特征在于，根据所述视频的第三标签概率分布对所述视频进行分类包括：

分别将所述视频的第三标签概率分布中各标签的概率值与第三标签阈值进行比较；

将概率值大于所述第三标签阈值的标签确定为所述视频的分类结果。

11.一种视频分类处理装置，其特征在于，包括：

帧标签概率确定模块，用于从视频中提取多个视频帧，并确定各视频帧中标签的概率分布；

差异特征确定模块，用于根据各视频帧中标签的概率分布确定各视频帧中标签的概率差异特征；

第一概率分布确定模块，用于基于各视频帧中标签的概率分布以及各视频帧中标签的概率差异特征确定所述视频的第一标签概率分布；

分类处理模块，用于利用所述视频的第一标签概率分布对所述视频进行分类；

所述分类处理模块包括第一分类处理单元，被配置为执行确定多个标签之间的关联数据；基于所述关联数据确定标签关联矩阵；根据所述视频的第一标签概率分布以及所述标签关联矩阵确定第二标签概率分布；利用所述视频的第二标签概率分布对所述视频进行分类。

12.根据权利要求11所述的视频分类处理装置，其特征在于，所述第一分类处理单元还被配置为执行：从所述关联数据中获取各标签出现在样本中的次数；基于各标签出现在样本中的次数，利用列归一化算法确定标签关联矩阵。

13.根据权利要求11所述的视频分类处理装置，其特征在于，所述第一分类处理单元还被配置为执行：确定各标签的概率补偿值；根据所述视频的第二标签概率分布以及各标签的概率补偿值，确定所述视频的第三标签概率分布；根据所述视频的第三标签概率分布对所述视频进行分类。

14.根据权利要求13所述的视频分类处理装置，其特征在于，所述第一分类处理单元执行确定各标签的概率补偿值的过程被配置为：在样本实验中，分别确定各标签被表示为样本分类结果的准确率；基于所述准确率确定各标签的概率补偿值。

15.根据权利要求11所述的视频分类处理装置，其特征在于，所述帧标签概率确定模块包括：

帧标签概率确定单元，被配置为执行利用一训练后的标签预测模型对各视频帧进行处理，以确定各视频中多个标签的概率；根据各视频帧中多个标签的概率确定各视频帧中标签的概率分布。

16.根据权利要求11所述的视频分类处理装置，其特征在于，所述差异特征确定模块包括：

第一差异特征确定单元，被配置为执行利用各视频帧中标签的概率分布计算各视频帧中标签概率分布的方差，并将各视频帧中标签概率分布的方差确定为各视频帧中标签的概率差异特征。

17.根据权利要求11所述的视频分类处理装置，其特征在于，所述差异特征确定模块包括：

第二差异特征确定单元，被配置为执行对各视频帧中标签的概率进行归一化处理，以确定各视频帧中标签的归一化概率分布；利用各视频帧中标签的归一化概率分布计算各视频帧中标签概率分布的信息熵；根据各视频帧中标签概率分布的信息熵确定各视频帧中标签的概率差异特征。

18.根据权利要求11所述的视频分类处理装置，其特征在于，所述分类处理模块包括：

第一结果确定单元，被配置为执行分别将所述视频的第一标签概率分布中各标签的概率值与第一标签阈值进行比较；将概率值大于所述第一标签阈值的标签确定为所述视频的分类结果。

19.根据权利要求11或12所述的视频分类处理装置，其特征在于，所述第一分类处理单元包括：

第二结果确定单元，被配置为执行分别将所述视频的第二标签概率分布中各标签的概率值与第二标签阈值进行比较；将概率值大于所述第二标签阈值的标签确定为所述视频的分类结果。

20.根据权利要求13所述的视频分类处理装置，其特征在于，所述第一分类处理单元包括：

第三结果确定单元，被配置为执行分别将所述视频的第三标签概率分布中各标签的概率值与第三标签阈值进行比较；将概率值大于所述第三标签阈值的标签确定为所述视频的分类结果。

21.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的视频分类处理方法。

22.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至10中任一项所述的视频分类处理方法。