CN111814817A

CN111814817A - 视频分类方法、装置、存储介质及电子设备

Info

Publication number: CN111814817A
Application number: CN201910296010.7A
Authority: CN
Inventors: 刘鑫辰; 刘武; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2020-10-23

Abstract

本公开涉及计算机技术领域，具体涉及一种视频分类方法、装置、存储介质及电子设备。本公开实施例提供的方法包括：从待分类视频中抽取至少一个视频帧，并对所述视频帧进行预处理以得到全局图像；其中，所述全局图像的特征信息包括环境特征和对象特征中的至少一种；将所述全局图像输入预先训练的环境特征分类模型以得到基于所述环境特征的环境特征分类结果；将所述全局图像输入预先训练的对象特征分类模型以得到基于所述对象特征的对象特征分类结果；根据所述环境特征分类结果和所述对象特征分类结果融合得到所述待分类视频的分类结果。该方法显著提高了视频分类的准确性，能够应用于涉及人物社会关系等高级语义分析的视频分类场景中。

Description

视频分类方法、装置、存储介质及电子设备

技术领域

本公开涉及计算机技术领域，具体涉及一种视频分类方法、视频分类装置、计算机可读存储介质及电子设备。

背景技术

视频分类技术一般是指通过计算机算法根据视频中的图像、音频等内容对一段视频分类为预定义的某一类别(如广告、体育、新闻、影视等)的技术。视频分类技术可用于网络视频的自动标签、搜索、内容理解等任务，目前分类准确率较高的方法主要是基于深度学习模型(如卷积神经网络、递归神经网络等)的视频分类方法。然而，现有的基于深度学习模型的分类方法仅能对视频中的基础信息进行学习，因而只能面向一般性的视频分类应用，对于视频中的人物社会关系等高级语义信息则难以有效识别，在视频分类的准确性和有效性方面仍存在缺陷。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种视频分类方法、视频分类装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的难以识别高级语义信息的技术问题。

根据本公开的一个方面，提供一种视频分类方法，该方法包括：

从待分类视频中抽取至少一个视频帧，并对所述视频帧进行预处理以得到全局图像；其中，所述全局图像的特征信息包括环境特征和对象特征中的至少一种；

将所述全局图像输入预先训练的环境特征分类模型以得到基于所述环境特征的环境特征分类结果；

将所述全局图像输入预先训练的对象特征分类模型以得到基于所述对象特征的对象特征分类结果；

根据所述环境特征分类结果和所述对象特征分类结果融合得到所述待分类视频的分类结果。

在本公开的一些示例性实施方式中，所述对象特征分类模型包括对象检测模型、特征提取模型和对象分类模型；

所述将所述全局图像输入预先训练的对象特征分类模型以得到基于对象特征的对象特征分类结果，包括：

将所述全局图像输入预先训练的所述对象检测模型以得到对应于实体对象的局部图像；

将所述局部图像输入预先训练的所述特征提取模型以得到各个所述局部图像的对象特征；

根据各个所述局部图像的对象特征以及图像来源信息确定各个所述局部图像之间的对象关系信息；

将所述对象特征和所述对象关系信息输入预先训练的所述对象分类模型以得到对象特征分类结果。

在本公开的一些示例性实施方式中，所述根据各个所述局部图像的对象特征以及图像来源信息确定各个所述局部图像之间的对象关系信息，包括：

将各个所述局部图像进行组合以得到用于表征各个所述局部图像之间对象关系的关系图模型；

根据各个所述局部图像的对象特征以及图像来源信息确定对应于所述关系图模型的邻接矩阵，并将所述邻接矩阵作为所述对象关系信息。

在本公开的一些示例性实施方式中，所述根据各个所述局部图像的对象特征以及图像来源信息确定对应于所述关系图模型的邻接矩阵，包括：

计算任意两个所述局部图像的对象特征的特征相似度；

根据所述特征相似度以及所述图像来源信息，按照预设规则确定任意两个所述局部图像的关系特征值；

将所述关系特征值进行组合以得到对应于所述关系图模型的邻接矩阵。

在本公开的一些示例性实施方式中，所述特征相似度为特征向量之间的欧式距离或者余弦距离。

在本公开的一些示例性实施方式中，所述实体对象包括主要实体对象和次要实体对象，所述局部图像包括对应于所述主要实体对象的主要对象局部图像和对应于所述次要实体对象的次要对象局部图像；

所述根据各个所述局部图像的对象特征以及图像来源信息确定各个所述局部图像之间的对象关系信息，包括：

根据所述主要对象局部图像的对象特征以及图像来源信息确定各个所述主要对象局部图像之间的主要对象关系信息；

根据所述主要对象局部图像和所述次要对象局部图像的图像来源信息确定所述主要对象局部图像与所述次要对象局部图像之间的次要对象关系信息。

在本公开的一些示例性实施方式中，所述对象特征分类结果包括对应于所述主要实体对象的主要对象特征分类结果和对应于所述次要实体对象的次要对象特征分类结果；

所述将所述对象特征和所述对象关系信息输入预先训练的所述对象分类模型以得到对象特征分类结果，包括：

将所述主要对象局部图像的对象特征以及所述主要对象关系信息输入预先训练的所述对象分类模型以得到所述主要对象特征分类结果；

将所述主要对象局部图像的对象特征、所述次要对象局部图像的对象特征以及所述次要对象关系信息输入预先训练的所述对象分类模型以得到所述次要对象特征分类结果。

在本公开的一些示例性实施方式中，所述主要对象关系信息包括用于表征相同主要实体对象之间对象关系的同体对象关系信息和用于表征不同主要实体对象之间对象关系的异体对象关系信息；

所述根据所述主要对象局部图像的对象特征以及图像来源信息确定各个所述主要对象局部图像之间的主要对象关系信息，包括：

计算任意两个所述主要对象局部图像的对象特征的特征相似度；

根据所述特征相似度，按照第一预设规则确定两个所述主要对象局部图像的同体关系特征值，并基于所述同体关系特征值确定所述同体对象关系信息；

根据所述特征相似度以及所述图像来源信息，按照第二预设规则确定两个所述主要对象局部图像的异体关系特征值，并基于所述异体关系特征值确定所述异体对象关系信息。

在本公开的一些示例性实施方式中，所述按照第一预设规则确定两个所述主要对象局部图像的同体关系特征值，包括：

若所述特征相似度小于第一预设阈值，将第一特征值作为两个所述主要对象局部图像的同体关系特征值；

若所述特征相似度大于或等于所述第一预设阈值，将第二特征值作为所述同体关系特征值。

在本公开的一些示例性实施方式中，所述按照第二预设规则确定两个所述主要对象局部图像的异体关系特征值，包括：

若两个所述主要对象局部图像来源于同一全局图像，将第三特征值作为两个所述主要对象局部图像的异体关系特征值；

若两个所述主要对象局部图像来源于不同的全局图像并且所述特征相似度大于或等于第二预设阈值，将第三特征值作为所述异体关系特征值；

若两个所述主要对象局部图像来源于不同的全局图像并且所述特征相似度小于所述第二预设阈值，将第四特征值作为所述异体关系特征值。

在本公开的一些示例性实施方式中，所述根据所述主要对象局部图像和所述次要对象局部图像的图像来源信息确定所述主要对象局部图像与所述次要对象局部图像之间的次要对象关系信息，包括：

根据所述主要对象局部图像和所述次要对象局部图像的图像来源信息，按照第三预设规则确定次要关系特征值，并基于所述次要关系特征值确定所述主要对象局部图像与所述次要对象局部图像之间的次要对象关系信息。

在本公开的一些示例性实施方式中，所述按照第三预设规则确定次要关系特征值，包括：

若所述主要对象局部图像和所述次要对象局部图像来源于同一全局图像，将第五特征值作为所述次要关系特征值；

若所述主要对象局部图像和所述次要对象局部图像来源于不同全局图像，将第六特征值作为所述次要关系特征值。

在本公开的一些示例性实施方式中，所述将所述对象特征和所述对象关系信息输入预先训练的所述对象分类模型以得到对象特征分类结果，包括：

将各个所述局部图像的对象特征按照所述局部图像在所述待分类视频中的时序关系进行组合得到对象组合特征；

将所述对象组合特征和所述对象关系信息输入预先训练的所述对象分类模型以得到对象特征分类结果。

在本公开的一些示例性实施方式中，在将所述全局图像输入预先训练的所述对象检测模型以得到对应于实体对象的局部图像之后，所述方法还包括：

获取由所述对象检测模型得到的各个所述局部图像的检测置信度；

根据所述检测置信度对所述局部图像进行筛选以得到预设数量的所述局部图像。

在本公开的一些示例性实施方式中，所述对所述视频帧进行预处理以得到全局图像，包括：

利用双线性插值算法对所述视频帧进行缩放处理以得到具有预设高度和预设宽度的全局图像。

在本公开的一些示例性实施方式中，根据所述环境特征分类结果和所述对象特征分类结果融合得到所述待分类视频的分类结果，包括：

按照预设加权系数对所述环境特征分类结果和所述对象特征分类结果进行加权求和以得到所述待分类视频的分类结果。

根据本公开的一个方面，提供一种视频分类装置，该装置包括：

图像抽取模块，被配置为从待分类视频中抽取至少一个视频帧，并对所述视频帧进行预处理以得到全局图像；其中，所述全局图像的特征信息包括环境特征和对象特征中的至少一种；

环境分类模块，被配置为将所述全局图像输入预先训练的环境特征分类模型以得到基于所述环境特征的环境特征分类结果；

对象分类模块，被配置为将所述全局图像输入预先训练的对象特征分类模型以得到基于所述对象特征的对象特征分类结果；

分类融合模块，被配置为根据所述环境特征分类结果和所述对象特征分类结果融合得到所述待分类视频的分类结果。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特殊之处在于，所述计算机程序被处理器执行时实现以上任一所述的视频分类方法。

根据本公开的一个方面，提供一种电子设备，其特殊之处在于，包括处理器和存储器；其中，存储器用于存储所述处理器的可执行指令，所述处理器被配置为经由执行所述可执行指令来执行以上任一所述的视频分类方法。

在本示例性实施方式提供的视频分类方法、视频分类装置、计算机可读存储介质和电子设备中，通过两个可以并行的处理子过程分别提取待分类视频的视频内容中涉及的环境特征和对象特征，并对基于环境特征和对象特征的分类结果进行融合。通过将对应于环境特征的全局特征信息和对应于对象特征的细节特征信息进行结合，能够有效利用视频数据中丰富的空间视觉信息和动态时序信息，显著提高了视频分类的准确性，能够应用于涉及人物社会关系等高级语义分析的视频分类场景中。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开一种示例性实施方式中视频分类方法的步骤流程图。

图2示意性示出本公开另一示例性实施方式中获得对象特征分类结果的步骤流程图。

图3示意性示出本公开另一示例性实施方式中获得对象特征分类结果的步骤流程图。

图4示意性示出本公开另一示例性实施方式中获得局部图像的步骤流程图。

图5示意性示出本公开另一示例性实施方式中获得对象关系信息的步骤流程图。

图6示意性示出本公开另一示例性实施方式中获得邻接矩阵的步骤流程图。

图7示意性示出本公开另一示例性实施方式中获得对象关系信息的步骤流程图。

图8示意性示出本公开另一示例性实施方式中获得对象特征分类结果的步骤流程图。

图9示意性示出本公开另一示例性实施方式中获得对象关系信息的步骤流程图。

图10示意性示出本公开示例性实施方式提供的视频分类方法在一应用场景中的步骤流程图。

图11示意性示出本公开示例性实施方式中视频分类装置的组成框图。

图12示意性示出本公开示例性实施方式中一种程序产品的示意图。

图13示意性示出本公开示例性实施方式中一种电子设备的模块示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本公开的示例性实施方式中首先提供一种视频分类方法，该方法主要可以通过计算机视频处理算法对视频中的图像特征进行提取和学习，以达到对视频进行分类的目的。该方法尤其可以适用于对视频中涉及的人物社会关系(如朋友、同事、亲属等)或者其他一些高级语义信息进行识别和分类处理。

如图1所示，本示例性实施方式提供的视频分类方法主要可以包括以下步骤：

步骤S110.从待分类视频中抽取至少一个视频帧，并对视频帧进行预处理以得到全局图像；其中，全局图像的特征信息包括环境特征和对象特征中的至少一种。

待分类视频可以是完整视频，也可以是具有固定帧数或者时间长度的视频片段。对于一个具有一定长度的待分类视频而言，本步骤首先从该视频中抽取一定数量的视频帧。由待分类视频中抽取视频帧的方式例如可以是按照预设的帧数间隔均匀抽取，也可以是从组成待分类视频的所有视频帧中随机抽取，另外还可以是按照特定的规则进行抽取。举例而言，本步骤可以参照视频编码标准抽取待分类视频中的帧内编码帧(Intra-Prediction，I帧)作为用于获取全局图像的关键帧，另外也可以采用其他任意的关键帧抽取方法从待分类视频中抽取关键帧。通过抽取关键帧可以去除待分类视频中的一些干扰信息，在降低后续视频分类处理中的计算复杂度的同时，极大程度地保留待分类视频中具有代表性的关键信息。

针对抽取到的视频帧，本步骤对其进行预处理以得到全局图像，预处理的方式例如可以是利用双线性插值算法对视频帧进行缩放处理以得到具有预设高度和预设宽度的全局图像。通过预处理可以得到归一化的全局图像，使得本示例性实施方式提供的视频分类方法可以适用于各种具有不同格式、不同画面尺寸的视频。

经过预处理得到的全局图像一般可以包括多种特征信息，每一个全局图像的特征信息至少可以包括环境特征和对象特征中的一种。其中，环境特征主要包括图像内容中涉及的环境信息，例如可以表现为能够表征“室外”、“会议室”、“餐厅”等各种场景或者环境的全局特征信息。对象特征主要包括图像内容中涉及的人物、动物、物品等实体对象信息，例如可以表现为能够表征人物外观、物品种类、人物与人物的交互、人物与物品的交互等各种对象细节的细节特征信息。

步骤S120.将全局图像输入预先训练的环境特征分类模型以得到基于环境特征的环境特征分类结果。

由步骤S110得到的全局图像可以作为输入参数，利用预先训练完成的环境特征分类模型对其进行分析处理以得到环境特征分类结果。其中，环境特征分类模型主要侧重于对全局图像中的环境特征进行特征提取，并基于提取到的环境特征按照预先标记的多种分类标签进行分类处理。本步骤中所使用的环境特征分类模型例如可以是基于时序分割网络(Temporal Segment Network，TSN)训练得到的机器学习模型。由环境特征分类模型输出的环境特征分类结果例如可以表现为各种不同类别条目的评分，该评分能够体现待分类视频被分类至不同类别条目的概率高低，一般而言，评分越高代表待分类视频被分类至该类别条目的可能性越高。

步骤S130.将全局图像输入预先训练的对象特征分类模型以得到基于对象特征的对象特征分类结果。

与步骤S120相似地，本步骤将全局图像可以作为输入参数，利用预先训练完成的对象特征分类模型对其进行分析处理以得到对象特征分类结果。其中，对象特征分类模型主要侧重于对全局图像中的对象特征进行特征提取，并基于提取到的对象特征按照预先标记的多种分类标签进行分类处理。由于对象特征相比于环境特征具有更加复杂的表现形式和更加深层的含义信息，本步骤中所使用的对象特征分类模型可以是基于卷积神经网络(Convolutional Neural Network，CNN)、递归神经网络(Recursive Neural Network，RNN)等神经网络训练得到的机器学习模型，另外也可以是由多种不同种类或者不同结构的子模型集成得到的组合模型。除此之外，本步骤还可以按照预先设定的细分标准对全局图像进行类型划分，由此可以针对性地获得对应于不同特征类型的多种对象特征分类结果。因此，本步骤所获得的对象特征分类结果可以是单一维度的分类结果，也可以由多种维度的细节分类结果组合而成，而且不同维度的细节分类结果可以是来自同一模型的不同输出结果，另外也可以分别来自不同子模型的不同输出结果。

由对象特征分类模型输出的对象特征分类结果同样可以表现为各种不同类别条目的评分，而且本步骤得到的对象特征分类结果与步骤S130得到的环境特征分类结果可以采用相同的或者至少部分相同的类别条目，以便提高分类结果的可融合性。

步骤S140.根据环境特征分类结果和对象特征分类结果融合得到待分类视频的分类结果。

在本示例性实施方式中，步骤S120中的环境特征分类模型的处理过程以及步骤S130中的对象特征分类模型的处理过程可以并行，处理得到的环境特征分类结果和对象特征分类结果由本步骤进行融合以得到待分类视频的分类结果。本步骤中可以采用均匀融合(Uniform Blending)、线性融合(Linear Blending)或者其他任意的融合方式，本示例性实施方式对此不做特殊限定。举例而言，本步骤可以是按照预设加权系数对环境特征分类结果和对象特征分类结果进行加权求和以得到待分类视频的分类结果，采用加权的方式可以对环境特征和对象特征在最终分类结果中的影响程度进行调整，而且可以将相应的加权系数作为超参数，针对不同的待分类视频进行适应性地调节，以获得更加准确的分类结果。

本示例性实施方式提供的视频分类方法通过两个可以并行的处理子过程分别提取待分类视频的视频内容中涉及的环境特征和对象特征，并对基于环境特征和对象特征的分类结果进行融合。该方法将对应于环境特征的全局特征信息和对应于对象特征的细节特征信息进行结合，能够有效利用视频数据中丰富的空间视觉信息和动态时序信息，显著提高了视频分类的准确性，能够应用于涉及人物社会关系等高级语义分析的视频分类场景中。

在以上示例性实施方式的基础上，步骤S130中所使用的对象特征分类模型可以进一步包括对象检测模型、特征提取模型和对象分类模型等子模型，各个子模型采用串联的方式进行相互衔接，前一子模型的输出作为后一子模型的输入，最终获得对象特征分类结果。

如图2所示，本示例性实施方式中的步骤S130.将全局图像输入预先训练的对象特征分类模型以得到基于对象特征的对象特征分类结果，可以进一步包括以下步骤：

步骤S210.将全局图像输入预先训练的对象检测模型以得到对应于实体对象的局部图像。

本步骤首先将对应于待分类视频中各个视频帧的全局图像输入至预先训练完成的对象检测模型中，由对象检测模型可以输出对应于实体对象的局部图像。一个全局图像内一般会涉及例如人物、动物、物品等不同种类、不同数量的实体对象，本步骤即利用对象检测模型对全局图像中的实体对象进行识别检测并根据检测结果得到对应于实体对象的局部图像。举例而言，某一全局图像的画面内容是人物A和人物B在一办公桌前对话，那么通过对象检测模型的识别检测可以得到对应于人物A的局部图像a、对应于人物B的局部图像b和对应于办公桌的局部图像c。又例如，下一全局图像的画面内容是人物A在同一办公桌前使用笔记本电脑，那么通过对象检测模型的识别检测可以得到对应于人物A的局部图像d、对应于同一办公桌的局部图像e和对应于笔记本电脑的局部图像f。本步骤中所使用的对象检测模型例如可以是R-CNN(Region Convolutional Neural Network，区域卷积神经网络)、Fast R-CNN、Faster R-CNN、Mask R-CNN或者其他任意的能够实现目标检测的机器学习模型。

步骤S220.将局部图像输入预先训练的特征提取模型以得到各个局部图像的对象特征。

通过步骤S210可以对所有的全局图像进行实体对象的识别检测以得到对应于各个实体对象的局部图像。本步骤则将步骤S210所得到的局部图像输入至预先训练完成的特征提取模型中，由特征提取模型对各个局部图像进行特征提取以得到各个局部图像的对象特征。各个局部图像的对象特征可以表示为特征向量，而且由不同的全局图像中得到的局部图像一般具有不同的对象特征。除此之外，即便两个局部图像对应于同一实体对象，例如对应于人物A的局部图像a和局部图像d，在对象特征上通常也会表现出一定的差异性。本步骤中所使用的特征提取模型例如可以是ResNet(Residual Neural Network，残差神经网络)或者其他任意的能够实现图像特征提取的机器学习模型。

步骤S230.根据各个局部图像的对象特征以及图像来源信息确定各个局部图像之间的对象关系信息。

根据步骤S220得到的各个局部图像的对象特征以及各个局部图像的图像来源信息，本步骤可以确定各个局部图像之间的对象关系信息。局部图像的对象特征至少在一定程度上能够反映实体对象的在待分类视频中的空间视觉信息，因而能够体现不同局部图像在空间意义上的对象关系。局部图像的图像来源信息主要是指局部图像与全局图像的关系，例如某一全局图像通过步骤S210中的对象检测模型进行处理后可以得到三个局部图像，那么可以认为这三个局部图像来源于同一全局图像，即具有相同的图像来源，否则便可以认为具有不同的图像来源。局部图像的图像来源信息至少在一定程度上能够反映实体对象在待分类视频中的动态时序信息，因而能够体现不同局部图像在时间意义上的对象关系。

步骤S240.将对象特征和对象关系信息输入预先训练的对象分类模型以得到对象特征分类结果。

将步骤S220得到的各个局部图像的对象特征以及步骤S230得到的各个局部图像之间的对象关系信息共同作为输入参数，输入至预先训练完成的对象分类模型，可以由对象分类模型进行分类处理以得到对象特征分类结果。由于涵盖了对象特征和对象关系信息，由本步骤得到的对象特征分类结果能够很好地反映待分类视频中实体对象的内在关系，尤其适用于对人物社会关系的识别分析。

在本示例性实施方式提供的视频分类方法中，通过将多个子模型进行串联衔接的方式可以将复杂的对象特征分析过程分解在多个子模型中进行实施，各个子模型也可以采用各自适合的基础模型和学习算法进行训练，不仅提高了整体模型的训练效率，而且可以获得更加优化的基于对象特征的对象特征分类结果。

如图3所示，在本公开的另一示例性实施方式中，步骤S240.将对象特征和对象关系信息输入预先训练的对象分类模型以得到对象特征分类结果，可以包括以下步骤：

步骤S310.将各个局部图像的对象特征按照局部图像在待分类视频中的时序关系进行组合得到对象组合特征。

由于各个局部图像均来源于相同的或者不同的全局图像，而全局图像是通过将从待分类视频中抽取的视频帧进行处理得到的，因此各个局部图像自然会携带对应于各个视频帧在待分类视频中的时序信息。本步骤对各个局部图像的对象特征按照待分类视频中的时序关系进行组合以得到对象组合特征。当局部图像的对象特征表示为特征向量时，对象组合特征可以相应地表示为将各个特征向量按照时间先后顺序进行排列形成的特征矩阵。

步骤S320.将对象组合特征和对象关系信息输入预先训练的对象分类模型以得到对象特征分类结果。

基于步骤S310得到的对象组合特征，本步骤将其与对象关系信息作为输入参数输入至预先训练完成的对象分类模型，以通过对象分类模型处理得到对象特征分类结果。

在本示例性实施方式提供的视频分类方法中，通过对各个局部图像的对象特征按照时序关系进行组合形成对象组合特征，可以在空间信息之外进一步将时间信息纳入至对象分类模型的分析处理过程，提高对象分类模型的分类结果准确性。

如图4所示，基于以上示例性实施方式，在步骤S210.将全局图像输入预先训练的对象检测模型以得到对应于实体对象的局部图像之后，还可以包括以下步骤：

步骤S410.获取由对象检测模型得到的各个局部图像的检测置信度。

通过步骤S210中的对象检测模型对全局图像进行处理可以得到对应于实体对象的局部图像，同时可以得到各个局部图像的检测置信度，检测置信度能够用于评价各个局部图像的识别和检测的准确性。检测置信度越高，代表识别检测到的局部图像中的实体对象具有越高的可信程度，即识别检测结果的准确性越高。

步骤S420.根据检测置信度对局部图像进行筛选以得到预设数量的局部图像。

根据步骤S410获得的检测置信度，本步骤可以对局部图像进行筛选处理。筛选的方式例如可以是将各个局部图像按照检测置信度由高到低的顺序进行排序，然后保留其中检测置信度最高的预设数量的局部图像，而丢弃其他检测置信度较低的局部图像。另外，筛选的方式也可以是保留检测置信度高于某一预设阈值的局部图像，而将低于该预设阈值的局部图像做丢弃处理。不管采用何种筛选方式，本步骤都可以得到一定数量的检测置信度较高的局部图像。

在本示例性实施方式中，通过利用检测置信度对局部图像进行筛选，可以在一定程度上平衡视频分类的准确率和效率。当然，在其他一些示例性实施方式中，也可以不做筛选而将全部的局部图像输入至步骤S220的特征提取模型中，以进行后续的分析处理，本公开对此不做特殊限定。

如图5所示，在本公开的另一示例性实施方式中，步骤S230.根据各个局部图像的对象特征以及图像来源信息确定各个局部图像之间的对象关系信息，可以包括以下步骤：

步骤S510.将各个局部图像进行组合以得到用于表征各个局部图像之间对象关系的关系图模型。

以各个局部图像作为节点，本步骤可以构建由各个节点以及节点之间连接关系构成的关系图模型，关系图模型能够直观且准确地表征各个局部图像之间的对象关系。

步骤S520.根据各个局部图像的对象特征以及图像来源信息确定对应于关系图模型的邻接矩阵，并将邻接矩阵作为对象关系信息。

针对步骤S510构建得到的关系图模型，本步骤可以确定与之对应的邻接矩阵，邻接矩阵的每一行和每一列均对应于各个局部图像，例如局部图像的数量为20个，那么邻接矩阵即可以是一个20*20的矩阵。邻接矩阵中每一个元素的取值由各个局部图像的对象特征以及图像来源信息进行确定。

采用构建图模型和形成邻接矩阵的方式可以直观且准确地对任意两个局部图像的对象关系进行表征，矩阵形式的对象关系信息也有利于后续模型处理使用。

如图6所示，在以上示例性实施方式的基础上，步骤S520中的根据各个局部图像的对象特征以及图像来源信息确定对应于关系图模型的邻接矩阵，可以包括以下步骤：

步骤S610.计算任意两个局部图像的对象特征的特征相似度。

本步骤对各个局部图像的对象特征进行计算以得到各个对象特征之间的特征相似度。针对所有的局部图像，每两个局部图像的对象特征即可计算得到一个特征相似度。当局部图像的对象特征表示为特征向量时，特征相似度即可由向量距离进行衡量，例如可以是特征向量之间的欧式距离、余弦距离或者其他任意的向量相似度表征方式。需要说明的是，本步骤可以对所有的局部图像均进行特征相似度的计算，另外也可以对局部图像进行类型划分并针对性地对部分局部图像进行特征相似度的计算，本示例性实施方式对此不做特殊限定。

步骤S620.根据特征相似度以及图像来源信息，按照预设规则确定任意两个局部图像的关系特征值。

根据步骤S610计算得到的特征相似度以及预先获取到的各个局部图像图像来源信息，本步骤按照预设规则确定两个局部图像的关系特征值。例如，当两个局部图像的对象特征的特征相似度超过某一阈值，可以认为这两个局部图像所对应的实体对象具有较高的相似度，因而可以将关系特征值确定为某一设定值；而如果两个局部图像的对象特征的特征相似度没有超过该阈值，则可以认为这两个局部图像所对应的实体对象具有相对较低的相似度，因而可以将二者之间的关系特征值确定为另一设定值。又例如，当两个局部图像来源于同一全局图像时，可以将二者的关系特征值确定为某一设定值；而当两个局部图像来源于不同的全局图像时，可以将二者的关系特征值确定为另一设定值。当然，根据预设规则的不同，本步骤中关系特征值的确定方式可以有多种，尤其可以针对局部图像的类型划分而采用多种确定方式的组合形式，例如针对一部分局部图像单独利用特征相似度确定关系特征值，针对一部分局部图像单独利用图像来源信息确定关系特征值，再针对一部分局部图像利用特征相似度和图像来源信息共同确定关系特征值，本示例性实施方式对此均不做特殊限定。

步骤S630.将关系特征值进行组合以得到对应于关系图模型的邻接矩阵。

由步骤S620确定关系特征值后，本步骤可以将各个关系特征值作为矩阵元素进行组合以得到对应于关系图模型的邻接矩阵，邻接矩阵中的每一行和每一列均代表一个局部图像与其他局部图像所确定的关系特征值。

本示例性实施方式通过先确定关系特征值再形成邻接矩阵的方式，可以将各个局部图像之间的对象关系信息形成统一的表征形式，尤其是针对具有连续性取值特点的特征相似度，可以将其映射为为具有离散化、归一化特点的关系特征值，不仅能够降低后续分类过程的处理难度、提高处理效率，而且可以提高方法整体的稳定性和普遍适用性。

在本公开的另一示例性实施方式中，步骤S210利用对象检测模型可以由全局图像中识别检测出多种不同类型的实体对象，例如可以包括主要实体对象和次要实体对象。与之相应地，由对象检测模型输出的局部图像即可以包括对应于主要实体对象的主要对象局部图像和对应于次要实体对象的次要对象局部图像。举例而言，主要实体对象可以是全局图像中出现的人物，对应的主要对象局部图像为人物图像；次要实体对象可以是全局图像中出现的物品，对应的次要对象局部图像即为物品图像。另外，在其他一些实施方式中，与可以按照不同规则对实体对象进行更多种类的划分。需要说明的是，本示例性实施方式中涉及的“主要”和“次要”仅仅表示不同实体对象和局部图像的类型划分，并不能限定各种实体对象之间以及各种局部图像之间的主次关系。

如图7所示，当实体对象包括主要实体对象和次要实体对象并且局部图像包括主要对象局部图像和次要对象局部图像时，步骤S230.根据各个局部图像的对象特征以及图像来源信息确定各个局部图像之间的对象关系信息，可以包括以下步骤：

步骤S710.根据主要对象局部图像的对象特征以及图像来源信息确定各个主要对象局部图像之间的主要对象关系信息。

针对主要对象局部图像，本步骤根据其对象特征以及图像来源确定任意两个主要对象局部图像之间的主要对象关系信息。例如，针对一部分主要对象局部图像，利用对象特征计算特征相似度的方式确定主要对象关系，针对另一部分主要对象局部图像，在计算特征相似度的基础上同时结合其图像来源信息确定主要对象关系信息。

步骤S720.根据主要对象局部图像和次要对象局部图像的图像来源信息确定主要对象局部图像与次要对象局部图像之间的次要对象关系信息。

针对次要对象局部图像，本步骤根据主要对象局部图像和次要对象局部图像的图像来源信息确定次要对象关系信息。例如，当一个主要对象局部图像和一个次要对象局部图像来源于同一全局图像时，可以确定一关系特征值作为二者的次要对象关系信息；而当二者来源于不同的全局图像时，可以确定另一关系特征值作为二者的次要对象关系信息。

在该示例性实施方式的基础上，当对实体对象进行不同种类的划分时，相应地也将得到不同的对象特征分类结果，例如对象特征分类结果包括对应于主要实体对象的主要对象特征分类结果和对应于次要实体对象的次要对象特征分类结果。

如图8所示，步骤S240.将对象特征和对象关系信息输入预先训练的对象分类模型以得到对象特征分类结果，可以包括以下步骤：

步骤S810.将主要对象局部图像的对象特征以及主要对象关系信息输入预先训练的对象分类模型以得到主要对象特征分类结果。

针对主要对象局部图像，本步骤将其对象特征以及由步骤S710确定得到的主要对象关系信息输入至预先训练的对象分类模型以得到主要对象特征分类结果。主要对象特征分类结果侧重于在排除次要对象局部图像的情况下，以主要对象局部图像的对象特征作为相对主要的分类依据。

步骤S820.将主要对象局部图像的对象特征、次要对象局部图像的对象特征以及次要对象关系信息输入预先训练的对象分类模型以得到次要对象特征分类结果。

针对次要对象局部图像，本步骤将主要对象局部图像的对象特征、次要对象局部图像的对象特征以及次要对象关系信息共同输入至同一对象分类模型以得到次要对象特征分类结果。次要对象特征分类结果侧重于主要对象局部图像与次要对象局部图像之间的对象关系，同时结合各自的对象特征作为主要分类依据。

本示例性实施方式通过对实体对象进行类型划分，可以有选择地、针对性地对不同种类的实体对象采用不同的分析处理策略，最终得到多种分类结果，后续可以将多种分类结果进行融合，这种方式有利于对实体对象深层信息进行挖掘，以获得准确性更高的分类结果。

在以上示例性实施方式的基础上，主要对象关系信息又可以进一步包括用于表征相同主要实体对象之间对象关系的同体对象关系信息和用于表征不同主要实体对象之间对象关系的异体对象关系信息。

如图9所示，步骤S710.根据主要对象局部图像的对象特征以及图像来源信息确定各个主要对象局部图像之间的主要对象关系信息，可以包括以下步骤：

步骤S910.计算任意两个主要对象局部图像的对象特征的特征相似度。

在确定对象关系信息之前，本步骤首先对各个主要对象局部图像之间的对象特征的特征相似度进行计算，具体计算方式可以参考以上各示例性实施方式中的方法步骤，此处不再赘述。

步骤S920.根据特征相似度，按照第一预设规则确定两个主要对象局部图像的同体关系特征值，并基于同体关系特征值确定同体对象关系信息。

根据步骤S910计算得到的特征相似度，本步骤可以按照第一预设规则确定用于表征相同主要实体对象之间对象关系的同体关系特征值，并基于同体关系特征值确定相应的同体对象关系信息。其中，利用第一预设规则确定同体关系特征值的方法例如可以包括：若特征相似度小于第一预设阈值，将第一特征值作为两个主要对象局部图像的同体关系特征值；若特征相似度大于或等于第一预设阈值，将第二特征值作为同体关系特征值。例如第一特征值取值为1、第二特征值取值为0，由此得到的同体对象关系信息可以表征为由1和0两个元素组成的矩阵。

步骤S930.根据特征相似度以及图像来源信息，按照第二预设规则确定两个主要对象局部图像的异体关系特征值，并基于异体关系特征值确定异体对象关系信息。

根据步骤S910计算得到的特征相似度以及各个主要对象局部图像的图像来源信息，本步骤可以按照第二预设规则确定用于表征不同主要实体对象之间对象关系的异体关系特征值，并基于异体关系特征值确定异体对象关系信息。其中，利用第二预设规则确定异体关系特征值的方法例如可以包括：若两个主要对象局部图像来源于同一全局图像，将第三特征值作为两个主要对象局部图像的异体关系特征值；若两个主要对象局部图像来源于不同的全局图像并且特征相似度大于或等于第二预设阈值，将第三特征值作为异体关系特征值；若两个主要对象局部图像来源于不同的全局图像并且特征相似度小于第二预设阈值，将第四特征值作为异体关系特征值。例如第三特征值取值为1，第四特征值取值为0，由此得到的异体对象关系信息可以表征为由1和0两个元素组成的矩阵。在一些示例性实施方式中，异体对象关系信息也可以表征为由其他任意特征值作为元素组成矩阵，而且相应的元素取值可以不同于同体对象关系信息，本公开对此不做特殊限定。

在以上示例性实施方式的基础上，步骤S720.根据主要对象局部图像和次要对象局部图像的图像来源信息确定主要对象局部图像与次要对象局部图像之间的次要对象关系信息，可以包括：根据主要对象局部图像和次要对象局部图像的图像来源信息，按照第三预设规则确定次要关系特征值，并基于次要关系特征值确定主要对象局部图像与次要对象局部图像之间的次要对象关系信息。其中，利用第三预设规则确定次要关系特征值的方法例如可以包括：若主要对象局部图像和次要对象局部图像来源于同一全局图像，将第五特征值作为次要关系特征值；若主要对象局部图像和次要对象局部图像来源于不同全局图像，将第六特征值作为次要关系特征值。例如第五特征值取值为1，第六特征值取值为0，由此得到的次要对象关系信息可以表征为由1和0两个元素组成的矩阵。在一些示例性实施方式中，次要对象关系信息也可以表征为由其他任意特征值作为元素组成矩阵，而且相应的元素取值可以不同于同体对象关系信息和异体对象关系信息，本公开对此不做特殊限定。

下面结合一应用场景对以上示例性实施方式提供的视频分类方法进行详细说明。

本应用场景涉及一种通过计算机算法对视频中的图像特征进行提取和学习，达到对视频中人物社会关系(如同事、朋友、亲属等)识别的目的。该应用场景中使用的视频分类方法首先对一段输入视频进行关键帧抽取、归一化等预处理操作。然后通过两个并行的处理子过程，分别提取视频帧中涉及全局的环境特征和涉及细节的对象特征。最后环境特征与对象特征进行融合对视频中人物的社会关系进行分类。

参考图10所示的步骤流程图，该应用场景中使用的视频分类方法主要可以包括以下流程步骤：

1)视频关键帧提取

首先，对于输入的一段长度为F帧的视频片段V，均匀提取其中的K帧(K<F)作为关键帧。

然后，采用双线性差值算法将K个关键帧缩放为宽度为W、高度为H的图像，用于后续处理。

2)全局特征提取和分类

首先，使用已标注好社会关系标签的视频数据训练一个环境特征分类模型，此处以时序分割网络TSN为例进行说明。

第二，将步骤1)中的K个关键帧输入训练好的TSN网络进行前向传播运算，得到输入视频V的全局分类得分s_g:

s_g＝{a_i}^C

其中C为社会关系分类的数目，a_i为各个社会关系分类下的评分。

3)对象检测

使用预训练的对象检测模型检测所有视频帧中的实体对象，这里的实体对象包括人物和物体，将所有检测到的人物和物体分别按照检测置信度由大到小排序，保留置信度最高的P个人物图像和O个物体图像。

4)对象特征提取

使用预训练的特征提取模型对步骤3)检测到的所有P个人物图像提取特征向量{f₁,…,f_P}和O个物体图像提取特征向量{g₁,…,g_O}。

5)图模型构建

分别构建表示为邻接矩阵A_s的同人关系图(Intra-Person Graph，IntraG)、表示为邻接矩阵A_d的异人关系图(Inter-Person Graph，InterG)和表示为邻接矩阵A_o的人物关系图(Person-Object Graph，POG)三种图模型。其中，A_s和A_d为P×P的矩阵，每一行和每一列对应每一个人物；A_o为(P+O)×(P+O)的矩阵，每一行和每一列对应每一个人物及物品。

计算所有人物的特征向量之间的欧式距离dist(f_i,f_j)。

针对同人关系图，如果dist(f_i,f_j)小于一阈值τ，则令A_s(i,j)＝1，否则令A_s(i,j)＝0。

针对异人关系图，如果两个人物来自同一视频帧，则令A_d(i,j)＝1；如果两个人物来自不同的关键帧并且dist(f_i,f_j)大于或者等于阈值τ，则令A_d(i,j)＝1；如果两个人物来自不同的关键帧并且dist(f_i,f_j)小于阈值τ，则令A_d(i,j)＝0。

针对人物关系图，如果一个人物p_k和一个物体o_l来自同一关键帧，则令A_o(p_k,o_l)＝1，否则令A_o(p_k,o_l)＝0。

6)视觉关系推理

将步骤4)得到的所有人物特征向量按照时序的先后顺序组合为特征矩阵X_p，将步骤4)得到的人物特征向量与物体特征向量按照时序的先后顺序组成特征矩阵X_o。

利用预训练的对象分类模型进行视觉关系推理，这里以图神经网络为例进行说明。

假设预训练的图神经网络包含L层，则每一层的网络参数为W^l，每一层关系推理可以表示为：

其中

为临界矩阵

的度矩阵，X^(l)为特征矩阵，σ为非线性激活函数，如ReLU函数。

以人物特征矩阵X_p和物体特征矩阵X_o为第0层的初始特征矩阵，通过上述公式计算由第l层到第l+1层的特征矩阵。

总共经过L层计算后，得到预测的特征矩阵

和

通过对两个特征矩阵以样本维度求平均值，分别得到特征向量

和

7)关系特征分类

将推理得到的人物特征

和物体特征

分别输入特征分类器，输出得到关系分类得分s_p和s_o：

s_p＝{b_i}^C

s_o＝{c_i}^C

8)分类结果融合

将步骤2)和步骤7)得到的三组关系s_g、s_p和s_o按照类别加权求和得到最终的识别得分：

s＝{α·a_i+β·b_i+γ·c_i}^C

C个类别中得分最高的类别即作为输出结果。

基于该应用场景的分类过程可知，本公开示例性实施方式提供的视频分类方法可以通过提取视频关键帧，建立人与人、人与物之前的视觉关系，通过一系列模型的分析处理，能够快速准确地识别出视频中人物之间的社会关系。可用于视频分类、视频理解、个性化推荐以及手机端用户视频自动整理、编目等多种应用场景。

需要说明的是，虽然以上示例性实施方式以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或者必须执行全部的步骤才能实现期望的结果。附加地或者备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施方式中，还提供一种对应于以上示例性实施方式中视频分类方法的视频分类装置。如图11所示，视频分类装置1100主要可以包括：图像抽取模块1110、环境分类模块1120、对象分类模块1130和分类融合模块1140。图像抽取模块1110被配置为从待分类视频中抽取至少一个视频帧，并对视频帧进行预处理以得到全局图像；其中，全局图像的特征信息包括环境特征和对象特征中的至少一种；环境分类模块1120被配置为将全局图像输入预先训练的环境特征分类模型以得到基于环境特征的环境特征分类结果；对象分类模块1130被配置为将全局图像输入预先训练的对象特征分类模型以得到基于对象特征的对象特征分类结果；分类融合模块1140被配置为根据环境特征分类结果和对象特征分类结果融合得到待分类视频的分类结果。

上述视频分类装置的具体细节已经在对应的视频分类方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施方式中，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可实现本公开的上述的视频分类方法。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码；该程序产品可以存储在一个非易失性存储介质(可以是CD-ROM、U盘或者移动硬盘等)中或网络上；当所述程序产品在一台计算设备(可以是个人计算机、服务器、终端装置或者网络设备等)上运行时，所述程序代码用于使所述计算设备执行本公开中上述各示例性实施例中的方法步骤。

参见图12所示，根据本公开的实施方式的用于实现上述方法的程序产品1200，其可以采用便携式紧凑磁盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备(例如个人计算机、服务器、终端装置或者网络设备等)上运行。然而，本公开的程序产品不限于此。在本示例性实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或者多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。

可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件、或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任意可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户计算设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN)等)连接到用户计算设备；或者，可以连接到外部计算设备，例如利用因特网服务提供商来通过因特网连接。

在本公开的示例性实施方式中，还提供一种电子设备，所述电子设备包括至少一个处理器以及至少一个用于存储所述处理器的可执行指令的存储器；其中，所述处理器被配置为经由执行所述可执行指令来执行本公开中上述各示例性实施例中的方法步骤。

下面结合图13对本示例性实施方式中的电子设备1300进行描述。电子设备1300仅仅为一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

参见图13所示，电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于：至少一个处理单元1310、至少一个存储单元1320、连接不同系统组件(包括处理单元1310和存储单元1320)的总线1330、显示单元1340。

其中，存储单元1320存储有程序代码，所述程序代码可以被处理单元1310执行，使得处理单元1310执行本公开中上述各示例性实施例中的方法步骤。

存储单元1320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元1321(RAM)和/或高速缓存存储单元1322，还可以进一步包括只读存储单元1323(ROM)。

存储单元1320还可以包括具有一组(至少一个)程序模块1325的程序/实用工具1324，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用各种总线结构中的任意总线结构的局域总线。

电子设备1300也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信，还可以与一个或者多个使得用户可以与该电子设备1300交互的设备通信，和/或与使得该电子设备1300能与一个或多个其他计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且，电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN)、广域网(WAN)和/或公共网络，例如因特网)通信。如图13所示，网络适配器1360可以通过总线1330与电子设备1300的其他模块通信。应当明白，尽管图中未示出，可以结合电子设备1300使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本领域技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

上述所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中，如有可能，各实施例中所讨论的特征是可互换的。在上面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组件、材料等。在其它情况下，不详细示出或描述公知结构、材料或者操作以避免模糊本公开的各方面。

Claims

1.一种视频分类方法，其特征在于，包括：

2.根据权利要求1所述的视频分类方法，其特征在于，所述对象特征分类模型包括对象检测模型、特征提取模型和对象分类模型；

3.根据权利要求2所述的视频分类方法，其特征在于，所述根据各个所述局部图像的对象特征以及图像来源信息确定各个所述局部图像之间的对象关系信息，包括：

4.根据权利要求3所述的视频分类方法，其特征在于，所述根据各个所述局部图像的对象特征以及图像来源信息确定对应于所述关系图模型的邻接矩阵，包括：

计算任意两个所述局部图像的对象特征的特征相似度；

5.根据权利要求4所述的视频分类方法，其特征在于，所述特征相似度为特征向量之间的欧式距离或者余弦距离。

6.根据权利要求2所述的视频分类方法，其特征在于，所述实体对象包括主要实体对象和次要实体对象，所述局部图像包括对应于所述主要实体对象的主要对象局部图像和对应于所述次要实体对象的次要对象局部图像；

7.根据权利要求6所述的视频分类方法，其特征在于，所述对象特征分类结果包括对应于所述主要实体对象的主要对象特征分类结果和对应于所述次要实体对象的次要对象特征分类结果；

8.根据权利要求6所述的视频分类方法，其特征在于，所述主要对象关系信息包括用于表征相同主要实体对象之间对象关系的同体对象关系信息和用于表征不同主要实体对象之间对象关系的异体对象关系信息；

9.根据权利要求8所述的视频分类方法，其特征在于，所述按照第一预设规则确定两个所述主要对象局部图像的同体关系特征值，包括：

10.根据权利要求8所述的视频分类方法，其特征在于，所述按照第二预设规则确定两个所述主要对象局部图像的异体关系特征值，包括：

11.根据权利要求6所述的视频分类方法，其特征在于，所述根据所述主要对象局部图像和所述次要对象局部图像的图像来源信息确定所述主要对象局部图像与所述次要对象局部图像之间的次要对象关系信息，包括：

12.根据权利要求11所述的视频分类方法，其特征在于，所述按照第三预设规则确定次要关系特征值，包括：

13.根据权利要求2所述的视频分类方法，其特征在于，所述将所述对象特征和所述对象关系信息输入预先训练的所述对象分类模型以得到对象特征分类结果，包括：

14.根据权利要求2所述的视频分类方法，其特征在于，在将所述全局图像输入预先训练的所述对象检测模型以得到对应于实体对象的局部图像之后，所述方法还包括：

15.根据权利要求1-14中任意一项所述的视频分类方法，其特征在于，所述对所述视频帧进行预处理以得到全局图像，包括：

16.根据权利要求1-14中任意一项所述的视频分类方法，其特征在于，根据所述环境特征分类结果和所述对象特征分类结果融合得到所述待分类视频的分类结果，包括：

17.一种视频分类装置，其特征在于，包括：

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-16中任意一项所述的视频分类方法。

19.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-16中任意一项所述的视频分类方法。