CN110503076B

CN110503076B - 基于人工智能的视频分类方法、装置、设备和介质

Info

Publication number: CN110503076B
Application number: CN201910808157.XA
Authority: CN
Inventors: 姜育刚; 黄帆; 邱志勇; 张星; 吴祖煊; 陈绍祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2023-06-30
Anticipated expiration: 2039-08-29
Also published as: CN110503076A

Abstract

公开了一种基于人工智能的视频分类方法、装置、设备以及存储介质。所述方法包括：确定所述视频的至少两种类型的视频特征，其中至少一种类型的视频特征具有语义信息，至少另一种类型的视频特征具有时序信息；根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征；基于所述整体特征确定所述视频的分类结果。

Description

基于人工智能的视频分类方法、装置、设备和介质

技术领域

本申请涉及计算机视觉领域，具体涉及一种基于人工智能的视频分类方法、装置、设备和介质。

背景技术

视频识别是利用视频当中的视觉、音频信息对视频进行识别的一项技术，随着网络视频惊人的增长，自动视频识别技术得到了广泛的应用，例如短视频推荐系统、视频数据库管理和视频拷贝检测等。然而由于未修剪和未编辑的视频片段通常包含严重的相机运动和杂乱的背景，更重要的是视频内容的类内差异很大，给视频识别带来了很大的挑战。

发明内容

本申请的目的是提供一种图基于人工智能的视频分类方法、装置、设备和存储介质。

根据本申请的一个方面，提供了一种基于人工智能的视频分类方法，包括：确定所述视频的至少两种类型的视频特征，其中至少一种类型的视频特征具有语义信息，至少另一种类型的视频特征具有时序信息；根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征；基于所述整体特征确定所述视频的分类结果。

在一些实施例中，确定所述视频的至少两种类型的视频特征包括：提取所述视频的至少一个关键帧；利用所述至少一个关键帧确定所述视频的第一视频特征、第二视频特征以及第三视频特征，其中所述第一视频特征具有所述视频的第一语义信息，所述第三视频特征具有所述视频的第二语义信息，所述第二视频特征具有所述视频的时序信息。

在一些实施例中，根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征包括：确定所述第一视频特征和所述第二视频特征之间的第一关联性，并基于所述第一关联性确定第一融合视频特征，其中所述第一融合视频特征具有所述视频的第一语义信息和时序信息；确定所述第二视频特征和所述第三视频特征之间的第二关联性，并基于所述第二关联性确定第二融合视频特征，其中所述第二融合视频特征具有所述视频的第二语义信息和时序信息；基于所述第一融合视频特征和所述第二融合视频特征确定所述视频的整体特征，其中所述整体特征具有所述视频的第一语义信息、第二语义信息以及时序信息。

在一些实施例中，确定所述第一视频特征和所述第二视频特征之间的第一关联性包括：确定所述第一视频特征的第一注意力嵌入特征；确定所述第一注意力嵌入特征和所述第二视频特征之间的相关性作为所述第一视频特征和所述第二视频特征之间的第一关联性特征。

在一些实施例中，基于所述第一关联性确定第一融合视频特征包括：确定所述第一视频特征的第一语义嵌入特征；利用所述第一关联性特征对所述第一语义嵌入特征进行调整，以得到调整后的第一语义嵌入特征；通过残差连接对调整后的第一语义嵌入特征和所述第二视频特征进行融合，以确定所述第一融合视频特征。

在一些实施例中，利用所述至少一个关键帧确定所述视频的第一视频特征、第二视频特征以及第三视频特征包括：利用第一网络模型对所述至少一个关键帧进行处理以得到对应于每个关键帧的第一特征序列，对所述第一特征序列进行帧间聚合以得到所述第一视频特征；利用第二网络模型对所述至少一个关键帧进行处理以得到对应于所述视频的第二特征序列，对所述第二特征序列进行帧间聚合以得到所述第二视频特征；利用第三网络模型对所述至少一个关键帧进行处理以得到对应于每个关键帧的第三特征序列，对所述第三特征序列进行帧间聚合以得到所述第一视频特征。

在一些实施例中，对所述第一特征序列进行帧间聚合以得到所述第一视频特征包括：利用第一自注意力参数对所述第一特征序列进行调整，以得到所述第一视频特征。

在一些实施例中，所述第一网络模型是VGG16网络，所述第一视频特征是场景特征，所述场景特征具有所述视频的场景语义；所述第二网络模型是I3D网络，所述第二视频特征是运动特征，所述运动特征具有所述视频的时序信息；以及所述第三网络模型是ResNET101网络，所述第三视频特征是物体特征，所述物体特征具有所述视频的物体语义。

在一些实施例中，基于所述第一融合视频特征和所述第二融合视频特征确定所述视频的整体特征包括：拼接所述第一融合视频特征和所述第二融合视频特征，以确定所述整体特征。

在一些实施例中，基于所述整体特征确定所述视频的分类结果包括：利用视频分类器对所述整体特征进行处理，以得到所述视频的分类结果。

根据本申请的另一方面，还提供了一种图像分类装置，包括：视频特征确定单元，配置成确定所述视频的至少两种类型的视频特征，其中至少一种类型的视频特征具有语义信息，至少另一种类型的视频特征具有时序信息；整体特征确定单元，配置成根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征；分类单元，配置成基于所述整体特征确定所述视频的分类结果。

在一些实施例中，所述视频特征确定单元还配置成：提取所述视频的至少一个关键帧；利用所述至少一个关键帧确定所述视频的第一视频特征、第二视频特征以及第三视频特征，其中所述第一视频特征具有所述视频的第一语义信息，所述第三视频特征具有所述视频的第二语义信息，所述第二视频特征具有所述视频的时序信息。

在一些实施例中，所述整体特征确定单元还配置成确定所述第一视频特征和所述第二视频特征之间的第一关联性，并基于所述第一关联性确定第一融合视频特征，其中所述第一融合视频特征具有所述视频的第一语义信息和时序信息；确定所述第二视频特征和所述第三视频特征之间的第二关联性，并基于所述第二关联性确定第二融合视频特征，其中所述第二融合视频特征具有所述视频的第二语义信息和时序信息；基于所述第一融合视频特征和所述第二融合视频特征确定所述视频的整体特征，其中所述整体特征具有所述视频的第一语义信息、第二语义信息以及时序信息。

在一些实施例中，所述整体特征确定单元还配置成：拼接所述第一融合视频特征和所述第二融合视频特征，以确定所述整体特征。

在一些实施例中，所述分类单元还配置成利用视频分类器对所述整体特征进行处理，以得到所述视频的分类结果。

根据本申请的又一方面，还提供了一种视频分类设备，所述设备包括存储器和处理器，其中所述存储器中存有指令，当利用所述处理器执行所述指令时，使得所述处理器执行如前所述的视频分类方法。

在一些实施例中，所述视频分类设备还包括：视频采集部件，用于采集待分类的所述视频。

在一些实施例中，所述视频分类设备还包括：输出部件，用于输出所述视频的分类结果。

根据本申请的又一方面，还提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如前所述的视频分类方法。

利用本申请提供的基于人工智能视频分类方法、装置、设备和存储介质，能够有效地提取视频的不同类型的特征之间的关联性，并可以利用不同类型的特征之间的关联性对不同类型的特征进行更有效的融合，使得融合后的视频特征具有用于视频分类的更多的有用信息，从而提高视频分类的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1示出了根据本申请的视频分类系统的示例性的场景图

图2示出了根据本申请的实施例的基于人工智能的视频分类方法的示意性的流程图；

图3示出了根据本申请的实施例的一种语义注意力模块的示意性的示例；

图4示出了根据本申请的实施例的一种视频分类模型的示意图；

图5示出了根据本申请的实施例的基于人工智能的视频分类装置的示意性的框图；

图6A和图6B示出了根据本申请的实施例的视频分类的应用场景；以及图7示出了根据本申请的实施例的计算设备的架构。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

以计算机视觉技术(Computer Vision,CV)为例，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。例如，利用计算机视觉技术可以实现对于图像、视频的识别、分类、推荐、检测等多种类型的处理。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

利用上述人工智能方法，例如计算机视觉和机器学习技术能够有助于提高图像和视频领域的识别、检测、分类等技术的准确性。

为了提高视频识别的准确性，合理地融合场景和物体的语义信息是十分重要的。现有的技术通常是将场景、物体和运动特征直接进行连接再输入到神经网络模型或一个核SVM，然而这种方法难以学习到不同特征之间的关联，因为它们通常是高维的特征。此外，由于场景特征在部分情况下和物体或运动特征并不是互补关系，如果直接将场景特征和物体或运动特征进行连接，可能导致分类准确性的下降，因此本申请提供了一种不同类型的视频特征的融合模型，利用不同特征之间的特征关系和语义关联有效提高了视频识别的准确性。

图1示出了根据本申请的视频分类系统的示例性的场景图。如图1所示，该视频分类系统100可以包括用户终端110、网络120、服务器130以及数据库140。

用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是，事实上，用户终端可以是能够执行数据处理的任何其他类型的电子设备，其可以包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、智能家居设备、可穿戴设备、车载电子设备、监控设备等。用户终端110也可以是设置有电子设备的任何装备，例如车辆、机器人等。

根据本申请提供的用户终端可以用于接收待处理的视频，并利用本申请提供的方法实现视频分类。例如，用户终端可以通过用户终端上设置的视频采集设备(例如摄像机等)采集待处理的视频。又例如，用户终端也可以从独立设置的视频采集设备接收待处理的视频。再例如，用户终端也可以经由网络从服务器或任何存储设备中接收已存储的视频作为待处理的视频。

在一些实施例中，可以利用用户终端的处理单元执行本申请提供的视频分类方法。在一些实现方式中，用户终端可以利用用户终端内置的程序执行本申请提供的视频分类方法。在另一些实现方式中，用户终端可以通过调用用户终端外部存储的程序执行本申请提供的视频分类方法。

在另一些实施例中，用户终端将接收的待处理的图像经由网络120发送至服务器130，并由服务器130执行本申请提供的视频分类方法。在一些实现方式中，服务器130可以利用服务器内置的程序执行本申请提供的视频分类方法。在另一些实现方式中，服务器130可以通过调用服务器外部存储的程序执行本申请提供的视频分类方法。

在一些实施例中，用户终端110还可以包括输出部件。例如，用户终端110可以包括显示器、扬声器等输出设备，并可以利用输出设备向用户输出用户终端的执行结果。

网络120可以是单个网络，或至少两个不同网络的组合。例如，网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。

服务器130可以是一个单独的服务器，或一个服务器群组，群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的，例如数据中心，也可以是分布式的。服务器130可以是本地的或远程的。

数据库140可以泛指具有存储功能的设备。数据库130主要用于存储从用户终端110和服务器130工作中所利用、产生和输出的各种数据。数据库140可以是本地的，或远程的。数据库140可以包括各种存储器、例如随机存取存储器(Random Access Memory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备只是列举了一些例子，该系统可以使用的存储设备并不局限于此。

数据库140可以经由网络120与服务器130或其一部分相互连接或通信，或直接与服务器130相互连接或通信，或是上述两种方式的结合。

在一些实施例中，数据库150可以是独立的设备。在另一些实施例中，数据库150也可以集成在用户终端110和服务器140中的至少一个中。例如，数据库150可以设置在用户终端110上，也可以设置在服务器140上。又例如，数据库150也可以是分布式的，其一部分设置在用户终端110上，另一部分设置在服务器140上。

下文中将详细阐述本申请提供的视频处理方法的流程。

图2示出了根据本申请的实施例的基于人工智能的视频分类方法的示意性的流程图。可以利用图1中示出的用户终端或服务器实现图2中示出的过程。

在步骤S202中，可以确定所述视频的至少两种类型的视频特征，其中至少一种类型的视频特征具有语义信息，至少另一种类型的视频特征具有时序信息。

在一些实施例中，所述至少两种类型的视频特征可以包括至少视频的场景特征、动作特征以及物体特征。其中，所述场景特征可以具有所述视频的场景语义，所述物体特征可以具有所述视频的物体语义，以及所述动作特征可以具有所述视频的时序信息。

在一些实现方式中，可以通过以下步骤确定所述视频的至少两种类型的视频特征：提取所述视频的至少一个关键帧，以及利用所述至少一个关键帧确定所述视频的第一视频特征、第二视频特征以及第三视频特征，其中所述第一视频特征具有所述视频的第一语义信息，所述第三视频特征具有所述视频的第二语义信息，所述第二视频特征具有所述视频的时序信息。

例如，可以对视频进行均匀或不均匀的采样以提取视频的至少一个关键帧。在一个示例中，可以对视频进行均匀采样并提取64个关键帧。可以理解的是，尽管本申请中以64个关键帧为例描述本申请提供的方法，然而，关键帧的数量可以更多或者更少，本领域技术人员可以根据实际情况设置关键帧的数量。

然后，可以利用提取的至少一个关键帧确定所述视频的第一视频特征、第二视频特征以及第三视频特征。在一个示例中，第一视频特征可以是视频的场景特征，第二视频特征可以是视频的动作特征，第三视频特征可以是视频的物体特征。其中所述场景特征可以具有视频的场景语义，所述物体特征可以具有视频的物体语义，所述动作特征可以具有视频的时序信息。

例如，可以利用训练好的VGG16网络对上述64个关键帧分别进行提取，并得到用于每个关键帧的一个场景特征。以在训练集Places365上训练的VGG16网络为例，该网络可以为每个关键帧输出一个365维的特征作为输出结果，表示该关键帧属于预设的365个场景中的每一个的可能性。因此，利用训练好的VGG16网络对上述64个关键帧分别进行提取能够获得64个用于该视频的场景特征序列，并可以利用这64个场景特征序列形成尺寸为64×365的场景特征S。

又例如，可以利用训练好的I3D网络对上述64个关键帧进行处理以得到用于该视频的运动特征。以在训练集Kinetics上训练的I3D网络为例，该网络可以将这64个关键帧作为输入，并对着64个关键帧的图像信息进行3D卷积。利用在训练集Kinetics上训练的I3D网络可以输出7个用于该视频的运动特征序列，并形成尺寸是7×1024的运动特征A。

在例如，可以利用训练好的ResNet-101网络对上述64个关键帧分别进行提取，并得到用于每个关键帧的一个物体特征。以在训练集ImageNet上训练的ResNet-101网络为例，该网络可以为每个关键帧输出一个1000维的特征作为输出结果，表示该关键帧中的物体属于预设的1000个物体类别中的每一个的可能性。因此，利用训练好的ResNet-101网络对上述64个关键帧分别进行提取能够获得64个用于该视频的物体特征序列，并且可以利用这64个物体特征序列形成用于该视频的尺寸为64×1000的物体特征O。

在一些实施例中，为了满足上述网络模型的输入尺寸的要求，可以对所提取的关键帧进行缩放和裁剪。例如，可以将关键帧按短边缩放并裁剪为224×224的图像区域。

下文中将以第一视频特征是视频的场景特征、第二视频特征是视频的运动特征、第三视频特征是视频的物体特征为例描述本申请的原理。本领域技术人员可以理解的是，用于进行视频分类的特征不限于场景特征、运动特征以及物体特征这三种。根据实际需要，本领域技术人员可以选择任何类型的图像特征用于进行视频分类。例如，可以提取视频中的动态物体或静态物体的特征用于进行视频分类。

此外，尽管下文中仅以三种视频特征为例描述本申请的原理，本领域技术人员可以理解，事实上，可以利用更多种或更少种视频特征实现本申请的原理。例如，可以利用相同或不同的训练好的机器学习模型提取视频中的两种、四种以及大于四种不同的视频特征用于进行视频分类。

在一些实施例中，可以利用自注意力机制对上述物体特征O、场景特征S以及运动特征A中的多个序列的特征进行帧间聚合，从而捕捉各帧之间的时空关联。例如，可以利用自注意力参数α对前述的物体特征中的特征序列、场景特征中的特征序列以及运动特征中的特征序列进行线性组合以形成视频特征。其中针对物体特征、场景特征以及运动特征可以使用相同或不同的自注意力参数。自注意力参数α可以是向量、矩阵或任何适于运算的其他形式。

可以利用公式(1)表示特征序列之间的帧间聚合过程：

其中V表示物体特征O、场景特征S以及运动特征A中的一种，α表示用于特征V的自注意力参数，其尺寸为P×L，其中α＝[a¹,a²,...,a^P]，并且α可以通过公式(2)得到：

其中

和/>

是训练好的权重参数。以V是由L个维度为D的特征序列形成的特征为例(即V的尺寸是L×D)，/>

可以是尺寸为/>

的第一权重矩阵，/>

可以是尺寸为

的第二权重矩阵。在一些实现方式中，P可以取值为1。在这种情况下，α被实现为自注意力向量。当P的取值是大于1的整数时，α被实现为自注意力矩阵。

上述第一权重矩阵

和第二权重矩阵/>

可以是通过本申请下文中提供的训练方法训练得到的。下文中将参考图4详细描述本申请提供的模型中的参数的训练过程，在此不再赘述。

利用自注意力参数对从视频中直接获取的物体特征、场景特征以及运动特征进行帧间聚合，能够使得视频特征更好地体现视频中的时空关联的信息。

在步骤S204中，可以根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征。

在一些实施例中，可以利用语义注意力模块确定视频的时序信息和语义信息之间的关联性，并利用所述关联性融合所述至少两种类型的视频特征。

图3示出了根据本申请的实施例的一种语义注意力模块的示意性的示例。如图3所示，语义注意力模块的输入特征包括记忆M和查询Q。图3中示出的语义注意力模块能够确定两个输入特征之间的关联性，并基于确定的关联性融合输入的两个特征。

如前所述，以视频特征包括场景特征、物体特征以及运动特征为例，场景特征和物体特征中具有视频的场景语义和物体语义，运动特征中具有视频的时序信息。

为了确定视频中语义信息和时序信息之间的相关性，步骤S204可以包括利用语义注意力模块确定视频的场景特征和运动特征之间的第一关联性特征，并利用所述第一关联性特征对场景特征和运动特征进行融合。此外，步骤S204还可以包括利用语义注意力模块确定视频的运动特征和物体特征之间的第二关联性特征，并利用所述第二关联性特征对运动特征和物体特征进行融合。

在一些实施例中，可以将较强的特征作为语义注意力模块的查询，将较弱的作为语义注意力模块的记忆。

这里所说的较强的特征指的是单独作为视频特征对视频进行分类时准确率更高的特征，较弱的特征指的是单独作为视频特征对视频进行分类时准确率更低的特征。

例如，以本申请提供的物体特征、场景特征、运动特征为例，通过基于数据集FCVID的进行的视频分类的实验结果，本申请的发明人发现，利用视频的物体特征执行视频分类的准确率是71.13％，利用视频的运动特征执行视频分类的准确率是61.39％，利用视频的场景特征执行视频分类的准确率是39.49％。

因此，当利用语义注意力模块确定场景特征和运动特征之间的关联性时，运动特征是较强的特征，场景特征是较弱的特征。这时，可以将运动特征输入语义注意力模块作为查询Q，将场景特征输入语义注意力模块作为记忆M。

当利用语义注意力模块确定运动特征和物体特征之间的关联性时，物体特征是较强的特征，运动特征是较弱的特征。这时，可以将物体特征输入语义注意力模块作为查询Q，将运动特征输入语义注意力模块作为记忆M。

参考图3中示出的语义注意力模型，在步骤S204中，确定所述第一视频特征(场景特征)和所述第二视频特征(运动特征)之间的第一关联性可以包括：确定场景特征的第一注意力嵌入特征(embedding)M_a，以及确定所述第一注意力嵌入特征和所述第二视频特征之间的相关性作为所述第一视频特征和所述第二视频特征之间的第一关联性特征。

如前所述，场景特征的尺寸和运动特征的尺寸可以是不同的。例如，场景特征的尺寸可以是64×365，运动特征的尺寸可以是7×1024。为了计算这两个不同尺寸的特征之间的关联性，可以利用第一映射矩阵W_a将场景特征映射为能够与运动特征进行关联性计算的尺寸。

如图3所示，以作为记忆M的场景特征的尺寸为L×N、作为查询Q的运动特征的尺寸为T×K为例，可以利用第一映射矩阵W_a将场景特征映射为第一注意力嵌入特征M_a，即，M_a＝M·W_a，其中M_a的尺寸为L×K。

然后，可以利用下式确定第一注意力嵌入特征M_a和所述运动特征之间的相关性M_att，并可以将M_att作为场景特征和运动特征之间的第一关联性特征：

此外，如图3所示，还可以利用第二映射矩阵W_s将场景特征映射为第一语义嵌入特征M_s，即，M_s＝M·W_s，其中M_s的尺寸为L×K。

然后，可以根据下式，利用场景特征和运动特征之间的第一关联性特征M_att对表示场景特征的语义的第一语义嵌入特征M_s进行调整，以得到调整后的第一语义嵌入特征M_refined：

M_refined可以表示经过较强的运动特征指导得到的场景特征中的有效特征。

然后，如图3所示，可以通过残差连接对调整后的第一语义嵌入特征M_refined和运动特征进行融合，以确定所述第一融合视频特征。其中所述第一融合视频特征中融合有运动特征的信息以及经过运动特征指导后从场景特征中选择出的有效信息。也就是说，所述第一融合视频特征具有所述视频的场景语义和时序信息。

可以利用下式实现调整后的第一语义嵌入特征M_refined和运动特征的融合：

QM＝(1-λ)M_refined+λQ (5)

利用训练好的权重系数λ对调整后的第一语义嵌入特征M_refined和运动特征进行融合，能够实现当较弱的特征没有有用信息时，将较强的特征作为最终的融合视频特征的效果。

以上描述了利用图3中示出的语义注意力模块对场景特征和运动特征进行融合的过程。类似地，利用图3中示出的语义注意力模块还可以对运动特征和物体特征进行融合，以确定第二融合视频特征，其中所述第二融合视频特征具有所述视频的物体语义和时序信息。其中可以将物体特征作为语义注意力模块中的查询Q，将运动特征作为语义注意力模块中的记忆M。可以理解的是，可以分别设置用于融合场景特征和运动特征的第一语义注意力模块和用于融合运动特征和物体特征的第二语义注意力模块。其中第一语义注意力模块中使用的映射矩阵W_a、W_s和第二语义注意力模块中使用的映射矩阵W_a、W_s的参数可以是相同的，也可以是不同的。在此不再赘述利用图3中示出的过程融合运动特征和物体特征的具体过程。

返回参考图2，在步骤S204中，基于所述第一融合视频特征和所述第二融合视频特征可以确定所述视频的整体特征，其中所述整体特征具有所述视频的第一语义信息(场景语义)、第二语义信息(物体语义)以及时序信息。在一些实施例中，以所述至少一个融合视频特征包括上述第一融合视频特征和第二融合视频特征为例，可以拼接所述第一融合视频特征和所述第二融合视频特征，以确定用于所述视频的整体特征。

在步骤S206中，可以基于所述整体特征确定所述视频的分类结果。在一些实施例中，可以利用视频分类器对所述整体特征进行处理，以得到所述视频的分类结果。在一些实现方式中，可以利用全连接网络实现所述视频分类器。

利用本申请提供的视频分类方法，可以清楚地确定视频的不同类型的特征之间的关联性，并可以基于所确定的特征之间的关联性对不同类型的特征进行融合，从而使得融合后得到的视频特征中具有更多的对于分类有效信息，从而提高视频分类的准确性。

图4示出了根据本申请的实施例的一种视频分类模型的示意图。

如图4所示，可以从视频中提取至少一个关键帧401。利用训练好的VGG16网络对关键帧401进行处理可以得到视频的场景特征402。利用训练好的I3D网络对关键帧401进行处理可以得到视频的运动特征403。利用训练好的ResNet101对关键帧401进行处理可以得到视频的物体特征404。其中，场景特征402包括具有关键帧401的场景语义的第一特征序列，运动特征403包括具有关键帧401的时序信息的第二特征序列，以及物体特征404包括具有关键帧401的物体语义的第三特征序列。

可以利用自注意力模块410对场景特征402包括的第一特征序列、运动特征403包括的第二特征序列、物体特征404包括的第三特征序列进行帧间聚合，以捕获特征序列之间的时空关联。例如，可以利用自注意力模块410-1对第一特征序列进行帧间聚合、利用自注意力模块410-2对第二特征序列进行帧间聚合、利用自注意力模块410-3对第三特征序列进行帧间聚合。

自注意力模块410-1可以实现为第一自注意力参数α₁，α₁＝softmax(w₁W₁S^T)，其中S表示场景特征402，w₁W₁是用于自注意力模块410-1的训练好的权重参数。通过公式

能够实现对场景特征402包括的第一特征序列的帧间聚合。

自注意力模块410-2可以实现为第一自注意力参数α₂，α₂＝softmax(w₂W₂S^T)，其中S表示运动特征403，w₂W₂是用于自注意力模块410-2的训练好的权重参数。通过公式

能够实现对运动特征403包括的第二特征序列的帧间聚合。

自注意力模块410-3可以实现为第一自注意力参数α₃，α₃＝softmax(w₃W₃S^T)，其中S表示场景特征402，w₃W₃是用于自注意力模块410-1的训练好的权重参数。通过公式

能够实现对场景特征402包括的第一特征序列的帧间聚合。

利用自注意力模块410对场景特征402、运动特征403以及物体特征404分别进行处理能够得到第一视频特征405、第二视频特征406以及第三视频特征407。其中第一视频特征405具有所述视频的场景语义，第二视频特征406具有所述视频的时序信息以及第三视频特征407具有所述视频的物体语义。

利用语义注意力模块410可以对第一视频特征405、第二视频特征406以及第三视频特征407进行两两之间的融合。

如图4所示，可以利用语义注意力模块420-1融合第一视频特征405和第二视频特征406以确定第一融合视频特征408。其中，语义注意力模块420-1可以实现为执行图3中示出的过程，其中第一视频特征405被输入作为语义注意力模块420-1的记忆M，第二视频特征406被输入作为语义注意力模块420-1的查询Q。语义注意力模块420-1输出的第一融合视频特征408具有视频的场景语义和时序信息。

此外，还可以利用语义注意力模块420-2融合第二视频特征406和第三视频特征407以确定第二融合视频特征409。其中，语义注意力模块420-2可以实现为执行图3中示出的过程，其中第二视频特征406被输入作为语义注意力模块420-2的记忆M，第三视频特征407被输入作为语义注意力模块420-2的查询Q。语义注意力模块420-2输出的第二融合视频特征409具有视频的物体语义和时序信息。

基于利用第一融合视频特征408和第二融合视频特征409可以确定视频的整体特征。例如，可以通过拼接第一融合视频特征408和第二融合视频特征409确定所述视频的整体特征。可以利用下式表示所述视频的整体特征：

Z＝Concat[SAM(A,S),SAM(O,A)]

其中Z表示视频的整体特征，SAM表示语义注意力模块，Concat表示拼接操作，S表示对应于场景特征的第一视频特征，A表示对应于动作特征的第二视频特征，O表示对应于物体特征的第三视频特征。

最后，利用视频分类器430可以对所述整体特征进行处理以确定所述视频的分类结果。

通过机器学习的方法可以对图4中示出的视频分类模型中的自注意力模块410、语义注意力模块420以及分类器430的参数进行训练。其中，要训练的参数包括但不限于自注意力模块410-1中的权重参数w₁、W₁，自注意力模块410-2中的权重参数w₂、W₂、每个语义注意力模块中的映射矩阵W_s、W_a以及权重系数λ。

可以利用标注有真实分类结果的预设的训练集对图4中示出的视频分类模型进行训练。例如，可以利用图4中示出的视频分类模型对训练视频进行处理，并得到用于训练视频的训练分类结果。通过计算针对训练视频的训练分类结果和真实分类结果之间的损失可以对视频分类模型中的参数进行优化。在一些实施例中，可以采用分类交叉熵函数作为训练分类结果和真实分类结果之间的损失函数。通过不断迭代更新模型中的参数，直到损失函数收敛时，训练过程完成。

在训练过程中可以采用Adam优化器进行优化，其中β₁＝0.9，β₂＝0.999。初始学习率为0.0002，采用的mini-batch size为128，为了加速收敛，将所有参数的梯度的l2归一化值设置了3.0的上界。

图5示出了根据本申请的实施例的基于人工智能的视频分类装置的示意性的框图。如图5所示，视频分类装置500可以包括视频特征确定单元510、整体特征确定单元520以及分类单元530。

视频特征确定单元510可以配置成确定所述视频的至少两种类型的视频特征，其中至少一种类型的视频特征具有语义信息，至少另一种类型的视频特征具有时序信息。

在一些实施例中，视频特征确定单元510还可以包括自注意力模块。

自注意力模块可以用于对上述物体特征O、场景特征S以及运动特征A中的多个序列的特征进行帧间聚合，从而捕捉各帧之间的时空关联。例如，可以利用自注意力参数α对前述的物体特征中的特征序列、场景特征中的特征序列以及运动特征中的特征序列进行线性组合以形成视频特征。其中针对物体特征、场景特征以及运动特征可以使用相同或不同的自注意力参数。自注意力参数α可以是向量、矩阵或任何适于运算的其他形式。

可以利用上述公式(1)表示特征序列之间的帧间聚合过程：

其中V表示物体特征O、场景特征S以及运动特征A中的一种，α表示用于特征V的自注意力参数，其尺寸为P×L，其中α＝[a¹,a²,...,a^P]，并且α可以通过上述公式(2)得到：

其中

和/>

可以是尺寸为/>

的第一权重矩阵，/>

可以是尺寸为

整体特征确定单元520可以配置成根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征。

如图5所示，整体特征确定单元520可以包括语义注意力模块521以及拼接模块522。其中，语义注意力模块521可以配置成实现图3中示出的过程。

在一些实施例中，可以利用语义注意力模块521确定视频的时序信息和语义信息之间的关联性，并利用所述关联性融合所述至少两种类型的视频特征。

为了确定视频中语义信息和时序信息之间的相关性，语义注意力模块521可以用于确定视频的场景特征和运动特征之间的第一关联性特征，并利用所述第一关联性特征对场景特征和运动特征进行融合。此外，语义注意力模块521还可以用于确定视频的运动特征和物体特征之间的第二关联性特征，并利用所述第二关联性特征对运动特征和物体特征进行融合。

如图3所示，语义注意力模块可以用于确定所述第一视频特征(场景特征)和所述第二视频特征(运动特征)之间的第一关联性可以包括：确定场景特征的第一注意力嵌入特征(embedding)M_a，以及确定所述第一注意力嵌入特征和所述第二视频特征之间的相关性作为所述第一视频特征和所述第二视频特征之间的第一关联性特征。

然后，可以利用上述公式(3)确定第一注意力嵌入特征M_a和所述运动特征之间的相关性M_att，并可以将M_att作为场景特征和运动特征之间的第一关联性特征：

然后，可以根据上述公式(4)，利用场景特征和运动特征之间的第一关联性特征M_att对表示场景特征的语义的第一语义嵌入特征M_s进行调整，以得到调整后的第一语义嵌入特征M_refined：

可以利用上述公式(5)实现调整后的第一语义嵌入特征M_refined和运动特征的融合：

以上描述了利用语义注意力模块对场景特征和运动特征进行融合的过程。类似地，利用语义注意力模块还可以对运动特征和物体特征进行融合，以确定第二融合视频特征，其中所述第二融合视频特征具有所述视频的物体语义和时序信息。其中可以将物体特征作为语义注意力模块中的查询Q，将运动特征作为语义注意力模块中的记忆M。可以理解的是，可以分别设置用于融合场景特征和运动特征的第一语义注意力模块和用于融合运动特征和物体特征的第二语义注意力模块。其中第一语义注意力模块中使用的映射矩阵W_a、W_s和第二语义注意力模块中使用的映射矩阵W_a、W_s的参数可以是相同的，也可以是不同的。在此不再赘述。

拼接模块522可以配置成基于所述第一融合视频特征和所述第二融合视频特征可以确定所述视频的整体特征。在一些实施例中，以所述至少一个融合视频特征包括上述第一融合视频特征和第二融合视频特征为例，可以拼接所述第一融合视频特征和所述第二融合视频特征，以确定用于所述视频的整体特征。

分类单元530可以配置成基于所述整体特征确定所述视频的分类结果。在一些实施例中，可以利用视频分类器对所述整体特征进行处理，以得到所述视频的分类结果。在一些实现方式中，可以利用全连接网络实现所述视频分类器。

利用本申请提供的视频分类装置，可以清楚地确定视频的不同类型的特征之间的关联性，并可以基于所确定的特征之间的关联性对不同类型的特征进行融合，从而使得融合后得到的视频特征中具有更多的对于分类有效信息，从而提高视频分类的准确性。

图6A和图6B示出了根据本申请的实施例的视频分类的应用场景。如图6A所示，在图6A涉及的视频中，利用动作特征仅能识别出视频涉及美式足球。在考虑了视频中的场景语义的情况下，可以分别识别出上图视频涉及的是业余美式足球，下图视频涉及的是职业美式足球。

在图6B涉及的视频中，如果仅利用视频的动作特征进行识别，能够识别出视频涉及羽毛球运动。然而，如果同时考虑视频中的场景信息，可能会输出错误的分类结果，将视频分类为篮球运动。在这种情况下，利用本申请提供的语义注意力矩阵，当场景特征中包含的有用信息较少时，可以不考虑场景特征中具有的场景语义，从而提高视频分类的准确率。

此外，根据本申请实施例的方法或装置也可以借助于图7所示的计算设备的架构来实现。图7示出了该计算设备的架构。如图7所示，计算设备700可以包括总线710、一个或至少两个CPU 720、只读存储器(ROM)730、随机存取存储器(RAM)740、连接到网络的通信端口750、输入/输出组件760、硬盘770等。计算设备700中的存储设备，例如ROM 730或硬盘770可以存储本申请提供的用于在视频中对目标进行检测的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备700还可以包括用户界面780。当然，图7所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图7示出的计算设备中的一个或至少两个组件。

本申请的实施例也可以被实现为计算机可读存储介质。根据本申请实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本申请实施例的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

本领域技术人员能够理解，本申请所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

此外，虽然本申请对根据本申请的实施例的系统中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述系统和方法的不同方面可以使用不同单元。

此外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种基于人工智能的视频分类方法，包括：

确定所述视频的至少两种类型的视频特征，其中至少一种类型的视频特征具有语义信息，至少另一种类型的视频特征具有时序信息；

根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征；

基于所述整体特征确定所述视频的分类结果，

其中，确定所述视频的至少两种类型的视频特征包括：

提取所述视频的至少一个关键帧；

利用所述至少一个关键帧确定所述视频的第一视频特征、第二视频特征以及第三视频特征，其中所述第一视频特征具有所述视频的第一语义信息，所述第三视频特征具有所述视频的第二语义信息，所述第二视频特征具有所述视频的时序信息，并且

其中，根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征包括：

确定所述第一视频特征和所述第二视频特征之间的第一关联性，并基于所述第一关联性确定第一融合视频特征，其中所述第一融合视频特征具有所述视频的第一语义信息和时序信息；

确定所述第二视频特征和所述第三视频特征之间的第二关联性，并基于所述第二关联性确定第二融合视频特征，其中所述第二融合视频特征具有所述视频的第二语义信息和时序信息；

基于所述第一融合视频特征和所述第二融合视频特征确定所述视频的整体特征，其中所述整体特征具有所述视频的第一语义信息、第二语义信息以及时序信息。

2.如权利要求1所述的视频分类方法，其中，确定所述第一视频特征和所述第二视频特征之间的第一关联性包括：

确定所述第一视频特征的第一注意力嵌入特征；

确定所述第一注意力嵌入特征和所述第二视频特征之间的相关性作为所述第一视频特征和所述第二视频特征之间的第一关联性特征。

3.如权利要求2所述的视频分类方法，其中，基于所述第一关联性确定第一融合视频特征包括：

确定所述第一视频特征的第一语义嵌入特征；

利用所述第一关联性特征对所述第一语义嵌入特征进行调整，以得到调整后的第一语义嵌入特征；

通过残差连接对调整后的第一语义嵌入特征和所述第二视频特征进行融合，以确定所述第一融合视频特征。

4.如权利要求1-3任一项所述的视频分类方法，其中，利用所述至少一个关键帧确定所述视频的第一视频特征、第二视频特征以及第三视频特征包括：

利用第一网络模型对所述至少一个关键帧进行处理以得到对应于每个关键帧的第一特征序列，对所述第一特征序列进行帧间聚合以得到所述第一视频特征；

利用第二网络模型对所述至少一个关键帧进行处理以得到对应于所述视频的第二特征序列，对所述第二特征序列进行帧间聚合以得到所述第二视频特征；

利用第三网络模型对所述至少一个关键帧进行处理以得到对应于每个关键帧的第三特征序列，对所述第三特征序列进行帧间聚合以得到所述第一视频特征。

5.如权利要求4所述的视频分类方法，其中，对所述第一特征序列进行帧间聚合以得到所述第一视频特征包括：

利用第一自注意力参数对所述第一特征序列进行调整，以得到所述第一视频特征。

6.如权利要求4所述的视频分类方法，其中，

所述第一网络模型是VGG16网络，所述第一视频特征是场景特征，所述场景特征具有所述视频的场景语义；

所述第二网络模型是I3D网络，所述第二视频特征是运动特征，所述运动特征具有所述视频的时序信息；以及

所述第三网络模型是ResNET101网络，所述第三视频特征是物体特征，所述物体特征具有所述视频的物体语义。

7.如权利要求1所述的视频分类方法，其中，基于所述第一融合视频特征和所述第二融合视频特征确定所述视频的整体特征包括：

拼接所述第一融合视频特征和所述第二融合视频特征，以确定所述整体特征。

8.如权利要求1所述的视频分类方法，其中，基于所述整体特征确定所述视频的分类结果包括：

利用视频分类器对所述整体特征进行处理，以得到所述视频的分类结果。

9.一种基于人工智能的视频分类装置，包括：

视频特征确定单元，配置成确定所述视频的至少两种类型的视频特征，其中至少一种类型的视频特征具有语义信息，至少另一种类型的视频特征具有时序信息；

整体特征确定单元，配置成根据所述视频的时序信息和语义信息之间的关联性融合所述至少两种类型的特征，以确定所述视频的整体特征；

分类单元，配置成基于所述整体特征确定所述视频的分类结果，

其中，所述视频特征确定单元还配置成：提取所述视频的至少一个关键帧；利用所述至少一个关键帧确定所述视频的第一视频特征、第二视频特征以及第三视频特征，其中所述第一视频特征具有所述视频的第一语义信息，所述第三视频特征具有所述视频的第二语义信息，所述第二视频特征具有所述视频的时序信息，并且

其中，所述整体特征确定单元还配置成确定所述第一视频特征和所述第二视频特征之间的第一关联性，并基于所述第一关联性确定第一融合视频特征，其中所述第一融合视频特征具有所述视频的第一语义信息和时序信息；确定所述第二视频特征和所述第三视频特征之间的第二关联性，并基于所述第二关联性确定第二融合视频特征，其中所述第二融合视频特征具有所述视频的第二语义信息和时序信息；基于所述第一融合视频特征和所述第二融合视频特征确定所述视频的整体特征，其中所述整体特征具有所述视频的第一语义信息、第二语义信息以及时序信息。

10.一种视频分类设备，所述设备包括存储器和处理器，其中所述存储器中存有指令，当利用所述处理器执行所述指令时，使得所述处理器执行如权利要求1-8中任一项所述的视频分类方法。

11.如权利要求10所述的视频分类设备，还包括：

视频采集部件，用于采集待分类的所述视频。

12.如权利要求10或11所述的视频分类设备，还包括：

输出部件，用于输出所述视频的分类结果。

13.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-8中任一项所述的视频分类方法。