CN113515669A

CN113515669A - 基于人工智能的数据处理方法和相关设备

Info

Publication number: CN113515669A
Application number: CN202110004550.0A
Authority: CN
Inventors: 常德丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-10-19

Abstract

本申请实施例公开了一种基于人工智能的数据处理方法和相关设备，其中方法包括：获取多个待处理视频；将所述多个待处理视频输入特征向量提取模型，以得到每个待处理视频的视频特征向量，其中，所述特征向量提取模型是利用多个样本视频的图像信息以及对应的特征描述信息对原始模型进行训练得到的，所述特征描述信息包括用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息；根据所述每个待处理视频的视频特征向量，将所述多个待处理视频划分为至少一个视频类簇。采用本申请，可以减少对提取视频特征向量的条件限制，提高视频的特征向量对视频语义的表达能力和准确度。

Description

基于人工智能的数据处理方法和相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于人工智能的数据处理方法和相关设备。

背景技术

当前短视频的迅速发展积累的大量的视频数据，给视频内容的理解和分析带来了不小的挑战。常用的方法是通过提取视频的特征向量，以对视频进行更精准和多维度的分析，该方法应用在用户画像、召回、排序等推荐系统环节，从而促进产品形态及功能的改进。

通常，视频的特征向量的提取是通过使用用户行为向量或者理解视频的标题特征进行，这种情况下需要积累用户行为数据或者视频具备标题才能得到，而对于视频来说，这样提取视频的特征向量受到的条件限制比较多，准确度不高。

申请内容

本申请实施例提供一种基于人工智能的数据处理方法和相关设备，可以减少对提取视频特征向量的条件限制，提高视频的特征向量对视频语义的表达能力和准确度。

本申请实施例一方面提供了一种基于人工智能的数据处理方法，包括：

获取多个待处理视频；

将所述多个待处理视频输入特征向量提取模型，以得到每个待处理视频的视频特征向量，其中，所述特征向量提取模型是利用多个样本视频的图像信息以及对应的特征描述信息对原始模型进行训练得到的，所述特征描述信息包括用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络用于学习所述图像信息以及所述第一分类信息，所述第二分支网络用于辅助所述第一分支网络学习所述第二分类信息；

根据所述每个待处理视频的视频特征向量，将所述多个待处理视频划分为至少一个视频类簇。

本申请实施例一方面提供了一种基于人工智能的数据处理装置，包括：

获取模块，用于获取多个待处理视频；

输入模块，用于将所述多个待处理视频输入特征向量提取模型，以得到每个待处理视频的视频特征向量，其中，所述特征向量提取模型是利用多个样本视频的图像信息以及对应的特征描述信息对原始模型进行训练得到的，所述特征描述信息包括用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络用于学习所述图像信息以及所述第一分类信息，所述第二分支网络用于辅助所述第一分支网络学习所述第二分类信息；

处理模块，用于根据所述每个待处理视频的视频特征向量，将所述多个待处理视频划分为至少一个视频类簇。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

在本申请实施例中，通过使用特征向量提取模型，对输入的多个待处理视频进行处理，得到多个待处理视频对应的视频特征向量，然后根据多个视频特征向量对画面相似的视频进行聚合处理，可以提升聚合结果的准确度。同时采用样本视频的图像信息和样本视频的特征描述信息来训练模型，引入了用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息，使得训练后的模型具有理解视频高级语义的能力，从而增强了视频的特征向量的表达能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理系统的架构示意图；

图2是本申请实施例提供的一种基于人工智能的数据处理方法的流程示意图；

图3是本申请实施例提供的一种视频展示界面的示意图；

图4是本申请实施例提供的另一种基于人工智能的数据处理方法的流程示意图；

图5是本申请实施例提供的又一种基于人工智能的数据处理方法的流程示意图；

图6是本申请实施例提供的一种标签依赖关系图结构的示意图；

图7a是本申请实施例提供的一种模型结构示意图；

图7b是本申请实施例提供的一种视频特征向量聚合效果的示意图；

图8是本申请实施例提供的一种基于人工智能的数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision，CV)和机器学习((Machine Learning，ML)。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉、机器学习等技术，具体通过如下实施例进行说明：

基于样本视频的图像信息以及对应的特征描述信息训练得到的特征向量提取模型，对输入视频进行特征向量的提取，由于特征向量提取模型学习到视频的高级语义特征，可以使得该视频特征向量对视频内容表达的准确度得到提升，同时考虑了视觉一致性，使得视频聚合的效果得到提高。

请参见图1，是本申请实施例提供的一种数据处理系统的架构图。如图1所示，该数据处理系统的架构可以包括服务器100以及多个终端设备，该多个终端设备具体可以包括终端设备1、终端设备2、...、终端设备n，每个终端设备可以与上述服务器100进行网络连接，网络连接可以包括有线连接或无线连接，以便于每个终端设备可以通过该网络连接与服务器100进行数据交互，以及服务器100可以接收到来自于每个终端设备的业务数据。

其中，每个终端设备可以用于向用户展示业务数据，该业务数据具体可以包括图片数据或者视频数据等多媒体数据，每个终端设备还可以用于存储该业务数据。每个终端设备均可以集成安装有目标应用，该目标应用具体可以是视频分享应用或者社交应用，服务器100可以对目标应用产生的业务数据进行存储，并与各个终端设备进行数据交互，例如用户通过目标应用可以上传视频数据给服务器100，也可以从服务器100下载视频数据。

本申请实施例中，以业务数据是视频为例，服务器100可以从各个终端设备上的目标应用产生的视频中筛选出相似的视频，并通过各个终端设备向用户展示。具体可以包括：服务器100上运行有特征向量提取模型，这个特征向量提取模型用来提取视频特征向量，服务器100利用特征向量提取模型对这些视频进行处理，得到各个视频的视频特征向量，根据该视频特征向量可以对视频进行聚类，从而筛选出相似的视频。此外，特征向量提取模型是基于样本视频的图像内容(即图像信息)、对应的特征描述信息(即第一分类信息和第二分类信息)等综合信息训练得到的，具体是利用样本视频的图像内容以及第一分类信息对TSM网络进行训练，利用第二分类信息对GCN进行训练，其中，样本视频的图像内容的训练使得特征向量提取模型除了可以学习到帧图片特征，还可以学习到运动信息，第一分类信息和第二分类信息分别用于描述视频的粗粒度语义特征和细粒度语义特征，使得特征向量提取模型学习到高级语义信息，保证提取到的特征向量可以更加准确、完整的表示视频的特征，进而提高聚类准确度。

本申请实施例中的终端设备可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等智能终端设备，但并不局限于此。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于上述服务器100。其中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

进一步地，为便于理解，请参见图2，图2是本申请实施例基于图1所示的数据处理系统提供的一种基于人工智能的数据处理方法的流程示意图。其中，该基于人工智能的数据处理方法至少可以包括以下步骤S201-步骤S203：

S201，获取多个待处理视频。

在一种可能的实施例中，这里获取的多个待处理视频是目标应用的视频库中的视频，其中，目标应用可以是视频类应用，也可以是社交类应用，还可以是任意可处理视频的应用程序，本实施例对此不做限制。视频库中的视频可以是由使用该目标应用的多个用户上传，通过后台存储到该目标应用对应的视频库中，也可以是预先存储于后台服务器的视频，本实施例对具体的获取方式也不做限制。此外，对于待处理视频，本申请实施例主要对其中所包含的连续帧图片内容进行处理，因此获取到的待处理视频可以不包括其他内容信息，例如其所属的分类、携带的多标签信息或者音频信息。

S202，将所述多个待处理视频输入特征向量提取模型，以得到每个待处理视频的视频特征向量，其中，所述特征向量提取模型是利用多个样本视频的图像信息以及对应的特征描述信息对原始模型进行训练得到的，所述特征描述信息包括用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息。

在一种可能的实施例中，多个待处理视频输入特征向量提取模型之前需要经过预处理，例如帧采样(即抽帧)处理后，还要将视频采样得到的图像的格式处理为特征向量提取模型需要的格式等，然后再将预处理后得到关键帧图片输入该特征向量提取模型进行处理，且由于该特征向量提取模型是利用多个样本视频的图像信息以及对应的特征描述信息对原始模型进行训练得到的，使得特征向量提取模型在提取传统帧图像特征的基础上还具备理解视频高级语义信息的能力，因此每个待处理视频的视频特征向量能够比较准确的表达视频内容。

在一种可能的实施例中，样本视频对应的特征描述信息包括用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息。其中，粗粒度语义特征相对于细粒度语义特征对视频的侧重描述有所不同，更具体的，视频分类将基于视频的语义内容如人类行为和复杂事件等，分为多个相互排斥的类别，这些相互排斥的类别可以视为第一分类信息，第一分类信息对视频的描述是粗粒度的，也就是一个样本视频的第一分类信息包括单个标签。相对而言，第二分类信息包括多个标签，这是一种更加具体，更多维度的分类体系，通过第二分类信息可以对视频进行更细粒度的描述。举例来说，一个弹钢琴的视频，对于分类(即第一分类信息)而言只是西洋乐器，但是第二分类信息的标签可以是钢琴，室内，女这些更细粒度的特征，并且可以共存，再比如，一个旅游记录视频，对应的标签可以有天空、建筑、人、车、树等第二分类信息。此外，根据不同的分析维度，所携带的特征描述信息也可以有所不同，例如从人类行为角度，一个旅游视频的第二分类信息可以包括游泳或者跑步等。总的来说，第一分类信息是对视频较为概括的且具有互斥性的粗粒度语义特征，第二分类信息包括的标签则是具体表示的视频内容且具有共存性的细粒度语义特征，对于第一分类信息和第二分类信息都可以用标签来表示。

在一种可能的实施例中，原始模型中包括的第一分支网络和第二分支网络，其中，第一分支网络用于学习前述样本视频的图像信息以及第一分类信息，第二分支网络用于辅助第一分支网络学习样本视频的对应的特征描述信息中所包含的第二分类信息。通过使用端到端的训练方式对原始模型进行训练，得到训练后的原始模型，其中包括训练后的第一分支网络和训练后的第二分支网络，最终可利用训练后的第一分支网络作为特征向量提取模型，对待处理视频进行处理，以得到待处理视频的视频特征向量。这里的第一分支网络包括可嵌入二维卷积神经网络的时间位移模块(Temporal Shift Module，TSM)，TSM和二维卷积神经网络结合构成的TSM网络即为第一分支网络，该第一分支网络能将视频的表观特征和时序特征进行更好的融合，使用少量的资源就可轻松地达到与三维卷积神经网络效果相当的视频理解能力。即对视频图像信息进行时空建模，实现了视频所包含的信息在时间上的交互，提升了对时间序列的特征提取能力。可选的，该第一分支网络还可以是其他能够提取图像信息的神经网络，例如三维卷积神经网络。

S203，根据所述每个待处理视频的视频特征向量，将所述多个待处理视频划分为至少一个视频类簇。

在一种可能的实施例中，在对视频划分视频类簇时，主要是利用待处理视频的视频特征向量，由于借鉴了人脸识别的思想，也就是将每一个待处理视频都视为不同类别，就像每个人的面孔是不同的，因此每个视频的视频特征向量也都是独一无二的，但需要注意的是，虽然视频特征向量各有特点，但也存在相似之处。因此，通过对视频特征向量进行度量，例如采用距离度量可以将相似类别的视频聚合在一起，具体可以是计算任意两个待处理视频的视频特征向量之间的距离，如果距离小于或等于预设距离阈值(例如0.1)，则可以将这两个视频划分到一个视频类簇中，从而得到将该多个待处理视频对应的至少一个视频类簇。

进一步的，可以在待处理视频划分得到至少一个视频类簇之后，向终端设备发送至少一个视频类簇，以使得所述终端设备在用户界面中展示每个视频类簇包括的视频。其中，视频类簇包括的视频之间具有画面相似性。具体的产品表现形式在此不做限定，可以如图3所示。如图3所示的视频1、视频2、…、视频m等都是具有画面、视频语义相似性的一类视频，用户可以选定其中的任意一个视频并浏览具体内容，例如，用户通过点击视频1，终端设备会将该视频1的动态画面展示给用户，也就是播放视频1，或者用户通过滑动选定视频2，则终端设备会将该视频2的动态画面展示给用户，具体的选定方式在此不做限定。

在一种可能的实施例中，该方法可以由服务器(如上述服务器100)执行。其中，通过服务器对待处理视频进行处理，得到处理结果后再向终端设备发送至少一个视频类簇，以使得终端设备在用户界面中展示每个视频类簇包括的视频。

在一种可能的实施例中，该方法也可以由某个终端设备执行(如图1所示的终端设备1)。其中，终端设备1对视频进行处理后得到视频聚合结果(即至少一类视频类簇)，然后将其在用户界面展示出来，可选的，终端设备1还可以向其他终端设备发送视频聚合结果，以使得其他终端设备(如图1所示的终端设备2)在用户界面中展示每个视频类簇包括的视频。

作为一个扩展性的例子，将特征提取模型使用到目标应用中，可以向用户推送或者展示具有画面相似性的视频。由于视频特征向量所指示的信息丰富，也可以根据视频特征向量预测该视频的特征描述信息，即所属的单标签类别或者所应该携带的多标签类别，并根据这些信息实现其他功能，例如自动对视频进行分类或者校正用户对视频的分类等；还可以在整个模型中加入对用户兴趣的分析，有目标地展示与用户兴趣匹配的视频类簇。

综上所述，本申请实施例至少具有如下优点：

通过特征向量提取模型提取待处理视频的视频特征向量，由于该视频特征向量所指示的信息能够帮助理解视频的内容，所以根据输出的视频特征向量能够将待处理视频进行比较准确地聚合视频，最终得到至少一个视频类簇，也就是具备画面相似性的视频集合，然后将其展示到用户界面，以使得推送更智能化；此外，根据每个视频具有的视觉信息就可的获取特征向量，而不需要其他多余的条件，使得特征向量的提取更具有普适性。

请参见图4，图4是本申请实施例基于图1所示的数据处理系统提供的另一种基于人工智能的数据处理方法的流程示意图。其中，该基于人工智能的数据处理方法至少可以包括以下步骤：

S401，获取训练样本集，所述训练样本集包括多个样本视频。

在人工智能领域，例如机器学习任务中，样本集具有非常重要的作用，特别是在神经网络中，通过使用样本集对模型进行训练，可以匹配重要的参数来建立初始的模型，然后在训练的过程中不断对参数进行优化，使得最终训练出来的模型具备良好的学习能力。本申请中，训练样本集也有类似的作用，相应的，训练样本集中有多个样本视频，通过训练样本集可以训练出合适的模型实现一些功能。该多个样本视频可以从目标应用对应的视频数据库中选取，也可以从一些公开的视频资源库包括的视频中选取，在此不做限制，具体的获取方式以及样本视频的来源在此不做限制。其中，目标应用可以是视频类应用，也可以是社交类应用，还可以是任意可处理视频的应用程序，本实施例对此不做限制。需要说明的是，获取到的样本视频可以包括不同主题或分类的视频，例如舞蹈类、乐器类、娱乐类、风景类、游戏类等。

S402，根据所述多个样本视频的图像信息以及对应的特征描述信息，对所述原始模型进行训练。

在一种可能的实施例中，样本视频的图像信息是反映样本视频的关键内容，通过图像信息训练原始模型，能够让原始视频学习到图像内容特征，也就是，原始模型提取到的视频特征向量中包含图像内容特征，是可以表示该样本视频的内容的，运用该视频特征向量可以执行其他相关处理。此外，获取到的训练样本集中的每个样本视频都有对应的特征描述信息，例如单个标签作为第一分类信息，多个标签作为第二分类信息，第一分类信息包括单个标签，具有互斥性，第二分类信息所包括的多个标签则是可以共存的，例如，一个弹钢琴视频，对应的第一分类信息是西洋乐器，和民族乐器为互斥的标签，第二分类信息则可以有钢琴，人，室内等标签，这些标签可以同时存在，再如，一个旅游记录视频，对应的第二分类信息所包括的标签可以有天空、建筑、人、车、树等。需要说明的是，作为一种实施方式，这些样本视频对应的特征描述信息可以是机器标记的，例如可对样本视频进行图像识别，根据所识别的内容确定样本视频对应的至少一个标签，由此得到样本视频对应的特征描述信息。作为另一种实施方式，这些样本视频对应的特征描述信息也可以是人工标记的，并且根据不同的分析维度，所携带的标签也可以有所不同，例如从人类行为角度，标签可以有游泳，跑步等，而总的来说，第一分类信息中的单标签表示的是视频粗粒度的特征，第二分类信息中的多个标签则具体表示的是视频细粒度的特征。采用全监督的方式，将所有的样本视频和第二分类信息作为训练数据输入原始模型，进行训练，可以得到优化后的模型，其中，原始模型包括第一分支网络和第二分支网络。

具体而言，这个原始模型包括的第一分支网络和第二分支网络具有不同的功能，也就是如前述所指出的第一分支网络用于学习所述图像信息以及第一分类信息，第二分支网络用于辅助第一分支网络学习第二分类信息。其中，第一分支网络包括时间位移模块(Temporal Shift Module，TSM)，具体的，TSM和二维卷积神经网络(2D ConvolutionalNeural Network，2D CNN)结合为第一分支网络，第一分支网络可称为TSM网络。作为视频理解的技术之一，它能够替代三维卷积神经网络(3D Convolutional Neural Network，3DCNN)，轻松地达到与3D CNN效果相当的视频理解能力。具体来说，训练样本集中的任一视频A可以采用如下表示：

其中，N为样本视频批大小batch_size，C为通道数，T为时间维度，H和W为空间分辨率。但是2D卷积神经网络在时间维度上独立运行，不能够对时间进行建模，相对来说，3D卷积神经网络更适用于时空特征的学习，可以更好的将视频的表观特征和时序特征融合，但是它也有运算量大的缺点，TSM网络通过引入时间位移模块解决了这一问题，即将时间位移模块嵌入2D CNN，在模拟3D卷积神经网络进行建模的同时，不添加任何额外的计算量和参数达到和3D卷积神经网络同样的效果。在本申请实施例中，针对多个待处理的帧图片，将相邻帧之间的信道进行交替拼接，使得相邻帧包含对方信息，从而可以获取到时间序列特征，在帧图像特征提取的基础上增加对运动信息的捕捉。

更进一步地，由于TSM网络将卷积操作分解为位移和权值叠加两个过程，例如对于一个视频张量T×C×H×W，TSM沿着时间维度向前或向后移动一部分通道数(即位移)，时间维度上的对应帧信息不是原本的，也就是说每个时间维度的张量C×H×W在通道维度上涵盖了相邻帧的信息，如时间维度上移动+1，则t＝2对应的帧信息是t＝1的帧信息，时间维度的感受野达到3，再用乘法从时间维度累加到通道维度，即对每个时间维度的张量C×H×W用权重共享处理后得到最终的结果(即权值叠加)。

由于位移是常规地址偏移指针操作，基本不消耗计算资源，这样大大减少了运算量，使得该TSM网络十分容易达到性能的平衡，且由于TSM模块引入时间维度上的上下文交互，也提高了时间维度上的建模能力，使得模型能够学习到时间序列特征。

此外，第二分支网络可以是图卷积神经网络(Graph Convolutional Network，GCN)，主要负责辅助第一分支网络(即TSM网络)进行训练。一般而言，在视频中同时出现的物体具有相关性，对于视频中的多个物体对应的各种标签之间的关系需要建立一个合适的模型，这样可以利用第二分类信息所包括的标签提高视频的聚类的准确性，但是如果把第二分类信息所包括的标签看作每个独立的节点，那么同一个视频中出现的标签之间的关系可以用图结构表示，它是一种不规则的数据结构，不属于欧式空间的数据，采用一般的卷积神经网络无法计算，而图卷积神经网络却可以处理图数据，所以第二分支网络采用图卷积神经网络从这些图数据中提取特征，从而实现各种功能，例如节点分类、图分类、边预测等。

S403，将训练后的第一分支网络作为所述特征向量提取模型。

在一种可能的实施例中，由于第二分支网络只是作为第一分支网络辅助训练结构，它训练的目的是为了让第一分支网络，即TSM网络具备更好的视频语义理解能力，所以在训练之后，只需利用TSM网络对输入的视频进行处理就可以得到特征向量，而训练后的第一分支网络也可以叫做特征向量提取模型，主要的作用就是获取输入视频的特征向量，而这个特征向量不仅可以表达视频的图像基本信息，还可以表达其他更多的信息，例如粗粒度的视频语义信息、细粒度的视频语义信息等高级语义信息。

综上所述，本申请实施例至少具有如下优点：

采样监督学习的方式，通过已知的样本视频(包括图像信息和特征描述信息)来训练得到一个最优的原始模型，使得该原始模型具有预知能力，其中，原始模型中的第二分支网络辅助第一分支网络进行训练学习第二分类信息，且第一分支网络采用TSM网络增加了对运动信息(或时序信息)的捕捉，即通过对时间维度的特征充分建模，这些功能结合让模型学习到视频的高级语义，使得特征向量表达的信息更丰富，更准确；此外，在相同的资源条件下，利用特征向量提取模型能够处理更多输入视频，提高获取视频特征向量的效率。

请参见图5，图5是本申请实施例基于图1所示的数据处理系统提供的又一种基于人工智能的数据处理方法的流程示意图。该流程可以包括：

S501，获取训练样本集，所述训练样本集包括多个样本视频。

此步骤的具体实现方式可参见上述图4对应实施例中的S401，这里不再进行赘述。

S502，将所述多个样本视频中的每个样本视频的图像信息输入所述第一分支网络，以得到所述每个样本视频的视频特征向量。

在一个可能的实施例中，第一分支网络可以是TSM网络，它包括嵌入二维卷积神经网络2D CNN的TSM模块，这样的第一分支网络对样本视频的语义理解能力比3D CNN更高效。在训练时，样本视频输入第一分支网络是以每个样本视频为单位的，具体的，是将每个样本所包含的图像信息输入第一分支网络，输出的是每个样本视频对应的视频特征向量，这个视频特征向量可以表示图像内容特征。例如有10个样本视频，分别为{V₁，V₂...V₁₀}，先输入V₁得到视频特征向量D₁，然后再输入V₂得到视频特征向量D₂，......以此类推，可以得到对应的10个特征向量。

S503，将所述每个样本视频的第二分类信息包括的多个标签输入所述第二分支网络，以得到所述每个样本视频的标签特征向量。

在一个可能的实施例中，第二分支网络可以是图卷积神经网络GCN，利用每个样本视频的第二分类信息包括的多个标签输入该第二分支网络，可以得到对应的标签特征向量。具体的，可以通过基于GCN的映射函数从第二分类信息包括标签对应的特征学习到相互依赖的目标分类器，这个目标分类器用于指示各标签特征向量之间的依赖关系。需要说明的是，这里输入的第二分类信息包括的多个标和第一分支网络的样本视频是对应的，例如，第一分支网络当前输入的样本视频是弹钢琴的视频，标签包括钢琴、女、室内这三个，那么这三个标签(钢琴、女、室内)就会用到第二分支网络中，得到对应的标签特征向量。由于这三个标签具有相关性，可以用来作为训练数据，具体以何种数学表达方式输入第二分支网络在此不做限制。

在一个可能的实施例中，对训练样本集的第二分类信息包括的多个标签的具体处理以及利用第二分类信息包括的多个标签输入第二分支网络的过程可以包括：获取多个样本视频的第二分类信息包括的所有标签；根据所有标签和每个样本视频的第二分类信息包括的多个标签生成标签依赖关系矩阵，该标签依赖关系矩阵包括任意两个标签之间的关联系数；将每个样本视频的第二分类信息包括的多个标签对应的标签特征矩阵和标签依赖关系矩阵输入第二分支网络，以得到每个样本视频的标签特征向量。

具体而言，在输入第二分支网络GCN之前需要构建多个样本视频的第二分类信息包括的标签之间的依赖关系，也可以叫做标签之间的相关性，所以首先需要获取训练样本集的第二分类信息包括的所有标签，这些标签都是不重复且能共存的标签，代表不同的内容，随后根据每个视频所包含的多个标签来构建这些标签之间的依赖关系图结构。举例来说，如果有3个样本视频，分别为{V₁，V₂，V₃}，统计第二分类信息包括的所有标签包括人、领带、滑雪、羽毛球、羽毛球拍，而样本视频V₁中的标签包括人、领带；V₂中的标签包括人、滑雪；V₃中的标签包括人、羽毛球、羽毛球拍。也就是第二分类信息包括的多个标签和每个样本视频对应，那么具体的依赖关系图结构就可以如图6所示，依赖关系可以用图示的箭头表示，如“羽毛球”指向“人”就是说出现“羽毛球”这个标签时，一定会有“人”这个标签出现，但若有“人”这个标签，则不一定会出现“羽毛球”这个标签。可选的，该图结构在数学上的表达具体可以用标签依赖关系矩阵实现。具体的，首先通过统计任意两个标签同时出现的次数构建邻接矩阵，因此这个邻接矩阵是N×N维的矩阵，其中，N代表样本视频的所有标签，然后统计每个标签出现的总次数(也就是该标签对应的样本视频数量)，接着联合这个邻接矩阵中各数值和总次数计算各条件概率，也就是在标签L_i出现的条件下L_j出现的概率P(L_j|L_i)，即关联系数来更新矩阵信息，即将原来的次数替换为计算得到的条件概率值，并将对角线置1，代表各自发生的概率为1，可以把更新后的邻接矩阵称为标签依赖关系矩阵。

可选的，考虑到输入多层GCN可能会有过度拟合的问题，可以通过改进该标签依赖关系矩阵以更好的应用到图卷积神经网络中，例如，引入参数校准分配给节点本身和其他相关节点的权重。

另外，根据每个样本视频的第二分类信息包括的多个标签可以得到标签特征矩阵，可以将这个标签特征矩阵视为第二分类信息包括的多个标签提取到的特征向量的拼接。具体的，使用sentence2vector技术可以提取标签的自然语言处理(Natural LanguageProcessing，NLP)特征，可称为句向量，并基于该句向量构建有关标签的共现向量，也就是标签特征矩阵。其中，句向量的粒度是自然句子，该句向量模型通过大量文本训练后使用，对标签的特征提取，特别是比较复杂的标签的特征提取会更加准确，当然，作为一种不限制的例子，也可以提取标签的词嵌入向量。将每一个标签提取得到词嵌入向量拼接起来可作为标签特征矩阵。这个标签特征矩阵可以作为标签的先验知识输入第二分支网络。举例来说，如果某样本视频有2个标签，那么对应的标签特征矩阵应该是d×2维，其中d是第二分类信息包括的多个标签对应向量(如词嵌入向量)的维度大小，通过每个GCN层可以把每个节点的特征向量进行更新。再比如，某样本视频具有钢琴、女、室内这三个标签，则利用sentence2vector技术可以得到每个标签的句向量r1、r2、r3，基于该句向量进行拼接可组成标签特征矩阵{r1，r2，r3}。

将上述所提及的标签依赖关系矩阵和标签特征矩阵输入第二分支网络GCN，可以得到每个样本视频的标签特征向量，这些标签特征向量之间的依赖关系由目标分类器所指示，其中的“分类”是针对样本视频的第二分类信息包括的所有标签，图卷积神经网络将标签的先验特征映射为一组互相依赖的分类器，可视为一个矩阵，大小为D×C，其中D所代表的维数和第一分支网络TSM网络提取出来的视频特征向量维数一致的，可取值512、2048等，根据视频中提取出来的图片大小处理后确定，C则是样本集中所有标签的数量，第i个标签的向量映射到D×C_i上，其中，C_i表示矩阵中第i列。引入GCN通过数据驱动方式建立标记间有向图(标签依赖关系图)并由GCN将标签映射为对应目标分类器，以此建模标签之间的关系，使得第一分支网络学习到标签这一视频高级语义信息，提升模型的表示学习能力，将此目标分类器应用于由TSM网络生成的图像特征，可以实现端到端训练。

S504，利用所述视频特征向量和所述标签特征向量对所述原始模型的网络参数进行调整，以训练所述原始模型。

具体的，通过不断地输入样本视频，得到对应的视频特征向量和标签特征向量对原始模型的网络参数进行调整，以实现对原始模型的训练。

在一个可能的实施例中，可以依次输入一个批大小(batch_size)的样本视频，得到对应的视频特征向量和标签特征向量之后再对原始模型的网络参数进行调整，例如，batch_size取10，依次将10个样本视频输入原始模型，输出10个视频特征向量和10个标签特征向量后再进行一次网络参数的调整，从处理效率和资源占用的角度来说，这样会更方便有效，重复调度有关资源的次数大大降低。

可选的，也可以将每个样本视频的图像信息输入TSM网络得到对应的视频特征向量，以及将每个样本视频的第二分类信息输入GCN网络得到标签特征向量，就对原始模型的网络参数的调整一次，也就是说样本视频有N个，网络参数就调整N次，只是这样的方式在性能上还有提高的空间。

具体的模型结构可以如图7a所示，主要包括TSM网络、GCN网络两个分支，将视频进行帧采样处理之后得到帧图片，将该帧图片输入TSM网络，通过TSM网络提取得到的视频特征向量和标签特征向量进行向量点积后得到融合特征向量C，将其作为预测的特征向量，再利用损失函数计算总损失值，并根据该总损失值不断调整模型的网络参数以达到最优。其中损失函数主要有三个，其中两个损失函数针对视频所属的分类(可将这两个损失函数分别记为第一类别损失函数和第二类别损失函数)，第三个损失函数针对视频所携带的标签(可将第三个损失函数记为标签损失函数)。

在一个可能的实施例中，可以获取每个样本视频的第一分类信息，然后根据视频特征向量、标签特征向量和第一分类信息，确定总损失值，该总损失值包括第一类别损失函数的损失值和第二类别损失函数的损失值，接着利用总损失值对第一分支网络的网络参数进行调整，以训练原始模型。进一步的，总损失值还可以包括标签损失函数的损失值。具体的，可以根据该总损失值调整原始模型的第一分支网络的网络参数，以及利用标签损失函数的损失值对第二分支网络的网络参数进行调整，以训练原始模型的第二分支网络，从而实现对原始模型的训练。

具体而言，样本视频的第一分类信息和第二分类信息是不同的，第二分类信息是对视频更细粒度的描述，而第一分类信息针对每个样本视频，只能划分到一个类别，也即第一分类信息是互斥的，例如弹钢琴视频被分类为西洋乐器，那么就不能将该视频再划分到民族乐器这一类，获取每个样本视频的第一分类信息是为了得到第一分类信息对应的特征向量。

在一个可能的实施例中，可以根据每个样本视频的视频特征向量和第一分类信息对应的特征向量可以确定第一类别损失函数的损失值。由于本申请实施例也涉及视频所属分类的问题，第一类别损失函数可采用归一化指数函数Softmax对应的损失函数，具体的，采用Softmax对应的损失函数中处理多分类的交叉熵损失函数，在本申请实施例中更合适。对一个样本视频来说，该函数的具体定义如下：

其中，L₁是一个样本视频的损失值；T代表训练样本集中的所有分类(或类别，也即第一分类信息)的数量；y_j是第j个分类的特征向量，它是一个1×T的向量，有T个值，且只有一个值为1，该值对应的位置代表真实标签，剩下的T-1个值均为0；S_j是预测样本视频属于j类别的概率，取值范围为[0,1]。

其中，对于Softmax loss中的S_j，具体要将视频特征向量归一化，具体是通过指数运算将向量中的所有数值转换为正数，然后将这些正数之和作为分母，向量对应的各正数作为分子计算对应的概率，最终得到一个在[0,1]范围内的数值，也就是预测样本视频属于j类别的概率。具体表达式如下：

其中，S_j为softmax的输出，也就是每个样本视频属于第j个分类的概率，a表示视频特征向量可能所属类别的原始值。

上述损失函数的具体计算是针对每个样本视频输入特征提取模型后得到的视频特征向量以及第一分类信息对应的特征向量来确定第一类别损失函数的损失值L₁。

在一个可能的实施例中，可以针对一个batch_size的多个样本视频输入TSM网络中，得到多个视频特征向量，拼接成矩阵后进行计算可以确定第一类别损失函数的损失值。此时的损失函数表达式为：

其中，n表示batch_size的大小，也就是一批样本视频；y_ij表示样本i属于类别j的概率，S_ij是模型对样本i预测为类别j的概率，从而得到第一类别损失函数的损失值loss₁。

作为非限制性例子，第一类别损失函数也可以采用其他损失函数，例如支持向量机(Support Vector Machines，SVM)的损失函数等，在此不做限定。

在一个可能的实施例中，可以根据多个样本视频的视频特征向量和第一分类信息确定第二类别损失函数的损失值。其中，第二类别损失函数可以采用增大边界的归一化指数函数(Additive Margin Softmax，AM-Softmax)进行损失值的计算，具体表达式为：

其中，loss₂代表损失值，s为余弦距离的比例缩放因子的超参数，m为间隔系数，n表示训练样本集的batch_size，C为样本视频所有类别(即第一分类信息)的总数；y_i表示第i个样本视频预测的类别；

表示根据第i个样本视频的视频特征向量预测为y_i类时，其对应的特征向量和第i个类别的特征向量之间的夹角；θj表示根据第i个样本视频的视频特征向量预测为第j个类别时，其对应的特征向量和第j个类别的特征向量之间的夹角。

相比于Softmax loss，AM-Softmax在角度判别界限中加入了边界margin，使得分类的界限更加严格，根据这个增大边界的归一化指数函数进行损失计算，对参数进行更新，直到训练完毕，所得到的类别相似的视频特征向量之间的距离被缩小了，而类别不同的视频特征向量之间的距离被拉大了，对于最后根据视频特征向量的聚类效果有较好的提升。在本申请实施例中，借鉴人脸识别的思想，也就是将每一个视频都是被看作不同的分类，就像每一个人脸一样是不同的，通过采样视频的不同帧训练，可以学习到视频的指纹粒度特征，也就是说每一个视频特征向量都是不同的，这样将相似的特征向量集合得更紧密。

在一个可能的实施例中，可以根据第一类别损失函数的损失值和第二类别损失函数的损失值确定一个总损失值，作为调整原始模型的网络参数的参考。具体的，在确定总损失值时，可以根据上述两个损失函数的权重系数和损失值计算得到，然后根据总损失值对第一分支网络，即TSM网络的网络参数进行调整以训练原始模型的第一分支网络，以使得TSM网络提取的特征向量具备更好的表达能力。

在一个可能的实施例中，可以根据融合特征向量和每个样本视频的第二分类信息包括的每个标签的特征向量，确定标签损失函数的损失值。其中，融合特征向量是通过对视频特征向量和标签特征向量进行向量点积得到的，也即将标签特征向量应用于TSM网络输出的视频特征向量，也可以理解为做矩阵乘法，就可以得到融合特征向量，该融合特征向量作为代表预测标签的向量，其中得到的是预测评分，这个评分可以是有正负值的数值，当然也可以是其他形式，比如预测标签的概率。

可选的，标签损失函数在这里采用二分类交叉熵(Binary Cross Entropy，BCE)损失函数，可用于多标签分类问题。具体的，在输出层使用激活函数sigmoid函数可以将融合特征向量中的数值转换为0到1之间的某个数，但这些值并没有可加性，也就是求和不一定为1。更具体实现的过程中，可以将sigmoid函数和BCE的过程放到一起，使用内建的BCEWith Logits Loss函数计算损失值，该损失函数的表达式为：

其中，o_i表示经过sigmod函数激活处理的第i个样本视频的融合特征向量，取值[0,1]；t_i表示第i个样本视频的第二分类信息所包括的每个标签的特征向量，其中的数值非0即1，可以有多个1和多个0，代表有无对应的标签；n表示训练样本集的batch_size。

作为一个非限制性的例子，标签损失函数也可以采用多标签损失函数进行计算(也是BCE loss的一种表达形式)，具体表达式为：

其中，y表示每个样本视频的第二分类信息包括的每个标签的特征向量，且yⁱ＝{0,1}，也就是取值非0即1，可以有多个1和多个0，代表标签i是否出现在样本视频中；C代表所有标签数量；

是融合特征向量；σ(x)即为Sigmod函数。

Sigmod函数具体表达式为：

在一个可能的实施例中，在获取到第一类别损失函数的损失值、标签损失函数的损失值和第二类别损失函数的损失值之后，可以根据第一类别损失函数的损失值、标签损失函数的损失值和第二类别损失函数的损失值，确定总损失值。在确定总损失值时，可以根据上述三个损失函数的权重系数和损失值计算得到，然后根据总损失值对第一分支网络，即TSM网络的网络参数进行调整以训练原始模型的第一分支网络，并根据标签损失函数的损失值对第二分支网络，即GCN网络的网络参数进行调整，以训练原始模型的第二分支网络，进而使模型具备理解视频高级语义特征中的标签特征的能力。

需要说明的是，视频的第一分类信息和第二分类信息是非常优秀的监督信息，二者相辅相成，缺一不可。如果只有单标签的第一分类信息，模型学习到的特征粒度太粗，但是只有多标签的第二分类信息，利用训练后的模型产生的视频特征向量表现能力不强。

可选的，还可以单独根据每个损失函数的损失值对第一分支网络和第二分支网络进行一次调整，例如确定出第一类别损失函数的损失值，则利用第一类别损失函数的损失值，对第一分支网络的网络参数进行一次调整；确定出第二类别损失函数的损失值，则利用第二类别损失函数的损失值，对第一分支网络的网络参数进行一次调整；确定出标签损失函数的损失值，则利用标签损失函数的损失值，对第一分支网络和第二分支网络的网络参数进行一次调整。

S505，将训练后的第一分支网络作为所述特征向量提取模型。

本申请实施例和前述图4对应的S403相似，在经过多个损失函数的计算并对各分支网络的网络参数进行调整或者优化后，得到的第一分支网络具备理解视频高级语义的能力，也就是说通过第一分支网络可以将视频的多标签和单标签分类信息提取出来，还可以根据学习到各视频的画面一致性(即指纹信息)，所以将第一分支网络作为特征向量提取模型，利用特征向量提取模型获取到的特征向量能够代表比较丰富的信息，例如单标签分类，多标签分类以及图像本身的特征等。

可选的，由于本申请实施例中使用训练视频特征向量的监督信息是用的视频的标签以及分类的强监督信息，所以在此评判视频特征向量的效果时，使用特征描述信息的准确作为评判标准，以动物品类为例，经过实验，没有加入GCN在实验中初始准确为75％，加入GCN，特征描述信息在相同测试集上达到80.3％的准确。如图7b所示，包含两个子图，分别为(A)和(B)，其中，子图(A)为不加GCN产生的视频特征向量使用PCA降维后的聚合效果，子图(B)为加入GCN和特征描述信息后产生的视频特征向量使用主成分分析PCA降维后的聚合效果，可以看出加入GCN训练模型后提取的视频特征向量聚合效果更好。

另外，上述实施例仅从视觉角度这一单模态信息生成视频特征向量，作为一个可扩展的例子，还可以加入视频的标题信息(视频的非画面信息)，通过自动语音识别技术ASR获取视频中的音频信息，通过光学字符识别获取视频中的文本信息，例如配的字幕，出现的弹幕等，在视觉、听觉等多方面进行多模态融合，利用多模态融合后的信息对原始模型进行训练，得到学习能力更强大特征提取模型，从而得到信息量更加丰富的视频特征向量。同样地，也可以使用的是端到端的训练方式，对每一个分支(也就是每一个模态)单独训练模型，最后使用一种优化的分布式梯度增强库XGBOOST等其他分类器融合模型，这样在训练的时候更轻量化，减少各个分支之间相互耦合的干扰。

S506，获取多个待处理视频。

S507，将所述多个待处理视频输入特征向量提取模型，以得到每个待处理视频的视频特征向量，其中，所述特征向量提取模型是利用多个样本视频的图像信息以及对应的特征描述信息对原始模型进行训练得到的，所述特征描述信息包括用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息。

S508，根据所述每个待处理视频的视频特征向量，将所述多个待处理视频划分为至少一个视频类簇。

上述步骤S506-S508的具体实现方式可参见上述图2对应实施例中的步骤S201-S203的相关描述这里不再进行赘述。此外，需要说明的是，步骤S506可以在S505之后执行，也可以在S505之前执行，对S505以及S506的执行顺序在此不做限制。

综上所述，本申请实施例至少具有如下优点：

采用端到端的训练方法，直接学习从将样本视频到期望输出的视频特征向量的映射；同时利用特征描述信息中标签的先验知识，引入第二分支网络(GCN网络)辅助模型训练，通过第二分类信息所包含的标签之间的依赖性映射得到标签特征向量，使得最终的标签特征向量保持有意义的语义拓扑结构；利用标签特征向量和视频特征向量得到融合向量，最后结合三个损失函数的损失值对原始模型的参数进行调整，得到最优的特征向量提取模型，以使得视频的特征向量提取更加准确，其中采用增大边界的归一化指数函数，考虑了视觉相似度，使得根据视频特征向量聚类出来的视频具有画面相似性。

请参见图8，是本申请实施例提供的一种基于人工智能的数据处理装置80的结构示意图，上述基于人工智能的数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该基于人工智能的数据处理装置装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该装置80可以包括：获取模块801、输入模块802、处理模块803，其中：

获取模块801，用于获取多个待处理视频。

输入模块802，用于将所述多个待处理视频输入特征向量提取模型，以得到每个待处理视频的视频特征向量，其中，所述特征向量提取模型是利用多个样本视频的图像信息以及对应的特征描述信息对原始模型进行训练得到的，所述特征描述信息包括用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络用于学习所述图像信息以及所述第一分类信息，所述第二分支网络用于辅助所述第一分支网络学习所述第二分类信息。

处理模块803，用于根据所述每个待处理视频的视频特征向量，将所述多个待处理视频划分为至少一个视频类簇。

可选的，装置80还可以包括：发送模块804，其中：

发送模块804，用于向终端设备发送所述至少一个视频类簇，以使得所述终端设备在用户界面中展示每个视频类簇包括的视频。

可选的，装置80还可以包括：训练模块805，其中：

训练模块805，用于获取训练样本集，所述训练样本集包括多个样本视频。

训练模块805，还用于根据所述多个样本视频的图像信息以及对应的特征描述信息，对所述原始模型进行训练。

处理模块803，用于将训练后的第一分支网络作为所述特征向量提取模型。

可选的，训练模块805，还用于：将所述多个样本视频中的每个样本视频的图像信息输入所述第一分支网络，以得到所述每个样本视频的视频特征向量；将所述每个样本视频的第二分类信息包括的多个标签输入所述第二分支网络，以得到所述每个样本视频的标签特征向量；利用所述视频特征向量和所述标签特征向量对所述原始模型的网络参数进行调整，以训练所述原始模型。

可选的，训练模块805，还用于：将所述多个样本视频中的每个样本视频划分为K个视频片段，其中，所述K为正整数，并从所述K个视频片段的每个视频片段中随机采样一张图片，以得到所述每个样本视频的K张图片，再将所述每个样本视频的K张图片作为图像信息输入所述第一分支网络，以得到所述每个样本视频的视频特征向量。

可选的，训练模块805，还用于：获取所述多个样本视频的第二分类信息包括的所有标签；根据所述所有标签和所述每个样本视频的第二分类信息包括的多个标签，生成标签依赖关系矩阵，所述标签依赖关系矩阵包括任意两个标签之间的关联系数；将所述每个样本视频的第二分类信息包括的多个标签对应的标签特征矩阵和所述标签依赖关系矩阵，输入所述第二分支网络，以得到所述每个样本视频的标签特征向量。

可选的，训练模块805，还用于：获取所述每个样本视频的第一分类信息；根据所述视频特征向量、所述标签特征向量和所述第一分类信息，确定总损失值，所述总损失值包括第一类别损失函数的损失值和第二类别损失函数的损失值；利用所述总损失值对所述第一分支网络的网络参数进行调整，以训练所述原始模型。

可选的，训练模块805，还用于：根据所述每个样本视频的视频特征向量和第一分类信息对应的特征向量，确定所述第一类别损失函数的损失值；根据所述多个样本视频的视频特征向量和第一分类信息确定所述第二类别损失函数的损失值，所述第二类别损失函数包括增大边界的归一化指数函数；根据所述第一类别损失函数的损失值和所述第二类别损失函数的损失值，确定总损失值。

对于装置实施例而言，由于其与方法实施例基本相似，相关之处参见方法实施例的部分说明即可。

请参见图9，是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备90可以包括处理器901、存储器902、网络接口903和至少一个通信总线904。其中，处理器901用于调度计算机程序，可以包括中央处理器、控制器、微处理器；存储器902用于存储计算机程序，可以包括高速随机存取存储器，非易失性存储器，例如磁盘存储器件、闪存器件；网络接口903提供数据通信功能，通信总线904负责连接各个通信元件。

其中，处理器901可以用于调用存储器中的计算机程序，以执行如下操作：

获取多个待处理视频；将所述多个待处理视频输入特征向量提取模型，以得到每个待处理视频的视频特征向量，其中，所述特征向量提取模型是利用多个样本视频的图像信息以及对应的特征描述信息对原始模型进行训练得到的，所述特征描述信息包括用于描述视频的粗粒度语义特征的第一分类信息，以及用于描述视频的细粒度语义特征的第二分类信息，所述原始模型包括第一分支网络和第二分支网络，所述第一分支网络用于学习所述图像信息以及所述第一分类信息，所述第二分支网络用于辅助所述第一分支网络学习所述第二分类信息；根据所述每个待处理视频的视频特征向量，将所述多个待处理视频划分为至少一个视频类簇。

在一种可能的实施例中，处理器901还用于：向终端设备发送所述至少一个视频类簇，以使得所述终端设备在用户界面中展示每个视频类簇包括的视频。

在一种可能的实施例中，处理器901还用于：获取训练样本集，所述训练样本集包括多个样本视频；根据所述多个样本视频的图像信息以及对应的特征描述信息，对所述原始模型进行训练；将训练后的第一分支网络作为所述特征向量提取模型。

在一种可能的实施例中，处理器901具体用于：将所述多个样本视频中的每个样本视频的图像信息输入所述第一分支网络，以得到所述每个样本视频的视频特征向量；将所述每个样本视频的第二分类信息包括的多个标签输入所述第二分支网络，以得到所述每个样本视频的标签特征向量；利用所述视频特征向量和所述标签特征向量对所述原始模型的网络参数进行调整，以训练所述原始模型。

在一种可能的实施例中，处理器901具体用于：将所述多个样本视频中的每个样本视频划分为K个视频片段，其中，所述K为正整数；从所述K个视频片段的每个视频片段中随机采样一张图片，以得到所述每个样本视频的K张图片；将所述每个样本视频的K张图片作为图像信息输入所述第一分支网络，以得到所述每个样本视频的视频特征向量。

在一种可能的实施例中，处理器901具体用于：获取所述多个样本视频的第二分类信息包括的所有标签；根据所述所有标签和所述每个样本视频的第二分类信息包括的多个标签，生成标签依赖关系矩阵，所述标签依赖关系矩阵包括任意两个标签之间的关联系数；将所述每个样本视频的第二分类信息包括的多个标签对应的标签特征矩阵和所述标签依赖关系矩阵，输入所述第二分支网络，以得到所述每个样本视频的标签特征向量。

在一种可能的实施例中，处理器901具体用于：获取所述每个样本视频的第一分类信息；根据所述视频特征向量、所述标签特征向量和所述第一分类信息，确定总损失值，所述总损失值包括第一类别损失函数的损失值和第二类别损失函数的损失值；利用所述总损失值对所述第一分支网络的网络参数进行调整，以训练所述原始模型。

在一种可能的实施例中，处理器901具体用于：根据所述每个样本视频的视频特征向量和第一分类信息对应的特征向量，确定所述第一类别损失函数的损失值；根据所述多个样本视频的视频特征向量和第一分类信息确定所述第二类别损失函数的损失值，所述第二类别损失函数包括增大边界的归一化指数函数；根据所述第一类别损失函数的损失值和所述第二类别损失函数的损失值，确定总损失值。

应当理解，本申请实施例中所描述的计算机设备可以实现实施例中对数据处理方法的描述，也可执行对应实施例对数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也在此不再赘述。

此外，还应指出，本申请实施例还提供一种存储介质，该存储介质中存储了前述数据处理方法的计算机程序，该计算机程序包括程序指令，当一个或多个处理器加载并执行该程序指令，可以实现实施例一种对数据处理方法的描述，这里不再赘述，对采用相同方法的有益效果描述，也在此不再赘述。可以理解的是，程序指令可以被部署在一个或能够互相通信的多个计算机设备上执行。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

最后，还需说明的是，本申请的说明书和权利要求书及上述附图中的术语，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于人工智能的数据处理方法，其特征在于，包括：

获取多个待处理视频；

2.如权利要求1所述的方法，其特征在于，所述第一分类信息包括单个标签，所述第二分类信息包括多个标签。

3.如权利要求1或2所述的方法，其特征在于，所述根据所述每个待处理视频的视频特征向量，将所述多个待处理视频划分为至少一个视频类簇之后，所述方法还包括：

向终端设备发送所述至少一个视频类簇，以使得所述终端设备在用户界面中展示每个视频类簇包括的视频。

4.如权利要求2所述的方法，其特征在于，所述将所述多个待处理视频输入特征向量提取模型，以得到每个待处理视频的视频特征向量之前，所述方法还包括：

获取训练样本集，所述训练样本集包括多个样本视频；

根据所述多个样本视频的图像信息以及对应的特征描述信息，对所述原始模型进行训练；

将训练后的第一分支网络作为所述特征向量提取模型。

5.如权利要求4所述的方法，其特征在于，所述根据所述多个样本视频的图像信息以及对应的特征描述信息，对所述原始模型进行训练，包括：

将所述多个样本视频中的每个样本视频的图像信息输入所述第一分支网络，以得到所述每个样本视频的视频特征向量；

将所述每个样本视频的第二分类信息包括的多个标签输入所述第二分支网络，以得到所述每个样本视频的标签特征向量；

利用所述视频特征向量和所述标签特征向量对所述原始模型的网络参数进行调整，以训练所述原始模型。

6.如权利要求5所述的方法，其特征在于，所述将所述多个样本视频中的每个样本视频的图像信息输入所述第一分支网络，以得到所述每个样本视频的视频特征向量，包括：

将所述多个样本视频中的每个样本视频划分为K个视频片段，其中，所述K为正整数；

从所述K个视频片段的每个视频片段中随机采样一张图片，以得到所述每个样本视频的K张图片；

将所述每个样本视频的K张图片作为图像信息输入所述第一分支网络，以得到所述每个样本视频的视频特征向量。

7.如权利要求5所述的方法，其特征在于，所述将所述每个样本视频的第二分类信息包括的多个标签输入所述第二分支网络，以得到所述每个样本视频的标签特征向量，包括：

获取所述多个样本视频的第二分类信息包括的所有标签；

根据所述所有标签和所述每个样本视频的第二分类信息包括的多个标签，生成标签依赖关系矩阵，所述标签依赖关系矩阵包括任意两个标签之间的关联系数；

将所述每个样本视频的第二分类信息包括的多个标签对应的标签特征矩阵和所述标签依赖关系矩阵，输入所述第二分支网络，以得到所述每个样本视频的标签特征向量。

8.如权利要求5～7中任一所述的方法，其特征在于，所述利用所述视频特征向量和所述标签特征向量对所述原始模型的网络参数进行调整，以训练所述原始模型，包括：

获取所述每个样本视频的第一分类信息；

根据所述视频特征向量、所述标签特征向量和所述第一分类信息，确定总损失值，所述总损失值包括第一类别损失函数的损失值和第二类别损失函数的损失值；

利用所述总损失值对所述第一分支网络的网络参数进行调整，以训练所述原始模型。

9.如权利要求8所述的方法，其特征在于，所述根据所述视频特征向量、所述标签特征向量和所述第一分类信息，确定总损失值，包括：

根据所述每个样本视频的视频特征向量和第一分类信息对应的特征向量，确定所述第一类别损失函数的损失值；

根据所述多个样本视频的视频特征向量和第一分类信息确定所述第二类别损失函数的损失值，所述第二类别损失函数包括增大边界的归一化指数函数；

根据所述第一类别损失函数的损失值和所述第二类别损失函数的损失值，确定总损失值。

10.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-9任一项所述的方法。