CN112801053A

CN112801053A - 视频数据处理方法、装置

Info

Publication number: CN112801053A
Application number: CN202110353917.XA
Authority: CN
Inventors: 汤泽胜; 司建锋; 刘楚妮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-05-14
Anticipated expiration: 2041-04-01
Also published as: CN112801053B

Abstract

本申请的实施例提供了一种视频数据处理方法、装置，涉及人工智能及视频技术领域。该方法包括：获取视频集中各个视频的第一特征数据和第二特征数据，第一特征数据和第二特征数据分别从不同粗细粒度上表征视频的特征；基于第一特征数据确定视频集中任意两个视频之间的第一特征距离，并根据第一特征距离确定各个视频的近邻视频；对所述第一特征数据和第二特征数据进行聚合，得到视频集中各个视频的聚合特征数据；针对视频集中每一个待聚类视频的聚合特征数据，以及待聚类视频的近邻视频的聚合特征数据，通过预先训练的图卷积模型确定待聚类视频的用于对视频集中的视频进行聚类的第三特征数据。本申请实施例的技术方案可以提升视频特征数据的质量。

Description

视频数据处理方法、装置

技术领域

本申请涉及人工智能及视频技术领域，具体而言，涉及一种视频数据处理方法、装置。

背景技术

在视频数据处理场景中，比如在对视频进行聚类的场景，通常需要确定视频的特征数据，然后再基于特征数据对视频进行聚类。然而，现有技术中能够获取的视频特征数据不能全面表征视频的特征，这使得无法高效高质的完成视频聚类。基于此，如何能够提升视频特征数据的质量是亟待解决的技术问题。

发明内容

本申请的实施例提供了一种视频数据处理方法、装置、计算机程序产品或计算机程序、计算机可读介质及电子设备，进而至少在一定程度上可以提升视频特征数据的质量。

本申请的其它特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种视频数据处理方法，所述方法包括：获取视频集中各个视频的第一特征数据和第二特征数据，所述第一特征数据从细粒度上表征视频的特征，所述第二特征数据从粗粒度上表征视频的特征；基于所述视频集中各个视频的第一特征数据确定所述视频集中任意两个视频之间的第一特征距离，并根据所述第一特征距离确定所述视频集中各个视频的近邻视频；对所述第一特征数据和所述第二特征数据进行聚合，得到所述视频集中各个视频的聚合特征数据；针对所述视频集中的每一个待聚类视频，基于所述待聚类视频的聚合特征数据，以及所述待聚类视频的近邻视频的聚合特征数据，通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据，所述第三特征数据用于对所述视频集中的视频进行聚类，所述待聚类视频为所述视频集中的任一视频。

根据本申请实施例的一个方面，提供了一种视频数据处理装置，所述装置包括：第一获取单元，被用于获取视频集中各个视频的第一特征数据和第二特征数据，所述第一特征数据从细粒度上表征视频的特征，所述第二特征数据从粗粒度上表征视频的特征；第一确定单元，被用于基于所述视频集中各个视频的第一特征数据，确定所述视频集中任意两个视频之间的第一特征距离，并根据所述第一特征距离确定所述视频集中各个视频的近邻视频；聚合单元，被用于对所述第一特征数据和所述第二特征数据进行聚合，得到所述视频集中各个视频的聚合特征数据；第二确定单元，被用于针对所述视频集中的每一个待聚类视频，基于所述待聚类视频的聚合特征数据，以及所述待聚类视频的近邻视频的聚合特征数据，通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据，所述第三特征数据用于对所述视频集中的视频进行聚类，所述待聚类视频为所述视频集中的任一视频。

在本申请的一些实施例中，基于前述方案，所述装置还包括：第二获取单元，被用于在获取视频集中各个视频的第一特征数据和第二特征数据之前，获取全量视频中各个视频的第一特征数据；第一聚类单元，被用于基于所述第一特征数据，对所述全量视频进行聚类，得到至少一个视频集。

在本申请的一些实施例中，基于前述方案，所述第一获取单元配置为：分别将所述视频集中各个视频输入至特征提取模型；获取由所述特征提取模型输出的所述视频集中各个视频的第一特征数据。

在本申请的一些实施例中，基于前述方案，所述第一确定单元配置为：针对所述视频集中的每一个目标视频，根据所述目标视频与所述视频集中其它视频之间的第一特征距离，将满足预定距离条件的第一特征距离对应的视频与所述目标视频之间的连接边确定为所述目标视频的第一连接边，所述目标视频为所述视频集中的任一视频；将通过所述第一连接边与所述目标视频关联的视频确定为所述目标视频的近邻视频。

在本申请的一些实施例中，基于前述方案，所述第一确定单元配置为：针对所述视频集中的每一个目标视频，按照从小到大的顺序，对所述目标视频与所述视频集中各个视频之间的第一特征距离进行排序；确定所述第一特征距离的排序靠前的预定数量个待选视频，并将所述目标视频与所述待选视频之间的连接边确定为所述目标视频的第一连接边。

在本申请的一些实施例中，基于前述方案，所述装置还包括：第三获取单元，被用于在通过预先训练的图卷积模型确定所述目标视频的第三特征数据之后，获取所述视频集中各个视频的第三特征数据；第三确定单元，被用于基于所述第三特征数据确定所述视频集中任意两个视频之间的第三特征距离；第二聚类单元，被用于基于所述第三特征距离对所述视频集中的视频进行聚类，得到至少一个精选视频集。

在本申请的一些实施例中，基于前述方案，所述第二聚类单元配置为：针对所述视频集中第三特征距离小于预定阈值的两个视频，建立第三连接边；将由所述第三连接边关联的视频组成的视频集合确定为精选视频集。

在本申请的一些实施例中，基于前述方案，所述装置还包括：第四确定单元，被用于在基于所述第三特征距离对所述视频集中的视频进行聚类，得到至少一个精选视频集之后，在视频播放界面显示第一视频时，确定所述第一视频对应的目标精选视频集；在检测到针对所述目标精选视频集的触发指令时，输出所述目标精选视频集中除所述第一视频外的其它视频。

在本申请的一些实施例中，基于前述方案，所述装置还包括：训练单元，被用于获取样本视频集中各个样本视频的聚合特征数据，所述样本视频集中包括真实精选视频集；基于所述样本视频集中各个样本视频的聚合特征数据，通过初始图卷积模型确定所述样本视频集中各个样本视频的第四特征数据，并基于所述第四特征数据对所述样本视频集中的样本视频进行聚类，得到待定精选视频集；基于所述真实精选视频集和所述待定精选视频集之间的误差，计算损失函数，并通过所述损失函数优化所述初始图卷积模型，得到所述预先训练的图卷积模型。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中所述的视频数据处理方法。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的视频数据处理方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的视频数据处理方法。

在本申请一些实施例所提供的技术方案中，首先通过获取视频集中各个视频的从不同粗细粒度上表征视频特征的第一特征数据和第二特征数据，并基于第一特征数据在视频集中确定各个视频的近邻视频，基于第一特征数据和第二特征数据得到聚合特征数据，然后基于待聚类视频及其近邻视频的聚合特征数据，通过预先训练的图卷积模型确定所述待聚类视频的用于对所述视频集中的视频进行聚类的第三特征数据。由于本方案将视频的不同粗细粒度的视频特征聚合为聚合特征数据，使得从更多维度上融合了视频特征信息。同时，基于视频及其近邻视频的聚合特征数据，通过图卷积模型学习得到一个第三特征数据，能够进一步融合视频与其近邻视频之间的关系特征，使得能够提升视频特征数据（即第三特征数据）的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

图2示出了根据本申请一个实施例的视频数据处理方法的流程图。

图3示出了根据本申请一个实施例的在获取视频集中各个视频的第一特征数据和第二特征数据之前的方法流程图。

图4示出了根据本申请一个实施例的获取视频集中各个视频的第一特征数据的细节流程图。

图5示出了根据本申请一个实施例的根据所述第一特征距离确定各个视频的近邻视频的细节流程图。

图6示出了根据本申请一个实施例的确定第一连通图的模拟示意图。

图7示出了根据本申请一个实施例的在通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据之后的方法流程图。

图8示出了根据本申请一个实施例的确定第三连通图的模拟示意图。

图9示出了根据本申请一个实施例的推荐目标精选视频集的页面图。

图10示出了根据本申请一个实施例的训练图卷积模型的方法流程图。

图11示出了根据本申请一个实施例的视频数据处理方法的整体流程图。

图12示出了根据本申请一个实施例的视频数据处理装置的框图。

图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要注意的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

本申请中的实施例有涉及到关于人工智能的技术，即通过人工智能实现了对视频数据的智能化处理。人工智能(Artificial Intelligence ,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

如图1所示，系统架构可以包括终端设备（如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种）、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

在本申请的一个实施例中，可以是由服务器105获取视频集中各个视频的分别从不同粗细粒度上表征视频特征的第一特征数据和第二特征数据，然后基于第一特征数据确定视频集中任意两个视频之间的第一特征距离，并根据第一特征距离确定各个视频的近邻视频，同时对第一特征数据和第二特征数据进行聚合，得到视频集中各个视频的聚合特征数据，最后，服务器105针对视频集中的每一个待聚类视频，基于待聚类视频的聚合特征数据，以及待聚类视频的近邻视频的聚合特征数据，通过预先训练的图卷积模型确定待聚类视频的用于对视频集中的视频进行聚类的第三特征数据，进一步的，服务器105可以将第三特征数据发送给终端设备，以使得终端设备能够根据第三特征数据对视频集中的视频进行聚类。

在本实施例中，服务器105还可以将第三特征数据写入至区块链中，以使得终端设备能够从区块链中获取第三特征数据，并根据第三特征数据对视频集中的视频进行聚类。

本申请可以应用于视频精选集生产场景，通过确定视频集中各个视频的第三特征数据，并基于第三特征数据对视频进行聚类，得到视频精选集，能够提升精选集内视频的一致性体验。

需要说明的是，本申请实施例所提供的视频数据处理方法可以由服务器105执行，相应地，视频数据处理装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的视频数据处理方案。

还需要说明的是，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此，本申请在此不做限制。

需要解释的是，如上所述的云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展。通过建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请一个实施例的视频数据处理方法的流程图，该视频数据处理方法可以由具有计算处理功能的设备来执行，比如可以由图1中所示的服务器105来执行。参照图2所示，该视频数据处理方法至少包括步骤220至步骤280，详细介绍如下：

步骤220，获取视频集中各个视频的第一特征数据和第二特征数据，所述第一特征数据从细粒度上表征视频的特征，所述第二特征数据从粗粒度上表征视频的特征。

在本申请中，视频的第一特征数据和第二特征数据分别从不同粗细粒度上表征视频的特征，具体的，第一特征数据可以从细粒度上表征视频的特征，比如，第一特征数据可以是视频数据中的视觉特征数据、音频特征数据，以及标题文本特征数据中的一种或者多种的组合。

第二特征数据可以从粗粒度上表征视频的特征，比如，第二特征数据可以是视频的作者ID、描述视频内容的多个看点，以及视频时长、分类等。也可以是多个视频在内容或者形式上是否有一致性，多个视频是否为横屏播放或者竖屏播放，多个视频是否具有同一看点等等，例如，如果多个视频来自同一影视剧的片段，可以认为有一致的看点，或者同一歌手的mv视频，诸如此类。

步骤240，基于所述视频集中各个视频的第一特征数据确定所述视频集中任意两个视频之间的第一特征距离，并根据所述第一特征距离确定所述视频集中各个视频的近邻视频。

在本申请中，第一特征数据可以是以特征向量的数据形式表现，则视频集中任意两个视频之间的第一特征距离就可以是向量距离。

对于本领域技术人员而言，应该理解的，任意两个视频之间的邻近程度与第一特征距离正相关，即，可以是通过设定邻近视频的数量阈值来确定邻近视频（例如，针对每一个目标视频，将第一特征距离最小的预定数量的视频确定为目标视频的近邻视频），也可以是通过设定距离阈值来确定邻近视频（例如，针对每一个目标视频，将第一特征距离不超过距离阈值的视频确定为目标视频的近邻视频）。

步骤260，对所述第一特征数据和所述第二特征数据进行聚合，得到所述视频集中各个视频的聚合特征数据。

在本申请中，对所述第一特征数据和所述第二特征数据进行聚合，可以是通过聚合函数对所述第一特征数据和所述第二特征数据进行聚合。例如，所述聚合函数为f_i=func(vf_i，vf_i_side)，其中，vf_i为第一特征数据，vf_i_side为第二特征数据，func为聚合函数，可以是直接求多个向量的均值，也可以是可训练的序列聚合函数。

在本申请中，相对于第一特征数据和第二特征数据而言，视频集中各个视频的聚合特征数据能够更综合的表征视频的特征。

步骤280，针对所述视频集中的每一个待聚类视频，基于所述待聚类视频的聚合特征数据，以及所述待聚类视频的近邻视频的聚合特征数据，通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据，所述第三特征数据用于对所述视频集中的视频进行聚类，所述待聚类视频为所述视频集中的任一视频。

在本申请中，基于视频及其近邻视频的聚合特征数据，通过图卷积模型学习得到一个第三特征数据，能够进一步融合视频与其近邻视频之间的关系特征，使得能够提升视频特征数据（即第三特征数据）的质量。

在本申请的一个实施例中，在图2所示的步骤220之前，即在获取视频集中各个视频的第一特征数据和第二特征数据之前，还可以执行如图3所示出的步骤。

参见图3，示出了根据本申请一个实施例的在获取视频集中各个视频的第一特征数据和第二特征数据之前的方法流程图。具体包括步骤211至步骤212：

在步骤211中，获取全量视频中各个视频的第一特征数据。

在步骤212中，基于所述第一特征数据，对所述全量视频进行聚类，得到至少一个视频集。

在步骤212的一个实施例中，可以是对所述全量视频进行Kmeans聚类，得到至少一个视频集。

在本实施例中，全量视频可以是指全部的原始视频，例如，一个视频网站中的全部视频节目，或者一个视频平台中所有用户上传的全部短视频。

本实施例中的视频集是经过对全量视频进行一次聚类后得到的，可见，本实施例中视频集的视频具有一定的相似性，这使得对视频集中的视频在后续的处理过程中，能够得到质量更高的第三特征数据，从而能够对视频集中的视频进行更好的聚类。

在本申请的一个实施例中，在图2所示的步骤220中，获取视频集中各个视频的第一特征数据，可以按照如图4所示出的步骤执行。

参见图4，示出了根据本申请一个实施例的获取视频集中各个视频的第一特征数据的细节流程图。具体包括步骤221至步骤222：

在步骤221中，分别将所述视频集中各个视频输入至特征提取模型。

在步骤222中，获取由所述特征提取模型输出的所述视频集中各个视频的第一特征数据。

在本实施例中，所述特征提取模型可以是任意深度学习模型，由所述特征提取模型输出的所述视频集中各个视频的第一特征数据可以是视觉特征数据，可以是音频特征数据，也可以是标题文本特征数据，还可以上述多种特征数据的组合。

由于第一特征数据能够表征视频的视觉特征，音频特征，以及标题文本特征等等，因此，第一特征数据能够从细粒度上表征视频的特征。

在本申请的一个实施例中，在图2所示的步骤240中，根据所述第一特征距离确定所述视频集中的各个视频的近邻视频，可以按照如图5所示出的步骤执行。

参见图5，示出了根据本申请一个实施例的根据所述第一特征距离确定各个视频的近邻视频的细节流程图。具体包括步骤241至步骤242：

在步骤241中，针对所述视频集中的每一个目标视频，根据所述目标视频与所述视频集中其它视频之间的第一特征距离，将满足预定距离条件的第一特征距离对应的视频与所述目标视频之间的连接边确定为所述目标视频的第一连接边，所述目标视频为所述视频集中的任一视频。

在步骤242中，将通过所述第一连接边与所述目标视频关联的视频确定为所述目标视频的近邻视频。

在步骤241中，所述预定距离条件可以是预定的距离阈值，也可以是按照距离进行排序后关于第一特征距离的预定个数阈值。

在本实施例中，针对所述视频集中的每一个目标视频，根据所述目标视频与所述视频集中其它视频之间的第一特征距离，将满足预定距离条件的第一特征距离对应的视频与所述目标视频之间的连接边确定为所述目标视频的第一连接边，可以通过如下方式实现：首先，按照从小到大的顺序，对所述目标视频与所述视频集中各个视频之间的第一特征距离进行排序。

然后，确定所述第一特征距离的排序靠前的预定数量个待选视频，并将所述目标视频与所述待选视频之间的连接边确定为所述目标视频的第一连接边。

具体的，为了更好的理解本实施例，下面将结合图6对本实施例进行说明。

参见图6，示出了根据本申请一个实施例的确定第一连通图的模拟示意图。

在图6中，包括由视频“A、B、C、D、E、F、G、H、I、J”组成的视频集601，其中，在视频集601中，根据任意两个视频的第一特征数据，都可以确定二者之间的距离，即第一特征距离，如两个视频之间的第一特征距离越小，则可以认为这两个视频在一定程度上越相似。

具体的，分别为各个视频确定与其它视频之间的第一连接边，例如，在为视频“A”确定与其它视频之间的第一连接边时，首先，按照从小到大的顺序，对视频“A”与所述视频集中各个视频之间的第一特征距离进行排序，确定第一特征距离的排序靠前的预定数量（例如3个）个待选视频“B、C、D”，并将目标视频与待选视频“B、C、D”之间的连接边“AB、AC、AD”确定为所述目标视频的第一连接边。

进一步的，可以将通过第一连接边与视频“A”关联的视频确定为视频“A”的近邻视频。

按照上述确定视频“A”的近邻视频的方式，分别确定视频“B、C、D、E、F、G、H、I、J”的近邻视频，得到如图6所示的第一连通图602，在所述第一连通图602中，每个视频作为节点，每一条第一连接边作为节点之间的连接边。

在本申请的一个实施例中，在图2所示的步骤280之后，即在通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据之后，还可以执行如图7所示出的步骤。

参见图7，示出了根据本申请一个实施例的在通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据之后的方法流程图。具体包括步骤291至步骤293：

在步骤291中，获取所述视频集中各个视频的第三特征数据。

在步骤292中，基于所述第三特征数据确定所述视频集中任意两个视频之间的第三特征距离。

在步骤293中，基于所述第三特征距离对所述视频集中的视频进行聚类，得到至少一个精选视频集。

在本申请中，第三特征数据也可以是以特征向量的数据形式表现，则视频集中任意两个视频之间的第三特征距离可以是向量距离。

对于本领域技术人员而言，应该理解的，任意两个视频之间的邻近程度与第三特征距离正相关。

在本实施例的步骤293中，基于所述第三特征距离对所述视频集中的视频进行聚类，得到至少一个精选视频集，可以通过如下方式实现：

首先，针对所述视频集中第三特征距离小于预定阈值的两个视频，建立第三连接边。

然后，将由所述第三连接边关联的视频组成的视频集合确定为精选视频集。

具体的，为了更好的理解本实施例，下面将结合图8对本实施例进行说明。

参见图8，示出了根据本申请一个实施例的确定第三连通图的模拟示意图。

在图8中，包括由视频“A、B、C、D、E、F、G、H、I、J”组成的视频集801，其中，视频集801中各个视频的第三特征数据已知，根据任意两个视频的第三特征数据，都可以确定二者之间的距离，即第三特征距离，如两个视频之间的第三特征距离越小，则可以认为这两个视频在一定程度上越相似。

具体的，分别为各个视频确定与其它视频之间的第三连接边，例如，在为视频“A”确定与其它视频之间的第三连接边时，可以是在视频“A”与第三特征距离小于预定阈值的视频之间建立第三连接边，例如，分别建立视频“B”、视频“C”、视频“D”与视频“A”之间的第三连接边。

按照上述建立关联视频“A”的第三连接边的方式，分别建立关联视频“B、C、D、E、F、G、H、I、J”的第三连接边，得到如图8所示的至少一个第三连通图802，具体包括8021、8022，以及8023。在所述第三连通图802中，每个视频作为节点，每一条第一连接边作为节点之间的连接边。

进一步的，可以将由第三连接边关联的视频组成的视频集合确定为精选视频集，即将一个第三连通图中的视频所组成的集合确定为精选视频集。

需要注意的是，在本申请中，可以是在第三连通图中的视频数量超过预设数量阈值时，将该第三连通图中的视频所组成的集合确定为精选视频集。当预设数量阈值设为3时，视频集801包括两个精选视频集，即第三连通图8021对应的精选视频集，第三连通图8022对应的精选视频集。

可见，由于第三特征数据融合了视频与其近邻视频之间的关系特征，使得能够提升视频特征数据（即第三特征数据）的质量，所以，通过第三特征数据确定视频之间的第三特征距离，通过第三特征距离建立视频间的第三连接边，将由第三连接边关联的视频集合确定为精选视频集，能够提升视频的聚合精度。

在本实施例中，在步骤293中，基于所述第三特征距离对所述视频集中的视频进行聚类，得到至少一个精选视频集之后，还可以执行如下步骤的方法：

在视频播放界面显示第一视频时，确定所述第一视频对应的目标精选视频集，并在检测到针对所述目标精选视频集的触发指令时，输出所述目标精选视频集中除所述第一视频外的其它视频。

在一种情况下，视频播放界面中可以包括显示有精选视频集的控件，当用户点击该控件时，触发输出所述目标精选视频集中除所述第一视频外的其它视频的指令。

在另外一种情况下，视频播放界面中可以不包括显示有精选视频集的控件。

在此情况下，可以是直接在播放第一视频后，触发输出所述目标精选视频集中除所述第一视频外的其它视频的指令；也可以是当检测到第一视频在视频播放界面的停留时间超过预定时间阈值时，触发输出所述目标精选视频集中除所述第一视频外的其它视频的指令；还可以是当检测到第一视频被用户点赞时，触发输出所述目标精选视频集中除所述第一视频外的其它视频的指令。

在本实施例中，在输出所述目标精选视频集中除所述第一视频外的其它视频的过程中，可以是播放所述目标精选视频集中除所述第一视频外的其它视频中的一个或者多个，也可以是依次播放所述目标精选视频集中除所述第一视频外的全部其它视频中。

具体的，本实施例提出了本申请技术方案的一种应用场景，即在短视频平台，可以运用本申请技术方案为用户推荐精选视频。

具体的，如图9，示出了根据本申请一个实施例的推荐目标精选视频集的页面图。

如图所示，视频播放界面901中，显示第一视频时，在确定所述第一视频对应的目标精选视频集，并在检测到针对所述目标精选视频集的触发指令时，例如点击在视频播放界面901中显示的“精选集”图标902时，输出所述目标精选视频集中除所述第一视频外的其它视频。需要说明的是，视频播放界面的设置不限于图9所示的那样，“精选集”图标在界面中的位置也可任意设置。

在本申请的一个实施例中，预先训练的图卷积模型可以按照如图10所示的步骤训练：

参见图10，示出了根据本申请一个实施例的训练图卷积模型的方法流程图。具体包括步骤271至步骤273：

在步骤271中，获取样本视频集中各个样本视频的聚合特征数据，所述样本视频集中包括真实精选视频集。

在步骤272中，基于所述样本视频集中各个样本视频的聚合特征数据，通过初始图卷积模型确定所述样本视频集中各个样本视频的第四特征数据，并基于所述第四特征数据对所述样本视频集中的样本视频进行聚类，得到待定精选视频集。

在步骤273中，基于所述真实精选视频集和所述待定精选视频集之间的误差，计算损失函数，并通过所述损失函数优化所述初始图卷积模型，得到所述预先训练的图卷积模型。

具体的，在模型学习阶段，首先基于人工经验，使用规则或者人工标注的手段，从多个角度对样本视频集中的视频进行拆分和提纯，得到多个精选视频集，即真实精选视频集。其中，raw_cluster为原始的视频集，valid_cluster为任意一个经规则处理后生成的真实精选视频集。

训练样本标签的计算伪代码包括：“

Function label_pair(raw_cluster，valid_cluster)：

For v_i in valid_cluster：

For v_j in valid_cluster and v_i!=v_j：

<v_i，v_j>=1：

For v_i in valid_cluster：

For v_j in raw_cluster and v_j not in valid_cluster：

<v_i，v_j>=0.”

其中，<v_i，v_j>=1表示两个视频的特征相似度高，<v_i，v_j>=0表示两个视频特征相似度低。

通过上述训练样本标签，以及基于所述第四特征数据对所述样本视频集中的样本视频进行聚类得到待定精选视频集，可以对初始图卷积模型进行有监督训练。

为了使本领域技术人员更好的理解本申请，下面将结合图11从整体角度对本申请中一个实施例的技术方案进行说明，

参照图11，示出了根据本申请一个实施例的视频数据处理方法的整体流程图。

具体的，在图模型训练阶段，包括如下步骤：

步骤1101，特征提取模型提取全量视频中各个视频的视频特征；

步骤1102，对全量视频进行Kmeans聚类，得到至少一个视频集；

步骤1103，通过预定规则提纯/人工对视频集进行聚类，将聚类结果作为训练图模型的标签；

步骤1104，确定将视频集中各个视频之间的初始连接边，得到视频集所对应的连通图；

步骤1105，经与步骤1103和步骤1104得到的数据，完成图模型训练。

在图模型应用阶段，包括如下步骤：

步骤1102，对全量视频进行Kmeans聚类，得到至少一个视频集；

步骤1106，使用训练好的图模型预测视频集中各个视频之间的连接边，得到至少一个连通子图，将连通子图中的视频作为最终聚类结果。

在本申请上述实施例的技术方案中，由于将视频的不同粗细粒度的视频特征聚合为聚合特征数据，使得从更多维度上融合了视频特征信息。同时，基于视频及其近邻视频的聚合特征数据，通过图卷积模型学习得到一个第三特征数据，能够进一步融合视频与其近邻视频之间的关系特征，使得能够提升视频特征数据（即第三特征数据）的质量，从而能够进一步提高视频聚类的准确性。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的视频数据处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的视频数据处理方法的实施例。

图12示出了根据本申请的一个实施例的视频数据处理装置的框图。

参照图12所示，根据本申请的一个实施例的视频数据处理装置1200，包括：第一获取单元1201、第一确定单元1202、聚合单元1203和第二确定单元1204。

其中，第一获取单元1201，被用于获取视频集中各个视频的第一特征数据和第二特征数据，所述第一特征数据从细粒度上表征视频的特征，所述第二特征数据从粗粒度上表征视频的特征；第一确定单元1202，被用于基于所述视频集中各个视频的第一特征数据，确定所述视频集中任意两个视频之间的第一特征距离，并根据所述第一特征距离确定所述视频集中各个视频的近邻视频；聚合单元1203，被用于对所述第一特征数据和所述第二特征数据进行聚合，得到所述视频集中各个视频的聚合特征数据；第二确定单元1204，被用于针对所述视频集中的每一个待聚类视频，基于所述待聚类视频的聚合特征数据，以及所述待聚类视频的近邻视频的聚合特征数据，通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据，所述第三特征数据用于对所述视频集中的视频进行聚类，所述待聚类视频为所述视频集中的任一视频。

在本申请的一些实施例中，基于前述方案，所述第一获取单元1201配置为：分别将所述视频集中各个视频输入至特征提取模型；获取由所述特征提取模型输出的所述视频集中各个视频的第一特征数据。

在本申请的一些实施例中，基于前述方案，所述第一确定单元1202配置为：针对所述视频集中的每一个目标视频，根据所述目标视频与所述视频集中其它视频之间的第一特征距离，将满足预定距离条件的第一特征距离对应的视频与所述目标视频之间的连接边确定为所述目标视频的第一连接边，所述目标视频为所述视频集中的任一视频；将通过所述第一连接边与所述目标视频关联的视频确定为所述目标视频的近邻视频。

在本申请的一些实施例中，基于前述方案，所述第一确定单元1202配置为：针对所述视频集中的每一个目标视频，按照从小到大的顺序，对所述目标视频与所述视频集中各个视频之间的第一特征距离进行排序；确定所述第一特征距离的排序靠前的预定数量个待选视频，并将所述目标视频与所述待选视频之间的连接边确定为所述目标视频的第一连接边。

需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1300包括中央处理单元（Central Processing Unit，CPU）1301，其可以根据存储在只读存储器（Read-Only Memory，ROM）1302中的程序或者从储存部分1308加载到随机访问存储器（Random Access Memory，RAM）1303中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1303中，还存储有系统操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出（Input /Output，I/O）接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分1307；包括硬盘等的储存部分1308；以及包括诸如LAN（Local AreaNetwork，局域网）卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入储存部分1308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元（CPU）1301执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中所述的视频数据处理方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的视频数据处理方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频数据处理方法，其特征在于，所述方法包括：

获取视频集中各个视频的第一特征数据和第二特征数据，所述第一特征数据从细粒度上表征视频的特征，所述第二特征数据从粗粒度上表征视频的特征；

基于所述视频集中各个视频的第一特征数据，确定所述视频集中任意两个视频之间的第一特征距离，并根据所述第一特征距离确定所述视频集中各个视频的近邻视频；

对所述第一特征数据和所述第二特征数据进行聚合，得到所述视频集中各个视频的聚合特征数据；

针对所述视频集中的每一个待聚类视频，基于所述待聚类视频的聚合特征数据，以及所述待聚类视频的近邻视频的聚合特征数据，通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据，所述第三特征数据用于对所述视频集中的视频进行聚类，所述待聚类视频为所述视频集中的任一视频。

2.根据权利要求1所述的方法，其特征在于，在获取视频集中各个视频的第一特征数据和第二特征数据之前，所述方法还包括：

获取全量视频中各个视频的第一特征数据；

基于所述第一特征数据，对所述全量视频进行聚类，得到至少一个视频集。

3.根据权利要求1所述的方法，其特征在于，所述获取视频集中各个视频的第一特征数据，包括：

分别将所述视频集中各个视频输入至特征提取模型；

获取由所述特征提取模型输出的所述视频集中各个视频的第一特征数据。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征距离确定所述视频集中各个视频的近邻视频，包括：

针对所述视频集中的每一个目标视频，根据所述目标视频与所述视频集中其它视频之间的第一特征距离，将满足预定距离条件的第一特征距离对应的视频与所述目标视频之间的连接边确定为所述目标视频的第一连接边，所述目标视频为所述视频集中的任一视频；

将通过所述第一连接边与所述目标视频关联的视频确定为所述目标视频的近邻视频。

5.根据权利要求4所述的方法，其特征在于，所述针对所述视频集中的每一个目标视频，根据所述目标视频与所述视频集中其它视频之间的第一特征距离，将满足预定距离条件的第一特征距离对应的视频与所述目标视频之间的连接边确定为所述目标视频的第一连接边，包括：

按照从小到大的顺序，对所述目标视频与所述视频集中各个视频之间的第一特征距离进行排序；

确定所述第一特征距离的排序靠前的预定数量个待选视频，并将所述目标视频与所述待选视频之间的连接边确定为所述目标视频的第一连接边。

6.根据权利要求1所述的方法，其特征在于，在通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据之后，所述方法还包括：

获取所述视频集中各个视频的第三特征数据；

基于所述第三特征数据确定所述视频集中任意两个视频之间的第三特征距离；

基于所述第三特征距离对所述视频集中的视频进行聚类，得到至少一个精选视频集。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第三特征距离对所述视频集中的视频进行聚类，得到至少一个精选视频集，包括：

针对所述视频集中第三特征距离小于预定阈值的两个视频，建立第三连接边；

将由所述第三连接边关联的视频组成的视频集合确定为精选视频集。

8.根据权利要求6所述的方法，其特征在于，在基于所述第三特征距离对所述视频集中的视频进行聚类，得到至少一个精选视频集之后，所述方法还包括：

在视频播放界面显示第一视频时，确定所述第一视频对应的目标精选视频集；

在检测到针对所述目标精选视频集的触发指令时，输出所述目标精选视频集中除所述第一视频外的其它视频。

9.根据权利要求1所述的方法，其特征在于，所述预先训练的图卷积模型通过如下方式训练得到：

获取样本视频集中各个样本视频的聚合特征数据，所述样本视频集中包括真实精选视频集；

基于所述样本视频集中各个样本视频的聚合特征数据，通过初始图卷积模型确定所述样本视频集中各个样本视频的第四特征数据，并基于所述第四特征数据对所述样本视频集中的样本视频进行聚类，得到待定精选视频集；

基于所述真实精选视频集和所述待定精选视频集之间的误差，计算损失函数，并通过所述损失函数优化所述初始图卷积模型，得到所述预先训练的图卷积模型。

10.一种视频数据处理装置，其特征在于，所述装置包括：

第一获取单元，被用于获取视频集中各个视频的第一特征数据和第二特征数据，所述第一特征数据从细粒度上表征视频的特征，所述第二特征数据从粗粒度上表征视频的特征；

第一确定单元，被用于基于所述视频集中各个视频的第一特征数据，确定所述视频集中任意两个视频之间的第一特征距离，并根据所述第一特征距离确定所述视频集中各个视频的近邻视频；

聚合单元，被用于对所述第一特征数据和所述第二特征数据进行聚合，得到所述视频集中各个视频的聚合特征数据；

第二确定单元，被用于针对所述视频集中的每一个待聚类视频，基于所述待聚类视频的聚合特征数据，以及所述待聚类视频的近邻视频的聚合特征数据，通过预先训练的图卷积模型确定所述待聚类视频的第三特征数据，所述第三特征数据用于对所述视频集中的视频进行聚类，所述待聚类视频为所述视频集中的任一视频。