CN111783734B

CN111783734B - 原版视频识别方法及装置

Info

Publication number: CN111783734B
Application number: CN202010709260.1A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2024-02-27
Anticipated expiration: 2040-07-21
Also published as: CN111783734A

Abstract

本申请实施例公开了一种原版视频识别方法及装置，方法包括：获取待处理的多个视频的特征信息，所述特征信息包括标题和封面；对所述多个视频的特征信息进行聚类得到多个视频封面类簇；获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度；根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。采用本申请，能实现从大量短视频中准确识别出原版短视频，以此保障原版视频识别的准确度。

Description

原版视频识别方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种原版视频识别方法及装置。

背景技术

随着短视频生态的发展，同一个短视频往往会在不同的平台由不同的用户上传或者转载。这里的转载有些是对原版短视频来源logo做一些变化处理，或者将封面图进行较小范围的重新编辑后，重新上传。而有些则是原版视频相关内容的进一步发酵、模仿甚至使用原版的BGM却套上了原版短视频标题关键词等。如下以近期流行的“xxx博主对xxx景点的旅游攻略”短视频为例说明：在搜索或者推荐等信息分发场景下，当用户想看原版“xxx博主对xxx景点的旅游攻略”时如何从不同数据源中找到最初引起广泛传播的原版短视频就显得尤为重要。

目前，针对大量相关的短视频，用户想要获取最原始被广泛传播的原版视频时，更多的是通过判断视频标题中是否“原版”等关键词来识别该视频是否为原版短视频。但在视频传播的过程中，视频标题经过篡改和进一步的模仿、加工。很多非原版视频的标题中可能也具有“原版”标记。因此用户仅通过视频标题中的“原版”标记，来识别该视频是否为原版视频，识别的准确度很低，识别出的结果也并不可靠。

发明内容

本申请实施例提供了一种原版视频识别方法及装置，能实现从大量短视频中准确识别出原版短视频，以此保障原版视频识别的的准确度。

第一方面，本申请实施例提供了一种原版视频识别方法，所述方法包括：

获取待处理的多个视频的特征信息，所述特征信息包括标题和封面；

对所述多个视频的特征信息进行聚类得到多个视频封面类簇；

获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度；

根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。

第二方面，本申请实施例提供了一种原版视频识别装置，原版视频识别装置包括通信单元，处理单元，其中：

所述处理单元，用于获取待处理的多个视频的特征信息，所述特征信息包括标题和封面；

所述处理单元，还用于对所述多个视频的特征信息进行聚类得到多个视频封面类簇；

所述处理单元，还用于获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度；

所述处理单元，还用于根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面中的步骤的指令。

第四方面，本申请实施例提供了一种芯片，该芯片包括处理器与数据接口，该处理器通过该数据接口读取存储器上存储的指令，执行如上述第一方面以及任一种可选的实现方式的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第六方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的原版视频识别方法。

可以看出，本申请实施例中，服务器基于获取的多个待处理的视频的特征信息，特征信息包括标题和封面，进行聚类，得到多个视频封面类簇。多维信息以及多层级的聚类，提高聚类的准确程度。并且获取每个视频封面类簇包括的视频的封面之间的相似度；根据相似度从多个视频封面类簇包括的视频中确定出原版视频。利用视频的特征信息以及相似度从多个视频中确定出原版短视频。有效提高原版短视频识别的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的提供的一种原版视频识别系统的结构示意图；

图2是本申请实施例的提供的一种原版视频识别方法的流程示意图；

图3A是本申请实施例提供的另一种原版视频识别方法的流程示意图；

图3B是本申请实施例提供的一种k-means聚类算法的代码示意图；

图3C是本申请实施例提供的一种视频标题类簇的示意图；

图3D是本申请实施例提供的一种多个视频封面类簇的示意图；

图3E是本申请实施例提供的一种CV特征提取的示意图；

图3F是本申请实施例提供的一种封面图的Phash值的计算过程示意图；

图3G是本申请实施例提供的一种视频封面类簇中的分类示意图；

图4是本申请实施例的原版视频识别装置的功能单元示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例中可以基于Auto Encoder提取封面图CV特征，便于进一步的对视频的封面进行图像聚类。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

针对上述问题，本申请实施例提供一种原版视频识别方法，应用于服务器。下面结合附图进行详细介绍。

首先，请参看图1所示的原版视频识别的系统100的结构示意图，包括终端110，服务器120。

用户通过终端110在各个网络平台，或者APP等网络信息平台搜索基于某一类关键字或词的短视频时，如果用户想要获取的是原版短视频。服务器120基于用户输入的关键字或词在视频数据库中获取多个待处理的视频。并且获取该多个待处理的视频的特征信息。并且基于多个待处理的视频的特征信息进行一系列的判断，处理，确定出原版短视频，并且响应该原版短视频给终端110。

当然，服务器120既可以实时响应终端110的原版短视频获取请求，及时为终端推送确定出的原版短视频；服务器120也可以基于多个终端的大量请求，获取请求较多的原版视频获取请求信息，并且基于这些请求信息，预先或者延时基于大量相关的短视频确定出原版短视频。当下一次接收相关请求信息时，能及时地将确定出地原版短视频发送给终端110。

上述服务器，例如可以包括分布式存储服务器、传统服务器、大型存储系统、台式电脑、笔记本电脑、平板电脑、掌上电脑、智能手机、便携式数字播放器、智能手表以及智能手环等。上述终端包括但不限于带通讯功能的设备、智能手机、平板电脑、笔记本电脑、台式电脑、便携式数字播放器、智能手环以及智能手表等。

本申请实施例的技术方案可以基于图1举例所示架构的通信系统或其形变架构来具体实施。

参见图2，图2是本申请实施例提供的一种原版视频识别方法的流程示意图，这种方法可包括但不限于如下步骤：

201，获取待处理的多个视频的特征信息，所述特征信息包括标题和封面。

具体的，可以理解为，服务器基于用户输入的关键字或词在视频数据库中获取多个待处理的视频。进一步的，服务器获取该多个待处理的视频的特征信息。当然，服务器既可以实时响应终端的原版短视频获取请求，及时为终端推送确定出的原版短视频；服务器也可以基于多个终端的多个请求，比如热门搜索，火爆短视频等，获取这类视频，作为待处理视频。并且，进一步的，服务器获取该多个待处理的视频的特征信息。

202，对所述多个视频的特征信息进行聚类得到多个视频封面类簇。

具体的，可以理解为，服务器获取该多个视频的特征信息后，会基于多个视频的特征信息进行聚类得到多个视频封面类簇。也即将多个视频最终按照封面的特征分成不同的类簇。

203，获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度。

具体的，服务器在将多个视频分成多个视频封面类簇后，针对多个视频封面类簇中每个视频封面类簇中的视频，服务器会基于这些视频的封面计算彼此间的相似度。比如第一视频封面类簇包括第一视频、第二视频、第三视频。第一视频的封面和第二视频的封面相似度为8，第一视频的封面和第三视频的封面相似度为4，第二视频的封面和第三视频的封面相似度为5。

204，根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。

具体的，服务器会基于每一个视频封面类簇中的视频的封面的相似度，将这些视频划分为不同的数量占比。并且从数量占比多的里面确定出原版视频。

可选的，该多个视频封面类簇中每个视频封面类簇包括的视频的数量达到第一数量阈值。服务器对多个视频的特征信息进行聚类得到视频封面类簇后，可以进一步对视频封面类簇进行筛选，具体可以包括：获取各个视频封面类簇包括的视频的数量，并确定出包括的视频的数量达到第一数量阈值(例如50个)的每个视频封面类簇，从而只需要针对包括的视频的数量达到第一数量阈值的视频封面类簇，去获取包括的视频的封面之间的相似度，而不是针对所有的视频封面类簇，可以在保证原版视频识别准确度的前提下，减少数据计算量，进而提升识别速度。例如，服务器对多个视频的特征信息进行聚类得到20个视频封面类簇，然后获取这20个视频封面类簇中各个视频封面类簇包括的视频的数量，并与第一数量阈值(例如50个)进行比较，确定出包括的视频的数量达到50个的视频封面类簇有15个，则服务器可以将这15个视频封面类簇作为上述的多个视频封面类簇，并进行相似度的计算。

可选的，所述根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频，包括：针对所述每个视频封面类簇，获取所述相似度达到相似度阈值的视频在所述每个视频封面类簇中的数量占比；确定所述每个视频封面类簇中对应的数量占比最高的多个候选视频；根据发布时间从所述多个候选视频中确定出原版视频。

具体的，如前所述，比如第一视频封面类簇包括第一视频、第二视频、第三视频。第一视频的封面和第二视频的封面相似度为8，第一视频的封面和第三视频的封面相似度为4，第二视频的封面和第三视频的封面相似度为5。预先规定两个视频间的相似度取值从0-10不等，0代表两个视频的封面完全不同，也即两个视频为不相同视频；10代表两个视频的封面完全相同，也即两个视频为相同视频。相似度阈值为6、7、8等。相似度大于或等于相似度阈值则判断两个视频的封面相同或者极为相似，可以划分为同一类视频。以相似度阈值为6为例，比如第一视频的封面和第二视频的封面相似度为8，则第一视频与第二视频为同一类视频。而第一视频的封面和第三视频的封面相似度为4，第二视频的封面和第三视频的封面相似度为5，则第三视频与第一视频以及第二视频不为同一类视频。因此相似度达到相似度阈值的视频即第一视频与第二视频在第一视频封面类簇中的数量占比为2/3，为第一视频封面类簇中对应的数量占比最高的候选视频。再根据第一视频与第二视频的发布时间，根从第一视频与第二视频这两个候选视频中确定出原版视频。

显然，为便于理解，本实施例简化计算数量，仅以第一视频封面类簇包含三个视频进行举例说明，在实际相似度比较过程中可能包含大量的视频，比如50个，100等，甚至更多，也可以基于本例中的方法以及类似方法进行原版视频的确定，在此不一一列举。

可选的，所述根据发布时间从所述多个候选视频中确定出原版视频，包括：比较所述每个视频封面类簇中对应的数量占比最高的多个候选视频的发布时间；将发布时间最早的候选视频作为原版视频。

具体的，如前所述，服务器确定的每个视频封面类簇中对应的数量占比最高的候选视频为多个时，也即候选视频并不唯一时，可以多个候选视频的发布时间；将发布时间最早的候选视频作为原版视频。比如如前所述，第一视频封面类簇中对应的数量占比最高的候选视频为第一视频与第二视频。第一视频发布的时间为一个月前，第二视频发布的时间为一周前。因此，服务器将第一视频确定为原版视频。

与上述图2所示的实施例一致，请参阅图3A，图3A是本申请实施例提供的另一种原版视频识别方法，包括：

301，获取待处理的多个视频的特征信息，所述特征信息包括标题和封面。

步骤301参考前述步骤201，在此不再赘述。

302，对所述多个视频的标题进行文本聚类得到多个视频标题类簇。

具体的，服务器对该多个视频的标题进行文本聚类得到多个视频标题类簇。其中，文本聚类的方法可以为以下任意一种：k-means聚类算法、DBSCAN聚类算法、层次聚类算法、SOM聚类算法、FCM聚类算法、soft k-means聚类算法等。下面以k-means聚类算法为例，进行具体说明。

服务器可以预先采用数千万全网短视频标题训练word2vec神经网络，得到该网络的参数。并且利用训练好的word2vec对上述多个视频的标题进行向量表示，得到多个标题向量。对多个标题向量进行文本聚类得到多个视频标题类簇。聚类的具体过程，如下所示：

随机选取K个聚类质心点(cluster centroids)为u₁,u₂……u_k∈Rⁿ；重复下面过程，直至收敛：

对于每一个样例i，计算其应该属于的类：

对于每一个类j，重新计算该类的质心：

其中，K是我们事先给定的聚类数，c(i)代表样例i与k个类中距离最近的那个类，c(i)的值是1到k中的一个。质心u_j代表我们对属于同一个类的样本中心点的猜测，拿星团模型来解释就是要将所有的星星聚成k个星团，首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离，然后选取距离最近的那个星团作为c(i)，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计算它的质心u_j(对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。此处采用现成的开源包实现上述算法流程，示例代码如图3B所示。

303，根据所述多个视频标题类簇确定目标视频集合。

具体的，可以理解为，服务器基于一定的标准或者随机从该多个视频标题类簇确定目标视频集合。比如按照每个视频标题类簇包含的视频数量来确定选择一些满足视频数量要求的视频标题类簇，由这些被选中的视频标题类簇中的视频构成目标视频集合。

可选的，也可以先从多个视频标题类簇中选取发布时间早于时间阈值的视频，组成第一视频集合，再从第一视频集合中确定目标视频集合。或者先从多个视频标题类簇中选取视频数量满足预设视频数量的视频标题类簇组成第一视频集合，再从第一视频集合中选择发布时间早于时间阈值的视频确定目标视频集合。

可选的，所述根据所述多个视频标题类簇确定目标视频集合，包括：获取所述多个视频标题类簇中每个视频标题类簇包括的视频的数量；从所述多个视频标题类簇中确定出包括的视频的数量达到第二数量阈值的目标视频标题类簇；根据所述目标视频标题类簇包括的视频确定目标视频集合。

具体的，多个视频标题类簇为100个视频标题类簇，其中包括的视频的数量超过50个视频标题类簇有5个，这5个视频标题类簇包含的视频数量分别为50、60、100、70、56，则由这5个视频标题类簇包含的视频组成目标视频集合。则目标视频集合包含的视频一共为236个。

304，对所述目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇。

具体的，服务器在确定目标视频集合后，进一步的，还要对目标视频集合中的视频的封面进行图像聚类，得到多个视频封面类簇。前述基于视频标题的文本聚类可以将具有类似文本描述的短视频聚为同一类，并且得到了目标视频集合。但目标视频集合从封面图来看，仍然千差万别。比如，如图3C所示，以“xxx博主对xxx景点的旅游攻略”短视频为例，图3C中示意性的列举了部分视频封面。因此，服务器对文本聚类得到的目标视频集合中的视频的封面进行图像聚类，如图3D所示，得到多个视频封面类簇。图3D中示意性的展示了Cluster1、Cluster2、Cluster3。也还可以包括更多的视频封面类簇。

305，获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度。

306，根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。

步骤305、306参考前述步骤203、204，在此不再赘述。

可见，本申请实施例中，服务器基于获取的多个待处理的视频的特征信息，特征信息包括标题和封面。先利用该多个视频的标题进行文本聚类得到多个视频标题类簇。并且从多个视频标题类簇确定目标视频集合。通过筛选，减小后续视频封面进行图像聚类的信息处理量，以此提高信息处理效率。再对该目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇。进一步的，获取该多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度。最后，再根据相似度从该多个视频封面类簇包括的视频中确定出原版视频。基于视频的标题以及视频封面图像进行聚类，并且基于相似度等信息从多个视频中确定出原版短视频。有效提高原版短视频识别的准确度。

在一个可能的示例中，所述对所述多个视频的标题进行文本聚类得到多个视频标题类簇，包括：对所述多个视频中的每个视频的标题进行向量化处理，得到与所述多个视频的标题对应的多个标题向量；对所述多个标题向量进行文本聚类得到多个视频标题类簇。

具体的，服务器对上述多个视频的标题进行文本聚类得到多个视频标题类簇的具体过程，包括：先对该多个视频中的每个视频的标题进行向量化处理，得到与该多个视频的标题对应的多个标题向量；对所述多个标题向量进行文本聚类得到多个视频标题类簇。聚类的方法可以为以下任意一种：k-means聚类算法、DBSCAN聚类算法、层次聚类算法、SOM聚类算法、FCM聚类算法、soft k-means聚类算法等。以k-means聚类算法为例，进行文本聚类得到多个视频标题类簇的具体过程可以如前所述，在此不再赘述。

可见，先对该多个视频中的每个视频的标题进行向量化处理，得到与该多个视频的标题对应的多个标题向量；对所述多个标题向量进行文本聚类得到多个视频标题类簇。通过文本聚类，可以有效剔除大量与用户想要获取的原版视频关联度较低的短视频，降低信息处理的复杂程度。并且提高后续处理效率和效果。

在一个可能的示例中，所述对所述目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇，包括：提取所述目标视频集合中每个视频的封面的图像特征，得到与所述目标视频集合包括的多个视频对应的多个图像特征；对所述多个图像特征进行图像聚类得到多个视频封面类簇。

具体的，对所述目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇，聚类的具体过程，可以如下所述：

服务器先基于Auto Encoder提取目标视频集合中的视频封面图的计算机视觉CV特征。使用就是同一个视频标题聚类中的每个视频的封面图作为数据集训练auto encoder模型，然后提取Decoder层中倒数第二层作为当前该封面的压缩特征向量表示。当然，也可以提取目标视频集合中的视频的封面的RGB特征。最后可以同样类似上述kmeans聚类算法为目标视频集合中的视频做封面图聚类。

另外，以利用Auto Encoder提取目标视频集合中的视频封面图的计算机视觉CV特征为例，原理如下：一般的神经网络，训练数据的输入和输出是不一样的。比如输入是一张图片，输出则是个代表类别的数字。而Auto Encoder则是输入和输出是一样的，输入是张图片，输出还是那张图片。如图3E所示：Auto Encoder模型先进行encode(压缩)然后再进行decode(解压)，而网络则根据预测输出和真实输出之间的误差进行不断地调整参数，尽可能减少输出与输入的误差。这样训练好的自编码网络，encoder压缩出来的数据则很有可能代表了原视频封面的显著特征，即从原始的蘑菇中提取了学习后的表征，我们可以用它来作为降维之后的数据来使用，对视频封面进行向量化表示。

可见，提取所述目标视频集合中每个视频的封面的图像特征，得到与所述目标视频集合包括的多个视频对应的多个图像特征；对所述多个图像特征进行图像聚类得到多个视频封面类簇。基于视频的封面图像特征对视频进行图像聚类，进一步提高视频聚类的准确程度。而且图像聚类后的得到多个视频封面类簇，便于后期同类簇的封面图像的相似度计算。

在一个可能的示例中，所述获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度，包括：获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面的哈希值；根据所述哈希值计算所述每个视频封面类簇包括的任意两个视频的封面之间的汉明距离；根据所述汉明距离确定所述任意两个视频的封面之间的相似度。

具体的，以上图3D中的Cluster1为例，可见其同类中的短视频封面虽然比较相近了，但如第三幅封面所示，依然和其他几个短视频并不是同一个视频。可以将视频封面类簇的视频数目大于特定数值(即第一数量阈值，比如>50个)的类簇作为相似度计算对象。此处仍然以Cluster1为例，计算该类簇中每个封面图的Phash值。Phash主要采用离散余弦变换(Discrete Cosine Transform，DCT)进行图片压缩，图片信息更丰富。步骤如下：

如图3F所示，(1)缩放图片：将每张图片都统一缩放到32x32的图片；(2)转换成灰度图：将缩放后的图片转换成灰度图；(3)DCT转换：对灰度图进行DCT转换，将图像信息压缩到左上角；(4)提取压缩图像：提取DCT转换图片在左上角的8x8区域；(5)计算平均值：计算8x8区域中所有像素的平均值；(6)与平均值比较：将8x8区域的每个像素与平均值比较，大于平均值则记为1，否则记为0；(7)获取指纹：按某种方式获取比较结果，组成64位二进制指纹；(8)对比指纹：计算两个指纹的汉明距离，汉明距离越小，则两张图片越相似，以此确定任意两个视频的封面之间的相似度。

进一步的，根据任意两个视频的封面之间的相似度，可以将Cluster1中的视频按照封面之间的相似度再进行分类。相似度大于相似度阈值的划分为一类。以上述cluster1为例，根据其PHash值其再被分为两个集合，Ratio＝相近封面Phash值(汉明距离小于5)的封面个数/当前类簇中短视频个数。如图3G所示，Ratio＝3/4与1/4。再从Ratio＝3/4的多个候选视频中，选取发布时间最早的视频作为原始视频。当然Ratio也可以是1/2、1/4与1/4等。

可见，服务器获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面的哈希值；根据所述哈希值计算所述每个视频封面类簇包括的任意两个视频的封面之间的汉明距离；根据所述汉明距离确定所述任意两个视频的封面之间的相似度。能有效提高两个视频的封面之间的相似度计算的准确程度，提高原版视频确定过程的效率和效果。

再请参见图4，是本发明实施例的一种原版视频识别装置400的功能单元示意图，本发明实施例的原版视频识别装置400可以为服务器120的内置装置或者也可以为上述服务器120的外接设备。

本发明实施例的所述装置的一个实现方式中，所述装置400包括处理单元410，通信单元420，其中：

处理单元410，用于获取待处理的多个视频的特征信息，所述特征信息包括标题和封面；

所述处理单元410，还用于对所述多个视频的特征信息进行聚类得到多个视频封面类簇；

所述处理单元410，还用于获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度；

所述处理单元410，还用于根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频。

在一个可能的示例中，所述多个视频封面类簇中每个视频封面类簇包括的视频的数量达到第一数量阈值，在所述根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频方面，所述处理单元410，具体用于：针对所述每个视频封面类簇，获取所述相似度达到相似度阈值的视频在所述每个视频封面类簇中的数量占比；确定所述每个视频封面类簇中对应的数量占比最高的多个候选视频；根据发布时间从所述多个候选视频中确定出原版视频。

在一个可能的示例中，在所述根据发布时间从所述多个候选视频中确定出原版视频方面，所述处理单元410，具体用于：比较所述每个视频封面类簇中对应的数量占比最高的多个候选视频的发布时间；将发布时间最早的候选视频作为原版视频。

在一个可能的示例中，在所述对所述多个视频的特征信息进行聚类得到多个视频封面类簇方面，所述处理单元410，具体用于：对所述多个视频的标题进行文本聚类得到多个视频标题类簇；根据所述多个视频标题类簇确定目标视频集合；对所述目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇。

在一个可能的示例中，在所述对所述多个视频的标题进行文本聚类得到多个视频标题类簇方面，所述处理单元410，具体用于：对所述多个视频中的每个视频的标题进行向量化处理，得到与所述多个视频的标题对应的多个标题向量；对所述多个标题向量进行文本聚类得到多个视频标题类簇。

在一个可能的示例中，在所述对所述目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇方面，所述处理单元410，具体用于：提取所述目标视频集合中每个视频的封面的图像特征，得到与所述目标视频集合包括的多个视频对应的多个图像特征；对所述多个图像特征进行图像聚类得到多个视频封面类簇。

在一个可能的示例中，在所述获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度方面，所述处理单元410，具体用于：获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面的哈希值；根据所述哈希值计算所述每个视频封面类簇包括的任意两个视频的封面之间的汉明距离；根据所述汉明距离确定所述任意两个视频的封面之间的相似度。

在一个可能的示例中，在所述根据所述多个视频标题类簇确定目标视频集合方面，所述处理单元410，具体用于：获取所述多个视频标题类簇中每个视频标题类簇包括的视频的数量；从所述多个视频标题类簇中确定出包括的视频的数量达到第二数量阈值的目标视频标题类簇；根据所述目标视频标题类簇包括的视频确定目标视频集合。

在一些实施例中，原版视频识别装置还可包括有输入输出接口、通信接口、电源以及通信总线。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

再请参见图5，是本发明实施例的一种电子设备的结构示意图，本发明实施例的电子设备对应于前文所述的服务器，所述电子设备包括供电模块等结构，并包括处理器501、存储装置502以及通信接口503。所述处理器501、存储装置502以及通信接口503之间可以交互数据。

所述存储装置502可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置502也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置502还可以包括上述种类的存储器的组合。

所述处理器501可以是中央处理器501(central processing unit，CPU)。在一个实施例中，所述处理器501还可以是图形处理器501(Graphics Processing Unit，GPU)。所述处理器501也可以是由CPU和GPU的组合。在一个实施例中，所述存储装置502用于存储程序指令。所述处理器501可以调用所述程序指令，执行如下步骤：

获取待处理的多个视频的特征信息，所述特征信息包括标题和封面。

对所述多个视频的特征信息进行聚类得到多个视频封面类簇。

获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度。

在一个可能的示例中，所述多个视频封面类簇中每个视频封面类簇包括的视频的数量达到第一数量阈值，在所述根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频方面，所述处理器501，具体用于：针对所述每个视频封面类簇，获取所述相似度达到相似度阈值的视频在所述每个视频封面类簇中的数量占比；确定所述每个视频封面类簇中对应的数量占比最高的多个候选视频；根据发布时间从所述多个候选视频中确定出原版视频。

在一个可能的示例中，在所述根据发布时间从所述多个候选视频中确定出原版视频方面，所述处理器501，具体用于：比较所述每个视频封面类簇中对应的数量占比最高的多个候选视频的发布时间；将发布时间最早的候选视频作为原版视频。

在一个可能的示例中，在所述对所述多个视频的特征信息进行聚类得到多个视频封面类簇方面，所述处理器501，具体用于：对所述多个视频的标题进行文本聚类得到多个视频标题类簇；根据所述多个视频标题类簇确定目标视频集合；对所述目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇。

在一个可能的示例中，在所述对所述多个视频的标题进行文本聚类得到多个视频标题类簇方面，所述处理器501，具体用于：对所述多个视频中的每个视频的标题进行向量化处理，得到与所述多个视频的标题对应的多个标题向量；对所述多个标题向量进行文本聚类得到多个视频标题类簇。

在一个可能的示例中，在所述对所述目标视频集合中的视频的封面进行图像聚类得到多个视频封面类簇方面，所述处理器501，具体用于：提取所述目标视频集合中每个视频的封面的图像特征，得到与所述目标视频集合包括的多个视频对应的多个图像特征；对所述多个图像特征进行图像聚类得到多个视频封面类簇。

在一个可能的示例中，在所述获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度方面，所述处理器501，具体用于：获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面的哈希值；根据所述哈希值计算所述每个视频封面类簇包括的任意两个视频的封面之间的汉明距离；根据所述汉明距离确定所述任意两个视频的封面之间的相似度。

在一个可能的示例中，在所述根据所述多个视频标题类簇确定目标视频集合方面，所述处理器501，具体用于：获取所述多个视频标题类簇中每个视频标题类簇包括的视频的数量；从所述多个视频标题类簇中确定出包括的视频的数量达到第二数量阈值的目标视频标题类簇；根据所述目标视频标题类簇包括的视频确定目标视频集合。

具体实现中，本发明实施例中所描述的处理器501、存储装置502以及通信接口503可执行本发明实施例图2或图3A提供的原版视频识别方法的相关实施例中所描述的实现方式，也可执行本发明实施例图4提供的数原版视频识别的相关实施例中所描述的实现方式，在此不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如上述方法实施例中记载的任一方法的部分或全部步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种原版视频识别方法，其特征在于，所述方法包括：

根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频；

其中，所述对所述多个视频的特征信息进行聚类得到多个视频封面类簇，包括：

对所述多个视频中的每个视频的标题进行向量化处理，得到与所述多个视频的标题对应的多个标题向量；对所述多个标题向量进行文本聚类得到多个视频标题类簇；

根据所述多个视频标题类簇确定目标视频集合；

提取所述目标视频集合中每个视频的封面的图像特征，得到与所述目标视频集合包括的多个视频对应的多个图像特征；对所述多个图像特征进行图像聚类得到多个视频封面类簇。

2.根据权利要求1所述的方法，其特征在于，所述多个视频封面类簇中每个视频封面类簇包括的视频的数量达到第一数量阈值，所述根据所述相似度从所述多个视频封面类簇包括的视频中确定出原版视频，包括：

针对所述每个视频封面类簇，获取所述相似度达到相似度阈值的视频在所述每个视频封面类簇中的数量占比；

确定所述每个视频封面类簇中对应的数量占比最高的多个候选视频；

根据发布时间从所述多个候选视频中确定出原版视频。

3.根据权利要求2所述的方法，其特征在于，所述根据发布时间从所述多个候选视频中确定出原版视频，包括：

比较所述每个视频封面类簇中对应的数量占比最高的多个候选视频的发布时间；

将发布时间最早的候选视频作为原版视频。

4.根据权利要求1所述的方法，其特征在于，所述获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面之间的相似度，包括：

获取所述多个视频封面类簇中每个视频封面类簇包括的视频的封面的哈希值；

根据所述哈希值计算所述每个视频封面类簇包括的任意两个视频的封面之间的汉明距离；

根据所述汉明距离确定所述任意两个视频的封面之间的相似度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述多个视频标题类簇确定目标视频集合，包括：

获取所述多个视频标题类簇中每个视频标题类簇包括的视频的数量；

从所述多个视频标题类簇中确定出包括的视频的数量达到第二数量阈值的目标视频标题类簇；

根据所述目标视频标题类簇包括的视频确定目标视频集合。

6.一种原版视频识别装置，其特征在于，所述原版视频识别装置包括通信单元，处理单元，其中：

所述处理单元，还用于对所述多个视频的特征信息进行聚类得到多个视频封面类簇；其中，所述处理单元，具体用于：对所述多个视频中的每个视频的标题进行向量化处理，得到与所述多个视频的标题对应的多个标题向量；对所述多个标题向量进行文本聚类得到多个视频标题类簇；根据所述多个视频标题类簇确定目标视频集合；提取所述目标视频集合中每个视频的封面的图像特征，得到与所述目标视频集合包括的多个视频对应的多个图像特征；对所述多个图像特征进行图像聚类得到多个视频封面类簇；

7.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。