CN113762040A

CN113762040A - 视频识别方法、装置、存储介质及计算机设备

Info

Publication number: CN113762040A
Application number: CN202110476102.0A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-12-07
Anticipated expiration: 2041-04-29
Also published as: CN113762040B

Abstract

本申请实施例公开了一种视频识别方法、装置、存储介质及计算机设备，其中，该方法包括：获取待识别的第一视频，并对第一视频进行抽帧得到第一视频的多个视频片段；获取包含有多个候选视频的候选视频集合；计算多个视频片段中每个视频片段与候选视频集合中每个候选视频之间的图纹相似度，以根据图纹相似度从候选视频集合中确定出与第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应目标视频集合中的至少一个目标视频；计算目标视频集合中每两个目标视频的标题相似度；当每两个目标视频的标题相似度小于标题相似度阈值时，将第一视频识别为集锦视频，可以有效识别出视频标题未标注集锦标识的集锦视频，提升了视频识别的准确度。

Description

视频识别方法、装置、存储介质及计算机设备

技术领域

本申请涉及计算机技术领域，具体涉及一种视频识别方法、装置、存储介质及计算机设备。

背景技术

随着互联网技术的发展和移动终端的普及，短视频制作成本越来越低，使得每天上传到各类平台的短视频动则几十万、上百万。被上传的视频中存在大量的经过用户对原创视频进行二次创作后形成的新视频。其中，视频集锦为一种典型的二次创作手段，二次创作手段通常是对一些热门的、精彩的、或具有相同主题的短视频片段，经过剪辑、再拼接形成各种视频集锦。

对视频上传者来说，并不会对所有的集锦视频的标题标注“集锦”标识。而用户在检索比如“NBA集锦”等相关集锦视频或者系统向用户推荐相关集锦视频时，一般是通过识别视频标题中是否有“集锦”关键字来识别相应视频是否为相关集锦视频，由于有些集锦视频并未标注有集锦标识，导致用户在搜索相关集锦视频或者系统向用户推荐相关集锦视频时，一般都不能获取到未标注集锦标识的集锦视频。因此，目前通过视频标题中的集锦标识来识别是否为集锦视频的方式，识别的准确度较低。

发明内容

本申请实施例提供一种视频识别方法、装置、存储介质及计算机设备，可以有效识别出集锦视频，特别是可以有效识别出视频标题未标注集锦标识的集锦视频，提升了视频识别的准确度。

第一方面，提供一种视频识别方法，所述方法包括：

获取待识别的第一视频，并对所述第一视频进行抽帧得到所述第一视频的多个视频片段；

获取包含有多个候选视频的候选视频集合；

计算所述多个视频片段中每个视频片段与所述候选视频集合中每个候选视频之间的图纹相似度，以根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应所述目标视频集合中的至少一个目标视频；

计算所述目标视频集合中每两个目标视频的标题相似度；

当所述每两个目标视频的标题相似度小于标题相似度阈值时，将所述第一视频识别为集锦视频。

第二方面，提供一种视频识别装置，所述装置包括：

第一获取单元，用于获取待识别的第一视频，并对所述第一视频进行抽帧得到所述第一视频的多个视频片段；

第二获取单元，用于获取包含有多个候选视频的候选视频集合；

第一计算单元，用于计算所述多个视频片段中每个视频片段与所述候选视频集合中每个候选视频之间的图纹相似度，以根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应所述目标视频集合中的至少一个目标视频；

第二计算单元，用于计算所述目标视频集合中每两个目标视频的标题相似度；

识别单元，用于当所述每两个目标视频的标题相似度小于标题相似度阈值时，将所述第一视频识别为集锦视频。

第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的视频识别方法中的步骤。

第四方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的视频识别方法中的步骤。

本申请实施例提供了一种视频识别方法、装置、存储介质及计算机设备，通过获取待识别的第一视频，并对第一视频进行抽帧得到第一视频的多个视频片段；获取包含有多个候选视频的候选视频集合；计算多个视频片段中每个视频片段与候选视频集合中每个候选视频之间的图纹相似度，以根据图纹相似度从候选视频集合中确定出与第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应目标视频集合中的至少一个目标视频；计算目标视频集合中每两个目标视频的标题相似度；当每两个目标视频的标题相似度小于标题相似度阈值时，将第一视频识别为集锦视频。本申请实施例通过视频的图纹相似度比对和标题相似度比对来识别第一视频是否为集锦视频，有效识别出集锦视频，特别是可以有效识别出视频标题未标注集锦标识的集锦视频，提升了视频识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为申请实施例提供的视频识别方法的第一应用场景示意图。

图1b为申请实施例提供的视频识别方法的第二应用场景示意图。

图1c为本申请实施例提供的指纹提取模型的框架示意图。

图1d为本申请实施例提供的视频识别方法的流程示意图。

图1e为本申请实施例提供的视频识别方法的另一流程示意图。

图1f为申请实施例提供的视频识别方法的第三应用场景示意图。

图1g为申请实施例提供的视频识别方法的第四应用场景示意图。

图1h为申请实施例提供的视频识别方法的第五应用场景示意图。

图1i为申请实施例提供的视频识别方法的第六应用场景示意图。

图1j为申请实施例提供的视频识别方法的第七应用场景示意图。

图1k为申请实施例提供的视频识别方法的第八应用场景示意图。

图2a为本申请实施例提供的区块链网络的应用架构示意图。

图2b为本申请实施例提供的区块链网络21中区块链的可选的结构示意图。

图2c为本申请实施例提供的区块链网络21的功能架构示意图。

图3a为本申请实施例提供的视频识别装置的结构示意图。

图3b为本申请实施例提供的视频识别装置的另一结构示意图。

图4为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频识别方法、装置、计算机设备和存储介质。具体地，本申请实施例的视频识别方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

数据库(Database)，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统(英语：Database Management System，简称DBMS)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

其中，视频集锦为一种典型的二次创作手段，二次创作手段通常是对一些热门的、精彩的、或具有相同主题的短视频片段，经过剪辑、再拼接形成各种视频集锦，比如图1a示出的“科比瞬间”视频a、图1b示出的“搞笑集锦”视频b等都是属于某些短视频的集锦类二次创作。

对视频上传者来说，并不会对所有的集锦视频的标题标注“集锦”标识，如图1a示出的视频a，展现的是对科比致敬的NBA视频集锦，但视频标题中并未有标注“集锦”二字。而用户在检索比如“NBA集锦”等相关集锦视频或者系统向用户推荐相关集锦视频时，一般是通过识别视频标题中是否有“集锦”关键字来识别相应视频是否为相关集锦视频，由于有些集锦视频并未标注有集锦标识，导致用户在搜索相关集锦视频或者系统向用户推荐相关集锦视频时，一般都不能获取到如图1a示出的未标注集锦标识的集锦视频。因此，目前通过视频标题中的集锦标识来识别是否为集锦视频的方式，识别的准确度较低。

因此，本申请各实施例提供了一种视频识别方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以视频识别方法由服务器执行为例来进行说明。

一种视频识别方法，包括：获取待识别的第一视频，并对所述第一视频进行抽帧得到所述第一视频的多个视频片段；获取包含有多个候选视频的候选视频集合；计算所述多个视频片段中每个视频片段与所述候选视频集合中每个候选视频之间的图纹相似度，以根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应所述目标视频集合中的至少一个目标视频；计算所述目标视频集合中每两个目标视频的标题相似度；当所述每两个目标视频的标题相似度小于标题相似度阈值时，将所述第一视频识别为集锦视频。

请参阅图1c，图1c为本申请实施例提供的视频识别方法的应用场景示意图。以该视频识别方法由计算机设备10执行为例，其中，该计算机设备10可以为终端或者服务器等设备，该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机(Personal Computer，PC)等设备，终端还可以包括客户端，该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。该视频识别方法在由计算机设备100执行：获取待识别的第一视频，并对第一视频进行抽帧得到第一视频的多个视频片段；获取包含有多个候选视频的候选视频集合；计算多个视频片段中每个视频片段与候选视频集合中每个候选视频之间的图纹相似度，以根据图纹相似度从候选视频集合中确定出与第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应目标视频集合中的至少一个目标视频；计算目标视频集合中每两个目标视频的标题相似度；当每两个目标视频的标题相似度小于标题相似度阈值时，将第一视频识别为集锦视频。本申请实施例通过视频的图纹相似度比对和标题相似度比对来识别第一视频是否为集锦视频，有效识别出集锦视频，特别是可以有效识别出视频标题未标注集锦标识的集锦视频，提升了视频识别的准确度。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

请参阅图1d至图1k，图1d和图1e均为本申请实施例提供的视频识别方法的流程示意图，图1f至图1k均为本申请实施例提供的视频识别方法的应用场景示意图。该视频识别方法的具体流程可以如下：

步骤101，获取待识别的第一视频，并对所述第一视频进行抽帧得到所述第一视频的多个视频片段。

例如，该待识别的第一视频，可以是用户上传至客户端中待审核的视频，该客户端可以为视频客户端、浏览器客户端或即时通信客户端等。例如，该待识别的第一视频，也可以是已经上传并存储到数据库中的某些视频。例如，根据数据库中的视频的类别来选出待识别的第一视频，比如生活、比赛、体育等类别的视频容易存在集锦视频，因此可以从生活、比赛、体育等类别的视频中选出某些视频，特别是视频标题未标注集锦标识的某些视频，作为待识别的第一视频。其中，该数据库为用于保存用户上传的视频的电子化的文件柜。

在一些实施例中，所述对所述第一视频进行抽帧得到所述第一视频的多个视频片段，包括：根据所述第一视频的视频时长，确定与所述第一视频对应的抽帧间隔；根据所述抽帧间隔对所述第一视频进行抽帧，以得到所述第一视频的多个视频片段。

例如，集锦类视频通常是指在一个视频中会有多段从其他视频或源视频剪裁的片段，一般来说每个片段时长都不会特别短，且每个片段时长相对平均。因此，可以对待识别的第一视频按一个较长的时间间隔来抽帧。例如，该预设时间间隔可以根据经验直接设定。例如，该预设时间间隔也可以预先通过分析一些标记有“集锦”字样的集锦类视频来统计不同时长的视频一般会包含多少个不同的视频片段，从而形成一个预设词典，该预设词典包含了视频时长区间与视频片段平均个数的对应关系，不同的视频时长区间对应于不同的视频片段平均个数。词典的格式可以为(视频时长区间，视频片段平均个数)；然后根据当前待识别的第一视频的视频时长属于该预设词典的区间来选择特定的视频片段个数，进而得到具体的抽帧间隔t，抽帧间隔t可以表示为如下公式(1)：

抽帧间隔t＝视频时长/视频片段个数 (1)。

具体的，根据第一视频的视频时长，从预设词典中选择出对应的视频片段个数，并根据视频时长与视频片段个数的比值来确定与第一视频对应的抽帧间隔，然后根据抽帧间隔对第一视频进行抽帧，以得到第一视频的多个视频片段。

例如，一个待识别的第一视频的视频时长为24秒，对应的视频片段个数为3，则每间隔8秒抽取一帧，每个片段可以抽取一帧图片用作后续的图片比对。

例如，如果需要从每个视频片段抽取多帧图片时，可以基于上述计算出的抽帧间隔的基础上再根据每个视频片段的需抽取图片帧量来重新设定新的抽帧间隔，该新的抽帧间隔t’可以表示为如下公式(2)：

抽帧间隔t’＝视频时长/(视频片段个数*每个视频片段的需抽取图片帧量) (2)。

具体的，根据第一视频的视频时长，从预设词典中选择出对应的视频片段个数，并根据视频时长、视频片段个数和每个视频片段的需抽取图片帧量，来确定与第一视频对应的抽帧间隔，然后根据抽帧间隔对第一视频进行抽帧，以得到第一视频的多个视频片段。

例如，一个待识别的第一视频的视频时长为24秒，对应的视频片段个数为3，每个视频片段需抽取2个帧，则每间隔4秒抽取一帧，每个片段可以抽取两帧图片用作后续的图片比对。

步骤102，获取包含有多个候选视频的候选视频集合。

例如，该候选视频集合可以包括数据库中的所有视频。例如该候选视频集可以包括与第一视频属于同一类别的多个候选视频。比如待识别的第一视频为生活类视频时，获取的候选视频集合中的所有候选视频可以为生活类视频。

在一些实施例中，获取包含有多个候选视频的候选视频集合，包括：获取所述第一视频对应的类别标识；根据所述类别标识从数据库中选出具有相同类别标识的视频作为候选视频，以得到包含有多个候选视频的候选视频集合。

步骤103，计算所述多个视频片段中每个视频片段与所述候选视频集合中每个候选视频之间的图纹相似度，以根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应所述目标视频集合中的至少一个目标视频。

例如，目标视频可以为没有经过编辑的源视频，源视频即为原始视频文件。例如，目标视频也可以为编辑处理后的视频，比如其他用户采用源视频进行编辑处理后有别于原始视频文件的再编辑视频。其中，该目标视频的视频文件可以为包含有音频数据和视频数据的多媒体文件。其中视频数据包含有图像数据。视频文件的格式可以为AVI格式、QuickTime格式、RealVideo格式、NAVI格式、DivX格式或MPEG格式等。上述举例说明不作为对本申请实施例中视频文件格式的限定。其中，目标视频为完整的视频文件。

其中，图纹，是图片指纹的简称。图片指纹，又称图片哈希(Image Hash)，具体为将图片的高维内容特征映射到二值空间中，以生成一个能够表示图片的低维哈希序列。在计算图片间的图纹相似度之前，需要计算所述多个视频片段中每个视频片段中每一帧图片的图纹信息，以及计算所述候选视频集合中每个候选视频中每一帧图片的图纹信息。可以采用均值哈希(aHash)算法、差异值哈希(dHash)算法、感知哈希(pHash)算法等，对视频中每一帧图片进行计算生成每一帧图片对应的图纹信息(一个“指纹”字符串)，然后比对不同图片的图纹信息来判断图标的相似性，即计算图纹相似度。比对结果越接近，说明图片越相似。

其中，均值哈希(aHash)算法在进行图纹的计算时，需要把缩小后图片的像素与均值比较。aHash算法的计算速度较快，但是计算出的图纹不太精确。

其中，差异值哈希(dHash)算法在进行图纹的计算时，需要基于缩小后图片的像素，计算每行相连像素的强度差异。dHash算法的计算速度较快，接近上述aHash算法的计算速度，且dHash算法的准确度比aHash算法计算出的图纹的准确度高。

其中，感知哈希(pHash)算法在进行图纹的计算时，需要把缩小后图片先经过离散余弦变换(Discrete Cosine Transform，DCT)，然后再与均值比较。pHash算法的计算速度慢于aHash算法和dHash算法的计算速度，但是pHash算法计算出的图纹的准确度均高于aHash算法和dHash算法的准确度。

例如，pHash算法的基本原理如下：

(1)缩放图片：为了保留图片的结构，降低图片的信息量，需要去掉细节、大小和横纵比的差异，可以把图片统一缩放到预设尺寸的图片。比如将每张图片都统一缩放到32x32的图片。

(2)转换成灰度图：将缩放后的图片转换成灰度图，进一步简化计算量。

(3)DCT转换：对灰度图进行DCT转换，将图像信息压缩到左上角，并根据DCT系数矩阵提取DCT转换图片在左上角的NxN矩阵。比如DCT系数矩阵为8x8时，提取提取DCT转换图片在左上角8x8的矩阵；比如DCT系数矩阵为16x16时，提取提取DCT转换图片在左上角16x16的矩阵。DCT是一种特殊的傅立叶变换，将图片从像素域变换为频率域，并且DCT矩阵从左上角到右下角代表越来越高频率的系数，但是除左上角外，其他地方的系数为0或接近0，因此只保留左上角的低频区域；DCT转换舍弃高频系数(AC系数)，保留低频信息(DC系数)，高频系数一般保存的是图片的边界、纹理信息，低频信息主要是保存的图片中平坦区域信息。

其中，一维DCT变换可以表示为如下公式(3)和(4)：

其中，f(i)为原始的信号；F(u)是DCT变换后的系数表示第u个余弦变换值，u是广义频率变量，u＝1，2，…，N-1；N为原始信号的点数，c(u)为一个补偿系数，c(u)可以使DCT变换矩阵为正交矩阵。

二维离散余弦变换的正变换公式可以表示为如下公式(5)和(6)：

其中f(i,j)是空间域一个NxN的二维向量元素，即一个NxN的矩阵，i,j＝0，1，2，…，N-1；F(u,v)是经计算后得到的变换域矩阵，u,v＝0，1，2，…，N-1。

(4)计算DCT平均值：计算NxN矩阵中所有像素的DCT平均值。

(5)计算哈希值：将NxN矩阵中的每个像素与DCT平均值比较，大于平均值则记为1，小于平均值则记为0；根据计算的哈希均值组成64位二进制的图纹。

(6)对比图纹：计算两个图纹的汉明距离。汉明距离越小，两张图片越相似。两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数，即汉明距离是将一个字符串变换成另一个字符串所需要替换的字符个数。

本申请实施例考虑到传统pHash算法计算速度较慢，引入了分级计算pHash值的方式。即在进行两两视频的图片比对时，首先计算较小像素点的pHash值(即粗计算)，比如先计算8×8的pHash值；对于那些较小像素点的pHash值对应的汉明距离小于阈值M(M较大)的两两短视频再计算较大像素点的pHash值，比如计算16×16的pHash值，若较大像素点的pHash值对应的汉明距离小于阈值N(N较小)，则为对应图片为相似度较高的图片。

在一些实施例中，如图1e所示，步骤103可以通过步骤1031至步骤1037来实现，具体为：

步骤1031，根据第一DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片对应的第一哈希值。

在一些实施例中，所述根据第一DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片对应的第一哈希值，包括：

将所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片缩放为预设尺寸的图片；

将所有缩放后的图片转换成灰度图；

根据所述第一DCT系数矩阵对所述每个视频片段的每一帧图片的灰度图和所述候选视频集合中每个候选视频的每一帧图片的灰度图进行DCT变换得到对应的第一DCT均值；

根据所述第一DCT均值计算所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片对应的第一哈希值。

例如，该第一DCT系数矩阵可以为2x2矩阵至8x8矩阵之间的任一矩阵，该第一DCT系数矩阵可以包括2x2矩阵或者8x8矩阵。比如该第一DCT系数矩阵为8x8矩阵。此时计算得到的第一哈希值为较小像素点的哈希值。

步骤1032，分别将所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片依次基于所述第一哈希值进行图纹相似度比对，将所述候选视频集合的每个候选视频中比对的汉明距离小于第一阈值的图片确定为候选图片。

例如，第一阈值的取值范围为5至8。比如第一阈值为5。先采用较小像素点的pHash值进行粗略计算来筛选出候选图片，将候选视频集合的每个候选视频中比对的汉明距离小于第一阈值的图片确定为候选图片，只有候选图片所属的短视频才进行二次计算哈希值。且将候选视频集合的候选视频中比对的汉明距离不小于第一阈值的图片排除，排除了汉明距离较大的图片所属的短视频，减少后续计算过程中的计算量。后续计算过程中只需利用候选图片所属的候选视频继续与第一视频中的视频片段逐一比对，后续计算过程中并不需要比对候选视频集合中的所有候选视频，减少了计算量，提升了计算速度。

步骤1033，根据第二DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片对应的第二哈希值，其中所述第二DCT系数矩阵大于所述第一DCT系数矩阵。

在一些实施例中，所述根据第二DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片对应的第二哈希值，包括：根据所述第二DCT系数矩阵对所述每个视频片段的每一帧图片的灰度图和所述候选图片的灰度图进行DCT变换得到第二DCT均值；根据所述第二DCT均值计算所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片对应的第二哈希值。

例如，该第二DCT系数矩阵可以为大于8x8的矩阵，且不大于当前帧的像素的二分之一。比如该第二DCT系数矩阵为16x16矩阵。此时计算得到的第二哈希值为较大像素点的哈希值。

步骤1034，分别将所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片依次基于所述第二哈希值进行图纹相似度比对，将所述候选图片中比对的汉明距离小于第二阈值的图片确定为当前被比对的视频片段的相似图片，其中所述第二阈值小于所述第一阈值。

例如，第二阈值的取值范围为1至3。比如第二阈值为1。若较大像素点的pHash值对应的汉明距离小于阈值N(N较小)，则为对应图片为相似度较高的图片，将候选图片中比对的汉明距离小于第二阈值的图片确定为当前被比对的视频片段的相似图片。

步骤1035，根据所述相似图片的相似图数、所述第一视频片段的图片总数和所述相似图片所属的第一候选视频的图片总数，确定所述第一视频片段与所述第一候选视频之间的视频相似度。

在一些实施例中，所述根据所述相似图片的相似图数、所述第一视频片段的图片总数和所述相似图片所属的第一候选视频的图片总数，确定所述第一视频片段与所述第一候选视频之间的视频相似度，包括：获取所述第一视频片段的图片总数和所述相似图片所属的第一候选视频的图片总数中的最小值；根据所述相似图片的相似图数与所述最小值之间的比值，确定所述第一视频片段与所述第一候选视频之间的视频相似度。

例如，第一视频片段与所述第一候选视频之间的视频相似度，可以表示为如下公式(7)：

视频相似度＝相似图数/min(视频1片段图片总数，视频2片段图片总数)(7)；

其中，min函数表示返回一组值中的最小值；视频1片段图片总数表示当前被比对的第一视频片段的图片总数；视频2片段图片总数为所述相似图片所属的第一候选视频的图片总数。

步骤1036，当所述视频相似度大于视频相似度阈值时，将所述第一候选视频确定为与所述第一视频片段相匹配的目标视频。

其中，对于视频相似度大于某个视频相似度阈值Z的两个视频(当前被比对的视频片段1和某个候选视频2，则认为分别是当前待识别的第一视频的视频片段1和该视频片段1对应的目标视频2。

步骤1037，遍历所述多个视频片段中每个视频片段，以从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合。

通过前述步骤1031至1036，遍历所述多个视频片段中每个视频片段，逐个找出与每个视频片段对应的目标视频，然后即可以找出第一视频的多个视频片段对应的所有目标视频集合。

例如，待识别的第一视频为图1f所示的视频c，该视频c中并未标注有集锦标识，该视频c抽帧后得到三个视频片段(视频片段1、视频片段2、视频片段3)。通过前述步骤1031至1036，遍历视频c对应的三个视频片段中每个视频片段，逐个找出与每个视频片段对应的目标视频，比如视频片段1对应图1g所示的视频d，视频片段2对应图1h所示的视频e，视频片段3对应图1i所示的视频f，则得到的目标视频集合包括视频d、视频e和视频f。

在一些实施例中，在所述根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合之后，还包括：

当所述多个视频片段中的第二视频片段对应所述目标视频集合中的多个第二目标视频时，对所述第二视频片段与所述多个第二目标视频进行音频特征的特征提取，以及进行音频特征相似度比对，其中所述音频特征包括视频的语音、字幕、或者配乐中的至少一种；

将所述多个第二目标视频中比对的音频特征相似度小于音频特征相似度阈值的视频从所述目标视频集合中去除，以得到更新后的目标视频集合。

例如，在通过哈希值比对视频帧内容后得出目标视频集合之后，有些视频片段(比如第二视频片段)可能并不是对应唯一的目标视频，而是对应两个或两个以上的目标视频(比如多个第二目标视频)，此时为了找到与视频片段更相似的目标视频，可以通过局部特征的比对来进一步判断两两视频的相似度。比如通过音频特征的比对来进一步判断两两视频的相似度。具体的，需要对第二视频片段与多个第二目标视频进行音频特征的特征提取，以及进行音频特征相似度比对，然后将多个第二目标视频中比对的音频特征相似度小于音频特征相似度阈值的视频从目标视频集合中去除，以得到更新后的目标视频集合。若该音频特征相似度阈值为多个第二目标视频中比对的音频特征相似度中的最大音频特征相似度，则保留最大音频特征相似度对应的第二目标音频为最终的目标音频，而其他的第二音频需要从目标视频集合中去除，以得到更新后的目标视频集合，更新后的目标视频集合中包含的与第二视频片段对应的第二音频为最大音频特征相似度对应的第二目标音频。

其中，利用可以光学字符识别(Optical Character Recognition，OCR)来识别出视频音频特征中的语音、字幕、配乐等是否相似。

当所述多个视频片段中的第二视频片段对应所述目标视频集合中的多个第二目标视频时，对所述第二视频片段与所述多个第二目标视频进行关键对象信息的检测，以及进行关键对象信息的相似度比对，其中所述关键对象信息包括视频中的人物、场景、动物、或者建筑中的至少一种；将所述多个第二目标视频中比对的关键物体信息的相似度小于物体信息相似度阈值的视频从所述目标视频集合中去除，以得到更新后的目标视频集合。

例如，在通过哈希值比对视频帧内容后得出目标视频集合之后，有些视频片段(比如第二视频片段)可能并不是对应唯一的目标视频，而是对应两个或两个以上的目标视频(比如多个第二目标视频)，此时为了找到与视频片段更相似的目标视频，可以通过局部特征的比对来进一步判断两两视频的相似度。比如通过关键对象信息的检测来进一步判断两两视频的相似度。例如，通过物体识别或者场景识别来检测出关键对象信息，其中关键对象信息包括视频中的人物、场景、动物、或者建筑中的至少一种。具体的，需要对第二视频片段与多个第二目标视频进行关键对象信息的检测，以及进行关键对象信息的相似度比对；将多个第二目标视频中比对的关键物体信息的相似度小于物体信息相似度阈值的视频从所述目标视频集合中去除，以得到更新后的目标视频集合。若该音频特征相似度阈值为多个第二目标视频中比对的关键物体信息的相似度中的关键物体信息的最大相似度，则保留关键物体信息的最大相似度对应的第二目标音频为最终的目标音频，而其他的第二音频需要从目标视频集合中去除，以得到更新后的目标视频集合，更新后的目标视频集合中包含的与第二视频片段对应的第二音频为关键物体信息的最大相似度对应的第二目标音频。

其中，当更新后的目标视频集合中包含的与第二视频片段对应的第二音频为最大音频特征相似度对应的第二目标音频不是唯一的，则还可以在音频特征比对之后，再继续结合关键对象信息比对的方式进一步对比第二音频片段和大音频特征相似度对应的多个第二目标音频，进一步对第二目标音频进行筛选。直到找出与第二视频片段的图纹信息、音频特征和关键对象信息最相近的第二目标视频。其中，该第二视频片段并不是特指的片段，第二视频片段可以为多个视频片段中的任一视频片段。

步骤104，计算所述目标视频集合中每两个目标视频的标题相似度。

在一些实施例中，所述计算所述目标视频集合中每两个目标视频的标题相似度，包括：获取所述目标视频集合中每两个目标视频的标题句向量；计算所述目标视频集合中每两个目标视频的标题句向量的夹角余弦值；根据所述夹角余弦值，确定所述目标视频集合中每两个目标视频的标题相似度。

例如，对于目标视频集合，假如目标视频集合中不同短视频标题两两之间越不相关，即语义相似度越低，则说明这些目标视频是被上传者用来进行二次创作剪裁后聚合在一起得到的第一视频，因此，可以通过计算目标视频集合中两两视频标题的语义相似度来确定这些目标视频是的被用来制作集锦视频，其中设定余弦相似度阈值Z加以判定，余弦相似度越低，则认为目标视频集合中的目标视频本身并无太大关系，进而目标视频集合对应的待识别的第一视频越可能是集锦类视频。

例如，短视频标题相似度计算过程中，可以基于bert构建句向量并计算余弦(cos)相似度。其中，Bert是google开源的一个基于Transformer结构的预训练模型，其模型结构如图1j所示，该BERT模型结构由多层的双向Transformer连接而成，有12层和24层两个版本。通过开源的bert接口即可得bert向量化表示。本申请实施例利用已训练好的BERT模型来构建短视频的标题句向量，其中用来训练模型的训练样本的语料，包括视频的标题、文本、类别、简介等信息。

其中，在获得了两个短视频标题A和B的标题句向量之后，进一步进行余弦相似度的计算。余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估两者间的相似度。余弦相似度将标题句向量根据坐标值绘制到向量空间中，如最常见的二维空间。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而根据两个标题句向量之间的角度的余弦值来确定两个标题句向量是否大致指向相同的方向。两个标题句向量有相同的指向时，余弦相似度的值为1；两个标题句向量的夹角为90°时，余弦相似度的值为0；两个标题句向量指向完全相反的方向时，余弦相似度的值为-1。余弦相似度的结果与向量的长度无关的，仅与向量的指向方向相关。给出的相似性范围从-1到1：-1意味着两个向量指向的方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性。

其中，两个向量间的余弦值可以通过使用欧几里得点积公式求出，欧几里得点积公式可以表示为如下公式(8)：

A·B＝||A||||B||cos(θ) (8)。

例如，给定两个属性向量，A和B，其余弦相似度cos(θ)由点积和向量长度给出，余弦相似度cos(θ)可以表示为如下公式(9)：

在一些实施例中，所述计算所述目标视频集合中每两个目标视频的标题相似度，包括：计算所述更新后的目标视频集合中每两个目标视频的标题相似度。

例如，可以通过局部特征的比对来进一步判断两两视频的相似度，进而得到更新后的目标视频集合。比如基于两两视频之间的音频特征或者关键对象信息的比对，来从初步确定的目标视频集合中再筛选出与视频片段更相似的目标视频，进而得到更新后的目标视频集合，然后计算更新后的目标视频集合中每两个目标视频的标题相似度。

步骤105，当所述每两个目标视频的标题相似度小于标题相似度阈值时，将所述第一视频识别为集锦视频。

例如，对于目标视频集合，假如目标视频集合中不同短视频标题两两之间越不相关，即语义相似度越低，则说明这些目标视频是被上传者用来进行二次创作剪裁后聚合在一起得到的第一视频，因此可以通过计算目标视频集合中两两视频标题的语义相似度来确定这些目标视频是的被用来制作集锦视频，其中设定余弦相似度阈值Z加以判定，余弦相似度越低，则认为目标视频集合中的目标视频本身并无太大关系，进而目标视频集合对应的待识别的第一视频越可能是集锦类视频。因此，当每两个目标视频的标题相似度(标题的余弦相似度)小于标题相似度阈值(余弦相似度阈值Z)时，将第一视频识别为集锦视频。

在一些实施例中，在所述将所述第一视频识别为集锦视频之后，还包括：

对所述已识别为集锦视频的所述第一视频标注集锦标识。

其中，对已识别为集锦视频的第一视频进行集锦标注，以便后续更方便地进行视频的推荐或者便于用户搜索。被标记的第一视频也可以作为集锦类视频的训练样本。

例如，未标注的第一视频为图1f所示的视频c，通过对已识别为集锦视频的第一视频(视频c)进行集锦标注，得到如图lk所示的视频，该视频的下方标注有“集锦视频”字样的集锦标识。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例通过获取待识别的第一视频，并对第一视频进行抽帧得到第一视频的多个视频片段；获取包含有多个候选视频的候选视频集合；计算多个视频片段中每个视频片段与候选视频集合中每个候选视频之间的图纹相似度，以根据图纹相似度从候选视频集合中确定出与第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应目标视频集合中的至少一个目标视频；计算目标视频集合中每两个目标视频的标题相似度；当每两个目标视频的标题相似度小于标题相似度阈值时，将第一视频识别为集锦视频。本申请实施例通过视频的图纹相似度比对和标题相似度比对来识别第一视频是否为集锦视频，有效识别出集锦视频，特别是可以有效识别出视频标题未标注集锦标识的集锦视频，提升了视频识别的准确度。

其中，本申请实施例可结合云技术或区块链网络技术实现，云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(Infrastructure as a Service，IaaS)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

为了便于实现对第一视频、候选视频集合及视频识别结果的存储和查询，在一些实施例中，该视频识别方法还包括：将第一视频、候选视频集合及视频识别结果发送至区块链网络中，以使区块链网络的节点将第一视频、候选视频集合及视频识别结果填充至新区块，且当对新区块取得共识一致时，将新区块追加至区块链的尾部。

接下来对本申请实施例中的区块链网络进行说明。参见图2a，图2a为本申请实施例提供的区块链网络的应用架构示意图，包括区块链网络21(示例性示出了共识节点210-1至共识节点210-3)、认证中心22、业务主体23和业务主体24，下面分别进行说明。

区块链网络21的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的计算机设备例如用户终端和服务器(比如云端服务器)，都可以在不需要授权的情况下接入区块链网络21；以联盟链为例，业务主体在获得授权后其下辖的计算机设备(例如终端/服务器)可以接入区块链网络21，此时，如成为区块链网络21中的客户端节点，这里客户端指示对待识别的第一视频进行集锦视频识别的应用客户端。

在一些实施例中，客户端节点可以只作为区块链网络21的观察者，即提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)的功能，对于区块链网络21中的共识节点210的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务主体的具体业务需求)地实施。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络21中，通过区块链网络21实现数据和业务处理过程的可信和可追溯。

区块链网络21中的共识节点接收来自不同业务主体(例如图2a中示出的业务主体23和业务主体24)的客户端节点(例如，图2a中示出的归属于业务主体23的客户端节点230、以及归属于业务主体24的客户端节点240)提交的交易，执行交易以更新账本或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中进行显示。

例如，客户端节点230/240可以订阅区块链网络21中感兴趣的事件，例如区块链网络21中特定的组织/通道中发生的交易，由共识节点210推送相应的交易通知至客户端节点230/240，从而触发客户端节点230/240中相应的业务逻辑。

下面以多个业务主体接入区块链网络以实现第一视频、候选视频集合及视频识别结果的管理为例，说明区块链网络的示例性应用。参见图2a，管理环节涉及的多个业务主体，如业务主体23和业务主体24均可以是视频识别装置对应的客户端，从认证中心22进行登记注册获得各自的数字证书，数字证书中包括业务主体的公钥、以及认证中心22对业务主体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息，区块链网络21将根据身份进行验证，例如是否具有发起交易的权限。业务主体下辖的计算机设备(例如终端或者服务器)运行的客户端都可以向区块链网络21请求接入而成为客户端节点。

业务主体23的客户端节点230用于获取待识别的第一视频，并对第一视频进行抽帧得到第一视频的多个视频片段，且获取包含有多个候选视频的候选视频集合，并计算多个视频片段中每个视频片段与候选视频集合中每个候选视频之间的图纹相似度，以根据图纹相似度从候选视频集合中确定出与第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应目标视频集合中的至少一个目标视频，然后计算目标视频集合中每两个目标视频的标题相似度，当每两个目标视频的标题相似度小于标题相似度阈值时，将第一视频识别为集锦视频。业务主体23的客户端节点230还用于将第一视频、候选视频集合及视频识别结果发送至区块链网络21。

其中，将第一视频、候选视频集合及视频识别结果发送至区块链网络21的操作，可以预先在客户端节点230设置业务逻辑，当查找到有第一视频、候选视频集合及视频识别结果时，客户端节点230将第一视频、候选视频集合及视频识别结果自动发送至区块链网络21，也可以由业务主体23的业务人员在客户端节点230中登录，手动打包第一视频、候选视频集合及视频识别结果，并将其发送至区块链网络21。在发送时，客户端节点230根据第一视频、候选视频集合及视频识别结果生成对应更新操作的交易，在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数，交易中还携带了客户端节点230的数字证书、签署的数字签名(例如，使用客户端节点230的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络21中的共识节点210。

区块链网络21中的共识节点210接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体23的身份，确认业务主体23是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点210自己的数字签名(例如，使用节点210-1的私钥对交易的摘要进行加密得到)，并继续在区块链网络21中广播。

区块链网络21中的共识节点210接收到验证成功的交易后，将交易填充到新的区块中并进行广播。区块链网络21中的共识节点210广播新区块时，会对新区块进行共识过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交存储第一视频、候选视频集合及视频识别结果的交易，在状态数据库中添加包括第一视频、候选视频集合及视频识别结果的键值对。

业务主体24的业务人员在客户端节点240中登录，输入第一视频、候选视频集合及视频识别结果的查询请求，客户端节点240根据第一视频、候选视频集合及视频识别结果的查询请求生成对应更新操作/查询操作的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点240的数字证书、签署的数字签名(例如，使用客户端节点240的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络21中的共识节点210。

区块链网络21中的共识节点210接收到交易，对交易进行验证、区块填充及共识一致后，将填充的新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交的更新第一视频对应的视频识别结果的交易，根据第一视频对应的视频识别结果更新状态数据库中该第一视频对应的键值对；对于提交的查询第一视频对应的视频识别结果的交易，从状态数据库中查询第一视频对应的视频识别结果的键值对，并返回交易结果。

作为区块链的示例，参见图2b，图2b为本申请实施例提供的区块链网络21中区块链的一个可选的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后，将被追加到区块链的尾部从而形成链式的增长，各区块之间基于哈希值的链式结构，保证了区块中交易的防篡改和防伪造。

下面说明本申请实施例提供的区块链网络的示例性功能架构，参见图2c，图2c为本申请实施例提供的区块链网络21的功能架构示意图，包括应用层201、共识层202、网络层203、数据层204和资源层205，下面分别进行说明。

资源层205封装了实现区块链网络21中的各个节点210的计算资源、存储资源和通信资源。

数据层204封装了实现账本的各种数据结构，包括以文件系统中的文件实现的区块链，键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。

网络层203封装了点对点(P2P，Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

其中，P2P网络协议实现区块链网络21中节点210之间的通信，数据传播机制保证了交易在区块链网络21中的传播，数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点210之间传输数据的可靠性；接入认证机制用于根据实际的业务场景对加入区块链网络21的业务主体的身份进行认证，并在认证通过时赋予业务主体接入区块链网络21的权限；业务主体身份管理用于存储允许接入区块链网络21的业务主体的身份、以及权限(例如能够发起的交易的类型)。

共识层202封装了区块链网络21中的节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算法的可插拔。

交易管理用于验证节点210接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息)；对于获得接入区块链网络21的授权的业务主体而言，均拥有认证中心颁发的数字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的合法身份。

账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作，包括：根据区块向量号(例如交易的哈希值)查询区块；根据区块哈希值查询区块；根据交易向量号查询区块；根据交易向量号查询交易；根据业务主体的账号(向量号)查询业务主体的账号数据；根据通道名称查询通道中的区块链。

应用层201封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

采用本申请实施例提供的技术方案，通过获取待识别的第一视频，并对第一视频进行抽帧得到第一视频的多个视频片段；获取包含有多个候选视频的候选视频集合；计算多个视频片段中每个视频片段与候选视频集合中每个候选视频之间的图纹相似度，以根据图纹相似度从候选视频集合中确定出与第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应目标视频集合中的至少一个目标视频；计算目标视频集合中每两个目标视频的标题相似度；当每两个目标视频的标题相似度小于标题相似度阈值时，将第一视频识别为集锦视频。本申请实施例通过视频的图纹相似度比对和标题相似度比对来识别第一视频是否为集锦视频，有效识别出集锦视频，特别是可以有效识别出视频标题未标注集锦标识的集锦视频，提升了视频识别的准确度。同时，本申请实施例还可以将终端获取的第一视频，候选视频集合，以及将第一视频对应的多个视频片段与候选视频集合中的候选视频进行图纹相似度比对和标题相似度比对后得到的视频识别结果上链存储，实现记录的备份，当用户再次使用视频识别系统时，可直接、快速地从区块链上获取相应的第一视频、候选视频集合及视频识别结果，其中，该视频识别结果为第一视频对应的具有集锦标识或者非集锦标识的视频，而无需通过视频识别平台对获取的第一视频进行一系列处理后，才能够获得对应的视频识别结果，从而提高数据获取效率。

为便于更好的实施本申请实施例的视频识别方法，本申请实施例还提供一种视频识别装置。请参阅图3a和图3b，图3a和图3b均为本申请实施例提供的视频识别装置的结构示意图。其中，该视频识别装置200可以包括：

第一获取单元301，用于获取待识别的第一视频，并对所述第一视频进行抽帧得到所述第一视频的多个视频片段；

第二获取单元302，用于获取包含有多个候选视频的候选视频集合；

第一计算单元303，用于计算所述多个视频片段中每个视频片段与所述候选视频集合中每个候选视频之间的图纹相似度，以根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应所述目标视频集合中的至少一个目标视频；

第二计算单元304，用于计算所述目标视频集合中每两个目标视频的标题相似度；

识别单元305，用于当所述每两个目标视频的标题相似度小于标题相似度阈值时，将所述第一视频识别为集锦视频。

在一些实施例中，所述第一计算单元303，还包括：

第一计算子单元3031，用于根据第一DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片对应的第一哈希值；

第一比对子单元3032，用于分别将所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片依次基于所述第一哈希值进行图纹相似度比对，将所述候选视频集合的每个候选视频中比对的汉明距离小于第一阈值的图片确定为候选图片；

第二计算子单元3033，用于根据第二DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片对应的第二哈希值，其中所述第二DCT系数矩阵大于所述第一DCT系数矩阵；

第二比对子单元3034，用于分别将所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片依次基于所述第二哈希值进行图纹相似度比对，将所述候选图片中比对的汉明距离小于第二阈值的图片确定为当前被比对的视频片段的相似图片，其中所述第二阈值小于所述第一阈值；

第一确定子单元3035，用于根据所述相似图片的相似图数、所述第一视频片段的图片总数和所述相似图片所属的第一候选视频的图片总数，确定所述第一视频片段与所述第一候选视频之间的视频相似度；

第二确定子单元3036，用于当所述视频相似度大于视频相似度阈值时，将所述第一候选视频确定为与所述第一视频片段相匹配的目标视频；

第三确定子单元3037，用于遍历所述多个视频片段中每个视频片段，以从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合。

在一些实施例中，第一计算子单元3031，用于：将所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片缩放为预设尺寸的图片；将所有缩放后的图片转换成灰度图；根据所述第一DCT系数矩阵对所述每个视频片段的每一帧图片的灰度图和所述候选视频集合中每个候选视频的每一帧图片的灰度图进行DCT变换得到对应的第一DCT均值；根据所述第一DCT均值计算所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片对应的第一哈希值。

在一些实施例中，第二计算子单元3033，用于：根据所述第二DCT系数矩阵对所述每个视频片段的每一帧图片的灰度图和所述候选图片的灰度图进行DCT变换得到第二DCT均值；根据所述第二DCT均值计算所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片对应的第二哈希值。

在一些实施例中，第一确定子单元3035，用于：获取所述第一视频片段的图片总数和所述相似图片所属的第一候选视频的图片总数中的最小值；根据所述相似图片的相似图数与所述最小值之间的比值，确定所述第一视频片段与所述第一候选视频之间的视频相似度。

在一些实施例中，第二计算单元304，用于：获取所述目标视频集合中每两个目标视频的标题句向量；计算所述目标视频集合中每两个目标视频的标题句向量的夹角余弦值；根据所述夹角余弦值，确定所述目标视频集合中每两个目标视频的标题相似度。

在一些实施例中，第一计算单元303，用于根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合之后，还包括：当所述多个视频片段中的第二视频片段对应所述目标视频集合中的多个第二目标视频时，对所述第二视频片段与所述多个第二目标视频进行音频特征的特征提取，以及进行音频特征相似度比对，其中所述音频特征包括视频的语音、字幕、或者配乐中的至少一种；将所述多个第二目标视频中比对的音频特征相似度小于音频特征相似度阈值的视频从所述目标视频集合中去除，以得到更新后的目标视频集合。

在一些实施例中，所述第一计算单元303，用于根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合之后，还包括：当所述多个视频片段中的第二视频片段对应所述目标视频集合中的多个第二目标视频时，对所述第二视频片段与所述多个第二目标视频进行关键对象信息的检测，以及进行关键对象信息的相似度比对，其中所述关键对象信息包括视频中的人物、场景、动物、或者建筑中的至少一种；将所述多个第二目标视频中比对的关键物体信息的相似度小于物体信息相似度阈值的视频从所述目标视频集合中去除，以得到更新后的目标视频集合。

在一些实施例中，第二计算单元304，还用于计算所述更新后的目标视频集合中每两个目标视频的标题相似度。

在一些实施例中，第一获取单元301，还用于：根据所述第一视频的视频时长，确定与所述第一视频对应的抽帧间隔；根据所述抽帧间隔对所述第一视频进行抽帧，以得到所述第一视频的多个视频片段。

在一些实施例中，第二获取单元302，用于：获取所述第一视频对应的类别标识；根据所述类别标识从数据库中选出具有相同类别标识的视频作为候选视频，以得到包含有多个候选视频的候选视频集合。

在一些实施例中，识别单元305，还用于对所述已识别为集锦视频的所述第一视频标注集锦标识。

本申请实施例提供的视频识别装置300，通过第一获取单元301获取待识别的第一视频，并对第一视频进行抽帧得到第一视频的多个视频片段；第二获取单元302获取包含有多个候选视频的候选视频集合；然后第一计算单元303计算多个视频片段中每个视频片段与候选视频集合中每个候选视频之间的图纹相似度，以根据图纹相似度从候选视频集合中确定出与第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应目标视频集合中的至少一个目标视频；第二计算单元304计算目标视频集合中每两个目标视频的标题相似度；当每两个目标视频的标题相似度小于标题相似度阈值时，识别单元305将第一视频识别为集锦视频。本申请实施例通过视频的图纹相似度比对和标题相似度比对来识别第一视频是否为集锦视频，有效识别出集锦视频，特别是可以有效识别出视频标题未标注集锦标识的集锦视频，提升了视频识别的准确度。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机等设备。该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。如图4所示，该计算机设备可以包括射频(Radio Frequency，RF)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(Wireless Fidelity，WiFi)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解，图4中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器408处理；另外，将涉及上行的数据发送给基站。此外，RF电路401还可以通过无线通信与网络和其他设备通信。

存储器402可用于存储软件程序以及模块，处理器408通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。

输入单元403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

显示单元404可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板。

计算机设备还可包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。

音频电路406、扬声器，传声器可提供用户与计算机设备之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路406接收后转换为音频数据，再将音频数据输出处理器408处理后，经RF电路401以发送给比如另一计算机设备，或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

WiFi属于短距离无线传输技术，计算机设备通过WiFi模块407可帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽图4示出了WiFi模块407，但可以理解的是，其并不属于计算机设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器408是计算机设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。

计算机设备还包括给各个部件供电的电源409(比如电池)，优选的，电源可以通过电源管理系统与处理器408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，计算机设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，计算机设备中的处理器408会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中，并由处理器408来运行存储在存储器402中的计算机程序，从而实现各种功能：

获取待识别的第一视频，并对所述第一视频进行抽帧得到所述第一视频的多个视频片段；获取包含有多个候选视频的候选视频集合；计算所述多个视频片段中每个视频片段与所述候选视频集合中每个候选视频之间的图纹相似度，以根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合，其中每一视频片段对应所述目标视频集合中的至少一个目标视频；计算所述目标视频集合中每两个目标视频的标题相似度；当所述每两个目标视频的标题相似度小于标题相似度阈值时，将所述第一视频识别为集锦视频。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种视频识别方法中的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种视频识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频识别方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频识别方法，其特征在于，所述方法包括：

获取包含有多个候选视频的候选视频集合；

计算所述目标视频集合中每两个目标视频的标题相似度；

2.如权利要求1所述的视频识别方法，其特征在于，所述计算所述多个视频片段中每个视频片段与所述候选视频集合中每个候选视频之间的图纹相似度，以根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合，包括：

根据第一DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片对应的第一哈希值；

分别将所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片依次基于所述第一哈希值进行图纹相似度比对，将所述候选视频集合的每个候选视频中比对的汉明距离小于第一阈值的图片确定为候选图片；

根据第二DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片对应的第二哈希值，其中所述第二DCT系数矩阵大于所述第一DCT系数矩阵；

分别将所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片依次基于所述第二哈希值进行图纹相似度比对，将所述候选图片中比对的汉明距离小于第二阈值的图片确定为当前被比对的视频片段的相似图片，其中所述第二阈值小于所述第一阈值；

根据所述相似图片的相似图数、所述第一视频片段的图片总数和所述相似图片所属的第一候选视频的图片总数，确定所述第一视频片段与所述第一候选视频之间的视频相似度；

当所述视频相似度大于视频相似度阈值时，将所述第一候选视频确定为与所述第一视频片段相匹配的目标视频；

遍历所述多个视频片段中每个视频片段，以从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合。

3.如权利要求2所述的视频识别方法，其特征在于，所述根据第一DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选视频集合中每个候选视频的每一帧图片对应的第一哈希值，包括：

将所有缩放后的图片转换成灰度图；

4.如权利要求3所述的视频识别方法，其特征在于，所述根据第二DCT系数矩阵计算所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片对应的第二哈希值，包括：

根据所述第二DCT系数矩阵对所述每个视频片段的每一帧图片的灰度图和所述候选图片的灰度图进行DCT变换得到第二DCT均值；

根据所述第二DCT均值计算所述多个视频片段中每个视频片段的每一帧图片和所述候选图片的每一帧图片对应的第二哈希值。

5.如权利要求2所述的视频识别方法，其特征在于，所述根据所述相似图片的相似图数、所述第一视频片段的图片总数和所述相似图片所属的第一候选视频的图片总数，确定所述第一视频片段与所述第一候选视频之间的视频相似度，包括：

获取所述第一视频片段的图片总数和所述相似图片所属的第一候选视频的图片总数中的最小值；

根据所述相似图片的相似图数与所述最小值之间的比值，确定所述第一视频片段与所述第一候选视频之间的视频相似度。

6.如权利要求1-5任一项所述的视频识别方法，其特征在于，所述计算所述目标视频集合中每两个目标视频的标题相似度，包括：

获取所述目标视频集合中每两个目标视频的标题句向量；

计算所述目标视频集合中每两个目标视频的标题句向量的夹角余弦值；

根据所述夹角余弦值，确定所述目标视频集合中每两个目标视频的标题相似度。

7.如权利要求1所述的视频识别方法，其特征在于，在所述根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合之后，还包括：

8.如权利要求1所述的视频识别方法，其特征在于，在所述根据所述图纹相似度从所述候选视频集合中确定出与所述第一视频的多个视频片段相匹配的目标视频集合之后，还包括：

当所述多个视频片段中的第二视频片段对应所述目标视频集合中的多个第二目标视频时，对所述第二视频片段与所述多个第二目标视频进行关键对象信息的检测，以及进行关键对象信息的相似度比对，其中所述关键对象信息包括视频中的人物、场景、动物、或者建筑中的至少一种；

将所述多个第二目标视频中比对的关键物体信息的相似度小于物体信息相似度阈值的视频从所述目标视频集合中去除，以得到更新后的目标视频集合。

9.如权利要求7或8所述的视频识别方法，其特征在于，所述计算所述目标视频集合中每两个目标视频的标题相似度，包括：

计算所述更新后的目标视频集合中每两个目标视频的标题相似度。

10.如权利要求1所述的视频识别方法，其特征在于，所述对所述第一视频进行抽帧得到所述第一视频的多个视频片段，包括：

根据所述第一视频的视频时长，确定与所述第一视频对应的抽帧间隔；

根据所述抽帧间隔对所述第一视频进行抽帧，以得到所述第一视频的多个视频片段。

11.如权利要求1所述的视频识别方法，其特征在于，所述获取包含有多个候选视频的候选视频集合，包括：

获取所述第一视频对应的类别标识；

根据所述类别标识从数据库中选出具有相同类别标识的视频作为候选视频，以得到包含有多个候选视频的候选视频集合。

12.如权利要求1所述的视频识别方法，其特征在于，在所述将所述第一视频识别为集锦视频之后，还包括：

对所述已识别为集锦视频的所述第一视频标注集锦标识。

13.一种视频识别装置，其特征在于，所述装置包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-12任一项所述的视频识别方法中的步骤。

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1-12任一项所述的视频识别方法中的步骤。