CN113407779A

CN113407779A - 一种视频检测方法、设备及计算机可读存储介质

Info

Publication number: CN113407779A
Application number: CN202110047420.5A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-09-17

Abstract

本申请提供了一种视频检测方法、设备及计算机可读存储介质；方法包括：获取待检测视频；基于待检测视频，从视频资源库中进行视频召回，得到待对比视频；分离待检测视频对应的音频信息，得到待检测音频，提取待检测音频在音频特性上的特征，得到待检测音频指纹，音频特性为音频信息在听觉上的特性；分离待对比视频对应的音频信息，得到待对比音频，提取待对比音频在音频特性上的特征，得到待对比音频指纹；对比待检测音频指纹与待对比音频指纹，基于对比结果确定待检测视频针对待对比视频的视频检测结果，视频检测结果为待检测视频针对待对比视频是否是重复视频的检测结果。通过本申请，能够基于人工智能技术提升视频检测的准确度。

Description

一种视频检测方法、设备及计算机可读存储介质

技术领域

本申请涉及人工智能领域的视频处理技术，尤其涉及一种视频检测方法、设备及计算机可读存储介质。

背景技术

随着社交网络的快速发展，视频逐渐成为了移动互联网的主导内容形态之一。由于视频具有参与性强和传播价值高等特点，因此，视频的上传量越来越大；从而，需要对视频进行快速审核，以完成视频的发布。

一般来说，为了对视频进行审核，通常是利用人工智能技术，从视频的画面、标题方面对视频进行检测，以确定检测的视频是否与已上传的视频构成重复视频。然而，上述视频检测的过程中，由于是基于视频画面和标题进行的检测，比如针对“讲座的系列视频”，视频间在画面和标题方面是类似的，从而，所获得的检测结果中，常常误将“讲座的系列视频”确定为重复的视频。因此，视频检测的准确度较低。

发明内容

本申请实施例提供一种视频检测方法、设备及计算机可读存储介质，能够提升视频检测的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频检测方法，包括：

获取待检测视频；

基于所述待检测视频，从视频资源库中进行视频召回，得到待对比视频；

分离所述待检测视频对应的音频信息，得到待检测音频，并提取所述待检测音频在音频特性上的特征，得到待检测音频指纹，其中，所述音频特性为音频信息在听觉上的特性；

分离所述待对比视频对应的音频信息，得到待对比音频，并提取所述待对比音频在所述音频特性上的特征，得到待对比音频指纹；

对比所述待检测音频指纹与所述待对比音频指纹，基于对比结果确定所述待检测视频针对所述待对比视频的视频检测结果，其中，所述视频检测结果为所述待检测视频针对所述待对比视频是否是重复视频的检测结果。

本申请实施例提供一种视频检测装置，包括：

视频获取模块，用于获取待检测视频；

视频召回模块，用于基于所述待检测视频，从视频资源库中进行视频召回，得到待对比视频；

特征获取模块，用于分离所述待检测视频对应的音频信息，得到待检测音频，并提取所述待检测音频在音频特性上的特征，得到待检测音频指纹，其中，所述音频特性为音频信息在听觉上的特性；

所述特征获取模块，还用于分离所述待对比视频对应的音频信息，得到待对比音频，并提取所述待对比音频在所述音频特性上的特征，得到待对比音频指纹；

视频检测模块，用于对比所述待检测音频指纹与所述待对比音频指纹，基于对比结果确定所述待检测视频针对所述待对比视频的视频检测结果，其中，所述视频检测结果为所述待检测视频针对所述待对比视频是否是重复视频的检测结果。

在本申请实施例中，所述特征获取模块，还用于基于预设帧单元，从所述待检测音频中抽取多帧子待检测音频；提取所述多帧子待检测音频中的每帧子待检测音频在所述音频特性上的特征，获得初始子待检测音频指纹；对所述初始子待检测音频指纹进行降维，得到子待检测音频指纹，从而得到与所述待检测音频对应的多帧子待检测音频指纹，其中，所述待检测音频指纹包括所述多帧子待检测音频指纹。

在本申请实施例中，所述特征获取模块，还用于对所述待检测音频进行预加重处理，得到待分帧音频。

在本申请实施例中，所述特征获取模块，还用于基于所述预设帧单元，从所述待分帧音频中抽取所述多帧子待检测音频。

在本申请实施例中，所述特征获取模块，还用于基于预设采样频率对所述待检测音频进行采样，得到多个采样点；在所述多个采样点中，从首个采样点开始，依次选择预设采样点数的采样点组合为一帧子待检测音频，并持续从采样点的选择结束位置前的预设重叠采样点数对应的位置处，选择所述预设采样点数的采样点组合为下一帧子待检测音频，直到所述多个采样点被选择处理完，得到所述多帧子待检测音频，其中，所述预设帧单元是基于预设采样频率和所述预设采样点数确定的。

在本申请实施例中，所述特征获取模块，还用于对所述多帧子待检测音频中的所述每帧子待检测音频进行加窗处理，得到子待变换音频；将所述子待变换音频变换为频域上的能量分布，得到子待检测频谱，获取所述子待检测频谱的功率谱，得到子待检测功率谱；对所述子待检测功率谱进行平滑处理，得到子平滑功率谱；对所述子平滑功率谱的对数能量进行逆变换，并获取逆变换结果的预设阶数的音频特性参数；获取所述音频特性参数的差分参数，以及所述每帧子待检测音频的帧能量，从而得到包括所述音频特性参数、所述差分参数和所述帧能量中的一种或多种的所述初始子待检测音频指纹。

在本申请实施例中，所述特征获取模块，还用于针对所述初始子待检测音频指纹中的每个初始采样点音频指纹，去除最低频特征，得到S-1维特征，其中，所述初始子待检测音频指纹包括所述预设采样点数的初始采样点音频指纹，所述每个初始采样点音频指纹包括S维特征，S为大于1的正整数；基于预设类别数量对所述S-1维特征进行聚类降维，得到所述预设类别数量的聚类类别；将所述聚类类别的聚类中心信息确定为所述每个初始采样点音频指纹的采样点音频指纹，从而得到与初始子待检测音频指纹对应的所述子待检测音频指纹，其中，所述子待检测音频指纹包括所述预设采样点数的采样点音频指纹。

在本申请实施例中，所述视频检测模块，还用于将所述待检测音频指纹中的每帧子待检测音频指纹，分别与所述待对比音频指纹中的每帧子待对比音频指纹进行一一对比，得到所述每帧子待检测音频指纹与所述每帧子待对比音频指纹对应的所述对比结果；当所述对比结果中存在预设规律信息时，确定所述待检测视频针对所述待对比视频为重复视频的所述视频检测结果，其中，所述预设规律信息为所述每帧子待检测音频指纹与所述每帧子待对比音频指纹之间的相似性趋势；当所述对比结果中不存在所述预设规律信息时，确定所述待检测视频针对所述待对比视频为非重复视频的所述视频检测结果。

在本申请实施例中，所述视频检测模块，还用于将所述每帧子待检测音频指纹作为矩阵的一维属性，所述每帧子待对比音频指纹作为矩阵的另一维属性，所述对比结果作为矩阵的元素，构建相似矩阵；基于预设相似值与展示颜色的对应关系，将所述相似矩阵转换为相似矩阵图；当所述相似矩阵图中的对角线位置处的各个展示颜色与预设颜色之间的颜色差值小于颜色差阈值时，确定所述对比结果中存在所述预设规律信息；当所述相似矩阵图中的对角线位置处的各个展示颜色与预设颜色之间的颜色差值不小于所述颜色差阈值时，确定所述对比结果中不存在所述预设规律信息。

在本申请实施例中，所述视频召回模块，还用于获取所述待检测视频对应的视频召回特征，其中，所述视频召回特征包括内容语义特征、文本语义特征、标题语义特征、正文语义特征、帧图像语义特征和封面图语义特征中的一种或多种；获取所述视频资源库中的各个视频分别对应的待召回特征，其中，所述待召回特征与所述视频召回特征在特征类型上对应；基于所述视频召回特征分别与各个待召回特征之间的召回相似值，从所述各个待召回特征中，确定与所述视频召回特征相似的目标待召回特征，其中，所述召回相似值包括欧式距离、向量点积值和余弦相似值中的一种或多种；将所述视频资源库中，与所述目标待召回特征对应的视频作为召回视频，从而得到属于所述召回视频的所述待对比视频。

在本申请实施例中，所述视频召回模块，还用于获取所述视频召回特征对应的召回特征索引，以及所述各个待召回特征对应的各个召回特征索引，其中，所述各个待召回特征与所述各个召回特征索引一一对应；将所述召回特征索引分别与所述各个召回特征索引的匹配度，作为所述召回相似值，并基于所述召回相似值，从所述各个待召回特征中，确定与所述视频召回特征相似的所述目标待召回特征。

在本申请实施例中，所述视频获取模块，还用于接收任务调度设备发送的视频检测请求，其中，所述视频检测请求是所述任务调度设备响应于视频生产端设备发送的视频上传请求生成的；响应于所述视频检测请求，从内容存储设备中获取所述待检测视频。

在本申请实施例中，所述视频检测装置还包括结果处理模块，用于当所述视频检测结果为所述待检测视频针对所述待对比视频为重复视频时，将所述视频检测结果发送至后续检测设备，以使所述后续检测设备针对所述视频检测结果生成后续检测请求，并响应于所述后续检测请求获取所述待检测视频的目标检测结果。

在本申请实施例中，所述视频检测装置，还用于当所述视频检测结果为所述待检测视频针对所述待对比视频为非重复视频时，将所述待检测视频发送至任务调度设备，以使所述任务调度设备基于获取的推荐信息通过内容分发设备，向内容消费端设备推送所述待检测视频，以使所述内容消费端设备播放所述待检测视频。

本申请实施例提供一种视频检测设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的视频检测方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的视频检测方法。

本申请实施例至少具有以下有益效果：在将待检测视频与召回的待对比视频进行对比时，由于是通过将待检测视频的音频信息在音频特性上的特征，与待对比视频的音频信息在音频特性上的特征进行对比，来确定的所述待检测视频针对所述待对比视频是否是重复视频的视频检测结果；而音频特性为音频信息在听觉上的特征，比如，音量、音质和音色，以及诸如“讲座的系列视频”这类视频，在音频特性上是存在差异的；因此，能够对诸如“讲座的系列视频”这类画面、标题类似的视频是否是重复视频进行准确的识别，从而，能够提升视频检测的准确度。

附图说明

图1是一种示例性的视频检测流程示意图；

图2是本申请实施例提供的视频检测系统的一个可选的架构示意图；

图3是本申请实施例提供的图2中的一种服务器的组成结构示意图；

图4是本申请实施例提供的视频检测方法的一个可选的流程示意图；

图5是本申请实施例提供的视频检测方法的另一个可选的流程示意图；

图6是本申请实施例提供的视频检测方法的一个可选的交互流程示意图；

图7是本申请实施例提供的一种示例性的视频检测系统的组成结构图；

图8是本申请实施例提供的一种示例性的获取音频指纹的流程示意图；

图9是本申请实施例提供的一种示例性的梅尔频率与音频频率的线性关系示意图；

图10是本申请实施例提供的一组示例性的梅尔尺度的三角形滤波器的滤波结果示意图；

图11是本申请实施例提供的一种示例性的矩阵相似图的示意图；

图12是本申请实施例提供的另一种示例性的矩阵相似图的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

2)机器学习(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

3)人工神经网络，是一种模仿生物神经网络结构和功能的数学模型，本申请实施例中人工神经网络的示例性结构包括深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent NeuralNetwork，RNN)等。

4)响应于，用于表示所执行的处理所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个请求可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个请求不存在执行先后顺序的限制。

5)Feeds流，称为消息来源，又称为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源等，是一种资料格式，网站通过Feeds流将最新资讯传播给用户，即Feeds流是持续更新并呈现给用户的信息流。通常Feeds流以时间轴方式排列，时间轴是Feeds流最基本的展示形式。用户能够订阅网站的先决条件是，网站提供了消息来源。另外，将Feeds流汇流于一处称为聚合(aggregation)，而用于聚合的软体称为聚合器(aggregator)；其中，聚合器是专门用来订阅网站的资讯的软件，比如RSS(Really Simple Syndication，简易信息聚合)阅读器、“feed”阅读器、新闻阅读器等。

6)MCN(Multi-Channel Network，多频道网络)，用于通过将PGC内容联合起来，在资本的有力支持下，保障内容的持续输出，从而最终实现商业的稳定变现。也就是说，MCN一方面帮助内容生产者(包括本申请实施例中的视频生产端设备)专注于内容创作，另一方面对接平台、粉丝进行包装、强化推广以及推动变现。

7)PGC(Professional Generated Content，专业生产内容(比如，视频网站)或专家生产内容(比如，微博))，用来指内容个性化、视角多元化、传播民主化、社会关系虚拟化的内容生成者，也称为PPC(Professionally-produced Content，专业生产内容)。

8)短视频，即短片视频，一种互联网内容传播方式，一般是指在互联网新媒体上传播的时长在5分钟以内的视频传播内容；通常为在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容，几秒到几分钟不等。内容融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头采访、公益教育、广告创意、商业定制等主题。由于短视频的内容较短，因此，可以单独成片，也可以成为系列栏目。另外，短视频的制作不同于微电影和直播，无需具有特定的表达形式和团队配置要求，具有生产流程简单、制作门槛低、参与性强等特点，又比直播更具有传播价值；短视频的出现丰富了新媒体原生广告的形式。因此，短视频将逐渐成为移动互联网的主导内容形态之一，并在一定程度上替代图文内容消费，以及在新闻、社交平台等图文媒体中逐渐取得主导地位。短视频通常以Feeds流形式展示出来供用户快速刷新；比如，脸书(Facebook)首页的“News Feed”(一个新型聚合器)，订阅源是好友或关注的对象，视频内容是好友或关注的对象公开发布的动态，当好友数量较多且活跃时，就可以收到不断更新的内容；另外，微博、知乎和“qq”看点也类似。本申请实施例中，待检测视频包括短视频。

9)视频，属于推荐给内容消费端设备的用户阅读的内容，包括竖版的小视频和横版的短视频等，通常来源于PGC、MCN或者UGC(User-generated Content，用户生产内容)，并以Feeds流的形式提供。其中，推荐给内容消费端设备的用户阅读的内容还包括图文、图片等，而图文通常是自媒体开一个公众号后主动编辑发布的包括竖版的小图文和横版的短图文。

10)聚类，一种无监督的分类方式；比如K-means聚类(k-means clusteringalgorithm，K均值聚类算法)，一种迭代求解的聚类分析算法，步骤包括：如果将数据分为K组，则首先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；聚类中心以及分配给它们的对象就代表一个聚类；每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，也可以是没有(或最小数目)聚类中心再发生变化，还可以是误差平方和局部最小。

11)FFmpeg，一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序；在本申请实施例中，可以通过FFmpeg分离视频中的音频信息。

12)Faiss，一种近似近邻搜索库，为稠密向量提供高效相似度搜索和聚类，支持大规模向量的搜索；通过Faiss，在给定检索矢量时，能够获得在欧几里得距离上最接近这个矢量或者最高向量点积或者最大余弦相似值的数据库对象列表。通常，Faiss通过并行计算中的理论(OpenMP)、堆排序、矢量量化方法(PQ算法)、倒排索引、K-means聚类和主成分分析等关键技术实现聚类与检索。

需要说明的是，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

另外，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开了研究和应用；例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等；随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。在本申请实施例中，将针对人工智能在视频处理领域的应用进行说明。

还需要说明的是，社交网络源自网络社交，网络社交的起点是电子邮件。互联网本质上就是计算机之间的联网，早期的电子邮件(E-mail)解决了远程的邮件传输的问题，也是互联网上最普及的应用，同时它也是网络社交的起点。BBS(Bulletin Board System，电子公告板)，把“群发”和“转发”常态化，在理论上实现了向所有人发布信息并讨论话题的功能，成为早期的互联网内容自发产生的平台。最近，由于智能手机的全面普及，Wi-Fi(无线相容性认证)设施的无处不在，移动资费的普遍降低，在当下移动互联网时代的强语境下，用户接受信息的需求，正在从图文时代向视频化时代过渡。

目前，随着互联网的快速发展的时代，以及内容生产的门槛降低，视频(包括短视频)的上传量发布量以指数级的速度增长；其中，这些视频来源包括各种各样内容创作机构，比如，自媒体和机构的PGC、UGC内容，又比如，以“qq”公众号及浏览器为基础依托的看点业务。在视频的上传量大幅增长的情况下，为了保证分发内容的安全性、时效性和视频内容本身版权来源方的利益，需要在很短时间内完成视频内容的审核，比如，内容的黄赌毒、是否是政治敏感、内容质量、以及安全性的识别和处理。另外，视频平台为了鼓励创作内容，对视频内容都有相关的补贴和激励机制，视频内容创作者为了提升自己的收益，会上传大量类似(对视频进行简单的编辑修改，比如视频标题，水印，加入广告的片头和片尾，修改音频比如变声，调整音频播放速度等等)或者直接拷贝抄袭、修改或者替换一下封面，或者对视频内容做些删改的视频；上述处理视频的方式阻止了正常号主内容的启用，同时挤占大量的流量，不利于整个视频内容生态的健康发展。因此，需要对小视频、短视频等视频进行审核，以及精准地对视频进行审核，以完成小视频、短视频等视频的发布。

一般来说，为了对视频进行审核，通常主要从标题是不是相似，画面是不是相似(包括封面图和视频内容)进行判断；比如，根据视频内标题的显著特征，采用精确串和正则表达式匹配算法自动提取视频标题，形成以正则表达式表示的视频扩展名。当新视频文件到来时，再次使用正则表达匹配算法，判断其是否出现过，从而实现网络视频的去重。这里，当视频标题相似，画面不相似时候，是不同的内容，比如不同人拍摄的一个事故处理的不同阶段；当标题不一样，但是画面内容一样，这个很可能是修改了标题重新发布，认为是重复的内容；然而，存在标题一样，画面也一样，但是声音不一样的情况，比如一个歌手在演唱会上唱不同的歌的视频，或者一个老师培训讲座不同的章节的视频，又或者播音员播放天气预报的视频，再或者“白纸黑字书法”视频，等等，这些视频都是不同的视频。当以画面和标题为主进行视频检测时，常常误将画面和标题类似，但是音频不同的视频内容确定为重复的视频，即对于画面和标题类似，但是音频不同的视频内容，识别的效果和效率均较低。

另外，对视频进行审核时，除了从标题和画面两方面对视频进行检测，还可以基于音频的特征进行；该音频的特征比如为“chromaprint”特征。参见图1，图1是一种示例性的视频检测流程示意图；如图1所示，该示例性的视频检测流程包括音频提取1-1、音频指纹提取1-2和音频相似度计算1-3；其中：音频提取1-1时，对视频1-11进行音频1-12的提取，并存储在存储服务1-13(比如，COS(Cloud Object Storage，对象存储服务))中。音频指纹提取1-2中，首先，从存储服务1-13中读取音频1-12，将音频1-12拆分成重叠的片段1-21，并利用STFT(Short-Time Fourier transform，短时傅里叶变换)将重叠的片段1-21转换为声谱图1-22，以及将声谱图1-22转换为音符图1-23；然后，利用滤波器1-24对音符图1-23进行二值化滤波，得到滤波结果1-25，这里，滤波器1-24是利用音频训练样本1-26，并采用“Asymmetric Pairwise Boosting Algorithm”技术训练得到；最后，获取滤波结果1-25的音频指纹1-27，并将音频指纹1-27存储至存储服务1-28(比如，存储服务CKV)中。音频相似度计算1-3时，首先，从存储服务1-28中读取音频指纹对1-31(其中，音频指纹对1-31中的一个音频指纹为音频指纹1-27，另一音频指纹为待对比视频的音频指纹，获取方式与音频指纹1-27的获取方式相同)，然后，计算音频指纹对1-31的编辑距离，并基于编辑距离得到音频相似度1-32，参见式(1)：

similarity＝1-d/(l₁+l₂) (1)

其中，d为音频指纹对1-31的编辑距离(这里，替换操作的距离为2)，l₁和l₂音频指纹对1-31中两个音频指纹分别对应的特征长度，similarity为音频相似度1-32。

最后，判断音频相似度1-32是否大于相似度阈值，以基于判断结果得到视频1-11和待对比视频是否为重复视频的检测结果1-33。

基于上述描述的示例性的视频检测流程，由于所获得的音频指纹为“chromaprint”特征，而“chromaprint”特征主要是利用乐理将信号频谱分段处理的，讲座、培训、大量电视剧、事实类型视频等中，音频部分的区别主要在于人声部分，并不是乐理部分，故仍无法识别本质(标题和画面)上相同，音频的音量、音质、音色上存在不同程度差异的视频；从而，无法对画面和标题类似，但是音频不同的视频进行准确检测。因此，视频检测的准确度较低。

基于此，本申请实施例提供一种视频检测方法、装置、设备和计算机可读存储介质，能够提升视频检测的准确度，下面说明本申请实施例提供的视频检测设备的示例性应用，本申请实施例提供的视频检测设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明视频检测设备实施为服务器时的示例性应用。

参见图2，图2是本申请实施例提供的视频检测系统的一个可选的架构示意图；如图2所示，为支撑一个视频检测应用，在视频检测系统100中，终端400(示例性示出了终端400-1和终端400-2，其中，终端400-1为视频生产端设备，终端400-2为内容消费端设备)通过网络300连接服务器200(视频检测设备)，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该视频检测系统100中，还包括数据库500，用于在服务器200进行视频检测时，向服务器200提供数据支持。

终端400-1，用于通过发布控件在接收到待检测视频时，通过网络300向服务器200发送待检测视频；还用于通过网络300接收服务器200发送的视频检测结果。

服务器200，用于通过网络300获取终端400-1发送的待检测视频；基于待检测视频，通过数据库500从视频资源库中进行视频召回，得到待对比视频；分离待检测视频对应的音频信息，得到待检测音频，并提取待检测音频在音频特性上的特征，得到待检测音频指纹，其中，音频特性为音频信息在听觉上的特性；分离待对比视频对应的音频信息，得到待对比音频，并提取待对比音频在音频特性上的特征，得到待对比音频指纹；对比待检测音频指纹与待对比音频指纹，基于对比结果确定待检测视频针对待对比视频的视频检测结果，其中，视频检测结果为待检测视频针对待对比视频是否是重复视频的检测结果。还用于基于视频检测结果，通过网络300向终端400-2发送待检测视频，并通过网络300向终端400-1发送视频检测结果。

终端400-2，用于通过网络300接收服务器200发送的待检测视频，并在图形界面上播放待检测视频。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图3，图3是本申请实施例提供的图2中的一种服务器的组成结构示意图，图3所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、Wi-Fi、和通用串行总线(USB，Universal SerialBus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的视频检测装置可以采用软件方式实现，图3示出了存储在存储器250中的视频检测装置255，其可以是程序和插件等形式的软件，包括以下软件模块：视频获取模块2551、视频召回模块2552、特征获取模块2553、视频检测模块2554和结果处理模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的视频检测装置可以采用硬件方式实现，作为示例，本申请实施例提供的视频检测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频检测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面，将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的视频检测方法。

参见图4，图4是本申请实施例提供的视频检测方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

S401、获取待检测视频。

在本申请实施例中，当视频生产端设备接收到用户发布的视频，比如，PGC、MCN或者UGC生产的视频时，视频检测设备也就获取到待检测视频。

需要说明的是，待检测视频为待进行去重检测的视频，去重检测即检测待检测视频是否与已发布的视频构成重复视频；且该待检测视频包括音频信息；以及待检测视频可以为短视频类型的视频，也可以为非短视频类型的其他视频等，本申请实施例对此不作具体限定。另外，视频生产端设备与视频检测设备之间建立了通讯连接，该通讯连接可以是直接的通讯连接，还可以是通过中间设备建立的通讯连接，本申请实施例对此不作具体限定。

S402、基于待检测视频，从视频资源库中进行视频召回，得到待对比视频。

在本申请实施例中，视频检测设备能够获取到用户之前(发布待检测视频之前，即获取到待检测视频之前)发布的视频，或者视频检测设备中存储着用户之前发布的视频，即视频资源库；从而，视频检测设备获得了待检测视频之后，为了对待检测视频进行去重检测，从视频资源库中召回与待检测视频满足相似度条件的视频，基于召回的视频，也就得到了待对比视频。

需要说明的是，视频资源库为获取到待检测视频之前所获得的各个视频构成的集合；另外，进行视频召回时，可以是基于待检测视频的标题和/或画面进行的(此时，待对比视频为与待检测视频在标题和/或画面上满足相似度条件的视频)，还可以是基于待检测视频的其他内容进行的；以及，待对比视频可以为召回的视频，也可以为召回的视频中任一个，又可以是召回的视频中的部分视频，本申请实施例对此不作具体限定。此外，相似度条件比如为大于召回相似度阈值、小于等于召回相似度阈值。

S403、分离待检测视频对应的音频信息，得到待检测音频，并提取待检测音频在音频特性上的特征，得到待检测音频指纹。

在本申请实施例中，召回的视频与待检测视频是比较像(比如，标题和/或画面对应的相似度小于等于召回相似度阈值)的视频，为了对待检测视频进行去重处理，视频检测设备从音频方面进行视频检测处理。因此，视频检测设备对待检测视频中的音频信息进行分离(比如，利用FFmpeg实现音频信息的分离)，所分离出的音频信息即待检测音频。接下来，视频检测设备对待检测音频在音频特性上的特征进行提取，所提取到的特征即为待检测音频指纹。

需要说明的是，音频特性为音频信息在听觉上的特性，包括音量、音质(或音高)和音色中的一种或多种；而音频特性上的特征是指在听觉上对声音的感知特征，是一种声学特征，比如，MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)特征。在听觉上，音质/音高不同时，对应不同的听觉敏感度，比如，人耳对不同频率的声波有不同的听觉敏感度，从200Hz(赫兹)到5000Hz的语音信号对语音的清晰度影响不同；音量不同时，也会对应不同的听觉敏感度，比如，两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使响度较低的频率变得不易察觉(这种现象称为掩蔽效应)；另外，频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般地，低音容易掩蔽高音，而高音掩蔽低音较困难；以及，在低频处的声音掩蔽的临界带宽较高频要小，所以，通过从低频到高频这一段频带内按临界带宽的大小由密到疏通过一组带通滤波器，对输入信号进行滤波，并将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。并且，人耳对不同频率声音的感知不一样，MFCC特征对输入信号不做任何的假设和限制，又利用了听觉上的特性。因此，基于“chromaprint”特征的视频检测方法，针对在音量、音质、音色上存在不同程度差异的音频，存在无法识别的问题，又由于视频种类繁多，除去单纯的音乐，大量电视剧、事实类型视频中，音频部分的区别主要在于人声部分。因此，将语音识别领域广泛使用MFCC特征；又由于MFCC特征基于梅尔频率，提取的特征会更侧重低频低幅部分，更符合人声的频率分布规律；综上，听觉特征，比如MFCC特征能够准确识别出在音量、音质、音色上存在不同程度差异的音频。

S404、分离待对比视频对应的音频信息，得到待对比音频，并提取待对比音频在音频特性上的特征，得到待对比音频指纹。

需要说明的是，待检测视频对应的用于与待对比视频进行比对的特征为待检测音频在音频特性上的特征，因此，视频检测设备需要对待对比视频进行与S403类似的处理，以得到待对比视频对应的用于与待检测视频进行比对的在音频特性上的特征，本申请实施例在此不再赘述。

这里，待对比音频即待对比视频的音频信息，待对比音频指纹为待对比音频在音频特性上的特征。另外，S403与S404在执行顺序上不分先后。

S405、对比待检测音频指纹与待对比音频指纹，基于对比结果确定待检测视频针对待对比视频的视频检测结果。

在本申请实施例中，视频检测设备获得了待检测视频和待对比视频分别在音频特性上的特征：待检测音频指纹与待对比音频指纹之后，通过对比待检测音频指纹与待对比音频指纹，也就完成了待检测视频和待对比视频的对比，确定出了待检测视频针对待对比视频的视频检测结果。

需要说明的是，对比结果指待检测音频指纹与待对比音频指纹的对比结果，该对比结果表征了待检测音频指纹与待对比音频指纹的相似度；视频检测结果为待检测视频针对待对比视频是否是重复视频的检测结果，可以是待检测视频针对待对比视频是重复视频的检测结果，也可以是待检测视频针对待对比视频不是重复视频的检测结果。

可以理解的是，在将待检测视频与召回的待对比视频进行对比时，由于是通过将待检测视频的音频信息在音频特性上的特征，与待对比视频的音频信息在音频特性上的特征进行对比，来确定的所述待检测视频针对所述待对比视频是否是重复视频的视频检测结果；而音频特性为音频信息在听觉上的特征，比如，音量、音质和音色，以及诸如“讲座的系列视频”这类视频，在音频特性上是存在差异的；因此，能够对诸如“讲座的系列视频”这类画面、标题类似的视频是否是重复视频进行准确的识别，从而，能够提升视频检测的准确度。

还可以理解的是，本申请实施例提供的视频检测方法，还实现了视频召回和视频去重的分层，如此，能够增加视频的召回量，减少后续审核(比如，人工审核)的数量，提升了视频审核的效率；还有利于对视频召回和视频去重分别进行调优处理。

在本申请实施例中，S403中视频检测设备提取待检测音频在音频特性上的特征，得到待检测音频指纹，包括S4031-S4033，下面对各步骤分别进行说明。

S4031、基于预设帧单元，从待检测音频中抽取多帧子待检测音频。

需要说明的是，视频检测设备中预先设置有预设帧单元，或者视频检测设备能够获取到该预设帧单元，该预设帧单元指一帧音频的大小，可以是时间(比如，1秒)，也可以是包括的采样点的数量，等等，本申请实施例对此不作具体限定。

在本申请实施例中，视频检测设备基于预设帧单元对待检测音频进行分帧处理，也就从待检测音频中抽取到了多帧子待检测音频；也就是说，待检测音频包括多帧子待检测音频。

S4032、提取多帧子待检测音频中的每帧子待检测音频在音频特性上的特征，获得初始子待检测音频指纹。

在本申请实施例中，视频检测设备进行音频特性上的特征提取时，是以帧粒度进行的，从而，当获得了多帧子待检测音频之后，针对多帧子待检测音频中的每帧子待检测音频，进行音频特性上的特征的提取，也就得到了一帧子待检测音频在的音频特性上的特征，即初始子待检测音频指纹。

这里，当视频检测设备完成了对每张子待检测音频在音频特性上的特征提取时，也就得到了与多帧子待检测音频对应的多帧初始子待检测音频指纹，并且，多帧子待检测音频与多帧初始子待检测音频指纹一一对应。

S4033、对初始子待检测音频指纹进行降维，得到子待检测音频指纹，从而得到与待检测音频对应的多帧子待检测音频指纹。

需要说明的是，考虑到每帧初始子待检测音频指纹对应的占用空间较大，视频检测设备针对初始子待检测音频指纹进行降维处理，降维后的初始子待检测音频指纹即子待检测音频指纹；当完成了每帧初始子待检测音频指纹对应的子待检测音频指纹获取时，也就得到了与多帧初始子待检测音频指纹对应的多帧子待检测音频指纹，也是与待检测音频对应的多帧子待检测音频指纹。这里，多帧初始子待检测音频指纹与多帧子待检测音频指纹一一对应，待检测音频指纹包括多帧子待检测音频指纹。另外，视频检测设备可以通过聚类、提取关键特征等方式对对初始子待检测音频指纹进行降维处理。

可以理解的是，通过对待检测音频进行分帧，使得视频检测是从帧粒度进行的，视频检测的粒度较细，因此，能够提升视频检测的精准度。

在本申请实施例中，S4031之前还包括S4034；也就是说，视频检测设备从待检测音频中抽取多帧子待检测音频之前，该视频检测方法还包括S4034，下面对该步骤分别进行说明。

S4034、对待检测音频进行预加重处理，得到待分帧音频。

需要说明的是，预加重处理是将待检测音频通过一个高通滤波器，来增强待检测音频中的高频部分。这里，待分帧音频即预加重处理后的待检测音频。

示例性地，预加重处理可通过式(2)实现，式(2)为：

H(z)＝1-μz^-1 (2)

其中，z为待检测音频，H(z)为待分帧音频，μ为预加重参数，介于0.9-1.0之间，通常取0.97。

相应地，在本申请实施例中，S4031中视频检测设备基于预设帧单元，从待检测音频中抽取多帧子待检测音频，包括：视频检测设备基于预设帧单元，从待分帧音频中抽取多帧子待检测音频。也就是说，当视频检测设备在进行分帧之前如果对待检测音频进行预加重处理，则进行分帧时，对预加重处理得到的待分帧音频进行分帧。

在本申请实施例中，S4031中视频检测设备基于预设帧单元，从待检测音频中抽取多帧子待检测音频，包括S40311和S40312，下面对各个步骤分别进行说明。

S40311、基于预设采样频率对待检测音频进行采样，得到多个采样点。

在本申请实施例中，视频检测设备中预先设置了预设采样频率，或者视频检测设备能够获取到预设采样频率，该预设采样频率为进行分帧处理时，针对待检测音频的采样频率；这里，视频检测设备基于预设采样频率对待检测音频进行采样，当完成采样时所获得的采样结果即多个采样点。

S40312、在多个采样点中，从首个采样点开始，依次选择预设采样点数的采样点组合为一帧子待检测音频，并持续从采样点的选择结束位置前的预设重叠采样点数对应的位置处，选择预设采样点数的采样点组合为下一帧子待检测音频，直到多个采样点被选择处理完，得到多帧子待检测音频。

需要说明的是，视频检测设备获得了多个采样点之后，对多个采样点中的采样点进行组合来得到一帧音频。这里，视频检测设备中预先设置了预设采样点数，或者视频检测设备能够获取到预设采样点数，该预设采样点数指一帧视频所包含的采样点的数量；视频检测设备从多个采样点中的首个采样点开始，每次选择预设采样点数的采样点组合为一帧子待检测音频，并从与该帧子待检测音频重叠预设重叠采样点数的位置处，选择预设采样点数的采样点组成下一帧子待检测音频，如此，持续对采样点进行组合，直到多个采样点中的所有采样点被选择完，所获得的所有的子待检测音频即多帧子待检测音频。

这里，预设帧单元是基于预设采样频率和预设采样点数确定的；比如，在基于预设采样频率对待检测音频进行采样时，如果预设采样点数为256或512时，预设帧单元为20～30毫秒。另外，预设重叠采样点数小于预设采样点数，比如，预设重叠采样点数是预设采样点数的1/2或1/3。

可以理解的是，在对待检测音频进行分帧时，通过将待检测音频分为多种具有重叠的子待检测音频，使得多帧子待检测音频之间的变化具有平缓性，从而能够提取到丰富的音频特效上特征；如此，在基于提取的特征进行视频检测时，能够提升视频检测的精准度。

在本申请实施例中，S4032可通过S40321-S40325实现；也就是说，视频检测设备提取多帧子待检测音频中的每帧子待检测音频在音频特性上的特征，获得初始子待检测音频指纹，包括S40321-S40325，下面对各步骤分别进行说明。

S40321、对多帧子待检测音频中的每帧子待检测音频进行加窗处理，得到子待变换音频。

在本申请实施例中，为了增加每帧子待检测音频的连续性，视频检测设备对每帧子待检测音频进行加窗处理，加窗处理后的每帧子待检测音频即子待变换音频；这里，当视频检测设备完成每帧子待检测音频的加窗处理之后，会得到与多帧子待检测音频对应的多帧子待变换音频，并且，多帧子待检测音频与多帧子待变换音频一一对应。

需要说明的是，加窗处理是为了使时域信号更好地满足频域变换处理的周期性要求，减少泄漏。

示例性地，加窗处理可通过式(3)实现，式(3)为：

S’(n)＝S(n)×W(n)，n＝0,1，……N-1 (3)

其中，S(n)为第n帧子待检测音频，W(n)为第n帧子待检测音频对应的窗函数，S’(n)为第n帧子待变换音频；其中，N为预设采样点数。这里，W(n)如式(4)所示：

其中，a为加窗参数，比如，0.46；不同的a值会产生不同W(n)。

S40322、将子待变换音频变换为频域上的能量分布，得到子待检测频谱，获取子待检测频谱的功率谱，得到子待检测功率谱。

需要说明的是，由于子待变换音频在时域上的变换通常很难看出子待变换音频的特性，从而，视频检测设备将子待变换音频转换为频域上的能量分布来观察；不同的能量分布，代表不同音频的特性。所以在进行了加窗处理后，视频检测设备还对子待变换音频进行频域变换(比如，DFT(Discrete Fourier Transform，离散傅里叶变换))，以得到频域上的能量分布，即子待检测频谱。接下来，视频检测设备获取子待检测频谱的功率谱，也就得到了子待检测功率谱；这里，获取子待检测频谱的功率谱时，可以是通过对子待检测频谱取模平方实现的，还可以是通过对子待检测频谱取绝对值实现的，又可以是通过对子待检测频谱取平方实现的。

示例性地，频域变换可通过式(5)实现，式(5)为：

其中，k为第k帧子待检测频谱，j为复数虚部。

S40323、对子待检测功率谱进行平滑处理，得到子平滑功率谱。

示例性地，视频检测设备将子待检测功率谱输入至一组Mel(梅尔)尺度的三角形滤波器进行平滑处理，该组组Mel(梅尔)尺度的三角形滤波器对应的频率响应参见式(6)：

其中，M为三角滤波器的个数；f(m-1)、f(m)和f(m+1)均为中心频率，是基于子待检测功率谱的最高频率和最低频率确定的，以及，梅尔频率与音频频率的对应关系参见式(7)，式(7)为：

Mel(f)＝2595×lg(1+f/700) (7)

其中，Mel(f)为梅尔频率，f为X_a(k)对应的频率。

H_m(k)为第k个采样点针对第m个三角滤波器的频率响应，这里，满足式(8)：

从而，子平滑功率谱通过式(9)获得，式(9)为：

其中，y(1)……y(m)……y(M)为子平滑功率谱。

S40324、对子平滑功率谱的对数能量进行逆变换，并获取逆变换结果的预设阶数的音频特性参数。

需要说明的是，逆变换是相对于S40322中的频域变化而实施的变换，即视频检测设备将子平滑功率谱变换为频域上的信息，逆变换比如，DCT(Discrete CosineTransform，离散余弦变换)。这里，音频特性参数比如为MFCC系数。

示例性地，逆变换可通过式(10)实现，式(10)：

其中，c(l)为音频特性参数中的第l阶MFCC系数；L为预设阶数，比如，12、16等。

S40325、获取音频特性参数的差分参数，以及每帧子待检测音频的帧能量，从而得到包括音频特性参数、差分参数和帧能量中的一种或多种的初始子待检测音频指纹。

需要说明的是，音频特性参数是音频的静态特性，为获得准确性较高的音频特性的特征，视频检测设备对音频特性参数进行差分参数的提取，来获得音频的动态特性。另外，帧能量为子待检测音频的音量，比如，帧能量可通过将子待检测音频的音量的平方和取以10为底的对数值再乘以10获得。比如，初始子待检测音频指纹包括：N维MFCC参数(N/3MFCC系数+N/3一阶差分参数+N/3二阶差分参数)+帧能量。

示例性地，差分参数的获取可通过式(11)实现，式(11)为：

其中，V为一阶导数的时间差，比如，1或2；d_l为第l个一阶差分参数。

当差分参数包括一阶差分参数和二阶差分参数时，二阶差分参数的获取方式参考式(11)获得。

在本申请实施例中，S4033可通过S40331-S40333实现；也就是说，视频检测设备对初始子待检测音频指纹进行降维，得到子待检测音频指纹，包括S40331-S40333，下面对各步骤分别进行说明。

S40331、针对初始子待检测音频指纹中的每个初始采样点音频指纹，去除最低频特征，得到S-1维特征。

需要说明的是，初始子待检测音频指纹包括预设采样点数的初始采样点音频指纹，每个初始采样点音频指纹包括S维特征，S为大于1正整数。

S40332、基于预设类别数量对S-1维特征进行聚类降维，得到预设类别数量的聚类类别。

需要说明的是，视频检测设备中预先设置有预设类别数量，或者视频检测模型能够获取到预设类别数量，该预设类别数量小于S-1；从而，视频检测设备将S-1为特征进行聚类，聚得预设类别数量的聚类类别，也就实现了对S-1维特征的降维。

示例性地，当每个初始采样点音频指纹包括12维的浮点型的特征(S维特征)时，去除最低频特征，也就得到了11维的浮点型的特征，即11*4*2⁸位的特征；将11*4*2⁸位的特征(S-1维特征)聚成256类(预设类别数量)，即1字节的特征；该1字节的特征，相比于12维的浮点型的特征，对应的空间占用量减小了。

S40333、将聚类类别的聚类中心信息确定为每个初始采样点音频指纹的采样点音频指纹，从而得到与初始子待检测音频指纹对应的子待检测音频指纹。

需要说明的是，视频检测设备获得了预设类别数量的聚类类别之后，可以将每个聚类类别的聚类中心作为每个初始采样点音频指纹的采样点音频指纹；如此，当视频检测设备完成了每个初始采样点音频指纹的采样点音频指纹的获取之后，也就能够得到与初始子待检测音频指纹对应的预设采样点数的采样点音频指纹；其中，子待检测音频指纹包括预设采样点数的采样点音频指纹。

参见图5，图5是本申请实施例提供的视频检测方法的另一个可选的流程示意图；如图5所示，在本申请实施例中，S405可通过S4051-S4053实现；也就是说，视频检测设备对比待检测音频指纹与待对比音频指纹，基于对比结果确定待检测视频针对待对比视频的视频检测结果，包括S4051-S4053，下面对各步骤分别进行说明。

S4051、将待检测音频指纹中的每帧子待检测音频指纹，分别与待对比音频指纹中的每帧子待对比音频指纹进行一一对比，得到每帧子待检测音频指纹与每帧子待对比音频指纹对应的对比结果。

在本申请实施例中，由于待检测音频指纹中包括多帧子待检测音频指纹，待对比音频指纹中也包括多帧子待对比音频指纹(其中，多帧待对比音频指纹)；因此，视频检测设备将多帧子待检测音频指纹中的每帧待检测音频指纹，与多帧子待对比音频指纹中的每帧待对比音频指纹进行一一对比，每帧子待检测音频指纹与每帧子待对比音频指纹的对应信息也就构成了对比结果。

需要说明的是，多帧子待检测音频指纹对应的帧数与多帧待对比音频指纹对应的帧数可以相同也可以不同，对比结果包括的子待检测音频指纹与子待对比音频指纹的子对比结果(对比信息)的数量，为多帧子待检测音频指纹对应的帧数与多帧待对比音频指纹对应的帧数的乘积值。

S4052、当对比结果中存在预设规律信息时，确定待检测视频针对待对比视频为重复视频的视频检测结果。

需要说明的是，预设规律信息为每帧子待检测音频指纹与每帧子待对比音频指纹之间的相似性趋势，比如，连续预设数量的子待检测音频指纹与子待对比音频指纹之间的相似性高于阈值。

S4053、当对比结果中不存在预设规律信息时，确定待检测视频针对待对比视频为非重复视频的视频检测结果。

需要说明的是，S4052和S4053为并列的执行顺序。

在本申请实施例中，S4051之后，该视频检测方法还包括S4054-S4057；也就是说，视频检测设备得到每帧子待检测音频指纹与每帧子待对比音频指纹对应的对比结果之后，该视频检测方法还包括S4054-S4057，下面对各步骤分别进行说明。

S4054、将每帧子待检测音频指纹作为矩阵的一维属性，每帧子待对比音频指纹作为矩阵的另一维属性，对比结果作为矩阵的元素，构建相似矩阵。

在本申请实施例中，视频检测设备将每帧子待检测音频指纹作为矩阵的一维属性，每帧子待对比音频指纹作为矩阵的另一维属性，也就得到了多帧子待检测音频指纹对应的帧数*多帧待对比音频指纹对应的帧数的二维矩阵，即相似矩阵；并且，该二维矩阵中的每个元素即一帧子待检测音频指纹与一帧子待对应音频指纹的相似值。

S4055、基于预设相似值与展示颜色的对应关系，将相似矩阵转换为相似矩阵图。

需要说明的是，视频检测设备中预先设置有预设对比信息与展示颜色的对应关系，当给定一个相似值就能够确定与该给定相似值对应的展示颜色；从而，视频检测设备基于预设相似值与展示颜色的对应关系，确定相似矩阵中的每个相似值对应的展示颜色并进行展示，也就得到了相似矩阵图。

这里，相似值的大小与展示颜色的深浅成相关关系；以及，该相似矩阵图还可以用于展示，以实现视频检测的可视化展示。另外相似矩阵图中还可以是相似值对应的其他形式的展示，比如，不同的图形等。

S4056、当相似矩阵图中的对角线位置处的各个展示颜色与预设颜色之间的颜色差值小于颜色差阈值时，确定对比结果中存在预设规律信息。

在本申请实施例中，视频检测设备获得了相似矩阵图之后，对该相似矩阵图中对角线位置处的各个展示颜色之间的颜色差进行判断；当对角线位置处的各个展示颜色与预设颜色(比如，7FFF00颜色)之间的颜色差值小于颜色差阈值时，也就确定对比结果中存在预设规律信息，即待检测音频指纹与待对比音频指纹相似，进而待检测视频与待对比视频构成重复视频。

这里，预设规律信息的检测可以通过神经网络进行分类检测实现，比如，将相似矩阵图输入至CNN+“Xgbboost”的图片分类检测模型，以获得针对预设规律信息的检测结果。

S4057、当相似矩阵图中的对角线位置处的展示颜色与预设颜色之间的颜色差值不小于颜色差阈值时，确定对比结果中不存在预设规律信息。

需要说明的是，当相似矩阵图中的对角线位置处的展示颜色与预设颜色之间的颜色差值不小于颜色差阈值时，确定对比结果中不存在预设规律信息，即待检测音频指纹与待对比音频指纹不相似，进而待检测视频与待对比视频构成不重复视频。

可以理解的是，通过构建待检测音频指纹与待对比音频指纹的相似矩阵图，通过相似矩阵图中特征点构成的线条走向，就能够确定出是否构成重复视频的视频检测结果，简化了视频检测流程。

在本申请实施例中，S402可通过S4021-S4024实现；也就是说，视频检测设备基于待检测视频，从视频资源库中进行视频召回，得到待对比视频，包括S4021-S4024，下面对各步骤分别进行说明。

S4021、获取待检测视频对应的视频召回特征。

需要说明的是，视频召回特征包括内容语义特征、文本语义特征、标题语义特征、正文语义特征、帧图像语义特征和封面图语义特征中的一种或多种；其中，内容语义特征为待检测视频所表达的内容对应的语义特征；文本语义特征为待检测视频中的字幕、标题文本、视频帧图像经过文本识别获得的文本对应的语义特征；标题语义特征为待检测视频的标题对应的语义特征；正文语义特征为待检测视频所表达的内容、标题、封面图对应的语义特征；帧图像语义特征为待检测视频的关键帧图像或所有帧图像对应的语义特征；封面图语义特征为待检测视频的封面图对应的语义特征。这里，语义特征，比如为“Simhash”向量、“BERT”向量、“embeeding”向量等。

S4022、获取视频资源库中的各个视频分别对应的待召回特征。

在本申请实施例中，待召回特征包括待召回内容语义特征、待召回文本语义特征、待召回标题语义特征、待召回正文语义特征、待召回帧图像语义特征和待召回封面图语义特征中的一种或多种；并且，待召回特征与视频召回特征在特征类型上对应，比如，当视频召回特征为标题语义特征和帧图像语义特征时，则待召回特征为待召回标题语义特征和待召回帧图像语义。

S4023、基于视频召回特征分别与各个待召回特征之间的召回相似值，从各个待召回特征中，确定与视频召回特征相似的目标待召回特征。

在本申请实施例中，与视频召回特征相似的目标待召回特征即大于(或小于等于)召回相似阈值的召回相似值所对应的待召回特征。这里，召回相似值包括欧式距离、向量点积值和余弦相似值中的一种或多种。

S4024、将视频资源库中，与目标待召回特征对应的视频作为召回视频，从而得到属于召回视频的待对比视频。

需要说明的是，在视频资源库中，目标待召回特征对应的视频即与待检测视频满足召回条件(召回相似值大于(或小于等于)召回相似阈值)的视频。这里，召回视频包括待对比视频。

在本申请实施例中，S4023可通过S40231和S40232实现；也就是说，视频检测设备基于视频召回特征分别与各个待召回特征之间的召回相似值，从各个待召回特征中，确定与视频召回特征相似的目标待召回特征，包括S40231和S40232，下面对各步骤分别进行说明。

S40231、获取视频召回特征对应的召回特征索引，以及各个待召回特征对应的各个召回特征索引。

需要说明的是，各个待召回特征与各个召回特征索引一一对应；这里，视频检测设备通过预设的检索库(比如，Faiss)构建视频召回特征对应的召回特征索引，以及各个待召回特征对应的各个召回特征索引。

S40232、将召回特征索引分别与各个召回特征索引的匹配度，作为召回相似值，并召回相似值，从各个待召回特征中，确定与视频召回特征相似的目标待召回特征。

需要说明的是，视频检测设备基于索引实现视频召回特征与各个待召回特征的对比，以提升视频的召回效率。

参见图6，图6是本申请实施例提供的视频检测方法的一个可选的交互流程示意图；如图6所示，在本申请实施例中，S401可通过S4011和S4012实现；也就是说，视频检测设备获取待检测视频，包括S4011和S4012，下面对各步骤分别进行说明。

S4011、接收任务调度设备发送的视频检测请求。

需要说明的是，视频生产端设备接收到的用户发布的待检测视频，是通过任务调度设备将待检测视频发送至视频检测设备实现的；也就是说，当视频生产端设备接收到用户发布的待检测视频时，任务调度设备基于视频生产端设备发送的视频上传请求生成视频检测请求，将视频检测请求发送至视频检测设备，从而，视频检测设备也就是接收到了该视频检测请求；这里，视频检测请求是任务调度设备响应于视频生产端设备发送的视频上传请求生成的，视频检测请求为任务调度设备请求对待检测视频进行去重检测的请求，视频上传请求为视频生产端设备请求对待检测视频进行发布的请求。

S4012、响应于视频检测请求，从内容存储设备中获取待检测视频。

需要说明的是，视频检测设备接收到视频检测请求之后，响应于该视频检测请求，开始执行待检测视频的检测流程，基于视频检测请求的指示从内容存储设备中获取待检测视频进行去重检测。

继续参见图6，在本申请实施例中，S405之后，还包括S406；也就是说，视频检测设备对比待检测音频指纹与待对比音频指纹，基于对比结果确定待检测视频针对待对比视频的视频检测结果之后，该视频检测方法还包括S406，下面对该步骤进行说明。

S406、当视频检测结果为待检测视频针对待对比视频为重复视频时，将视频检测结果发送至后续检测设备。

需要说明的是，视频检测设备将视频检测结果发送至后续检测设备，以使后续检测设备针对视频检测结果生成后续检测请求，并响应于后续检测请求获取待检测视频的目标检测结果，即S407。

这里，后续检测请求可以是请求通过网络模型对待检测视频和待对比审批再次审核的请求，还可以是请求对待检测视频和待对比审批进行人工审核的请求。另外，目标检测结果可以是网络模型对应的再次审核结果，还可以是人工审核结果；并且，目标检测结果为通过后续审核确定的待检测视频针对待对比视频是否是重复视频的检测结果。

继续参见图6，在本申请实施例中，S405之后，还包括S408；也就是说，视频检测设备对比待检测音频指纹与待对比音频指纹，基于对比结果确定待检测视频针对待对比视频的视频检测结果之后，该视频检测方法还包括S408，下面对该步骤进行说明。

S408、当视频检测结果为待检测视频针对待对比视频为非重复视频时，将待检测视频发送至任务调度设备。

需要说明的是，视频检测设备将待检测视频发送至任务调度设备，以使任务调度设备基于获取的推荐信息通过内容分发设备，向内容消费端设备推送待检测视频，即S409。这里，任务调度设备向内容消费端设备推送待检测视频以使内容消费端设备播放待检测视频，即S410。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

参见图7，图7是本申请实施例提供的一种示例性的视频检测系统的组成结构图；如图7所示，在该示例性的视频检测系统中，包括内容生产端7-101(视频生产端设备)、上下行内容接口服务器7-102、内容数据库7-103、内容存储服务7-104(与内容数据库7-103共同组成内容存储设备)、调度中心服务7-105(任务调度设备)、视频排重服务7-106、检索召回服务7-107、音频排重校验服务7-108、音频指纹及其他模态向量生成服务7-109、音频抽取服务7-110、视频下载系统7-111、人工审核系统7-112、内容分发出口服务7-113(与7-106至7-111共同组成视频检测设备)和内容消费端7-114(内容消费端设备)。其中：

内容生产端7-101，包括PGC端、UGC端和MCN端，用于通过视频发布页面或者后端视频发布接口获取上传的视频(待检测视频)，并与上下行内容接口服务器7-102通讯，将上传的视频发送至上下行内容接口服务器7-102；还用于获取上传视频的行为数据，并将获得的上传视频的行为数据发送至后台服务器进行统计分析。其中，上传的视频通常由一个拍摄端拍摄得到的短视频或小视频，拍摄过程中可以针对拍摄的视频选择背景音乐和滤镜模板等视频美化功能。

上下行内容接口服务器7-102，用于与内容生产端7-101通讯，获取上传的视频，并将上传的视频的元信息(比如，视频源文件大小、发布时间、标题、作者、封面图、类别和标签信息等)存储至内容数据库7-103中，而将上传的视频的实体(比如，视频源文件)存储至内容存储服务7-104中；还用于向调度中心服务7-105通讯发送针对上传的视频的审核请求(视频检测请求)；还用于向内容消费端7-114提供视频索引信息。

内容数据库7-103，用于存储上下行内容接口服务器7-102发送来的上传的视频的元信息；还用于基于调度中心服务7-105发送的元信息更新数据更新元信息；还用于向视频排重服务7-106(实际上是向音频指纹及其他模态向量生成服务7-109提供视频的元信息)和人工审核系统7-112提供视频的元信息(图中未示出)。

内容存储服务7-104，用于存储上下行内容接口服务器7-102发送来的上传的视频的实体；还用于向视频下载系统7-111和内容消费端7-114提供视频源文件。

调度中心服务7-105，用于接收上下行内容接口服务器7-102发送的针对上传的视频的审核请求，调度人工审核系统7-112和视频排重服务7-106进行视频审核；还用于调度内容分发出口服务7-113进行分发视频。

视频排重服务7-106，用于调度检索召回服务7-107进行视频召回(图中未示出)，以及调度音频排重校验服务7-108进行音频校验去重(图中未示出)，以实现对视频下载系统7-111的调度。

检索召回服务7-107，用于通过音频指纹及其他模态向量生成服务7-109获取每个视频对应的向量(音频指纹或其他模态向量，其中，其他模态向量包括视频召回特征和待召回特征)，并基于每个视频对应的向量通过Faiss构建向量的匹配检索，实现相似视频的快速召回，以及向音频排重校验服务7-108发送召回视频的读取信息，以获取召回视频。

音频排重校验服务7-108，接收检索召回服务7-107发送的召回视频的读取信息，通过视频下载系统7-111从内容存储服务7-104中读取召回视频，并通过音频抽取服务7-110抽取召回视频中每个视频(待对比视频)的音频(待对比音频)，并通过音频指纹及其他模态向量生成服务7-109获取抽取的音频的音频指纹(待对比音频指纹)；还用于响应于视频排重服务7-106的调度，通过视频下载系统7-111从内容存储服务7-104中读取上传的视频的实体，并通过音频抽取服务7-110抽取视频的实体(待检测视频)的音频(待检测音频)，并通过音频指纹及其他模态向量生成服务7-109获取抽取的音频的音频指纹(待检测音频指纹)；还用于对比上述获得的音频指纹，以实现音频排重校验，当确定两视频为重复视频时，调用人工审核系统7-112，当确定两视频为非重复视频时，通过视频排重服务7-106向调度中心服务7-105反馈，以使调度中心服务7-105调度内容分发出口服务7-113分发视频。

音频指纹及其他模态向量生成服务7-109，用于生成召回向量(其他模态向量)和音频指纹。

音频抽取服务7-110，用于从视频中抽取音频信息，比如，通过FFmpeg从视频内容当中分离音频信息。

视频下载系统7-111，用于从内容存储服务7-104中读取视频源文件。

人工审核系统7-112，用于将视频通过内容分发出口服务7-113的展示页面提供给内容消费端7-114；还用于通过读取内容数据库7-103和内容存储服务7-104中数据，以审核过滤政治敏感、色情、法律不允许等机器无法确定判断的内容，同时人工审核的结果和状态回传至内容数据库7-103；还用于进行视频内容的标签标注和二次确认。

内容分发出口服务7-113，用于向内容消费端7-114分发视频；该内容分发出口服务7-113比如为推荐引擎、搜索引擎或者运营平台。

内容消费端7-114，用于与上下行内容接口服务器7-102通讯，以基于访问请求获取视频索引信息，进而基于获取的视频索引信息从内容存储服务7-104获取视频源文件；还用于与内容分发出口服务7-113通讯，以获取分发的视频实体，其中，该视频实体即内容生产端7-101上传的视频的视频源文件，源文件可以是推送的视频，还可以是订阅的视频。还用于获取下载视频以及播放视频的行为数据(比如，卡顿信息、加载时间等)，并将获得的下载视频以及播放视频的行为数据发送至后台服务器进行统计分析。还用于以Feeds流的方式浏览内容数据，该内容数据包括图文、图片和视频。

下面说明通过图7中的音频指纹及其他模态向量生成服务7-109获取音频指纹的实现过程。参见图8，图8是本申请实施例提供的一种示例性的获取音频指纹的流程示意图；如图8所示，该示例性的获取音频指纹的流程包括特征获取8-1和特征降维8-2两部分；这里，以获取上传的视频8-11的音频指纹为例进行说明。其中，在特征获取8-1中，首先，从视频8-11中分离出音频信息8-12，对音频信息8-12依次进行预加重(利用式(2)实现)、分帧、加窗(利用式(3)和(4)实现)处理8-13，再利用式(5)对加窗后的每帧音频进行频域变换8-14，以及对频域变换后的每帧音频取绝对值或平方值或模平方8-15，得到功率谱；然后，将功率谱经过Mel滤波8-16(利用式(6)和(7)实现)，得到频率响应，再利用式(9)对频率响应和功率谱进行取对数处理8-17，以及利用DCT(利用式(10)实现)对取对数后的频率响应和功率谱进行逆变换8-18，从而得到MFCC系数；最后，利用式(11)获取MFCC系统的差分参数，得到动态特征8-19，从而得到包括MFCC系数和差分参数的MFCC特征，这里，MFCC特征还可以包括对数能量，即对一帧音频的音量的平方和取以10为底的对数值再乘以10。在特征降维8-2中，通过聚类8-21针对每帧音频的每个采样点的特征维度进行聚类，将聚类类别的聚类中心作为每帧音频的每个采样点的特征值，从而得到音频指纹8-22。

需要说明的是，图8中的Mel滤波8-16是通过一组Mel尺度的三角形滤波器实现的，所获得的MFCC系数即Mel标定频率域的倒普参数；其中，Mel标定描述了音频频率的非线性特征，Mel频率与音频频率具有线性关系，如图9所示，曲线9-1描述了Mel频率与音频频率具有正相关关系。另外，参见图10，图10是本申请实施例提供的一组示例性的梅尔尺度的三角形滤波器的滤波结果示意图；参见图10，示出的为包括6个三角滤波器的Mel滤波处理结果，中心频率为f(0)至f(7)，三角滤波器的频率响应为H₁(k)、H₃(k)、H₅(k)和H₆(k)。

下面说明通过图7中的音频排重校验服务7-108进行音频校验的实现过程。通过音频指纹及其他模态向量生成服务7-109获得每帧对应的音频指纹之后，这里，当针对视频8-11获得了12帧音频对应的音频指纹，针对待与视频8-11进行对比的视频(待对比视频)也获得了12帧音频对应的音频指纹时，利用音频排重校验服务7-108，针对视频8-11的12帧音频对应的音频指纹和待与视频8-11进行对比的视频的12帧音频对应的音频指纹，构建如图11所示的矩阵相似图11-1，并利用神经网络模型(比如，CNN+“Xgbboost”的图片分类检测模型)对矩阵相似图11-1进行分类检测，以判断矩阵相似图11-1对应的相似性和关系(视频检测结果)；这里，由于图11中的矩阵相似图11-1上的区域11-11处，存在和对角线重合和接近的点，则确定视频8-11和待与视频8-11进行对比的视频为重复视频。

这里，当针对视频8-11获得了12帧音频对应的音频指纹，针对待与视频8-11进行对比的视频(待对比视频)获得了9帧音频对应的音频指纹时，利用音频排重校验服务7-108，针对视频8-11的12帧音频对应的音频指纹和待与视频8-11进行对比的视频的9帧音频对应的音频指纹，构建如图12所示的矩阵相似图12-1，并利用神经网络模型对矩阵相似图11-1进行分类检测，以判断矩阵相似图12-1对应的相似性和关系(视频检测结果)；这里，由于图11中的矩阵相似图12-1上，相关性值分布图上非常离散，如区域12-11所示，则确定视频8-11和待与视频8-11进行对比的视频为非重复视频。

可以理解的是，本申请实施例提供的基于视频的音频抽取MFCC特征，并且对抽取的MFCC特征进行聚类降维处理，然后对排重过程当中基于视频内容，标题或者封面图相似召回的内容，通过降维后的MFCC特征进行排重校验，提升视频排重的准确率；最后，对于抽取的每帧音频的MFCC特征的对比信息，构成帧间相似对齐图，并采用神经网络对该帧间相似对齐图进行分类检测，充分利用帧粒度时序关系，使得校验重复视频的准确率大幅提升。另外，通过本申请实施例提供的视频检测方法，对标题和/或画面相似的视频，音频存在明显差异的内容增加召回率、能够有效减少需要审核内容的人力投入，大幅度降低重复视频内容进入人工审核的数量，提升视频检测的处理能力。

下面继续说明本申请实施例提供的视频检测装置255的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器250的视频检测装置255中的软件模块可以包括：

视频获取模块2551，用于获取待检测视频；

视频召回模块2552，用于基于所述待检测视频，从视频资源库中进行视频召回，得到待对比视频；

特征获取模块2553，用于分离所述待检测视频对应的音频信息，得到待检测音频，并提取所述待检测音频在音频特性上的特征，得到待检测音频指纹，其中，所述音频特性为音频信息在听觉上的特性；

所述特征获取模块2553，还用于分离所述待对比视频对应的音频信息，得到待对比音频，并提取所述待对比音频在所述音频特性上的特征，得到待对比音频指纹；

视频检测模块2554，用于对比所述待检测音频指纹与所述待对比音频指纹，基于对比结果确定所述待检测视频针对所述待对比视频的视频检测结果，其中，所述视频检测结果为所述待检测视频针对所述待对比视频是否是重复视频的检测结果。

在本申请实施例中，所述特征获取模块2553，还用于基于预设帧单元，从所述待检测音频中抽取多帧子待检测音频；提取所述多帧子待检测音频中的每帧子待检测音频在所述音频特性上的特征，获得初始子待检测音频指纹；对所述初始子待检测音频指纹进行降维，得到子待检测音频指纹，从而得到与所述待检测音频对应的多帧子待检测音频指纹，其中，所述待检测音频指纹包括所述多帧子待检测音频指纹。

在本申请实施例中，所述特征获取模块2553，还用于对所述待检测音频进行预加重处理，得到待分帧音频。

在本申请实施例中，所述特征获取模块2553，还用于基于所述预设帧单元，从所述待分帧音频中抽取所述多帧子待检测音频。

在本申请实施例中，所述特征获取模块2553，还用于基于预设采样频率对所述待检测音频进行采样，得到多个采样点；在所述多个采样点中，从首个采样点开始，依次选择预设采样点数的采样点组合为一帧子待检测音频，并持续从采样点的选择结束位置前的预设重叠采样点数对应的位置处，选择所述预设采样点数的采样点组合为下一帧子待检测音频，直到所述多个采样点被选择处理完，得到所述多帧子待检测音频，其中，所述预设帧单元是基于预设采样频率和所述预设采样点数确定的。

在本申请实施例中，所述特征获取模块2553，还用于对所述多帧子待检测音频中的所述每帧子待检测音频进行加窗处理，得到子待变换音频；将所述子待变换音频变换为频域上的能量分布，得到子待检测频谱，获取所述子待检测频谱的功率谱，得到子待检测功率谱；对所述子待检测功率谱进行平滑处理，得到子平滑功率谱；对所述子平滑功率谱的对数能量进行逆变换，并获取逆变换结果的预设阶数的音频特性参数；获取所述音频特性参数的差分参数，以及所述每帧子待检测音频的帧能量，从而得到包括所述音频特性参数、所述差分参数和所述帧能量中的一种或多种的所述初始子待检测音频指纹。

在本申请实施例中，所述特征获取模块2553，还用于针对所述初始子待检测音频指纹中的每个初始采样点音频指纹，去除最低频特征，得到S-1维特征，其中，所述初始子待检测音频指纹包括所述预设采样点数的初始采样点音频指纹，所述每个初始采样点音频指纹包括S维特征，S为大于1的正整数；基于预设类别数量对所述S-1维特征进行聚类降维，得到所述预设类别数量的聚类类别；将所述聚类类别的聚类中心信息确定为所述每个初始采样点音频指纹的采样点音频指纹，从而得到与初始子待检测音频指纹对应的所述子待检测音频指纹，其中，所述子待检测音频指纹包括所述预设采样点数的采样点音频指纹。

在本申请实施例中，所述视频检测模块2554，还用于将所述待检测音频指纹中的每帧子待检测音频指纹，分别与所述待对比音频指纹中的每帧子待对比音频指纹进行一一对比，得到所述每帧子待检测音频指纹与所述每帧子待对比音频指纹对应的所述对比结果；当所述对比结果中存在预设规律信息时，确定所述待检测视频针对所述待对比视频为重复视频的所述视频检测结果，其中，所述预设规律信息为所述每帧子待检测音频指纹与所述每帧子待对比音频指纹之间的相似性趋势；当所述对比结果中不存在所述预设规律信息时，确定所述待检测视频针对所述待对比视频为非重复视频的所述视频检测结果。

在本申请实施例中，所述视频检测模块2554，还用于将所述每帧子待检测音频指纹作为矩阵的一维属性，所述每帧子待对比音频指纹作为矩阵的另一维属性，所述对比结果作为矩阵的元素，构建相似矩阵；基于预设相似值与展示颜色的对应关系，将所述相似矩阵转换为相似矩阵图；当所述相似矩阵图中的对角线位置处的各个展示颜色与预设颜色之间的颜色差值小于颜色差阈值时，确定所述对比结果中存在所述预设规律信息；当所述相似矩阵图中的对角线位置处的各个展示颜色与预设颜色之间的颜色差值不小于所述颜色差阈值时，确定所述对比结果中不存在所述预设规律信息。

在本申请实施例中，所述视频召回模块2552，还用于获取所述待检测视频对应的视频召回特征，其中，所述视频召回特征包括内容语义特征、文本语义特征、标题语义特征、正文语义特征、帧图像语义特征和封面图语义特征中的一种或多种；获取所述视频资源库中的各个视频分别对应的待召回特征，其中，所述待召回特征与所述视频召回特征在特征类型上对应；基于所述视频召回特征分别与各个待召回特征之间的召回相似值，从所述各个待召回特征中，确定与所述视频召回特征相似的目标待召回特征，其中，所述召回相似值包括欧式距离、向量点积值和余弦相似值中的一种或多种；将所述视频资源库中，与所述目标待召回特征对应的视频作为召回视频，从而得到属于所述召回视频的所述待对比视频。

在本申请实施例中，所述视频召回模块2552，还用于获取所述视频召回特征对应的召回特征索引，以及所述各个待召回特征对应的各个召回特征索引，其中，所述各个待召回特征与所述各个召回特征索引一一对应；将所述召回特征索引分别与所述各个召回特征索引的匹配度，作为所述召回相似值，并基于所述召回相似值，从所述各个待召回特征中，确定与所述视频召回特征相似的所述目标待召回特征。

在本申请实施例中，所述视频获取模块2551，还用于接收任务调度设备发送的视频检测请求，其中，所述视频检测请求是所述任务调度设备响应于视频生产端设备发送的视频上传请求生成的；响应于所述视频检测请求，从内容存储设备中获取所述待检测视频。

在本申请实施例中，所述视频检测装置255还包括结果处理模块2555，用于当所述视频检测结果为所述待检测视频针对所述待对比视频为重复视频时，将所述视频检测结果发送至后续检测设备，以使所述后续检测设备针对所述视频检测结果生成后续检测请求，并响应于所述后续检测请求获取所述待检测视频的目标检测结果。

在本申请实施例中，所述视频检测装置255，还用于当所述视频检测结果为所述待检测视频针对所述待对比视频为非重复视频时，将所述待检测视频发送至任务调度设备，以使所述任务调度设备基于获取的推荐信息通过内容分发设备，向内容消费端设备推送所述待检测视频，以使所述内容消费端设备播放所述待检测视频。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的视频检测方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的视频检测方法，例如，如图4-6示出的视频检测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，在将待检测视频与召回的待对比视频进行对比时，由于是通过将待检测视频的音频信息在音频特性上的特征，与待对比视频的音频信息在音频特性上的特征进行对比，来确定的所述待检测视频针对所述待对比视频是否是重复视频的视频检测结果；而音频特性为音频信息在听觉上的特征，比如，音量、音质和音色，以及诸如“讲座的系列视频”这类视频，在音频特性上是存在差异的；因此，能够对诸如“讲座的系列视频”这类画面、标题类似的视频是否是重复视频进行准确的识别，从而，能够提升视频检测的准确度。另外，由于视频召回与视频去重校验实现了分层，能够分别对视频召回与视频去重校验进行调优，还能够通过召回更多视频，提升视频检测的整体处理能力，降低人工审核的视频数量，提升视频审核效率和消耗。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频检测方法，其特征在于，包括：

获取待检测视频；

2.根据权利要求1所述的方法，其特征在于，所述提取所述待检测音频在音频特性上的特征，得到待检测音频指纹，包括：

基于预设帧单元，从所述待检测音频中抽取多帧子待检测音频；

提取所述多帧子待检测音频中的每帧子待检测音频在所述音频特性上的特征，获得初始子待检测音频指纹；

对所述初始子待检测音频指纹进行降维，得到子待检测音频指纹，从而得到与所述待检测音频对应的多帧子待检测音频指纹，其中，所述待检测音频指纹包括所述多帧子待检测音频指纹。

3.根据权利要求2所述的方法，其特征在于，所述基于预设帧单元，从所述待检测音频中抽取多帧子待检测音频之前，所述方法还包括：

对所述待检测音频进行预加重处理，得到待分帧音频；

所述基于预设帧单元，从所述待检测音频中抽取多帧子待检测音频，包括：

基于所述预设帧单元，从所述待分帧音频中抽取所述多帧子待检测音频。

4.根据权利要求2所述的方法，其特征在于，所述基于预设帧单元，从所述待检测音频中抽取多帧子待检测音频，包括：

基于预设采样频率对所述待检测音频进行采样，得到多个采样点；

在所述多个采样点中，从首个采样点开始，依次选择预设采样点数的采样点组合为一帧子待检测音频，并持续从采样点的选择结束位置前的预设重叠采样点数对应的位置处，选择所述预设采样点数的采样点组合为下一帧子待检测音频，直到

所述多个采样点被选择处理完，得到所述多帧子待检测音频，其中，所述预设帧单元是基于预设采样频率和所述预设采样点数确定的。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述提取所述多帧子待检测音频中的每帧子待检测音频在所述音频特性上的特征，获得初始子待检测音频指纹，包括：

对所述多帧子待检测音频中的所述每帧子待检测音频进行加窗处理，得到子待变换音频；

将所述子待变换音频变换为频域上的能量分布，得到子待检测频谱，获取所述子待检测频谱的功率谱，得到子待检测功率谱；

对所述子待检测功率谱进行平滑处理，得到子平滑功率谱；

对所述子平滑功率谱的对数能量进行逆变换，并获取逆变换结果的预设阶数的音频特性参数；

获取所述音频特性参数的差分参数，以及所述每帧子待检测音频的帧能量，从而得到包括所述音频特性参数、所述差分参数和所述帧能量中的一种或多种的所述初始子待检测音频指纹。

6.根据权利要求4所述的方法，其特征在于，所述对所述初始子待检测音频指纹进行降维，得到子待检测音频指纹，包括：

针对所述初始子待检测音频指纹中的每个初始采样点音频指纹，去除最低频特征，得到S-1维特征，其中，所述初始子待检测音频指纹包括所述预设采样点数的初始采样点音频指纹，所述每个初始采样点音频指纹包括S维特征，S为大于1的正整数；

基于预设类别数量对所述S-1维特征进行聚类降维，得到所述预设类别数量的聚类类别；

将所述聚类类别的聚类中心信息确定为所述每个初始采样点音频指纹的采样点音频指纹，从而得到与初始子待检测音频指纹对应的所述子待检测音频指纹，其中，所述子待检测音频指纹包括所述预设采样点数的采样点音频指纹。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述对比所述待检测音频指纹与所述待对比音频指纹，基于对比结果确定所述待检测视频针对所述待对比视频的视频检测结果，包括：

将所述待检测音频指纹中的每帧子待检测音频指纹，分别与所述待对比音频指纹中的每帧子待对比音频指纹进行一一对比，得到所述每帧子待检测音频指纹与所述每帧子待对比音频指纹对应的所述对比结果；

当所述对比结果中存在预设规律信息时，确定所述待检测视频针对所述待对比视频为重复视频的所述视频检测结果，其中，所述预设规律信息为所述每帧子待检测音频指纹与所述每帧子待对比音频指纹之间的相似性趋势；

当所述对比结果中不存在所述预设规律信息时，确定所述待检测视频针对所述待对比视频为非重复视频的所述视频检测结果。

8.根据权利要求7所述的方法，其特征在于，所述得到所述每帧子待检测音频指纹与所述每帧子待对比音频指纹对应的所述对比结果之后，所述方法还包括：

将所述每帧子待检测音频指纹作为矩阵的一维属性，所述每帧子待对比音频指纹作为矩阵的另一维属性，所述对比结果作为矩阵的元素，构建相似矩阵；

基于预设相似值与展示颜色的对应关系，将所述相似矩阵转换为相似矩阵图；

当所述相似矩阵图中的对角线位置处的各个展示颜色与预设颜色之间的颜色差值小于颜色差阈值时，确定所述对比结果中存在所述预设规律信息；

当所述相似矩阵图中的对角线位置处的各个展示颜色与预设颜色之间的颜色差值不小于所述颜色差阈值时，确定所述对比结果中不存在所述预设规律信息。

9.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述待检测视频，从视频资源库中进行视频召回，得到待对比视频，包括：

获取所述待检测视频对应的视频召回特征，其中，所述视频召回特征包括内容语义特征、文本语义特征、标题语义特征、正文语义特征、帧图像语义特征和封面图语义特征中的一种或多种；

获取所述视频资源库中的各个视频分别对应的待召回特征，其中，所述待召回特征与所述视频召回特征在特征类型上对应；

基于所述视频召回特征分别与各个待召回特征之间的召回相似值，从所述各个待召回特征中，确定与所述视频召回特征相似的目标待召回特征，其中，所述召回相似值包括欧式距离、向量点积值和余弦相似值中的一种或多种；

将所述视频资源库中，与所述目标待召回特征对应的视频作为召回视频，从而得到属于所述召回视频的所述待对比视频。

10.根据权利要求9所述的方法，其特征在于，所述基于所述视频召回特征分别与各个待召回特征之间的召回相似值，从所述各个待召回特征中，确定与所述视频召回特征相似的目标待召回特征，包括：

获取所述视频召回特征对应的召回特征索引，以及所述各个待召回特征对应的各个召回特征索引，其中，所述各个待召回特征与所述各个召回特征索引一一对应；

将所述召回特征索引分别与所述各个召回特征索引的匹配度，作为所述召回相似值，并基于所述召回相似值，从所述各个待召回特征中，确定与所述视频召回特征相似的所述目标待召回特征。

11.根据权利要求1至4任一项所述的方法，其特征在于，所述获取待检测视频，包括：

接收任务调度设备发送的视频检测请求，其中，所述视频检测请求是所述任务调度设备响应于视频生产端设备发送的视频上传请求生成的；

响应于所述视频检测请求，从内容存储设备中获取所述待检测视频。

12.根据权利要求1至4任一项所述的方法，其特征在于，所述对比所述待检测音频指纹与所述待对比音频指纹，基于对比结果确定所述待检测视频针对所述待对比视频的视频检测结果之后，所述方法还包括：

当所述视频检测结果为所述待检测视频针对所述待对比视频为重复视频时，将所述视频检测结果发送至后续检测设备，以使

所述后续检测设备针对所述视频检测结果生成后续检测请求，并响应于所述后续检测请求获取所述待检测视频的目标检测结果。

13.根据权利要求1至4任一项所述的方法，其特征在于，所述对比所述待检测音频指纹与所述待对比音频指纹，基于对比结果确定所述待检测视频针对所述待对比视频的视频检测结果之后，所述方法还包括：

当所述视频检测结果为所述待检测视频针对所述待对比视频为非重复视频时，将所述待检测视频发送至任务调度设备，以使

所述任务调度设备基于获取的推荐信息通过内容分发设备，向内容消费端设备推送所述待检测视频，以使

所述内容消费端设备播放所述待检测视频。

14.一种视频检测设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至13任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至13任一项所述的方法。