CN113051984A

CN113051984A - 视频拷贝检测方法和装置、存储介质和电子装置

Info

Publication number: CN113051984A
Application number: CN201911389790.6A
Authority: CN
Inventors: 孔庆超; 郝艳妮; 徐楠; 苑霸; 方省; 曹家; 汪小东; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-06-29

Abstract

本申请提供了一种视频拷贝检测方法和装置、存储介质和电子装置，其中，该方法包括：抽取查询视频的第一目标关键帧；提取所述第一目标关键帧的第一视频特征；获取参考视频的第二目标关键帧的第二视频特征；在根据所述第一视频特征和第二视频特征确定出所述查询视频与所述参考视频匹配的情况下，抽取所述查询视频与所述参考视频中相似的视频片段。通过本发明，解决了相关技术中的视频拷贝检测方法中存在的视频拷贝检测效率低，视频拷贝检测准确度差的问题，进而达到了提高视频拷贝检测效率，提升视频拷贝检测准确度的效果。

Description

视频拷贝检测方法和装置、存储介质和电子装置

技术领域

本申请涉及计算机领域，尤其涉及一种视频拷贝检测方法和装置、存储介质和电子装置。

背景技术

随着互联网技术和多媒体技术的飞速发展，网络上视频的数量也在飞速增长，人们可以通过一些数字视频处理工具对视频进行编辑或修改并产生一些拷贝视频。这些拷贝视频发布到互联网上之后，使得用户在进行视频搜索时得到很多内容相似甚至相同的视频，极大地降低检索的效率，同时也严重侵犯了版权人的合法权益。

为了提高检索效率，保护版权人的合法权益，可以在用户发布视频之前，对用户发布的视频进行相似视频检索。可以对基于内容的新媒体视频稿件(新上传、待发布的视频)进行视频拷贝检测，快速地进行对相似的视频进行检索。

一般新媒体视频拷贝检测主要由于源视频经过光学变换、几何变换或时间变换等变换方式转化而得到拷贝视频，具体有：插入图标、模拟录像、尺寸改变和画中画等方式。在实际应用中，视频拷贝检测的方法具有多样性和不确定性，目前许多方法对多种采用变换都有一定的效果，但在不同变换上存在着一定差异，一般插入图标、亮度变换等采用方式较易检测，而模拟录像、画中画和后期加工等采用变换的检测比较困难。

此外，新媒体视频拷贝检测针对不同任务具有不同的检测级别，有的只考虑整个视频是否拷贝(即，对于一个查询视频，在参考集合中找出与整个查询视频互为拷贝的视频)，这种拷贝方式被视为全局视频拷贝统计，有的考虑更细粒度的局部视频拷贝统计技术主要针对视频中的任意片段，局部视频拷贝分析虽然具有更为全面、精准的效果，但检索过程相对复杂，导致了检索效率的降低。

因此，相关技术中的视频拷贝检测方法，存在视频拷贝检测效率低，视频拷贝检测准确度差的问题。

发明内容

本申请实施例提供了一种视频拷贝检测方法和装置、存储介质和电子装置，以至少解决相关技术中的视频拷贝检测方法中存在的视频拷贝检测效率低，视频拷贝检测准确度差的问题。

根据本申请实施例的一个方面，提供了一种视频拷贝检测方法，包括：抽取查询视频的第一目标关键帧；提取第一目标关键帧的第一视频特征；获取已发布的参考视频的第二目标关键帧的第二视频特征；在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，抽取查询视频与参考视频中的相似视频片段。

可选地，抽取查询视频的第一目标关键帧包括：确定查询视频中包含的一个或多个镜头，其中，在一个或多个镜头的各个镜头所包含的多个视频帧中，各个相邻视频帧之间的相似度大于或者等于第一阈值；根据各个镜头的注意度变化，确定从各个镜头中待抽取的子关键帧的目标数量，其中，各个镜头的注意度变化用于表示各个镜头所包含的多个视频帧的显示信息的变化；从各个镜头包含的多个视频帧中，依次抽取出目标数量的子关键帧，其中，第一目标关键帧包括目标数量的子关键帧。

可选地，确定查询视频中包含的一个或多个镜头包括：确定查询视频所包含的多个目标视频帧的各个相邻目标视频帧之间的相似度；在多个目标视频帧中的第一目标视频帧和第二目标视频帧之间的相似度小于第一阈值的情况下，将第一目标视频帧确定为第一镜头的最后一个视频帧，将第二目标视频帧确定为第二镜头的第一个视频帧，其中，一个或多个镜头包括第一镜头和第二镜头。

可选地，根据各个镜头的注意度变化，确定从各个镜头中待抽取的子关键帧的目标数量包括：确定各个镜头的注意度变化，以及一个或多个镜头的总注意度变化，其中，各个镜头的注意度变化为各个镜头所包含的多个视频帧中，各个相邻视频帧的注意度变化的平均，各个相邻视频帧的注意度变化为各个相邻视频帧对应的像素点的差值的和，总注意度变化为各个镜头的注意度变化的和；将各个镜头对应的第一数量和第二数量之间的最大值，确定为从各个镜头中待抽取的子关键帧的目标数量，其中，各个镜头对应的第一数量为各个镜头的注意度变化在总注意度变化中所占的比例与第一目标关键帧包含的关键帧的总数量的乘积，第二数量为1。

可选地，从各个镜头包含的多个视频帧中，依次抽取出目标数量的子关键帧包括：依次确定与当前镜头的待抽取关键帧对应的第二阈值，其中，第二阈值为当前镜头中的所有视频帧和查询视频的所有已抽取关键帧之间的距离的平均值和方差的加权和；确定当前镜头的多个第一视频帧的各第一视频帧的注意度变化，其中，多个第一视频帧为当前镜头中与所有已抽取关键帧之间的距离的平均值大于或者等于第二阈值的视频帧，各第一视频帧的注意度变化为各第一视频帧和第二视频帧对应的像素点的差值的和，第二视频帧为各第一视频帧的前一个视频帧；将注意度变化最大的第一视频帧，确定为待抽取关键帧；从当前镜头中抽取出第一视频帧，其中，目标数量的子关键帧包括第一视频帧。

可选地，提取第一目标关键帧的第一视频特征包括：将第一目标关键帧输入到目标神经网络模型，获取目标神经网络模型输出的第一视频特征，其中，目标神经网络模型用于通过卷积神经网络提取出第一目标关键帧包含的视频特征。

可选地，在获取参考视频的第二目标关键帧的第二视频特征后，确定与第一视频特征对应的第一哈希索引和与第二视频特征对应的第二哈希索引；在第一哈希索引和第二哈希索引之间的距离大于或者等于第三阈值的情况下，确定出查询视频与参考视频匹配；和/或，在第一哈希索引和第二哈希索引之间的距离小于第三阈值的情况下，确定出查询视频与参考视频匹配。

可选地，在获取参考视频的第二目标关键帧的第二视频特征之后，获取查询视频位于第一滑动窗口内的第一视频片段，其中，第一视频片段包括第一目标关键帧的第一关键帧；获取参考视频位于第二滑动窗口内的第二视频片段，其中，第二滑动窗口与第一滑动窗口的窗口大小相同，第二视频片段包括第二目标关键帧的第二关键帧，第一关键帧和第二关键帧的相似度大于或者等于第四阈值；调整第一滑动窗口和第二滑动窗口的窗口参数，以调整第一视频片段和第二视频片段，窗口参数包括以下至少之一：窗口位置，窗口大小；在调整后的第一视频片段和第二视频片段的相似度大于或者等于第五阈值的情况下，控制输出指示信息，其中，指示信息用于指示查询视频的第一视频片段采用了参考视频的第二视频片段。

根据本申请实施例的另一个方面，提供了一种视频拷贝检测装置，包括：第一抽取单元，用于抽取查询视频的第一目标关键帧；提取单元，用于提取第一目标关键帧的第一视频特征；第一获取单元，用于获取已发布的参考视频的第二目标关键帧的第二视频特征；第二抽取单元，用于在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，抽取查询视频和参考视频中相似的视频片段。

可选地，第一抽取单元包括：第一确定模块，用于确定查询视频中包含的一个或多个镜头，其中，在一个或多个镜头的各个镜头所包含的多个视频帧中，各个相邻视频帧之间的相似度大于或者等于第一阈值；第二确定模块，用于根据各个镜头的注意度变化，确定从各个镜头中待抽取的子关键帧的目标数量，其中，各个镜头的注意度变化用于表示各个镜头所包含的多个视频帧的显示信息的变化；抽取模块，用于从各个镜头包含的多个视频帧中，依次抽取出目标数量的子关键帧，其中，第一目标关键帧包括目标数量的子关键帧。

可选地，第一确定模块包括：第一确定子模块，用于确定查询视频所包含的多个目标视频帧的各个相邻目标视频帧之间的相似度；第二确定子模块，用于在多个目标视频帧中的第一目标视频帧和第二目标视频帧之间的相似度小于第一阈值的情况下，将第一目标视频帧确定为第一镜头的最后一个视频帧，将第二目标视频帧确定为第二镜头的第一个视频帧，其中，一个或多个镜头包括第一镜头和第二镜头。

可选地，第二确定模块包括：第三确定子模块，用于确定各个镜头的注意度变化，以及一个或多个镜头的总注意度变化，其中，各个镜头的注意度变化为各个镜头所包含的多个视频帧中，各个相邻视频帧的注意度变化的平均，各个相邻视频帧的注意度变化为各个相邻视频帧对应的像素点的差值的和，总注意度变化为各个镜头的注意度变化的和；第四确定子模块，用于将各个镜头对应的第一数量和第二数量之间的最大值，确定为从各个镜头中待抽取的子关键帧的目标数量，其中，各个镜头对应的第一数量为各个镜头的注意度变化在总注意度变化中所占的比例与第一目标关键帧包含的关键帧的总数量的乘积，第二数量为1。

可选地，抽取模块包括：第五确定子模块，用于依次确定与当前镜头的待抽取关键帧对应的第二阈值，其中，第二阈值为当前镜头中的所有视频帧和查询视频的所有已抽取关键帧之间的距离的平均值和方差的加权和；第六确定子模块，用于确定当前镜头的多个第一视频帧的各第一视频帧的注意度变化，其中，多个第一视频帧为当前镜头中与所有已抽取关键帧之间的距离的平均值大于或者等于第二阈值的视频帧，各第一视频帧的注意度变化为各第一视频帧和第二视频帧对应的像素点的差值的和，第二视频帧为各第一视频帧的前一个视频帧；第七确定子模块，用于将注意度变化最大的第一视频帧，确定为待抽取关键帧；抽取子模块，用于从当前镜头中抽取出第一视频帧，其中，目标数量的子关键帧包括第一视频帧。

可选地，提取单元包括：获取模块，用于将第一目标关键帧输入到目标神经网络模型，获取目标神经网络模型输出的第一视频特征，其中，目标神经网络模型用于通过卷积神经网络提取出第一目标关键帧包含的视频特征。

可选地，上述装置还包括：第一确定单元，用于在获取已发布的参考视频的第二目标关键帧的第二视频特征之后，确定与第一视频特征对应的第一哈希索引和与第二视频特征对应的第二哈希索引；第二确定单元，用于在第一哈希索引和第二哈希索引之间的距离大于或者等于第三阈值的情况下，确定出查询视频与参考视频不匹配；和/或，第三确定单元，用于在第一哈希索引和第二哈希索引之间的距离小于第三阈值的情况下，确定出查询视频与参考视频匹配。

可选地，上述装置还包括：第二获取单元，用于在获取已发布的参考视频的第二目标关键帧的第二视频特征之后，获取查询视频位于第一滑动窗口内的第一视频片段，其中，第一视频片段包括第一目标关键帧的第一关键帧；第三获取单元，用于获取参考视频位于第二滑动窗口内的第二视频片段，其中，第二滑动窗口与第一滑动窗口的窗口大小相同，第二视频片段包括第二目标关键帧的第二关键帧，第一关键帧和第二关键帧的相似度大于或者等于第四阈值；调整单元，用于调整第一滑动窗口和第二滑动窗口的窗口参数，以调整第一视频片段和第二视频片段，窗口参数包括以下至少之一：窗口位置，窗口大小；控制单元，用于在调整后的第一视频片段和第二视频片段的相似度大于或者等于第五阈值的情况下，控制输出指示信息，其中，指示信息用于指示查询视频的第一视频片段采用了参考视频的第二视频片段。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，采用根据关键帧的视频特征进行视频匹配的方式，通过抽取查询视频的第一目标关键帧；提取第一目标关键帧的第一视频特征；获取已发布的参考视频的第二目标关键帧的第二视频特征；在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，抽取查询视频和参考视频中相似的视频片段，由于关键帧为视频中的代表视频帧，且根据关键帧的视频特征进行视频匹配，可以实现在保证检索准确性的基础上提高检索速度的目的，达到了提高视频拷贝检测效率，提升视频拷贝检测准确度的技术效果，从而解决了相关技术中的视频拷贝检测方法中存在的视频拷贝检测效率低，视频拷贝检测准确度差的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的检索服务器的硬件结构框图；

图2是根据本申请实施例的一种可选的视频拷贝检测方法的流程示意图；

图3是根据本申请实施例的一种可选的提取视频特征的示意图；

图4是根据本申请实施例的一种可选的基于哈希结构的索引方法的示意图；

图5是根据本申请实施例的一种可选的视频拷贝检测方法的示意图；

图6是根据本申请实施例的一种可选的基于滑动窗口的时间对齐的流程示意图；

图7是根据本申请实施例的另一种可选的视频拷贝检测方法的流程示意图；

图8是根据本申请实施例的一种可选的视频拷贝检测装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

根据本申请实施例的一个方面，提供了一种视频拷贝检测方法。可选地，该方法可以在检索服务器、数据服务器或者类似的运算装置中执行。以运行在检索服务器上为例，图1是根据本申请实施例的一种可选的检索服务器的硬件结构框图。如图1所示，检索服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述检索服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述检索服务器的结构造成限定。例如，检索服务器10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的视频拷贝检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至检索服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括检索服务器10的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个NIC(Network Interface Controller，网络适配器)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为RF(Radio Frequency，射频)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述检索服务器上的视频拷贝检测方法，图2是根据本申请实施例的一种可选的视频拷贝检测方法的流程示意图，如图2所示，该流程包括如下步骤：

步骤S202，抽取查询视频的第一目标关键帧；

步骤S204，提取第一目标关键帧的第一视频特征；

步骤S206，获取已发布的参考视频的第二目标关键帧的第二视频特征；

步骤S208，在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，抽取查询视频与参考视频中相似的视频片段。

可选地，上述步骤的执行主体可以为检索服务器、数据服务器、云服务器、服务器集群等，但不限于此。

通过上述步骤，通过抽取查询视频的第一目标关键帧；提取第一目标关键帧的第一视频特征；获取已发布的参考视频的第二目标关键帧的第二视频特征；在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，抽取查询视频和参考视频中相似的视频片段，解决了相关技术中的视频拷贝检测方法中存在的视频拷贝检测效率低，视频拷贝检测准确度差的问题，提高了视频拷贝检测效率，提升了视频拷贝检测准确度。

下面结合图2对本申请实施例中的视频拷贝检测方法进行说明。

在步骤S202中，抽取查询视频的第一目标关键帧。

用户可以使用用户帐号登录到目标应用的客户端。并使用目标应用的客户端进行视频发布。在进行视频发布时，用户可以首先进入到视频发布界面，在该界面中选择查询视频(待发布的视频)，然后通过点击确定按钮，进行查询视频的上传，将查询视频上传到服务器中。

接收目标对象(用户)上传的查询视频的服务器可以是检索服务器。在接收到查询视频之后，检索服务器可以进行相似视频检索。

接收目标对象上传的查询视频的服务器也可以是其他的控制服务器。控制服务器在接收到查询视频之后，可以将查询视频发送给检索服务器，或者，在对查询视频进行预处理之后，将处理后得到的视频数据发送给检索服务器。上述预处理可以是抽取查询视频的第一目标关键帧。

由于视频数据量大、冗余度高等特点，即使简单的视频操作如浏览与检索也需要大量的时间和复杂的运算，而关键帧的抽取可大大减少视频数据的数量，同时也给视频内容分析提供了一个有效的手段与平台。

抽取查询视频的第一目标关键帧的方式可以有多种。例如，随机抽取，即，随机抽取一定数量的视频帧作为第一目标关键帧。又例如，按比例间隔抽取，即，根据第一目标关键帧的数量和查询视频包含的视频帧的数量，每隔相同数量的视频帧抽取一个关键帧。

作为一种可选的实施方案，抽取查询视频的第一目标关键帧包括：确定查询视频中包含的一个或多个镜头，其中，在一个或多个镜头的各个镜头所包含的多个视频帧中，各个相邻视频帧之间的相似度大于或者等于第一阈值；根据各个镜头的注意度变化，确定从各个镜头中待抽取的子关键帧的目标数量，其中，各个镜头的注意度变化用于表示各个镜头所包含的多个视频帧的显示信息的变化；从各个镜头包含的多个视频帧中，依次抽取出目标数量的子关键帧，其中，第一目标关键帧包括目标数量的子关键帧。

查询视频中可以包含一个或多个镜头。在每个镜头中，相邻视频帧之间的相似度大于或者等于第一阈值。该第一阈值可以是预先配置的，调整可以通过配置指令进行的，也可以根据其他方式进行调整，具体的调整可以根据需要进行设定，本实施例中对此不作具体限定。

对于查询视频中的各个镜头，可以基于视觉内容的关键帧提取：根据每个镜头的视点转移程度(关注度变化)动态地为每个镜头分配关键帧数目。各个镜头的注意度变化用于表示各个镜头所包含的多个视频帧的显示信息的变化，显示信息的变化越大，表明该镜头的视点转移程度越大，需要分配越多数量的关键帧。

可以根据各个镜头的注意度变化，确定从各个镜头中待抽取的子关键帧的目标数量。不同的镜头的注意度变化可能不同，待抽取的关键帧(子关键帧)的数量也不相同。所有镜头的关键帧均为查询视频的关键帧(第一目标关键帧)。

在确定出从各个镜头中待抽取的关键帧数量(目标数量)之后，可以依次从各个镜头包含的多个视频帧中，依次抽取出目标数量的关键帧。

通过本实施例，根据镜头变化(镜头的关注度变化)给每个镜头分配的关键帧数目，可以提高关键帧抽取的合理性。

作为一种可选的实施方案，确定查询视频中包含的一个或多个镜头包括：确定查询视频所包含的多个目标视频帧的各个相邻目标视频帧之间的相似度；在多个目标视频帧中的第一目标视频帧和第二目标视频帧之间的相似度小于第一阈值的情况下，将第一目标视频帧确定为第一镜头的最后一个视频帧，将第二目标视频帧确定为第二镜头的第一个视频帧，其中，一个或多个镜头包括第一镜头和第二镜头。

为了确定查询视频中包含的一个或多个镜头，可以对查询视频中包含的视频帧(多个目标视频帧)进行聚类。视频帧聚类的方式可以是：确定查询视频所包含的多个目标视频帧的各个相邻目标视频帧之间的相似度，根据各个相邻目标视频帧之间的相似度，对多个目标视频帧进行聚类。

在对多个目标视频帧进行聚类时，如果两个相邻目标视频帧之间的相似度大于或者等于第一阈值，则可以确定两者属于同一镜头，计算该相邻目标视频帧的后一个目标视频帧和下一个目标视频帧的相似度，继续判断两者是否属于同一个镜头。如果两个相邻目标视频帧之间的相似度小于第一阈值，则可以确定两者不属于同一镜头，该相邻目标视频帧的前一个目标视频帧属于前一个镜头(第一镜头)，后一个目标视频帧属于后一个镜头(第二镜头)。在聚类结束之后，即可确定出查询视频包含的一个或多个镜头。

需要说明的是，对于每个镜头的划分还可以是根据查询视频中的标识信息执行的，也就是，根据查询视频的镜头标识信息，确定查询视频中包含的一个或多个镜头，上述标识信息可以是用户手动标注的，也可以是在用户上传之后由专业的标注人员进行标注的。上述方式具有镜头划分准确的优点，但需要增加用户或者标注人员的工作，人工成本较高。

通过本实施例，通过对查询视频中包含的视频帧进行聚类，确定查询视频中包含的镜头，可以减少镜头划分的人工成本，提高视频处理的效率。

作为一种可选的实施方案，根据各个镜头的注意度变化，确定从各个镜头中待抽取的子关键帧的目标数量包括：确定各个镜头的注意度变化，以及一个或多个镜头的总注意度变化，其中，各个镜头的注意度变化为各个镜头所包含的多个视频帧中，各个相邻视频帧的注意度变化的平均，各个相邻视频帧的注意度变化为各个相邻视频帧对应的像素点的差值的和，总注意度变化为各个镜头的注意度变化的和；将各个镜头对应的第一数量和第二数量之间的最大值，确定为从各个镜头中待抽取的子关键帧的目标数量，其中，各个镜头对应的第一数量为各个镜头的注意度变化在总注意度变化中所占的比例与第一目标关键帧包含的关键帧的总数量的乘积，第二数量为1。

各个镜头注意度的变化可以是根据各个镜头包含的多个视频帧的各个相邻视频帧的注意度变化确定的，而各个相邻视频帧的注意度变化可以是根据视频帧的像素点的变化确定的。

对于各个镜头，任意两帧之间视觉注意度的变化(注意度变化)可以如公式(1)所示：

其中，D_i,j为第i帧和第j帧之间的视觉注意度的变化，

为第i帧的第m个分块，

为第j帧的第m个分块，M为一帧中的分块数。M的大小可以根据视频帧的分辨率进行确定，M的大小与视频帧的分辨率正相关。视频帧的分辨率越高，M值越大，视频帧的分辨率越低，M值越小。

在任意两帧之间视觉注意度的变化确定之后，可以确定各个镜头的注意度变化，各个镜头的注意度变化可以为各个镜头所包含的多个视频帧中，各个相邻视频帧的注意度变化的平均。则一个镜头的视觉注意度变化可以如公式(2)所示：

其中，

为一个镜头的视觉注意度变化，D_i为第i帧和第i帧的前一帧的视觉注意度变化，N为镜头视频帧数目。

在确定出各个镜头的注意度变化之后，可以确定查询视频的总注意度变化，总注意度变化为各个镜头注意度变化的求和：

根据各个镜头的注意度变化和查询视频的总注意度变化，可以确定从各个镜头中待抽取的子关键帧的目标数量。根据镜头变化给每个镜头分配的关键帧数目可以如公式(3)所示：

其中，C为给每个镜头分配的关键帧数目，T为给定的关键帧总数，而每个镜头最少分配一帧作为关键帧。

通过本实施例，根据镜头变化确定给每个镜头分配关键帧数目(当视频内容为空时关键帧数目为0)，以保证关键帧分配的合理性。

作为一种可选的实施方案，从各个镜头包含的多个视频帧中，依次抽取出目标数量的子关键帧包括：依次确定与当前镜头的待抽取关键帧对应的第二阈值，其中，第二阈值为当前镜头中的所有视频帧和查询视频的所有已抽取关键帧之间的距离的平均值和方差的加权和；确定当前镜头的多个第一视频帧的各第一视频帧的注意度变化，其中，多个第一视频帧为当前镜头中与所有已抽取关键帧之间的距离的平均值大于或者等于第二阈值的视频帧，各第一视频帧的注意度变化为各第一视频帧和第二视频帧对应的像素点的差值的和，第二视频帧为各第一视频帧的前一个视频帧；将注意度变化最大的第一视频帧，确定为待抽取关键帧；从当前镜头中抽取出第一视频帧，其中，目标数量的子关键帧包括第一视频帧。

在确定出从各个镜头中待抽取的关键帧数量之后，可以从各个镜头中依次抽取出该数量的关键帧。

从各个镜头中抽取关键帧的方式可以有多种。例如，随机抽取，即，随机抽取一定数量的视频帧作为与该镜头对应的关键帧。又例如，按比例间隔抽取，即，根据从该镜头中待抽取的关键帧的数量和该镜头包含的视频帧的数量，每隔相同数量的视频帧抽取一个关键帧。

当镜头只有一个关键帧时，可以将镜头内注意度最大的帧作为该镜头的关键帧输出。镜头内的视频帧的注意度变化为该视频帧与该视频帧的前一个视频帧对应像素点的像素值的差值的和，如公式(1)所示。

为避免关键帧在少数相邻的几帧中产生，导致产生的关键帧失去代表性问题，可以根据镜头内剩余的视频帧和已抽取的关键帧的位置，确定待抽取的关键帧的位置。

在抽取本镜头的一个关键帧(当前待抽取关键帧)时，可以确定与待抽取关键帧对应的第二阈值，该第二阈值为：当前镜头中的所有视频帧和查询视频的所有已抽取关键帧之间的距离的平均值和方差的加权和，为：αD_ave+δD_div，其中，D_ave为镜头内所有视频帧到已提取关键帧的距离的平均值，D_div为镜头内所有视频帧到已提取关键帧的距离的方差，α和δ为常数。

在得到第二阈值之后，可以确定当前镜头中的多个第一视频帧，并确定各第一视频帧的注意度变化，其中，该第一视频帧为当前镜头中与所有已抽取关键帧之间的距离的平均值大于或者等于第二阈值的视频帧。

第一视频帧的注意度变化为：第一视频帧和该第一视频帧的前一个视频帧(第二视频帧)对应的像素点(的像素值)的差值的和，如公式(1)所示。将注意度变化最大的第一视频帧，作为当前待抽取的视频帧，并从当前镜头中抽取出第一视频帧，作为本镜头的一个关键帧。

如果本镜头内需要抽取多个关键帧，可以采用同样的方式进行其他关键帧的抽取，在此不做赘述。

例如，待提取关键帧到已经提取关键帧的距离D_key需满足不等式D_key>D_ave+δD_div，其中，D_ave为镜头内所有帧到已提取关键帧的距离的平均值，D_div为方差，δ为常数。在满足上述不等式的条件下选择注意度最大的帧作为关键帧。

通过本实施例，根据与已抽取关键帧的距离确定待抽取的关键帧，可以避免由于抽取的关键帧为少数相邻的视频帧导致的关键帧失去代表性，提高关键帧抽取的合理性。

在步骤S204中，提取第一目标关键帧的第一视频特征。

在得到查询视频的关键帧之后，可以抽取各关键帧的视频特征，视频特征可以用于表示关键帧。

视频特征抽取是使用计算机提取视频信息，决定每一个视频的点是否属于一个视频特征，特征提取的结果是把视频的关键帧图像上的点可以分为不同子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。常用的特征有颜色特征、纹理特征、形状特征、空间关系特征。

视频特征抽取可以采用传统的图像特征抽取方式，例如，尺度不变特征变换(Scale-invariant feature transform，简称为SIFT)算法和加速稳健特征(Speeded UpRobust Features，简称为SURF)算法等。

作为一种可选的实施方案，提取第一目标关键帧的第一视频特征包括：将第一目标关键帧输入到目标神经网络模型，获取目标神经网络模型输出的第一视频特征，其中，目标神经网络模型用于通过卷积神经网络提取出第一目标关键帧包含的视频特征。

除了传统的图像特征提取算法，还可以采用基于深度网络的视频帧特征的提取算法。

卷积神经网络(Convolutional Neural Networks，简称为CNN)可以从大量的数据系列中，学习出复杂的映射关系，在计算机视觉领域已经取得较大的科研成果，被运用于图像分类、目标检测、表情识别、人脸检测等领域。相对于颜色特征、纹理特征的提取，深度卷积神经网络具有很强的抗干扰能力，对于图片的移动、旋转、形变或其他形式的形变具有高度的不敏感性。网络结构模型的一个示例可以如图3所示。

在CNN结构中，多层网络结构的可视层输入为关键帧的图像块。在卷积层中，通过一组滤波器以及非线性层变换，提取出图像的局部特征。输入的图像通过多个可训练的滤波器和可加偏置进行卷积，卷积后在卷积层产生特征映射，然后对特征映射中每组的像素进行求和，赋予权值、加入偏置，通过一个Sigmoid函数得到多个采样层的特征映射。具体计算过程如公式(4)所示：

其中，M_j为输入该层的特征映射集，t表示当前的卷积层数，

表示采样层第j个神经元输出的特征向量，

表示上一卷积层第i个神经元输出，

表示上一卷积层第i个神经元与本层第j个神经元之间的连接阈值，该过程所增加的偏置为

通过激活函数f，可以得到

在采样层中，采用池化的方式对卷积层的特征向量进行降维，以提升特征的表达能力。这些特征映射再经过滤波得到下一卷积层，该层级结构对每一个映射重复如采样层相同的计算过程，产生下一采样层。最终这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，得到输出。具体计算公式如公式(5)所示：

其中，n表示从卷积层到采样层的窗口宽度。

通过本实施例，使用卷积神经网络进行视频特征提取，可以提高特征提取的抗干扰能力，提高相似视频检索的准确性。

在步骤S206中，获取参考视频的第二目标关键帧的第二视频特征。

在源视频库中可以保存有已上传的多个视频(参考视频)。源视频库中可以布设在一个或多个服务器或者服务器集群中，源视频库中可以保存有以下至少之一的信息：参考视频，参考视频的关键帧的视频特征，参考视频的关键帧的视频特征所对应的哈希索引。

对于一个或多个参考视频，可以从源视频库中获取各参考视频，并采用与前述类似的方式提取参考视频的关键帧(第二目标关键帧)的视频特征(第二视频特征)。或者，直接从源视频库中获取各个参考视频的关键帧的视频特征。

在获取到第二视频特征之后，可以根据第一视频特征和第二视频特征确定查询视频与参考视频的匹配程度。

作为一种可选的实施方案，在获取参考视频的第二目标关键帧的第二视频特征之后，确定与第一视频特征对应的第一哈希索引和与第二视频特征对应的第二哈希索引；在第一哈希索引和第二哈希索引之间的距离大于或者等于第三阈值的情况下，确定出查询视频与参考视频不匹配。

对于视频特征的比对，特别是局部视频采用检测，总体特征量十分庞大，如果采用枚举的方式进行一一匹配，检索效率会十分低下，很难满足大规模的视频采用计算。

为达到快速检索的目的，多媒体视频稿件比对分析可以运用高效的索引结构。常用的索引方法可以包括但不限于以下至少之一：树形结构、向量近似文件、Hash(哈希)结构和倒排索引方法。

为了提高特征比对的准确性，可以采用基于Hash结构的索引方法。如图4所示。基于Hash结构的索引方法采用一组位置敏感Hash函数，在特征空间内做随机方向的线性映射，使得近似的特征能有很高的概率落入同一个散列桶内，位置敏感的查询时间是次线性的。

在进行特征比对时，可以使用相同的哈希函数确定与第一视频特征对应的第一哈希索引和与第二视频特征对应的第二哈希索引，并确定第一哈希索引和第二哈希索引的距离。在第一哈希索引和第二哈希索引之间的距离大于或者等于第三阈值的情况下，确定出查询视频与参考视频不匹配。在第一哈希索引和第二哈希索引之间的距离小于第三阈值的情况下，确定出查询视频与参考视频匹配。

由于查询视频的关键帧和参考视频的关键帧的数量可以有多个，可以分别确定查询视频的各个关键帧的视频特征与参考视频的关键帧的视频特征之间的哈希距离，取最大的哈希距离进行判断。在查询视频的所有关键帧的视频特征与参考视频的所有关键帧的视频特征均不匹配(哈希距离大于或者等于第三阈值)，才表明查询视频与参考视频不匹配。在查询视频的一个或多个关键帧的视频特征与参考视频的一个关键帧的视频特征匹配(哈希距离小于第三阈值)的情况下，则可以表明查询视频与参考视频匹配。

需要说明的是，查询视频与参考视频不匹配表示查询视频未采用参考视频中的视频片段，查询视频与参考视频匹配表示查询视频采用了参考视频中的视频片段。

通过本实施例，通过视频特征的哈希距离确定待参考视频与参考视频是否匹配，可以提高特征比对的抗干扰能力，提高视频特征匹配的准确性。

在步骤S208中，在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，抽取查询视频与参考视频中相似的视频片段。

在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，抽取查询视频与参考视频中相似的视频片段。如果查询视频与参考视频匹配，可以确定查询视频采用了参考视频的视频片段，则可以抽取出查询视频与参考视频中相似的视频片段，相似的视频片段指示了查询视频中的哪些视频片段采用了参考视频中的哪些视频片段(即，查询视频中的哪些视频片段是参考视频中的哪些视频片段的拷贝视频)。

在根据第一视频特征和第二视频特征确定出查询视频与参考视频不匹配的情况下，控制将查询视频进行发布。如果查询视频与参考视频不匹配，可以确定查询视频未采用参考视频的视频片段，查询视频为允许进行发布的视频。检索服务器或者其他控制服务器可以控制将查询视频进行发布。

作为一种可选的实施方案，在获取已发布的参考视频的第二目标关键帧的第二视频特征后，获取查询视频位于第一滑动窗口内的第一视频片段；获取参考视频位于第二滑动窗口内的第二视频片段；调整第一滑动窗口和第二滑动窗口的窗口参数，以调整第一视频片段和第二视频片段；在调整后的第一视频片段和第二视频片段的相似度大于或者等于第五阈值的情况下，控制输出指示信息。

在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，可以确定查询视频采用了参考视频中的视频片段，可以进一步确定查询视频的哪些视频片段采用了参考视频中的哪些视频片段。确定采用片段可以认为是查询视频与参考视频进行时间对其的过程。

时间对齐是在进行局部视频稿件比对分析中为了确定2个视频的哪些片段对互为采用时进行的操作。对于任意两个视频，有一对一、一对多、多对多以及交叉对应等多种采用片段对齐形式(如图5所示)。常见的视频采用对齐方法可以包括但不限于以下至少之一：基于滑动窗口的时间对齐算法，基于树形结构的时间对齐算法和基于图的时间对齐算法。

基于滑动窗口的时间对齐算法运用霍夫投票机制的时间对齐方式，如图6所示。

该方法首先定义s(τ,t)表示在时刻τ的查询帧(查询视频的关键帧)与在时刻t的参考帧(参考视频的视频帧，可以是参考视频的关键帧)的相似度得分。然后分配一个动态窗口，窗口内含有δ帧，窗口既可以向右移动，也可以向右扩大。可以采用公式(6)计算滑动窗口变化时的累加相似度直方图：

其中，y是查询视频的时间戳集合(查询视频的关键帧的时间戳的集合)，如果时间戳τ+δ不在参考视频的时间范围内，则s(τ,τ+δ)＝0。该直方图具有明显的峰值，通过其峰值确认出采用片段。

可选地，可以按照查询视频和参考视频每个匹配的关键帧，采用相同大小的滑动窗口(第一滑动窗口和第二滑动窗口)分别在查询视频和参考视频上进行滑动。对于位于第一滑动窗口的第一视频片段和位于第二滑动窗口的第二视频片段，可以获取对应的视频帧的相似度，进而确定第一视频片段和第二视频片段的相似度。通过调整第一滑动窗口的位置和/或大小，可以调整第一视频片段和第二视频片段，从而调整两个视频片段的相似度。

在两个视频片段的相似度大于或者等于第五阈值的情况下，可以确定调整后的第一视频片段采用了调整后的第二视频片段。检索服务器或者其他控制服务器可以控制输出指示信息，其中，指示信息用于指示查询视频的第一视频片段采用了参考视频的第二视频片段。对应地，指示信息也用于指示参考视频的第二视频片段采用了查询视频的第一视频片段。

对于输出的指示信息，可以将指示信息发送给用户终端，并在用户终端上显示指示信息；或者，将查询视频(可选)和参考视频以及指示信息发送给用户终端，在用户终端重点上显示查询视频和参考视频，并根据指示信息在查询视频上标识出第一视频片段，在参考视频上标识出第二视频片段。可选地，也可以将查询视频与参考视频中相似的视频片段发送到用户终端，并在用户终端上显示相似的视频片段。

需要说明的是，指示信息的使用方式可以结合具体的场景，本实施例中对此不作具体限定。

此外，由于某些不相关的匹配帧可能会形成较高的相似度得分，为了降低这种情况造成的影响，可以加入二次加权策略，二次加权可以根据与关键帧的距离进行加权等等，本实施例中对此不作具体限定。

通过本实施例，通过确定查询视频与参考视频的采用片段(相似的视频片段)，可以为视频的后续分析提供依据，提高视频分析的便捷性；并且，通过使用滑动窗口进行采用片段的确定，可以提高采样片段确定的准确性。

下面结合可选示例对上述视频拷贝检测方法进行说明。本示例中的视频拷贝检测方法是一种基于深度学习的新媒体视频拷贝检测方法，针对新媒体视频稿件数据，采用深度学习的方法对新媒体视频拷贝检测方法进行评估量化，可以准确、快速检测库视频中包含采用视频片段，从而提高新媒体视频拷贝检测的准确率和速度，可更好地服务于视频采用检测、采用分析工作。

如图7所示，本示例中的视频拷贝片段的发布方法的流程可以包括以下步骤：

步骤1，视频关键帧提取。

针对视频库中的视频和查询视频，首先进行视频关键帧的抽取，即获取视频中包含重要信息的帧序列。

对于视频库中的视频，视频关键帧的提取可以是提前执行的，并保存在源视频库中。对于查询视频，视频关键帧的抽取可以是实时进行的。

步骤2，视频特征抽取。

可以对视频关键帧(视频库中的视频的关键帧和查询视频的视频关键帧)进行特征抽取，即对视频关键帧提取相应的特征向量，并经过一定的处理形成帧特征或视频特征。

对于视频库中的视频关键帧，视频关键帧的视频特征的提取可以是提前执行的，并保存在源视频库中。对于查询视频的视频关键帧，视频关键帧的视频特征的抽取可以是实时进行的。

步骤3，建立索引和特征匹配。

由于海量数据库视频中的拷贝检测问题，使用直接的特征匹配方式显得非常耗时，为了达到更高效的检索，建立索引是一种有效手段。

针对获得的关键帧特征或视频特征，进行建立索引操作。并基于建立的索引进行特征匹配。

步骤4，时间对齐。

使用时间信息将采用视频帧整合成采用片段，进行时间对齐操作，完成时间对齐操作后可得到采用的视频片段。

通过本示例，采用基于深度学习的视频拷贝检测模型，可大大提高视频拷贝检测的准确性，并可以适用于同时处理大批量的长视频和短视频数据，算法具有较高的处理速度，还可适用于各种类型的视频数据，输入的视频格式无论为何种形式均能进行拷贝检测分析。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本申请实施例的另一个方面，提供了一种用于实施上述视频拷贝检测方法的视频拷贝检测装置。可选地，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本申请实施例的一种可选的视频拷贝检测装置的结构框图，如图8所示，该装置包括：

(1)第一抽取单元82，用于抽取查询视频的第一目标关键帧；

(2)提取单元84，与抽取单元82相连，用于提取第一目标关键帧的第一视频特征；

(3)第一获取单元86，与提取单元84相连，用于获取已发布的参考视频的第二目标关键帧的第二视频特征；

(4)第二抽取单元88，与第一获取单元86相连，用于在根据第一视频特征和第二视频特征确定出查询视频与参考视频匹配的情况下，抽取查询视频与参考视频中相似的视频片段。

可选地，第一抽取单元82可以用于上述实施例中的步骤S202，提取单元84可以用于上述实施例中的步骤S204，第一获取单元86可以用于执行上述实施例中的步骤S206，第二抽取单元88可以用于执行上述实施例中的步骤S208。

通过上述模块，通过抽取查询视频的第一目标关键帧；提取第一目标关键帧的第一视频特征；获取已发布的参考视频的第二目标关键帧的第二视频特征；在根据第一视频特征和第二视频特征确定出查询视频与参考视频不匹配的情况下，抽取查询视频与参考视频中相似的视频片段，解决了相关技术中的视频拷贝检测方法存在视频拷贝检测效率低，视频拷贝检测准确度差的问题，提高了视频拷贝检测效率，提升了视频拷贝检测准确度。

作为一种可选的实施方案，第一抽取单元82包括：

(1)第一确定模块，用于确定查询视频中包含的一个或多个镜头，其中，在一个或多个镜头的各个镜头所包含的多个视频帧中，各个相邻视频帧之间的相似度大于或者等于第一阈值；

(2)第二确定模块，用于根据各个镜头的注意度变化，确定从各个镜头中待抽取的子关键帧的目标数量，其中，各个镜头的注意度变化用于表示各个镜头所包含的多个视频帧的显示信息的变化；

(3)抽取模块，用于从各个镜头包含的多个视频帧中，依次抽取出目标数量的子关键帧，其中，第一目标关键帧包括目标数量的子关键帧。

作为一种可选的实施方案，第一确定模块包括：

(1)第一确定子模块，用于确定查询视频所包含的多个目标视频帧的各个相邻目标视频帧之间的相似度；

(2)第二确定子模块，用于在多个目标视频帧中的第一目标视频帧和第二目标视频帧之间的相似度小于第一阈值的情况下，将第一目标视频帧确定为第一镜头的最后一个视频帧，将第二目标视频帧确定为第二镜头的第一个视频帧，其中，一个或多个镜头包括第一镜头和第二镜头。

作为一种可选的实施方案，第二确定模块包括：

(1)第三确定子模块，用于确定各个镜头的注意度变化，以及一个或多个镜头的总注意度变化，其中，各个镜头的注意度变化为各个镜头所包含的多个视频帧中，各个相邻视频帧的注意度变化的平均，各个相邻视频帧的注意度变化为各个相邻视频帧对应的像素点的差值的和，总注意度变化为各个镜头的注意度变化的和；

(2)第四确定子模块，用于将各个镜头对应的第一数量和第二数量之间的最大值，确定为从各个镜头中待抽取的子关键帧的目标数量，其中，各个镜头对应的第一数量为各个镜头的注意度变化在总注意度变化中所占的比例与第一目标关键帧包含的关键帧的总数量的乘积，第二数量为1。

作为一种可选的实施方案，抽取模块包括：

(1)第五确定子模块，用于依次确定与当前镜头的待抽取关键帧对应的第二阈值，其中，第二阈值为当前镜头中的所有视频帧和查询视频的所有已抽取关键帧之间的距离的平均值和方差的加权和；

(2)第六确定子模块，用于确定当前镜头的多个第一视频帧的各第一视频帧的注意度变化，其中，多个第一视频帧为当前镜头中与所有已抽取关键帧之间的距离的平均值大于或者等于第二阈值的视频帧，各第一视频帧的注意度变化为各第一视频帧和第二视频帧对应的像素点的差值的和，第二视频帧为各第一视频帧的前一个视频帧；

(3)第七确定子模块，用于将注意度变化最大的第一视频帧，确定为待抽取关键帧；

(4)抽取子模块，用于从当前镜头中抽取出第一视频帧，其中，目标数量的子关键帧包括第一视频帧。

作为一种可选的实施方案，提取单元84包括：

(1)获取模块，用于将第一目标关键帧输入到目标神经网络模型，获取目标神经网络模型输出的第一视频特征，其中，目标神经网络模型用于通过卷积神经网络提取出第一目标关键帧包含的视频特征。

作为一种可选的实施方案，上述装置还包括：

(1)第一确定单元，用于在获取已发布的参考视频的第二目标关键帧的第二视频特征之后，确定与第一视频特征对应的第一哈希索引和与第二视频特征对应的第二哈希索引；

(2)第二确定单元，用于在第一哈希索引和第二哈希索引之间的距离大于或者等于第三阈值的情况下，确定出查询视频与参考视频不匹配；和/或，

(3)第二确定单元，用于在第一哈希索引和第二哈希索引之间的距离小于第三阈值的情况下，确定出查询视频与参考视频匹配。

作为一种可选的实施方案，上述装置还包括：

(1)第二获取单元，用于在获取已发布的参考视频的第二目标关键帧的第二视频特征之后，获取查询视频位于第一滑动窗口内的第一视频片段，其中，第一视频片段包括第一目标关键帧的第一关键帧；

(2)第三获取单元，用于获取参考视频位于第二滑动窗口内的第二视频片段，其中，第二滑动窗口与第一滑动窗口的窗口大小相同，第二视频片段包括第二目标关键帧的第二关键帧，第一关键帧和第二关键帧的相似度大于或者等于第四阈值；

(3)调整单元，用于调整第一滑动窗口和第二滑动窗口的窗口参数，以调整第一视频片段和第二视频片段，窗口参数包括以下至少之一：窗口位置，窗口大小；

(4)控制单元，用于在调整后的第一视频片段和第二视频片段的相似度大于或者等于第五阈值的情况下，控制输出指示信息，其中，指示信息用于指示查询视频的第一视频片段采用了参考视频的第二视频片段。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本申请实施例的又一个方面，提供了一种计算机可读的存储介质。可选地，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行本申请实施例中所提供的上述任一项方法中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，抽取查询视频的第一目标关键帧；

S2，提取第一目标关键帧的第一视频特征；

S3，获取已发布的参考视频的第二目标关键帧的第二视频特征；

S4，在根据第一视频特征和第二视频特征确定出查询视频与参考视频不匹配的情况下，抽取查询视频与参考视频中相似的视频片段。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

根据本申请实施例的又一个方面，提供了一种电子装置，包括：处理器(该存储器可以是图1中的处理器102)和存储器(该存储器可以是图1中的存储器104)，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行本申请实施例中所提供的上述任一项方法中的步骤。

可选地，上述电子装置还可以包括传输设备(该传输设备可以是图1中的传输设备106)以及输入输出设备(该输入输出设备可以是图1中的输入输出设备108)，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，抽取查询视频的第一目标关键帧；

S2，提取第一目标关键帧的第一视频特征；

可选地，本实施例中的可选示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频拷贝检测方法，其特征在于，包括：

抽取查询视频的第一目标关键帧；

提取所述第一目标关键帧的第一视频特征；

获取参考视频的第二目标关键帧的第二视频特征；

在根据所述第一视频特征和所述第二视频特征确定出所述查询视频与所述参考视频匹配的情况下，抽取所述查询视频与所述参考视频中相似的视频片段。

2.根据权利要求1所述的方法，其特征在于，抽取所述查询视频的所述第一目标关键帧包括：

确定所述查询视频中包含的一个或多个镜头，其中，在所述一个或多个镜头的各个镜头所包含的多个视频帧中，各个相邻视频帧之间的相似度大于或者等于第一阈值；

根据所述各个镜头的注意度变化，确定从所述各个镜头中待抽取的子关键帧的目标数量，其中，所述各个镜头的注意度变化用于表示所述各个镜头所包含的多个视频帧的显示信息的变化；

从所述各个镜头包含的多个视频帧中，依次抽取出所述目标数量的所述子关键帧，其中，所述第一目标关键帧包括所述目标数量的所述子关键帧。

3.根据权利要求2所述的方法，其特征在于，确定所述查询视频中包含的所述一个或多个镜头包括：

确定所述查询视频所包含的多个目标视频帧的各个相邻目标视频帧之间的相似度；

在所述多个目标视频帧中的第一目标视频帧和第二目标视频帧之间的相似度小于所述第一阈值的情况下，将所述第一目标视频帧确定为第一镜头的最后一个视频帧，将所述第二目标视频帧确定为第二镜头的第一个视频帧，其中，所述一个或多个镜头包括所述第一镜头和所述第二镜头。

4.根据权利要求2所述的方法，其特征在于，根据所述各个镜头的注意度变化，确定从所述各个镜头中待抽取的所述子关键帧的所述目标数量包括：

确定所述各个镜头的注意度变化，以及所述一个或多个镜头的总注意度变化，其中，所述各个镜头的注意度变化为所述各个镜头所包含的多个视频帧中，各个相邻视频帧的注意度变化的平均，所述各个相邻视频帧的注意度变化为所述各个相邻视频帧对应的像素点的差值的和，所述总注意度变化为所述各个镜头的注意度变化的和；

将所述各个镜头对应的第一数量和第二数量之间的最大值，确定为从所述各个镜头中待抽取的所述子关键帧的所述目标数量，其中，所述各个镜头对应的第一数量为所述各个镜头的注意度变化在所述总注意度变化中所占的比例与所述第一目标关键帧包含的关键帧的总数量的乘积，所述第二数量为1。

5.根据权利要求2所述的方法，其特征在于，从所述各个镜头包含的多个视频帧中，依次抽取出所述目标数量的所述子关键帧包括：

依次确定与当前镜头的待抽取关键帧对应的第二阈值，其中，所述第二阈值为所述当前镜头中的所有视频帧和所述查询视频的所有已抽取关键帧之间的距离的平均值和方差的加权和；

确定所述当前镜头的多个第一视频帧的各第一视频帧的注意度变化，其中，所述多个第一视频帧为所述当前镜头中与所述所有已抽取关键帧之间的距离的平均值大于或者等于所述第二阈值的视频帧，所述各第一视频帧的注意度变化为所述各第一视频帧和第二视频帧对应的像素点的差值的和，所述第二视频帧为所述各第一视频帧的前一个视频帧；

将注意度变化最大的第一视频帧，确定为所述待抽取关键帧；

从所述当前镜头中抽取出所述第一视频帧，其中，所述目标数量的所述子关键帧包括所述第一视频帧。

6.根据权利要求1所述的方法，其特征在于，提取所述第一目标关键帧的所述第一视频特征包括：

将所述第一目标关键帧输入到目标神经网络模型，获取所述目标神经网络模型输出的所述第一视频特征，其中，所述目标神经网络模型用于通过卷积神经网络提取出所述第一目标关键帧包含的视频特征。

7.根据权利要求1所述的方法，其特征在于，在获取所述参考视频的所述第二目标关键帧的所述第二视频特征之后，所述方法还包括：

确定与所述第一视频特征对应的第一哈希索引和与所述第二视频特征对应的第二哈希索引；

在所述第一哈希索引和所述第二哈希索引之间的距离大于或者等于第三阈值的情况下，确定出所述查询视频与所述参考视频不匹配；和/或，

在所述第一哈希索引和所述第二哈希索引之间的距离小于第三阈值的情况下，确定出所述查询视频与所述参考视频匹配。

8.根据权利要求1至7中任一项所述的方法，其特征在于，在获取所述参考视频的所述第二目标关键帧的所述第二视频特征之后，所述方法还包括：

获取所述查询视频位于第一滑动窗口内的第一视频片段，其中，所述第一视频片段包括所述第一目标关键帧的第一关键帧；

获取所述参考视频位于第二滑动窗口内的第二视频片段，其中，所述第二滑动窗口与所述第一滑动窗口的窗口大小相同，所述第二视频片段包括第二目标关键帧的第二关键帧，所述第一关键帧和所述第二关键帧的相似度大于或者等于第四阈值；

调整所述第一滑动窗口和所述第二滑动窗口的窗口参数，以调整所述第一视频片段和所述第二视频片段，所述窗口参数包括以下至少之一：窗口位置，窗口大小；

在调整后的所述第一视频片段和所述第二视频片段的相似度大于或者等于第五阈值的情况下，控制输出指示信息，其中，所述指示信息用于指示所述查询视频的所述第一视频片段采用了所述参考视频的所述第二视频片段。

9.一种视频拷贝检测装置，其特征在于，包括：

第一抽取单元，用于抽取查询视频的第一目标关键帧；

提取单元，用于提取所述第一目标关键帧的第一视频特征；

第一获取单元，用于获取参考视频的第二目标关键帧的第二视频特征；

第二抽取单元，用于在根据所述第一视频特征和所述第二视频特征确定出所述查询视频与所述参考视频匹配的情况下，抽取所述查询视频与所述参考视频中相似的视频片段。

10.根据权利要求9所述的装置，其特征在于，所述第一抽取单元包括：

第一确定模块，用于确定所述查询视频中包含的一个或多个镜头，其中，在所述一个或多个镜头的各个镜头所包含的多个视频帧中，各个相邻视频帧之间的相似度大于或者等于第一阈值；

第二确定模块，用于根据所述各个镜头的注意度变化，确定从所述各个镜头中待抽取的子关键帧的目标数量，其中，所述各个镜头的注意度变化用于表示所述各个镜头所包含的多个视频帧的显示信息的变化；

抽取模块，用于从所述各个镜头包含的多个视频帧中，依次抽取出所述目标数量的所述子关键帧，其中，所述第一目标关键帧包括所述目标数量的所述子关键帧。

11.根据权利要求10所述的装置，其特征在于，所述第一确定模块包括：

第一确定子模块，用于确定所述查询视频所包含的多个目标视频帧的各个相邻目标视频帧之间的相似度；

第二确定子模块，用于在所述多个目标视频帧中的第一目标视频帧和第二目标视频帧之间的相似度小于所述第一阈值的情况下，将所述第一目标视频帧确定为第一镜头的最后一个视频帧，将所述第二目标视频帧确定为第二镜头的第一个视频帧，其中，所述一个或多个镜头包括所述第一镜头和所述第二镜头。

12.根据权利要求10所述的装置，其特征在于，所述第二确定模块包括：

第三确定子模块，用于确定所述各个镜头的注意度变化，以及所述一个或多个镜头的总注意度变化，其中，所述各个镜头的注意度变化为所述各个镜头所包含的多个视频帧中，各个相邻视频帧的注意度变化的平均，所述各个相邻视频帧的注意度变化为所述各个相邻视频帧对应的像素点的差值的和，所述总注意度变化为所述各个镜头的注意度变化的和；

第四确定子模块，用于将所述各个镜头对应的第一数量和第二数量之间的最大值，确定为从所述各个镜头中待抽取的所述子关键帧的所述目标数量，其中，所述各个镜头对应的第一数量为所述各个镜头的注意度变化在所述总注意度变化中所占的比例与所述第一目标关键帧包含的关键帧的总数量的乘积，所述第二数量为1。

13.根据权利要求10所述的装置，其特征在于，所述抽取模块包括：

第五确定子模块，用于依次确定与当前镜头的待抽取关键帧对应的第二阈值，其中，所述第二阈值为所述当前镜头中的所有视频帧和所述查询视频的所有已抽取关键帧之间的距离的平均值和方差的加权和；

第六确定子模块，用于确定所述当前镜头的多个第一视频帧的各第一视频帧的注意度变化，其中，所述多个第一视频帧为所述当前镜头中与所述所有已抽取关键帧之间的距离的平均值大于或者等于所述第二阈值的视频帧，所述各第一视频帧的注意度变化为所述各第一视频帧和第二视频帧对应的像素点的差值的和，所述第二视频帧为所述各第一视频帧的前一个视频帧；

第七确定子模块，用于将注意度变化最大的第一视频帧，确定为所述待抽取关键帧；

抽取子模块，用于从所述当前镜头中抽取出所述第一视频帧，其中，所述目标数量的所述子关键帧包括所述第一视频帧。

14.根据权利要求9所述的装置，其特征在于，所述提取单元包括：

获取模块，用于将所述第一目标关键帧输入到目标神经网络模型，获取所述目标神经网络模型输出的所述第一视频特征，其中，所述目标神经网络模型用于通过卷积神经网络提取出所述第一目标关键帧包含的视频特征。

15.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第一确定单元，用于在获取所述参考视频的所述第二目标关键帧的所述第二视频特征之后，确定与所述第一视频特征对应的第一哈希索引和与所述第二视频特征对应的第二哈希索引；

第二确定单元，用于在所述第一哈希索引和所述第二哈希索引之间的距离大于或者等于第三阈值的情况下，确定出所述查询视频与所述参考视频不匹配；和/或，

第二确定单元，用于在所述第一哈希索引和所述第二哈希索引之间的距离小于第三阈值的情况下，确定出所述查询视频与所述参考视频匹配。

16.根据权利要求9至15中任一项所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于在获取已发布的所述参考视频的所述第二目标关键帧的所述第二视频特征之后，获取所述查询视频位于第一滑动窗口内的第一视频片段，其中，所述第一视频片段包括所述第一目标关键帧的第一关键帧；

第三获取单元，用于获取所述参考视频位于第二滑动窗口内的第二视频片段，其中，所述第二滑动窗口与所述第一滑动窗口的窗口大小相同，所述第二视频片段包括第二目标关键帧的第二关键帧，所述第一关键帧和所述第二关键帧的相似度大于或者等于第四阈值；

调整单元，用于调整所述第一滑动窗口和所述第二滑动窗口的窗口参数，以调整所述第一视频片段和所述第二视频片段，所述窗口参数包括以下至少之一：窗口位置，窗口大小；

控制单元，用于在调整后的所述第一视频片段和所述第二视频片段的相似度大于或者等于第五阈值的情况下，控制输出指示信息，其中，所述指示信息用于指示所述查询视频的所述第一视频片段采用了所述参考视频的所述第二视频片段。

17.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至8中任一项所述的方法。

18.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至8中任一项所述的方法。