CN110598014A

CN110598014A - 一种多媒体数据处理方法、装置及存储介质

Info

Publication number: CN110598014A
Application number: CN201910924980.7A
Authority: CN
Inventors: 张义飞; 胡东方; 康斌; 王兴华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2019-12-20
Anticipated expiration: 2039-09-27
Also published as: CN110598014B

Abstract

本申请提供了一种多媒体数据处理方法及其装置、设备和存储介质；所述方法包括：获取待处理视频文件中的多个目标帧图像，得到目标帧图像序列；将所述目标帧图像序列切分成多个视频片段，并确定各个视频片段的视频特征；基于各个视频片段的视频特征，从所述多个视频片段中确定候选视频片段，其中，所述候选视频片段与视频特征库中的参考视频片段符合第一相似条件；当基于所述候选视频片段中包含的各个目标帧图像的图像特征确定所述候选视频片段与所述参考视频片段满足第二相似条件时，确定所述参考视频片段与所述候选视频片段为相似视频片段。通过本申请，不仅能够提高相似度计算的计算速度，并且还能够保证准确率。

Description

一种多媒体数据处理方法、装置及存储介质

技术领域

本申请涉及信息处理技术领域，尤其涉及一种多媒体数据处理方法、装置及存储介质。

背景技术

随着互联网技术和智能终端的发展，人们的娱乐方式已经从传统的电视、收音机等逐步转变为通过移动智能终端获取更多的娱乐资讯。例如可以通过视频应用观看电视剧、电影、综艺娱乐等节目，还能够通过一些短视频应用上传自己录制的精彩视频。为了保证安全健康的网络环境，需要对用户上传的视频进行审核，并且为了让其他用户可以方便快捷的观看自己感兴趣的视频，还可以将审核通过的视频进行分类。

在相关技术中，一般是通过计算视频相似度实现对视频的审核和分类。而在计算视频相似度时，是直接对目标视频和库内视频抽帧后的图像提取特征后进行比较，或者提取音频特征后比较，计算距离，判断两者是否相似，该方案比较计算量较大，因此效率低下，并且准确率不高。

发明内容

本申请实施例提供一种多媒体数据处理方法、装置及存储介质，能够快速高效准确地计算出视频间的相似度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种多媒体数据处理方法，包括：

获取待处理视频文件中的多个目标帧图像，得到目标帧图像序列；

将所述目标帧图像序列切分成多个视频片段，并确定各个视频片段的视频特征；

基于各个视频片段的视频特征，从所述多个视频片段中确定候选视频片段，其中，所述候选视频片段与视频特征库中的参考视频片段符合第一相似条件；

当基于所述候选视频片段中包含的各个目标帧图像的图像特征确定所述候选视频片段与所述参考视频片段满足第二相似条件时，确定所述参考视频片段与所述候选视频片段为相似视频片段。

本申请实施例提供一种多媒体数据处理装置，所述装置包括：

第一获取模块，用于获取待处理视频文件中的多个目标帧图像，得到目标帧图像序列；

第一确定模块，用于将所述目标帧图像序列切分成多个视频片段，并确定各个视频片段的视频特征；

第二确定模块，用于基于各个视频片段的视频特征，从所述多个视频片段中确定候选视频片段，其中，所述候选视频片段与视频特征库中的参考视频片段符合第一相似条件；

第三确定模块，用于当基于所述候选视频片段中包含的各个目标帧图像的图像特征确定所述候选视频片段与所述参考视频片段满足第二相似条件时，确定所述参考视频片段与所述候选视频片段为相似视频片段。

本申请实施例提供一种多媒体数据处理设备，所述设备至少包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的方法。

本申请实施例具有以下有益效果：

在利用本申请实施例中提供的多媒体数据处理方法，计算视频间的相似度时，可以是先将待处理视频进行片段切分，得到多个视频片段，然后再基于视频片段的视频特征进行快速的初步比较，筛选出少量的候选视频片段；进一步再基于候选视频片段中的各个帧图像的图像特征进行精确比较，以确定与候选视频片段符合第二相似条件(精确相似条件)的参考视频片段，进而确定候选视频片段的额标签信息，而不是直接将各个视频片段进行精确相似度计算，如此，不仅能够提高计算速度，并且还能够保证准确率。

附图说明

图1A为本申请实施例多媒体数据处理方法的网络架构示意图；

图1B是本申请实施例提供的网络架构应用于区块链系统的一个可选的结构示意图；

图1C是本申请实施例提供的区块结构的一个可选的示意图；

图2是本申请实施例提供的装置的一个可选的结构示意图；

图3为本申请实施例提供的多媒体数据处理方法的一个实现流程示意图；

图4为本申请实施例确定候选视频片段是否与参考视频片段满足第二相似条件的实现流程示意图；

图5为本申请实施例多媒体数据处理方法的再一种实现流程示意图；

图6为本申请实施例多媒体数据处理方法的另一种实现流程示意图；

图7为本申请实施例多媒体数据处理的再一种实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)关键帧，指角色或者物体运动或变化中的关键动作所处的那一帧。

2)图像特征，图像的颜色特征、纹理特征、形状特征和空间关系特征。颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质；纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质；形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域；空间关系特征，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。

3)特征提取，指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。

4)图像感知哈希算法，是哈希算法的一类，主要用来实现相似图片的搜索。在该算法中，图像的特征被用来生成一组指纹(不过它不是唯一的)，而这些指纹是可以进行比较的，从而确定图片的相似度。图像感知哈希算法主要包括平均哈希(average hash，avhash)算法、感知哈希(perceptual hash，phash)算法、直方图哈希(histhash)算法等。

5)avhash算法，包括以下步骤：1、图像缩放，将图像缩放到8*8大小；2、灰度化，对8*8大小的图像进行灰度化；3、计算均值，计算这8*8大小图片中64个像素的均值；4、得到8*8图像的avhash指纹，其中8*8的像素值中大于均值的则用1表示，小于的用0表示，这样就得到一个64位二进制码作为该图像的avhash指纹。

6)phash算法，包括以下步骤：1、图像缩放，将图像缩放到32*32大小；2、灰度化，对32*32大小的图像进行灰度化；3、计算离散余弦变换(Discrete Cosine Transform，DCT)，DCT是把图片分解频率聚集和梯状形；4、缩小DCT，虽然DCT的结果是32*32大小的矩阵，但只要保留左上角的8*8的矩阵，因此这部分呈现了图片中的最低频率；5、计算DCT平均值；6、得到phash指纹，其中8*8的像素值中大于DCT均值的则用1表示，小于的用0表示，这样就得到一个64位二进制码作为该图像的phash指纹。

7)汉明距离，在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说，汉明距离就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如：1011101与1001001之间的汉明距离是2。

下面说明实现本申请实施例的装置的示例性应用，本申请实施例提供的装置可以实施为终端设备。下面，将说明装置实施为终端设备时涵盖终端设备的示例性应用。

参见图1A，图1A为本申请实施例多媒体数据处理方法的网络架构示意图，如图1A所示，在该网络架构中至少包括用户终端100、服务器200和网络300。为实现支撑一个示例性应用，用户终端100分别通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

用户终端100可以将视频文件发送至服务器200，其中，发送的视频文件可以是由用户终端100录制的视频，还可以是用户终端100从网络中下载的视频。服务器200在接收到视频文件之后，会获取视频文件对应的目标帧图像序列，并将目标帧图像序列切分成多个视频片段，先以视频片段为粒度，确定出与视频特征库中参考视频片段满足粗略相似条件的候选视频片段，然后再以帧图像为粒度进行精确相似度计算，当确定候选视频片段与参考视频片段满足精确相似条件时，则认为参考视频片段与候选视频片段是相似的，此时可以基于参考视频片段的标签信息对候选视频片段或整个视频文件进行审核、分类等，当用户想要获取从网上下载的视频片段的信息时，可以基于参考视频片段确定出相应的视频标识等信息发送给用户终端100。

在下文的描述中，为了描述方便，将上述各种可能方式的服务器都统称为服务器，因此服务器200不应简单理解为一个或一类服务器，而是根据上述的示例，在实际应用中为了支撑直播服务而部署的各种可能形式的服务器。

本申请实施例涉及的客户端(例如，视频类应用的客户端)、多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。

这里以分布式系统为区块链系统为例，参见图1B，图1B是本申请实施例提供的网络架构101应用于区块链系统的一个可选的结构示意图，由多个节点102(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端103形成，节点之间形成组成的点对点(Peer To Peer，P2P)网络，P2P协议是一个运行在传输控制协议(Transmission ControlProtocol，TCP)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图1B示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币。

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

4)共识(Consensus)，是区块链网络中的一个过程，用于在涉及的多个节点之间对区块中的交易达成一致，达成一致的区块将被追加到区块链的尾部，实现共识的机制包括工作量证明(Proof of Work，PoW)、权益证明(Proof of Stake，PoS)、股份授权证明(Delegated Proof-of-Stake，DPoS)、消逝时间量证明(Proof of Elapsed Time，PoET)等。

参见图1C，图1C是本申请实施例提供的区块结构(Block Structure)的一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本申请实施例提供的装置可以实施为硬件或者软硬件结合的方式，下面说明本申请实施例提供的装置的各种示例性实施。

根据图2示出的服务器200的示例性结构，可以预见服务器200的其他的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图2所示的服务器200包括：至少一个处理器210、存储器240、至少一个网络接口220和用户接口230。服务器200中的每个组件通过总线系统250耦合在一起。可理解，总线系统250用于实现这些组件之间的连接通信。总线系统250除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统250。

用户接口230可以包括显示器、键盘、鼠标、触感板和触摸屏等。

存储器240可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。

本申请实施例中的存储器240能够存储数据以支持服务器200的操作。这些数据的示例包括：用于在服务器200上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本申请实施例提供的方法采用软件实施的示例，本申请实施例所提供的方法可以直接体现为由处理器210执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器240，处理器210读取存储器240中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器210以及连接到总线250的其他组件)完成本申请实施例提供的方法。

作为示例，处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

将结合前述的实现本申请实施例的装置的示例性应用和实施，说明实现本申请实施例的方法。

参见图3，图3为本申请实施例提供的多媒体数据处理方法的一个实现流程示意图，可以应用于服务器，这里的服务器可以是图1A所示的服务器200，还可以是图1B所示的区块链网络中的一个服务器节点。将结合图3示出的步骤进行说明。

步骤S101，获取待处理视频文件中的多个目标帧图像，得到目标帧图像序列。

这里，步骤S101在实现时，首先将待处理视频文件进行解码，得到待处理视频文件中的所有的帧图像，然后再从所有的帧图像中提取出目标帧图像。多个目标帧图像可以是待处理视频文件中的关键帧，在实现时需要基于每个帧图像中表征帧类型的属性信息，从待处理视频文件中包括的所有帧图像中提取出关键帧。进一步地，可以是基于表征帧类型的“pict_type”这一属性信息确定各个帧图像是否为关键帧，进一步地，当一个帧图像的“pict_type”对应的值为PICT_TYPE_I时，那么表征该帧为关键帧。

在一些实施例中，还可以是按照预设的时长从待处理视频文件中抽取出各个目标帧图像，例如可以是每间隔2秒提取一帧作为目标帧图像。

在本申请实施例中，在提取到多个目标帧图像后，需要将多个目标帧图像按照时间顺序形成目标帧图像序列。

步骤S102，将所述目标帧图像序列切分成多个视频片段，并确定各个视频片段的视频特征。

这里，步骤S102在实现时，可以利用滑窗操作将目标帧图像序列切分成多个视频片段，然后提取出视频片段中各个图像帧的图像特征，并根据各个图像帧的图像特征确定视频片段的视频特征。

在本申请实施例中，图像特征可以是哈希指纹，例如可以是平均哈希指纹(average hash，avhash)、感知哈希(perceptual hash，phash)指纹、直方图哈希(histhash)指纹。在一些实施例中，图像特征还可以是利用尺度不变特征变换(Scale-Invariant Features Transform，SIFT)算法、加速稳健特征(Speeded Up RobustFeatures，SURF)算法、快速特征点提取和描述的算法(Oriented FAST and RotatedBRIEF，ORB)提取出来的特征向量。

步骤S103，基于各个视频片段的视频特征，从所述多个视频片段中确定候选视频片段。

这里，所述候选视频片段与视频特征库中的参考视频片段符合第一相似条件。视频特征库可以是存储在区块链网络中的。在一些实施例中，在步骤S103之前还需要执行：获取视频特征库中的各个参考视频片段及各个参数视频片段的参考视频特征。

步骤S103在实现时，可以是基于各个视频片段的视频特征确定各个视频片段与视频特征库中各个参考视频片段之间的第一差异值，当某一视频片段与一参考视频片段的第一差异值小于预设的第一差异阈值时，认为该视频片段为候选视频片段。在本申请实施例中，第一差异值可以是汉明距离。

在步骤S103中通过视频片段的视频特征先粗略计算出与视频特征库中有满足第一相似条件(可以认为是粗略相似条件)的视频片段作为候选视频片段，然后再通过后续步骤进行精确的相似度计算。

步骤S104，当基于所述候选视频片段中包含的各个目标帧图像的图像特征确定所述候选视频片段与所述参考视频片段满足第二相似条件时，确定所述参考视频片段与所述候选视频片段为相似视频片段。

这里，在步骤S103确定出候选视频片段的基础上，然后再基于候选视频片段所包含的各个目标帧图像的图像特征与对应的参考视频片段的各个参考帧图像的图像特征，进行精确的相似度计算，当确定所述候选视频片段与所述参考视频片段满足第二相似条件(也即精确相似条件)时，那么确定所述参考视频片段与所述候选视频片段为相似视频片段，进而就可以将所述参考视频片段的标签信息确定为所述候选视频片段的标签信息，还可以将所述参考视频片段的标识信息确定为所述候选视频片段的标识信息。

举例来说，参考视频片段的标签信息为娱乐类，那么就可以将候选视频片段的标签信息确定为娱乐类，如果参考视频片段的标签信息为购物推销类，那么就可以将候选视频片段的标签信息确定为购物推销类。

在确定出候选视频片段的标签信息后，可以基于各个候选视频片段的标签信息进一步确定待处理视频文件的标签信息，以便为待处理视频文件进行分类。

在一些实施例中，当视频特征库是存存储在区块链网络中时，可以基于参考视频片段的标识信息查询视频片段标识信息和标签信息的键值对，以获取参考视频片段的标签信息。

在一些实施例中，图3中示出的步骤S102可以通过下述的步骤S1021至步骤S1023实现，将结合各步骤进行说明。

步骤S1021，将所述目标帧图像序列按照预设的窗口宽度和步长进行滑窗操作，得到N个视频片段。

其中，每个视频片段中包括w个目标帧图像，w为正整数，N为大于1的正整数。窗口宽度即为w，假设步长为s，目标帧图像序列中有L个目标帧图像，此时得到的视频片段的个数N可以通过公式(1-1)计算得出：

其中，在公式(1-1)中，ceil()为向下取整函数。

举例来说，目标帧图像序列中有10个目标帧图像，假设各个目标帧图像的编号为0、1、2、3、4、5、6、7、8、9，窗口宽度为4，步长为2，根据公式(1-1)计算出N为4，其中第一个视频片段包括编号为0、1、2、3的目标帧图像，第二个视频片段包括编号为2、3、4、5的目标帧图像，第三个视频片段包括编号为4、5、6、7的目标帧图像，第四个视频片段包括编号为6、7、8、9的目标帧图像。

步骤S1022，提取第i个视频片段中所包括的w个目标帧图像的图像特征。

这里，i＝1,2，…，N，也就是说，要提取N个视频片段中的每个视频片段中所包括的w个目标帧图像的图像特征。

在一些实施例中，步骤S1022在实现时，首先要提取所述第i个视频片段中所包括的第j个目标帧图像的至少一个特征向量，其中，j＝1，2，…，w；然后将第j个目标图像帧的至少一个特征向量确定为所述第j个目标帧图像的图像特征。进一步地，可以是提取第i个视频片段中所包括的第j个目标帧图像的一个特征向量，例如，可以是提取avhash指纹序列，还可以是提取phash指纹序列等等，此时就将提取出的这一个特征向量确定为该目标帧图像的图像特征；在一些实施例中，还可以提取第i个视频片段中所包括的第j个目标帧图像的多个特征向量，例如可以是提取avhash指纹序列、phash指纹序列、histhash指纹序列等等，然后再将提取的多个特征向量拼接为一个特征向量，从而将拼接得到的特征向量确定为该目标帧图像的图像特征。

步骤S1023，基于所述第i个视频片段中所包括的w个目标帧图像的图像特征，确定所述第i个视频片段的视频特征。

在一些实施例中，步骤S1023可以通过以下步骤实现：

步骤231，从所述第i个视频片段所包括的各个目标帧图像的图像特征中分别提取出一个特征向量，得到w个待压缩特征向量；

这里，当目标帧图像的图像特征是由一个特征向量组成的，那么这个特征向量就是待压缩特征向量，当目标帧图像的图像特征是由多个特征向量拼接得到的，那么需要从多个特征向量中选择出一个作为待压缩特征向量，例如，当目标帧图像的图像特征是由avhash指纹序列、phash指纹序列、histhash指纹序列，那么待压缩特征向量可以是avhash指纹序列、phash指纹序列、histhash指纹序列中的其中一个。

但是需要说明的是，从各个目标帧图像的图像特征中提取出的特征向量的类型是相同的，例如，第一个目标帧图像中是将avhash指纹序列作为待压缩特征向量，那么第二至w个目标帧图像也都是将avhash指纹序列作为待压缩特征向量，而不可以是第一个目标帧图像中是将avhash指纹序列作为待压缩特征向量，第二个目标帧图像中是将pvhash指纹序列作为待压缩特征向量。

步骤232，对所述w个待压缩特征向量进行压缩，得到所述第i个视频片段的视频特征。

这里，所述待压缩特征向量为k位向量，那么也就是将w*k位的向量，进行压缩，在本申请实施例中，第i个视频片段的视频特征为k位的向量。

在对w个待压缩特征向量进行压缩时，有至少以下两种实现方式：

第一种实现方式可以通过步骤S2321a至步骤S2323a完成，以下结合各步骤进行说明：

步骤S2321a，将所述w个待压缩特征向量的第m位特征值求和，得到第m位的特征和值。

这里，m＝1，2，…，k，k为大于1的整数。步骤S2321a在实现时，是将w个待压缩特征向量中的各位的特征值，进行逐位求和。

举例来说，有2个待压缩特征向量，每个待压缩特征向量为4位，一个待压缩特征向量为0110，一个待压缩特征向量为1100，那么第1位的特征和值为这两个待压缩特征向量第1位的特征值的和(也即0+1＝1)、第2位的特征和值为2，第3位的特征和值为1，第4位的特征和值为0。

步骤S2322a，如果第m位的特征和值大于或者等于预设的和值阈值，将所述第i个视频片段的第m位视频特征值确定为第一预设值。

这里，该和值阈值可以是预先设置好的，还可以是根据窗口宽度确定的，例如和值阈值可以是窗口宽度的1/2，举例来说，窗口宽度为2，和值阈值为1。

第一预设值可以是1。

步骤S2323a，如果所述第m位的特征和值小于所述和值阈值，将所述第i个视频片段的第m位视频特征值确定为第二预设值。

这里，第一预设值与第二预设值不同，例如第一预设值可以是1，第二预设值可以是0。

假设第1位的特征和值为1、第2位的特征和值为2，第3位的特征和值为1，第4位的特征和值为0，和值阈值为1，那么第i个视频片段的视频特征为1110。

第二种实现方式可以通过步骤S2321b至步骤S2324b完成，其中所述待压缩特征向量为k位向量，且k为w的整倍数，以下结合各步骤进行说明：

步骤S2321b，对所述w个待压缩特征向量进行拼接，得到拼接向量。

其中，所述拼接向量为k*w位向量。承接上述的举例，有两个待压缩向量，每个待压缩特征向量为4位，也即w为2，k为4，其中一个待压缩特征向量为0110，一个待压缩特征向量为1100，那么拼接向量为01101100。

步骤S2322b，将所述拼接向量划分为k个子向量，其中，每个子向量为w位向量。

这里，步骤S2322b在实现的时候，是将拼接向量按位依次划分为k个子向量。例如拼接向量为01101100时，划分为4个子向量，分别为01、10、11和00。

步骤S2323b，计算第m个子向量的向量和值，如果第m个子向量的向量和值大于或者等于预设的和值阈值，将所述第i个视频片段的第m位视频特征值确定为第一预设值。

这里，要计算各个子向量的向量和值，也就是将每个子向量的各位向量值进行求和，当4个子向量，分别为01、10、11和00，四个向量和值分别为1、1、2、0。

步骤S2324b，如果所述第m个子向量的向量和值小于所述和值阈值，将所述第i个视频片段的第m位视频特征值确定为第二预设值，第一预设值与第二预设值不同。

这里，假设和值阈值为1，第一预设值为1，第二预设值为0，那么第i个视频片段的视频特征为1110。

在一些实施例中，图3中示出的步骤S103可以通过以下步骤实现：

步骤S1031，基于第i个视频片段的视频特征，确定第i个视频片段与视频特征库中各个参考视频片段的第一片段差异值。

这里，第一片段差异值可以是通过计算第i个视频片段与各个参考视频片段的汉明距离确定的。假设第i个视频片段的视频特征为1110，某个参考视频片段的视频特征为0010，那么，这两个视频频段的汉明距离为2。汉明距离越小说明两个视频片段越相似。

步骤S1032，确定视频特征库中是否存在与所述第i个视频片段的第一片段差异值小于第一差异阈值的参考视频片段。

这里，很显然第一片段差异值越小，说明第i个视频片段与某个参考视频片段越相似。当视频特征库中存在与所述第i个视频片段的第一片段差异值小于第一差异阈值的参考视频片段时，进入步骤S1033，当视频特征库中不存在与所述第i个视频片段的第一片段差异值小于第一差异阈值的参考视频片段时，确定第i个视频片段不是候选视频片段。

步骤S1033，当第i个视频片段与参考视频片段的第一片段差异值小于第一差异阈值时，将所述第i个视频片段确定为候选视频片段。

这里，将第i个视频片段确定为候选视频片段，还需要建立该候选视频片段与参考视频片段的对应关系，以便进行后续的精确相似计算。

在一些实施例中，所述候选视频片段中包括w个目标帧图像，所述参考视频片段中包括w个参考帧图像，此时在步骤S104之前，还需要通过图4示出的各个步骤确定候选视频片段是否与参考视频片段满足第二相似条件：

步骤S31，获取所述参考视频片段中w个参考帧图像的参考图像特征。

这里，步骤S31的实现过程与步骤S1022的实现过程是类似的，并且参考帧图像中的参考图像特征中包含的特征向量的个数与类型需要与目标帧图像的图像特征中包含的特征向量的个数与类型相同。例如，目标帧图像的图像特征中包含的特征向量有两个，分别为avhash指纹序列和phash指纹序列，那么在步骤S31中也需要提取每个参考帧图像的avhash指纹序列和phash指纹序列，以作为参考图像特征。

步骤S32，基于第j个目标帧图像的图像特征和第j个参考帧图像的参考图像特征，确定第j个图像差异值集合。

这里，第j个图像差异值集合表征第j个目标帧图像和第j个参考帧图像的各个特征向量之间的差异程度。j＝1，2，…，w。第j个图像差异信息中包括的是组成图像特征的各个特征向量对应的图像差异值。

假设图像特征中包括T个特征向量，那么步骤S32在实现时，是分别计算第j个目标帧图像的第q个特征向量与第j个参考帧图像的第q个特征向量之间的差异值，第j个图像差异值集合中包括T个图像差异值。在实际实现过程中，计算第j个目标帧图像的第q个特征向量与第j个参考帧图像的第q个特征向量之间的差异值，可以是计算第j个目标帧图像的第q个特征向量与第j个参考帧图像的第q个特征向量之间的汉明距离。

举例来说，图像特征中包括avhash指纹序列和phash指纹序列，也即T为2，那么步骤32在实现时，计算第j个目标帧图像的avhash指纹序列与第j个参考帧图像的avhash指纹序列之间的汉明距离，并且计算第j个目标帧图像的phash指纹序列与第j个参考帧图像的phash指纹序列之间的汉明距离。第j个图像差异值集合中包括两个元素，分别为avhash指纹序列和phash指纹序列对应的汉明距离。

步骤S33，基于w个图像差异信息确定所述候选视频片段和所述参考视频片段的第二片段差异值集合。

在实际应用过程中，所述步骤S33在实现时，首先从w个图像差异值集合中确定出每个特征向量对应的s个目标差异值，其中，s为小于或者等于w的正整数；并基于所述每个特征向量对应的s个目标差异值确定所述候选视频片段和所述参考视频片段的每个特征向量对应的第二片段差异值，得到第二片段差异值集合。

在实际应用过程中，从w个图像差异值集合中确定每个特征向量对应的s个目标差异值，可以是从每个特征向量对应的w个图像差异值中确定出最小的s个图像差异值作为目标差异值，一般要求s大于或者等于w/2。基于每个特征向量对应的s个目标差异值确定所述候选视频片段和所述参考视频片段的每个特征向量对应的第二片段差异值，在实现时可以是将s个目标差异值的均值作为该特征向量对应的第二片段差异值。

举例来说，w为4，T为2，s为3，也就是说有4个图像差异值集合，每个集合中有2个图像差异值，假设4个图像差异值集合为{5，3}、{3，4}、{2，7}、{3，1}，此时第一个特征向量对应的图像差异值分别为5、3、2、3，s为3，也就是从4个图像差异值中选出三个最小的图像差异值得到3个目标差异值，即为3、2、3，第一个特征向量对应的第二片段差异值即为(3+2+3)/3＝2.67；第二个特征向量对应的图像差异值分别为3、4、7、1，其中的3个目标差异值即为1、3、4，第二个特征向量对应的第二片段差异值即为(1+3+4)/3＝2.67。

步骤S34，确定所述第二片段差异值集合中的各个第二片段差异值是否都小于第二差异阈值。

这里，当第二片段差异值集合中的各个第二片段差异值都小于第二差异值时，进入步骤S35；当第二片段差异值集合中存在至少一个第二片段差异值大于或者等于第二差异阈值时，进入步骤S36。

步骤S35，当所述第二片段差异值集合中的各个第二片段差异值都小于第二差异阈值时，确定所述候选视频片段与所述参考视频片段满足第二相似条件。

这里，假设第二差异阈值为3，第二片段差异值集合中的两个第二片段差异值分别为2.67和2.67，均小于3，因此可以认为候选视频片段与所述参考视频片段满足第二相似条件。

步骤S36，当第二片段差异值集合中存在至少一个第二片段差异值大于或者等于第二差异阈值时，确定所述候选视频片段与所述参考视频片段不满足第二相似条件。

在一些实施例中，在步骤S103之前，还需要通过以下步骤将视频特征库中的各个参考视频文件进行抽帧、形成参考视频片段以及确定各个参考视频片段的参考视频特征：

步骤S41，获取视频特征库的各个参考视频文件中的多个参考图像，得到各个参考文件的参考图像序列。

这里，步骤S41在实现时，首先将参考视频文件进行解码，得到参考视频文件中的所有的帧图像，然后再从所有的帧图像中提取出多个参考图像。多个参考图像可以是参考视频文件中的关键帧，还可以是按照预设的时长从参考视频文件中抽取出各个参考图像，例如可以是每间隔2秒提取一帧作为参考图像。

其中，参考图像序列是将多个参考图像按照时间顺序进行排列得到的。

步骤S42，将所述参考图像序列切分成多个参考视频片段。

这里，其中，每个参考视频片段中包括的参考图像的个数，与其他实施例中的视频片段中所包括的目标帧图像的个数是相同的，例如可以包括w个参考图像，w为正整数。

步骤S42在实现时，是将参考图像序列按照预设的步长和窗口宽度进行滑窗操作，得到多个参考图像集合，再基于多个参考图像集合形成多个参考视频片段。

步骤S43，提取各个参考视频片段中所包括的w个参考图像的参考图像特征。

这里，首先要提取各个参考视频片段中所包括的第j个目标帧图像的一个或多个特征向量，再基于一个或多个特征向量形成参考图像的参考图像特征。

需要说明的是，步骤S43的实现过程与步骤S1022的实现过程是类似的，因此步骤S43的具体实现过程可参考步骤S1022的实现过程。并且，在提取参考图像的图像特征和提取目标帧图像的图像特征时，提取的特征向量的个数和类型应该是一致的。

步骤S44，基于所述各个参考视频片段中所包括的w个参考图像的图像特征，确定所述各个参考视频片段的参考视频特征。

这里，步骤S44的实现过程与步骤S1023的实现过程是类似的，因此步骤S44的具体实现过程可参考步骤S1023的实现过程。

通过上述的步骤S41至步骤S44就得到了各个参考视频片段，以及各个参考视频片段的参考视频特征，从而能够使得在需要对待处理视频文件进行相似度计算时提供参考依据。

在一些实施例中，在步骤S104之后，还可以执行以下步骤：

步骤S105，将所述参考视频片段的标签信息确定为所述候选视频片段的标签信息；

步骤S106，当候选视频片段的标签信息为预设的高危标签时，将所述待处理视频的标签信息确定为高危标签。

这里，高危标签可以是色情、暴力等标签。

步骤S107，输出报警信息，以提示所述待处理视频文件为高危视频。

在步骤S105至步骤S107中，只要确定出待处理视频中存在一个候选视频片段的标签信息未高危标签时，即直接将待处理视频的标签信息确定为高危标签，从而能够快速筛选出高危视频，从而加快对高危视频的审核。

在一些实施例中，在确定出待处理视频中所有视频片段的标签信息，且所有视频片段的标签信息均不是高危标签之后，还可以执行以下步骤：

步骤S108，确定具有相同标签信息的候选视频片段的播放总时长；

这里，假设待处理视频中有10个候选视频片段，每个候选视频片段的播放时长为15秒，其中，具有综艺娱乐标签的候选视频片段有7个，那么对应的播放总时长为105秒，具有搞笑标签的候选视频片段有3个，对应的播放总时长为45秒。

步骤S109，当所述播放总时长与所述待处理视频文件的播放时长的比值大于预设的比例阈值时，将所述标签信息确定为待处理视频文件的标签信息。

这里，该比例阈值可以是0.5，也就是说当某一标签信息对应的候选视频片段的播放总时长超过待处理视频文件的播放时长的一半时，将该标签信息确定为待处理视频文件的标签信息。

承接上述的举例，由于综艺娱乐标签的候选视频片段的播放总时长与待处理视频文件的播放时长的比值大于比例阈值，因此将待处理视频文件的标签信息确定为综艺娱乐。

在一些实施例中，假设待处理视频文件中的具有相同标签信息的候选视频片段的播放总时长与待处理视频文件的播放时长的比值都不大于比例阈值，那么，就不能确定出待处理视频文件的标签信息。

基于前述的实施例，本申请实施例再提供一种多媒体数据处理方法，图5为本申请实施例多媒体数据处理方法的再一种实现流程示意图，如图5所示，所述方法包括：

步骤S501，用户终端向服务器发送查询请求。

这里，用户终端和服务器可以是图1A所示的用户终端100和服务器200，还可以是图1B所示的区块链网络中的节点。

所述查询请求中携带有待处理视频文件，所述查询请求用于获取所述待处理视频文件的标识信息。在本申请实施例中，待处理视频文件可以是某个电影或电视剧或综艺娱乐节目的一个片段，待处理视频文件的标识信息可以包括电影名称、电视剧名称、综艺娱乐节目名称，在一些实施例中，待处理视频文件的标识信息还可以包括该待处理视频文件在电影或电视剧或综艺娱乐节目的播放时间点、播放的剧集数等等。

步骤S502，所述服务器接收并解析所述查询请求，获取待处理视频文件。

步骤S503，所述服务器获取所述待处理视频文件中的多个目标帧图像，得到目标帧图像序列。

这里，在实现时，首先将待处理视频文件进行解码，得到待处理视频文件中的所有的帧图像，然后再从所有的帧图像中提取出目标帧图像。多个目标帧图像可以是待处理视频文件中的关键帧，还可以是按照预设的时长从待处理视频文件中抽取出各个目标帧图像，例如可以是每间隔2秒提取一帧作为目标帧图像。

步骤S504，所述服务器将所述目标帧图像序列按照预设的窗口宽度和步长进行滑窗操作，得到N个视频片段。

这里，每个视频片段中包括w个目标帧图像，w为正整数，w也即为窗口宽度。

步骤S505，所述服务器提取第i个视频片段中所包括的w个目标帧图像的图像特征。

这里，i＝1，2，…，N；在实现时，首先要提取所述第i个视频片段中所包括的第j个目标帧图像的至少一个特征向量，其中，j＝1，2，…，w；然后将第j个目标图像帧的至少一个特征向量确定为所述第j个目标帧图像的图像特征。进一步地，可以是提取第i个视频片段中所包括的第j个目标帧图像的一个特征向量，此时就将提取出的这一个特征向量确定为该目标帧图像的图像特征，还可以提取第i个视频片段中所包括的第j个目标帧图像的多个特征向量，然后再将提取的多个特征向量拼接为一个特征向量，从而将拼接得到的特征向量确定为该目标帧图像的图像特征。

步骤S506，服务器基于所述第i个视频片段中所包括的w个目标帧图像的图像特征，确定所述第i个视频片段的视频特征。

这里，步骤S506在实现时，首先从所述第i个视频片段所包括的各个目标帧图像的图像特征中分别提取出一个特征向量，得到w个待压缩特征向量，然后再对所述w个待压缩特征向量进行压缩，得到所述第i个视频片段的视频特征。

所述待压缩特征向量为k位向量，那么也就是将w*k位的向量，进行压缩，在本申请实施例中，第i个视频片段的视频特征为k位的向量。

步骤S507，服务器基于第i个视频片段的视频特征，确定第i个视频片段与视频特征库中各个参考视频片段的第一片段差异值；其中，n＝1，2，…，N；

步骤S508，当第i个视频片段与参考视频片段的第一片段差异值小于第一差异阈值时，服务器将所述第i个视频片段确定为候选视频片段。

这里，步骤S508在实现时，要先基于第i个视频片段的视频特征，确定第i个视频片段与视频特征库中各个参考视频片段的第一片段差异值，进而确定视频特征库中是否存在与所述第i个视频片段的第一片段差异值小于第一差异阈值的参考视频片段，当第i个视频片段与参考视频片段的第一片段差异值小于第一差异阈值时，服务器将所述第i个视频片段确定为候选视频片段。

在本申请实施例中，第一片段差异值可以是通过计算第i个视频片段与各个参考视频片段的汉明距离确定的。

步骤S509，服务器获取所述参考视频片段中w个参考帧图像的参考图像特征。

这里，参考帧图像中的参考图像特征中包含的特征向量的个数与类型需要与目标帧图像的图像特征中包含的特征向量的个数与类型相同。例如，目标帧图像的图像特征中包含的特征向量有两个，分别为avhash指纹序列和phash指纹序列，那么在步骤S509中也需要提取每个参考帧图像的avhash指纹序列和phash指纹序列，以作为参考图像特征。

步骤S510，服务器基于第j个目标帧图像的图像特征和第j个参考帧图像的参考图像特征，确定第j个图像差异值集合。

这里，第j个图像差异值集合表征第j个目标帧图像和第j个参考帧图像的各个特征向量之间的差异程度；其中，j＝1，2，…，w。在本申请实施例中，图像特征是由几个特征向量拼接得到的，那么第j个图像差异值集合中就有几个图像差异值。例如，图像特征由三个特征向量拼接而成，那么第j个图像差异值集合中就有三个图像特征差异值。

步骤S511，服务器基于w个图像差异值集合确定所述候选视频片段和所述参考视频片段的第二片段差异值集合。

这里，步骤S511在实现时，首先从w个图像差异值集合中确定出每个特征向量对应的s个目标差异值，其中，s为小于或者等于w的正整数；并基于所述每个特征向量对应的s个目标差异值确定所述候选视频片段和所述参考视频片段的每个特征向量对应的第二片段差异值，得到第二片段差异值集合。

步骤S512，当所述第二片段差异值集合中各个第二片段差异值都小于第二差异阈值时，服务器确定所述候选视频片段与所述参考视频片段满足第二相似条件。

这里，第二相似条件可以认为是精确相似条件，当候选视频片段与参考视频片段满足第二相似条件时，即可确定候选视频片段与参考视频片段是相似的。

步骤S513，服务器获取所述参考视频片段的标识信息。

这里，参考视频片段的标识信息可以是参考视频片段所属的长视频的名称、播放时间点等等。例如，参考视频片段的标识信息可以是《好XX》第三集15:05。

步骤S514，服务器将所述参考视频片段的标识信息发送给用户终端。

这里，由于参考视频片段与候选视频片段是相似的，因此可以认为两者的标识信息相同，此时可以将参考视频片段的标识信息发送给用户终端。用户终端在接收到标识信息后，可以根据标识信息去搜索相应的长视频，以进行观看。

在本申请实施例提供的多媒体数据处理方法中，当用户在到一个精彩的短视频，想要确定该短视频(待处理视频文件)的标识信息(名称、剧集等)时，可以将短视频发送给服务器，服务器将短视频中的目标帧图像序列进行滑窗操作，得到多个视频片段，并基于视频片段中包括的各个目标帧图像的图像特征确定视频片段的视频特征，进而先以视频片段为粒度，根据视频特征先粗略的确定出满足第一相似条件(粗略相似条件)的候选视频片段，进而再以帧图像为粒度，根据候选视频片段中包括的各个目标帧图像的图像特征确定与参考视频片段满足第二相似条件(精确相似条件)时，认为候选视频片段与参考视频片段是相似的，此时可以根据参考视频片段的标签信息、标识信息等确定出候选视频片段的标签信息、标识信息，并发送给用户终端，如此不仅可以提高计算速度，并且还能保证准确率，从而给用户提供高效准确的信息。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种多媒体数据处理方法，能够识别目标视频内是否有片段与视频库内的视频片段相似。图6为本申请实施例多媒体数据处理方法的另一种实现流程示意图，如图6所示，所述方法包括视频抽帧、图像特征提取、视频片段特征提取、视频片段特征比较、视频片段图像特征比较几个步骤，以下对各个步骤分别进行说明。

步骤S601，视频抽帧：对模板视频和视频库内视频按一定时间间隔抽帧，形成图像序列。

这里，在进行视频抽帧时，可以是按照相同的时间间隔来抽取视频帧，以形成图像序列，例如可以是每2秒抽取一帧图像；在一些实施例中，还可以采用非等时间间隔抽帧的方法，如采用提取视频关键帧的方法进行抽帧。

步骤S602，图像特征提取：对图像序列中的每帧图像提取特征，形成图像特征序列。

这里，在提取图像特征时，可以同时采用phash算法、avhash算法和histhash算法，分别提取图像对应的哈希指纹，形成phash指纹序列、avhash指纹序列和histhash指纹序列。在一些实施例中，还可以单独采用phash算法、avhash算法、dhash、histhash算法等方法提取图像哈希指纹。

在一些实施例中，还可以提取图像的局部特征用于后续的比较，如单独采用orb算子、surf算子、sift算子等方法进行特征提取。

以下以步骤S602通过histhash算法为例，对基于图像的灰度直方图特征生成哈希指纹的实现过程进行说明，该实现过程主要包括以下步骤：

步骤S6021，将RGB图像转换为8位灰度图，每个像素灰度值范围0-255；

步骤S6022，将像素灰度值范围0-255等分成k个区间，统计灰度值落在各个区间的像素数目；

步骤S6023，设置像素数目阈值为t，当k个区间内像素数目小于t时为0，大于等于t时为1，生成一个长度为k的哈希指纹。

需要说明的是，在上述的histhash算法中，步骤S6021在实现时，不只局限于8位灰度图，还可以扩展到16位、32位等，也即可以将RGB图像转换为16位或32位的灰度图。在一些实施例中，还可以单独基于RGB空间的或者HSV空间的统计数据，或者联合多种上述空间的统计数据生成图像的hash指纹。

步骤S603，视频片段特征提取：滑动窗口将视频图像序列切分成多个视频片段，获得视频片段图像特征序列，然后将其压缩生成该视频片段指纹。

这里，在进行视频片段特征提取时，对于总长度L的视频图像特征序列，通过滑动窗口的方法，截取生成n个视频图像特征序列片段，其中，可以通过公式(3-1)确定n的取值：

其中，w为窗口宽度，s为步长，N为截取的视频特征序列片段的个数，且L、w、s均为大于0的整数，除法为向下取整，且最小为0。

在得到N个视频特征序列片段之后，再将每个图像特征序列片段中的w个phash指纹进行压缩，生成1个视频片段指纹作为视频片段特征，那么N个视频片段也就生成N个视频片段指纹。

在实际实现过程中，将视频片段图像特征序列压缩生成视频片段指纹可以通过以下步骤实现：

步骤S6031，对于w个长度为k的图像指纹，逐位计算w个图像指纹分别在k个位上的和；

步骤S6032，若某一位的和小于w/2则视频片段指纹中该位为0，若该位的和大于等于w/2则视频片段指纹中该位为1，生成新的长度为k的视频片段指纹。

在一些实施例中，步骤S603在实现时，还可以直接将w个长度为k的图像指纹分别压缩成长度k/w的图像指纹，然后再按顺序拼接生成长度为k的指纹，作为视频片段指纹。

步骤S604，视频片段特征比较：比较目标视频和视频特征库的视频片段指纹，选出候选的视频片段。

这里，步骤S604在实现时，对目标视频的视频片段指纹在视频特征库的视频片段指纹库里进行搜索比较，计算目标视频的视频片段指纹与视频特征库张的各个视频片段指纹间的汉明距离，选出汉明距离小于视频片段指纹阈值t1的视频片段，作为候选视频片段。

在本申请实施例中，视频片段指纹阈值可以根据目标视频的长度、图像风格等情况自动进行调节。

步骤S605，视频片段图像特征比较：对候选视频片段，精确比较其图像特征序列，确定是否为相似片段。

这里，步骤S605在实现时，对于选出的候选视频片段，分别计算片段内各类图像哈希指纹序列之间的相似度，选出各类指纹的相似度均小于对应相似阈值的片段。相似阈值也可以根据目标视频的长度、图像风格等情况自动进行调节。

在本申请实施例中，计算视频片段图像指纹序列间的相似度可以通过以下步骤实现：

步骤S6051，按顺序一一对应，计算两个视频片段w个图像指纹之间的汉明距离；

步骤S6052，对w个汉明距离进行排序；

步骤S6053，选取最小的w-m个汉明距离(0＝<m<＝w/2)

步骤S6054，计算其平均值作为两个视频片段图像指纹序列的相似度。

图7为本申请实施例多媒体数据处理的再一种实现流程示意图，如图7所示，所述方法包括：

步骤S701，从目标视频中进行抽帧，得到图像序列。

步骤S702，获取图像序列中各个图像的图像特征。

这里，图像特征可以是histhash指纹、avhash指纹、phash指纹。

步骤S703，根据图像特征得到视频片段指纹。

这里，步骤S703在实现时，要首先将图像序列利用滑窗操作，得到多个视频片段，然后再根据视频片段中包括的各个帧图像的图像特征，确定出视频片段指纹。本申请实施例中的视频片段指纹相当于其他实施例中的视频片段的视频特征。

步骤S704，对视频库中的视频文件进行抽帧，并提取出抽帧得到图像的图像特征，得到视频特征库。

需要说明的是，步骤S704的执行顺序，并不限于本申请实施例示出的执行顺序，还可以是在步骤S701之前，还可以是在步骤S701之后，步骤S702之前等等。

根据图7可以看出，视频特征库中包括图像特征指纹库和视频片段指纹库。视频片段指纹库中的视频片段指纹可以是根据图像特征指纹得到的，实现过程与步骤S603是类似的。

步骤S705，将目标视频中的视频片段指纹和视频特征库中的视频片段指纹进行初步搜索比较。

这里，步骤S705在实现时，可以是将目标视频中的各个视频片段指纹与视频特征库中的视频片段指纹进行汉明距离计算，筛选出汉明距离小于视频片段指纹阈值的视频片段，作为初步筛选出的相似片段。

步骤S706，进行初步搜索比较，初步筛选出相似片段。

步骤S707，将相似片段中各个帧图像的图像指纹和视频特征库中的图像特征指纹进行精确比较。

这里，步骤S707的实现过程与图6示出的步骤S605是类似的，可以参考步骤S605的描述。

步骤S708，得到最终相似片段。

在一些实施例中，在步骤S706之后，可以不执行步骤S707，而是执行以下步骤：

步骤S707’，获取初步筛选出的相似片段中的音频数据，并提取音频指纹；

步骤S708’，计算音频指纹相似度，以进行精确筛选检测，得到最终相似片段。

在步骤S707’至步骤S708’中，将图像指纹和音频指纹相结合，以进行视频间的相似度计算，能够进一步提升准确率。

在本申请实施例提供的多媒体数据处理方法中，分别提取了视频的图像序列特征和视频片段特征；并且先基于视频片段特征进行快速的初步比较，筛选出少量候选视频片段；然后再基于多种图像序列特征进行精确比较，如此既能保证有较快的比较速度，又能够达到较高的准确率；同时计算视频片段图像指纹相似度的算法能有效降低两个视频片段时间稍有差异造成的影响，使得该方案有较高的召回率。

下面说明软件模块的示例性结构，在一些实施例中，如图2所示，装置240中的软件模块，即为多媒体数据处理装置80可以包括：

第一获取模块81，用于获取待处理视频文件中的多个目标帧图像，得到目标帧图像序列；

第一确定模块82，用于将所述目标帧图像序列切分成多个视频片段，并确定各个视频片段的视频特征；

第二确定模块83，用于基于各个视频片段的视频特征，从所述多个视频片段中确定候选视频片段，其中，所述候选视频片段与视频特征库中的参考视频片段符合第一相似条件；

第三确定模块84，用于当基于所述候选视频片段中包含的各个目标帧图像的图像特征确定所述候选视频片段与所述参考视频片段满足第二相似条件时，确定所述参考视频片段与所述候选视频片段为相似视频片段。

在一些实施例中，所述第一确定模块82进一步包括：

切分单元，用于将所述目标帧图像序列按照预设的窗口宽度和步长进行滑窗操作，得到N个视频片段，其中，每个视频片段中包括w个目标帧图像，w为正整数；

提取单元，用于提取第i个视频片段中所包括的w个目标帧图像的图像特征，其中，i＝1,2，…，N；

第一确定单元，用于基于所述第i个视频片段中所包括的w个目标帧图像的图像特征，确定所述第i个视频片段的视频特征。

在一些实施例中，所述提取单元还用于：

提取所述第i个视频片段中所包括的第j个目标帧图像的至少一个特征向量，其中，j＝1，2，…，w；

将第j个目标图像帧的至少一个特征向量确定为所述第j个目标帧图像的图像特征。

在一些实施例中，所述第一确定单元还用于：

从所述第i个视频片段所包括的各个目标帧图像的图像特征中分别提取出一个特征向量，得到w个待压缩特征向量；

对所述w个待压缩特征向量进行压缩，得到所述第i个视频片段的视频特征。

在一些实施例中，所述待压缩特征向量为k位向量，所述第一确定单元还用于：

将所述w个待压缩特征向量的第m位特征值求和，得到第m位的特征和值，其中，m＝1，2，…，k，k为大于1的整数；

如果第m位的特征和值大于或者等于预设的和值阈值，将所述第i个视频片段的第m位视频特征值确定为第一预设值；

如果所述第m位的特征和值小于所述和值阈值，将所述第i个视频片段的第m位视频特征值确定为第二预设值，第一预设值与第二预设值不同。

在一些实施例中，所述待压缩特征向量为k位向量，且k为w的整倍数，所述第一确定单元还用于：

将所述w个待压缩特征向量进行拼接，得到拼接向量，其中所述拼接向量为k*w位向量；

将所述拼接向量划分为k个子向量，其中，每个子向量为w位向量；

计算第m个子向量的向量和值，如果第m个子向量的向量和值大于或者等于预设的和值阈值，将所述第i个视频片段的第m位视频特征值确定为第一预设值；

如果所述第m个子向量的向量和值小于所述和值阈值，将所述第i个视频片段的第m位视频特征值确定为第二预设值，第一预设值与第二预设值不同。

在一些实施例中，所述第二确定模块83还包括：

第二确定单元，用于基于第i个视频片段的视频特征，确定第i个视频片段与视频特征库中各个参考视频片段的第一片段差异值；

第三确定单元，用于当第i个视频片段与参考视频片段的第一片段差异值小于第一差异阈值时，将所述第i个视频片段确定为候选视频片段。

在一些实施例中，所述候选视频片段中包括w个目标帧图像，所述参考视频片段中包括w个参考帧图像，所述装置还包括：

第二获取模块，用于获取所述参考视频片段中w个参考帧图像的参考图像特征；

第四确定模块，用于基于第j个目标帧图像的图像特征和第j个参考帧图像的参考图像特征，确定第j个图像差异值，其中，第j个图像差异值表征第j个目标帧图像和第j个参考帧图像之间的差异程度；其中，j＝1，2，…，w；

第五确定模块，用于基于w个图像差异值确定所述候选视频片段和所述参考视频片段的第二片段差异值；

第六确定模块，用于当所述第二片段差异值小于第二差异阈值时，确定所述候选视频片段与所述参考视频片段满足第二相似条件。

在一些实施例中，所述第五确定模块，包括：

第四确定单元，用于从w个图像差异值中确定出s个目标差异值，其中，s为小于或者等于w的正整数；

第五确定单元，用于基于所述s个目标差异值确定所述候选视频片段和所述参考视频片段的第二片段差异值。

在一些实施例中，所述装置还包括：

第七确定模块，用于将所述参考视频片段的标签信息确定为所述候选视频片段的标签信息；

第八确定模块，用于当候选视频片段的标签信息为预设的高危标签时，将所述待处理视频的标签信息确定为高危标签；

输出模块，用于输出报警信息，以提示所述待处理视频文件为高危视频。

在一些实施例中，所述装置包括：

第九确定模块，用于确定具有相同标签信息的候选视频片段的播放总时长；

第十确定模块，用于当所述播放总时长与所述待处理视频文件的播放时长的比值大于预设的比例阈值时，将所述标签信息确定为待处理视频文件的标签信息。

作为本申请实施例提供的方法采用硬件实施的示例，本申请实施例所提供的方法可以直接采用硬件译码处理器形式的处理器410来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本申请实施例提供的方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3、图4和图5示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种多媒体数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1中所述的方法，其特征在于，所述将所述目标帧图像序列切分成多个视频片段，并确定各个视频片段的视频特征，包括：

将所述目标帧图像序列按照预设的窗口宽度和步长进行滑窗操作，得到N个视频片段，其中，每个视频片段中包括w个目标帧图像，w为正整数；

提取第i个视频片段中所包括的w个目标帧图像的图像特征，其中，i＝1,2，…，N；

基于所述第i个视频片段中所包括的w个目标帧图像的图像特征，确定所述第i个视频片段的视频特征。

3.根据权利要求2中所述的方法，其特征在于，所述提取第i个视频片段中所包括的w个目标帧图像的图像特征，包括：

4.根据权利要求2中所述的方法，其特征在于，所述基于所述第i个视频片段中所包括的w个目标帧图像的图像特征，确定所述第i个视频片段的视频特征，包括：

5.根据权利要求4中所述的方法，其特征在于，所述待压缩特征向量为k位向量，所述对所述w个待压缩特征向量进行压缩，得到所述第i个视频片段的视频特征，包括：

6.根据权利要求4中所述的方法，其特征在于，所述待压缩特征向量为k位向量，且k为w的整倍数，所述对所述w个待压缩特征向量进行压缩，得到所述第i个视频片段的视频特征，包括：

7.根据权利要求1中所述的方法，其特征在于，所述基于各个视频片段的视频特征，从所述多个视频片段中确定候选视频片段，包括：

基于第i个视频片段的视频特征，确定第i个视频片段与视频特征库中各个参考视频片段的第一片段差异值；其中，i＝1，2，…，N；

当第i个视频片段与参考视频片段的第一片段差异值小于第一差异阈值时，将所述第i个视频片段确定为候选视频片段。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述候选视频片段中包括w个目标帧图像，所述参考视频片段中包括w个参考帧图像，所述方法还包括：

获取所述参考视频片段中w个参考帧图像的参考图像特征；

基于第j个目标帧图像的图像特征和第j个参考帧图像的参考图像特征，确定第j个图像差异值集合，其中，第j个图像差异值集合表征第j个目标帧图像和第j个参考帧图像的各个特征向量之间的差异程度；其中，j＝1，2，…，w；

基于w个图像差异值集合确定所述候选视频片段和所述参考视频片段的第二片段差异值集合；

当所述第二片段差异值集合中各个第二片段差异值都小于第二差异阈值时，确定所述候选视频片段与所述参考视频片段满足第二相似条件。

9.根据权利要求8中所述的方法，其特征在于，每个图像差异值集合中包括T个特征向量对应的T个图像差异值，所述基于w个图像差异值集合确定所述候选视频片段和所述参考视频片段的第二片段差异值集合，包括：

从w个图像差异值集合中确定出每个特征向量对应的s个目标差异值，其中，s为小于或者等于w的正整数；

基于所述每个特征向量对应的s个目标差异值确定所述候选视频片段和所述参考视频片段的每个特征向量对应的第二片段差异值，得到第二片段差异值集合。

10.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

获取视频特征库的各个参考视频文件中的多个参考图像，得到各个参考视频文件的参考图像序列；

将所述参考图像序列切分成多个参考视频片段，其中，每个参考视频片段中包括w个参考图像，w为正整数；

提取各个参考视频片段中所包括的w个参考图像的图像特征；

基于所述各个参考视频片段中所包括的w个参考图像的图像特征，确定所述各个参考视频片段的参考视频特征。

11.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

将所述参考视频片段的标签信息确定为所述候选视频片段的标签信息；

当候选视频片段的标签信息为预设的高危标签时，将所述待处理视频的标签信息确定为高危标签；

输出报警信息，以提示所述待处理视频文件为高危视频。

12.根据权利要求11中所述的方法，其特征在于，所述方法包括：

确定具有相同标签信息的候选视频片段的播放总时长；

当所述播放总时长与所述待处理视频文件的播放时长的比值大于预设的比例阈值时，将所述标签信息确定为待处理视频文件的标签信息。

13.一种多媒体数据处理装置，其特征在于，所述装置包括：

14.一种多媒体数据处理设备，其特征在于，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的方法。

15.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至12任一项所述的方法。