CN111931678B

CN111931678B - 一种视频信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN111931678B
Application number: CN202010847943.3A
Authority: CN
Inventors: 束俊辉; 叶豪; 范湉湉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2021-09-07
Anticipated expiration: 2040-08-21
Also published as: WO2022037343A1; CN111931678A; EP4120122A4; US20230045726A1; EP4120122A1

Abstract

本发明提供了一种视频信息处理方法、装置、电子设备以及存储介质，方法包括：基于第一视频图像帧集合，确定第一视频图像帧集合中的所有图像帧所对应的视频静态拼接区域；根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，并基于相应的拼接结果确定第一图像特征向量；获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，由此，通过区分视频的动态拼接区域和静态拼接区域，以及视频拼接处理，利用相应的图像特征向量判断视频的相似度，提升了视频相似度判断的准确性，减少了由于静态拼接区域的遮挡与覆盖，对视频相似度的误判。

Description

一种视频信息处理方法、装置、电子设备及存储介质

技术领域

本发明涉及视频信息处理技术，尤其涉及视频信息处理方法、装置、电子设备及存储介质。

背景技术

传统技术条件下，视频信息的需求量呈现爆发式增长，传统的信息处理技术已无法应对数量众多的视频信息的相似度的判断的需求。用人工判断的费那事对视频之间的相似度进行描述，对于人类来说非常简单，但对机器来说却是一项很难的任务，这需要机器能够跨越对图像理解的语义鸿沟，正确融合计算机视觉和自然语言处理这两项技术。为此，人工智能技术(AI，Artificial Intelligence)提供了训练适当的语音识别网络来支持上述应用的方案。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能，在视频识别处理领域中，也就是通过利用数字计算机或者数字计算机控制的机器实现对语音的识别。目前，该方向的研究收到了广泛的关注，能够实现在安防、家居、医疗、教学等领域得到有效应用，但是这一过程中，也存在视频相似度识别准确性较低的缺陷。

发明内容

有鉴于此，本发明实施例提供一种视频信息处理方法、装置、电子设备及存储介质，能够通过区分视频的动态拼接区域和静态拼接区域，以及视频拼接，利用相应的图像特征向量判断视频的相似度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种视频信息处理方法，包括：

获取第一视频，并确定与所述第一视频对应的第一视频图像帧集合，其中所述第一视频图像帧集合中的任一图像帧包括动态拼接区域和静态拼接区域；

基于所述第一视频图像帧集合，确定所述第一视频图像帧集合中的所有图像帧所对应的视频静态拼接区域；

根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，并基于相应的拼接结果确定第一图像特征向量；

获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，确定所述第一视频与第二视频的相似度，其中，所述第二图像特征向量用于表征所述第二视频的动态拼接区域中播放内容特征。

上述方案中，所述方法还包括：

将第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息送至区块链网络，以使

所述区块链网络的节点将所述第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部。

上述方案中，所述方法还包括：

接收所述区块链网络中的其他节点的数据同步请求；

响应于所述数据同步请求，对所述其他节点的权限进行验证；

当所述其他节点的权限通过验证时，控制当前节点与所述其他节点之间进行数据同步，以实现所述其他节点获取第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息。

上述方案中，所述方法还包括：

响应于查询请求，解析所述查询请求以获取对应的对象标识；

根据所述对象标识，获取区块链网络中的目标区块内的权限信息；

对所述权限信息与所述对象标识的匹配性进行校验；

当所述权限信息与所述对象标识相匹配时，在所述区块链网络中获取相应的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息；

响应于所述查询指令，将所获取的相应的资源交易数据以及与筛选条件相匹配的目标对象向相应的客户端进行推送，以实现所述客户端获取所述区块链网络中所保存的相应的资源交易数据以及与所述筛选条件相匹配的目标对象。

本发明实施例还提供了一种视频信息处理装置，包括：

信息传输模块，用于获取第一视频，并确定与所述第一视频对应的第一视频图像帧集合，其中所述第一视频图像帧集合中的任一图像帧包括动态拼接区域和静态拼接区域；

信息处理模块，用于基于所述第一视频图像帧集合，确定所述第一视频图像帧集合中的所有图像帧所对应的视频静态拼接区域；

所述信息处理模块，用于根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，并基于相应的拼接结果确定第一图像特征向量；

所述信息处理模块，用于获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，确定所述第一视频与第二视频的相似度，其中，所述第二图像特征向量用于表征所述第二视频的动态拼接区域中播放内容特征。

上述方案中，

所述信息处理模块，用于对所述第一视频进行解析，获取所述第一视频的时序信息；

所述信息处理模块，用于根据所述第一视频的时序信息，对所述第一视频所对应的视频参数进行解析，获取与所述第一视频对应的播放时长参数与画面区域参数；

所述信息处理模块，用于基于所述第一视频对应的播放时长参数与画面区域参数，对所述第一视频进行抽取以获取所述第一视频对应的第一视频图像帧集合。

上述方案中，

所述信息处理模块，用于对所述第一视频图像帧集合中的所有图像帧进行灰度化处理；

所述信息处理模块，用于对经过灰度化处理的图像帧进行横向等间隔采样处理和纵向等间隔采样处理；

所述信息处理模块，用于确定所述图像帧的横向等间隔采样处理结果的时间维度方差和，以及确定所述图像帧的纵向等间隔采样处理结果的时间维度方差和；

所述信息处理模块，用于基于所述图像帧的横向等间隔采样处理结果的时间维度方差和，确定所述视频静态拼接区域的上方区域宽度和所述视频静态拼接区域的下方区域宽度；

所述信息处理模块，用于基于所述图像帧的纵向等间隔采样处理结果的时间维度方差和，确定所述视频静态拼接区域的左侧区域宽度和所述视频静态拼接区域的右侧区域宽度。

上述方案中，

所述信息处理模块，用于根据所述视频静态拼接区域，确定所述第一视频图像帧集合中的不同图像帧中静态拼接区域的坐标参数；

所述信息处理模块，用于确定所述第一视频图像帧集合中的不同图像帧中动态拼接区域的宽度参数与高度参数；

所述信息处理模块，用于基于所述视频静态拼接区域的上方区域宽度、下方区域宽度、左侧区域宽度、右侧区域宽度以及所述动态拼接区域的宽度参数与高度参数，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，形成第二视频图像帧集合。

上述方案中，

所述信息处理模块，用于将所述第二视频图像帧集合中不同视频图像帧输入视频信息处理模型中；

所述信息处理模块，用于通过所述视频信息处理模型的卷积层和最大值池化层对所述第二视频图像帧集合中不同视频图像帧交叉进行处理，得到所述不同图像帧的降采样结果；

所述信息处理模块，用于通过所述视频信息处理模型的全连接层，对所述不同图像帧的降采样结果进行归一化处理；

所述信息处理模块，用于通过所述视频信息处理模型对所述不同图像帧的降采样的归一化结果，进行深度分解处理，确定与所述不同图像帧相匹配的第一图像特征向量。

上述方案中，

所述信息处理模块，用于获取第一训练样本集合，其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本；

所述信息处理模块，用于对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

所述信息处理模块，用于通过视频信息处理模型对所述第二训练样本集合进行处理，以确定所述视频信息处理模型的初始参数；

所述信息处理模块，用于响应于所述视频信息处理模型的初始参数，通过所述视频信息处理模型对所述第二训练样本集合进行处理，确定所述视频信息处理模型的更新参数；

所述信息处理模块，用于根据所述视频信息处理模型的更新参数，通过所述第二训练样本集合对所述视频信息处理模型的网络参数进行迭代更新。

上述方案中，

所述信息处理模块，用于对所述第二训练样本集合进行负例处理，以形成与所述第二训练样本集合相对应的负例样本集合，其中，所述负例样本集合用于调整所述视频信息处理模型的网络参数；

所述信息处理模块，用于根据所述负例样本集合确定相应的边缘损失函数值，其中，所述边缘损失函数值，用于作为监督参数对所述视频信息处理模型的处理结果进行评价。

上述方案中，

所述信息处理模块，用于将所述视频信息处理模型中的图像特征向量进行随机组合，以形成与所述第一训练样本集合相对应的负例样本集合；

所述信息处理模块，用于对所述视频信息处理模型的图像特征向量进行随机删除处理或替换处理以形成与所述第一训练样本集合相对应的负例样本集合。

上述方案中，

所述信息处理模块，用于确定与所述第一视频相对应的第二视频；

所述信息处理模块，用于基于所述第一视频的图像帧数与所述第二视频的图像帧数，通过所述第一图像特征向量和所述第二图像特征向量，确定对应的帧间相似度参数集合；

所述信息处理模块，用于获取所述帧间相似度参数集合中达到相似度阈值的图像帧数量；

所述信息处理模块，用于基于达到相似度阈值的图像帧数量，确定所述第一视频与第二视频的相似度。

上述方案中，

所述信息处理模块，用于当确定所述第一视频与第二视频的相似时，获取所述第一视频的版权信息；

所述信息处理模块，用于通过所述第一视频的版权信息和所述第二视频的版权信息，确定所述第一视频的合法性；

所述信息处理模块，用于当所述第一视频的版权信息和所述第二视频的版权信息不一致时，发出警示信息。

上述方案中，

所述信息处理模块，用于当确定所述第一视频与第二视频的不相似时，将所述第一视频添加至视频源；

所述信息处理模块，用于对所述视频源中的所有待推荐视频的召回顺序进行排序；

所述信息处理模块，用于基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。

上述方案中，

所述信息处理模块，用于将第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息送至区块链网络，以使

上述方案中，

所述信息处理模块，用于接收所述区块链网络中的其他节点的数据同步请求；

所述信息处理模块，用于响应于所述数据同步请求，对所述其他节点的权限进行验证；

所述信息处理模块，用于当所述其他节点的权限通过验证时，控制当前节点与所述其他节点之间进行数据同步，以实现所述其他节点获取第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息。

上述方案中，

所述信息处理模块，用于响应于查询请求，解析所述查询请求以获取对应的对象标识；

所述信息处理模块，用于根据所述对象标识，获取区块链网络中的目标区块内的权限信息；

所述信息处理模块，用于对所述权限信息与所述对象标识的匹配性进行校验；

所述信息处理模块，用于当所述权限信息与所述对象标识相匹配时，在所述区块链网络中获取相应的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息；

所述信息处理模块，用于响应于所述查询指令，将所获取的相应的资源交易数据以及与筛选条件相匹配的目标对象向相应的客户端进行推送，以实现所述客户端获取所述区块链网络中所保存的相应的资源交易数据以及与所述筛选条件相匹配的目标对象。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前述的视频信息处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前述的视频信息处理方法。

本发明实施例具有以下有益效果：

本发明通过获取第一视频，并对所述第一视频进行解析以实现获取所述第一视频对应的第一视频图像帧集合，其中所述第一视频图像帧集合中的任一图像帧包括动态拼接区域和静态拼接区域；基于所述第一视频图像帧集合，确定所述第一视频图像帧集合中的所有图像帧所对应的视频静态拼接区域；根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，并基于相应的拼接结果确定第一图像特征向量；获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，确定所述第一视频与第二视频的相似度，由此，通过区分视频的动态拼接区域和静态拼接区域，以及视频拼接处理，利用相应的图像特征向量判断视频的相似度，提升了视频相似度判断的准确性，减少了由于静态拼接区域的遮挡与覆盖，对视频相似度的误判。

附图说明

图1是本发明实施例提供的一种视频信息处理方法的使用环境示意图；

图2为本发明实施例提供的电子设备的组成结构示意图；

图3为本发明实施例提供的视频信息处理方法一个可选的流程示意图；

图4为本发明实施例中视频图像帧的动态拼接区域和静态拼接区域一个可选的示意图；

图5为本发明实施例中视频图像帧的动态拼接区域和静态拼接区域一个可选的示意图；

图6为本发明实施例中视频静态拼接区域的确定过程示意图；

图7A为本发明实施例中图像帧拼接示意图；

图7B为本发明实施例中视频信息处理模型的处理过程示意图；

图8为本发明实施例提供的视频信息处理方法一个可选的流程示意图；

图9为本发明实施例中视频相似判断一个可选的过程示意图；

图10是本发明实施例提供的视频信息处理装置100的架构示意图；

图11是本发明实施例提供的区块链网络200中区块链的结构示意图；

图12是本发明实施例提供的区块链网络200的功能架构示意图；

图13为本发明实施例提供的视频信息处理方法的使用场景示意图；

图14为本发明实施例中视频信息处理方法的使用过程示意图；

图15为本发明实施例中视频信息处理方法进行图像拼接的示意图；

图16为本发明实施例中视频信息处理方法进行图像拼接的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)第一视频，互联网中可获取的各种形式的视频信息，如客户端或者智能设备中呈现的视频文件、多媒体信息等。

3)客户端，终端中实现特定功能的载体，例如移动客户端(APP)是移动终端中特定功能的载体，例如执行线上直播(视频推流)的功能或者是在线视频的播放功能。

4)视频动态区域，视频在播放过程中随着时间轴推移而改变的画面区域，此部分是视频的主体内容。

5)视频静态区域，视频在播放过程中随着时间轴推移不改变的画面区域。

6)信息流，按照特定规格样式的上下排布的一种内容组织形态。从展示排序角度而言，常见的有时间顺序、热度、算法排序。

7)图像特征向量，即图像01向量，是基于图像生成的二值化的特征向量。

8)交易(Transaction)：等同于计算机术语“事务”，交易包括了需要提交到区块链网络执行的操作，并非单指商业语境中的交易，鉴于在区块链技术中约定俗成地使用了“交易”这一术语，本发明实施例遵循了这一习惯。

例如，部署(Deploy)交易用于向区块链网络中的节点安装指定的智能合约并准备好被调用；调用(Invoke)交易用于通过调用智能合约在区块链中追加交易的记录，并对区块链的状态数据库进行操作，包括更新操作(包括增加、删除和修改状态数据库中的键值对)和查询操作(即查询状态数据库中的键值对)。

9)区块链(Block chain)：是由区块(Block)形成的加密的、链式的交易的存储结构。

例如，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，从而基于哈希值实现区块中交易的防篡改和防伪造；新产生的交易被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长。

10)区块链网络(Block chain Network)：通过共识的方式将新区块纳入区块链的一系列的节点的集合。

11)账本(Ledger)：是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。

其中，区块链是以文件系统中的文件的形式来记录交易；状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易，用于支持对区块链中交易的快速查询。

12)智能合约(Smart Contracts)：也称为链码(Chain code)或应用代码，部署在区块链网络的节点中的程序，节点执行接收的交易中所调用的智能合约，来对账本数据库的键值对数据进行更新或查询的操作。

13)共识(Consensus)：是区块链网络中的一个过程，用于在涉及的多个节点之间对区块中的交易达成一致，达成一致的区块将被追加到区块链的尾部，实现共识的机制包括工作量证明(Po W，Proof of Work)、权益证明(PoS，Proof of Stake)、股份授权证明(DPo S，Delegated Proof-of-Stake)、消逝时间量证明(Po ET，Proof of Elapsed Time)等。

14)动静拼接视频，视频在播放过程中存在部分不随着时间轴推移而改变的画面区域。

图1为本发明实施例提供的视频信息处理方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中，所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中利用不同的业务进程获取不同的视频信息进行浏览，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的视频类型并不相同，例如：终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取视频(即视频中携带视频信息或相应的视频链接)，也可以通过网络300从相应的服务器200中获取仅包括文字或图像的相应视频进行浏览。服务器200和服务器200中可以保存有不同类型的视频。其中，本申请中不再对不同类型的视频的编译环境进行区分。在这一过程中向用户的客户端推送的视频信息应该是版权合规的视频信息，因此对于数量众多的视频，需要判断哪些视频是相似的，并进一步地对相似视频的版权信息进行合规检测。

以短视频为例，本发明所提供的视频推荐模型可以应用于短视频播放，在短视频播放中通常会对不同数据来源的不同短视频进行处理，最终在用户界面UI(UserInterface)上呈现出与相应的用户相对应的待推荐视频，如果推荐的视频是版权不合规的盗播视频将直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与向目标用户进行视频推荐的不同视频还可以供其他应用程序调用(例如短视频推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程)，当然，与相应的目标用户相匹配的视频推荐模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者长视频客户端的视频推荐进程)。

其中，本申请实施例所提供的视频推荐方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural n etwork，DNN)等。

下面对本发明实施例的电子设备的结构做详细说明，电子设备可以各种形式来实施，如带有视频信息处理功能的专用终端例如网关，也可以为带有视频信息处理功能的服务器，例如前述图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图，可以理解，图2仅仅示出了服务器的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的电子设备包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的视频信息处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的视频信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频信息处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的视频信息处理装置采用软硬件结合实施的示例，本发明实施例所提供的视频信息处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的视频信息处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的视频信息处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的视频信息处理方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括：用于在电子设备20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从视频信息处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的视频信息处理装置可以采用软件方式实现，图2示出了存储在存储器202中的视频信息处理装置2020，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括视频信息处理装置2020，视频信息处理装置2020中包括以下的软件模块：信息传输模块2081，信息处理模块2082。当视频信息处理装置2020中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的视频信息处理方法，下面对视频信息处理装置2020中各个软件模块的功能进行介绍：

信息传输模块2081，用于获取第一视频，并确定与所述第一视频对应的第一视频图像帧集合，其中所述第一视频图像帧集合中的任一图像帧包括动态拼接区域和静态拼接区域；

信息处理模块2082，用于基于所述第一视频图像帧集合，确定所述第一视频图像帧集合中的所有图像帧所对应的视频静态拼接区域；

所述信息处理模块2082，用于根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，并基于相应的拼接结果确定第一图像特征向量；

所述信息处理模块2082，用于获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，确定所述第一视频与第二视频的相似度。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频信息处理方法的各种可选实现方式中所提供的方法。

结合图2示出的电子设备20说明本发明实施例提供的视频信息处理方法，参见图3，图3为本发明实施例提供的视频信息处理方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行视频信息处理装置的各种服务器执行，例如可以是如带有视频信息处理功能的专用终端、服务器或者服务器集群。下面针对图3示出的步骤进行说明。

步骤301：视频信息处理装置获取第一视频，并确定与第一视频对应的第一视频图像帧集合。

其中，所述第一视频图像帧集合中的任一图像帧包括动态拼接区域和静态拼接区域。

在本发明的一些实施例中，获取第一视频，并确定与所述第一视频对应的第一视频图像帧集合，可以通过以下方式实现：

对所述第一视频进行解析，获取所述第一视频的时序信息；根据所述第一视频的时序信息，对所述第一视频所对应的视频参数进行解析，获取与所述第一视频对应的播放时长参数与画面区域参数；基于所述第一视频对应的播放时长参数与画面区域参数，对所述第一视频进行抽取以获取所述第一视频对应的第一视频图像帧集合。其中，参考图4和图5，图4为本发明实施例中视频图像帧的动态拼接区域和静态拼接区域一个可选的示意图，图5为本发明实施例中视频图像帧的动态拼接区域和静态拼接区域一个可选的示意图。其中，随着视频的播放过程，视频在播放过程中随着时间轴推移而改变的画面区域即为视频动态拼接区域此部分是视频的主体内容，可以判断视频是否相似。而视频在播放过程中随着时间轴推移不改变的画面区域即为视频静态拼接区域，当视频静态拼接区域的面积过大或者出现遮盖时，经常会造成对视频是否相似的误判。图4和图5分别示出了第一视频和视频第二视频的动态拼接区域，是需要进行相似比对的视频对的区域。其中上部和下部框线区域为视频静态区域，中部框线区域是视频动态区域。通过该样例可以发现，静态区域面积占比要占整个视频图像整体区域面积的30％以上，可见视频无用的静态区域必然对于视频相似比对有很大的干扰。图4和图5中示出了在本系统中有效的将静态区域的识别并进行裁剪，将视频真正主体内容(动态区域)剥离出来，从而使相似识别更加精准。

步骤302：视频信息处理装置基于所述第一视频图像帧集合，确定所述第一视频图像帧集合中的所有图像帧所对应的视频静态拼接区域。

在本发明的一些实施例中，基于所述第一视频图像帧集合，确定所述第一视频图像帧集合中的所有图像帧所对应的视频静态拼接区域，可以通过以下方式实现：

对所述第一视频图像帧集合中的所有图像帧进行灰度化处理；对经过灰度化处理的图像帧进行横向等间隔采样处理和纵向等间隔采样处理；确定所述图像帧的横向等间隔采样处理结果的时间维度方差和，以及确定所述图像帧的纵向等间隔采样处理结果的时间维度方差和；基于所述图像帧的横向等间隔采样处理结果的时间维度方差和，确定所述视频静态拼接区域的上方区域宽度和所述视频静态拼接区域的下方区域宽度；基于所述图像帧的纵向等间隔采样处理结果的时间维度方差和，确定所述视频静态拼接区域的左侧区域宽度和所述视频静态拼接区域的右侧区域宽度。其中，参考图6，图6为本发明实施例中视频静态拼接区域的确定过程示意图，具体来说，对不同视频帧集合中的动静拼接区域进行识别可以通过将动静识别算法所封装的动静拼接识别定位模块实现，其中，动静拼接识别定位模块可以基于动静拼接算法进行帧图像的识别，模块输入是视频按时间顺序的视频抽帧图像，输出是视频的画面左/上/右/下静止区域的宽度，算法对帧处理过程如图6所示，具体包括：1)灰度化处理：将所有抽帧图像转化为灰度图，则所有图像可记作M_n×w×h；2)采样：对所有抽帧灰度图，横向等间隔采样k列像素，采样结果记作W_n×k×h；纵向也等间隔采样k行像素，采样结果记作H_n×w×k；3)计算时维方差和：计算W_n×k×h在第0维(即n维度)的方差，再沿第1维(即k维度)求和，结果向量记作var_n；同样地，计算H_n×w×k第0维的方差，再沿第2维求和，结果向量记作var_w；4)检测边距：对于var_h，分别自前往后、自后往前遍历，找到第一个时维方差和大于阈值T的位置top、bottom，即为动静拼接视频边缘静止区域的上、下边距；同样地，对于var_w，分别自前往后、自后往前遍历，找到第一个时维方差和大于阈值T的位置left、right，即为动静拼接视频边缘静止区域的左、右边距；假设输入抽帧图数量为n，则所有抽帧图尺寸相同，宽高分别为w和h像素。

步骤303：视频信息处理装置根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，形成第二视频图像帧集合。

其中，第二视频图像帧集合包括不同动态拼接区域的图像，由此，可以准确地实现分离视频静态拼接区域，并对动态拼接区域所播放的视频内容进行分析与判断。

在本发明的一些实施例中，根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，形成第二视频图像帧集合，可以通过以下方式实现：

根据所述视频静态拼接区域，确定所述第一视频图像帧集合中的不同图像帧中静态拼接区域的坐标参数；确定所述第一视频图像帧集合中的不同图像帧中动态拼接区域的宽度参数与高度参数；基于所述视频静态拼接区域的上方区域宽度、下方区域宽度、左侧区域宽度、右侧区域宽度以及所述动态拼接区域的宽度参数与高度参数，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，形成第二视频图像帧集合。其中，参考图7A，图7A为本发明实施例中图像帧拼接示意图，其中动静拼接裁剪可以由运行动静拼接识别裁剪算法的动静拼接识别裁剪模块实现，具体来说：动静拼接裁剪模块根据动静拼接识别的静态区域，对视频帧图像进行裁剪。模块输入的是抽帧图像、识别出的静态区域(左right/上top/右right/下bottom)，输出的是裁剪后的抽帧图像(高heightC，宽widthC)。

其中，可以定义抽帧图像宽定义为width，高定义为hight。设抽帧图像左上角设为坐标的顶点(0，0)、视频动态区域抽帧图像左上角坐标为(x₀,y₀)，右下角坐标为(x₁,y₁)。根据静态区域坐标，可计算得到动态区域坐标为x₀＝left，y₀＝top，x1＝width-right，y1＝height-bottom。

步骤304：视频信息处理装置确定所述第二视频图像帧集合中不同视频图像帧对应的第一图像特征向量。

在本发明的一些实施例中，确定所述第二视频图像帧集合中不同视频图像帧对应的第一图像特征向量，可以通过以下方式实现：

将所述第二视频图像帧集合中不同视频图像帧输入视频信息处理模型中；通过所述视频信息处理模型的卷积层和最大值池化层对所述第二视频图像帧集合中不同视频图像帧交叉进行处理，得到所述不同图像帧的降采样结果；通过所述视频信息处理模型的全连接层，对所述不同图像帧的降采样结果进行归一化处理；通过所述视频信息处理模型对所述不同图像帧的降采样的归一化结果，进行深度分解处理，确定与所述不同图像帧相匹配的第一图像特征向量。其中，参考图7B，图7B为本发明实施例中视频信息处理模型的处理过程示意图，其中，步骤304所实现的确定特征向量集合可以由裁剪视频帧图像01向量化实现，具体来说：视频帧通过视频信息处理模型模型，将视频帧图像转化为通过01向量表示的图像特征向量。模块输入是抽帧图像集合，输出为1024维的01特征向量(x₀,x₁.....x₁₀₂₃)xi∈{0，1}的向量集合。

继续结合图2示出的电子设备20说明本发明实施例提供的视频信息处理方法，参见图8，图8为本发明实施例提供的视频信息处理方法一个可选的流程示意图，可以理解地，图8所示的步骤可以由运行视频信息处理装置的各种服务器执行，例如可以是如带有视频信息处理功能的专用终端、服务器或者服务器集群，其中，经过训练的视频信息处理可以部署在服务器中，对上传的视频的相似性进行检测，以确定是否对视频的版权信息进行合规检测，当然，在部署视频信息处理模型之前还需要对视频信息处理模型进行训练，具体包括以下步骤：

步骤801：获取第一训练样本集合，其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本。

步骤802：对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合。

在本发明的一些实施例中，还可以对所述第二训练样本集合进行负例处理，以形成与所述第二训练样本集合相对应的负例样本集合，其中，所述负例样本集合用于调整所述视频信息处理模型的网络参数；根据所述负例样本集合确定相应的边缘损失函数值，其中，所述边缘损失函数值，用于作为监督参数对所述视频信息处理模型的处理结果进行评价。其中，本模块中涉及到的图片01向量是基于Siamese框架，避免分类网络存在的线性变换矩阵参数量随类别数线性增加，且所学习的特征对于开集问题判别能力不足等问题。

其中在模型的训练阶段可以通过视频信息处理过程中的真实重复图片，重复视频抽帧图，图片经过不同的数据增强处理得到的图片对等作为正样本对，相同分类和随机匹配的图片对作为负样本对，采用边缘损失函数(margin based loss)训练，在保持阈值判断的同时，拥有triplet loss的灵活性。进一步地，为解决海量存储和快速匹配的业务要求，借鉴Hash Net思想，网络采用随训练过程逐渐逼近符号函数的激活方式，既避免了训练初期神经元处于饱和区无法反向传播学习的困境，又避免了图片向量直接二值化量化误差大的问题。在降低32倍存储开销和距离计算速度加快300倍的情况下，准确率仅下降1.8％。当然在本发明的一些实施例中，还可以采用multi-task多任务学习的训练方式，多域学习，并引入GAN loss等优化，进一步提升模型准确率和召回率。

进一步地，还可以通过视频帧相似度计算模块确定不同视频之间的相似度，具体来说：视频帧相似度计算模块输入是需要比较的视频帧01向量集合，输出是两视频间的相似度simscore。设比较的一对01向量0^x＝(x₀,x₁.....x₁₀₂₃)xi∈{0，1}，Y＝(y₀,y₁.....y₁₀₂₃)yi∈{0，1}，视频帧相似度sim_x,y通过汉明距离计算可得，sim_x,y＝Hamming(X,Y)。

设比对的目标的帧数为m，第二视频的帧数n，通过计算视频帧间的相似，会产生一个相似sim集合{sim₀₀，sim₀₁,sim₀₂,sim_m-1n-1}。结合遍历计算以及判定sim值是否小于指定阈值(小于指定阈值即为相似，阈值根据实际业务场景而定)，得到最终相似图片个数C。最终两视频间的相似度可通过此公式计算可得

其中，对所述第一训练样本集合进行负例处理，可以选择有以下至少之一：

将所述视频信息处理模型中的图像特征向量进行随机组合，以形成与所述第一训练样本集合相对应的负例样本集合；或者，对所述视频信息处理模型的图像特征向量进行随机删除处理或替换处理以形成与所述第一训练样本集合相对应的负例样本集合。

步骤803：通过视频信息处理模型对所述第二训练样本集合进行处理，以确定所述视频信息处理模型的初始参数。

步骤804：响应于所述视频信息处理模型的初始参数，通过所述视频信息处理模型对所述第二训练样本集合进行处理，确定所述视频信息处理模型的更新参数。

步骤805：根据所述视频信息处理模型的更新参数，通过所述第二训练样本集合对所述视频信息处理模型的网络参数进行迭代更新。

当经过训练的视频信息处理模型部署在服务器中(可以是视频服务器或者用于视频相似度判断的云服务器)可以继续执行后续步骤305，实现对视频相似度的判断。

步骤305：视频信息处理装置获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，确定所述第一视频与第二视频的相似度。

在本发明的一些实施例中，获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，确定所述第一视频与第二视频的相似度，可以通过以下方式实现：

确定与所述第一视频相对应的第二视频；基于所述第一视频的图像帧数与所述第二视频的图像帧数，通过所述第一图像特征向量和所述第二图像特征向量，确定对应的帧间相似度参数集合；获取所述帧间相似度参数集合中达到相似度阈值的图像帧数量；基于达到相似度阈值的图像帧数量，确定所述第一视频与第二视频的相似度。其中，所述第二图像特征向量用于表征所述第二视频的动态拼接区域中播放内容特征，具体来说，当第二视频为通过版权信息验证的视频时，表征动态拼接区域中播放内容特征的第二图像特征向量可以保存在相应的视频服务器中，用于对用户上传的第一视频进行相似度验证；或者，当第二视频为其他用户上传的视频时，可以通过相应的视频解析进程，根据视频静态拼接区域，对所述第二视频图像帧集合中的不同图像帧进行拼接处理，以获取不同视频图像帧对应的第二图像特征向量，用于相似度的验证。

其中，继续参考图9，图9为本发明实施例中视频相似判断一个可选的过程示意图，具体包括：

步骤901：将输入的第一视频的图像帧集合记为A、第二视频的视频图像帧集合记为B。

步骤902：对A和B通过进行动静拼接区域识别。

步骤903：将A和B进行动静拼接裁剪，裁剪后的帧集合记为A'和B'。

步骤904：将A'和B'帧集合中所有帧进行01向量转化为XA集合和XB集合。

步骤905：计算XA集合和XB集合的相似度数值，判断是否相似，如果是执行步骤906，否则，执行步骤907。

步骤906：通过相似判定确定视频相似。

步骤907：通过相似判定确定视频不同。

在本发明的一些实施例中，当确定所述第一视频与第二视频的相似时，获取所述第一视频的版权信息；通过所述第一视频的版权信息和所述第二视频的版权信息，确定所述第一视频的合法性；当所述第一视频的版权信息和所述第二视频的版权信息不一致时，发出警示信息。

在本发明的一些实施例中，当确定所述第一视频与第二视频的不相似时，将所述第一视频添加至视频源；对所述视频源中的所有待推荐视频的召回顺序进行排序；基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。

由于视频服务器的视频数量不断增加，因此，可以将视频的版权信息保存在区块链网络或者云服务器中，实现对视频相似性的判断。其中，本发明实施例可结合云技术或区块链网络技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

在本发明的一些实施例中，还可以将第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息送至区块链网络，以使

上述方案中，所述方法还包括：

接收所述区块链网络中的其他节点的数据同步请求；响应于所述数据同步请求，对所述其他节点的权限进行验证；当所述其他节点的权限通过验证时，控制当前节点与所述其他节点之间进行数据同步，以实现所述其他节点获取第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息。

上述方案中，所述方法还包括：响应于查询请求，解析所述查询请求以获取对应的用户标识；根据所述用户标识，获取区块链网络中的目标区块内的权限信息；对所述权限信息与所述用户标识的匹配性进行校验；当所述权限信息与所述用户标识相匹配时，在所述区块链网络中获取相应的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息；响应于所述查询请求，将所获取的相应的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息向相应的客户端进行推送，以实现所述客户端获取所述区块链网络中所保存的相应的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息。

继续参见图10，图10是本发明实施例提供的视频信息处理装置100的架构示意图，包括区块链网络200(示例性示出了共识节点210-1至共识节点210-3)、认证中心300、业务主体400和业务主体500，下面分别进行说明。

区块链网络200的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户终端和服务器，都可以在不需要授权的情况下接入区块链网络200；以联盟链为例，业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络200，此时，成为区块链网络200中的客户端节点。

在一些实施例中，客户端节点可以只作为区块链网络200的观察者，即提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络200的共识节点210的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务主体的具体业务需求)地实施。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中，通过区块链网络200实现数据和业务处理过程的可信和可追溯。

区块链网络200中的共识节点接收来自不同业务主体(例如前序实施中示出的业务主体400和业务主体500)的客户端节点(例如，前序实施例中示出的归属于业务主体400的客户端节点410、以及归属于数据库运营商系统的客户端节点510)提交的交易，执行交易以更新账本或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。

例如，客户端节点410/510可以订阅区块链网络200中感兴趣的事件，例如区块链网络200中特定的组织/通道中发生的交易，由共识节点210推送相应的交易通知到客户端节点410/510，从而触发客户端节点410/510中相应的业务逻辑。

下面以多个业务主体接入区块链网络以实现对指令信息以及与所述指令信息相匹配的业务进程管理为例，说明区块链网络的示例性应用。

参见图10，管理环节涉及的多个业务主体，如业务主体400可以是视频信息处理装置，业务主体500可以是带有视频信息处理装功能的显示系统，从认证中心300进行登记注册获得各自的数字证书，数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息，区块链网络会根据身份进行验证，例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络200请求接入而成为客户端节点。

业务主体400的客户端节点410用于将第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息送至区块链网络，以使所述区块链网络的节点将所述第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部。

其中，将相应的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息发送至区块链网络200，可以预先在客户端节点410设置业务逻辑，当确定第一视频与第二视频不相似时，客户端节点410将待处理的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息自动发送至区块链网络200，也可以由业务主体400的业务人员在客户端节点410中登录，手动打包第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息以及相应的转换进程信息，并将其发送至区块链网络200。在发送时，客户端节点410根据第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息生成对应更新操作的交易，在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点410的数字证书、签署的数字签名(例如，使用客户端节点410的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体400的身份，确认业务主体400是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点210自己的数字签名(例如，使用共识节点210-1的私钥对交易的摘要进行加密得到)，并继续在区块链网络200中广播。

区块链网络200中的共识节点210接收到验证成功的交易后，将交易填充到新的区块中，并进行广播。区块链网络200中的共识节点210广播的新区块时，会对新区块进行共识过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交更新待处理的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息以及相应的进程触发信息的交易，在状态数据库中添加包括第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息以及相应的进程触发信息的键值对。

业务主体500的业务人员在客户端节点510中登录，输入第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息查询请求，客户端节点510根据第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息查询请求生成对应更新操作/查询操作的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点510的数字证书、签署的数字签名(例如，使用客户端节点510的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易，对交易进行验证、区块填充及共识一致后，将填充的新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交的更新某一视频的版权信息数据信息对应的人工识别结果的交易，根据人工识别结果更新状态数据库中该视频的版权信息数据信息对应的键值对；对于提交的查询某个视频的版权信息数据信息的交易，从状态数据库中查询第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息对应的键值对，并返回交易结果。

值得说明的是，在图10中示例性地示出了将第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息以及相应的进程触发信息直接上链的过程，但在另一些实施例中，对于第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息数据量较大的情况，客户端节点410可第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息的哈希以及相应的第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息的哈希成对上链，将第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息以及相应的进程触发信息存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到第一视频标识、第一视频的第一图像特征向量和所述第一视频的版权信息以及相应的进程触发信息后，可结合区块链网络200中对应的哈希进行校验，从而减少上链操作的工作量。

作为区块链的示例，参见图11，图11是本发明实施例提供的区块链网络200中区块链的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长，区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。

下面说明本发明实施例提供的区块链网络的示例性的功能架构，参见图12，图12是本发明实施例提供的区块链网络200的功能架构示意图，包括应用层201、共识层202、网络层203、数据层204和资源层205，下面分别进行说明。

资源层205封装了实现区块链网路200中的各个共识节点210的计算资源、存储资源和通信资源。

数据层204封装了实现账本的各种数据结构，包括以文件系统中的文件实现的区块链，键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。

网络层203封装了点对点(P2P，Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

其中，P2P网络协议实现区块链网络200中共识节点210之间的通信，数据传播机制保证了交易在区块链网络200中的传播，数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现共识节点210之间传输数据的可靠性；接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证，并在认证通过时赋予业务主体接入区块链网络200的权限；业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限(例如能够发起的交易的类型)。

共识层202封装了区块链网络200中的共识节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算法的可插拔。

交易管理用于验证共识节点210接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息)；对于获得接入区块链网络200的授权的业务主体而言，均拥有认证中心颁发的数字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的合法身份。

账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作，包括：根据区块向量号(例如交易的哈希值)查询区块；根据区块哈希值查询区块；根据交易向量号查询区块；根据交易向量号查询交易；根据业务主体的账号(向量号)查询业务主体的账号数据；根据通道名称查询通道中的区块链。

应用层201封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

由此，经过相似性识别的第一视频的版权信息可以保存在区块链网络中，当新的用户上传视频至视频服务器中时，视频服务器可以调用区块链网络中的版权信息(此时用户上传的第一视频可以作为第二视频)，对视频的版权合规性进行验证。

图13为本发明实施例提供的视频信息处理方法的使用场景示意图，参见图13，终端(包括终端10-1和终端10-2)上设置有能够显示相应短视频的软件的客户端，例如短视频播放的客户端或插件，用户通过相应的客户端可以获得第一视频并进行展示；终端通过网络300连接短视频服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。当然，用户也可以通过终端上传视频以供网络中的其他用户观看，这一过程中运营商的视频服务器需要对用户上传的视频进行检测，对不同的视频信息进行比对和分析，确定用户上传的视频版权是否合规，并对合规视频向不同的用户进行推荐，避免用户的短视频被盗播。

这一过程中，虽然现有的视频服务器通过人工智能的算法模型识别视频间的相似关系，但是在动静拼接类型视频中的相似识别场景中，会有如下问题：

a.两视频动态区域相似、静态区域不相似，该类视频在信息流场景中需要判定为相似。受到视频静态区域的干扰，现有技术未对此类视频进行特殊识别，可能会判定此视频对为不相似。如果大量的此类重复视频在信息流推荐中出现，会导致用户体验不佳，遭到用户投诉。此外很多搬运号主为了逃避版权，将视频进行静态区域做不同的贴片，逃避相似识别。导致版权方版权受损，造成严重的公关负面影响。

b.两视频动态区域不相似、静态区域相似，该类视频在信息流场景中需要判定为不相似。受到视频静态区域的干扰，现有技术可能会判定此视频为相似，信息流业务中发表视频的号主发布了相同类型的特效视频(静态区域相同)被误识别为相似后，会导致不被信息流进行视频推荐。使得号主收益、粉丝受到影响，引起号主的投诉，造成业务负面影响。

为了解决上述缺陷，本发明提供一种视频信息处理方法，下面对本发明所提供的视频信息处理方法的使用过程进行说明，其中，参考图14，图14为本发明实施例中视频信息处理方法的使用过程示意图，具体包括以下步骤：

步骤1401：获取两个不同的第一视频帧集合，并对不同短视频帧集合中的动静静态拼接区域进行识别。

步骤1402：根据所识别的动静拼接区域对目标频帧集合进行动静拼接裁剪，形成新的第一视频帧集合。

步骤1403：将新的第一视频帧集合中的所有帧进行01向量转化为封闭对应的特征向量集合，并基于特征向量集合相似判定得到不同第一视频间的相似结果。

步骤1404：基于同第一视频间的相似结果执行视频推荐或者警告处理。

参考图15和图16，图15为本发明实施例中视频信息处理方法进行图像拼接的示意图，图16为本发明实施例中视频信息处理方法进行图像拼接的示意图。

通过本申请所提供的视频信息处理方法，当两视频动态区域相似、静态区域不相似，该类视频在信息流场景中可以判定为相似，该视频可能会出现版权侵权，需要视频的上传用户提供的相应的版权证明，进行后续处理。进一步地，当两视频动态区域不相似、静态区域相似，该类视频在信息流场景中可以判定为不相似，并向网络中的不同用户进行视频推荐。

有益技术效果：本发明通过获取第一视频，并确定与所述第一视频对应的第一视频图像帧集合，其中所述第一视频图像帧集合中的任一图像帧包括动态拼接区域和静态拼接区域；根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，并基于相应的拼接结果确定第一图像特征向量；确定所述第二视频图像帧集合中不同视频图像帧对应的第一图像特征向量；获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，确定所述第一视频与第二视频的相似度，由此，通过区分视频的动态拼接区域和静态拼接区域，以及视频拼接处理，利用相应的图像特征向量判断视频的相似度，提升了视频相似度判断的准确性，减少了由于静态拼接区域的遮挡与覆盖，对视频相似度的误判。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频信息处理方法，其特征在于，所述方法包括：

根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，形成第二视频图像帧集合，其中，所述第二视频图像帧集合包括不同动态拼接区域的图像；

确定所述第二视频图像帧集合中不同视频图像帧对应的第一图像特征向量；

2.根据权利要求1所述的方法，其特征在于，所述获取第一视频，并确定与所述第一视频对应的第一视频图像帧集合，包括：

对所述第一视频进行解析，获取所述第一视频的时序信息；

根据所述第一视频的时序信息，对所述第一视频所对应的视频参数进行解析，获取与所述第一视频对应的播放时长参数与画面区域参数；

基于所述第一视频对应的播放时长参数与画面区域参数，对所述第一视频进行抽取以获取所述第一视频对应的第一视频图像帧集合。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一视频图像帧集合，确定所述第一视频图像帧集合中的所有图像帧所对应的视频静态拼接区域，包括：

对所述第一视频图像帧集合中的所有图像帧进行灰度化处理；

对经过灰度化处理的图像帧进行横向等间隔采样处理和纵向等间隔采样处理；

确定所述图像帧的横向等间隔采样处理结果的时间维度方差和，以及确定所述图像帧的纵向等间隔采样处理结果的时间维度方差和；

基于所述图像帧的横向等间隔采样处理结果的时间维度方差和，确定所述视频静态拼接区域的上方区域宽度和所述视频静态拼接区域的下方区域宽度；

基于所述图像帧的纵向等间隔采样处理结果的时间维度方差和，确定所述视频静态拼接区域的左侧区域宽度和所述视频静态拼接区域的右侧区域宽度。

4.根据权利要求1所述的方法，其特征在于，所述根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，形成第二视频图像帧集合，包括：

根据所述视频静态拼接区域，确定所述第一视频图像帧集合中的不同图像帧中静态拼接区域的坐标参数；

确定所述第一视频图像帧集合中的不同图像帧中动态拼接区域的宽度参数与高度参数；

基于所述视频静态拼接区域的上方区域宽度、下方区域宽度、左侧区域宽度、右侧区域宽度以及所述动态拼接区域的宽度参数与高度参数，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，形成第二视频图像帧集合。

5.根据权利要求1所述的方法，其特征在于，所述确定所述第二视频图像帧集合中不同视频图像帧对应的第一图像特征向量，包括：

将所述第二视频图像帧集合中不同视频图像帧输入视频信息处理模型中；

通过所述视频信息处理模型的卷积层和最大值池化层对所述第二视频图像帧集合中不同视频图像帧交叉进行处理，得到所述不同图像帧的降采样结果；

通过所述视频信息处理模型的全连接层，对所述不同图像帧的降采样结果进行归一化处理；

通过所述视频信息处理模型对所述不同图像帧的降采样的归一化结果，进行深度分解处理，确定与所述不同图像帧相匹配的第一图像特征向量。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

获取第一训练样本集合，其中所述第一训练样本集合为通过历史数据所获取的带有噪声的视频处理样本；

对所述第一训练样本集合进行去噪处理，以形成相应的第二训练样本集合；

通过视频信息处理模型对所述第二训练样本集合进行处理，以确定所述视频信息处理模型的初始参数；

响应于所述视频信息处理模型的初始参数，通过所述视频信息处理模型对所述第二训练样本集合进行处理，确定所述视频信息处理模型的更新参数；

根据所述视频信息处理模型的更新参数，通过所述第二训练样本集合对所述视频信息处理模型的网络参数进行迭代更新。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

对所述第二训练样本集合进行负例处理，以形成与所述第二训练样本集合相对应的负例样本集合，其中，所述负例样本集合用于调整所述视频信息处理模型的网络参数；

根据所述负例样本集合确定相应的边缘损失函数值，其中，所述边缘损失函数值，用于作为监督参数对所述视频信息处理模型的处理结果进行评价。

8.根据权利要求7所述的方法，其特征在于，所述对所述第一训练样本集合进行负例处理，包括：

将所述视频信息处理模型中的图像特征向量进行随机组合，以形成与所述第一训练样本集合相对应的负例样本集合；或者，

对所述视频信息处理模型的图像特征向量进行随机删除处理或替换处理以形成与所述第一训练样本集合相对应的负例样本集合。

9.根据权利要求1所述的方法，其特征在于，所述获取第二视频对应的第二图像特征向量，并基于所述第一图像特征向量和所述第二图像特征向量，确定所述第一视频与第二视频的相似度，包括：

确定与所述第一视频相对应的第二视频；

基于所述第一视频的图像帧数与所述第二视频的图像帧数，通过所述第一图像特征向量和所述第二图像特征向量，确定对应的帧间相似度参数集合；

获取所述帧间相似度参数集合中达到相似度阈值的图像帧数量；

基于达到相似度阈值的图像帧数量，确定所述第一视频与第二视频的相似度。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当确定所述第一视频与第二视频的相似时，获取所述第一视频的版权信息；

通过所述第一视频的版权信息和所述第二视频的版权信息，确定所述第一视频的合法性；

当所述第一视频的版权信息和所述第二视频的版权信息不一致时，发出警示信息。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当确定所述第一视频与第二视频的不相似时，将所述第一视频添加至视频源；

对所述视频源中的所有待推荐视频的召回顺序进行排序；

基于所述待推荐视频的召回顺序的排序结果向目标用户进行视频推荐。

12.一种视频信息处理装置，其特征在于，所述装置包括：

所述信息处理模块，用于根据所述视频静态拼接区域，对所述第一视频图像帧集合中的不同图像帧进行拼接处理，形成第二视频图像帧集合，其中，所述第二视频图像帧集合包括不同动态拼接区域的图像；

所述信息处理模块，用于确定所述第二视频图像帧集合中不同视频图像帧对应的第一图像特征向量；

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至11任一项所述的视频信息处理方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至11任一项所述的视频信息处理方法。