CN111741329B

CN111741329B - 一种视频处理方法、装置、设备及存储介质

Info

Publication number: CN111741329B
Application number: CN202010623643.7A
Authority: CN
Inventors: 尚焱; 贺思颖; 李松南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2021-09-28
Anticipated expiration: 2040-07-01
Also published as: CN111741329A

Abstract

本申请实施例公开了一种视频处理方法、装置、设备及存储介质，该视频处理方法涉及人工智能、云计算、计算机视觉、机器学习等技术，该视频处理方法包括：获取待处理的目标视频；从目标视频中抽取帧序列，帧序列包括N个被测视频帧，N为大于1的整数；调用水印检测模型对帧序列进行水印检测，得到各个被测视频帧的水印指示；从N个水印指示中选择M个水印指示进行时域联合判别处理，得到目标视频的水印数据，其中M为大于1的整数且M≤N。采用本申请实施例，可以对目标视频的帧序列进行时域多帧联合检测，有效减少计算冗余，提升视频水印检测效率，提高视频水印检测结果的准确率。

Description

一种视频处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机应用技术领域，具体涉及视频水印检测技术领域，尤其涉及一种视频处理方法、一种视频处理装置、一种视频处理设备以及一种计算机可读存储存储介质。

背景技术

视频水印是指在视频中添加的标识或图标，该标识或图标通常为图形和文字的组合形式，通过在视频中添加水印可以有效保护视频的版权，防止视频被他人盗用。在互联网的视频传播过程中，通常会对包含水印的视频进行过滤与筛选，以便规避一定的法律风险，由此看来，视频水印检测技术在视频过滤与筛选过程中显得尤为重要。目前，视频水印检测技术一般是对待检测视频进行单帧逐帧检测，计算冗余较大，对检测设备的性能条件要求较高，并且检测结果的准确率不高。

发明内容

本申请实施例提供了一种视频处理方法、装置、设备及存储介质，可以对目标视频的帧序列进行时域多帧联合检测，有效减少计算冗余，提升视频水印检测效率，提高视频水印检测结果的准确率。

一方面，本申请实施例提供一种视频处理方法，该视频处理方法包括：

获取待处理的目标视频；

从目标视频中抽取帧序列，帧序列包括N个被测视频帧，N为大于1的整数；

调用水印检测模型对帧序列进行水印检测，得到各个被测视频帧的水印指示；

从N个水印指示中选择M个水印指示进行时域联合判别处理，得到目标视频的水印数据，其中M为大于1的整数且M≤N。

另一方面，本申请实施例提供一种视频处理装置，该视频处理装置设于视频处理设备内，该视频处理装置包括：

获取单元，用于获取待处理的目标视频；

处理单元，用于从目标视频中抽取帧序列，帧序列包括N个被测视频帧，N为大于1的整数；调用水印检测模型对帧序列进行水印检测，得到各个被测视频帧的水印指示；以及从N个水印指示中选择M个水印指示进行时域联合判别处理，得到目标视频的水印数据，其中M为大于1的整数且M≤N。

在一种实现方式中，目标视频包括N个图像组，每个图像组包含多个连续的视频帧，每个图像组中的第一个视频帧为关键帧，被测视频帧为图像组中的关键帧；

处理单元，具体用于：

获取目标视频的视频帧数据流；

从目标视频的视频帧数据流中分别抽取N个图像组中的N个关键帧，得到帧序列。

在一种实现方式中，目标视频包括多个场景，每个场景包括多个连续的视频帧；

处理单元，具体用于：

获取目标视频的任一场景对应的视频帧数据流；

从任一场景对应的视频帧数据流中抽取N个视频帧，得到帧序列。

在一种实现方式中，M个水印指示中的第i个水印指示包括至少一个指示框和每个指示框的置信度，指示框用于指示水印位置和水印类别；其中，i为大于1的整数且i≤M；

处理单元，还用于从M个水印指示中筛选出候选框，其中，候选框是指置信度大于置信阈值的指示框。

在一种实现方式中，处理单元，具体用于：

将M个水印指示中的候选框投影至同一检测平面；

在检测平面内获取各个候选框之间的重叠度；

采用水印过滤算法对各个候选框之间的重叠度进行筛选，得到目标指示框，目标指示框用于指示目标视频的水印数据，目标视频的水印数据包括目标视频的水印位置和目标视频的水印类别。

在一种实现方式中，处理单元，还用于：

获取第一检测模型和水印图片集，水印图片集中包括多张带水印的训练图片；以及，

获取水印样本视频，水印样本视频包括多个样本视频帧，每个样本视频帧包含水印和水印的标注信息；

采用水印图片集对第一检测模型进行训练，得到第二检测模型；

对第二检测模型进行裁剪，并采用水印样本视频对裁剪后的第二检测模型进行优化，得到水印检测模型。

在一种实现方式中，处理单元，具体用于：

获取图片集合和水印模板集合，图片集合中包括多张图片，水印模板集合中包括多个水印模板；

将图片集合和水印模板集合进行多尺度融合，得到水印图片集。

在一种实现方式中，目标视频的水印数据包括目标视频的水印类别，目标视频的水印类别用于标示目标视频所属的应用程序；

获取单元，具体用于：

显示目标应用程序的服务页面，服务页面中包含视频处理选项；

当视频处理选项被选择时，在服务页面中获取待处理的目标视频；

处理单元，还用于若目标视频的水印类别标示目标视频不属于目标应用程序，在服务页面中输出提示信息，提示信息用于提示目标视频不允许被处理。

处理单元，还用于若目标视频的水印类别标示目标视频属于目标应用程序，将目标视频和目标视频的水印数据上传至目标应用程序对应的云端服务器中进行存储。

另一方面，本申请实施例提供一种视频处理设备，该视频处理设备包括：

处理器，适于实现计算机指令；以及，

计算机可读存储介质，该计算机可读存储介质存储有计算机指令，计算机指令适于由处理器加载并执行上述的视频处理方法。

另一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上述的视频处理方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的视频处理方法。

本申请实施例中，先通过水印检测模型对获取到的待处理的目标视频的帧序列进行水印检测，得到帧序列中的各个被测视频帧的水印指示；然后从这些水印指示中选择部分或全部进行时域联合判别处理，得到目标视频的水印数据，目标视频的水印数据包括目标视频的水印位置和目标视频的水印类别。上述过程中，通过对目标视频的帧序列包含的多个被测视频帧进行多帧联合检测、联合处理，有效减少计算冗余，提升视频水印检测效率，提高视频水印检测结果的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a示出了本申请一个示例性实施例提供的一种包含视频水印的视频帧画面示意图；

图1b示出了本申请另一个示例性实施例提供的一种包含视频水印的视频帧画面示意图；

图1c示出了本申请一个示例性实施例提供的一种视频水印位置变化的示意图；

图2示出了本申请一个示例性实施例提供的一种视频处理系统的架构示意图；

图3a示出了本申请一个示例性实施例提供的一种服务页面的示意图；

图3b示出了本申请另一个示例性实施例提供的一种服务页面的示意图；

图3c示出了本申请另一个示例性实施例提供的一种服务页面的示意图；

图3d示出了本申请另一个示例性实施例提供的一种服务页面的示意图；

图3e示出了本申请另一个示例性实施例提供的一种服务页面的示意图；

图4示出了本申请一个示例性实施例提供的一种视频处理方法的流程示意图；

图5a示出了本申请一个示例性实施例提供的一种帧序列抽取方法的流程示意图；

图5b示出了本申请一个示例性实施例提供的一种指示框的示意图；

图5c示出了本申请一个示例性实施例提供的一种目标指示框的确定方法的示意图；

图5d示出了本申请一个示例性实施例提供的一种重叠度计算方法的示意图；

图6示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图；

图7a示出了本申请一个示例性实施例提供的一种检测模型的网络结构示意图；

图7b示出了本申请另一个示例性实施例提供的一种检测模型的网络结构示意图；

图7c示出了本申请一个示例性实施例提供的一种水印图片集的生成方法的流程示意图；

图7d示出了本申请一个示例性实施例提供的一种模型性能数据列表的示意图；

图8示出了本申请一个示例性实施例提供的一种视频处理装置的结构示意图；

图9示出了本申请一个示例性实施例提供的一种视频处理设备的结构示意图。

具体实施

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种视频处理方案，该方案涉及人工智能、云计算、计算机视觉、机器学习等技术，其中:

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习(深度学习)等几大方向。

云计算(Cloud Computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取、按需使用、随时扩展、按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台)，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在云计算资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分，在IaaS层上可以部署PaaS(Platform as a Service，平台即服务)层，PaaS层之上再部署SaaS(Software as a Service，软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件(例如数据库、web容器等)运行的平台。SaaS为各式各样的业务软件(例如web门户网站、短信群发器等)。一般来说，SaaS和PaaS相对于IaaS是上层。

计算机视觉(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学文字识别)技术、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

另外，本申请实施例涉及视频水印，视频水印是指在视频中添加的标识或图标。视频水印具有以下特点：

(1)视频水印通常为图形、文字、图形和文字的组合形式等；

(2)为了不影响视频主体内容的观看，视频水印一般位于视频帧画面中的左上位置、左下位置、右上位置、右下位置等等；如图1a所示，图1a示出了本申请一个示例性实施例提供的一种包含视频水印的视频帧画面示意图，视频水印11为图形，该视频水印位于视频帧画面的右下位置；如图1b所示，图1b示出了本申请另一个示例性实施例提供的一种包含视频水印的视频帧画面示意图，视频水印12为图形和文字的组合形式，该视频水印位于视频帧画面的右上位置；

(3)视频水印的位置具有时域不变性的特点。也就是说，在一定时域空间内，视频水印在视频中的位置一般是固定不变的；在一种实现方式中，视频水印在整个视频文件的所有视频帧中的位置均保持固定不变；在另一种实现方式中，视频水印位置会随着视频场景的切换而发生变化，但是视频水印在视频的某一场景下的所有视频帧中的位置保持固定不变。如图1c所示，图1c示出了本申请一个示例性实施例提供的一种视频水印位置变化的示意图，视频由场景1切换为场景2，视频水印的水印位置由第一位置13切换为第二位置14。

基于上述描述，请参见图2，图2示出了本申请一个示例性实施例提供的一种视频处理系统的架构示意图，该视频处理系统20包括终端201和服务器202。其中，终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此；服务器202可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器，本申请实施例在此不作限制。终端201与服务器202可以通过有线通信或者无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。下面将结合具体的应用场景，对本申请实施例提供的视频处理方案进行介绍。

(1)由终端201对视频进行水印检测：

在一种实现方式中，终端可以支持各种应用程序的安装及运行，此处的应用程序例如可以包括但不限于即时通信应用程序、视频服务应用程序、音频服务应用程序、游戏应用程序等等。目标应用程序是终端中的任一个应用程序，目标应用程序可以包括多个服务页面；如图3a所示，图3a示出了本申请一个示例性实施例提供的一种服务页面的示意图，终端显示目标应用程序的服务页面，待处理的目标视频显示于服务页面中，服务页面中包含视频处理选项31(如图3a所示的裁剪选项、滤镜选项、音乐选项、互动选项、贴纸选项、特效选项中的任一个)；当视频处理选项被选择时(如图3a所示，终端用户点击裁剪选项)，终端在服务页面获取待处理的目标视频；终端对目标视频进行水印检测，得到目标视频的水印数据，目标视频的水印数据可以包括目标视频的水印类别，目标视频的水印类别可以用于标示目标视频所属的应用程序，例如目标视频的水印类别是“XX视频”，该水印类别标示该目标视频是属于XX视频应用程序中的视频文件；若目标视频的水印类别标示目标视频不属于该目标应用程序，终端在服务页面中输出提示信息32，该提示信息用于提示目标视频不允许被处理(如图3a所示，该提示信息用于提示目标视频不允许被编辑)；若目标视频的水印类别标示目标视频属于该目标应用程序，终端根据选择的视频处理选项对目标视频进行处理，例如终端根据选择的裁剪选项对目标视频进行裁剪，终端根据选择的音乐选项向目标视频中添加音乐等。

在另一种实现方式中，如图3b所示，图3b示出了本申请另一个示例性实施例提供的一种服务页面的示意图，终端显示目标应用程序的服务页面，服务页面中包含视频处理选项31(如图3b所示的上传选项)和视频地址输入框33，视频地址输入框中可以输入目标视频的视频地址；当视频处理选项被选择时(如图3b所示，终端用户点击上传选项)，终端通过目标视频的视频地址在服务页面获取该目标视频，并将目标视频显示于服务页面中；终端对目标视频进行水印检测，得到目标视频的水印数据，目标视频的水印数据可以包括目标视频的水印类别，目标视频的水印类别可以用于标示目标视频所属的应用程序；若目标视频的水印类别标示目标视频不属于该目标应用程序，终端在服务页面中输出提示信息32，该提示信息用于提示目标视频不允许被处理(如图3b所示，该提示信息用于提示目标视频不允许被上传)；若目标视频的水印类别标示目标视频属于目标应用程序，终端可以将目标视频和目标视频的水印数据上传至目标应用程序对应的云端服务器(即上述服务器202)中进行存储，如图3c所示，图3c示出了本申请另一个示例性实施例提供的一种服务页面的示意图，终端还可以在服务页面中输出提示信息32，该提示信息用于提示该目标视频已被处理(如图3c所示，该提示信息用于提示目标视频已被成功上传)。

(2)由服务器202对视频进行水印检测：

在一种实现方式中，终端可以通过目标应用程序的服务页面访问该目标应用程序对应的服务器。如图3d所示，图3d示出了本申请另一个示例性实施例提供的一种服务页面的示意图，服务页面可以包括视频搜索选项34和视频标签输入框35，视频标签输入框中可以输入视频标签；当视频搜索选项被选择时(如图3d所示，终端用户点击视频搜索选项)，终端获取输入该视频标签输入框的视频标签(如图3d所示的视频标签输入框中的视频标签“小猪”)；终端将该视频标签发送至服务器；服务器在该服务器的数据库中获取与该视频标签相关的至少一个视频，目标视频为服务器获取到的与该视频标签相关的任一个视频，所谓与视频标签相关的视频可以理解为该视频的视频标题中包含该视频标签，或者该视频的视频简介中包含该视频标签等；服务器对该目标视频进行水印检测，得到目标视频的水印数据，目标视频的水印数据可以包括目标视频的水印类别，目标视频的水印类别可以用于标示目标视频所属的应用程序；若目标视频的水印类别标示目标视频属于该目标应用程序，服务器将目标视频发送至终端，终端在服务页面中显示该目标视频(如图3d所示的视频标题为小猪的视频)；若目标视频的水印类别标示目标视频不属于该目标应用程序，如图3e所示，图3e示出了本申请另一个示例性实施例提供的一种服务页面的示意图，终端在服务页面中输出提示信息32，该提示信息用于提示目标应用程序的服务器中不存在与该视频标签相关的视频。

在另一种实现方式中，目标应用程序的服务器还可以对服务器的数据库中存储的视频进行周期性水印检测，将水印类别不属于目标应用程序的视频从服务器的数据库中删除。例如，目标应用程序的服务器每间隔7天对服务器的数据库中存储的视频进行水印检测，将水印类别不属于目标应用程序的视频从服务器的数据库中删除，实现服务器的存储优化。

本申请实施例中，终端对待处理的目标视频进行水印检测，得到目标视频的水印数据，目标视频的水印数据包括目标视频的水印类别；终端根据目标视频的水印类别判断是否对目标视频进行处理，若目标视频的水印类别指示目标视频属于目标应用程序，终端对目标视频进行处理，若目标视频的水印类别指示目标视频不属于目标应用程序，终端输出用于提示目标视频不允许被处理的提示信息，由于视频水印涉及视频版权保护，因此通过对目标视频进行水印检测能够降低终端的法律风险。另外，服务器还可以通过视频的水印数据对该服务器中存储的视频进行筛选与过滤，实现服务器的视频存储优化。

可以理解的是，本申请实施例描述的视频处理系统是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参见图4，图4示出了本申请一个示例性实施例提供的一种视频处理方法的流程示意图，该方法可以由图2所示实施例中的终端201或服务器202执行，本申请实施例以终端201执行该视频处理方法为例进行说明，该视频处理方法包括以下步骤S401至步骤S404：

步骤S401，获取待处理的目标视频。

步骤S402，从目标视频中抽取帧序列。终端从目标视频中抽取帧序列，其中，帧序列包括N个被测视频帧，N为大于1的整数。

在一种实现方式中，目标视频包括N个图像组(Group of Pictures，GOP)，每个GOP包含多个连续的视频帧，每个GOP中的第一个视频帧为关键帧，被测视频帧是每个GOP中的关键帧。在目标视频的任一个GOP中，关键帧包含该GOP内最完整的视频信息，并且关键帧的画面质量高于该GOP中其他视频帧的画面质量。如图5a所示，图5a示出了本申请一个示例性实施例提供的一种帧序列抽取方法的流程示意图，终端通过视频处理工具对目标视频进行解码，得到目标视频的视频帧数据流；终端从目标视频的视频帧数据流中分别抽取N个GOP中的N个关键帧，得到帧序列。这种抽帧方式可以应用于视频水印在整个视频的所有视频帧中的水印位置固定不变的场景中，关键帧具有画面质量高、画面信息完整的特点，通过抽取目标视频的关键帧进行水印检测，可以有效减少水印检测冗余，提升水印检测效率，提高水印检测结果的准确率。

在另一种实现方式中，目标视频包括多个场景，每个场景包括多个连续的视频帧。终端将目标视频划分为多个视频片段，每一个视频片段对应一个场景；终端通过视频处理工具对任一场景的视频片段进行解码，得到该视频片段的视频帧数据流；终端从该视频片段的视频帧数据流中抽取N个视频帧，得到帧序列，抽取的N个视频帧中可以包括关键帧和除关键帧之外的其他视频帧。这种抽帧方式可以应用于视频水印的水印位置随视频场景的切换而变化，且视频水印在视频的某一场景下的所有视频帧中的位置保持固定不变的场景中。

其中，本申请实施例以视频处理工具是FFmpeg(一种多媒体处理工具)工具为例进行说明，FFmpeg工具是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

步骤S403，调用水印检测模型对帧序列进行水印检测，得到各个被测视频帧的水印指示。

在一种实现方式中，终端调用水印检测模型对帧序列进行水印检测，得到帧序列中各个被测视频帧的水印指示，即得到N个水印指示；每个水印指示用于指示对应的被测视频帧中是否包含水印；进一步地，如果某个被测视频帧包含水印，那么该被测视频帧的水印指示包括至少一个指示框和每个指示框的置信度，指示框用于指示该被测视频帧的水印位置和水印类别。如图5b所示，图5b示出了本申请一个示例性实施例提供的一种指示框的示意图，指示框在被测视频帧中的位置标示水印位置，如图5b所示，该指示框为矩形框，该指示框的的四个顶点的坐标位置分别为(x1，y1)、(x1，y2)、(x2，y1)和(x2，y2)，此四个顶点可以唯一确定该指示框在被测视频帧中的位置，从而指示被测视频帧中的水印位置。可以理解的是，指示框用于将被测视频帧中的水印进行容纳，该指示框为矩形仅为举例，该指示框也可以是圆形，椭圆形或不规则形状等等，本申请实施例并不对此进行限定。另外，指示框内的图片、文字、图片和文字的组合所对应的类别指示被测视频帧的水印类别；例如，指示框内的图片是XX视频应用程序的logo(标志)，则指示该被测视频帧的水印类别是“XX视频”。

在一种实现方式中，水印检测模型是采用多张带水印的训练图片对初始检测模型进行训练得到的，水印检测模型的具体训练过程可以参见图6所示实施例的描述，在此不再赘述。

步骤S404，从N个水印指示中选择M个水印指示进行时域联合判别处理，得到目标视频的水印数据，其中M为大于1的整数且M≤N。

在一种实现方式中，终端从N个水印指示中选择M个水印指示的方式可以是：在N个水印指示中，如果存在M个水印指示包含指示框和置信度，则终端可直接选择该M个水印指示进行时域联合判别处理。

在另一种实现方式中，终端从N个水印指示中选择M个水印指示的方式还可以是：在N个水印指示中，如果存在大于M个水印指示包含指示框和置信度，则从该N个水印指示中随机选择M个水印指示进行时域联合判别处理；或者按照各个水印指示对应的被测视频帧在帧序列中的排列顺序，依次从N个水印指示中选择M个水印指示进行时域联合判别处理。

在一种实现方式中，终端可以根据置信阈值从M个水印指示中筛选出候选框；以M个水印指示中的第i个被测视频帧的水印指示为例，i为大于1的整数且i小于等于M；终端从第i个被测视频帧的水印指示中筛选出候选框，筛选出的候选框是第i个被测视频帧的水印指示中置信度大于置信阈值的指示框；其中，置信阈值可以根据经验值设定，例如置信阈值可以设置为0.5；终端可以对从各个被测视频帧的水印指示筛选出的候选框进行时域联合判别处理，得到目标视频的水印数据。

在一种实现方式中，步骤S404可以包括以下子步骤S4041至子步骤S4043：

子步骤S4041，将M个水印指示中的候选框投影至同一检测平面。

子步骤S4042，在检测平面内获取各个候选框之间的重叠度。

子步骤S4043，采用水印过滤算法对各个候选框之间的重叠度进行筛选，得到目标指示框，目标指示框用于指示目标视频的水印数据。

如图5c所示，图5c示出了本申请一个示例性实施例提供的一种目标指示框的确定方法的示意图，终端将M个水印指示中的候选框投影至同一检测平面，并在检测平面内从各个候选框中确定目标指示框51，目标指示框用于指示目标视频的水印数据，目标视频的水印数据包括目标视频的水印位置和目标视频的水印类别，目标指示框指示的水印位置为目标视频的水印位置，目标指示框指示的水印类别为目标视频的水印类别。

子步骤S4042至子步骤S4043中，终端采用水印过滤算法进行重叠度筛选的具体实施方式可以为：①在各个候选框中确定目标候选框，在检测平面内目标候选框的置信度大于其他候选框的置信度；②分别计算检测平面内除目标候选框之外的各个候选框与目标候选框之间的IOU(Intersection over Union，重叠度)，所谓IOU是指任一个候选框与目标候选框重叠的面积占目标候选框的面积的比例；如图5d所示，图5d示出了本申请一个示例性实施例提供的一种重叠度计算方法的示意图，任一个候选框与目标候选框重叠部分的面积为A，目标候选框的面积为B，则任一个候选框与目标候选框之间的重复度为A/B(即B分之A)；③若第一候选框与目标候选框的IOU大于IOU阈值，将目标候选框的计数值加1，并将第一候选框从检测平面内删除；若第一候选框与目标候选框的重叠度小于或者等于重叠度阈值，在检测平面内保留第一候选框；其中，第一候选框是检测平面内除目标候选框之外的任一个候选框，IOU阈值可以根据经验值设定，例如IOU阈值可以设定为0.8；④在检测平面内对剩余的候选框重复上述步骤①至步骤③的操作，得到目标候选框集合，目标候选框集合中包括至少一个目标候选框。其中，本申请实施例以水印过滤算法为NMS(Non-MaximumSuppression，非极大值抑制)算法为例进行说明。

在一种实现方式中，若目标候选框集合包括一个目标候选框，终端可以确定该目标候选框为目标指示框。

在一种实现方式中，若目标候选框集合包括多个目标候选框，终端可以计算每个目标候选框的计数值与被测视频帧的数量的比值；终端可以确定比值大于计数阈值的目标候选框为目标指示框；其中，计数阈值可以根据经验值设定，例如，计数阈值可以设置为0.5。例如，目标候选框集合包括2个目标候选框(即第一目标候选框和第二目标候选框)，第一目标候选框的计数值为3，第二目标候选框的计数值为99，被检测视频帧的数量为100帧，第一目标候选框的计数值与被测视频帧的数量的比值为0.03，第二目标候选框的计数值与被测视频帧的数量的比值为0.99，第二目标候选框的计数值与被测视频帧的数量的比值大于计数阈值，终端确定第二目标候选框为目标指示框。

本申请实施例中，根据目标视频的水印位置的变化情况设置了不同的抽帧方式，对于目标视频的水印位置在整个视频文件中固定不变的情况，抽取目标视频中的关键帧进行水印检测，关键帧具有画面质量高、画面信息完整的特点，通过抽取目标视频的关键帧进行水印检测，可以有效减少水印检测冗余，提高水印检测效率和水印检测结果的准确率；对于目标视频的水印位置的变化的情况，按照场景将目标视频分为不同的视频片段，从每一个视频片段中抽取视频帧，对视频片段进行分段处理，提供了灵活的抽帧方式，提高水印检测结果的准确率；通过水印检测模型对获取到的待处理的目标视频的帧序列进行水印检测，得到帧序列中的各个被测视频帧的水印指示；然后对这些水印指示中的全部或部分进行时域联合判别处理，得到目标视频的水印数据，目标视频的水印数据包括目标视频的水印位置和目标视频的水印类别；上述过程中，通过对目标视频的帧序列包含的多个被测视频帧进行联合检测、联合处理，有效减少计算冗余，提升视频水印检测效率，提高视频水印检测结果的准确率。对目标视频的帧序列包含的多个被测视频帧进行多帧联合检测、联合处理的过程中，通过设定IOU阈值、计数阈值等多个约束条件，进一步提高了视频水印检测结果的准确率。

请参见图6，图6示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图，该方法可以由图2所示实施例中的终端201或服务器202执行，本申请实施例以终端201执行该视频处理方法为例进行说明，该视频处理方法包括以下步骤S601至步骤605：

步骤S601，获取第一检测模型。

在一种实现方式中，第一检测模型可以为单阶段检测器YOLO(You Only LookOnce，一种目标检测模型)模型，本申请实施例以第一检测模型是YOLO模型的第三版YOLOv3模型为例进行说明，第一检测模型还可以是YOLO模型的其他版本，例如第一检测模型是YOLO模型的第二版YOLOv2模型，第一检测模型是YOLO模型的第一版YOLOv1等，本申请实施例对此不作限定。图7a示出了YOLOv3模型的网络结构图，YOLOv3模型包括基于残差块的特征抽取模块和基于上采样层、检测层的多尺度融合检测模块。图7b示出了YOLOv3模型的特征提取模块的网络结构图，长方形框71框选的部分为残差组件的数量，例如“8”表示该特征提取模块使用的残差组件的数量为8个；图7b所示网络结构图的第一列为网络层类型(Type)，网络层类型可包括卷积层(Convolutional)、残差层(Residual)、池化层(Avgpool)、连接层(Connected)和逻辑回归(Softmax)；第二列(即长方形框72框选的部分)为过滤器(Filters)的数量，例如“256”表示该特征提取模块使用的过滤器的数量为256个；第三列和第四列分别为各个网络层的尺度(Size)和网络各个网络层的输出(Output)。

步骤S602，获取水印图片集。

在一种实现方式中，水印图片集的获取方法可参见图7c，图7c示出了本申请一个示例性实施例提供的一种水印图片集的生成方法的流程示意图，终端获取图片集合和水印模板集合，图片集合中包括多张图片，水印模板集合中包括多个水印模板；终端通过视频处理工具(例如上述FFmpeg工具)对图片集合和水印模板集合进行多尺度融合，得到水印图片集。

在一种实现方式中，终端通过视频处理工具(例如上述FFmpeg工具)对图片集合和水印模板集合进行多尺度融合的过程中，终端可以通过FFmpeg工具的scale(尺度)功能将水印模板的尺寸范围控制在[P，Q]内，即水印模板的宽大于或等于P，水印模板的长小于或等于Q，还可以通过FFmpeg工具的Stride(步长)参数在尺寸范围[P，Q]内生成多个尺寸的水印模板；终端还可以通过FFmpeg工具的scale(尺度)功能将水印模板的分辨率范围控制在[R，S]内，还可以通过FFmpeg工具的Stride(步长)参数在分辨率范围[R，S]内生成多种分辨率的水印模板。其中，P、Q、R、S均为经验值，其值可以根据实际需要进行设定。

步骤S603，获取水印样本视频。

水印样本视频可以包括多个样本视频帧，每个样本视频帧包含水印和水印的标注信息，水印的标注信息包括水印位置和水印类别。

步骤S604，采用水印图片集对第一检测模型进行训练，得到第二检测模型。

步骤S605，对第二检测模型进行裁剪，并采用水印样本视频对裁剪后的第二检测模型进行优化，得到水印检测模型。

在一种实现方式中，终端对第二检测模型的裁剪可以通过下采样处理实现。具体地，终端可以对第二检测模型的特征抽取模块进行模型容量下采样处理，例如，对图7b所示的网络结构图中长方形框72框选的过滤器数量进行下采样，下采样倍数可以通过经验值设定，例如下采样倍数可以设置为4倍。通过对模型容量进行压缩与裁剪，可以提升模型的训练效率，在使用模型进行检测过程中可以提升模型的检测效率。终端还可以采用水印样本视频对裁剪后的第二检测模型的模型参数进行优化与调整，得到水印检测模型，通过水印样本视频对模型进行微调，可以消除真实业务场景的水印样本视频与生成的训练数据(即水印图片集)之间的数据域偏差，可以进一步提升模型检测时的准确率。

如图7d所示，图7d示出了本申请一个示例性实施例提供的一种模型性能数据列表的示意图，该模型性能数据列表的第一列为不同类别的水印，第二列为对每一个类别的水印进行检测时的AP(Average Precision，平均精度)，由此可以看出，该使用水印检测模型进行水印检测时的平均精度较高，该水印检测模型具有较好地检测性能。

本申请实施例中，针对缺乏训练数据的问题，采用生成训练数据(即水印图片集)的方式进行模型的预训练，提高模型训练效率；通过真实业务场景的水印样本视频对模型进行微调，有效消除数据域内的偏差，提升模型训练的精度；在水印检测模型的训练过程中，对模型容量进行下采样处理，提高模型训练效率和使用模型进行水印检测时的检测效率，降低了模型的硬件要求。

请参见图8，图8示出了本申请一个示例性实施例提供的一种视频处理装置的结构示意图，该视频处理装置80可以是运行于终端201中的一个计算机程序(包括程序代码)，例如可以是终端201中的一个应用软件，也可以是运行于服务器202中的一个计算机程序(包括程序代码)，例如可以是服务器202中的一个应用软件；该视频处理装置80可以用于执行图4或图6所示的方法中的相应步骤。请参见图8，该视频处理装置80包括如下单元：

获取单元801，用于获取待处理的目标视频；

处理单元802，用于：

从N个水印指示中选择M个进行时域联合判别处理，得到目标视频的水印数据。

处理单元802，具体用于：

获取目标视频的视频帧数据流；

处理单元802，具体用于：

获取目标视频的任一场景对应的视频帧数据流；

处理单元802，还用于从M水印指示中筛选出候选框，其中，候选框是指置信度大于置信阈值的指示框。

在一种实现方式中，处理单元802，具体用于：

将M个水印指示中的候选框投影至同一检测平面；

在检测平面内获取各个候选框之间的重叠度；

在一种实现方式中，处理单元802，还用于：

在一种实现方式中，处理单元802，具体用于：

获取单元801，具体用于：

处理单元802，还用于若目标视频的水印类别标示目标视频不属于目标应用程序，在服务页面中输出提示信息，提示信息用于提示目标视频不允许被处理。

处理单元802，还用于若目标视频的水印类别标示目标视频属于目标应用程序，将目标视频和目标视频的水印数据上传至目标应用程序对应的云端服务器中进行存储。

根据本申请的一个实施例，图8所示的视频处理装置80中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该视频处理装置80也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图4或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的视频处理装置80，以及来实现本申请实施例的视频处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述终端201或者服务器202中，并在其中运行。

本申请实施例中，先通过水印检测模型对获取到的待处理的目标视频的帧序列进行水印检测，得到帧序列中的各个被测视频帧的水印指示；然后对各个这些水印指示中的全部或部分进行时域联合判别处理，得到目标视频的水印数据，目标视频的水印数据包括目标视频的水印位置和目标视频的水印类别。上述过程中，通过对目标视频的帧序列包含的多个被测视频帧进行多帧联合检测、联合处理，有效减少计算冗余，提升视频水印检测效率，提高视频水印检测结果的准确率。

请参见图9，图9示出了本申请一个示例性实施例提供的一种视频处理设备的结构示意图，该视频处理设备90至少包括处理器901以及计算机可读存储介质902。其中，处理器901以及计算机可读存储介质902可通过总线或者其它方式连接。计算机可读存储介质902可以存储在存储器中，计算机可读存储介质902用于存储计算机程序，计算机程序包括计算机指令，处理器901用于执行计算机可读存储介质902存储的计算机指令。处理器901(或称CPU(Central Processing Unit，中央处理器))是视频处理设备90的计算核心以及控制核心，其适于实现计算机指令，具体适于加载并执行计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是视频处理设备90中的记忆设备，用于存放计算机程序和数据。可以理解的是，此处的计算机可读存储介质902既可以包括视频处理设备90中的内置存储介质，当然也可以包括视频处理设备90所支持的扩展存储介质。计算机可读存储介质902提供存储空间，该存储空间存储了视频处理设备90的操作系统。并且，在该存储空间中还存放了适于被处理器901加载并执行的计算机指令，这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质902可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器901的计算机可读存储介质。

在一种实现方式中，该视频处理设备90可以是图2所示的终端201或者服务器202；该计算机可读存储介质902中存储有计算机指令；由处理器901加载并执行计算机可读存储介质902中存储的计算机指令，以实现上述视频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质902中的计算机指令由处理器901加载并执行如下步骤：

获取待处理的目标视频；

从N个水印指示选择M个水印指示进行时域联合判别处理，得到目标视频的水印数据。

计算机可读存储介质902中的计算机指令由处理器901加载时，具体用于执行如下步骤：

获取目标视频的视频帧数据流；

获取目标视频的任一场景对应的视频帧数据流；

计算机可读存储介质902中的计算机指令由处理器901加载时，还用于执行如下步骤：从M个水印指示中筛选出候选框，其中，候选框是指置信度大于置信阈值的指示框。

在一种实现方式中，计算机可读存储介质902中的计算机指令由处理器901加载时，具体用于执行如下步骤：

将M个水印指示中的候选框投影至同一检测平面；

在检测平面内获取各个候选框之间的重叠度；

在一种实现方式中，计算机可读存储介质902中的计算机指令由处理器901加载时，还用于执行如下步骤：

计算机可读存储介质902中的计算机指令由处理器901加载时，还用于执行如下步骤：若目标视频的水印类别标示目标视频不属于目标应用程序，在服务页面中输出提示信息，提示信息用于提示目标视频不允许被处理。

计算机可读存储介质902中的计算机指令由处理器901加载时，还用于执行如下步骤：若目标视频的水印类别标示目标视频属于目标应用程序，将目标视频和目标视频的水印数据上传至目标应用程序对应的云端服务器中进行存储。

本申请实施例中，先通过水印检测模型对获取到的待处理的目标视频的帧序列进行水印检测，得到帧序列中的各个被测视频帧的水印指示；然后对这些水印指示中的全部或部分进行时域联合判别处理，得到目标视频的水印数据，目标视频的水印数据包括目标视频的水印位置和目标视频的水印类别。上述过程中，通过对目标视频的帧序列包含的多个被测视频帧进行多帧联合检测、联合处理，有效减少计算冗余，提升视频水印检测效率，提高视频水印检测结果的准确率。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选方式中提供的视频处理方法。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取待处理的目标视频；

从所述目标视频中抽取帧序列，所述帧序列包括N个被测视频帧，N为大于1的整数；

调用水印检测模型对所述帧序列进行水印检测，得到各个所述被测视频帧的水印指示；

从N个水印指示中选择M个水印指示，M为大于1的整数且M≤N；所述M个水印指示中的第i个水印指示包括至少一个指示框和每个指示框的置信度，其中，i为大于1的整数且i≤M；

从所述M个水印指示中筛选出候选框，其中，所述候选框是指置信度大于置信阈值的指示框；

将所述M个水印指示中的候选框投影至同一检测平面；

在所述检测平面内获取各个候选框之间的重叠度；

在各个候选框中确定目标候选框，在所述检测平面内所述目标候选框的置信度大于其他候选框的置信度；

分别计算所述检测平面内除所述目标候选框之外的各个候选框与所述目标候选框之间的重叠度；

若第一候选框与所述目标候选框的重叠度大于重叠度阈值，将所述目标候选框的计数值加1，并将所述第一候选框从检测平面内删除；所述第一候选框是所述检测平面内除所述目标候选框之外的任一个候选框；

若所述第一候选框与所述目标候选框的重叠度小于或等于重叠度阈值，在所述检测平面内保留所述第一候选框；

在所述检测平面对剩余候选框执行与所述第一候选框相同的操作，得到目标候选框集合，所述目标候选框集合中包括多个目标候选框；

计算每个目标候选框的计数值与所述被测视频帧的数量的比值；

将比值大于计数阈值的目标候选框确定为目标指示框，所述目标指示框用于指示所述目标视频的水印数据。

2.根据权利要求1所述的方法，其特征在于，所述目标视频包括N个图像组，每个图像组包含多个连续的视频帧，每个图像组中的第一个视频帧为关键帧，所述被测视频帧为所述图像组中的关键帧；所述从所述目标视频中抽取帧序列，包括：

获取所述目标视频的视频帧数据流；

从所述目标视频的视频帧数据流中分别抽取所述N个图像组中的N个关键帧，得到所述帧序列。

3.根据权利要求1所述的方法，其特征在于，所述目标视频包括多个场景，每个场景包括多个连续的视频帧；所述从所述目标视频中抽取帧序列，包括：

获取所述目标视频的任一场景对应的视频帧数据流；

从所述任一场景对应的视频帧数据流中抽取N个视频帧，得到所述帧序列。

4.根据权利要求1所述的方法，其特征在于，所述指示框用于指示水印位置和水印类别。

5.根据权利要求4所述的方法，其特征在于，所述目标视频的水印数据包括所述目标视频的水印位置和所述目标视频的水印类别。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一检测模型和水印图片集，所述水印图片集中包括多张带水印的训练图片；以及，

获取水印样本视频，所述水印样本视频包括多个样本视频帧，每个样本视频帧包含水印和所述水印的标注信息；

采用所述水印图片集对所述第一检测模型进行训练，得到第二检测模型；

对所述第二检测模型进行裁剪，并采用所述水印样本视频对裁剪后的第二检测模型进行优化，得到所述水印检测模型。

7.根据权利要求6所述的方法，其特征在于，所述获取水印图片集，包括：

获取图片集合和水印模板集合，所述图片集合中包括多张图片，所述水印模板集合中包括多个水印模板；

将所述图片集合和所述水印模板集合进行多尺度融合，得到所述水印图片集。

8.根据权利要求1所述的方法，其特征在于，所述目标视频的水印数据包括所述目标视频的水印类别，所述目标视频的水印类别用于标示所述目标视频所属的应用程序；所述获取待处理的目标视频，包括：

显示目标应用程序的服务页面，所述服务页面中包含视频处理选项；

当所述视频处理选项被选择时，在所述服务页面中获取所述待处理的目标视频；

所述方法还包括：

若所述目标视频的水印类别标示所述目标视频不属于所述目标应用程序，在所述服务页面中输出提示信息，所述提示信息用于提示所述目标视频不允许被处理。

9.根据权利要求1所述的方法，其特征在于，所述目标视频的水印数据包括所述目标视频的水印类别，所述目标视频的水印类别用于标示所述目标视频所属的应用程序；所述方法还包括：

若所述目标视频的水印类别标示所述目标视频属于所述目标应用程序，将所述目标视频和所述目标视频的水印数据上传至所述目标应用程序对应的云端服务器中进行存储。

10.一种视频处理装置，其特征在于，所述视频处理装置包括：

获取单元，用于获取待处理的目标视频；

处理单元，用于：

将所述M个水印指示中的候选框投影至同一检测平面；

在所述检测平面内获取各个候选框之间的重叠度；

11.一种视频处理设备，其特征在于，所述视频处理设备包括：

处理器，适于实现计算机指令；以及，

计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令适于由所述处理器加载并执行如权利要求1至9任一项所述的视频处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令适于由处理器加载并执行如权利要求1至9任一项所述的视频处理方法。