CN115018783A

CN115018783A - 一种视频水印检测方法和装置、电子设备和存储介质

Info

Publication number: CN115018783A
Application number: CN202210612329.8A
Authority: CN
Inventors: 赵瑞书
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-06

Abstract

本申请涉及一种视频水印检测方法和装置、电子设备和存储介质，其中，方法包括：获取用于进行模型训练的训练用图像集，其中，正样本图像为存在视频水印的训练图像，负样本图像为不存在视频水印的训练图像；通过正样本图像和负样本图像对待训练模型进行训练，得到二分类模型；将待检测对象输入二分类模型，得到用于指示待检测对象中是否存在视频水印的检测结果；在检测结果指示待检测对象中存在目标视频水印的情况下，对目标视频水印进行类别检测，确定出待检测对象的类别信息。通过本申请可以克服对不存在预设分类结果所指示的特定内容的图像也进行全面的识别，进而会浪费大量的计算时间以及GPU计算资源的技术问题。

Description

一种视频水印检测方法和装置、电子设备和存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种视频水印检测方法和装置、电子设备和存储介质。

背景技术

随着深度学习技术的发展，深度学习越来越多地被使用在图像识别、文字识别等等技术领域中。

相关技术中，对于图像识别领域中的深度学习技术，为了按照图像中的特定内容对图像进行分类，都是直接将图像输入训练好的模型(用于分类得到预设分类结果的模型)中进行识别，但是，该识别方法会对不存在预设分类结果所指示的特定内容的图像也进行全面的识别，进而会浪费大量的计算时间以及GPU计算资源。

针对相关技术中存在的会对不存在预设分类结果所指示的特定内容的图像也进行全面的识别，进而会浪费大量的计算时间以及GPU计算资源的技术问题，目前尚未提供有效的解决方案。

发明内容

为了解决上述会对不存在预设分类结果所指示的特定内容的图像也进行全面的识别，进而会浪费大量的计算时间以及GPU计算资源的技术问题，本申请提供了一种视频水印检测方法和装置、电子设备和存储介质。

第一方面，本申请实施例提供了一种视频水印检测方法，包括：

获取用于进行模型训练的训练用图像集，其中，所述训练用图像集中包括至少两种水印类型的训练用图像，所述至少两种水印类型的训练用图像中的正样本图像为所述水印类型是视频水印的训练图像，所述至少两种水印类型的训练用图像中的负样本图像为所述水印类型不是视频水印的训练图像；

通过所述正样本图像和负样本图像对待训练模型进行训练，得到二分类模型；

将待检测对象输入所述二分类模型，得到用于指示所述待检测对象中是否存在所述视频水印的检测结果；

在所述检测结果指示所述待检测对象中存在目标视频水印的情况下，对所述目标视频水印进行类别检测，确定出所述待检测对象的类别信息。

可选地，如前述的方法，所述获取用于进行模型训练的训练用图像集，包括：

从预设图像库中获取多个第一正样本图像，其中，每个所述第一正样本图像中存在第一类型的视频水印，所述第一类型的视频水印中包括图像；

从所述预设图像库中获取多个第二正样本图像，其中，每个所述第二正样本图像中存在第二类型的视频水印，所述第二类型的视频水印中只包括文字；

从互联网获取多个第三正样本图像，其中，每个所述第三正样本图像中存在水印，且所述第三正样本图像中存在的水印为非视频水印；

通过预设软件生成多个第四正样本图像，其中，每个所述第四正样本图像中存在水印，且所述第四正样本图像中存在的水印为非视频水印。

可选地，如前述的方法，所述获取用于进行模型训练的训练用图像集，还包括：

获取多个所述负样本图像，其中，每个所述负样本图像中包括预设类型的图像，所述预设类型的图像与所述视频水印满足预设相似度要求，所述负样本图像包括：存在长文本且所述长文本并非为水印的图像。

可选地，如前述的方法，所述通过所述正样本图像和负样本图像对待训练模型进行训练，得到二分类模型，包括：

获取待训练模型；

在所有所述正样本图像中确定出训练用正样本图像以及校验用正样本图像，在所有所述负样本图像中确定出训练用负样本图像以及校验用负样本图像；

通过所述训练用正样本图像以及所述训练用负样本图像对所述待训练模型进行训练后，得到训练后模型；

在通过所述校验用正样本图像和所述校验用负样本图像对所述训练后模型进行校验得到的准确率大于或等于预设准确率的情况下，将所述训练后模型确定为所述二分类模型。

可选地，如前述的方法，在所述将待检测对象输入所述二分类模型，得到用于指示所述待检测对象中是否存在所述视频水印的检测结果之后，所述方法还包括：

在所述检测结果指示所述待检测对象中存在目标视频水印的情况下，确定出所述目标视频水印在所述待检测对象中的位置信息，以及所述目标视频水印的形状信息；

按照所述形状信息生成用于对所述目标视频水印进行遮挡的遮挡层，其中，所述遮挡层能够对所述目标视频水印进行完全覆盖；

将所述遮挡层按照所述位置信息，设于所述待检测对象的上层。

可选地，如前述的方法，所述对所述目标视频水印进行类别检测，确定出所述待检测对象的类别信息，包括：

将所述目标视频水印输入预设的水印分类模型中，并得到由所述水印分类模型输出的、用于指示所述目标视频水印的所述类别信息；

在所述确定出所述待检测对象的类别信息之后，所述方法还包括：

通过建立所述类别信息与所述待检测对象的相关性，确定出所述待检测对象的来源。

可选地，如前述的方法，在所述从预设图像库中获取多个第一正样本图像之前，所述方法还包括：

在目标视频库内的每个候选视频中，提取出至少一帧目标视频帧，其中，所述目标视频库中包括多个所述候选视频；

在所述目标视频帧中包括视频水印的情况下，将所述目标视频帧作为所述候选视频的正样本图像；

将所述正样本图像存储至所述预设图像库中。

第二方面，本申请实施例提供了一种视频水印检测装置，包括：

获取模块，用于获取用于进行模型训练的训练用图像集，其中，所述训练用图像集中包括至少两种水印类型的训练用图像，所述至少两种水印类型的训练用图像中的正样本图像为所述水印类型是视频水印的训练图像，所述至少两种水印类型的训练用图像中的负样本图像为所述水印类型不是视频水印的训练图像；

训练模块，用于通过所述正样本图像和负样本图像对待训练模型进行训练，得到二分类模型；

检测模块，用于将待检测对象输入所述二分类模型，得到用于指示所述待检测对象中是否存在所述视频水印的检测结果；

分类模块，用于在所述检测结果指示所述待检测对象中存在目标视频水印的情况下，对所述目标视频水印进行类别检测，确定出所述待检测对象的类别信息。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现如前述任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行如前任一项所述的方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，可以先对待检测对象进行是否存在视频水印的检测，只有在待检测对象中存在目标视频水印的情况下，才通过对目标视频水印进行类别检测，确定出待检测对象的类别信息，进而可以有效避免对不存在视频水印的对象进行无效分类的情况，只对存在视频水印的对象进行分类，从而可以有效提升分类的效率，克服了相关技术中存在的会对不存在预设分类结果所指示的特定内容的图像也进行全面的识别，进而会浪费大量的计算时间以及GPU计算资源的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频水印检测方法的流程示意图；

图2为本申请另一实施例提供的一种视频水印检测方法的流程示意图；

图3为本申请另一实施例提供的一种视频水印检测方法的流程示意图；

图4为本申请实施例提供的一种视频水印检测装置的框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

根据本申请实施例的一个方面，提供了一种视频水印检测方法。可选地，在本实施例中，上述视频水印检测方法可以应用于由终端和服务器所构成的硬件环境中。服务器通过网络与终端进行连接，可用于为终端或终端上安装的客户端提供服务(如广告推送服务、应用服务等)，可在服务器上或独立于服务器设置图像库，用于为服务器提供图像存储服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端可以并不限定于为PC、手机、平板电脑等。

本申请实施例的视频水印检测方法可以由服务器来执行，也可以由终端来执行，还可以是由服务器和终端共同执行。其中，终端执行本申请实施例的视频水印检测方法也可以是由安装在其上的客户端来执行。

以由服务器来执行本实施例中的视频水印检测方法为例，如图1所示，本申请实施例提供一种视频水印检测方法，包括如下所述步骤：

步骤S101，获取用于进行模型训练的训练用图像集，其中，训练用图像集中包括至少两种水印类型的训练用图像，至少两种水印类型的训练用图像中的正样本图像为水印类型是视频水印的训练图像，至少两种水印类型的训练用图像中的负样本图像为水印类型不是视频水印的训练图像。

本实施例中的视频水印检测方法可以应用于需要在图像中识别出是否存在视频水印的场景，例如：通过识别图像中是否存在视频水印以判断图像来源的场景、对图像中的视频水印进行收集的场景等。本申请实施例中以视频为例说明上述的异常媒体资源检测方法，对于其他类型的媒体资源，在不矛盾的情况下，上述的视频水印检测方法同样适用。

以识别图像中是否存在视频水印的场景为例，通过用于判断图像中是否存在视频水印的二分类模型对图像进行识别，以确定图像中是否存在视频水印。

由于只需获取用于判断图像是否具有视频水印，因此，为了训练得到对应的模型，可以通过获取用于进行模型训练的正样本图像和负样本图像。

为了使训练后的模型可以准确地对图像进行二分类，通过设定训练用图像集中包括至少两种水印类型的训练用图像，并且，水印类型越多，最终训练后的模型进行二分类的准确率也越高。

正样本图像可以是图像中存在视频水印的训练图像，例如，对视频的某一帧图像中的视频水印部分进行截图后得到的图像。

负样本图像则是不存在视频水印的训练图像，例如：对视频的某一帧图像中的标题部分进行截图后得到的图像，或者图像(该图像的来源为非视频)上的水印部分截图后得到的图像等等。

可选地，可以预先收集得到上述正样本图像和负样本图像，然后将其分别存放至对应的存储区域，以备后期的对待训练模型的训练。

步骤S102，通过正样本图像和负样本图像对待训练模型进行训练，得到二分类模型。

在得到正样本图像和负样本图像之后，可以通过该正样本图像和负样本图像对待训练模型进行训练。

作为一种可选的实施例，如前述的方法，所述步骤S102通过正样本图像和负样本图像对待训练模型进行训练，得到二分类模型，包括如下所述步骤：

步骤S401，获取待训练模型；

步骤S402，在所有正样本图像中确定出训练用正样本图像以及校验用正样本图像，在所有负样本图像中确定出训练用负样本图像以及校验用负样本图像；

步骤S403，通过训练用正样本图像以及训练用负样本图像对待训练模型进行训练后，得到训练后模型；

步骤S404，在通过校验用正样本图像和校验用负样本图像对训练后模型进行校验得到的准确率大于或等于预设准确率的情况下，将训练后模型确定为二分类模型。

可选地，可以将所有正样本图像分为训练用正样本图像和校验用正样本图像，将所有负样本图像分为训练用负样本图像和校验用负样本图像。然后通过训练用正样本图像和训练用负样本图像对待训练模型进行训练，得到训练后模型，在通过校验用正样本图像和校验用负样本图像对该训练后模型进行校验后，并且判定该训练后模型的准确率大于或等于预设准确率的情况下，则将该训练后模型确定为最终用于判定图像中是否存在视频水印的二分类模型。在通过校验用正样本图像和校验用负样本图像对该训练后模型进行校验后，并且判定该训练后模型的准确率小于预设准确率的情况下，则继续通过训练用正样本图像和训练用负样本图像对待训练模型进行训练，直至通过校验用正样本图像和校验用负样本图像对训练后模型进行校验后，并且判定该训练后模型的准确率大于或等于预设准确率为止。

进一步的，待训练模型可以是不同神经网络模型，例如：YoloV5、YoloV4等等。

步骤S103，将待检测对象输入二分类模型，得到用于指示待检测对象中是否存在视频水印的检测结果。

在通过前述步骤训练得到二分类模型之后，即可通过二分类模型检测待检测对象中是否存在视频水印。

可选地，待检测对象可以是用于检测是否存在视频水印的图像，可以将待检测对象输入二分类模型中，然后二分类模型即可对待检测对象进行识别后，输出用于指示待检测对象中是否存在视频水印的检测结果。

通常在使用深度学习进行物体检测时，都是通过收集足够多训练样本实现图像的多样性，以使满足多样性的样本训练得到的物体检测模型，可达到有效召回其他场景下的目标物体的目的。

在相关技术中，在实际的视频水印检测过程中，通常采用针对每一个类别，分别收集足够多的训练样本进行检测模型的训练，然后使用训练好的模型来预测所收集图像对应的水印类别。这样做可以有效的实现已知水印类别的检测，但是对于算法需要检测新的类别，则需要增加新类别所对应的样本，重新训练模型。在增加新样本图像的同时，还需要重新标注已有的训练图像，将已有图像中所包含的新目标水印也标注出来。这样的视频水印检测模型在迭代的过程中，图像准备需要耗费大量的时间，模型的训练也需要耗费时间和GPU计算资源。

由此可见，通过步骤S101至S103中的方法，可以解决相关技术中存在的当视频水印检测模型需要用于检测出新视频水印时，针对新视频水印准备对应的新样本图像及模型的训练需要耗费大量时间的技术问题

步骤S104，在检测结果指示待检测对象中存在目标视频水印的情况下，对目标视频水印进行类别检测，确定出待检测对象的类别信息。

在得到监测结果之后，即可基于监测结果确定待检测对象中是否存在目标视频水印。

目标视频水印是存在于待检测对象中的视频水印。

在检测结果指示待检测对象中存在目标视频水印的情况下，即可对目标视频水印进一步进行类别检测。

类别检测可以是用于确定出目标视频水印所属类别的检测操作，并且在执行该类别检测之后，即可确定出待检测对象的类别信息。

类别信息可以适用于指示待检测对象的类别的文字信息，例如：当待检测对象中包括爱奇艺的水印图标(即，目标视频水印为爱奇艺的水印图标)时，则待检测对象的类别信息可以是“爱奇艺”。

本实施例中的方法，可以先对待检测对象进行是否存在视频水印的检测，只有在待检测对象中存在目标视频水印的情况下，才通过对目标视频水印进行类别检测，确定出待检测对象的类别信息，进而可以有效避免对不存在视频水印的对象进行无效分类的情况，只对存在视频水印的对象进行分类，从而可以有效提升分类的效率，克服了相关技术中存在的会对不存在预设分类结果所指示的特定内容的图像也进行全面的识别，进而会浪费大量的计算时间以及GPU计算资源的技术问题，目前尚未提供有效的问题。

如图2所示，作为一种可选的实施例，如前述的方法，所述步骤S101中，获取用于进行模型训练的训练用图像集，包括如下所述步骤：

步骤S201，从预设图像库中获取多个第一正样本图像，其中，每个第一正样本图像中存在第一类型的视频水印，第一类型的视频水印中包括图像。

步骤S202，从预设图像库中获取多个第二正样本图像，其中，每个第二正样本图像中存在第二类型的视频水印，第二类型的视频水印中只包括文字。

步骤S203，从互联网获取多个第三正样本图像，其中，每个第三正样本图像中存在水印，且第三正样本图像中存在的水印为非视频水印。

步骤S204，通过预设软件生成多个第四正样本图像，其中，每个第四正样本图像中存在水印，且第四正样本图像中存在的水印为非视频水印。

在一般情况下，视频水印可以包括多种类型，例如，包括图标(只包括图标、同时包括图标以及文字)，或者只包括文字等等。

因此，可以获取不同类型的正样本图像，以便于后期通过上述类型的正样本图像对待训练模型进行训练，并识别出不同类型的视频水印。

可选地，预设图像库可以是存储有正样本图像的数据库。在预设图像库中可以存储有多个第一正样本图像和多个第二正样本图像。

第一正样本图像可以是包括图标或者同时包括图标以及文字的水印。

第二正样本图像可以是只包括文字的水印。

进一步的，第一正样本图像和第二正样本图像可以是存在于互联网中，由视频出品厂商提供的视频中截取的图像。

可选地，可以从互联网中获取多个第三正样本图像，即，第三正样本图像可以是从互联网中查询后下载得到，并且是现实中已存在的非视频水印(包括图标(只包括图标、同时包括图标以及文字)的水印，或者只包括文字)。例如：图片中的水印(用于指示图片来源)。

可选地，还可以通过预设软件生成多个第四正样本图像；预设软件可以是用于进行水印生成的软件，进而可以通过预设软件以及自定义的信息，生成第四正样本图像，第四正样本图像中存在的水印可以是在其生成之前并不存在的水印。

通过本实施例中的方法，通过提供第一正样本图像、第二正样本图像、第三正样本图像以及第四正样本图像，可以使后期训练得到的二分类模型可以增强识别出第一正样本图像、第二正样本图像、第三正样本图像以及第四正样本图像中对应类型的视频水印的准确率，进而提升二分类模型的识别精度。

作为一种可选的实施例，如前述的方法，所述步骤S101中获取用于进行模型训练的训练用图像集，包括如下所述步骤：

步骤S301，获取多个负样本图像，其中，每个负样本图像中包括预设类型的图像，预设类型的图像与视频水印满足预设相似度要求，负样本图像包括：存在长文本且长文本并非为水印的图像。

在一般情况下，非视频水印可以包括多种类型，因此，为了抑制将非视频水印识别为视频水印的情况，则需通过不同类型的非视频水印图像进行训练。

可选地，还可以通过得到与视频水印满足预设相似度要求的负样本图像，作为负样本图像，例如，从视频中截取的标题图像。预设相似度要求的信息的类型可以包括但不限于：数据来源、图标和/或文字排版方式、文字数量等等。并且，可以预设每种类型信息所占的权重，然后基于每种类型信息下，与视频水印的相似度，最终加权得到目标相似度；并基于目标相似度与预设相似度要求之间的关系，判断目标相似度所对应的图像是否可以最终作为负样本图像。例如：数据来源、图标和/或文字排版方式、文字数量对应的权重分别为：0.4，0.3，0.3；且图像A来源于网络视频，图像A中的文字呈两行排列，文字数量为20时；并在数据来源为网络视频时相似度为100，图标和/或文字排版方式为文字呈两行排列时相似度为80，文字数量为20时相似度为80的情况下，得到最终的目标相似度为100×0.4+80×0.3+80×0.3＝88；当预设相似度要求为大于等于70时，则88>70，判定该图像A为第三负样本图像。

通过本实施例中的方法，可以基于相似度获取负样本图像，可以使后期训练得到的二分类模型可以抑制将上述类型的负样本图像中对应类型的视频水印的情况，进而提升二分类模型的识别精度，同时，通过设定负样本图像包括存在长文本且长文本并非为水印的图像，可以有效抑制将非水印，特别是将长文本识别为水印的误检测情况。

如图3所示，作为一种可选的实施例，如前述的方法，所述步骤103，在将待检测对象输入二分类模型，得到用于指示待检测对象中是否存在视频水印的检测结果之后，方法还包括如下所述步骤：

步骤S501，在检测结果指示待检测对象中存在目标视频水印的情况下，确定出目标视频水印在待检测对象中的位置信息，以及目标视频水印的形状信息。

在得到用于指示待见侧对象中存在视频水印的情况下，将待检测对象中的视频水印确定为目标视频水印。并确定出目标视频水印在待检测对象中的位置信息，以及目标视频水印的形状信息。

可选地，可以通过图像识别的方式，识别到目标视频水印，并确定出目标视频水印在待检测对象中的坐标信息，并将该坐标信息作为目标视频水印在待检测对象中的位置信息；同时，在识别出目标视频水印之后，即可确定出目标视频水印的形状信息，形状信息包括但不限于：长、宽等信息。

例如，在识别到目标视频水印的情况下，通过矩形框框选出目标视频水印，并将该矩形框的中心位置的坐标信息作为位置信息。将该矩形框的长宽信息作为形状信息。

步骤S502，按照形状信息生成用于对目标视频水印进行遮挡的遮挡层，其中，遮挡层能够对目标视频水印进行完全覆盖。

在得到形状信息之后，即可基于该形状信息生成用于对目标视频水印进行遮挡的遮挡层；一般情况下，遮挡层大于该目标视频水印，以达到对目标视频水印的完全覆盖。

例如，在前述步骤S501所述实施例的基础上，可以根据矩形框的长宽信息生成对应的遮挡层，以使遮挡层至少大于该矩形框。

步骤S503，将遮挡层按照位置信息，设于待检测对象的上层。

在得到遮挡层之后，即可将该遮挡层按照位置信息，覆盖于待检测对象的上层，以对目标视频水印进行完全覆盖。通过本实施例中的方法，可以生成与目标视频水印对应的遮挡层，并通过遮挡层对目标视频水印进行遮挡，以满足需要对水印进行遮挡的需求，并且免除了人工进行水印处理，可以有效提升水印处理的效率。

作为一种可选的实施例，如前述的方法，所述步骤S104对所述目标视频水印进行类别检测，确定出所述待检测对象的类别信息，包括：

步骤S601，将目标视频水印输入预设的水印分类模型中，并得到由水印分类模型输出的、用于指示目标视频水印的水印类别的类别信息。

在得到目标视频水印之后，为了进一步确定出该目标视频水印的类别信息，可以将该目标视频水印输入预设的水印分类模型。

预设的水印分类模型可以包括一个或多个。当水印分类模型为一个时，可以通过该水印分类模型识别出所有预设类别的视频水印，因此，训练时，可以通过所有预设类别的视频水印对该水印分类模型进行训练即可。当水印分类模型包括多个时，可以使每个水印分类模型用于识别出一种预设类别的视频水印，因此，只需在通过每种预设类别的视频水印分别对各个水印分类模型进行训练即可。

当水印分类模型只为1个时，通过将该目标视频水印输入该水印分类模型中，即可得到类别信息。当水印分类模型为多个时，可以通过将该目标视频水印依次输入各个水印分类模型中，直至某一个水印分类模型I将该目标视频水印的水印类型识别为该印分类模型I对应的水印类别II后，即可将该水印类别II的类别信息确定为该目标视频水印的类别信息。

在确定出待检测对象的类别信息之后，方法还包括：

步骤S602，通过建立类别信息与待检测对象的相关性，确定出待检测对象的来源。

每个类别信息都可以对应有具体的来源信息(即，视频的来源)，当确定出待检测对象的类别信息之后，即可将待检测对象与该待检测对象的类别信息进行对应存储的方式，建立类别信息与待检测对象的相关性，进而确定出待检测对象的来源。

通过本实施例中的方法，通过确定待检测对象的来源信息，可以对待检测对象的来源进行追溯，以便于后期能更好地对待检测对象进行分类和存储。

作为一种可选的实施例，如前述的方法，在所述步骤S201从预设图像库中获取多个第一正样本图像之前，方法还包括如下所述步骤：

步骤S701，在目标视频库内的每个候选视频中，提取出至少一帧目标视频帧，其中，目标视频库中包括多个候选视频；

步骤S702，在目标视频帧中包括视频水印的情况下，将目标视频帧作为候选视频的正样本图像；

步骤S703，将正样本图像存储至预设图像库中。

预设图像库中的第一正样本图像和第二正样本图像可以是在视频中提取得到。

可以预先在目标视频库中存储有多个候选视频。

对于每个候选视频，分别进行视频帧的提取，可选地，每个候选视频中可以提取一帧或多帧目标视频帧，进一步的，可以按照预设采样周期，在候选视频中进行视频帧提取操作，例如，每1000帧提取一帧等等。

在提取得到目标视频帧之后，可以判断目标视频帧中是否存在视频水印；当确定目标视频帧中存在视频水印的情况下，则将目标视频帧作为候选视频的正样本图像，并将其存储至预设图像库中。进一步的，对于每个候选视频，还可以框选出其中一帧目标视频帧中视频水印的水印位置，进而可以按照该水印位置对该候选视频的所有目标视频帧进行视频水印图像的扣取，并将扣取得到的图像作为正样本图像。

通过本实施例中的方法，提供了一种从视频中快速提取到正样本图像的方法，进而可以有效提升正样本图像的收集效率。

如下所述，提供一种应用前述任一实施例的应用例：

本应用例在模型的训练数据收集过程中，采取了4种数据的组合方法：

1.真实的带有视频水印logo的数据(即，第一正样本图像)，以及“类似”视频水印logo的数据(即，第一负样本图像)；

2.仿真模拟制作的带有“类似”视频水印logo的数据(即，第二负样本图像)；

3.训练过程中需要抑制的，易被误识别成视频水印logo的数据(即，第三负样本图像)；

4.训练过程中需要增强的，“纯文字”水印数据(即，第二正样本图像)。

首先，真实的带有视频水印logo的数据是本次物体检测算法的数据基础，真实的带有视频水印logo数据与检测模型所需检测的目标物体相同或相似的比例更高。“类似”视频水印logo的数据，具有与要检测的水印logo更接近的特征。

其次，仿真模拟制作的带有“类似”视频水印logo的数据为随机制作并添加使用的高仿真数据，该类数据对于召回目前未知的视频水印logo有更强的通用性。通过仿真数据，可增加水印的颜色样式，文字样式。

再次，在实际的检测算法开发过程中，会有“纯文字”水印，该类“纯文字”水印数据仅存在文字信息。如果在检测算法进行使用过程中，将图片中所有的文字都识别为水印，则产生大量的误检测，因此需要通过增加带有不是水印且具有较长文本行的易被误识别成视频水印logo的数据用于训练，抑制对图片中较长文本行的误检测。

最后，对于要检测的“纯文字”水印，仅有文字信息但文字内容不确定，因此只能通过文字的长短与文字的位置关系进行检测。因此需要将具有该类文字排版特征的文字全部进行标注，用于数据训练。

通过以上5类训练数据，即可使用Yolo物体检测算法对水印logo进行物体检测的模型训练。

进一步地，可以使用YoloV5作为算法开发原型，在模型开发中的改进如下：

a.将原有的多分类模型，优化为二分类模型。

b.通过前述步骤1-4得到的多样式的水印logo数据进行训练，可应用过程中，可检测出未知的水印logo。

c.在训练集中，加入易被误识别的困难样本(主要为长文本文字样本)，可有效抑制非水印的误检测。

模型优化前，训练集的水印样式为确定种类，在模型使用过程中，可正确检测出训练集中包含的视频水印；但无法检测出训练集中不包含的视频水印；在模型优化后，训练集的数据只包括视频水印数据(即，正样本图像)和非视频水印数据(负样本图像)，在模型使用过程中，可正确检测出训练集中包含的视频水印，也可检测出训练集中不包含的视频水印。

如图4所示，根据本申请另一方面的一个实施例，还提供了一种视频水印检测装置，包括：

获取模块1，用于获取用于进行模型训练的正样本图像和负样本图像，其中，正样本图像为存在视频水印的训练图像，负样本图像为不存在视频水印的训练图像；

训练模块2，用于通过正样本图像和负样本图像对待训练模型进行训练，得到二分类模型；

检测模块3，用于将待检测对象输入二分类模型，得到用于指示待检测对象中是否存在视频水印的检测结果。

具体的，本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述，此处不再赘述。

作为一种可选的实施方式，如前述的装置，所述获取模块1用于：

从预设图像库中获取多个第一正样本图像，其中，每个第一正样本图像中存在第一类型的视频水印，第一类型的视频水印中包括图像；

从预设图像库中获取多个第二正样本图像，其中，每个第二正样本图像中存在第二类型的视频水印，第二类型的视频水印中只包括文字。

作为一种可选的实施方式，如前述的装置，获取模块1还用于：

从互联网获取多个第一负样本图像，其中，每个第一负样本图像中存在水印，且第一负样本图像中存在的水印为非视频水印；

通过预设软件生成多个第二负样本图像，其中，每个第二负样本图像中存在水印，且第二负样本图像中存在的水印为非视频水印；

获取多个第三负样本图像，其中，每个第三负样本图像中包括预设类型的图像，预设类型的图像与视频水印满足预设相似度要求。

作为一种可选的实施方式，如前述的装置，训练模块2，用于：

获取待训练模型；

在所有正样本图像中确定出训练用正样本图像以及校验用正样本图像，在所有负样本图像中确定出训练用负样本图像以及校验用负样本图像；

通过训练用正样本图像以及训练用负样本图像对待训练模型进行训练后，得到训练后模型；

在通过校验用正样本图像和校验用负样本图像对训练后模型进行校验得到的准确率大于或等于预设准确率的情况下，将训练后模型确定为二分类模型。

作为一种可选的实施方式，如前述的装置，还包括覆盖模块，用于：

在检测结果指示待检测对象中存在目标视频水印的情况下，确定出目标视频水印在待检测对象中的位置信息，以及目标视频水印的形状信息；

按照形状信息生成用于对目标视频水印进行遮挡的遮挡层，其中，遮挡层能够对目标视频水印进行完全覆盖；

将遮挡层按照位置信息，设于待检测对象的上层。

作为一种可选的实施方式，如前述的装置，还包括来源确定模块，用于：

在检测结果指示待检测对象中存在目标视频水印的情况下，识别目标视频水印的特征信息，其中，特征信息包括：图像信息和/或文字信息；

按照特征信息确定出用于指示待检测对象来源的来源信息；

通过建立来源信息与待检测对象的相关性。

作为一种可选的实施方式，如前述的装置，还包括提取模块，用于：

在目标视频库内的每个候选视频中，提取出至少一帧目标视频帧，其中，目标视频库中包括多个候选视频；

在目标视频帧中包括视频水印的情况下，将目标视频帧作为候选视频的正样本图像；

将正样本图像存储至预设图像库中。

根据本申请的另一个实施例，还提供一种电子设备，包括：如图5所示，电子设备可以包括：处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信。

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的程序时，实现上述方法实施例的步骤。

上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该总线可以分为地址总线、图像总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供一种计算机可读存储介质，存储介质包括存储的程序，其中，程序运行时执行上述方法实施例的方法步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频水印检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用于进行模型训练的训练用图像集，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取用于进行模型训练的训练用图像集，还包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述正样本图像和负样本图像对待训练模型进行训练，得到二分类模型，包括：

获取待训练模型；

5.根据权利要求1所述的方法，其特征在于，在所述将待检测对象输入所述二分类模型，得到用于指示所述待检测对象中是否存在所述视频水印的检测结果之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述目标视频水印进行类别检测，确定出所述待检测对象的类别信息，包括：

7.根据权利要求2所述的方法，其特征在于，在所述从预设图像库中获取多个第一正样本图像之前，所述方法还包括：

将所述正样本图像存储至所述预设图像库中。

8.一种视频水印检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、通信接口和存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7中任一项所述的方法。