CN109598231A

CN109598231A - 一种视频水印的识别方法、装置、设备及存储介质

Info

Publication number: CN109598231A
Application number: CN201811465129.4A
Authority: CN
Inventors: 邹昱; 杨轩; 刘振强; 潘跃; 李振
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-09
Anticipated expiration: 2038-12-03
Also published as: WO2020114378A1; CN109598231B; US11631248B2; US20220019805A1

Abstract

本发明公开了一种视频水印的识别方法、装置、设备及存储介质。该方法包括：将视频中的视频帧划分为两个或两个以上的图像块，得到各视频帧的图像序列；将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到视频特征向量；将视频特征向量输入至水印识别模型，得到的水印识别概率大于等于概率阈值，则确定所述视频包含水印。本发明实施例将各图像块输入至目标检测模型中，得到各视频帧的水印识别结果，将各视频帧的水印识别结果输入至水印识别模型中得到视频的水印识别结果，由于利用了各视频帧的水印识别结果，因此，当水印位置不固定时，仍可准确识别视频中是否包含水印，提高了视频水印的识别精度。

Description

一种视频水印的识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及识别技术，尤其涉及一种视频水印的识别方法、装置、设备及存储介质。

背景技术

水印是保护版权的重要标志，随着用户版权意识的逐步提高，各种水印也得到了广泛应用。示例性的，如将水印嵌入视频中，由于视频可以理解为是由至少两帧视频帧组成的，每帧视频帧可看作一张图片，因此将水印嵌入视频中可以理解为将水印嵌入各图片中。

由于水印的广泛使用，因此，水印的识别也成为了一个研究的方向。但由于通常水印占图片比例较小，而且经常出现在图片的非关键区域，如图片底部(如左下角或右下角)或者顶部(如左上角或右上角)等。上述对视频水印的识别带来了较大困难，使得视频水印的识别精度不高。

发明内容

本发明实施例提供一种视频水印的识别方法、装置、设备及存储介质，以提高视频水印的识别精度。

第一方面，本发明实施例提供了一种视频水印的识别方法，该方法包括：

将视频中的视频帧划分为两个或两个以上的图像块，得到各视频帧的图像序列；

将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到视频特征向量；

将所述视频特征向量输入至水印识别模型，得到水印识别概率大于等于概率阈值，则确定所述视频包含水印。

进一步的，所述根据各图像块的分类结果得到视频特征向量，包括：

根据各图像块的水印分类结果，得到各视频帧的特征向量；

根据各视频帧的特征向量得到所述视频特征向量。

进一步的，所述根据各图像块的水印分类结果，得打各视频帧的特征向量，包括：

将各图像块根据包含水印的概率，对水印分类结果进行排序；

从排序结果中确定各视频帧的特征向量。

进一步的，所述根据各图像块的水印分类结果，得到各视频帧的特征向量，包括：

从排序结果中选取部分水印分类结果进行排序；

从排序后的部分水印分类结果中确定各视频帧的特征向量。

进一步的，通过如下方式训练所述目标检测模型：

获取第一训练样本，所述第一训练样本包括训练图片、训练图片的分类类别和训练图片的位置信息；

将各训练图片划分为两个或两个以上的第一训练图像块，并根据各训练图片的分类类别得到各第一训练图像块的分类类别以及根据各训练图片的位置信息得到各第一训练图像块的位置信息；

将各第一训练图像块作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到所述目标检测模型。

进一步的，所述将各第一训练图像块作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到所述目标检测模型，包括：

获取各第一训练图像块的尺寸信息；

对各第一训练图像块的尺寸信息进行聚类分析，确定各第一训练图像块的先验框；

将各第一训练图像块和各第一训练图像块的先验框作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到所述目标检测模型。

进一步的，通过如下方式训练所述水印识别模型：

获取第二训练样本，所述第二训练样本包括训练视频和训练视频的分类类别；

将所述训练视频中的训练视频帧划分为两个或两个以上的第二训练图像块，得到各训练视频帧的图像序列；

将各训练视频帧的图像序列输入至所述目标检测模型，得到各第二训练图像块的分类结果，并根据各第二训练图像块的分类结果得到训练视频特征向量；

将所述训练视频特征向量作为输入变量，所述训练视频的分类类别作为输出变量，训练Xgboost模型，得到所述水印识别模型。

进一步的，所述根据各第二训练图像块的分类结果得打训练视频特征向量，包括：

根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量；

根据各训练视频帧的特征向量得到所述训练视频特征向量。

进一步的，所述根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，包括：

将各第二训练图像块根据包含水印的概率，对水印分类结果进行排序；

从排序结果中确定各训练视频帧的特征向量。

从排序结果中选取部分水印分类结果进行排序；

从排序后的部分水印分类结果中确定各训练视频帧的特征向量。

第二方面，本发明实施例还提供了一种视频水印的识别装置，该装置包括：

图像序列获取模块，用于将视频中的视频帧划分为两个或两个以上的图像块，得到各视频帧的图像序列；

视频特征向量获取模块，用于将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到视频特征向量；

水印识别结果确定模块，用于将所述视频特征向量输入至水印识别模型，得到的水印识别概率大于等于概率阈值，则确定所述视频包含水印。

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例第一方面所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例第一方面所述的方法。

本发明实施例通过将视频中的视频帧划分为两个或两个以上的图像块，得到各视频帧的图像序列，将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到视频特征向量，将视频特征向量输入至水印识别模型，得到的水印识别概率大于等于概率阈值，则确定视频包含水印，上述通过将视频帧分块处理得到图像块，增大了水印所占视频帧的比例，降低了视频水印的识别难度，并通过将各图像块输入至目标检测模型中，得到各视频帧的水印识别结果，再将各视频帧的水印识别结果输入至水印识别模型中得到视频的水印识别结果，由于利用了各视频帧的水印识别结果，因此，当水印位置不固定时，仍可准确识别视频中是否包含水印，从而提高了视频水印的识别精度。

附图说明

图1是本发明实施例中的一张包含水印的图片的示意图；

图2是本发明实施例中的另一张包含水印的图片的示意图；

图3是本发明实施例中的一种视频水印的识别方法的流程图；

图4是本发明实施例中的另一种视频水印的识别方法的流程图；

图5是本发明实施例中的一种视频水印的识别方法的应用示意图；

图6是本发明实施例中的再一种视频水印的识别方法的流程图；

图7是本发明实施例中的另一种视频水印的识别方法的应用示意图；

图8是本发明实施例中的一种视频水印的识别装置的结构示意图；

图9是本发明实施例中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例

由于通常水印占图片比例较小，而且经常出现在图片的非关键区域，如图片底部(如左下角或右下角)或者顶部(如左上角或右上角)等。如图1所示，给出了一张包含水印的图片，其中，水印位于图片的右上角。上述对水印识别带来了较大困难，使得水印识别的精度不高。由于视频可以理解为是由至少两帧视频帧组成的，每帧视频帧可看作一张图片，因此，这里所述的图片可以为静态图片，也可以为动态图片，还可以为视频中的视频帧。

针对视频水印的识别来说，所谓视频水印的识别指的是确定视频中是否包含水印，相应的，可以理解到，视频水印的识别结果为视频包含水印与视频不包含水印两种情况。由于视频是由至少两帧视频帧组成的，且各视频帧中水印所在的位置可能并不相同，这里所述的水印可以为同一水印，也可能是不同水印，如某视频是由三帧视频帧组成的，按照时间顺序对其进行拆分，第一帧视频帧中水印位于该帧的右上角，第二帧视频帧中水印位于该帧的左上方，第三帧视频帧中水印位于该帧的右上方，因此，水印位置的不固定也给视频水印的识别增加了难度。基于上述，为了提高视频水印的识别精度，可考虑增大水印所占视频帧的比例，并分别对每帧视频帧进行水印识别，在此基础上，根据各帧视频帧的水印识别结果确定视频帧的水印识别结果。下面将结合具体实施例对上述内容进行说明。

图3为本发明实施例提供的一种视频水印的识别方法的流程图，本实施例可适用于提高视频水印的识别精度的情况，该方法可以由视频水印的识别装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图3所示，该方法具体包括如下步骤：

步骤110、将视频中的视频帧划分为两个或两个以上的图像块，得到各视频帧的图像序列。

步骤120、将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到视频特征向量。

在本发明的实施例中，视频是指将一系列静态画面以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术，当连续的静态画面变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单张的静态画面，看上去是平滑连续的视觉效果，这样连续的静态画面叫做视频。本发明实施例将静态画面称为视频帧。

根据前文所述可知，由于水印通常在视频帧中所占比例比较小。同时，视频中水印所在的位置可能并不固定，上述增大了视频水印的识别难度，因此，为了提高视频水印的识别精度，可考虑增大水印所占视频帧的比例，并分别对每帧视频帧进行水印识别，具体的：

将视频中的视频帧划分为两个或两个以上的图像块，以此来增大水印在视频帧中所占的比例，上述各视频帧的图像块形成该视频帧的图像序列。其中，各图像块可以为等高的图像块。示例性的，如某视频帧V包括N帧视频帧，则V＝{I₁，I₂，......，I_n，......，I_N-1，I_N}，其中，I_n表示第n个视频帧，n∈{1,2，......，N-1，N}；将各视频帧划分为M个图像块，则I_n＝{I_n1，I_n2，......，I_nm，......，I_nM-1，I_nM}，其中，I_nm表示第n帧视频帧中第m个图像块，m∈{1,2，......，M-1，M}。可以理解到，I_n即为第n帧视频帧的各个图像块所形成的图像序列。

更为具体的，以图1为例进行说明。如针对图1所示的视频帧，该视频帧的尺寸大小为256×128，水印位于该视频帧的右上角，水印的尺寸大小为12×6，如图2所示，将该视频帧划分为8个图像块，每个图像块的尺寸大小均为64×64，并将图2中的8个图像块按照从左到右，从上到下的顺序，将其分别称为第一图像块、第二图像块、......、第七图像块和第八图像块，由于水印位于视频帧的右上角，因此，该水印出现在第二图像块中，即除第二图像块包含水印外，其它图像块不包含水印。基于上述，未将该视频帧划分8个图像块前，水印在视频帧中所占的比例为而将该视频帧划分为8个图形块后，水印在视频帧中所占的比例为由此可见，通过将视频中的视频帧划分为两个或两个以上的图像块，可以增大水印在视频帧中所占的比例。

将各视频帧的图像序列输入至预先训练的目标检测模型中，经过目标检测模型的计算，得到各图像块的分类结果。其中，预先训练的目标检测模型可以由训练样本基于分类器模型训练生成，训练样本可以包括训练图片、训练图片的分类类别和训练图片的位置信息。目前，常用的分类器模型包括Bayes决策、极大似然分类器、贝叶斯分类器、聚类分析模型、神经网络模型、支持向量机模型、混沌与分形模型和隐马尔科夫模型等。需要说明的是，分类器模型具体可以根据实际情况进行设定，在此不作具体限定。分类结果可以包括图像块的分类类别、图像块的分类概率以及图像块的位置信息，其中，分类类别可以包括水印和背景，如果分类类别为水印，则可以表示该图像块包含水印；如果分类类别为背景，则可以表示该图像块不包含水印。

需要说明的是，每个图像块可以包括至少两个分类结果，具体分类结果的个数可根据实际情况进行设定，在此不作具体限定。示例性的，每个图像块包括T个分类结果，则如前文所述的I_nm的分类结果可以表示为B_nm＝{b_nm1，b_nm2，......，b_nmt，......，b_nmT-1，b_nmT}，其中，b_nmt表示图像块I_nm的第t个分类结果，t∈{1，2，......，T-1，T}；b_nmt＝{id，conf，x_min，y_min，x_max，y_max}，其中，id表示图像块I_nm的第t个分类结果中的分类类别，conf表示图像块I_nm的第t个分类结果中的分类概率，x_min，y_min，x_max，y_max表示图像块I_nm的第t个分类结果中的图像块I_nm的位置信息。基于上述，可以理解到，对于视频帧I_n，将得到M×T个分类结果。

根据各图像块的分类结果得到视频特征向量，具体可以包括：将各图像块的分类结果中分类类别为水印的分类结果作为各图像块的备选分类结果。根据各图像块的备选分类结果得到各视频帧的特征向量。根据各视频帧的特征向量得到视频特征向量。其中，根据各图像块的备选分类结果得到各视频帧的特征向量，具体可以包括如下两种方式：

方式一、根据各图像块的备选分类结果中的分类概率，对各图像块的备选分类结果按降序方式进行排序，并选取前U个备选结果得到各视频帧的特征向量。需要说明的是，如果出现备选结果中分类概率相同的情况，则可随机选择其中一个备选结果即可。此外，还需要说明的是，如果出现某个图像块中备选分类结果的个数小于U，则可用预设标识来补充，这里所述的预设标识可以为-1。进行上述操作的目的在于，保持各视频帧的特征向量的维数相同。

方式二、根据各图像块的备选分类结果中的分类概率，分别对各图像块的备选分类结果按降序方式进行排序，并选取前V个备选分类结果作为各图像块的目标分类结果。根据各图像块的目标分类结果中的分类概率，对各图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果得到各视频帧的特征向量，1<V<U。同样，需要说明的是，如果出现备选分类结果和/或目标分类结果中分类概率相同的情况，则可随机选择其中一个备选结果和/或目标分类结果即可。此外，还需要说明的是，如果出现某个图像块中备选分类结果的个数小于V，则可用预设标识来补充；和/或，如果出现某个图像块中目标分类结果的个数小于U，则也用标识来补充，这里所述的预设标识可以为-1。进行上述操作的目的在于，保持各视频帧的特征向量的维数相同。

可以理解到，两者方式的区别点在于：针对某视频帧而言，方式一是直接对各图像块的全部备选结果，根据分类概率，按降序方式进行排序，选取前U个备选结果组成该视频帧的特征向量，而方式二先对每个图像块的备选分类结果进行一次筛选，得到各图像块的目标分类结果，再根据各图像块的目标分类结果中的分类概率，对各图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果组成该视频帧的特征向量，即方式一是通过一次筛选来确定视频帧的特征向量，而方式二是通过两次筛选来确定视频帧的特征向量。

由于方式二中第一筛选并不是对全部图像块的备选分类结果进行排序，而是对各图像块的备选分类结果进行排序，因此，相比于方式一对全部图像块的备选分类结果进行排序而言，降低了数据处理难度。同时，虽然方式二中第二次筛选是对全部图像块的目标分类结果进行排序，但由于通过第一筛选减少了数据处理量，因此，相比于方式一而言，仍降低了数据处理难度。基于上述，当视频的帧数较多时，可采用方式二，以降低数据处理难度；当视频的帧数较少时，可采用方式一或方式二。

针对方式一，对于每帧视频帧而言，根据分类概率对各图像块的备选分类结果，按降序方式进行排序，并选取前U个备选结果组成该视频帧的特征向量。示例性的，如对于视频V中的视频帧I_n，将视频帧I_n划分为M＝4个图像块，则I_n＝{I_n1，I_n2，I_n3，I_n4}，其中，每个图像块包括T＝5个分类结果，则I_n1的分类结果可以表示为B_n1＝{b_n11，b_n12，b_n13，b_n14，b_n15}，I_n2的分类结果可以表示为B_n2＝{b_n21，b_n22，b_n23，b_n24，b_n25}，I_n3的分类结果可以表示为B_n3＝{b_n31，b_n32，b_n33，b_n34，b_n35}，I_n4的分类结果可以表示为B_n4＝{b_n41，b_n42，b_n43，b_n44，b_n45}。

I_n1的备选分类结果为B_n1'＝{b_n11，b_n12，b_n13}，b_n11、b_n12和b_n13的分类概率分别为0.9、0.8和0.7；I_n2的备选分类结果为0个；I_n3的备选分类结果B_n3'＝{b_n31，b_n33，b_n34}，b_n31、b_n33和b_n34的分类概率分别为0.3、0.4和0.2；I_n4的备选分类结果为B_n4'＝{b_n42，b_n43}，b_n42和b_n43的分类概率分别为0.6和0.5。

将I_n1、I_n2、I_n3和I_n4的全部备选分类结果，根据分类概率，按降序方式进行排序，排序结果为b_n11、b_n12、b_n13、b_n42、b_n43、b_n33、b_n31和b_n34，并选取前U＝4个备选分类结果b_n11、b_n12、b_n13和b_n42组成该视频帧的特征向量，即I_n＝{b_n11，b_n12，b_n13，b_n42}。

针对方式二，对于每帧视频帧而言，首先根据各图像块的备选分类结果中的分类概率，分别对各图像块的备选分类结果按降序方式进行排序，并选取前V个备选分类结果作为各图像块的目标分类结果，即先对每个图像块的备选分类结果进行一次筛选，得到各图像块的目标分类结果。再根据各图像块的目标分类结果中的分类概率，对各图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果组成各视频帧的特征向量。

示例性的，如对于视频V中的视频帧I_n，将视频帧I_n划分为M＝4个图像块，则I_n＝{I_n1，I_n2，I_n3，I_n4}，其中，每个图像块包括T＝5个分类结果，则I_n1的分类结果可以表示为B_n1＝{b_n11，b_n12，b_n13，b_n14，b_n15}，I_n2的分类结果可以表示为B_n2＝{b_n21，b_n22，b_n23，b_n24，b_n25}，I_n3的分类结果可以表示为B_n3＝{b_n31，b_n32，b_n33，b_n34，b_n35}，I_n4的分类结果可以表示为B_n4＝{b_n41，b_n42，b_n43，b_n44，b_n45}。

对于每个图像块，选取前V＝2个备选分类结果作为各图像块的目标分类结果。即I_n1的目标分类结果为B_n1”＝{b_n11，b_n12}，b_n11和b_n12的分类概率分别为0.9、0.8；I_n2的目标分类结果为0个；I_n3的目标分类结果B_n3”＝{b_n31，b_n33}，b_n31和b_n33的分类概率分别为0.3和0.4；I_n4的目标分类结果为B_n4”＝{b_n42，b_n43}，b_n42和b_n43的分类概率分别为0.6和0.5。

将I_n1、I_n2、I_n3和I_n4的全部目标分类结果，根据分类概率，按降序方式进行排序，排序结果为b_n11、b_n12、b_n42、b_n43、b_n33和b_n31，并选取前U＝4个目标分类结果b_n11、b_n12、b_n42和b_n43组成该视频帧的特征向量，即I_n＝{b_n11，b_n12，b_n42，b_n43}。

在得到各视频帧的特征向量后，可以根据各视频帧的特征向量得到视频特征向量，其中，视频特征向量为由各视频帧的特征向量所组成的向量集合。示例性的，如某视频帧V包括N帧视频帧，则V＝{I₁，I₂，......，I_n，......，I_N-1，I_N}，其中，I_n表示第n个视频帧，n∈{1,2，......，N-1，N}，I_n可以通过前文所述方式进行确定。

步骤130、将视频特征向量输入至水印识别模型，得到水印识别概率；

步骤140、水印识别概率是否大于等于概率阈值；若是，则执行步骤150；若否，则执行步骤160。

步骤150、确定视频包含水印。

步骤160、确定视频不包含水印。

在本发明的实施例中，将视频特征向量输入至预先训练的水印识别模型中，经过水印识别模型的计算，得到视频的水印识别概率。其中，预先训练的水印识别模型可以由训练样本基于Xgboost模型训练生成，训练样本可以训练视频特征向量和训练视频的分类类别。

如果水印识别概率大于等于概率阈值，则可以确定该视频包含水印；如果水印识别概率小于概率阈值，则可以确定该视频不包含水印。其中，概率阈值可以作为确定视频是否包含水印的依据，其具体数值大小可根据实际情况进行设定，在此不作具体限定。示例性的，如概率阈值为0.9。

本实施例的技术方案，通过将视频中的视频帧划分为两个或两个以上的图像块，得到各视频帧的图像序列，将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到视频特征向量，将视频特征向量输入至水印识别模型，得到的水印识别概率大于等于概率阈值，则确定视频包含水印，上述通过将视频帧分块处理得到图像块，增大了水印所占视频帧的比例，降低了视频水印的识别难度，并通过将各图像块输入至目标检测模型中，得到各视频帧的水印识别结果，再将各视频帧的水印识别结果输入至水印识别模型中得到视频的水印识别结果，由于利用了各视频帧的水印识别结果，因此，当水印位置不固定时，仍可准确识别视频中是否包含水印，从而提高了视频水印的识别精度。

可选的，在上述技术方案的基础上，根据各图像块的分类结果得到视频特征向量，具体包括：根据各图像块的水印分类结果，得到各视频帧的特征向量。根据各视频帧的特征向量得到视频特征向量。

在本发明的实施例中，根据各图像块的水印分类结果，得到各视频帧的特征向量，可作如下理解：图像块的分类结果可以包括图像块的分类类别、图像块的分类概率和图像块的位置信息，其中，图像块的分类类别包括水印和背景，可将分类类别为水印的分类结果称为水印分类结果，可将分类类别为背景的分类结果称为背景分类结果。针对每个图像块来说，由于其分类结果可能水印分类结果，也可能为背景分类结果，目的确定视频是否包含水印，因此，可将水印分类结果认为是有效的分类结果。基于上述，根据各图像块的水印分类结果，得到各视频帧的特征向量，即将各图像块的分类结果为水印分类结果作为各图像块的备选分类结果，根据各图像块的备选分类结果得到各视频帧的特征向量。

根据各图像块的水印分类结果，得到各视频帧的特征向量，具体可以包括如下两种方式：

方式一、将各图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中确定各视频帧的特征向量。即将各图像块的分类结果为水印分类结果作为各图像块的备选分类结果。根据各图像块的备选分类结果中的分类概率，对各图像块的备选分类结果按降序方式进行排序，并选取前U个备选结果得到各视频帧的特征向量。

方式二、将各图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中选取部分水印分类结果进行排序。从排序后的部分水印分类结果中确定各视频帧的特征向量。即将各图像块的分类结果为水印分类结果作为各图像块的备选分类结果。根据各图像块的备选分类结果中的分类概率，分别对各图像块的备选分类结果按降序方式进行排序，并选取前V个备选分类结果作为各图像块的目标分类结果。根据各图像块的目标分类结果中的分类概率，对各图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果得到各视频帧的特征向量，1<V<U。

可选的，在上述技术方案的基础上，根据各图像块的水印分类结果，得到各视频帧的特征向量，具体可以包括：将各图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中确定各视频帧的特征向量。

在本发明的实施例中，将各图像块根据包含水印的概率，对水印分类结果进行排序，从排序结果中确定各视频帧的特征向量，具体可作如下理解：各图像块的水印分类结果中所包括的分类概率即为包含水印的概率，将各图像块根据包含水印的概率，对水印分类结果按降序方式进行排序，可从排序结果中选取前U个排序结果，根据前U个排序结果确定各视频帧的特征向量。

I_n1的水印分类结果为B_n1'＝{b_n11，b_n12，b_n13}，b_n11、b_n12和b_n13中包含水印的概率分别为0.9、0.8和0.7；I_n2的水印分类结果为0个；I_n3的水印分类结果B_n3'＝{b_n31，b_n33，b_n34}，b_n31、b_n33和b_n34中包含水印的概率分别为0.3、0.4和0.2；I_n4的水印分类结果为B_n4'＝{b_n42，b_n43}，b_n42和b_n43中包含水印的概率分别为0.6和0.5。

将I_n1、I_n2、I_n3和I_n4的全部水印分类结果，根据包含水印的概率，按降序方式进行排序，排序结果为b_n11、b_n12、b_n13、b_n42、b_n43、b_n33、b_n31和b_n34，并选取前U＝4个水印分类结果b_n11、b_n12、b_n13和b_n42组成该视频帧的特征向量，即I_n＝{b_n11，b_n12，b_n13，b_n42}。

可选的，在上述技术方案的基础上，根据各图像块的水印分类结果，得到各视频帧的特征向量，具体可以包括：将各图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中选取部分水印分类结果进行排序。从排序后的部分水印分类结果中确定各视频帧的特征向量。

在本发明的实施例中，将各图像块根据包含水印的概率，对水印分类结果进行排序，从排序结果中选取部分水印分类结果进行排序，从排序后的部分水印分类结果中确定各视频帧的特征向量，具体可作如下理解：各图像块的水印分类结果中所包括的分类概率即为包含水印的概率，将各图像块根据包含水印的概率，对水印分类结果按降序方式进行排序，可从排序结果中选取前V个水印分类结果作为目标水印分类结果，再对目标水印分类结果按降序方式进行排序，可从目标水印分类结果中选取前U个排序结果，根据前U个排序结果确定各视频帧的特征向量。

I_n1的水印分类结果为B_n1'＝{b_n11，b_n12，b_n13}，b_n11、b_n12和b_n13中包含的水印概率分别为0.9、0.8和0.7；I_n2的水印分类结果为0个；I_n3的水印分类结果B_n3'＝{b_n31，b_n33，b_n34}，b_n31、b_n33和b_n34中包含的水印概率分别为0.3、0.4和0.2；I_n4的水印分类结果为B_n4'＝{b_n42，b_n43}，b_n42和b_n43中包含水印的概率分别为0.6和0.5。

对于每个图像块，选取前V＝2个水印分类结果作为各图像块的目标水印分类结果。即I_n1的目标水印分类结果为B_n1”＝{b_n11，b_n12}，b_n11和b_n12中包含水印的概率分别为0.9、0.8；I_n2的目标水印分类结果为0个；I_n3的目标水印分类结果B_n3”＝{b_n31，b_n33}，b_n31和b_n33中包含水印的概率分别为0.3和0.4；I_n4的目标水印分类结果为B_n4”＝{b_n42，b_n43}，b_n42和b_n43中包含水印的概率分别为0.6和0.5。

将I_n1、I_n2、I_n3和I_n4的全部目标水印分类结果，根据分类概率，按降序方式进行排序，排序结果为b_n11、b_n12、b_n42、b_n43、b_n33和b_n31，并选取前U＝4个目标水印分类结果b_n11、b_n12、b_n42和b_n43组成该视频帧的特征向量，即I_n＝{b_n11，b_n12，b_n42，b_n43}。

可选的，在上述技术方案的基础上，可以通过如下方式训练目标检测模型：获取第一训练样本，第一训练样本包括训练图片、训练图片的分类类别和训练图片的位置信息。将各训练图片划分为两个或两个以上的第一训练图像块，并根据各训练图片的分类类别得到各第一训练图像块的分类类别以及根据各训练图片的位置信息得到各第一训练图像块的位置信息。将各第一训练图像块作为输入变量，各第一训图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型。

在本发明的实施例中，可以通过如下方式训练目标检测模型：获取第一训练样本，第一训练样本可以包括训练图片、训练图片的分类类别和训练图片的位置信息，将各训练图片划分为两个或两个以上的第一训练图像块，并根据各训练图片的分类类别得到各第一训练图像块的分类类别以及根据各训练图片的位置信息得到各第一训练图像块的位置信息，其中，训练图片可以包括包含水印的图片，还可以包括不包含水印的图片(即背景图片)，这里所述的背景图片可以为包含字幕的图片。相应的，训练图片的分类类别可以包括水印和背景。

根据各训练图片的分类类别得到各第一训练图像块的分类类别，以及，根据各训练图片的位置信息得到各第一训练图像块的位置信息，可作如下理解：根据训练图片的分类类别可以标注各第一训练图像块的分类类别，以及，根据训练图片的位置信息可以标注各第一训练图像块的位置信息。示例性的，如某训练图片的分类类别为水印，以及，训练图片的位置信息，则将训练图片划分为至少两个第一训练图像块后，将出现水印的第一训练图像块的分类类别标注为水印，将未出现水印的第一训练图像块的分类类别标注为背景，以及，根据训练图片的位置信息标注各第一训练图像块的位置信息。

将各第一训练图像块作为输入变量，各第一训练图像块的分类类别和各第一训练图像块的位置信息作为输出变量，训练分类器模型，得到目标检测模型，可作如下理解：分类器模型可以包括支持向量机模型或神经网络模型等。其中，神经网络模型是基于生物学中神经网络的基本原理，在理解和抽象了人脑结构和外界刺激响应机制后，以网络拓扑知识为理论基础，模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。该模型具体是依靠系统的复杂程度，通过调整内部大量节点(神经元)之间相互连接的权值，来实现处理信息的。神经网络模型可以包括卷积神经网络模型、循环神经网络模型和深度神经网络模型，下面以卷积神经网络模型为例进行说明，卷积神经网络模型解决的核心问题就是如何自动提取并抽象特征，进而将特征映射到任务目标解决实际问题，一个卷积神经网络一般由以下三部分组成，第一部分是输入层，第二部分由卷积层、激活层和池化层(或下采样层)组合而成，第三部分由一个全连接的多层感知机分类器(即全连接层)构成。卷积神经网络模型具有权值共享特性，权值共享即指卷积核，可以通过一个卷积核的操作提取图像数据的不同位置的同样特征，换句话说，即是在一张图像数据中的不同位置的相同目标，它们的特征是基本相同的。可以理解到，使用一个卷积核只能得到一部分特征，可以通过设置多核卷积，用每个卷积核来学习不同的特征来提取图片的特征。在图片分类中，卷积层的作用是将低层次的特征抽取分析为高层次特征，低层次的特征是基本特征，诸如纹理和边缘等特征，高层次特征如人脸和物体的形状等，更能表现样本的属性，这个过程就是卷积神经网络模型的层次性。需要说明的是，全连接层在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、激励层和池化层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1×1的卷积；而前层是卷积层的全连接层可以转化为卷积核为H×W的全局卷积，H和W分别为前层卷积结果的高和宽。

卷积神经网络模型的训练过程是经过前向传播计算卷积神经网络模型的损失函数，并计算损失函数对网络参数的偏导数，采用反向梯度传播方法，对卷积神经网络模型的网络参数进行调整，直至卷积神经网络模型的损失函数达到预设函数值。当卷积神经网络模型的损失函数值达到预设函数值时，表示卷积神经网络模型已训练完成，此时，卷积神经网络模型的网络参数也得以确定，可将已训练完成的卷积神经网络模型作为目标检测模型。其中，损失函数是将一个或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数，即损失函数将一个或多个变量的事件映射到与某个成本相关的实数上。损失函数可以用于测量模型性能以及实际值与预测值之间的不一致性，模型性能随着损失函数的值的降低而增加。针对本发明实施例来说，这里的预测值指的是将各第一训练图像块作为输入变量输入至卷积神经网络模型所得的第一训练图像块的分类类别和各第一训练图像块的位置信息，实际值指的是各第一训练图像块的分类类别和各第一训练图像块的位置信息。需要说明的是，损失函数可以为交叉熵损失函数、0-1损失函数、平方损失函数、绝对损失函数和对数损失函数等，具体可根据实际情况进行设定，在此不作具体限定。

需要说明的是，通过在第一训练样本中加入易被误检的训练图片，如包含字幕的训练图片等，并将其分类类别设置为背景，从而降低了目标检测模型的误检率，进而也提升了目标检测模型的预测性能。

可选的，在上述技术方案的基础上，将各第一训练图像块作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型，具体可以包括：获取各第一训练图像块的尺寸信息。对各第一训练图像块的尺寸信息进行聚类分析，确定各第一训练图像块的先验框。将各第一训练图像块和各第一训练图像块的先验框作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型。

在本发明的实施例中，为了提升目标检测模型的预测性能，可在将训练图片划分为两个或两个以上的第一训练图像块后，获取各第一训练图像块的尺寸信息，并对各第一训练图像块的尺寸信息进行聚类分析来确定各第一训练图像块的先验框，即通过聚类分析为各第一训练图像块选择对应的先验框。聚类分析的基本思想是根据各个待分类的模式特征相似程度进行分类，相似的归为一类，不相似的作为另一类。简单地说，相似就是两个特征矢量之间各分量分别较接近。聚类分析包括两个基本内容，即模式相似性的度量和聚类算法。

将各第一训练图像块的先验框也作为输入变量，参与到训练分类器模型的过程中，可以提高分类器模型预测各第一训练图像块的位置信息的预测精度，进而提升了目标检测模型的预测性能。

可选的，在上述技术方案的基础上，可以通过如下方式训练水印识别模型：获取第二训练样本，第二训练样本包括训练视频和训练视频的分类类别。将训练视频中的训练视频帧划分为两个或两个以上的第二训练图像块，得到各训练视频帧的图像序列。将各训练视频帧的图像序列输入至目标检测模型，得到各第二训练图像块的分类结果，并根据各第二训练图像块的分类结果得到训练视频特征向量。将训练视频特征向量作为输入变量，训练视频的分类类别作为输出变量，训练XGBoost模型，得到水印识别模型。

在本发明的实施例中，XGBoost(eXtreme Gradient Boosting，极限梯度提升)模型是GBDT(Gradient Boosting Decision Tree，迭代提升决策树)模型的改进版本，其基本思想是不断地降低残差，使先前的模型残差在梯度方向上进一步降低，综合多个基本学习器，进而得到强学习器。XGBoost模型的目标函数是一个二阶泰勒展开式，相比于一阶泰勒展开式，它的学习范围更广，泛化能力更强，使得模型的稳定性更高，同时在目标函数中增加了正则化项、阈值和系数。XGBoost模型可以有效避免过拟合的发生，通过L1或者L2正则优化目标函数，同时加入学习率在梯度范围内快速收敛到某一值，使其能够寻找到最优值；添加阈值进行了剪枝来限制树的生成；添加系数对叶子节点的值做了平滑，防止过拟合。上述表明，其作为一种新型提升决策树模型，具有准确度高、运算速度快、可扩展性好以及可提取特征重要性等优点，能在保证一定速度的情况下提高水印识别精度。

获取第二训练样本，第二训练样本包括训练视频和训练视频的分类类别，将训练视频中的训练视频帧划分为两个或两个以上的第二训练图像块，得到各训练视频帧的图像序列，并将各训练视频帧的图像序列输入至目标检测模型，得到各第二训练图像块的分类结果，并根据各第二训练图像块的分类结果得到训练视频特征向量，再将训练视频特征向量作为输入变量，训练视频的分类类别作为输出变量，训练XGBoost模型，得到水印识别模型。

可选的，在上述技术方案的基础上，根据各第二训练图像块的分类结果得到训练视频特征向量，具体可以包括：根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量。根据各训练视频帧的特征向量得到训练视频特征向量。

在本发明的实施例中，根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，可作如下理解：第二训练图像块的分类结果可以包括第二训练图像块的分类类别、第二训练图像块的分类概率和第二训练图像块的位置信息，其中，第二训练图像块的分类类别包括水印和背景，可将分类类别为水印的分类结果称为水印分类结果，可将分类类别为背景的分类结果称为背景分类结果。针对每个第二训练图像块来说，由于其分类结果可能水印分类结果，也可能为背景分类结果，目的确定视频是否包含水印，因此，可将水印分类结果认为是有效的分类结果。基于上述，根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，即将各第二训练图像块的分类结果为水印分类结果作为各第二训练图像块的备选分类结果，根据各第二训练图像块的备选分类结果得到各训练视频帧的特征向量。

根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，具体可以包括如下两种方式：

方式一、将各第二训练图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中确定各训练视频帧的特征向量。即将各第二训练图像块的分类结果为水印分类结果作为各第二训练图像块的备选分类结果。根据各第二训练图像块的备选分类结果中的分类概率，对各第二训练图像块的备选分类结果按降序方式进行排序，并选取前U个备选结果得到各训练视频帧的特征向量。

方式二、将各第二训练图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中选取部分水印分类结果进行排序。从排序后的部分水印分类结果中确定各训练视频帧的特征向量。即将各第二训练图像块的分类结果为水印分类结果作为各第二训练图像块的备选分类结果。根据各第二训练图像块的备选分类结果中的分类概率，分别对各第二训练图像块的备选分类结果按降序方式进行排序，并选取前V个备选分类结果作为各第二训练图像块的目标分类结果。根据各第二训练图像块的目标分类结果中的分类概率，对各第二训练图像块的目标分类结果按降序方式进行排序，并选取前U个目标分类结果得到各训练视频帧的特征向量，1<V<U。

可选的，在上述技术方案的基础上，根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，具体可以包括：将各第二训练图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中确定各训练视频帧的特征向量。

在本发明的实施例中，将各第二训练图像块根据包含水印的概率，对水印分类结果进行排序，从排序结果中确定各训练视频帧的特征向量，具体可作如下理解：各第二训练图像块的水印分类结果中所包括的分类概率即为包含水印的概率，将各第二训练图像块根据包含水印的概率，对水印分类结果按降序方式进行排序，可从排序结果中选取前U个排序结果，根据前U个排序结果确定各训练视频帧的特征向量。

示例性的，如对于训练视频V中的训练视频帧I_n，将训练视频帧I_n划分为M＝4个第二训练图像块，则I_n＝{I_n1，I_n2，I_n3，I_n4}，其中，每个第二训练图像块包括T＝5个分类结果，则I_n1的分类结果可以表示为B_n1＝{b_n11，b_n12，b_n13，b_n14，b_n15}，I_n2的分类结果可以表示为B_n2＝{b_n21，b_n22，b_n23，b_n24，b_n25}，I_n3的分类结果可以表示为B_n3＝{b_n31，b_n32，b_n33，b_n34，b_n35}，I_n4的分类结果可以表示为B_n4＝{b_n41，b_n42，b_n43，b_n44，b_n45}。

将I_n1、I_n2、I_n3和I_n4的全部水印分类结果，根据包含水印的概率，按降序方式进行排序，排序结果为b_n11、b_n12、b_n13、b_n42、b_n43、b_n33、b_n31和b_n34，并选取前U＝4个水印分类结果b_n11、b_n12、b_n13和b_n42组成该训练视频帧的特征向量，即I_n＝{b_n11，b_n12，b_n13，b_n42}。

可选的，在上述技术方案的基础上，根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，具体可以包括：将各第二训练图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中选取部分水印分类结果进行排序。从排序后的部分水印分类结果中确定各训练视频帧的特征向量。

在本发明的实施例中，将各第二训练图像块根据包含水印的概率，对水印分类结果进行排序，从排序结果中选取部分水印分类结果进行排序，从排序后的部分水印分类结果中确定各训练视频帧的特征向量，具体可作如下理解：各第二训练图像块的水印分类结果中所包括的分类概率即为包含水印的概率，将各第二训练图像块根据包含水印的概率，对水印分类结果按降序方式进行排序，可从排序结果中选取前V个水印分类结果作为目标水印分类结果，再对目标水印分类结果按降序方式进行排序，可从目标水印分类结果中选取前U个排序结果，根据前U个排序结果确定各训练视频帧的特征向量。

对于每个第二训练图像块，选取前V＝2个水印分类结果作为各第二训练图像块的目标水印分类结果。即I_n1的目标水印分类结果为B_n1”＝{b_n11，b_n12}，b_n11和b_n12中包含水印的概率分别为0.9、0.8；I_n2的目标水印分类结果为0个；I_n3的目标水印分类结果B_n3”＝{b_n31，b_n33}，b_n31和b_n33中包含水印的概率分别为0.3和0.4；I_n4的目标水印分类结果为B_n4”＝{b_n42，b_n43}，b_n42和b_n43中包含水印的概率分别为0.6和0.5。

将I_n1、I_n2、I_n3和I_n4的全部目标水印分类结果，根据分类概率，按降序方式进行排序，排序结果为b_n11、b_n12、b_n42、b_n43、b_n33和b_n31，并选取前U＝4个目标水印分类结果b_n11、b_n12、b_n42和b_n43组成该训练视频帧的特征向量，即I_n＝{b_n11，b_n12，b_n42，b_n43}。

需要说明的是，本发明实施例中可以通过独热编码(或称一位有效编码)来获取各图像块的位置信息。独热编码是使用N位状态寄存器来对N个状态进行编码，每个状态都由其独立的寄存器位，并且在任意时候，其中只有一位有效。

还需要说明的是，由于视频是由至少两帧视频帧组成的，每帧视频帧实质上是单张图片，因此，本发明实施例所提供的技术方案的思路同样适用于单张图片水印的识别，具体的：将图片划分为两个或两个以上的图像块，得到图片的图像序列。将图片的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到图片特征向量。将图片特征向量输入至图片水印识别模型，得到的水印识别概率大于等于概率阈值，则确定图片包含水印。

可选的，在上述技术方案的基础上，根据各图像块的分类结果得到图片特征向量，具体可以包括：根据各图像块的水印分类结果，得到图片特征向量。

可选的，在上述技术方案的基础上，根据各图像块的水印分类结果，得到图片特征向量，具体可以包括：将各图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中确定图片特征向量。

可选的，在上述技术方案的基础上，可以通过如下方式训练图片水印识别模型：获取第三训练样本，所述第三训练样本包括第一训练图片和第一训练图片的分类类别。将第一训练图片划分为两个或两个以上的第三训练图像块，得到各第一训练图片的图像序列。将各第一训练图片的图像序列输入至目标检测模型，得到各第三训练图像块的分类结果，并根据各第三训练图像块的分类结果得到第一训练图片特征向量。将第一训练图片特征向量作为输入变量，第一训练图片的分类类别作为输出变量，训练XGBoost模型，得到图片水印识别模型。

可选的，在上述技术方案的基础上，根据各第三训练图像块的分类结果得到第一训练图片特征向量，具体可以包括：根据各第三训练图像块的水印分类结果，得到第一训练图片特征向量。

可选的，在上述技术方案的基础上，根据各第三训练图像块的水印分类结果，得到第一训练图片特征向量，具体可以包括：将各第三训练图像块根据包含水印的概率，对水印分类结果进行排序。从排序结果中确定第一训练图片特征向量。

图4为本发明实施例提供的另一种视频水印的识别方法的流程图，本实施例可适用于提高视频水印的识别精度的情况，该方法可以由视频水印的识别装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图4所示，该方法具体包括如下步骤：

步骤210、将视频中的视频帧划分为两个或两个以上的图的图像块，得到各视频帧的图像序列。

步骤220、将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果。

步骤230、将各图像块根据包含水印的概率，对水印分类结果进行排序。

步骤240、从排序结果中确定各视频帧的特征向量。

步骤250、根据各视频帧的特征向量得到视频特征向量。

步骤260、将视频特征向量输入至水印识别模型，得到水印识别概率。

步骤270、水印识别概率是否大于等于概率阈值；若是，则执行步骤280；若否，则执行步骤290。

步骤280、确定视频包含水印。

步骤290、确定视频不包含水印。

在本发明的实施，为了更好地理解本发明实施例所提供的技术方案，下面以具体示例进行说明，具体的：

如图5所示，给出了一种视频水印的识别方法的应用示意图。其中，设定概率阈值为0.8。图5中视频包括两帧视频帧，将各视频帧划分为4个图像块，得到各视频帧的图像序列，并将各图像序列输入至目标检测模型中，得到各图像块的分类结果，每个图像块有三个分类结果，分类结果中“1”表示水印，“0”表示背景，分类结果中分类概率用0-1之间的数值表示，将各图像块根据包含水印的概率，对水印分类结果按降序方式进行排序，从排序结果中选择前3个水印分类结果确定各视频帧的特征向量，根据各视频帧的特征向量得到视频特征向量，再将视频特征向量输入至水印识别模型，得到水印识别概率为0.9，由于水印识别概率大于概率阈值，则确定该视频包含水印。

图6为本发明实施例提供的再一种视频水印的识别方法的流程图，本实施例可适用于提高视频水印的识别精度的情况，该方法可以由视频水印的识别装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图6所示，该方法具体包括如下步骤：

步骤301、将视频中的视频帧划分为两个或两个以上的图的图像块，得到各视频帧的图像序列。

步骤302、将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果。

步骤303、将各图像块根据包含水印的概率，对水印分类结果进行排序。

步骤304、从排序结果中选取部分水印分类结果进行排序。

步骤305、从排序结果后的部分水印分类结果中确定各视频帧的特征向量。

步骤306、根据各视频帧的特征向量得到视频特征向量。

步骤307、将视频特征向量输入至水印识别模型，得到水印识别概率。

步骤308、水印识别概率是否大于等于概率阈值；若是，则执行步骤309；若否，则执行步骤310。

步骤309、确定视频包含水印。

步骤310、确定视频不包含水印。

在本发明的实施例中，在本发明的实施，为了更好地理解本发明实施例所提供的技术方案，下面以具体示例进行说明，具体的：

如图7所示，给出了另一种视频水印的识别方法的应用示意图。其中，设定概率阈值为0.8。图7中视频包括两帧视频帧，将各视频帧划分为4个图像块，得到各视频帧的图像序列，并将各图像序列输入至目标检测模型中，得到各图像块的分类结果，每个图像块有三个分类结果，分类结果中“1”表示水印，“0”表示背景，分类结果中分类概率用0-1之间的数值表示，将各图像块根据包含水印的概率，对水印分类结果按降序方式进行排序，从排序结果中选取前2个水印分类结果作为目标水印分类结果，再对目标水印分类结果按降序方式进行排序，可从目标水印分类结果中选取前3个排序结果，根据前3个排序结果确定各视频帧的特征向量，再将视频特征向量输入至水印识别模型，得到水印识别概率为0.8，由于水印识别概率等于概率阈值，则确定该视频包含水印。

图8为本发明实施例提供的一种视频水印的识别装置的结构示意图，本实施例可适用于提高视频水印的识别精度的情况，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图8所示，该装置具体包括：

图像序列获取模块410，用于将视频中的视频帧划分为两个或两个以上的图像块，得到各视频帧的图像序列。

视频特征向量获取模块420，用于将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到视频特征向量。

水印识别结果确定模块430，用于将视频特征向量输入至水印识别模型，得到的水印识别概率大于等于概率阈值，则确定视频包含水印。

可选的，在上述技术方案的基础上，视频特征向量获取模块420，具体可以包括：

视频帧特征向量获取子模块，用于根据各图像块的水印分类结果，得到各视频帧的特征向量。

视频特征向量获取子模块，用于根据各视频帧的特征向量得到视频特征向量。

可选的，在上述技术方案的基础上，视频帧特征向量获取子模块，具体可以包括：

第一排序单元，用于将各图像块根据包含水印的概率，对水印分类结果进行排序。

第一视频帧特征向量确定单元，用于从排序结果中确定各视频帧的特征向量。

第二排序单元，用于将各图像块根据包含水印的概率，对水印分类结果进行排序。

第三排序单元，用于从排序结果中选取部分水印分类结果进行排序。

第二视频帧特征向量确定单元，用于从排序后的部分水印分类结果中确定各视频帧的特征向量。

可选的，在上述技术方案的基础上，可以通过如下方式训练目标检测模型：

获取第一训练样本，第一训练样本包括训练图片、训练图片的分类类别和训练图片的位置信息。

将各训练图片划分为两个或两个以上的第一训练图像块，并根据各训练图片的分类类别得到各第一训练图像块的分类类别以及根据各训练图片的位置信息得到各第一训练图像块的位置信息。

将各第一训练图像块作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型。

可选的，在上述技术方案的基础上，将各第一训练图像块作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型，具体可以包括：

获取各第一训练图像块的尺寸信息。

对各第一训练图像块的尺寸信息进行聚类分析，确定各第一训练图像块的先验框。

将各第一训练图像块和各第一训练图像块的先验框作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到目标检测模型。

可选的，在上述技术方案的基础上，可以通过如下方式训练水印识别模型：

获取第二训练样本，第二训练样本包括训练视频和训练视频的分类类别。

将训练视频中的训练视频帧划分为两个或两个以上的第二训练图像块，得到各训练视频帧的图像序列。

将各训练视频帧的图像序列输入至目标检测模型，得到各第二训练图像块的分类结果，并根据各第二训练图像块的分类结果得到训练视频特征向量。

将训练视频特征向量作为输入变量，训练视频的分类类别作为输出变量，训练XGBoost模型，得到水印识别模型。

可选的，在上述技术方案的基础上，根据各第二训练图像块的分类结果得到训练视频特征向量，具体可以包括：

根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量。

根据各训练视频帧的特征向量得到训练视频特征向量。

可选的，在上述技术方案的基础上，根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，具体可以包括：

将各第二训练图像块根据包含水印的概率，对水印分类结果进行排序。

从排序结果中确定各训练视频帧的特征向量。

从排序结果中选取部分水印分类结果进行排序。

本发明实施例所提供的视频水印的识别装置可执行本发明任意实施例所提供的视频水印的识别方法，具备执行方法相应的功能模块和有益效果。

图9为本发明实施例提供的一种设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性设备512的框图。图9显示的设备512仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，设备512以通用计算设备的形式表现。设备512的组件可以包括但不限于：一个或者多个处理器516，系统存储器528，连接于不同系统组件(包括系统存储器528和处理器516)的总线518。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Instruction Set Architecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型(Instruction Set Architecture，ISA)总线、视频电子标准协会(Video ElectronicsStandards Association，VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnect，PCI)总线。

设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被移动终端512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)530和/或高速缓存存储器532。设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统534可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如(Computer Disc Read-Only Memory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储器528中，这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。

设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信，还可与一个或者多个使得用户能与该设备512交互的设备通信，和/或与使得该设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且，设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器520通过总线518与设备512的其它模块通信。应当明白，尽管图9中未示出，可以结合设备512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器516通过运行存储在系统存储器528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种视频水印的识别方法，包括：

将视频中的视频帧划分为两个或两个以上的图像块，得到各视频帧的图像序列。

将各视频帧的图像序列输入至目标检测模型，得到各图像块的分类结果，并根据各图像块的分类结果得到视频特征向量。

将视频特征向量输入至水印识别模型，得到的水印识别概率大于等于概率阈值，则确定视频包含水印。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供应用于设备的视频水印的识别的技术方案。该设备的硬件结构以及功能可参见实施例的内容解释。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的一种视频水印的识别方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Computer Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——局域网(Local AreaNetwork，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

当然，本发明实施例所提供的一种计算机可读存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的设备的视频水印的识别方法中的相关操作。对存储介质的介绍可参见实施例中的内容解释。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频水印的识别方法，其特征在于，包括：

将所述视频特征向量输入至水印识别模型，得到的水印识别概率大于等于概率阈值，则确定所述视频包含水印。

2.根据权利要求1所述的方法，其特征在于，所述根据各图像块的分类结果得到视频特征向量，包括：

根据各图像块的水印分类结果，得到各视频帧的特征向量；

根据各视频帧的特征向量得到所述视频特征向量。

3.根据权利要求2所述的方法，其特征在于，所述根据各图像块的水印分类结果，得到各视频帧的特征向量，包括：

从排序结果中确定各视频帧的特征向量。

4.根据权利要求2所述的方法，其特征在于，所述根据各图像块的水印分类结果，得到各视频帧的特征向量，包括：

从排序结果中选取部分水印分类结果进行排序；

从排序后的部分水印分类结果中确定各视频帧的特征向量。

5.根据权利要求1-4任一所述的方法，其特征在于，通过如下方式训练所述目标检测模型：

将各第一训练图像块作为输入变量，各第一训图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到所述目标检测模型。

6.根据权利要求5所述的方法，其特征在于，所述将各第一训练图像块作为输入变量，各第一训练图像块的分类类别和位置信息作为输出变量，训练分类器模型，得到所述目标检测模型，包括：

获取各第一训练图像块的尺寸信息；

7.根据权利要求1-4任一所述的方法，其特征在于，通过如下方式训练所述水印识别模型：

8.根据权利要求7所述的方法，其特征在于，所述根据各第二训练图像块的分类结果得到训练视频特征向量，包括：

根据各训练视频帧的特征向量得到所述训练视频特征向量。

9.根据权利要求8所述的方法，其特征在于，所述根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，包括：

从排序结果中确定各训练视频帧的特征向量。

10.根据权利要求8所述的方法，其特征在于，所述根据各第二训练图像块的水印分类结果，得到各训练视频帧的特征向量，包括：

从排序结果中选取部分水印分类结果进行排序；

11.一种视频水印的识别装置，其特征在于，包括：

12.一种设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10任一所述的方法。