CN111160335B

CN111160335B - 基于人工智能的图像水印处理方法、装置及电子设备

Info

Publication number: CN111160335B
Application number: CN202010001895.6A
Authority: CN
Inventors: 诸加丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2023-07-04
Anticipated expiration: 2040-01-02
Also published as: CN111160335A

Abstract

本发明提供了一种基于人工智能的图像水印处理方法、装置、设备及存储介质；方法包括：获取待检测图像的图像维度特征，并获取所述待检测图像的字符维度特征；将所述待检测图像的图像维度特征和字符维度特征进行连接，得到对应所述待检测图像的融合特征；基于所述待检测图像的图像维度特征，确定在所述待检测图像中进行水印检测的候选区域；基于所述待检测图像的融合特征，对所述待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，并将分类结果包括水印的候选区域的位置确定为水印的位置，通过本发明，能够有效提高水印检测的精确度。

Description

基于人工智能的图像水印处理方法、装置及电子设备

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的图像水印处理方法、装置、电子设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

随着互联网技术的发展，用户可以接收并分享各种来源的多媒体内容，例如图像或者视频，但是图像和视频的来源可以是来自于受管制的境外电视台，或者一些不合法的组织，因此图像和视频上可能会存在相应的水印，图像和视频上还会存在影响用户正常观看多媒体内容的以水印形式存在的广告信息，这些以水印形式呈现在图像或视频中的内容，不容易被识别出来，从而导致漏检或者误检的情况，继而会影响用户的正常观看。

发明内容

本发明实施例提供一种基于人工智能的图像水印处理方法、装置、设备及存储介质，能够有效提高水印检测的精确度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的图像水印处理方法，包括：

获取待检测图像的图像维度特征，并获取所述待检测图像的字符维度特征；

将所述待检测图像的图像维度特征和字符维度特征进行连接，得到对应所述待检测图像的融合特征；

基于所述待检测图像的图像维度特征，确定在所述待检测图像中进行水印检测的候选区域；

基于所述待检测图像的融合特征，对所述待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，并

将分类结果包括水印的候选区域的位置确定为水印的位置。

本发明实施例提供一种基于人工智能的图像水印处理装置，包括：

特征获取模块，用于获取待检测图像的图像维度特征，并获取所述待检测图像的字符维度特征；

特征融合模块，用于将所述待检测图像的图像维度特征和字符维度特征进行连接，得到对应所述待检测图像的融合特征；

候选区域确定模块，用于基于所述待检测图像的图像维度特征，确定在所述待检测图像中进行水印检测的候选区域；

水印确定模块，用于基于所述待检测图像的融合特征，对所述待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，并

将分类结果包括水印的候选区域的位置确定为水印的位置。

在上述方案中，所述特征获取模块，还用于：

通过图像维度特征提取网络对所述待检测图像进行特征提取，得到对应所述待检测图像的多个特征图；

其中，所述图像维度特征提取网络是以图像、以及表征所述图像中对象的类型的图像标签为训练样本，并以识别出所述图像中对象的类型为目标进行训练得到的；

将对应所述待检测图像的各个特征图的每一栏，串联为特征序列中的一个向量，并将串联得到的向量确定为所述待检测图像的图像维度特征。

在上述方案中，所述特征获取模块，还用于：

通过字符维度特征提取网络对所述待检测图像进行特征提取，得到对应所述待检测图像的多个特征图；

其中，所述字符维度特征提取网络是以图像、以及表征所述图像中字符的类型的字符标签为训练样本，并以识别出所述图像中的字符的类型为目标进行训练得到的；

将对应所述待检测图像的各个特征图的每一栏，串联为特征序列中的一个向量，并将串联得到的向量确定为所述待检测图像的字符维度特征。

在上述方案中，所述特征融合模块，还用于：

对所述字符维度特征执行卷积处理，以使所述字符维度特征的通道数修正为与所述图像维度特征的通道数一致；

将经过卷积处理的字符维度特征与所述图像维度特征进行连接处理，得到对应所述待检测图像的融合特征。

在上述方案中，所述候选区域确定模块，还用于：

将所述待检测图像进行均匀分割得到多个网格；

基于对应所述待检测图像的图像维度特征，获取对应各个网格的边界框；

对对应各个网格的边界框进行回归处理，从经过回归处理的边界框中确定用于进行水印检测的候选区域。

在上述方案中，所述候选区域确定模块，还用于：

当经过回归处理之后得到的边界框的数目为多个时，将经过回归处理之后得到的多个边界框的置信度进行排序，确定置信度最高的边界框为进行水印检测的候选区域，并

针对所述排序中除置信度最高的边界框之外的每一个边界框执行以下处理：确定所述边界框与所述排序中置信度最高的边界框之间的重叠面积，并将重叠面积大于重叠面积阈值的边界框删除；

对重叠面积不大于所述重叠面积阈值的边界框的置信度进行再次排序，确定置信度最高的边界框为进行水印检测的候选区域；

所述候选区域确定模块，还用于：针对所述再次排序中除置信度最高的边界框之外的每一个边界框执行以下处理：确定所述边界框与所述再次排序中置信度最高的边界框之间的重叠面积，并将重叠面积大于重叠面积阈值的边界框删除，直到不存在重叠面积大于所述重叠面积阈值的两个边界框。

在上述方案中，所述水印确定模块，还用于：

通过水印识别模型的预测层并结合对应所述待检测图像的融合特征对各个候选区域进行分类，得到各个候选区域所属的类别和对应所述类别的类别概率；

当所述类别概率超过类别概率阈值时，将所述类别确定为所述候选区域的类别；

当所述候选区域的类别为水印时，确定所述候选区域中包括水印。

在上述方案中，所述装置还包括：

训练模块，用于：

基于图像样本、对应所述图像样本的字符标签、以及对应所述图像样本的类别，构建训练样本集合，并基于所述训练样本集合训练包括字符维度特征提取网络的字符识别模型；

基于目标检测模型和所述字符维度特征提取网络，构建水印识别模型；

其中，所述水印识别模型用于确定所述图像中水印所处的候选区域、以及所述图像中各个候选区域的类别；

基于所述训练样本集合训练所述水印识别模型。

在上述方案中，所述训练模块，还用于：

初始化所述字符识别模型，并初始化包括输入样本、字符标签以及对应所述输入样本的字符维度识别结果的损失函数；

在所述字符识别模型每次迭代训练过程中执行以下处理：

通过所述字符识别模型，对所述训练样本集合包括的图像样本进行字符维度识别，得到对应所述图像样本的字符维度识别结果；

将对应所述图像样本的字符标签和所述字符维度识别结果代入所述损失函数，以确定所述损失函数取得最小值时对应的字符识别模型参数；

根据所确定的字符识别模型参数更新所述字符识别模型。

在上述方案中，所述训练模块，还用于：

初始化所述水印识别模型，并初始化包括输入样本、对应所述输入样本的水印识别结果的损失函数；

在所述水印识别模型每次迭代训练过程中执行以下处理：

通过水印识别模型对所述训练样本集合包括的图像样本进行水印识别，得到对应所述图像样本的水印识别结果；

将对应所述图像样本的类别和所述水印识别结果代入所述损失函数，以确定所述损失函数取得最小值时对应的目标检测模型参数；

保持所述字符识别模型参数不变，根据所确定的目标检测模型参数更新所述水印识别模型。

在上述方案中，所述装置还包括：

视频处理模块，用于：

对候选视频进行解码得到多帧所述待检测图像；

当解码得到的多帧所述待检测图像中包括水印的图像的数目大于异常阈值时，确定所述视频为违规视频。

在上述方案中，所述视频处理模块，还用于：

对所述候选视频进行以下至少之一的处理，得到对应所述候选视频的多帧所述图像：

对所述候选视频进行解码，并对解码得到的图像进行均匀的抽帧，将抽帧得到多帧图像作为待检测图像；

对所述候选视频进行解码，并对解码得到的关键帧进行抽帧，将抽帧得到的多帧关键帧作为待检测图像；

将所述候选视频进行解码，并将解码得到的图像中携带审核标记时间戳的图像帧作为待检测图像。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的图像水印处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的图像水印处理方法。

本发明实施例具有以下有益效果：

通过图像维度特征来筛选出候选区域，联合图像维度特征和字符维度特征来进行候选区域的分类识别，能够增强候选区域的区分性，从而提高分类准确率以及识别精度。

附图说明

图1是本发明实施例提供的基于人工智能的图像水印处理系统架构的一个可选的结构示意图；

图2是本发明实施例提供的基于人工智能的图像水印处理装置的一个可选的结构示意图；

图3是本发明实施例提供的基于人工智能的图像水印处理方法的一个可选的流程示意图；

图4A-4D是本发明实施例提供的基于人工智能的图像水印处理方法的一个可选的流程示意图；

图5是本发明实施例提供的基于人工智能的图像水印处理的实现架构图；

图6是本发明实施例提供的目标检测模型的结构图；

图7是本发明实施例提供的基于人工智能的图像水印处理方法的水印识别模型的结构图；

图8是本发明实施例提供的基于人工智能的图像水印处理方法中的字符维度提取网络的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)水印：在图像中出现的和图像所欲表达的实质内容无关的内容，例如台标、用于保护版权的标志、徽标、商标信息或者广告信息等等。

2)候选区域：图像中包括有水印的潜在区域。

3)光学字符识别：电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

4)图像维度特征：以图像以及表征图像中对象的类型的图像标签为训练样本，并以识别出图像中对象的类型为目标进行训练得到的图像维度特征提取网络所提取的侧重于表征图像边缘的特征。

5)字符维度特征：以图像以及表征图像中字符的类型的字符标签为训练样本，并以识别出图像中的字符的类型为目标进行训练得到的字符维度特征提取网络所提取的侧重于表征字符级别的更为细节的特征。

相关技术中的水印检测是通过滑动窗口的方法实现，提取一个固定大小的图像块输入到提前训练好的鉴别模型中，通过该鉴别模型获取该图像块的一个类别，得分高于预设阈值的图像块被认为是包括水印的候选区域，通过非极大化抑制可以得到最终的水印鉴别结果，鉴别模型的特征可以采用文字识别技术常用的边缘方向统计特征，也可以通过卷积神经网络进行特征学习来提升对裁切、形变、复杂背景的鲁棒性，为了进一步提高得分的置信度，可以加入类型原型的信息，把输入图像块特征与聚类中心特征的相似度(夹角余弦)作为识别置信度，但上述方法检测效率极低，由于水印位置和大小不固定，需要在所有位置对多个尺度的图像进行判别，由此产生大量的冗余窗口。

随着深度学习的发展，水印检测也得到了提高，首先通过无监督/有监督学习生成一系列的候选区域，再通过一个卷积神经网络分类器来判断区域中是否包含水印以及是哪一类水印，这类方法比较有代表的是区域卷积神经网络系列，由于该类方法得到的候选框可以映射到原图分辨率，因此定位框精度足够高。另一种解决思路是采用直接在特征图上回归的方法，对于卷积神经网络只需要一次前向运算就可以得到所有层的特征图，然后回归的对象是待检测目标的位置信息和类别信息，可根据目标大小的需要在不同层次的特征图上进行回归，该类方法的特点是在保证高检测精度的前提下实时性较好，但是在真实的业务场景中，上述方法都不能很好的完成水印检测，因为与其他类刚体目标不同，水印具有以下特点：主体多样性，比如电视台标和自媒体的标识，多达上百种，而且很多都是图文结合的；主体多变，水印在图像中位置不固定且较小，主体存在裁切变形；背景复杂，因为是叠加到图像上的，图像内容千变万化，另外，这种叠加很多时候都是具有透明度的叠加。这些特点使得直接利用上述方法效果不好，经常出现漏检(存在水印，但是没有检测到)和误检(不存在水印，但是认为是水印)的现象。

因此，需要一种鲁棒的方法，去提高实际场景中的水印检测的精度，基于此本发明实施例提出一种基于人工智能的图像水印处理方法，基于多模态的水印检测思想，融合了图像和字符特征，从而有效的提高水印检测的精度，这种方法的优势在于：利用图像特征来筛选出存在特征的候选区域；利用图像特征和文字特征来进行候选区域的分类识别，因为图像特征不具有很强的区分性，会导致分类错误，此时文字特征的加入可以修正结果，提高分类准确率；本发明实施例提供的基于人工智能的图像水印处理方法具有很强的兼容性，对于文字特征部分和图像特征部分不做特殊限定，目前现存的图像检测框架和文字特征提取框架都可以直接嵌入到本发明的框架中，完成融合识别，提高识别精度。

本发明实施例提供的基于人工智能的图像水印处理方法处理流程如下：将待检测图像输入到物体检测框架和基于光学字符识别的特征提取器中，这里的物体检测框架即为目标检测模型，基于光学字符识别的特征提取器可以为字符识别模型中的字符维度特征提取网络，通过目标检测模型得到图像维度特征，通过基于光学字符识别的特征提取器中得到字符维度特征，目标检测模型将字符维度特征和图像维度特征进行融合，并基于融合特征进行候选区域定位和候选区域分类，输出包括水印的候选区域，候选区域携带有水印的位置信息。相关技术提供的检测水印的技术方案存在以下问题：仅靠图像特征进行水印检测，不具有很强的区分性，容易存在误检和漏检的情况。本发明实施例提供一种基于人工智能的图像水印处理方法，基于多模态的水印检测思想，融合了图像和字符特征，从而有效的提高水印检测的精度。

本发明实施例提供一种基于人工智能的图像水印处理方法、装置、设备和存储介质，能够有效提高水印检测的精确度，下面说明本发明实施例提供的基于人工智能的图像水印处理电子设备的示例性应用，本发明实施例提供的基于人工智能的图像水印处理电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为服务器时示例性应用。

参见图1，图1是本发明实施例提供的基于人工智能的图像水印处理系统100的一个可选的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，终端400上安装有客户端410，服务器200对获取到的待检测图像进行水印检测，这里的待检测图像可以是由客户端410上传至服务器200的，可以识别出图像中的水印以及水印所在的位置，并将包括水印的待检测图像发送至召回系统500，以使召回系统500对包含水印的待检测图像执行召回处理，这里的召回处理可以是将待检测图像销毁，或者将待检测图像的发布账号进行封号处理，服务器200对获取到的待检测图像进行水印检测，若没有检测到水印，则将该不包含水印的待检测图像发送至推荐系统600，使推荐系统600对不包含水印的待检测图像执行推荐处理，推送到终端400进行展示，这里的水印不局限用于为了保护版权所产生的水印，这里的水印可以为广告信息、不符合相关法规的台标、影响图像实质内容显示的其他信息等等。

参见图2，图2是本发明实施例提供的应用基于人工智能的图像水印处理方法的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器250中的基于人工智能的图像水印处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：特征获取模块2551、特征融合模块2552、候选区域确定模块2553、水印确定模块2554、训练模块2555和视频处理模块2556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的基于人工智能的图像水印处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的基于人工智能的图像水印处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于人工智能的图像水印处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Spe cific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面将结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的基于人工智能的图像水印处理方法。

本发明实施例提供的基于人工智能的图像水印处理方法是基于两个阶段实现的，第一个阶段是模型的训练阶段，第二个阶段是模型的应用阶段，下面首先对模型的训练阶段进行说明。

参见图3，图3是本发明实施例提供的基于人工智能的图像水印处理方法的一个可选的流程示意图，将结合图3示出的步骤101-103进行说明。

在步骤101中，基于图像样本、对应图像样本的字符标签、以及对应图像样本的类别，构建训练样本集合，并基于训练样本集合训练包括字符维度特征提取网络的字符识别模型。

在一些实施例中，图像样本和图像样本的字符标签可以用于训练字符识别模型，字符识别模型中包括字符维度特征提取网络，字符维度识别模型在训练的过程中偏重于提取字符维度的特征并映射到字符，由于字符边缘与图形边缘相比更加复杂，因此，需要专门训练字符识别模型，训练完毕的字符识别模型中的字符维度特征提取网络也是经过训练的，其可以用于提取字符维度的特征，即便是针对不包含字符的对象，使用字符维度提取网络所获取的高维特征仍然可以互补图像维度特征中的不足，与图像维度特征形成互补。

在步骤102中，基于目标检测模型和字符维度特征提取网络，构建水印识别模型，水印识别模型用于确定图像中水印所处的候选区域、以及图像中各个候选区域的类别。

在一些实施例中，水印识别模型中包括了目标检测模型和字符维度特征提取网络，这里的目标检测模型是通用的目标检测模型，这里的字符维度特征提取网络是在步骤101中训练好的字符识别模型中的字符维度特征提取网络，水印识别模型用于确定待检测图像中水印所处的候选区域和图像中各个候选区域的类别，这里的类别标签可以是广告类别标签、台标类别标签等等。

在步骤103中，基于训练样本集合训练水印识别模型。

步骤101中基于训练样本集合训练字符识别模型，可以通过以下技术方案实现，初始化字符识别模型，并初始化包括输入样本、字符标签以及对应输入样本的字符维度识别结果的损失函数；在字符识别模型每次迭代训练过程中执行以下处理：通过字符识别模型对训练样本集合包括的图像样本进行字符维度识别，得到对应图像样本的字符维度识别结果；将对应图像样本的字符标签和字符维度识别结果代入损失函数，以确定损失函数取得最小值时对应的字符识别模型参数；根据所确定的字符识别模型参数更新字符识别模型，这里的输入样本即为训练样本集合包括的图像样本。

在一些实施例中，将特征提取部分，序列模型部分和转录部分整合到一个完整的网络，这个神经网络则被称为卷积循环神经网络(CRNN，Convolution Recurrent NeuralNetwork)，尽管这个网络包含好几种网络架构，但是它可以在一个损失函数下进行训练，卷积神经网络从给定的图像中提取特征序列，在卷积神经网络之上，循环神经网络将根据卷积层生成的特征序列做预测，在卷积循环神经网络之上的转录层将循环神经网络层的预测结果翻译成标签序列。在CRNN中卷积组件是由卷积层和最大池化层组成，也就是标准卷积网络中去除全连接层的部分，卷积层的作用是从输入图像中提取特征序列，特征序列中的每一个特征向量是从特征图中从左向右按列生成，第i个特征向量是由所有特征图第i列生成的特征向量连接而成，每一列的宽度被设置为一个像素，由于卷积层，最大池化层和激活函数的平移不变性，所以每一列的特征图对应着原图中的一个矩形区域，而且这个矩形区域是与其在特征图中相对应的从左向右的列是相同顺序的，那么就可以认为特征序列中的每一个特征向量也是与原图中的每一个矩形区域相对应的。

在一些实施例中，在卷积层后接上一个双向循环神经网络作为,双向循环神经网络是将每一个在卷积层生成的特征序列预测为一个标签分布，循环神经网络具有很强的能力捕捉到一个序列的上下文信息，在上述的特征提取中，一个宽字符可能有好几个连续的矩形区域描述，对基于图像的序列识别使用上下文比将单个字符单独对待要更加有效，而且对于一些含糊的字符，观察其上下文信息后也会很好区分，这是因为循环神经网络也能够后向传播进行权重更新，从而使得可以将卷积神经网络和循环神经网络连接成一个完整的网络，同时循环神经网络可以处理任意长度的序列，上文中对输入图像的高进行固定，是固定每一个矩形区域的大小，这里每一个矩形区域的宽为一个像素，从而可以对任意宽度的图像进行处理。

在一些实施例中，转录层的作用是将双向循环神经网络生成的预测转化成一个标签序列，这里预测中的概率是指在双向循环神经网络生成的预测的条件下得到标签序列的概率，从而使用该概率的负对数作为目标函数进行训练网络，仅仅需要图像和图像相对应的标签序列作为训练数据，假设训练数据X为图像样本和对应图像样本的字符标签，这里的字符标签是真实标签，目标方程是要最小化条件概率的负对数，目标方程如公式(1)所示：

其中，l_i是指真实标签序列，y_i是指卷积神经网络和双向循环神经网络从输入图像I_i计算得来的序列。

在一些实施例中，步骤103中基于训练样本集合训练水印识别模型，可以通过以下技术方案实现，初始化水印识别模型，并初始化包括输入样本、对应输入样本的水印识别结果的损失函数；在水印识别模型每次迭代训练过程中执行以下处理：通过水印识别模型对训练样本集合包括的图像样本进行水印识别，得到对应图像样本的水印识别结果；将对应图像样本的类别和水印识别结果代入损失函数，以确定损失函数取得最小值时对应的目标检测模型参数；保持字符识别模型参数不变，根据所确定的目标检测模型参数更新水印识别模型。

在一些实施例中，利用字符维度提取网络获得图像的字符维度特征，利用目标检测网络获得图像的图像维度特征，字符维度提取网络是预先训练好的网络，可以不再参与目标检测模型的训练，从而会对目标检测模型有一个互补和加强的作用，两个模型共同训练的话，存在标签不统一的问题，目标检测模型的标签是类别，但是字符维度提取网络训练的标签是字符，即图像中的字符是否正确，两个模型的标签无法统一，另外，共同训练就意味着参与训练的是同一批数据，学习到的也是相同数据的特征，从而其不再具有互补性，字符维度提取网络是预先训练好，训练数据是不同于目标检测模型的数据，从而学习到的特征是不同于目标检测模型的特征。这里训练水印识别模型的样本数据和训练字符识别模型的样本数据不同，即训练水印识别模型的样本数据和训练字符识别模型的样本数据可以是来源于相同的训练样本集合，但是属于不同的样本数据，由于字符维度特征提取网络时预先训练好的，因此，在进行水印识别模型的训练时，会保持字符维度特征提取网络中参数不变，即不受训练过程中参数更新的影响，且由于字符维度特征提取网络的引入并没有改变原有的目标检测模型的框架，因此训练目标检测模型的训练方法和训练水印识别模型的训练方法一致，仍然是最小化通用目标检测模型的损失函数。

下面详细说明本发明实施例提供的水印识别模型的应用。

参见图4A，图4A是本发明实施例提供的基于人工智能的图像水印处理方法的一个可选的流程示意图，下面将结合图4A示出的步骤201-204进行说明。

在步骤201中，获取待检测图像的图像维度特征并获取待检测图像的字符维度特征。

在一些实施例中，步骤201中获取待检测图像的图像维度特征，可以通过以下技术方案实现，通过图像维度特征提取网络对待检测图像进行特征提取，得到对应待检测图像的多个特征图；其中，图像维度特征提取网络是以图像、以及表征图像中对象的类型的图像标签为训练样本，并以识别出图像中对象的类型为目标进行训练得到的；将对应待检测图像的各个特征图的每一栏，串联为特征序列中的一个向量，并将串联得到的向量确定为待检测图像的图像维度特征。

在一些实施例中，利用图像维度特征提取网络的卷积层从输入图像中提取特征序列，特征序列中的每一个特征向量是从特征图中从左向右按列生成，第i个特征向量是由所有特征图第i列生成的特征向量连接而成，每一列的宽度被设置为一个像素，由于卷积层，最大池化层和激活函数的平移不变性，所以每一列的特征图对应着原图中的一个矩形区域，而且这个矩形区域是与其在特征图中相对应的从左向右的列是相同顺序的，那么就可以认为特征序列中的每一个特征向量也是与原图中的每一个矩形区域相对应的。

在一些实施例中，步骤201中获取待检测图像的字符维度特征，可以通过以下技术方案实现，通过字符维度特征提取网络对待检测图像进行特征提取，得到对应待检测图像的多个特征图；其中，字符维度特征提取网络是以图像、以及表征所述图像中字符的类型的字符标签为训练样本，并以识别出图像中的字符的类型为目标进行训练得到的；将对应待检测图像的各个特征图的每一栏，串联为特征序列中的一个向量，并将串联得到的向量确定为待检测图像的字符维度特征。

在一些实施例中，利用字符维度特征提取网络的卷积层从输入图像中提取特征序列，特征序列中的每一个特征向量是从特征图中从左向右按列生成，第i个特征向量是由所有特征图第i列生成的特征向量连接而成，每一列的宽度被设置为一个像素，由于卷积层，最大池化层和激活函数的平移不变性，所以每一列的特征图对应着原图中的一个矩形区域，而且这个矩形区域是与其在特征图中相对应的从左向右的列是相同顺序的，那么就可以认为特征序列中的每一个特征向量也是与原图中的每一个矩形区域相对应的，这里字符维度特征提取的原理和图像维度特征提取原理类似，区别在于使用不同的网络实现特征的提取，而不同的网络的区别主要在于训练时的侧重点不同，一个是对图像边缘进行学习，另一个是对图像的字符边缘进行学习，针对于不存在真实字符的图像，也可以提取字符维度特征，字符维度特征只是在于训练过程中以字符作为响应进行训练的，表征相对于图像维度特征更加细节的特征。

在步骤202中，将待检测图像的图像维度特征和字符维度特征进行连接，得到对应待检测图像的融合特征。

参见图4B，图4B是本发明实施例提供的基于人工智能的图像水印处理方法的一个可选的流程示意图，步骤202中将待检测图像的图像维度特征和字符维度特征进行连接，得到对应待检测图像的融合特征，可以通过图4B中的步骤2021-2022实现。

在步骤2021中，对字符维度特征执行卷积处理，以使字符维度特征的通道数修正为与图像维度特征的通道数一致。

在步骤2022中，将经过卷积处理的字符维度特征与图像维度特征进行连接处理，得到对应待检测图像的融合特征。

在一些实施例中，利用字符维度特征提取网络获得图像的字符维度特征，然后对字符维度特征做一个1*1的卷积处理，从而将字符维度特征的通道数修正为与图像特征层的通道数一致，随后与图像特征层做连接操作，从而字符维度特征就融入到整个检测框架中，并且在后续的分类和位置回归中都起到与图像维度特征互补或者增强的左右，如此提升整个水印检测的精度。

在步骤203中，基于待检测图像的图像维度特征，确定在待检测图像中进行水印检测的候选区域。

在一些实施例中，步骤203中基于待检测图像的图像维度特征，确定在待检测图像中进行水印检测的候选区域，可以通过以下技术方案实现，将待检测图像进行均匀分割得到多个网格；基于对应待检测图像的图像维度特征，获取对应各个网格的边界框；对对应各个网格的边界框进行回归处理，从经过回归处理的边界框中确定用于进行水印检测的候选区域。

在一些实施例中，首先需要将图像进行尺寸调整，这里优选为将尺寸调整为448*448的大小，由于在检测过程中需要图像的细粒度信息，因此优选使用高分辨率的输入，之后将调整后的图像输入水印识别模型，得到边界框的分类和回归结果，最后用非极大值抑制来筛选出最终的边界框，在进行检测时，水印识别模型首先将输入图片分成S*S个格子，若一个物体的中心点落到某个格子中，那么这个格子就负责检测出该物体，对于每个格子，水印识别模型都会预测出一定数目的边界框，而对于每个边界框，水印识别模型都会预测出5个值，其中4个代表边界框的位置，还有一个代表边界框的置信度的值，边界框位置值(x,y,w,h)，(x，y)是边界框的中心点的位置，这个位置值是相对于格子归一化到0-1之间的数值，(w，h)是边界框的宽和高，这个也是相对于整张图像而言的，即w为边界框实际的宽/图像的宽，h为边界框实际的高/图像的高，这样做也是将w和h归一到0-1之间，从而利于之后的回归过程，每个边界框都有一个置信度的值，表示预测的边界框包含一个物体的置信度，置信度confidence的公式参见公式(2)

从公式(2)可以理解这个置信度衡量了两个方面：通过Pr(object)表征一个是边界框是否包含物体，通过

表征边界框对于物体的位置预测的准确率，即边界框和真实边界框的重叠面积值。如果一个边界框不包含物体，那么这个边界框的置信度为0，如果一个边界框包含物体，那么Pr(object)为1，置信度就是边界框和真实边界框的重叠面积值，此外，水印识别模型还会为每个格子进行分类，为每个格子都预测一组条件概率，对应格子的一定数目的边界框共享这个条件概率，综上所述，一共有S*S个格子，假设每个格子预测B个边界框，每个边界框预测5个值，此外，每个格子预测C个类别，所以检测器最终需要预测一个S*S*(B*5+C)大小的张量。

在一些实施例中，从经过回归处理的边界框中确定用于进行水印检测的候选区域，可以通过以下技术方案实现，当经过回归处理之后得到的边界框的数目为多个时，将经过回归处理之后得到的多个边界框的置信度进行排序，确定置信度最高的边界框为进行水印检测的候选区域，并针对排序中除置信度最高的边界框之外的每一个边界框执行以下处理：确定边界框与排序中置信度最高的边界框之间的重叠面积，并将重叠面积大于重叠面积阈值的边界框删除；对重叠面积不大于重叠面积阈值的边界框的置信度进行再次排序，确定置信度最高的边界框为进行水印检测的候选区域。在执行了上述技术方案之后，针对再次排序中除置信度最高的边界框之外的每一个边界框执行以下处理：确定边界框与再次排序中置信度最高的边界框之间的重叠面积，并将重叠面积大于重叠面积阈值的边界框删除，直到不存在重叠面积大于重叠面积阈值的两个边界框。

在一些实施例中，非极大值抑制(NMS，Non-Maximum Suppression)，是抑制不是极大值的元素，可以理解为局部最大搜索，用于目标检测中提取置信度最高的窗口的，例如在行人检测中，滑动窗口经提取特征，经分类器分类识别后，每个窗口都会得到一个置信度分数，但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况，这时就需要用到NMS来选取那些邻域里分数最高且抑制那些分数低的窗口，基于每一个边界框的置信度，使用回归网络精修每个候选框的位置，最终应用NMS剔除掉重复的边界框留下需要的边界框，对于边界框的列表B及其对应的置信度S，执行下述步骤：选择具有最大置信度的边界框M，将其从B集合中移除并加入到最终的检测结果中，通常将B中剩余检测框中与M的重叠面积大于重叠面积阈值的边界框从B中移除，并重复这个过程，直到B为空，重叠率阈值优选为0.3到0.5之间，这里的排序，可以是通过分类器得到的得分或概率排序。

在步骤204中，基于待检测图像的融合特征，对待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，并将分类结果包括水印的候选区域的位置确定为水印的位置。

参见图4C，图4C是本发明实施例提供的基于人工智能的图像水印处理方法的一个可选的流程示意图，步骤204中基于待检测图像的融合特征，对待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，可以通过图4C中的步骤2041-2043实现。

在步骤2041中，通过水印识别模型的预测层并结合对应待检测图像的融合特征，对各个候选区域进行分类，得到各个候选区域所属的类别和对应类别的类别概率。

在步骤2042中，当类别概率超过类别概率阈值时，将类别确定为候选区域的类别。

在步骤2043中，当候选区域的类别为水印时，确定候选区域中包括水印。

在一些实施例中，通过水印识别模型的预测层并结合对应待检测图像的融合特征，对各个候选区域进行分类，得到各个候选区域所属的类别和对应类别的类别概率。当类别概率超过类别概率阈值时，将类别确定为候选区域的类别。当候选区域的类别为水印时，确定候选区域中包括水印。

在一些实施例中，水印识别模型的预测层可以实现分类器的功能，候选区域的类别可以是包括人物类的类别标签、动物类的类别标签、植物类的类别标签、水印类的类别标签，水印类中又包括广告水印的类别标签、台标水印的类别标签、个人水印的类别标签等等，台标水印可以包括合法台标水印和不合法台标水印，当确定候选区域A所属类别为台标水印，且类别概率超过改概率阈值时，将台标水印确定为该候选区域的类别，即确定候选区域中包括台标水印，候选区域中还携带有位置信息，则确定该待检测图像中包括台标水印以及台标水印的位置。

参见图4D，图4D是本发明实施例提供的基于人工智能的图像水印处理方法的一个可选的流程示意图，本发明实施例提供的基于人工智能的图像水印处理方法还可以执行图4D中的步骤205-206。

在步骤205中，对候选视频进行解码得到多帧待检测图像。

在步骤206中，当解码得到的多帧待检测图像中包括水印的图像的数目大于异常阈值时，确定视频为违规视频。

在一些实施例中，对于水印识别模型的应用可以是图像场景还可以是视频场景，对于图像场景而言，可以是获取客户端接收到的用户上传的图像，客户端将用户上传的图像发送至服务器，服务器对图像进行水印识别，进而根据水印识别的结果对图像进行召回处理或则推荐处理，当识别出图像内包含水印时，对图像进行召回处理，这里的召回处理可以是将图像进行销毁处理，并且对发布该图像的用户账号进行召回通知，当相同用户账号上传需要被召回的图像超过数目阈值时，对该用户账号采取警告或者封号处理，对于视频场景而言，视频是由图像帧组成的，即可以对候选视频进行解码得到多帧待检测图像，同时视频可以是经过剪辑形成的，即同一个视频中的图像帧可以是不同来源，因此，即便视频中的某帧图像中包含有境外台标或者其他不合规水印，视频的大部分图像帧也可以是正常的图像帧，那么当对应视频的待检测图像中包括水印的图像的数目大于异常阈值时，确定该视频为违规视频。

在一些实施例中，具体解码视频的得到多帧待检测图像的方式有多种，可以对候选视频进行以下至少之一的处理，得到对应候选视频的多帧图像：对候选视频进行解码，并对解码得到的图像进行均匀的抽帧，将抽帧得到多帧图像作为待检测图像；对候选视频进行解码，并对解码得到的关键帧进行抽帧，将抽帧得到的多帧关键帧作为待检测图像；将候选视频进行解码，并将解码得到的图像中携带审核标记时间戳的图像帧作为待检测图像。

在一些实施例中，对视频的所有帧进行水印识别是会耗费巨大的计算量，因此，可以对候选视频进行均匀的抽帧处理，每隔5帧抽取一帧作为待检测图像帧，可以对候选视频的关键帧进行抽取，例如，抽取具有关键情节的视频帧作为待检测图像，这里的关键情节可以是视频发布者标记的，也可以是通过历史关键情节的出现时间戳进行估计得到的，可以对候选视频中携带审核标记时间戳的图像帧进行抽取，作为待检测图像，在视频上传之后的人工审核阶段中，视频中会添加有审核标记，审核标记时间戳表征了审核标记出现的时间点，将携带有审核标记时间戳的图像帧作为待检测图像进行自动水印识别，以防止人工误检。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。本发明实施例提供的基于人工智能的图像水印处理方法能应用到智能视频审核、视频推荐等场景中，从而实现全自动、高精度的对敏感水印的检测和识别，提高用户体验。

在智能审核的应用场景中，本发明实施例提供的基于人工智能的图像水印处理方法可以用于识别图像中是否具有敏感水印，比如，境外不合规的台标水印，从而有效的对这种图像或者视频进行删除，以保障图像或者视频安全。

参见图5，图5是本发明实施例提供的基于人工智能的图像水印处理的实现架构图，本架构的输入是一张图像，将待检测图像输入到目标检测模块，以提取图像维度特征，将待检测图像输入到字符维度特征提取模块，以提取字符维度特征，将字符维度特征输入到目标检测模块(目标检测模型)中，通过目标检测模块中的特征融合模块，将字符维度特征与图像维度特征进行连接，得到融合特征，目标检测模块中的分类模块基于融合特征输出分类结果，完成水印定位和分类的任务。对于目标检测模块而言，其通常是视觉目标检测，常用卷积神经网络都可以用于视觉目标检测，比如统一实时目标检测模型(yolo，Y ouOnly Look Once)，这里还可以利用其他目标检测模型。

参见图6，图6是本发明实施例提供的目标检测模型的结构图，yolo直接使用一个卷积神经网络来实现整个检测过程，其中，卷积层用来提取特征，全连接层用来进行分类和预测，网络结构是受谷歌网络模型Googlenet的启发，将其中的inception层替换成1*1和3*3的卷积，最终整个网络包括24个卷积层和2个全连接层，其中卷积层的前20层是修改后的GoogleNet，yolo直接在输出层回归边界框的位置和边界框所属类别，通过这种方式，yolo可实现45帧每秒的运算速度，完全能满足实时性要求(通常达到24帧每秒，人眼就认为是连续的)，整个结构主要分为三个部分：卷积层，目标检测层，非极大值抑制筛选层，卷积层采用inceptionV1网络，且基于inceptionV1进行了改造，用一个1x1的卷积，并联一个3x3的卷积来进行替代，共20层，(可以认为只使用了inception模型中的一个分支)，这一层主要是进行特征提取，从而提高模型泛化能力，待检测图像经过第一次卷积操作，输出通道的维度是32，卷积核的大小是3*3，输出的特征图的大小是416*416，接着进行输出通道维度是64，卷积核大小是3*3的卷积操作，步长为2，输出的特征图的大小是208*208，以此类推得到52*52的张量和26*26的张量。在目标检测阶段，先经过4个卷积层和2个全连接层，最后生成7x7x30的输出，先经过4个卷积层的目的是为了提高模型泛化能力，将一张448x448的原图分割成了7x7个网格，然后每个单元格负责去检测那些中心点落在该格子内的目标，对于每个格子，目标检测层都会预测出一定数目的边界框，而对于每个边界框，水印识别模型都会预测出5个值，其中4个代表边界框的位置，还有一个代表边界框的置信度的值，边界框位置值(x,y,w,h)，(x，y)是边界框的中心点的位置，这个位置值是相对于格子归一化到0-1之间的数值，(w，h)是边界框的宽和高，这个也是相对于整张图像而言的，即w为边界框实际的宽/图像的宽，h为边界框实际的高/图像的高，这样做也是将w和h归一到0-1之间，从而利于之后的回归过程，每个边界框都有一个置信度的值，表示预测的边界框包含一个物体的置信度，预测阶段，yolo输出了3个不同尺度的特征图，如图6所示的第一预测、第二预测以及第三预测，采用多尺度来对不同尺寸的目标进行检测，越精细的网格就可以检测出越精细的物体，第一预测、第二预测以及第三预测的深度都是255，采用上采样的方法来实现这种多尺度的特征图，连接操作的两个张量是具有一样尺度的(两处拼接分别是26x26尺度拼接和52x52尺度拼接，通过上采样来保证拼接的张量尺度相同)，不是直接将中间层的处理结果作为特征图的输出，而是将和后面网络层的上采样结果进行一个拼接之后的处理结果作为特征图，以实现不同尺度的预测。

本发明实施例提供的基于人工智能的图像水印处理方法的创新点在于字符维度特征提取模块与目标检测模块的融合，为了提高识别精度，本发明实施例提供的基于人工智能的图像水印处理方法引入字符维度特征到在目标检测框架中，具体参见图7所示，图7是本发明实施例提供的基于人工智能的图像水印处理方法的水印识别模型的结构图，图7与图6中所采用的基本框架相同，区别在于利用字符维度特征提取模块获得图像的字符维度特征，然后将字符维度特征做一个1*1卷积处理，以将字符维度特征的通道数修正为与图像特征层的通道数一致，随后与图像特征层做连接操作，这样，字符维度特征就融入到整个检测框架中，并且在后续的分类和位置回归中都起到与图像特征互补或者增强的左右，如此提升整个目标检测的精度。

具体地，字符维度特征提取模块可以采用任意成熟的字符识别模型中，将转录层之前的那一层特征作为字符维度特征，比如通用框架的字符识别模型(由卷积神经网络、双向长短期记忆网络和链接机制的时序分类器组成的模型)，参见图8，图8是本发明实施例提供的基于人工智能的图像水印处理方法中的字符维度提取网络的结构图，将最后的双向长短期记忆网络的输出作为本发明实施例提供的基于人工智能的图像水印处理方法中的字符维度特征，需要指出的是，字符识别模型是预先训练好的模型，不用再参与到目标检测模块的训练，因此，才会对目标检测模型有一个互补和加强的作用，共同训练的话，字符识别模型会存在缺少标签的问题，目标检测模型的标签是类别，但是字符识别模型训练的标签是字符，即这个图像中的汉字是否正确，两个模型的标签无法统一，因此不能共同训练，另外，即使能共同训练，则训练的是同一批数据，学习到的也是这一批数据的特征，就不再具有互补性了，字符识别模型预先训练好，训练来源是不同于目标检测的数据，因此学习到的特征是不同于目标检测数据的特征。图像水印处理方法中所使用的网络的目标函数是估计的类别与真实的类别之间的误差以及估计的位置信息与真实的位置信息之间的误差，这两种误差的和，通过最小化该目标函数来训练整个网络。对于图7的模型，因为字符维度特征的引入并没有改变原有的物体检测模型的框架，如yolo，原有的训练方法对于水印识别模型仍然有效，即训练过程还是在最小化yolo的损失函数，参见公式(3)：

L(O,o,C,c,l,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(l,g) (3)

其中，L_loc(l,g)是目标定位偏移量损失，L_conf(o,c)是目标置信度损失以及L_cla(O,C)是目标分类损失，λ₁、λ₂、λ₃分别是是平衡系数。

目标置信度可以理解为预测目标矩形框内存在目标的概率，即候选区域中存在某一对象的概率，目标置信度损失L_conf(o,c)采用的是二值交叉熵损失，参见公式(4)和(5)：

其中,o_i∈{0,1}表示预测目标边界框i中是否真实存在目标，0表示不存在，1表示存在，

表示预测目标矩形框i内是否存在目标的激活函数概率(预测概率值是通过激活函数得到)。

目标分类损失L_cla(O,C)采用的是二值交叉熵损失，参见公式(6)和(7)：

其中

表示网络预测目标边界框i内存在第j类目标的激活函数概率，o_ij∈{0,1}表示预测目标边界框i中是否真实存在第j类目标，0表示不存在，1表示存在。

目标定位偏移量损失L_loc(l,g)采用的是二值交叉熵损失，参见公式(8)：

其中，

表示预测矩形框坐标偏移量，/>

表示与之匹配的真实矩形框与默认框之间的坐标偏移量，(b^x,b^y,b^w,b^h)为预测的目标矩形框参数，(c_x,c_y,p^w,p^h)为默认矩形框参数，(g^x,g^y,g^w,g^h)为与之匹配的真实目标矩形框参数。

实际训练中，对公式(3)的目标函数最小化即可，比如可以使用亚当adam梯度下降的方法，或者其他任何有效的梯度下降法。本发明实施例提供的基于人工智能的图像水印处理方法可以适用于任何通用的目标检测模型，并且不用修改优化目标和优化的方式，适用性非常强。

本发明实施例提供的基于人工智能的图像水印处理方法是基于引入了字符维度特征的目标检测系统实现的，在通用的物体检测框架(目标检测模型)中引入了独立的字符维度特征，可以有效的提高检测精度，从而有效的解决识别图文结合的台标或者水印中单靠图像很难区分识别目标的问题，通过引入字符维度特征，更能从细节进行区分，根据测试结果，在复杂的水印检测中准确率和召回率都显著优于其它已有参考系统。目标检测框架和字符维度特征提取器采用了yolo模型和由卷积神经网络以及双向长短期记忆网络组成的模型，还可以替换为其他通用目标检测框架比如快速RCNN和多分类单杆检测器，都不会改变原有的目标检测框架的训练过程和使用。

上述目标检测框架是基于yolo实现的，下面介绍通过循环卷积神经网络来实现目标检测的过程，目标检测有两个主要任务：物体分类和定位，输入一张图像，通过指定算法从图像中提取多个类别独立的候选区域(这些候选区域中存在目标区域)，对于每个候选区域利用卷积神经网络来获取一个特征向量，对于每个区域相应的特征向量，利用支持向量机进行分类，并通过边界框回归调整目标边界框的尺寸，首先循环卷积神经网络首先需要获取多个候选区域，能够生成候选区域的方法很多，比如通过一些传统图像水印处理方法将图像分成很多小尺寸区域，然后根据小尺寸区域的特征合得到大尺寸区域，以实现候选区域的选取，对于上述获取的候选区域，需进一步使用CNN提取对应的特征向量，接着进一步使用支持向量机进行物体分类，向支持向量机输入特征向量，输出类别得分，将2000×4096维特征(2000个候选框，每个候选框获得4096的特征向量)与20个SVM组成的权值矩阵4096×20相乘(20种分类，SVM是二分类器，每个种类训练一个SVM，则有20个SVM)，获得2000×20维矩阵表示每个边界框是某个物体类别的得分，分别对上述2000×20维矩阵中每列，即每一类进行非极大值抑制剔除重叠建议框，得到该列即该类中得分最高的一些候选框；使用一个回归器进行边框回归，输入为卷积神经网络pool5层的4096维特征向量，输出为x、y方向的缩放和平移，实现边框的修正，在进行测试前仍需回归器进行训练。

下面继续说明本发明实施例提供的基于人工智能的图像水印处理装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的基于人工智能的图像水印处理装置255中的软件模块可以包括：特征获取模块2551，用于获取待检测图像的图像维度特征，并获取待检测图像的字符维度特征；特征融合模块2552，用于将待检测图像的图像维度特征和字符维度特征进行连接，得到对应待检测图像的融合特征；候选区域确定模块2553，用于基于待检测图像的图像维度特征，确定在待检测图像中进行水印检测的候选区域；水印确定模块2554，用于基于待检测图像的融合特征，对待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，并将分类结果包括水印的候选区域的位置确定为水印的位置。

在一些实施例中，特征获取模块2551，还用于：通过图像维度特征提取网络对待检测图像进行特征提取，得到对应待检测图像的多个特征图；其中，图像维度特征提取网络是以图像、以及表征图像中对象的类型的图像标签为训练样本，并以识别出图像中对象的类型为目标进行训练得到的；将对应待检测图像的各个特征图的每一栏，串联为特征序列中的一个向量，并将串联得到的向量确定为待检测图像的图像维度特征。

在一些实施例中，特征获取模块2551，还用于：通过字符维度特征提取网络对待检测图像进行特征提取，得到对应待检测图像的多个特征图；其中，字符维度特征提取网络是以图像、以及表征所述图像中字符的类型的字符标签为训练样本，并以识别出图像中的字符的类型为目标进行训练得到的；将对应待检测图像的各个特征图的每一栏，串联为特征序列中的一个向量，并将串联得到的向量确定为待检测图像的字符维度特征。

在一些实施例中，特征融合模块2552，还用于：对字符维度特征执行卷积处理，以使字符维度特征的通道数修正为与图像维度特征的通道数一致；将经过卷积处理的字符维度特征与图像维度特征进行连接处理，得到对应待检测图像的融合特征。

在一些实施例中，候选区域确定模块2553，还用于：将待检测图像进行均匀分割得到多个网格；基于对应待检测图像的图像维度特征，获取对应各个网格的边界框；对对应各个网格的边界框进行回归处理，从经过回归处理之后得到的边界框中确定用于进行水印检测的候选区域。

在一些实施例中，候选区域确定模块2553，还用于：当经过回归处理的边界框的数目为多个时，将经过回归处理之后得到的多个边界框的置信度进行排序，确定置信度最高的边界框为进行水印检测的候选区域，并针对排序中除置信度最高的边界框之外中的每一个边界框执行以下处理：确定边界框与排序中置信度最高的边界框之间的重叠面积，并将重叠面积大于重叠面积阈值的边界框删除；对重叠面积不大于重叠面积阈值的边界框的置信度进行再次排序，确定置信度最高的边界框为进行水印检测的候选区域；候选区域确定模块2553，还用于：针对所述再次排序中除置信度最高的边界框之外的每一个边界框执行以下处理：确定边界框与再次排序中置信度最高的边界框之间的重叠面积，并将重叠面积大于重叠面积阈值的边界框删除，直到不存在重叠面积大于所述重叠面积阈值的两个边界框。

在一些实施例中，水印确定模块2554，还用于：通过水印识别模型的预测层并结合对应待检测图像的融合特征，对各个候选区域进行分类，得到各个候选区域所属的类别和对应类别的类别概率；当类别概率超过类别概率阈值时，将类别确定为候选区域的类别；当候选区域的类别为水印时，确定候选区域中包括水印。

在一些实施例中，基于人工智能的图像水印处理装置255还包括：训练模块2555，用于：基于图像样本、对应图像样本的字符标签、以及对应图像样本的类别，构建训练样本集合，并基于训练样本集合训练包括字符维度特征提取网络的字符识别模型；基于目标检测模型和字符维度特征提取网络，构建水印识别模型，水印识别模型用于确定图像中水印所处的候选区域、以及图像中各个候选区域的类别；基于训练样本集合训练水印识别模型。

在一些实施例中，训练模块2555，还用于：初始化字符识别模型，并初始化包括输入样本、字符标签以及对应输入样本的字符维度识别结果的损失函数；在字符识别模型每次迭代训练过程中执行以下处理：通过字符识别模型，对训练样本集合包括的图像样本进行字符维度识别，得到对应图像样本的字符维度识别结果；将对应图像样本的字符标签和字符维度识别结果代入损失函数，以确定损失函数取得最小值时对应的字符识别模型参数；根据所确定的字符识别模型参数更新字符识别模型。

在一些实施例中，训练模块2555，还用于：初始化水印识别模型，并初始化包括输入样本、对应输入样本的水印识别结果的损失函数；在水印识别模型每次迭代训练过程中执行以下处理：通过水印识别模型对训练样本集合包括的图像样本进行水印识别，得到对应图像样本的水印识别结果；将对应图像样本的类别和水印识别结果代入损失函数，以确定损失函数取得最小值时对应的目标检测模型参数；保持字符识别模型参数不变，根据所确定的目标检测模型参数更新水印识别模型。

在一些实施例中，基于人工智能的图像水印处理装置255还包括：视频处理模块2556，用于：对候选视频进行解码得到多帧待检测图像；当解码得到的多帧待检测图像中包括水印的图像的数目大于异常阈值时，确定视频为违规视频。

在一些实施例中，视频处理模块2556，还用于：对候选视频进行以下至少之一的处理，得到对应候选视频的多帧图像：对候选视频进行解码，并对解码得到的图像进行均匀的抽帧，将抽帧得到多帧图像作为待检测图像；对候选视频进行解码，并对解码得到的关键帧进行抽帧，将抽帧得到的多帧关键帧作为待检测图像；将候选视频进行解码，并将解码得到的图像中携带审核标记时间戳的图像帧作为待检测图像。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的图像水印处理方法，例如，如图4A-4D示出的基于人工智能的图像水印处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本发明实施例提供的基于人工智能的图像水印处理方法，能够利用图像维度特征来筛选出候选区域，利用图像维度特征和字符维度特征来进行候选区域的分类识别，从而提高分类准确率以及识别精度。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的图像水印处理方法，其特征在于，所述方法通过水印识别模型实现，所述水印识别模型包括目标检测模型以及字符维度特征提取网络，所述方法包括：

通过所述目标检测模型的卷积结构获取待检测图像的图像维度特征，并通过所述字符维度特征提取网络获取所述待检测图像的字符维度特征，其中，所述卷积结构是将inceptionV1网络中的inception层替换成并联卷积得到的，所述并联卷积是1x1的卷积并联一个3x3的卷积；

将经过卷积处理的字符维度特征与所述图像维度特征进行连接处理，得到对应所述待检测图像的融合特征；

通过所述目标检测模型的目标检测层基于所述待检测图像的图像维度特征，确定在所述待检测图像中进行水印检测的候选区域；

通过所述目标检测模型的目标检测层基于所述待检测图像的融合特征，对所述待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，并将分类结果包括水印的候选区域的位置确定为水印的位置。

2.根据权利要求1所述的方法，其特征在于，所述通过所述目标检测模型的卷积结构获取待检测图像的图像维度特征，包括：

通过所述目标检测模型的卷积结构对所述待检测图像进行特征提取，得到对应所述待检测图像的多个特征图；

其中，所述目标检测模型的卷积结构是以图像、以及表征所述图像中对象的类型的图像标签为训练样本，并以识别出所述图像中对象的类型为目标进行训练得到的；

3.根据权利要求1所述的方法，其特征在于，所述通过所述字符维度特征提取网络获取所述待检测图像的字符维度特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述目标检测模型的目标检测层基于所述待检测图像的图像维度特征，确定在所述待检测图像中进行水印检测的候选区域，包括：

通过所述目标检测模型的目标检测层执行以下处理：

将所述待检测图像进行均匀分割得到多个网格；

5.根据权利要求4所述的方法，其特征在于，所述从经过回归处理的边界框中确定用于进行水印检测的候选区域，包括：

针对所述排序中除置信度最高的边界框之外的每一个边界框执行以下处理：

确定所述边界框与所述排序中置信度最高的边界框之间的重叠面积，并将重叠面积大于重叠面积阈值的边界框删除；

所述方法还包括：

针对所述再次排序中除置信度最高的边界框之外的每一个边界框执行以下处理：

确定所述边界框与所述再次排序中置信度最高的边界框之间的重叠面积，并将重叠面积大于重叠面积阈值的边界框删除，直到不存在重叠面积大于所述重叠面积阈值的两个边界框。

6.根据权利要求1所述的方法，其特征在于，所述通过所述目标检测模型的目标检测层基于所述待检测图像的融合特征，对所述待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，包括：

通过所述目标检测模型的目标检测层，并结合对应所述待检测图像的融合特征对各个候选区域进行分类，得到各个候选区域所属的类别和对应所述类别的类别概率；

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

基于所述目标检测模型和所述字符维度特征提取网络，构建所述水印识别模型；

基于所述训练样本集合训练所述水印识别模型。

8.根据权利要求7所述的方法，其特征在于，

所述基于所述训练样本集合训练字符识别模型，包括：

在所述字符识别模型每次迭代训练过程中执行以下处理：

根据所确定的字符识别模型参数更新所述字符识别模型。

9.根据权利要求7所述的方法，其特征在于，所述基于所述训练样本集合训练所述水印识别模型，包括：

在所述水印识别模型每次迭代训练过程中执行以下处理：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对候选视频进行解码得到多帧所述待检测图像；

11.根据权利要求10所述的方法，其特征在于，所述对候选视频进行解码得到多帧所述待检测图像，包括：

12.一种基于人工智能的图像水印处理装置，其特征在于，所述装置通过水印识别模型实现，所述水印识别模型包括目标检测模型以及字符维度特征提取网络，所述装置包括：

特征获取模块，用于通过所述目标检测模型的卷积结构获取待检测图像的图像维度特征，并通过所述字符维度特征提取网络获取所述待检测图像的字符维度特征，其中，所述卷积结构是将inceptionV1网络中的inception层替换成并联卷积得到的，所述并联卷积是1x1的卷积并联一个3x3的卷积；

特征融合模块，用于对所述字符维度特征执行卷积处理，以使所述字符维度特征的通道数修正为与所述图像维度特征的通道数一致；将经过卷积处理的字符维度特征与所述图像维度特征进行连接处理，得到对应所述待检测图像的融合特征；

候选区域确定模块，用于通过所述目标检测模型的目标检测层基于所述待检测图像的图像维度特征，确定在所述待检测图像中进行水印检测的候选区域；

水印确定模块，用于通过所述目标检测模型的目标检测层基于所述待检测图像的融合特征，对所述待检测图像中的各个候选区域进行分类处理，得到分类结果包括水印的候选区域，并将分类结果包括水印的候选区域的位置确定为水印的位置。

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的基于人工智能的图像水印处理方法。

14.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至11任一项所述的基于人工智能的图像水印处理方法。