CN112070649A

CN112070649A - 一种去除特定字符串水印的方法及系统

Info

Publication number: CN112070649A
Application number: CN202010943900.5A
Authority: CN
Inventors: 成俊杰; 吕晨; 王永哲; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-11
Anticipated expiration: 2040-09-09
Also published as: CN112070649B

Abstract

本发明公开了一种去除特定字符串水印的方法及系统，其特征在于，将待处理图片输入到文字检测模型，检测是否存在字符串水印，若存在字符串水印，则将字符串所在图片区域截取输入文字识别模型中得到相应字符串，利用正则匹配是否存在特定字符串，利用U‑net生成网络将含字符串水印的图片生成为去除字符串水印的图片，再将原图还原，有助于规避风险，高效的解决去除特定字符串水印的问题，保证网站图片符合搜索引擎优化规则，同时可以随时调整规则，快速应用，无需用户或网站编辑操作，极大的提高了效率，提高了用户体验与网站整体质量。

Description

一种去除特定字符串水印的方法及系统

技术领域

本发明涉及利用水印去除领域，特别是涉及一种去除特定字符串水印的方法和系统。

背景技术

目前，电商网站平台上卖家商品展示的方式主要是以图片和文字展示为主，其中图片展示较为直观全面，深得买家的认可。因此，图片展示成为商品展示的主打展示方式之一。

对于电商平台而言，需要通过搜索引擎优化来获取更多流量，因此需要满足搜索引擎规范要求，部分搜索引擎禁止在图片中添加联系方式等水印，因此电商平台原先大量的带水印的图片需去除联系方式等水印，其他水印则可以保留，因此大量的水印图片无法通过模板方式去除，也无法要求客户自己去除特定字符串水印，同时不同时段的需要去除的字符串规则各不相同，这给电商网站平台图片处理带来了极大的挑战。

如对比文件CN202010278085-PDF所示的一种PDF图纸文字识别方法、系统以及设备，采用多种文字检测方法CTPN、Seglink、Textboxes等，其目的都是在PDF中检测出文字区域，采用CNN、CRNN方法识别文字，但传统去水印方法是基于模板的方法，往往针对使用同一模板生成的水印，去除过程也针对于该模板统一去除，往往整张图片所有水印都去除或另一未知模板生成的水印无法去除，无法做到特定字符串去除和不同模板统一去除，鲁棒性差，而本案采用优化的OCR模型，可以识别不同模板生成的不同水印字符串，同时通过正则匹配，可以选定特定的字符串，不会造成图片中所有字符的出去，鲁棒性更强，准确率更高。

此外，对于原始CRNN模型，采用的主干网络为类似VGG的神经网络，同时字符图片要求高度为32，但实际中，VGG网络特征抽取效果不够显著，同时由于字符图片高度设定为32像素，整体分辨率较低，抽取出的字符信息缺失较多，对后续解码影响较大。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种去除特定字符串水印的方法和系统。

为解决上述技术问题，本发明提供一种去除特定字符串水印的方法，其特征在于，将待处理图片输入到文字检测模型，检测是否存在字符串水印，若存在字符串水印，则将字符串所在图片区域截取输入文字识别模型中得到相应字符串，利用正则匹配是否存在特定字符串，若存在特定字符串，则将字符串所在图片区域截取输入生成网络中，将该区域字符串去除，包括如下步骤：

步骤一：将待处理图片输入文字检测模型，检测是否存在字符串，若存在字符串，则返回字符串在图片中位置坐标，若不存在字符串，则返回空；

步骤二：若待处理图片含有字符串，则根据步骤一中字符串坐标，在待处理图片中截取相应字符串图片，将字符串图片输入文字识别模型，得到相应字符串；

步骤三：设定相应正则表达式，例如匹配手机号码、匹配邮箱等正则，对步骤二中识别的字符串进行匹配，若匹配成功，则返回字符串所在图片坐标；

步骤四：利用步骤三中匹配成功字符串的坐标，在待处理图片中截取相应图片，输入去水印生成网络，得到去除特定字符串水印的截图，将去除水印的截图还原到原待处理图片中，得到完整的去除特定字符串水印的图片。

所述步骤一中，采用CRAFT文字检测模型对图片中字符串进行检测，若待处理图片存在字符串，则返回字符串所在图片中的坐标；所述CRAFT文字检测模型检测单个字符串及字符串间的连接关系，根据字符串间的连接关系确定文本行。

所述步骤一中，对于一张H*W*3的3通道图片，CRAFT文字检测模型使用VGG网络结构6stage,32倍下采样,以不同的stage得到不同的特征图，通过上采样将不同的stage的特征图进行融合得到H/2*W/2大小的预测图，预测图包括单字符中心区域的概率和相邻字符区域中心的概率，后处理过程对0-1之间的概率进行取阈值计算，根据字符连接概率将文字区域连接，融合最小四边形区域得到文字框。

所述步骤二中，根据步骤一中检测的字符串坐标，在待处理图片中截取相应字符串图片，将图片等比例缩放到固定高度，输入CRNN文字识别模型对字符串图片进行识别，得到相应字符串，所述CRNN文字识别模型采用端到端的训练。

所述步骤二中，根据所需去除的特定字符设定相应的字符字典，所述字符字典包括阿拉伯数字和符号，截取一定数量的图片作为背景，在背景中根据字符字典生成相应训练数据样本，用于训练CRNN文字识别模型，所述CRNN文字识别模型的输入高度固定为64，利用resnet34网络进行特征抽取，利用biLSTM在卷积特征基础上提取文字序列特征，利用CTC对文字序列进行解码，解决字符对齐问题，去除重复字符，得到对应字符串。

所述步骤三中，根据特定需求构建不同正则表达式，对步骤二中识别的字符串逐一运用正则匹配，若匹配成功，则返回字符串所在图片坐标。

所述步骤四中，利用步骤三中匹配成功的特定字符串坐标，在待处理图片中截取出特定字符串截图，保存原先截图尺寸信息，将截图缩放尺寸到256*256，输入去水印生成网络，生成去除水印的图片，再缩放回原先截图尺寸，再根据原先截图坐标，将去水印的截图还原到原图中。

所述步骤四中，所述去水印生成网络为U-net生成网络，训练过程中，采用无水印的图片作为目标图，在无水印图片上随机生成相应数字水印作为输入图，构建输入输出均为256*256的U-net网络结构，损失函数为L1损失，即逐元素间差值的平均绝对值，训练目标为最小化L1损失，batch-size设定为64，epoch设定为20，初始学习率为0.001，并随epoch衰减，训练完成后，对于含有特定字符串的水印截图，输入U-net生成网络，生成无水印的截图。

所述步骤四中，所述随epoch衰减具体为：每5个epoch缩小至原先学习率的1/5。

一种去除特定字符串水印的系统，其特征在于：包括依次相连的文字检测模块、文字识别模块、特定字符串匹配模块、去水印模块和图片还原模块；

所述文字检测模块，用于检测待处理图片中是否存在字符串；

所述文字识别模块，用于将检测的字符串图片识别转换为字符串；

所述特定字符串匹配模块，用于判断所识别转换的字符串是否为需求去除的特定字符串；

所述去水印模块，用于将含有特定字符串的图片中特定字符串去除；

所述图片还原模块，用于将已去除特定字符串的图片还原到原图中。

本发明所达到的有益效果:本发明采用一种去除特定字符串水印的方法和系统，采用CRAFT和CRNN的最优组合，通过改造CRNN网络提高识别准确率，利用正则匹配得到需要去除的特定字符串，能快速准确的识别待处理图片中是否含有特定字符串水印，若识别出含有相应字符串水印则先通过截图缩小处理范围，利用U-net生成网络将含字符串水印的图片生成为去除字符串水印的图片，再将原图还原，有助于规避风险，高效的解决去除特定字符串水印的问题，保证网站图片符合搜索引擎优化规则，同时可以随时调整规则，快速应用，无需用户或网站编辑操作，极大的提高了效率，提高了用户体验与网站整体质量。

附图说明

图1为本发明的示例性实施例的方法流程示意图；

图2为本发明的示例性实施例的系统结构示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示，本实施例的一种去除特定字符串水印的方法，将待处理图片输入到文字检测模型，检测是否存在字符串水印，若存在字符串水印，则将字符串所在图片区域截取输入文字识别模型中得到相应字符串，利用正则匹配是否存在特定字符串，若存在特定字符串，则将字符串所在图片区域截取输入生成网络中，将该区域字符串去除，包括如下步骤：

步骤S1：将待处理图片输入文字检测模型，检测是否存在字符串，若存在字符串，则返回字符串在图片中位置坐标，若不存在字符串，则返回空。

步骤S2：若待处理图片含有字符串，则根据步骤S1中字符串坐标，在待处理图片中截取相应字符串图片，将字符串图片输入文字识别模型，得到相应字符串。

步骤S3：设定相应正则表达式，例如匹配手机号码、匹配邮箱等正则，对步骤S2中识别的字符串进行匹配，若匹配成功，则返回字符串所在图片坐标。

步骤S4：利用步骤S3中匹配成功字符串的坐标，在待处理图片中截取相应图片，输入去水印生成网络，得到去除特定字符串水印的截图，再将去除水印的截图还原到原待处理图片中，得到完整的去除特定字符串水印的图片。

所述步骤S1中，采用CRAFT文字检测模型对图片中字符串进行检测，若待处理图片存在字符串，则返回字符串所在图片中的坐标。深度学习CRAFT网络与其他文字检测网络不同，它不把文本框当做目标，而是先检测单个字符串及字符串间的连接关系，然后根据字符串间的连接关系确定最终的文本行，使网络更加关注字符串级别的内容而不需要关注整个文本实例，对短文本检测效果提升明显，提高了文字识别的召回率。

所述步骤S1中，对于一张H*W*3的3通道图片，CRAFT文字检测模型使用VGG网络结构6stage,32倍下采样,以不同的stage得到不同的特征图，通过上采样将不同的stage的特征图进行融合得到H/2*W/2大小的预测图，预测图分别为单字符中心区域的概率和相邻字符区域中心的概率图，后处理过程对0-1之间的概率图进行取阈值计算，根据字符连接概率将文字区域连接，融合最小四边形区域得到文字框。

所述步骤S2中，根据步骤S1中检测的字符串坐标，在待处理图片中截取相应字符串图片，为了通过卷积抽取字符串图片特征，将图片高度方向的特征统一到固定维度，需要将图片等比例缩放到固定高度，输入CRNN文字识别模型对字符串图片进行识别，得到相应字符串。CRNN文字识别网络采用端到端的训练，不需要进行字符串分割和水平缩放操作，只需要垂直方向缩放到固定长度即可，同时可以识别任意长度的序列。

所述步骤S2中，根据所需去除的特定字符设定相应的字符字典，截取一定数量的图片作为背景，在背景中根据字符字典生成相应训练数据样本，所述CRNN文字识别模型的输入高度固定为64，利用resnet34网络进行特征抽取，利用biLSTM在卷积特征基础上提取文字序列特征，利用CTC对文字序列进行解码，解决字符对齐问题，去除重复字符，得到对应字符串。

根据所需去除的特定字符设定相应的字符字典，例如需要去除号码符号等，则字符字典设置为阿拉伯数字和各类型符号，截取大量图片作为背景，在背景中根据字符字典生成相应训练数据样本，为了提高识别准确率，对原始CRNN网络进行改造，原始CRNN网络的输入高度为32，为了能获取更多信息，本案将输入高度固定为64，更高的字符串图片分辨率更高，含有的信息更丰富，识别效果更好，对比高度为32的方法提升了5％的准确率，原始的CRNN骨干网络采用的是类似于VGG的多层网络，但特征抽取效果有限，本案采用利用resnet34网络作为特征抽取的骨干网络，对比特征抽取效果更佳,利用biLSTM在卷积特征基础上提取文字序列特征。对于biLSTM解码得到文字序列，序列有可能存在部分字符重复，例如产生的序列为“ccaaattt”,实际结果应该为“cat”,因此利用CTC对结果进行解码，解决字符对齐问题，去除重复字符，得到对应字符串。

所述步骤S3中，根据特定需求构建不同正则表达式，例如对于可能存在的QQ号码的匹配采用re.compile(r'qq.[1-9]\d{4,12}',re.I)，对于可能存在的手机号码采用re.compile("1[3458]\d{9}$|^147\d{8}$|^179\d{8}$",re.I)进行匹配，对步骤S2中识别的字符串逐一运用正则匹配，若匹配成功，则返回字符串所在图片坐标。

所述步骤S4中，利用步骤S3中匹配成功的特定字符串坐标，在待处理图片中截取出特定字符串截图，保存原先截图尺寸信息，将截图缩放尺寸到256×256，输入U-net生成网络，生成去除水印的图片，再缩放回原先截图尺寸，再根据原先截图坐标，将去水印的截图还原到原图中。

所述U-net生成网络原先用于分割，但其通过跳跃结构实现低层特征与高层特征的融合，同时通过转置卷积，可以将小尺寸featuremap上采样还原到输入尺寸。本案中，将U-net用于生成去除特定字符串水印的截图，即去除水印，恢复截图。训练过程中，采用无水印的图片作为目标图，在无水印图片上随机生成相应数字水印作为输入图，构建输入输出均为256×256的U-net网络结构，损失函数为L1损失，即逐元素间差值的平均绝对值，训练目标为最小化L1损失，使得生成的的图片尽可能与无水印的目标图一致，batch-size设定为64，epoch设定为20，初始学习率为0.001，并随epoch衰减，每5个epoch缩小至原先学习率的1/5。训练完成后，对于含有特定字符串的水印截图，输入生成网络，生成无水印的截图。

图2是本发明一种去除特定字符串水印的系统的结构示意图。

一种去除特定字符串水印的系统，包括依次相连的文字检测模块、文字识别模块、特定字符串匹配模块、去水印模块和图片还原模块；

模块1为文字检测模块，用于检测待处理图片中是否存在字符串。采用CRAFT文字检测模型对图片中字符串进行检测，若待处理图片存在字符串，则返回字符串所在图片中的坐标。深度学习CRAFT网络与其他文字检测网络不同，它不把文本框当做目标，而是先检测单个字符串及字符串间的连接关系，然后根据字符串间的连接关系确定最终的文本行，其优势在于使用小感受野也能预测大文本和长文本，只需要关注字符串级别的内容而不需要关注整个文本实例。

模块2为文字识别模块，用于将检测的字符串图片识别转换为字符串。根据模块1检测的字符串坐标，在待处理图片中截取相应字符串图片，将图片等比例缩放到固定宽度32像素，输入CRNN文字识别模型对字符串图片进行识别，得到相应字符串。CRNN文字识别网络采用端到端的训练，不需要进行字符串分割和水平缩放操作，只需要垂直方向缩放到固定长度即可，同时可以识别任意长度的序列。设定特定的字符字典，截取大量图片作为背景，在背景中根据字符字典生成相应训练数据样本，训练CRNN文字识别模型利用resnet34作为特征抽取的backbone,利用biLSTM在卷积特征基础上提取文字序列特征，利用CTC对结果进行解码，解决字符对齐问题，得到对应字符串。

模块3为特定字符串匹配模块，用于判断所识别转换的字符串是否为需求去除的特定字符串。根据特定需求构建不同正则表达式，对模块2中识别的字符串逐一运用正则匹配，若匹配成功，则返回字符串所在图片坐标。

模块4为去水印模块，用于将含有特定字符串的图片中特定字符串去除。利用模块3中匹配成功的特定字符串坐标，在待处理图片中截取出特定字符串截图，保存原先截图尺寸信息，将截图缩放尺寸到256*256，输入U-net生成网络，生成去除水印的图片，再缩放回原先截图尺寸。所述U-net生成网络原先用于分割，但其通过跳跃结构实现低层特征与高层特征的融合，同时通过转置卷积，可以将小尺寸featuremap上采样还原到输入尺寸。训练过程中，采用无水印的图片作为目标图，在无水印图片上随机生成相应数字水印作为输入图，构建输入输出均为256*256的U-net网络结构，损失函数为L1损失，即逐元素间差值的平均绝对值，batch-size设定为64，epoch设定为20，初始学习率为0.001，并随epoch衰减。

模块5为图片还原模块，用于将已去除特定字符串的图片还原到原图中。根据模块4中记录的特定字符串坐标位置，将去除特定字符串坐标的图片还原到原图相应位置，替代原先有水印的位置图片。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种去除特定字符串水印的方法，其特征在于，将待处理图片输入到文字检测模型，检测是否存在字符串水印，若存在字符串水印，则将字符串所在图片区域截取输入文字识别模型中得到相应字符串，利用正则匹配是否存在特定字符串，若存在特定字符串，则将字符串所在图片区域截取输入生成网络中，将该区域字符串去除，包括如下步骤：

2.如权利要求1所述的一种去除特定字符串水印的方法，其特征在于：所述步骤一中，采用CRAFT文字检测模型对图片中字符串进行检测，若待处理图片存在字符串，则返回字符串所在图片中的坐标；所述CRAFT文字检测模型检测单个字符串及字符串间的连接关系，根据字符串间的连接关系确定文本行。

3.如权利要求2所述的一种去除特定字符串水印的方法，其特征在于：所述步骤一中，对于一张H*W*3的3通道图片，CRAFT文字检测模型使用VGG网络结构6stage,32倍下采样,以不同的stage得到不同的特征图，通过上采样将不同的stage的特征图进行融合得到H/2*W/2大小的预测图，预测图包括单字符中心区域的概率和相邻字符区域中心的概率，后处理过程对0-1之间的概率进行取阈值计算，根据字符连接概率将文字区域连接，融合最小四边形区域得到文字框。

4.如权利要求3所述的一种去除特定字符串水印的方法，其特征在于：所述步骤二中，根据步骤一中检测的字符串坐标，在待处理图片中截取相应字符串图片，将图片等比例缩放到固定高度，输入CRNN文字识别模型对字符串图片进行识别，得到相应字符串，所述CRNN文字识别模型采用端到端的训练。

5.如权利要求4所述的一种去除特定字符串水印的方法，其特征在于：所述步骤二中，根据所需去除的特定字符设定相应的字符字典，所述字符字典包括阿拉伯数字和符号，截取一定数量的图片作为背景，在背景中根据字符字典生成相应训练数据样本，用于训练CRNN文字识别模型，所述CRNN文字识别模型的输入高度固定为64，利用resnet34网络进行特征抽取，利用biLSTM在卷积特征基础上提取文字序列特征，利用CTC对文字序列进行解码，解决字符对齐问题，去除重复字符，得到对应字符串。

6.如权利要求5所述的一种去除特定字符串水印的方法，其特征在于：所述步骤三中，根据特定需求构建不同正则表达式，对步骤二中识别的字符串逐一运用正则匹配，若匹配成功，则返回字符串所在图片坐标。

7.如权利要求6所述的一种去除特定字符串水印的方法，其特征在于：所述步骤四中，利用步骤三中匹配成功的特定字符串坐标，在待处理图片中截取出特定字符串截图，保存原先截图尺寸信息，将截图缩放尺寸到256*256，输入去水印生成网络，生成去除水印的图片，再缩放回原先截图尺寸，再根据原先截图坐标，将去水印的截图还原到原图中。

8.如权利要求7所述的一种去除特定字符串水印的方法，其特征在于：所述步骤四中，所述去水印生成网络为U-net生成网络，训练过程中，采用无水印的图片作为目标图，在无水印图片上随机生成相应数字水印作为输入图，构建输入输出均为256*256的U-net网络结构，损失函数为L1损失，即逐元素间差值的平均绝对值，训练目标为最小化L1损失，batch-size设定为64，epoch设定为20，初始学习率为0.001，并随epoch衰减，训练完成后，对于含有特定字符串的水印截图，输入U-net生成网络，生成无水印的截图。

9.如权利要求8所述的一种去除特定字符串水印的方法，其特征在于：所述步骤四中，所述随epoch衰减具体为：每5个epoch缩小至原先学习率的1/5。

10.一种根据权利要求1-9之一所述方法运行的去除特定字符串水印的系统，其特征在于：包括依次相连的文字检测模块、文字识别模块、特定字符串匹配模块、去水印模块和图片还原模块；