CN112070649A - 一种去除特定字符串水印的方法及系统 - Google Patents
一种去除特定字符串水印的方法及系统 Download PDFInfo
- Publication number
- CN112070649A CN112070649A CN202010943900.5A CN202010943900A CN112070649A CN 112070649 A CN112070649 A CN 112070649A CN 202010943900 A CN202010943900 A CN 202010943900A CN 112070649 A CN112070649 A CN 112070649A
- Authority
- CN
- China
- Prior art keywords
- character
- picture
- character string
- watermark
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 102100032202 Cornulin Human genes 0.000 claims description 22
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 22
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0203—Image watermarking whereby the image with embedded watermark is reverted to the original condition before embedding, e.g. lossless, distortion-free or invertible watermarking
Abstract
本发明公开了一种去除特定字符串水印的方法及系统,其特征在于,将待处理图片输入到文字检测模型,检测是否存在字符串水印,若存在字符串水印,则将字符串所在图片区域截取输入文字识别模型中得到相应字符串,利用正则匹配是否存在特定字符串,利用U‑net生成网络将含字符串水印的图片生成为去除字符串水印的图片,再将原图还原,有助于规避风险,高效的解决去除特定字符串水印的问题,保证网站图片符合搜索引擎优化规则,同时可以随时调整规则,快速应用,无需用户或网站编辑操作,极大的提高了效率,提高了用户体验与网站整体质量。
Description
技术领域
本发明涉及利用水印去除领域,特别是涉及一种去除特定字符串水印的方法和系统。
背景技术
目前,电商网站平台上卖家商品展示的方式主要是以图片和文字展示为主,其中图片展示较为直观全面,深得买家的认可。因此,图片展示成为商品展示的主打展示方式之一。
对于电商平台而言,需要通过搜索引擎优化来获取更多流量,因此需要满足搜索引擎规范要求,部分搜索引擎禁止在图片中添加联系方式等水印,因此电商平台原先大量的带水印的图片需去除联系方式等水印,其他水印则可以保留,因此大量的水印图片无法通过模板方式去除,也无法要求客户自己去除特定字符串水印,同时不同时段的需要去除的字符串规则各不相同,这给电商网站平台图片处理带来了极大的挑战。
如对比文件CN202010278085-PDF所示的一种PDF图纸文字识别方法、系统以及设备,采用多种文字检测方法CTPN、Seglink、Textboxes等,其目的都是在PDF中检测出文字区域,采用CNN、CRNN方法识别文字,但传统去水印方法是基于模板的方法,往往针对使用同一模板生成的水印,去除过程也针对于该模板统一去除,往往整张图片所有水印都去除或另一未知模板生成的水印无法去除,无法做到特定字符串去除和不同模板统一去除,鲁棒性差,而本案采用优化的OCR模型,可以识别不同模板生成的不同水印字符串,同时通过正则匹配,可以选定特定的字符串,不会造成图片中所有字符的出去,鲁棒性更强,准确率更高。
此外,对于原始CRNN模型,采用的主干网络为类似VGG的神经网络,同时字符图片要求高度为32,但实际中,VGG网络特征抽取效果不够显著,同时由于字符图片高度设定为32像素,整体分辨率较低,抽取出的字符信息缺失较多,对后续解码影响较大。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种去除特定字符串水印的方法和系统。
为解决上述技术问题,本发明提供一种去除特定字符串水印的方法,其特征在于,将待处理图片输入到文字检测模型,检测是否存在字符串水印,若存在字符串水印,则将字符串所在图片区域截取输入文字识别模型中得到相应字符串,利用正则匹配是否存在特定字符串,若存在特定字符串,则将字符串所在图片区域截取输入生成网络中,将该区域字符串去除,包括如下步骤:
步骤一:将待处理图片输入文字检测模型,检测是否存在字符串,若存在字符串,则返回字符串在图片中位置坐标,若不存在字符串,则返回空;
步骤二:若待处理图片含有字符串,则根据步骤一中字符串坐标,在待处理图片中截取相应字符串图片,将字符串图片输入文字识别模型,得到相应字符串;
步骤三:设定相应正则表达式,例如匹配手机号码、匹配邮箱等正则,对步骤二中识别的字符串进行匹配,若匹配成功,则返回字符串所在图片坐标;
步骤四:利用步骤三中匹配成功字符串的坐标,在待处理图片中截取相应图片,输入去水印生成网络,得到去除特定字符串水印的截图,将去除水印的截图还原到原待处理图片中,得到完整的去除特定字符串水印的图片。
所述步骤一中,采用CRAFT文字检测模型对图片中字符串进行检测,若待处理图片存在字符串,则返回字符串所在图片中的坐标;所述CRAFT文字检测模型检测单个字符串及字符串间的连接关系,根据字符串间的连接关系确定文本行。
所述步骤一中,对于一张H*W*3的3通道图片,CRAFT文字检测模型使用VGG网络结构6stage,32倍下采样,以不同的stage得到不同的特征图,通过上采样将不同的stage的特征图进行融合得到H/2*W/2大小的预测图,预测图包括单字符中心区域的概率和相邻字符区域中心的概率,后处理过程对0-1之间的概率进行取阈值计算,根据字符连接概率将文字区域连接,融合最小四边形区域得到文字框。
所述步骤二中,根据步骤一中检测的字符串坐标,在待处理图片中截取相应字符串图片,将图片等比例缩放到固定高度,输入CRNN文字识别模型对字符串图片进行识别,得到相应字符串,所述CRNN文字识别模型采用端到端的训练。
所述步骤二中,根据所需去除的特定字符设定相应的字符字典,所述字符字典包括阿拉伯数字和符号,截取一定数量的图片作为背景,在背景中根据字符字典生成相应训练数据样本,用于训练CRNN文字识别模型,所述CRNN文字识别模型的输入高度固定为64,利用resnet34网络进行特征抽取,利用biLSTM在卷积特征基础上提取文字序列特征,利用CTC对文字序列进行解码,解决字符对齐问题,去除重复字符,得到对应字符串。
所述步骤三中,根据特定需求构建不同正则表达式,对步骤二中识别的字符串逐一运用正则匹配,若匹配成功,则返回字符串所在图片坐标。
所述步骤四中,利用步骤三中匹配成功的特定字符串坐标,在待处理图片中截取出特定字符串截图,保存原先截图尺寸信息,将截图缩放尺寸到256*256,输入去水印生成网络,生成去除水印的图片,再缩放回原先截图尺寸,再根据原先截图坐标,将去水印的截图还原到原图中。
所述步骤四中,所述去水印生成网络为U-net生成网络,训练过程中,采用无水印的图片作为目标图,在无水印图片上随机生成相应数字水印作为输入图,构建输入输出均为256*256的U-net网络结构,损失函数为L1损失,即逐元素间差值的平均绝对值,训练目标为最小化L1损失,batch-size设定为64,epoch设定为20,初始学习率为0.001,并随epoch衰减,训练完成后,对于含有特定字符串的水印截图,输入U-net生成网络,生成无水印的截图。
所述步骤四中,所述随epoch衰减具体为:每5个epoch缩小至原先学习率的1/5。
一种去除特定字符串水印的系统,其特征在于:包括依次相连的文字检测模块、文字识别模块、特定字符串匹配模块、去水印模块和图片还原模块;
所述文字检测模块,用于检测待处理图片中是否存在字符串;
所述文字识别模块,用于将检测的字符串图片识别转换为字符串;
所述特定字符串匹配模块,用于判断所识别转换的字符串是否为需求去除的特定字符串;
所述去水印模块,用于将含有特定字符串的图片中特定字符串去除;
所述图片还原模块,用于将已去除特定字符串的图片还原到原图中。
本发明所达到的有益效果:本发明采用一种去除特定字符串水印的方法和系统,采用CRAFT和CRNN的最优组合,通过改造CRNN网络提高识别准确率,利用正则匹配得到需要去除的特定字符串,能快速准确的识别待处理图片中是否含有特定字符串水印,若识别出含有相应字符串水印则先通过截图缩小处理范围,利用U-net生成网络将含字符串水印的图片生成为去除字符串水印的图片,再将原图还原,有助于规避风险,高效的解决去除特定字符串水印的问题,保证网站图片符合搜索引擎优化规则,同时可以随时调整规则,快速应用,无需用户或网站编辑操作,极大的提高了效率,提高了用户体验与网站整体质量。
附图说明
图1为本发明的示例性实施例的方法流程示意图;
图2为本发明的示例性实施例的系统结构示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示,本实施例的一种去除特定字符串水印的方法,将待处理图片输入到文字检测模型,检测是否存在字符串水印,若存在字符串水印,则将字符串所在图片区域截取输入文字识别模型中得到相应字符串,利用正则匹配是否存在特定字符串,若存在特定字符串,则将字符串所在图片区域截取输入生成网络中,将该区域字符串去除,包括如下步骤:
步骤S1:将待处理图片输入文字检测模型,检测是否存在字符串,若存在字符串,则返回字符串在图片中位置坐标,若不存在字符串,则返回空。
步骤S2:若待处理图片含有字符串,则根据步骤S1中字符串坐标,在待处理图片中截取相应字符串图片,将字符串图片输入文字识别模型,得到相应字符串。
步骤S3:设定相应正则表达式,例如匹配手机号码、匹配邮箱等正则,对步骤S2中识别的字符串进行匹配,若匹配成功,则返回字符串所在图片坐标。
步骤S4:利用步骤S3中匹配成功字符串的坐标,在待处理图片中截取相应图片,输入去水印生成网络,得到去除特定字符串水印的截图,再将去除水印的截图还原到原待处理图片中,得到完整的去除特定字符串水印的图片。
所述步骤S1中,采用CRAFT文字检测模型对图片中字符串进行检测,若待处理图片存在字符串,则返回字符串所在图片中的坐标。深度学习CRAFT网络与其他文字检测网络不同,它不把文本框当做目标,而是先检测单个字符串及字符串间的连接关系,然后根据字符串间的连接关系确定最终的文本行,使网络更加关注字符串级别的内容而不需要关注整个文本实例,对短文本检测效果提升明显,提高了文字识别的召回率。
所述步骤S1中,对于一张H*W*3的3通道图片,CRAFT文字检测模型使用VGG网络结构6stage,32倍下采样,以不同的stage得到不同的特征图,通过上采样将不同的stage的特征图进行融合得到H/2*W/2大小的预测图,预测图分别为单字符中心区域的概率和相邻字符区域中心的概率图,后处理过程对0-1之间的概率图进行取阈值计算,根据字符连接概率将文字区域连接,融合最小四边形区域得到文字框。
所述步骤S2中,根据步骤S1中检测的字符串坐标,在待处理图片中截取相应字符串图片,为了通过卷积抽取字符串图片特征,将图片高度方向的特征统一到固定维度,需要将图片等比例缩放到固定高度,输入CRNN文字识别模型对字符串图片进行识别,得到相应字符串。CRNN文字识别网络采用端到端的训练,不需要进行字符串分割和水平缩放操作,只需要垂直方向缩放到固定长度即可,同时可以识别任意长度的序列。
所述步骤S2中,根据所需去除的特定字符设定相应的字符字典,截取一定数量的图片作为背景,在背景中根据字符字典生成相应训练数据样本,所述CRNN文字识别模型的输入高度固定为64,利用resnet34网络进行特征抽取,利用biLSTM在卷积特征基础上提取文字序列特征,利用CTC对文字序列进行解码,解决字符对齐问题,去除重复字符,得到对应字符串。
根据所需去除的特定字符设定相应的字符字典,例如需要去除号码符号等,则字符字典设置为阿拉伯数字和各类型符号,截取大量图片作为背景,在背景中根据字符字典生成相应训练数据样本,为了提高识别准确率,对原始CRNN网络进行改造,原始CRNN网络的输入高度为32,为了能获取更多信息,本案将输入高度固定为64,更高的字符串图片分辨率更高,含有的信息更丰富,识别效果更好,对比高度为32的方法提升了5%的准确率,原始的CRNN骨干网络采用的是类似于VGG的多层网络,但特征抽取效果有限,本案采用利用resnet34网络作为特征抽取的骨干网络,对比特征抽取效果更佳,利用biLSTM在卷积特征基础上提取文字序列特征。对于biLSTM解码得到文字序列,序列有可能存在部分字符重复,例如产生的序列为“ccaaattt”,实际结果应该为“cat”,因此利用CTC对结果进行解码,解决字符对齐问题,去除重复字符,得到对应字符串。
所述步骤S3中,根据特定需求构建不同正则表达式,例如对于可能存在的QQ号码的匹配采用re.compile(r'qq.[1-9]\d{4,12}',re.I),对于可能存在的手机号码采用re.compile("1[3458]\d{9}$|^147\d{8}$|^179\d{8}$",re.I)进行匹配,对步骤S2中识别的字符串逐一运用正则匹配,若匹配成功,则返回字符串所在图片坐标。
所述步骤S4中,利用步骤S3中匹配成功的特定字符串坐标,在待处理图片中截取出特定字符串截图,保存原先截图尺寸信息,将截图缩放尺寸到256×256,输入U-net生成网络,生成去除水印的图片,再缩放回原先截图尺寸,再根据原先截图坐标,将去水印的截图还原到原图中。
所述U-net生成网络原先用于分割,但其通过跳跃结构实现低层特征与高层特征的融合,同时通过转置卷积,可以将小尺寸featuremap上采样还原到输入尺寸。本案中,将U-net用于生成去除特定字符串水印的截图,即去除水印,恢复截图。训练过程中,采用无水印的图片作为目标图,在无水印图片上随机生成相应数字水印作为输入图,构建输入输出均为256×256的U-net网络结构,损失函数为L1损失,即逐元素间差值的平均绝对值,训练目标为最小化L1损失,使得生成的的图片尽可能与无水印的目标图一致,batch-size设定为64,epoch设定为20,初始学习率为0.001,并随epoch衰减,每5个epoch缩小至原先学习率的1/5。训练完成后,对于含有特定字符串的水印截图,输入生成网络,生成无水印的截图。
一种去除特定字符串水印的系统,其特征在于:包括依次相连的文字检测模块、文字识别模块、特定字符串匹配模块、去水印模块和图片还原模块;
所述文字检测模块,用于检测待处理图片中是否存在字符串;
所述文字识别模块,用于将检测的字符串图片识别转换为字符串;
所述特定字符串匹配模块,用于判断所识别转换的字符串是否为需求去除的特定字符串;
所述去水印模块,用于将含有特定字符串的图片中特定字符串去除;
所述图片还原模块,用于将已去除特定字符串的图片还原到原图中。
图2是本发明一种去除特定字符串水印的系统的结构示意图。
一种去除特定字符串水印的系统,包括依次相连的文字检测模块、文字识别模块、特定字符串匹配模块、去水印模块和图片还原模块;
所述文字检测模块,用于检测待处理图片中是否存在字符串;
所述文字识别模块,用于将检测的字符串图片识别转换为字符串;
所述特定字符串匹配模块,用于判断所识别转换的字符串是否为需求去除的特定字符串;
所述去水印模块,用于将含有特定字符串的图片中特定字符串去除;
所述图片还原模块,用于将已去除特定字符串的图片还原到原图中。
模块1为文字检测模块,用于检测待处理图片中是否存在字符串。采用CRAFT文字检测模型对图片中字符串进行检测,若待处理图片存在字符串,则返回字符串所在图片中的坐标。深度学习CRAFT网络与其他文字检测网络不同,它不把文本框当做目标,而是先检测单个字符串及字符串间的连接关系,然后根据字符串间的连接关系确定最终的文本行,其优势在于使用小感受野也能预测大文本和长文本,只需要关注字符串级别的内容而不需要关注整个文本实例。
模块2为文字识别模块,用于将检测的字符串图片识别转换为字符串。根据模块1检测的字符串坐标,在待处理图片中截取相应字符串图片,将图片等比例缩放到固定宽度32像素,输入CRNN文字识别模型对字符串图片进行识别,得到相应字符串。CRNN文字识别网络采用端到端的训练,不需要进行字符串分割和水平缩放操作,只需要垂直方向缩放到固定长度即可,同时可以识别任意长度的序列。设定特定的字符字典,截取大量图片作为背景,在背景中根据字符字典生成相应训练数据样本,训练CRNN文字识别模型利用resnet34作为特征抽取的backbone,利用biLSTM在卷积特征基础上提取文字序列特征,利用CTC对结果进行解码,解决字符对齐问题,得到对应字符串。
模块3为特定字符串匹配模块,用于判断所识别转换的字符串是否为需求去除的特定字符串。根据特定需求构建不同正则表达式,对模块2中识别的字符串逐一运用正则匹配,若匹配成功,则返回字符串所在图片坐标。
模块4为去水印模块,用于将含有特定字符串的图片中特定字符串去除。利用模块3中匹配成功的特定字符串坐标,在待处理图片中截取出特定字符串截图,保存原先截图尺寸信息,将截图缩放尺寸到256*256,输入U-net生成网络,生成去除水印的图片,再缩放回原先截图尺寸。所述U-net生成网络原先用于分割,但其通过跳跃结构实现低层特征与高层特征的融合,同时通过转置卷积,可以将小尺寸featuremap上采样还原到输入尺寸。训练过程中,采用无水印的图片作为目标图,在无水印图片上随机生成相应数字水印作为输入图,构建输入输出均为256*256的U-net网络结构,损失函数为L1损失,即逐元素间差值的平均绝对值,batch-size设定为64,epoch设定为20,初始学习率为0.001,并随epoch衰减。
模块5为图片还原模块,用于将已去除特定字符串的图片还原到原图中。根据模块4中记录的特定字符串坐标位置,将去除特定字符串坐标的图片还原到原图相应位置,替代原先有水印的位置图片。
本发明所达到的有益效果:本发明采用一种去除特定字符串水印的方法和系统,采用CRAFT和CRNN的最优组合,通过改造CRNN网络提高识别准确率,利用正则匹配得到需要去除的特定字符串,能快速准确的识别待处理图片中是否含有特定字符串水印,若识别出含有相应字符串水印则先通过截图缩小处理范围,利用U-net生成网络将含字符串水印的图片生成为去除字符串水印的图片,再将原图还原,有助于规避风险,高效的解决去除特定字符串水印的问题,保证网站图片符合搜索引擎优化规则,同时可以随时调整规则,快速应用,无需用户或网站编辑操作,极大的提高了效率,提高了用户体验与网站整体质量。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (10)
1.一种去除特定字符串水印的方法,其特征在于,将待处理图片输入到文字检测模型,检测是否存在字符串水印,若存在字符串水印,则将字符串所在图片区域截取输入文字识别模型中得到相应字符串,利用正则匹配是否存在特定字符串,若存在特定字符串,则将字符串所在图片区域截取输入生成网络中,将该区域字符串去除,包括如下步骤:
步骤一:将待处理图片输入文字检测模型,检测是否存在字符串,若存在字符串,则返回字符串在图片中位置坐标,若不存在字符串,则返回空;
步骤二:若待处理图片含有字符串,则根据步骤一中字符串坐标,在待处理图片中截取相应字符串图片,将字符串图片输入文字识别模型,得到相应字符串;
步骤三:设定相应正则表达式,例如匹配手机号码、匹配邮箱等正则,对步骤二中识别的字符串进行匹配,若匹配成功,则返回字符串所在图片坐标;
步骤四:利用步骤三中匹配成功字符串的坐标,在待处理图片中截取相应图片,输入去水印生成网络,得到去除特定字符串水印的截图,将去除水印的截图还原到原待处理图片中,得到完整的去除特定字符串水印的图片。
2.如权利要求1所述的一种去除特定字符串水印的方法,其特征在于:所述步骤一中,采用CRAFT文字检测模型对图片中字符串进行检测,若待处理图片存在字符串,则返回字符串所在图片中的坐标;所述CRAFT文字检测模型检测单个字符串及字符串间的连接关系,根据字符串间的连接关系确定文本行。
3.如权利要求2所述的一种去除特定字符串水印的方法,其特征在于:所述步骤一中,对于一张H*W*3的3通道图片,CRAFT文字检测模型使用VGG网络结构6stage,32倍下采样,以不同的stage得到不同的特征图,通过上采样将不同的stage的特征图进行融合得到H/2*W/2大小的预测图,预测图包括单字符中心区域的概率和相邻字符区域中心的概率,后处理过程对0-1之间的概率进行取阈值计算,根据字符连接概率将文字区域连接,融合最小四边形区域得到文字框。
4.如权利要求3所述的一种去除特定字符串水印的方法,其特征在于:所述步骤二中,根据步骤一中检测的字符串坐标,在待处理图片中截取相应字符串图片,将图片等比例缩放到固定高度,输入CRNN文字识别模型对字符串图片进行识别,得到相应字符串,所述CRNN文字识别模型采用端到端的训练。
5.如权利要求4所述的一种去除特定字符串水印的方法,其特征在于:所述步骤二中,根据所需去除的特定字符设定相应的字符字典,所述字符字典包括阿拉伯数字和符号,截取一定数量的图片作为背景,在背景中根据字符字典生成相应训练数据样本,用于训练CRNN文字识别模型,所述CRNN文字识别模型的输入高度固定为64,利用resnet34网络进行特征抽取,利用biLSTM在卷积特征基础上提取文字序列特征,利用CTC对文字序列进行解码,解决字符对齐问题,去除重复字符,得到对应字符串。
6.如权利要求5所述的一种去除特定字符串水印的方法,其特征在于:所述步骤三中,根据特定需求构建不同正则表达式,对步骤二中识别的字符串逐一运用正则匹配,若匹配成功,则返回字符串所在图片坐标。
7.如权利要求6所述的一种去除特定字符串水印的方法,其特征在于:所述步骤四中,利用步骤三中匹配成功的特定字符串坐标,在待处理图片中截取出特定字符串截图,保存原先截图尺寸信息,将截图缩放尺寸到256*256,输入去水印生成网络,生成去除水印的图片,再缩放回原先截图尺寸,再根据原先截图坐标,将去水印的截图还原到原图中。
8.如权利要求7所述的一种去除特定字符串水印的方法,其特征在于:所述步骤四中,所述去水印生成网络为U-net生成网络,训练过程中,采用无水印的图片作为目标图,在无水印图片上随机生成相应数字水印作为输入图,构建输入输出均为256*256的U-net网络结构,损失函数为L1损失,即逐元素间差值的平均绝对值,训练目标为最小化L1损失,batch-size设定为64,epoch设定为20,初始学习率为0.001,并随epoch衰减,训练完成后,对于含有特定字符串的水印截图,输入U-net生成网络,生成无水印的截图。
9.如权利要求8所述的一种去除特定字符串水印的方法,其特征在于:所述步骤四中,所述随epoch衰减具体为:每5个epoch缩小至原先学习率的1/5。
10.一种根据权利要求1-9之一所述方法运行的去除特定字符串水印的系统,其特征在于:包括依次相连的文字检测模块、文字识别模块、特定字符串匹配模块、去水印模块和图片还原模块;
所述文字检测模块,用于检测待处理图片中是否存在字符串;
所述文字识别模块,用于将检测的字符串图片识别转换为字符串;
所述特定字符串匹配模块,用于判断所识别转换的字符串是否为需求去除的特定字符串;
所述去水印模块,用于将含有特定字符串的图片中特定字符串去除;
所述图片还原模块,用于将已去除特定字符串的图片还原到原图中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010943900.5A CN112070649B (zh) | 2020-09-09 | 2020-09-09 | 一种去除特定字符串水印的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010943900.5A CN112070649B (zh) | 2020-09-09 | 2020-09-09 | 一种去除特定字符串水印的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112070649A true CN112070649A (zh) | 2020-12-11 |
CN112070649B CN112070649B (zh) | 2022-07-22 |
Family
ID=73663180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010943900.5A Active CN112070649B (zh) | 2020-09-09 | 2020-09-09 | 一种去除特定字符串水印的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112070649B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667576A (zh) * | 2020-12-22 | 2021-04-16 | 珠海豹趣科技有限公司 | 水印内容处理方法、装置、电子设备及存储介质 |
CN113111869A (zh) * | 2021-04-06 | 2021-07-13 | 上海交通大学 | 提取文字图片及其描述的方法和系统 |
CN113313214A (zh) * | 2021-07-30 | 2021-08-27 | 北京惠朗世纪科技有限公司 | 一种基于多卷积核后验的带水印字符的识别方法及系统 |
CN113569629A (zh) * | 2021-06-11 | 2021-10-29 | 杭州玖欣物联科技有限公司 | 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 |
CN113890756A (zh) * | 2021-09-26 | 2022-01-04 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989013A (zh) * | 2015-01-28 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 去除文字水印的方法及装置 |
CN111242129A (zh) * | 2020-01-03 | 2020-06-05 | 创新工场(广州)人工智能研究有限公司 | 一种用于端到端的文字检测与识别的方法和装置 |
CN111242829A (zh) * | 2020-01-19 | 2020-06-05 | 苏州浪潮智能科技有限公司 | 一种水印提取方法、装置、设备及存储介质 |
-
2020
- 2020-09-09 CN CN202010943900.5A patent/CN112070649B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989013A (zh) * | 2015-01-28 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 去除文字水印的方法及装置 |
CN111242129A (zh) * | 2020-01-03 | 2020-06-05 | 创新工场(广州)人工智能研究有限公司 | 一种用于端到端的文字检测与识别的方法和装置 |
CN111242829A (zh) * | 2020-01-19 | 2020-06-05 | 苏州浪潮智能科技有限公司 | 一种水印提取方法、装置、设备及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667576A (zh) * | 2020-12-22 | 2021-04-16 | 珠海豹趣科技有限公司 | 水印内容处理方法、装置、电子设备及存储介质 |
CN113111869A (zh) * | 2021-04-06 | 2021-07-13 | 上海交通大学 | 提取文字图片及其描述的方法和系统 |
CN113111869B (zh) * | 2021-04-06 | 2022-12-09 | 上海交通大学 | 提取文字图片及其描述的方法和系统 |
CN113569629A (zh) * | 2021-06-11 | 2021-10-29 | 杭州玖欣物联科技有限公司 | 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 |
CN113569629B (zh) * | 2021-06-11 | 2023-09-15 | 杭州玖欣物联科技有限公司 | 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法 |
CN113313214A (zh) * | 2021-07-30 | 2021-08-27 | 北京惠朗世纪科技有限公司 | 一种基于多卷积核后验的带水印字符的识别方法及系统 |
CN113313214B (zh) * | 2021-07-30 | 2021-11-16 | 北京惠朗世纪科技有限公司 | 一种基于多卷积核后验的带水印字符的识别方法及系统 |
CN113890756A (zh) * | 2021-09-26 | 2022-01-04 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
CN113890756B (zh) * | 2021-09-26 | 2024-01-02 | 网易(杭州)网络有限公司 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112070649B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112070649B (zh) | 一种去除特定字符串水印的方法及系统 | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN111681273B (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
JP2006067585A (ja) | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 | |
CN112907598A (zh) | 一种基于注意力cnn文档证件类图像篡改检测方法 | |
CN112434690A (zh) | 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质 | |
CN111914654A (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN113591831A (zh) | 一种基于深度学习的字体识别方法、系统及存储介质 | |
CN111553290A (zh) | 文本识别方法、装置、设备及存储介质 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN112149644A (zh) | 基于全局特征指导的二维注意力机制文本识别方法 | |
CN115171138A (zh) | 一种身份证图片文本检测方法、系统及设备 | |
CN114005019A (zh) | 一种翻拍图像识别方法及其相关设备 | |
CN112149678A (zh) | 特殊语言的文字识别方法、识别模型训练方法和装置 | |
CN111539435A (zh) | 语义分割模型构建方法及图像分割方法、设备、存储介质 | |
CN114429636B (zh) | 图像扫描识别方法、装置及电子设备 | |
US6983071B2 (en) | Character segmentation device, character segmentation method used thereby, and program therefor | |
WO2023019682A1 (zh) | 水印去除方法、装置、终端设备及可读存储介质 | |
CN113221718B (zh) | 公式识别方法、装置、存储介质和电子设备 | |
KR101048399B1 (ko) | 문자 검출 방법 및 장치 | |
CN111931689B (zh) | 一种在线提取视频卫星数据鉴别特征的方法 | |
CN114494678A (zh) | 文字识别方法和电子设备 | |
CN114399681A (zh) | 电力能源设备识别方法、装置和终端设备 | |
CN112634126A (zh) | 人像减龄处理方法、训练方法、装置、设备及存储介质 | |
CN116259050B (zh) | 灌装桶标签文字定位识别方法、装置、设备及检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |