CN116524287A - 水印去除模型训练样本生成方法、系统、储存介质、计算机 - Google Patents

水印去除模型训练样本生成方法、系统、储存介质、计算机 Download PDF

Info

Publication number
CN116524287A
CN116524287A CN202210049478.8A CN202210049478A CN116524287A CN 116524287 A CN116524287 A CN 116524287A CN 202210049478 A CN202210049478 A CN 202210049478A CN 116524287 A CN116524287 A CN 116524287A
Authority
CN
China
Prior art keywords
watermark
training sample
removal model
model training
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210049478.8A
Other languages
English (en)
Inventor
翟晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Life Insurance Asset Management Co ltd
Original Assignee
China Life Insurance Asset Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Life Insurance Asset Management Co ltd filed Critical China Life Insurance Asset Management Co ltd
Priority to CN202210049478.8A priority Critical patent/CN116524287A/zh
Publication of CN116524287A publication Critical patent/CN116524287A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

一种水印去除模型训练样本生成方法、系统、储存介质、计算机;本发明基于计算机视觉技术自动合成水印,通过字体类型和字体大小生成长度不超过30个文字的背景透明水印文本,针对透明水印文本,实现水印文本0~180°旋转并生成水印图片,上传待添加水印的图像型扫描件PDF,计算机完成图像型扫描件PDF分页,并将每页与所生成的背景透明水印图片进行合成,快速进行图像型扫描件PDF水印生成训练样本。

Description

水印去除模型训练样本生成方法、系统、储存介质、计算机
技术领域
本发明涉及计算机技术领域,具体涉及一种水印去除模型训练样本生成方法、系统、储存介质、计算机。
背景技术
随着数字媒体技术和计算机技术的发展,各种数字媒体如图像,通过互联网进行传播,人们可以进行下载使用。为了保护图像的版权,往往在图像中添加水印。由于水印会在一定程度上干扰或破坏图像的内在数据信息,为了更好地应用图像的价值,需要将图像中的水印去除。
目前,可以通过生成式对抗模型对水印图像进行水印去除,得到对应的干净图像,然而,传统的生成式对抗模型在水印去除过程中,可能会丢失水印图像的原有信息,导致得到的干净图像的质量较低;因此,需要通过水印去除模型进行训练进而去除水印,但是需要一定数量的训练样本进行训练才能够提升质量,而收集训练样本则十分麻烦,尤其是图像型的扫描件。
发明内容
本发明所要解决的技术问题是:提供一种能够生成水印训练样本的水印去除模型训练样本生成方法、系统、储存介质、计算机。
为了解决上述技术问题,本发明采用的第一种技术方案为:
一种水印去除模型训练样本生成方法,包括
S1:基于计算机视觉技术,通过不同字体和字体大小生成水印文本;
S2:将步骤S1生成的水印文本,生成背景为透明的图片;
S3:将步骤S1生成的水印文本,实现水印文本旋转并生成水印图片;
S4:上传待添加水印的图像型扫描件PDF;
S5:对图像型扫描件PDF进行分析,按照每页进行分别,生成每页图片;
S6:将步骤S2、S3生成的所有背景透明的一个水印图片与步骤S5生成每页图片,进行合成;
S7:将步骤S6合成的含水印图片,添加背景噪声则完成训练样本生成。
优选地,S1进一步包括:
基于计算机视觉技术,通过不同字体和字体大小生成长度不超过30个文字水印文本或字节数量不超过30个文字等同数量的字节。
优选地,S3进一步包括:
将步骤S1生成的水印文本,实现水印文本0~180°旋转并生成水印图片。
优选地,S4进一步包括:
上传待添加水印的图像型扫描件PDF,并执行加密程序。
优选地,执行S6后将S2、S3两个或两个以上水印图片在S5生成的图片中随机位置进行合成,水印位置避免重合。
优选地,执行S7后将步骤S2、S3生成的水印图片与步骤S7所生成的含水印图片建立对应关系。
优选地,所述噪声为椒盐噪声。
为了解决上述技术问题,本发明采用的第二种技术方案为:
一种图像型扫描件水印去除模型训练样本生成系统,包括处理单元,所述处理单元执行上述的水印去除模型训练样本生成方法。
为了解决上述技术问题,本发明采用的第三种技术方案为:
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的水印去除模型训练样本生成方法。
为了解决上述技术问题,本发明采用的第四种技术方案为:
一种计算机,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述的水印去除模型训练样本生成方法。
本发明的有益效果在于:本发明基于计算机视觉技术自动合成水印,通过字体类型和字体大小生成长度不超过30个文字的背景透明水印文本,针对透明水印文本,实现水印文本0~180°旋转并生成水印图片,上传待添加水印的图像型扫描件PDF,计算机完成图像型扫描件PDF分页,并将每页与所生成的背景透明水印图片进行合成,快速进行图像型扫描件PDF水印生成训练样本。
附图说明
图1为本发明具体实施方式的一种水印去除模型训练样本生成方法生成的水印文本示例;
图2为本发明具体实施方式的一种水印去除模型训练样本生成方法的图像型扫描件示例;
图3为本发明具体实施方式的一种水印去除模型训练样本生成方法的合成图片示例1;
图4为本发明具体实施方式的一种水印去除模型训练样本生成方法的合成图片示例2。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
实施例一
请参照图1至图4,一种(图像型扫描件)水印去除模型训练样本生成方法,包括
S11:基于计算机视觉技术,通过不同字体和字体大小生成长度不超过30个文字(汉字)水印文本或字节数量不超过30个文字等同数量的字节(例如一个汉字2字节,一个英文字母1字节,即60个英文字母);
S12:将步骤S11生成的水印文本,生成背景为透明的图片(参见图1);
S13:将步骤S11生成的水印文本,实现水印文本0~180°旋转并生成水印图片;
S14:上传待添加水印的图像型扫描件PDF,并执行加密程序;
S15:对图像型扫描件PDF进行分析,按照每页进行分别(将每页独立拆分出),生成每页图片(参见图2,给出一张图片作为示意,图中文字内容无意义,图3、图4同样文字无意义);
S16:将步骤S11、S13生成的所有背景透明的一个水印图片与步骤S15生成每页图片,进行合成(参照图3和图4(旋转45°后));
S17:将S12、S13两个或两个以上水印图片在S15生成的图片中随机位置进行合成,水印位置避免重合;
S18:将步骤S16合成的含水印图片,添加椒盐噪声则完成训练样本生成;
S19:将步骤S12、S13生成的水印图片与步骤S17所生成的含水印图片建立对应关系。
实施例二
一种图像型扫描件水印去除模型训练样本生成系统,包括处理单元,所述处理单元执行实施例一所述的水印去除模型训练样本生成方法。
实施例三
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现实施例一所述的水印去除模型训练样本生成方法。
实施例四
一种计算机,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现实施例一所述的水印去除模型训练样本生成方法。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种水印去除模型训练样本生成方法,其特征在于,包括
S1:基于计算机视觉技术,通过不同字体和字体大小生成水印文本;
S2:将步骤S1生成的水印文本,生成背景为透明的图片;
S3:将步骤S1生成的水印文本,实现水印文本旋转并生成水印图片;
S4:上传待添加水印的图像型扫描件PDF;
S5:对图像型扫描件PDF进行分析,按照每页进行分别,生成每页图片;
S6:将步骤S2、S3生成的所有背景透明的一个水印图片与步骤S5生成每页图片,进行合成;
S7:将步骤S6合成的含水印图片,添加背景噪声则完成训练样本生成。
2.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,S1进一步包括:
基于计算机视觉技术,通过不同字体和字体大小生成长度不超过30个文字水印文本或字节数量不超过30个文字等同数量的字节。
3.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,S3进一步包括:
将步骤S1生成的水印文本,实现水印文本0~180°旋转并生成水印图片。
4.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,S4进一步包括:
上传待添加水印的图像型扫描件PDF,并执行加密程序。
5.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,执行S6后将S2、S3两个或两个以上水印图片在S5生成的图片中随机位置进行合成,水印位置避免重合。
6.根据权利要求5所述的水印去除模型训练样本生成方法,其特征在于,执行S7后将步骤S2、S3生成的水印图片与步骤S7所生成的含水印图片建立对应关系。
7.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,所述噪声为椒盐噪声。
8.一种图像型扫描件水印去除模型训练样本生成系统,其特征在于,包括处理单元,所述处理单元执行权利要求1-7任意一项所述的水印去除模型训练样本生成方法。
9.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的水印去除模型训练样本生成方法。
10.一种计算机,至少包括存储器、处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器在执行所述存储器上的计算机程序时实现权利要求1-7任意一项所述的水印去除模型训练样本生成方法。
CN202210049478.8A 2022-01-17 2022-01-17 水印去除模型训练样本生成方法、系统、储存介质、计算机 Pending CN116524287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210049478.8A CN116524287A (zh) 2022-01-17 2022-01-17 水印去除模型训练样本生成方法、系统、储存介质、计算机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210049478.8A CN116524287A (zh) 2022-01-17 2022-01-17 水印去除模型训练样本生成方法、系统、储存介质、计算机

Publications (1)

Publication Number Publication Date
CN116524287A true CN116524287A (zh) 2023-08-01

Family

ID=87401638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210049478.8A Pending CN116524287A (zh) 2022-01-17 2022-01-17 水印去除模型训练样本生成方法、系统、储存介质、计算机

Country Status (1)

Country Link
CN (1) CN116524287A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113302A (zh) * 2023-10-11 2023-11-24 腾讯科技(深圳)有限公司 文本水印生成方法和文本验证方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113302A (zh) * 2023-10-11 2023-11-24 腾讯科技(深圳)有限公司 文本水印生成方法和文本验证方法
CN117113302B (zh) * 2023-10-11 2024-02-06 腾讯科技(深圳)有限公司 文本水印生成方法和文本验证方法

Similar Documents

Publication Publication Date Title
KR101130373B1 (ko) 고성능 콘텐츠 변경 아키텍처 및 기법
US5781914A (en) Converting documents, with links to other electronic information, between hardcopy and electronic formats
CN104281626B (zh) 基于图片化处理的网页展示方法及网页展示装置
Zhang et al. Viscode: Embedding information in visualization images using encoder-decoder network
US6393147B2 (en) Color region based recognition of unidentified objects
US6064397A (en) Method for creating multiple documents having identical background regions and page specific image regions
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
US8306255B1 (en) Snapshot-based screen scraping
US7519221B1 (en) Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts
JP4164272B2 (ja) 画像処理装置及び画像処理方法
Kharma et al. A new comprehensive database of handwritten Arabic words, numbers, and signatures used for OCR testing
WO2012030384A1 (en) Recognition of digital images
CN116524287A (zh) 水印去除模型训练样本生成方法、系统、储存介质、计算机
Zhang et al. Coverless text information hiding method based on the word rank map
CN113918895A (zh) 一种文本文档溯源追踪的方法
Tripathy Reconstruction of oriya alphabets using Zernike moments
JP7539998B2 (ja) ズームアグノスティックウォーターマーク抽出
US6429881B1 (en) Method and system for transitioning graphic elements of a network interface description document
JP7333526B2 (ja) 漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム
EP2657873B1 (en) Electronic book content protection
Dey Image Processing Masterclass with Python: 50+ Solutions and Techniques Solving Complex Digital Image Processing Challenges Using Numpy, Scipy, Pytorch and Keras (English Edition)
US20010001857A1 (en) Method of linking display images
US11100355B1 (en) Document image content protection in the context of noise reduction
CN108074214B (zh) 一种标准资源加工去污处理方法
CN117597702A (zh) 缩放无关的水印提取

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination