CN116524287A - 水印去除模型训练样本生成方法、系统、储存介质、计算机 - Google Patents
水印去除模型训练样本生成方法、系统、储存介质、计算机 Download PDFInfo
- Publication number
- CN116524287A CN116524287A CN202210049478.8A CN202210049478A CN116524287A CN 116524287 A CN116524287 A CN 116524287A CN 202210049478 A CN202210049478 A CN 202210049478A CN 116524287 A CN116524287 A CN 116524287A
- Authority
- CN
- China
- Prior art keywords
- watermark
- training sample
- removal model
- model training
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004590 computer program Methods 0.000 claims description 10
- 235000012434 pretzels Nutrition 0.000 claims description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
Abstract
一种水印去除模型训练样本生成方法、系统、储存介质、计算机;本发明基于计算机视觉技术自动合成水印,通过字体类型和字体大小生成长度不超过30个文字的背景透明水印文本,针对透明水印文本,实现水印文本0~180°旋转并生成水印图片,上传待添加水印的图像型扫描件PDF,计算机完成图像型扫描件PDF分页,并将每页与所生成的背景透明水印图片进行合成,快速进行图像型扫描件PDF水印生成训练样本。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种水印去除模型训练样本生成方法、系统、储存介质、计算机。
背景技术
随着数字媒体技术和计算机技术的发展,各种数字媒体如图像,通过互联网进行传播,人们可以进行下载使用。为了保护图像的版权,往往在图像中添加水印。由于水印会在一定程度上干扰或破坏图像的内在数据信息,为了更好地应用图像的价值,需要将图像中的水印去除。
目前,可以通过生成式对抗模型对水印图像进行水印去除,得到对应的干净图像,然而,传统的生成式对抗模型在水印去除过程中,可能会丢失水印图像的原有信息,导致得到的干净图像的质量较低;因此,需要通过水印去除模型进行训练进而去除水印,但是需要一定数量的训练样本进行训练才能够提升质量,而收集训练样本则十分麻烦,尤其是图像型的扫描件。
发明内容
本发明所要解决的技术问题是:提供一种能够生成水印训练样本的水印去除模型训练样本生成方法、系统、储存介质、计算机。
为了解决上述技术问题,本发明采用的第一种技术方案为:
一种水印去除模型训练样本生成方法,包括
S1:基于计算机视觉技术,通过不同字体和字体大小生成水印文本;
S2:将步骤S1生成的水印文本,生成背景为透明的图片;
S3:将步骤S1生成的水印文本,实现水印文本旋转并生成水印图片;
S4:上传待添加水印的图像型扫描件PDF;
S5:对图像型扫描件PDF进行分析,按照每页进行分别,生成每页图片;
S6:将步骤S2、S3生成的所有背景透明的一个水印图片与步骤S5生成每页图片,进行合成;
S7:将步骤S6合成的含水印图片,添加背景噪声则完成训练样本生成。
优选地,S1进一步包括:
基于计算机视觉技术,通过不同字体和字体大小生成长度不超过30个文字水印文本或字节数量不超过30个文字等同数量的字节。
优选地,S3进一步包括:
将步骤S1生成的水印文本,实现水印文本0~180°旋转并生成水印图片。
优选地,S4进一步包括:
上传待添加水印的图像型扫描件PDF,并执行加密程序。
优选地,执行S6后将S2、S3两个或两个以上水印图片在S5生成的图片中随机位置进行合成,水印位置避免重合。
优选地,执行S7后将步骤S2、S3生成的水印图片与步骤S7所生成的含水印图片建立对应关系。
优选地,所述噪声为椒盐噪声。
为了解决上述技术问题,本发明采用的第二种技术方案为:
一种图像型扫描件水印去除模型训练样本生成系统,包括处理单元,所述处理单元执行上述的水印去除模型训练样本生成方法。
为了解决上述技术问题,本发明采用的第三种技术方案为:
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的水印去除模型训练样本生成方法。
为了解决上述技术问题,本发明采用的第四种技术方案为:
一种计算机,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述的水印去除模型训练样本生成方法。
本发明的有益效果在于:本发明基于计算机视觉技术自动合成水印,通过字体类型和字体大小生成长度不超过30个文字的背景透明水印文本,针对透明水印文本,实现水印文本0~180°旋转并生成水印图片,上传待添加水印的图像型扫描件PDF,计算机完成图像型扫描件PDF分页,并将每页与所生成的背景透明水印图片进行合成,快速进行图像型扫描件PDF水印生成训练样本。
附图说明
图1为本发明具体实施方式的一种水印去除模型训练样本生成方法生成的水印文本示例;
图2为本发明具体实施方式的一种水印去除模型训练样本生成方法的图像型扫描件示例;
图3为本发明具体实施方式的一种水印去除模型训练样本生成方法的合成图片示例1;
图4为本发明具体实施方式的一种水印去除模型训练样本生成方法的合成图片示例2。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
实施例一
请参照图1至图4,一种(图像型扫描件)水印去除模型训练样本生成方法,包括
S11:基于计算机视觉技术,通过不同字体和字体大小生成长度不超过30个文字(汉字)水印文本或字节数量不超过30个文字等同数量的字节(例如一个汉字2字节,一个英文字母1字节,即60个英文字母);
S12:将步骤S11生成的水印文本,生成背景为透明的图片(参见图1);
S13:将步骤S11生成的水印文本,实现水印文本0~180°旋转并生成水印图片;
S14:上传待添加水印的图像型扫描件PDF,并执行加密程序;
S15:对图像型扫描件PDF进行分析,按照每页进行分别(将每页独立拆分出),生成每页图片(参见图2,给出一张图片作为示意,图中文字内容无意义,图3、图4同样文字无意义);
S16:将步骤S11、S13生成的所有背景透明的一个水印图片与步骤S15生成每页图片,进行合成(参照图3和图4(旋转45°后));
S17:将S12、S13两个或两个以上水印图片在S15生成的图片中随机位置进行合成,水印位置避免重合;
S18:将步骤S16合成的含水印图片,添加椒盐噪声则完成训练样本生成;
S19:将步骤S12、S13生成的水印图片与步骤S17所生成的含水印图片建立对应关系。
实施例二
一种图像型扫描件水印去除模型训练样本生成系统,包括处理单元,所述处理单元执行实施例一所述的水印去除模型训练样本生成方法。
实施例三
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现实施例一所述的水印去除模型训练样本生成方法。
实施例四
一种计算机,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现实施例一所述的水印去除模型训练样本生成方法。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种水印去除模型训练样本生成方法,其特征在于,包括
S1:基于计算机视觉技术,通过不同字体和字体大小生成水印文本;
S2:将步骤S1生成的水印文本,生成背景为透明的图片;
S3:将步骤S1生成的水印文本,实现水印文本旋转并生成水印图片;
S4:上传待添加水印的图像型扫描件PDF;
S5:对图像型扫描件PDF进行分析,按照每页进行分别,生成每页图片;
S6:将步骤S2、S3生成的所有背景透明的一个水印图片与步骤S5生成每页图片,进行合成;
S7:将步骤S6合成的含水印图片,添加背景噪声则完成训练样本生成。
2.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,S1进一步包括:
基于计算机视觉技术,通过不同字体和字体大小生成长度不超过30个文字水印文本或字节数量不超过30个文字等同数量的字节。
3.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,S3进一步包括:
将步骤S1生成的水印文本,实现水印文本0~180°旋转并生成水印图片。
4.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,S4进一步包括:
上传待添加水印的图像型扫描件PDF,并执行加密程序。
5.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,执行S6后将S2、S3两个或两个以上水印图片在S5生成的图片中随机位置进行合成,水印位置避免重合。
6.根据权利要求5所述的水印去除模型训练样本生成方法,其特征在于,执行S7后将步骤S2、S3生成的水印图片与步骤S7所生成的含水印图片建立对应关系。
7.根据权利要求1所述的水印去除模型训练样本生成方法,其特征在于,所述噪声为椒盐噪声。
8.一种图像型扫描件水印去除模型训练样本生成系统,其特征在于,包括处理单元,所述处理单元执行权利要求1-7任意一项所述的水印去除模型训练样本生成方法。
9.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的水印去除模型训练样本生成方法。
10.一种计算机,至少包括存储器、处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器在执行所述存储器上的计算机程序时实现权利要求1-7任意一项所述的水印去除模型训练样本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210049478.8A CN116524287A (zh) | 2022-01-17 | 2022-01-17 | 水印去除模型训练样本生成方法、系统、储存介质、计算机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210049478.8A CN116524287A (zh) | 2022-01-17 | 2022-01-17 | 水印去除模型训练样本生成方法、系统、储存介质、计算机 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524287A true CN116524287A (zh) | 2023-08-01 |
Family
ID=87401638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210049478.8A Pending CN116524287A (zh) | 2022-01-17 | 2022-01-17 | 水印去除模型训练样本生成方法、系统、储存介质、计算机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524287A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113302A (zh) * | 2023-10-11 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 文本水印生成方法和文本验证方法 |
-
2022
- 2022-01-17 CN CN202210049478.8A patent/CN116524287A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113302A (zh) * | 2023-10-11 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 文本水印生成方法和文本验证方法 |
CN117113302B (zh) * | 2023-10-11 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 文本水印生成方法和文本验证方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101130373B1 (ko) | 고성능 콘텐츠 변경 아키텍처 및 기법 | |
US5781914A (en) | Converting documents, with links to other electronic information, between hardcopy and electronic formats | |
CN104281626B (zh) | 基于图片化处理的网页展示方法及网页展示装置 | |
Zhang et al. | Viscode: Embedding information in visualization images using encoder-decoder network | |
US6393147B2 (en) | Color region based recognition of unidentified objects | |
US6064397A (en) | Method for creating multiple documents having identical background regions and page specific image regions | |
EP1999688B1 (en) | Converting digital images containing text to token-based files for rendering | |
US8306255B1 (en) | Snapshot-based screen scraping | |
US7519221B1 (en) | Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts | |
JP4164272B2 (ja) | 画像処理装置及び画像処理方法 | |
Kharma et al. | A new comprehensive database of handwritten Arabic words, numbers, and signatures used for OCR testing | |
WO2012030384A1 (en) | Recognition of digital images | |
CN116524287A (zh) | 水印去除模型训练样本生成方法、系统、储存介质、计算机 | |
Zhang et al. | Coverless text information hiding method based on the word rank map | |
CN113918895A (zh) | 一种文本文档溯源追踪的方法 | |
Tripathy | Reconstruction of oriya alphabets using Zernike moments | |
JP7539998B2 (ja) | ズームアグノスティックウォーターマーク抽出 | |
US6429881B1 (en) | Method and system for transitioning graphic elements of a network interface description document | |
JP7333526B2 (ja) | 漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム | |
EP2657873B1 (en) | Electronic book content protection | |
Dey | Image Processing Masterclass with Python: 50+ Solutions and Techniques Solving Complex Digital Image Processing Challenges Using Numpy, Scipy, Pytorch and Keras (English Edition) | |
US20010001857A1 (en) | Method of linking display images | |
US11100355B1 (en) | Document image content protection in the context of noise reduction | |
CN108074214B (zh) | 一种标准资源加工去污处理方法 | |
CN117597702A (zh) | 缩放无关的水印提取 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |