CN111951148B - 一种pdf文档水印生成方法和水印提取方法 - Google Patents

一种pdf文档水印生成方法和水印提取方法 Download PDF

Info

Publication number
CN111951148B
CN111951148B CN202010670407.0A CN202010670407A CN111951148B CN 111951148 B CN111951148 B CN 111951148B CN 202010670407 A CN202010670407 A CN 202010670407A CN 111951148 B CN111951148 B CN 111951148B
Authority
CN
China
Prior art keywords
signal
watermark
line spacing
pdf document
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010670407.0A
Other languages
English (en)
Other versions
CN111951148A (zh
Inventor
王道顺
刘景财
刘乃熙
巩林明
贾星星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010670407.0A priority Critical patent/CN111951148B/zh
Publication of CN111951148A publication Critical patent/CN111951148A/zh
Application granted granted Critical
Publication of CN111951148B publication Critical patent/CN111951148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0062Embedding of the watermark in text images, e.g. watermarking text documents using letter skew, letter distance or row distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0065Extraction of an embedded watermark; Reliable detection

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供一种PDF水印生成方法和水印提取方法,所述水印生成方法包括:提取PDF文档的文本行距信号,并对文本行距信号进行置乱操作;将水印信息编码到PDF文档的置乱操作后的行距信号中;将编码后的行距信号输入STDM,使得STDM使用自适应函数计算编码后的行距信号的量化步长,并根据量化步长对编码后的行距信号进行量化,将量化后的行距信号进行反置乱操作,输出含有水印信息的PDF文档。本发明实施例在STDM嵌入器中引入自适应函数,采用自适应函数对行距信号的量化步长进行计算,能够适用于文本文档的水印生成,对于固定增益攻击和高斯噪声攻击具有很强的鲁棒性。

Description

一种PDF文档水印生成方法和水印提取方法
技术领域
本发明属于水印生成技术领域,尤其涉及一种PDF文档水印生成方法和水印提取方法。
背景技术
数字产品的盗版、侵权等行为屡禁不止,数字产品的版权保护成为当前亟待解决的问题。数字水印技术是解决数字产品版权保护的有效方法。数字水印技术将版权信息、所有者信息、序列码或标识符等水印信息嵌入到文本、图片、音频、视频等载体中,当发生版权纠纷等问题时,可以从数字载体中提取出版权信息或所有者信息,证明数字产品的归属。
目前,图像、视频、音频水印技术已得到广泛的研究,并且取得的令人满意的效果。然而,文本水印技术缺少系统性的研究方法和标准化的分析工具,其研究相对更加困难,不像图像、视频等载体有大量的冗余信息可用于修改以嵌入水印信息,对文本信息的少量修改会使得文档的语义发生变化,甚至变得不可理解。因此,需要从文本信息或上下文信息中挖掘新的特征用来嵌入水印信息。
目前主要有以下几种PDF文档的水印算法,第一种,将PDF文档转换成文档图像,并在图像中嵌入两个水印,其中,第一个水印嵌入在图像的绿色通道的小波域中,用于版权保护,可以抵抗多种类型的攻击;第二个水印,即哈希键,使用最低有效位(LSB)方法嵌入到图像的空间域中,用于保护PDF文档不受任何更改,最后再将图像转换成PDF文档。该算法只能用于具有丰富纹理的彩色PDF文档,不适用于纯文本文档。
第二种,适用于PDF文档的盲数字水印算法,该算法基于原始STDM技术,通过量化选定的一系列字符的横坐标,将水印比特嵌入到这些字符的间距中。经过大量实验,给出了选定字符横坐标的可接受失真量,该算法在较高密度噪声的攻击下仍具有足够的鲁棒性和较好不可见性。
第三种,一种基于PDF文档结构的水印算法,该算法将水印信息嵌入到PDF文档的废弃页面对象(Discarded Page Object)中。该算法具有实现简单、隐蔽性好、鲁棒性强等优点,可以抵抗添加字词,删除字词、页面,旋转页面等攻击。但是大多数的PDF文档都是一次性生成的,没有废弃页面对象,此时该算法是无效的。
发明内容
为克服上述现有问题或者至少部分地解决上述问题,本发明实施例提供一种PDF文档水印生成方法和水印提取方法。
根据本发明实施例的第一方面,提供一种PDF文档水印生成方法,包括:
提取PDF文档的文本行距信号,并对文本行距信号进行置乱操作;
将水印信息编码到PDF文档的置乱操作后的行距信号中;
将编码后的行距信号输入STDM,使得STDM使用自适应函数计算编码后的行距信号的量化步长,并根据量化步长对编码后的行距信号进行量化;
将量化后的行距信号进行反置乱操作,输出含有水印信息的PDF文档。
根据本发明实施例第二方面,提供一种PDF文档水印提取方法,包括:
接收经过信道传播后失真的含有水印信息的PDF文档,提取出其中的行距信号;
对所述行距信号进行置乱操作,且采用自适应函数计算置乱操作后的行距信号的量化步长,根据量化步长对置乱后的行距信号进行量化;
通过最小距离检测器从量化后的行距信号中检测出水印信息。
根据本发明实施例的第三个方面,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的PDF文档水印生成方法和PDF文档水印提取方法。
根据本发明实施例的第四个方面,还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的PDF文档水印生成方法和PDF文档水印提取方法。
本发明实施例提供一种PDF文档水印生成方法和水印提取方法,该方法通过在STDM嵌入器中引入自适应函数,采用自适应函数对行距信号的量化步长进行计算,能够适用于文本文档的水印生成,对于固定增益攻击和高斯噪声攻击具有很强的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的PDF文档水印生成方法整体流程示意图;
图2为本发明实施例提供的PDF文档水印提取方法整体流程示意图;
图3为本发明实施例提供的PDF文档水印生成和提取方法的整体流程示意图;
图4(a)为对行距信号未进行置乱操作量化调制后的行距信号示意图;
图4(b)为对行距信号进行置乱操作量化调制后的行距信号示意图;
图5为本发明实施例提供的PDF文档水印提取方法的整体流程示意图;
图6(a)为采用不同的水印算法对固定增益攻击的鲁棒性示意图;
图6(b)为采用不同的水印算法对高斯噪声攻击的鲁棒性示意图;
图7(a)为采用不同的水印算法的不可感知性示意图;
图7(b)为采用不同水印算法的鲁棒性示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在对本发明实施例提供的水印生成方法描述之前,先对扩展变换抖动调制(Spread Transform Dither Modulation,以下简称STDM)进行介绍。STDM是原始QIM算法的一种实现,其将抖动调制和扩频思想引入到QIM系统中。
其中,扩展变换抖动调制STDM可减少量化伪影以产生感知上更好的量化信号,同时确保量化噪声独立于载体信号,而且伪随机抖动向量可以作为密钥,从而提高系统的安全性。如图1所示,载体信号x沿向量v进行投影,得到xTv,然后根据水印信息选择相应的抖动量化器(图1中示出的DM即为抖动量化器),经抖动调制将水印信息嵌入到载体信号的投影中。如果v是伪随机向量,则由嵌入算法引入的失真会传播至整个载体信号中。由图可推导出STDM的表达式为:
Figure BDA0002582078150000051
其中,v是单位长度(或单位能量)的伪随机投影向量,
Figure BDA0002582078150000052
为抖动量化器,其定义为:
Figure BDA0002582078150000053
其中,Q为标准量化器,Δ为量化步长,dm为抖动信号,且:
Figure BDA0002582078150000054
其中,d0
Figure BDA0002582078150000055
上均匀分布的伪随机数。
参见图2,提供了本发明实施例的一种PDF文档水印生成方法,包括:
提取PDF文档的文本行距信号,并对文本行距信号进行置乱操作;
将水印信息编码到PDF文档的置乱操作后的行距信号中;将编码后的行距信号输入STDM嵌入器,使得STDM嵌入器利用自适应函数计算编码后的行距信号的量化步长,并根据量化步长对编码后的行距信号进行量化,并将量化后的行距信号合成;
将合成后的行距信号进行反置乱操作,输出含有水印信息的PDF文档。
可以理解的是,原始的STDM对于信号的对固定增益攻击和高斯噪声攻击的鲁棒性较弱,基于此,本发明实施例在原始STDM中引入自适应函数,使得STDM能够自动调节对文档的修改幅度,然后通过优化自适应函数,使算法能够抵抗固定增益攻击。与原始的STDM算法相比,在保证较好的不可见性情况下,本发明实施例引入自适应函数后的STDM对高斯噪声攻击和固定增益攻击具有较强的鲁棒性。
作为一个可选的实施例,基于改进后的STDM的PDF文档水印生成的整个过程如图3所示,首先将PDF文档送入解析器,分析PDF文档的结构,提取文档的页面和流数据,计算出文本行距x;然后输入加密装置中对文本行距信号x进行置乱操作,得到置乱操作后的文本行距信号xp,以提高系统的安全性;接着将置乱得到的行距信号xp送入STDM嵌入器进行量化,同时根据行距信号xp自动调整量化步长的大小,从而将水印信息m编码到文本行距xp中,得到含有水印信息的行距信号yp;最后将修改的行距信号输入反加密装置反置乱操作得到y送入生成器,输出含有水印的PDF文档。
其中,作为一个可选的实施例,提取PDF文档的文本行距信号,并对文本行距信号进行置乱操作包括:
使用密钥Keyp对提取出的PDF文档的行距信号x={x1,x2,x3,...,xN}进行置乱操作,输出置乱操作后的行距信号xp={xp1,xp2,xp3,...,xpN}。
将PDF文档原始的行距信号进行置乱操作得到xp之后,将置乱操作后的行距信号xp分成若干个长度为L的子信号xp i,i=1,2,...,H,且N≥HL;向每一个子信号xp i中嵌入一位水印比特mi,其中,水印比特序列为m={m1,m2,m3,...,mH}。其中,将置乱操作后的行距信号xp划分后的子信号的数量与水印比特位数相同,每一个子信号中嵌入一位水印比特位。
作为一个可选的实施例,将编码后的行距信号输入STDM嵌入器,使得STDM嵌入器根据编码后的行距信号计算量化步长,并根据量化步长对编码后的行距信号进行量化:
将每一个子信号xp i沿投影向量Keyv进行投影,并输入自适应函数计算出量化步长;
根据量化步长,对子信号xp i的投影进行量化,得到量化后的子信号yp i
将所有量化后的子信号yp i进行合成,输出量化合成后的行距信号yp
采用密钥Keyp对量化合成后的行距信号yp进行反置乱操作,输出编码行距信号y,即为含有水印信息的PDF文档。
其中,基于STDM的PDF文档水印算法在载体信号的每个子信号中嵌入一个水印比特,当载体信号选择文本行距时,由于同一篇文档中的文本行距大多数是相同的且是连续的,因此经STDM量化调制后生成的信号会有非常明显的规律性,如图4(a)所示,降低了系统的安全性,所以非常有必要加入置乱操作。通常置乱操作会被用在水印信息上,以打乱水印信息使其无法辨认,如果本发明实施例的算法也采用这种方式,虽然攻击者无法直接得到水印信息,但是调制后的信号仍然呈现明显的规律性。更好的方法是对载体信号(即行距信号)进行置乱操作,将水印信息扩散到整个载体信号的任意位置,使调制后的信号呈现出随机性,如图4(b)所示。
本发明实施例采用STDM对PDF文档的行距信号进行量化来嵌入水印信息,相比于采用文本字符间距和单词间距作为量化对象,选择文本行距使算法具有更好的鲁棒性,因为更大的文本元素在受到相同的失真时具有更大的信噪比。对于文本行距来说,意味着更大的文本行距(相对文本字符间距和单次间距)可以承受更多的失真。一篇经过格式化的文档,其文本行距几乎不可能完全相同,如段落之间、标题前后等的行距通常会比正文行距更大,所以可通过使这些更大的文本行距承受更多的失真来提高算法的鲁棒性。当信号x在投影向量v上的投影近似均匀分布于STDM量化单元上时,信号的总体平均期望失真为:
Figure BDA0002582078150000081
其中,L是行距信号的每一个子信号的长度,由上式可知,当L保持不变时,总体平均期望失真与量化步长Δ成正比,量化步长Δ越大,平均失真越大。因此可以将量化步长Δ与文本行距建立某种正比例映射关系,使量化步长随着文本行距的增大而增大,量化步长与文本行距之间的映射关系为自适应函数。本发明实施例中采用的自适应函数为:
Δ=g(p)=αpβ; (5)
其中,p=xTv,α为嵌入强度,g(p)为自适应函数,β为自适应函数的参数。
其中,含有水印信息的PDF文档在信道传播的过程中会受到各种攻击,其中固定增益攻击(FixedGain Attack)是指接收端收到的载体信号被乘上一个缩放因子ρ>0,即:
Figure BDA0002582078150000082
基于原始的STDM的水印算法对固定增益攻击的鲁棒性很弱,这是因为缩放之后的信号很容易偏离原始量化单元,因此必须对STDM算法进行改进,使其能够抵抗固定增益攻击。实际上,目前已有不少研究者对基于STDM的水印算法进行优化,以使其能够抵抗固定增益攻击,但是这些算法几乎都是针对图像水印算法,利用Watson感知模型来优化量化步长或者改进STDM算法的嵌入器和提取器表达形式。本发明实施例通过优化量化步长Δ来实现抵抗固定增益攻击,同时保持算法的自适应性。
其中,对上述公式(5)的量化步长进一步优化:
Figure BDA0002582078150000083
其中,p=xTv是行距信号中第i个子信号x沿向量v的投影,yi-1是行距信号中第(i-1)个子信号的输出信号,||yi-1||ε是lε范数,定义为:
Figure BDA0002582078150000091
其中,L为每一个子信号的长度,H为水印比特的长度,yi为行距信号中第i个子信号的输出信号。
在只有固定增益攻击的情况下,由公式(6)可知,此时
Figure BDA0002582078150000092
Figure BDA0002582078150000093
则:
Figure BDA0002582078150000094
从上式可知,从未受到攻击的输出信号y和受到固定增益攻击后的失真信号
Figure BDA0002582078150000097
中提取出的水印比特是相同的,这就确保了本发明实施例算法在固定增益攻击下的准确性,下面的问题就是求解β的取值。
此时:
Figure BDA0002582078150000095
且:
Figure BDA0002582078150000096
根据公式(10)和公式(11)得到:
Figure BDA0002582078150000101
Figure BDA0002582078150000102
则公式(12)可简化为:
Figure BDA0002582078150000103
以上介绍了PDF文档水印生成方法,参见图5,提供了本发明实施例的一种PDF文档水印提取方法,其从含有水印信息的PDF文档中提取水印,包括:
接收经过信道传播后失真的含有水印信息的PDF文档,提取出其中的行距信号;
对行距信号进行置乱操作,且采用自适应函数计算置乱操作后的行距信号的量化步长;
通过最小距离检测器从行距信号中检测出水印信息。
可以理解的是,当含有水印信息的PDF文档经过信道传播后,接收端得到了失真的PDF文档,从失真的PDF文档中提取准确的水印信息。
对于失真后的PDF文档,从中提取出行距信号,对行距信号进行置乱操作并进行量化,具体置乱量化方法为:
可参见图3,采用密钥Keyp对提取出的失真的含有水印信息的PDF文档中的行距信号
Figure BDA00025820781500001011
进行置乱操作,输出置乱操作后的行距信号
Figure BDA0002582078150000104
将信号
Figure BDA0002582078150000105
分成若干个长度为L的子信号
Figure BDA0002582078150000106
将子信号
Figure BDA0002582078150000107
沿投影向量Keyv投影,并利用自适应函数计算投影后的子信号的量化步长。
对于量化后的子信号
Figure BDA0002582078150000108
通过最小距离检测器从量化后的子信号
Figure BDA0002582078150000109
中检测出位水印比特
Figure BDA00025820781500001010
将从所有子信号中检测出的水印比特
Figure BDA0002582078150000111
合成,得到PDF文档中的水印信息
Figure BDA0002582078150000112
其中,当信号y经信道传播时会产生失真,包括常规信号处理和人为恶意攻击导致的失真,STDM检测器通过距离失真信号的投影最近的量化点来估计嵌入信号的水印信息,即:
Figure BDA0002582078150000113
其中,
Figure BDA0002582078150000114
和dm可参见前述公式(2)和(3),即通过最小距离检测器从量化后的子信号
Figure BDA0002582078150000115
中检测出一位水印比特
Figure BDA0002582078150000116
将从每一个子信号中提取出的水印比特合成得到水印信息。
文本水印算法通常使用不可感知性、鲁棒性、嵌入容量等标准来评价算法的性能,而且这些标准之间是相互制约的,无法使它们都达到最优。水印算法需要根据应用场景优化对算法性能最重要的评价标准,使算法在这些评价标准之间达到最佳的平衡。不可感知性即不可见性或透明性,要求算法对原始文本文档的修改不能明显降低文档显示质量,实际常通过比较原始文本文档和含有水印的文本文档之间的差异来分析算法的不可感知性,此处使用MSE(Mean Square Error,均方误差)和MXAE(MaXimum Absolute Error,最大绝对误差)来评价文本水印算法的不可感知性,其定义为:
Figure BDA0002582078150000117
Figure BDA0002582078150000118
其中,X为原始文本文档的行距信号,
Figure BDA0002582078150000119
为含有水印的文本文档的行距信号,N为行距信号的长度,max为取集合中最大值的函数。MSE表示算法对文本文档的行距信号产生的平均失真,MXAE表示算法对文本文档的行距信号产生的最大失真。对于利用行移(以及字移、词移等)来嵌入秘密消息的文档水印算法而言,仅使用MSE来评价算法的不可感知性是不够准确的。假设水印算法对文本文档产生的平均失真足够小,而对文本文档中某些行距的修改幅度却很大,则文本文档中失真较大的行距要么很宽,要么很窄,这很容易被察觉到。因此,本发明实施例使用MXAE作为水印不可感知性的主要评价指标,而MSE用于辅助分析。鲁棒性指算法能够抵抗对原始水印进行检索、修改、破坏、移除等攻击的能力。通常使用BER(Bit Error Rate,误码率)来定量分析算法的鲁棒性,其定义为:
Figure BDA0002582078150000121
其中,W是原始水印,
Figure BDA0002582078150000122
是从失真文本文档中提取出的水印,H是水印的长度。
水印信号和投影向量都是随机生成的,理想情况下,假设有足够的行距信息来嵌入水印,将行距信号划分成长度为L=31的子信号,水印比特长度H=1001,行距x=22且均相等,在可接受的不可见性范围内,重复计算5次BER并取其平均值来评价该算法对高斯噪声、固定增益等攻击的鲁棒性;而实际情况下,行距信息是有限的,此时假设L=31,H=11,x=22,重复计算500次BER并取其平均值。经过大量的实验,发现以上两种情况得到的结果基本上是一致的。
由图6(a)和6(b)可知,在最大失真(mxae=0.4)相同的条件下,原始算法STDM和本发明实施例提出的算法STDM-SA(引入自适应函数的STDM)对高斯噪声攻击具有很强的鲁棒性,且本发明实施例提出的算法STDM-SA要稍好些,但对固定增益攻击的鲁棒性很弱;算法rdm(Rational Dither Modulation)对固定增益攻击的鲁棒性很好,但对高斯噪声攻击的鲁棒性很差,该算法的优势是其水印容量比其他算法高的多,其中,rdm算法可参考文献:Fernando Pérez-González,Mauro Barni,Andrea Abrardo,and CarlosMosquera.Rational dither modulation:A novel data-hiding method robust tovalue-metric scaling attacks.In 2004IEEE 6th Workshop on Multimedia SignalProcessing,number I,pages 139–142,2004;而算法STDM-SF(对自适应函数进一步优化后的STDM算法)对固定增益攻击和高斯噪声攻击都具有较强的鲁棒性,之所以对高斯噪声攻击的鲁棒性比算法STDM和STDM-SA弱,是因为在最大失真相同时,算法STDM-SF的平均失真比算法STDM和STDM-SA小,如图7(a)和7(b)所示,但是随着最大失真(或嵌入强度)的增大,这种差距也在逐渐缩小。
本发明实施例提供的一种PDF文档水印生成方法和提取方法,在原始STDM算法中引入自适应函数,使算法能够自动调节对文档的修改幅度,然后通过优化自适应函数,使算法能够抵抗固定增益攻击。与原始的STDM算法相比,本发明实施例提出的算法在保证较好的不可见性情况下,对高斯噪声攻击和固定增益攻击具有较强的鲁棒性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种PDF文档水印生成方法,其特征在于,包括:
提取PDF文档的文本行距信号,并对文本行距信号进行置乱操作;
将水印信息编码到PDF文档的置乱操作后的行距信号中;
将编码后的行距信号输入STDM,使得STDM使用自适应函数计算编码后的行距信号的量化步长,并根据量化步长对编码后的行距信号进行量化;
将量化后的行距信号进行反置乱操作,输出含有水印信息的PDF文档;
所述自适应函数为所述量化步长与行距信号之间的映射关系式,所述映射关系式为:
Δ=g(p)=αpβ
其中,p=xTv,α为嵌入强度,g(p)为自适应函数,β为自适应函数的参数;
还包括对所述自适应函数进一步优化:
Figure FDA0003769292400000011
其中,p=xTv是行距信号中第i个子信号x沿向量v的投影,yi-1是行距信号中第(i-1)个子信号的输出信号,||yi-1||ε是lε范数,定义为:
Figure FDA0003769292400000012
其中,L为每一个子信号的长度,H为水印比特的长度,yi为行距信号中第i个子信号的输出信号。
2.根据权利要求1所述的PDF文档水印生成方法,其特征在于,所述提取PDF文档的文本行距信号,并对所述文本行距信号进行置乱操作包括:
使用密钥Keyp对提取出的PDF文档的行距信号x={x1,x2,x3,...,xN}进行置乱操作,输出置乱操作后的行距信号xp={xp1,xp2,xp3,...,xpN}。
3.根据权利要求2所述的PDF文档水印生成方法,其特征在于,所述将水印信息编码到PDF文档的置乱操作后的行距信号中包括:
将置乱操作后的行距信号xp分成若干个长度为L的子信号xp i,i=1,2,...,H,且N≥HL;
向每一个子信号xp i中嵌入一位水印比特mi,其中,水印比特序列为m={m1,m2,m3,...,mH}。
4.根据权利要求3所述的PDF文档水印生成方法,其特征在于,所述将编码后的行距信号输入STDM,使得STDM使用自适应函数计算编码后的行距信号的量化步长,并根据量化步长对编码后的行距信号进行量化包括:
将每一个子信号xp i沿投影向量Keyv进行投影,并输入自适应函数计算出量化步长;
根据所述量化步长,对子信号xp i的投影进行量化,得到量化后的子信号yp i
将所有量化后的子信号yp i进行合成,输出合成信号yp
5.根据权利要求4所述的PDF文档水印生成方法,其特征在于,所述将量化后的行距信号进行反置乱操作,输出含有水印信息的PDF文档包括:
采用密钥Keyp对量化后的行距信号yp进行反置乱操作,输出编码行距信号y。
6.一种PDF文档水印提取方法,其特征在于,包括:
接收经过信道传播后失真的含有水印信息的PDF文档,提取出其中的行距信号;
对所述行距信号进行置乱操作,且采用自适应函数计算置乱操作后的行距信号的量化步长,根据量化步长对置乱后的行距信号进行量化;
通过最小距离检测器从量化后的行距信号中检测出水印信息;
所述自适应函数为所述量化步长与行距信号之间的映射关系式,所述映射关系式为:
Δ=g(p)=αpβ
其中,p=xTv,α为嵌入强度,g(p)为自适应函数,β为自适应函数的参数;
还包括对所述自适应函数进一步优化:
Figure FDA0003769292400000031
其中,p=xTv是行距信号中第i个子信号x沿向量v的投影,yi-1是行距信号中第(i-1)个子信号的输出信号,||yi-1||ε是lε范数,定义为:
Figure FDA0003769292400000032
其中,L为每一个子信号的长度,H为水印比特的长度,yi为行距信号中第i个子信号的输出信号。
7.根据权利要求6所述的PDF文档水印提取方法,其特征在于,所述对所述行距信号进行置乱操作,且计算置乱操作后的行距信号的量化步长包括:
采用密钥Keyp对提取出的失真的含有水印信息的PDF文档中的行距信号
Figure FDA0003769292400000033
进行置乱操作,输出置乱操作后的行距信号
Figure FDA0003769292400000034
将信号
Figure FDA0003769292400000035
分成若干个长度为L的子信号
Figure FDA0003769292400000036
将子信号
Figure FDA0003769292400000037
沿投影向量Keyv投影,并利用自适应函数计算投影后的子信号的量化步长,根据量化步长对置乱后的行距信号进行量化;
相应的,所述通过最小距离检测器从量化后的行距信号中检测出水印信息包括:
通过最小距离检测器从量化后的子信号
Figure FDA0003769292400000038
中检测出一位水印比特
Figure FDA0003769292400000041
将从所有子信号中检测出的水印比特
Figure FDA0003769292400000042
合成,得到PDF文档中的水印信息
Figure FDA0003769292400000043
8.根据权利要求7所述的PDF文档水印提取方法,其特征在于,所述通过最小距离检测器从量化后的子信号
Figure FDA0003769292400000044
中检测出一位水印比特
Figure FDA0003769292400000045
包括:
Figure FDA0003769292400000046
其中,
Figure FDA0003769292400000047
为抖动量化器:
Figure FDA0003769292400000048
其中,Q为标准量化器,Δ为量化步长,dm为抖动信号,且:
Figure FDA0003769292400000049
其中,d0
Figure FDA00037692924000000410
上均匀分布的伪随机数。
CN202010670407.0A 2020-07-13 2020-07-13 一种pdf文档水印生成方法和水印提取方法 Active CN111951148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010670407.0A CN111951148B (zh) 2020-07-13 2020-07-13 一种pdf文档水印生成方法和水印提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010670407.0A CN111951148B (zh) 2020-07-13 2020-07-13 一种pdf文档水印生成方法和水印提取方法

Publications (2)

Publication Number Publication Date
CN111951148A CN111951148A (zh) 2020-11-17
CN111951148B true CN111951148B (zh) 2022-11-11

Family

ID=73341500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010670407.0A Active CN111951148B (zh) 2020-07-13 2020-07-13 一种pdf文档水印生成方法和水印提取方法

Country Status (1)

Country Link
CN (1) CN111951148B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822521B (zh) * 2021-06-15 2024-05-24 腾讯云计算(北京)有限责任公司 题库题目的质量检测方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452564A (zh) * 2008-06-20 2009-06-10 扬州大学 一种改进的抖动量化调制水印方法
CN102306369A (zh) * 2011-07-13 2012-01-04 西安电子科技大学 基于行空间和字空间的抗打印扫描的二值文本图像水印算法
EP2717510A1 (en) * 2012-10-08 2014-04-09 Université de Genève Method for active content fingerprinting
CN104766269A (zh) * 2015-04-16 2015-07-08 山东大学 基于jnd亮度模型的扩展变换抖动调制水印方法
CN108596823A (zh) * 2018-04-28 2018-09-28 苏州大学 一种基于稀疏变换的数字盲水印的嵌入和提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452564A (zh) * 2008-06-20 2009-06-10 扬州大学 一种改进的抖动量化调制水印方法
CN102306369A (zh) * 2011-07-13 2012-01-04 西安电子科技大学 基于行空间和字空间的抗打印扫描的二值文本图像水印算法
EP2717510A1 (en) * 2012-10-08 2014-04-09 Université de Genève Method for active content fingerprinting
CN104766269A (zh) * 2015-04-16 2015-07-08 山东大学 基于jnd亮度模型的扩展变换抖动调制水印方法
CN108596823A (zh) * 2018-04-28 2018-09-28 苏州大学 一种基于稀疏变换的数字盲水印的嵌入和提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STDM图像水印改进算法;王勉 等;《成都信息工程大学学报》;20170615;第32卷(第03期);第1-5页 *

Also Published As

Publication number Publication date
CN111951148A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
US7336802B2 (en) Digital watermarking system using scrambling method
EP1376466B1 (en) Watermarking via quantization of statistics of overlapping regions
Hong et al. A blind watermarking technique using wavelet transform
US7792377B2 (en) Method of image authentication and restoration
Song et al. Chaotic system and QR factorization based robust digital image watermarking algorithm
Sheisi et al. Steganography: Dct coefficient replacement method and compare with JSteg algorithm
EP1695539B1 (en) Method for robust lossless data hiding and recovering from the integer wavelet representation
US20080226121A1 (en) Watermarking Using Multiple Watermarks and Keys, Including Keys Dependent on the Host Signal
CN111951148B (zh) 一种pdf文档水印生成方法和水印提取方法
Mitekin et al. A new QIM-based watermarking algorithm robust against multi-image histogram attack
Lian et al. Collusion-traceable secure multimedia distribution based on controllable modulation
JP2008536380A (ja) 量子化・透かし入れの方法
Chetan et al. A new fragile watermarking approach for tamper detection and recovery of document images
CN112488899B (zh) 基于重复码和Schur分解的视觉加密彩色盲水印方法
Jain et al. Robust Multiple Image Watermarking Based on Spread Transform
KR20080044680A (ko) 서브 블록을 이용한 워터마크 검출 방법 및 그 장치
Mahmoud et al. A new watermarking algorithm for scanned colored PDF files using DWT and hash function
Jiang et al. Semi-fragile watermarking algorithm for image tampers localization and recovery
Sumanth et al. A new audio watermarking algorithm with DNA sequenced image embedded in spatial domain using pseudo-random locations
DEJEY et al. An improved wavelet domain digital watermarking for image protection
Liu et al. An overview of digital watermarking
Subbulakshmi et al. Robust Reversible Watermarking Based on Normalized Correlation Combined with Cdma Techniques
Liu et al. Adaptive STDM-Based PDF Documents Watermarking Algorithm Robust to Fixed Gain Attack
Alturki et al. Secure image transform domain technique for steganographic applications
Bala et al. ROBUST DIGITAL WATERMARKING FOR DIGITAL IMAGES BASED ON DWT-SVD

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant