CN111951148B

CN111951148B - 一种pdf文档水印生成方法和水印提取方法

Info

Publication number: CN111951148B
Application number: CN202010670407.0A
Authority: CN
Inventors: 王道顺; 刘景财; 刘乃熙; 巩林明; 贾星星
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2022-11-11
Anticipated expiration: 2040-07-13
Also published as: CN111951148A

Abstract

本发明实施例提供一种PDF水印生成方法和水印提取方法，所述水印生成方法包括：提取PDF文档的文本行距信号，并对文本行距信号进行置乱操作；将水印信息编码到PDF文档的置乱操作后的行距信号中；将编码后的行距信号输入STDM，使得STDM使用自适应函数计算编码后的行距信号的量化步长，并根据量化步长对编码后的行距信号进行量化，将量化后的行距信号进行反置乱操作，输出含有水印信息的PDF文档。本发明实施例在STDM嵌入器中引入自适应函数，采用自适应函数对行距信号的量化步长进行计算，能够适用于文本文档的水印生成，对于固定增益攻击和高斯噪声攻击具有很强的鲁棒性。

Description

一种PDF文档水印生成方法和水印提取方法

技术领域

本发明属于水印生成技术领域，尤其涉及一种PDF文档水印生成方法和水印提取方法。

背景技术

数字产品的盗版、侵权等行为屡禁不止，数字产品的版权保护成为当前亟待解决的问题。数字水印技术是解决数字产品版权保护的有效方法。数字水印技术将版权信息、所有者信息、序列码或标识符等水印信息嵌入到文本、图片、音频、视频等载体中，当发生版权纠纷等问题时，可以从数字载体中提取出版权信息或所有者信息，证明数字产品的归属。

目前，图像、视频、音频水印技术已得到广泛的研究，并且取得的令人满意的效果。然而，文本水印技术缺少系统性的研究方法和标准化的分析工具，其研究相对更加困难，不像图像、视频等载体有大量的冗余信息可用于修改以嵌入水印信息，对文本信息的少量修改会使得文档的语义发生变化，甚至变得不可理解。因此，需要从文本信息或上下文信息中挖掘新的特征用来嵌入水印信息。

目前主要有以下几种PDF文档的水印算法，第一种，将PDF文档转换成文档图像，并在图像中嵌入两个水印，其中，第一个水印嵌入在图像的绿色通道的小波域中，用于版权保护，可以抵抗多种类型的攻击；第二个水印，即哈希键，使用最低有效位(LSB)方法嵌入到图像的空间域中，用于保护PDF文档不受任何更改，最后再将图像转换成PDF文档。该算法只能用于具有丰富纹理的彩色PDF文档，不适用于纯文本文档。

第二种，适用于PDF文档的盲数字水印算法，该算法基于原始STDM技术，通过量化选定的一系列字符的横坐标，将水印比特嵌入到这些字符的间距中。经过大量实验，给出了选定字符横坐标的可接受失真量，该算法在较高密度噪声的攻击下仍具有足够的鲁棒性和较好不可见性。

第三种，一种基于PDF文档结构的水印算法，该算法将水印信息嵌入到PDF文档的废弃页面对象(Discarded Page Object)中。该算法具有实现简单、隐蔽性好、鲁棒性强等优点，可以抵抗添加字词，删除字词、页面，旋转页面等攻击。但是大多数的PDF文档都是一次性生成的，没有废弃页面对象，此时该算法是无效的。

发明内容

为克服上述现有问题或者至少部分地解决上述问题，本发明实施例提供一种PDF文档水印生成方法和水印提取方法。

根据本发明实施例的第一方面，提供一种PDF文档水印生成方法，包括：

提取PDF文档的文本行距信号，并对文本行距信号进行置乱操作；

将水印信息编码到PDF文档的置乱操作后的行距信号中；

将编码后的行距信号输入STDM，使得STDM使用自适应函数计算编码后的行距信号的量化步长，并根据量化步长对编码后的行距信号进行量化；

将量化后的行距信号进行反置乱操作，输出含有水印信息的PDF文档。

根据本发明实施例第二方面，提供一种PDF文档水印提取方法，包括：

接收经过信道传播后失真的含有水印信息的PDF文档，提取出其中的行距信号；

对所述行距信号进行置乱操作，且采用自适应函数计算置乱操作后的行距信号的量化步长，根据量化步长对置乱后的行距信号进行量化；

通过最小距离检测器从量化后的行距信号中检测出水印信息。

根据本发明实施例的第三个方面，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的PDF文档水印生成方法和PDF文档水印提取方法。

根据本发明实施例的第四个方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的PDF文档水印生成方法和PDF文档水印提取方法。

本发明实施例提供一种PDF文档水印生成方法和水印提取方法，该方法通过在STDM嵌入器中引入自适应函数，采用自适应函数对行距信号的量化步长进行计算，能够适用于文本文档的水印生成，对于固定增益攻击和高斯噪声攻击具有很强的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的PDF文档水印生成方法整体流程示意图；

图2为本发明实施例提供的PDF文档水印提取方法整体流程示意图；

图3为本发明实施例提供的PDF文档水印生成和提取方法的整体流程示意图；

图4(a)为对行距信号未进行置乱操作量化调制后的行距信号示意图；

图4(b)为对行距信号进行置乱操作量化调制后的行距信号示意图；

图5为本发明实施例提供的PDF文档水印提取方法的整体流程示意图；

图6(a)为采用不同的水印算法对固定增益攻击的鲁棒性示意图；

图6(b)为采用不同的水印算法对高斯噪声攻击的鲁棒性示意图；

图7(a)为采用不同的水印算法的不可感知性示意图；

图7(b)为采用不同水印算法的鲁棒性示意图。

具体实施方式

在对本发明实施例提供的水印生成方法描述之前，先对扩展变换抖动调制(Spread Transform Dither Modulation，以下简称STDM)进行介绍。STDM是原始QIM算法的一种实现，其将抖动调制和扩频思想引入到QIM系统中。

其中，扩展变换抖动调制STDM可减少量化伪影以产生感知上更好的量化信号，同时确保量化噪声独立于载体信号，而且伪随机抖动向量可以作为密钥，从而提高系统的安全性。如图1所示，载体信号x沿向量v进行投影，得到x^Tv，然后根据水印信息选择相应的抖动量化器(图1中示出的DM即为抖动量化器)，经抖动调制将水印信息嵌入到载体信号的投影中。如果v是伪随机向量，则由嵌入算法引入的失真会传播至整个载体信号中。由图可推导出STDM的表达式为：

其中，v是单位长度(或单位能量)的伪随机投影向量，

为抖动量化器，其定义为：

其中，Q为标准量化器，Δ为量化步长，d_m为抖动信号，且：

其中,d₀是

上均匀分布的伪随机数。

参见图2，提供了本发明实施例的一种PDF文档水印生成方法，包括：

将水印信息编码到PDF文档的置乱操作后的行距信号中；将编码后的行距信号输入STDM嵌入器，使得STDM嵌入器利用自适应函数计算编码后的行距信号的量化步长，并根据量化步长对编码后的行距信号进行量化，并将量化后的行距信号合成；

将合成后的行距信号进行反置乱操作，输出含有水印信息的PDF文档。

可以理解的是，原始的STDM对于信号的对固定增益攻击和高斯噪声攻击的鲁棒性较弱，基于此，本发明实施例在原始STDM中引入自适应函数，使得STDM能够自动调节对文档的修改幅度，然后通过优化自适应函数，使算法能够抵抗固定增益攻击。与原始的STDM算法相比，在保证较好的不可见性情况下，本发明实施例引入自适应函数后的STDM对高斯噪声攻击和固定增益攻击具有较强的鲁棒性。

作为一个可选的实施例，基于改进后的STDM的PDF文档水印生成的整个过程如图3所示，首先将PDF文档送入解析器，分析PDF文档的结构，提取文档的页面和流数据，计算出文本行距x；然后输入加密装置中对文本行距信号x进行置乱操作，得到置乱操作后的文本行距信号x_p，以提高系统的安全性；接着将置乱得到的行距信号x_p送入STDM嵌入器进行量化，同时根据行距信号x_p自动调整量化步长的大小，从而将水印信息m编码到文本行距x_p中，得到含有水印信息的行距信号y_p；最后将修改的行距信号输入反加密装置反置乱操作得到y送入生成器，输出含有水印的PDF文档。

其中，作为一个可选的实施例，提取PDF文档的文本行距信号，并对文本行距信号进行置乱操作包括：

使用密钥Key_p对提取出的PDF文档的行距信号x＝{x₁,x₂,x₃,...,x_N}进行置乱操作，输出置乱操作后的行距信号x_p＝{x_p1,x_p2,x_p3,...,x_pN}。

将PDF文档原始的行距信号进行置乱操作得到x_p之后，将置乱操作后的行距信号x_p分成若干个长度为L的子信号x_p ⁱ，i＝1,2,...,H，且N≥HL；向每一个子信号x_p ⁱ中嵌入一位水印比特m_i，其中，水印比特序列为m＝{m₁,m₂,m₃,...,m_H}。其中，将置乱操作后的行距信号x_p划分后的子信号的数量与水印比特位数相同，每一个子信号中嵌入一位水印比特位。

作为一个可选的实施例，将编码后的行距信号输入STDM嵌入器，使得STDM嵌入器根据编码后的行距信号计算量化步长，并根据量化步长对编码后的行距信号进行量化：

将每一个子信号x_p ⁱ沿投影向量Key_v进行投影，并输入自适应函数计算出量化步长；

根据量化步长，对子信号x_p ⁱ的投影进行量化，得到量化后的子信号y_p ⁱ；

将所有量化后的子信号y_p ⁱ进行合成，输出量化合成后的行距信号y_p。

采用密钥Key_p对量化合成后的行距信号y_p进行反置乱操作，输出编码行距信号y，即为含有水印信息的PDF文档。

其中，基于STDM的PDF文档水印算法在载体信号的每个子信号中嵌入一个水印比特，当载体信号选择文本行距时，由于同一篇文档中的文本行距大多数是相同的且是连续的，因此经STDM量化调制后生成的信号会有非常明显的规律性，如图4(a)所示，降低了系统的安全性，所以非常有必要加入置乱操作。通常置乱操作会被用在水印信息上，以打乱水印信息使其无法辨认，如果本发明实施例的算法也采用这种方式，虽然攻击者无法直接得到水印信息，但是调制后的信号仍然呈现明显的规律性。更好的方法是对载体信号(即行距信号)进行置乱操作，将水印信息扩散到整个载体信号的任意位置，使调制后的信号呈现出随机性，如图4(b)所示。

本发明实施例采用STDM对PDF文档的行距信号进行量化来嵌入水印信息，相比于采用文本字符间距和单词间距作为量化对象，选择文本行距使算法具有更好的鲁棒性，因为更大的文本元素在受到相同的失真时具有更大的信噪比。对于文本行距来说，意味着更大的文本行距(相对文本字符间距和单次间距)可以承受更多的失真。一篇经过格式化的文档，其文本行距几乎不可能完全相同，如段落之间、标题前后等的行距通常会比正文行距更大，所以可通过使这些更大的文本行距承受更多的失真来提高算法的鲁棒性。当信号x在投影向量v上的投影近似均匀分布于STDM量化单元上时，信号的总体平均期望失真为：

其中，L是行距信号的每一个子信号的长度，由上式可知，当L保持不变时，总体平均期望失真与量化步长Δ成正比，量化步长Δ越大，平均失真越大。因此可以将量化步长Δ与文本行距建立某种正比例映射关系，使量化步长随着文本行距的增大而增大，量化步长与文本行距之间的映射关系为自适应函数。本发明实施例中采用的自适应函数为：

Δ＝g(p)＝αp^β； (5)

其中，p＝x^Tv，α为嵌入强度，g(p)为自适应函数，β为自适应函数的参数。

其中，含有水印信息的PDF文档在信道传播的过程中会受到各种攻击，其中固定增益攻击(FixedGain Attack)是指接收端收到的载体信号被乘上一个缩放因子ρ>0，即：

基于原始的STDM的水印算法对固定增益攻击的鲁棒性很弱，这是因为缩放之后的信号很容易偏离原始量化单元，因此必须对STDM算法进行改进，使其能够抵抗固定增益攻击。实际上，目前已有不少研究者对基于STDM的水印算法进行优化，以使其能够抵抗固定增益攻击，但是这些算法几乎都是针对图像水印算法，利用Watson感知模型来优化量化步长或者改进STDM算法的嵌入器和提取器表达形式。本发明实施例通过优化量化步长Δ来实现抵抗固定增益攻击，同时保持算法的自适应性。

其中，对上述公式(5)的量化步长进一步优化：

其中，p＝x^Tv是行距信号中第i个子信号x沿向量v的投影，y^i-1是行距信号中第(i-1)个子信号的输出信号，||y^i-1||_ε是l_ε范数，定义为：

其中，L为每一个子信号的长度，H为水印比特的长度，yⁱ为行距信号中第i个子信号的输出信号。

在只有固定增益攻击的情况下，由公式(6)可知，此时

则：

从上式可知，从未受到攻击的输出信号y和受到固定增益攻击后的失真信号

中提取出的水印比特是相同的，这就确保了本发明实施例算法在固定增益攻击下的准确性，下面的问题就是求解β的取值。

此时：

且：

根据公式(10)和公式(11)得到：

令

则公式(12)可简化为：

以上介绍了PDF文档水印生成方法，参见图5，提供了本发明实施例的一种PDF文档水印提取方法，其从含有水印信息的PDF文档中提取水印，包括：

对行距信号进行置乱操作，且采用自适应函数计算置乱操作后的行距信号的量化步长；

通过最小距离检测器从行距信号中检测出水印信息。

可以理解的是，当含有水印信息的PDF文档经过信道传播后，接收端得到了失真的PDF文档，从失真的PDF文档中提取准确的水印信息。

对于失真后的PDF文档，从中提取出行距信号，对行距信号进行置乱操作并进行量化，具体置乱量化方法为：

可参见图3，采用密钥Key_p对提取出的失真的含有水印信息的PDF文档中的行距信号

进行置乱操作，输出置乱操作后的行距信号

将信号

分成若干个长度为L的子信号

将子信号

沿投影向量Key_v投影，并利用自适应函数计算投影后的子信号的量化步长。

对于量化后的子信号

通过最小距离检测器从量化后的子信号

中检测出位水印比特

将从所有子信号中检测出的水印比特

合成，得到PDF文档中的水印信息

其中，当信号y经信道传播时会产生失真，包括常规信号处理和人为恶意攻击导致的失真，STDM检测器通过距离失真信号的投影最近的量化点来估计嵌入信号的水印信息，即：

其中，

和d_m可参见前述公式(2)和(3)，即通过最小距离检测器从量化后的子信号

中检测出一位水印比特

将从每一个子信号中提取出的水印比特合成得到水印信息。

文本水印算法通常使用不可感知性、鲁棒性、嵌入容量等标准来评价算法的性能，而且这些标准之间是相互制约的，无法使它们都达到最优。水印算法需要根据应用场景优化对算法性能最重要的评价标准，使算法在这些评价标准之间达到最佳的平衡。不可感知性即不可见性或透明性，要求算法对原始文本文档的修改不能明显降低文档显示质量，实际常通过比较原始文本文档和含有水印的文本文档之间的差异来分析算法的不可感知性，此处使用MSE(Mean Square Error，均方误差)和MXAE(MaXimum Absolute Error，最大绝对误差)来评价文本水印算法的不可感知性，其定义为：

其中，X为原始文本文档的行距信号，

为含有水印的文本文档的行距信号，N为行距信号的长度，max为取集合中最大值的函数。MSE表示算法对文本文档的行距信号产生的平均失真，MXAE表示算法对文本文档的行距信号产生的最大失真。对于利用行移(以及字移、词移等)来嵌入秘密消息的文档水印算法而言，仅使用MSE来评价算法的不可感知性是不够准确的。假设水印算法对文本文档产生的平均失真足够小，而对文本文档中某些行距的修改幅度却很大，则文本文档中失真较大的行距要么很宽，要么很窄，这很容易被察觉到。因此，本发明实施例使用MXAE作为水印不可感知性的主要评价指标，而MSE用于辅助分析。鲁棒性指算法能够抵抗对原始水印进行检索、修改、破坏、移除等攻击的能力。通常使用BER(Bit Error Rate，误码率)来定量分析算法的鲁棒性，其定义为：

其中，W是原始水印，

是从失真文本文档中提取出的水印，H是水印的长度。

水印信号和投影向量都是随机生成的，理想情况下，假设有足够的行距信息来嵌入水印，将行距信号划分成长度为L＝31的子信号，水印比特长度H＝1001，行距x＝22且均相等，在可接受的不可见性范围内，重复计算5次BER并取其平均值来评价该算法对高斯噪声、固定增益等攻击的鲁棒性；而实际情况下，行距信息是有限的，此时假设L＝31，H＝11，x＝22，重复计算500次BER并取其平均值。经过大量的实验，发现以上两种情况得到的结果基本上是一致的。

由图6(a)和6(b)可知，在最大失真(mxae＝0.4)相同的条件下，原始算法STDM和本发明实施例提出的算法STDM-SA(引入自适应函数的STDM)对高斯噪声攻击具有很强的鲁棒性，且本发明实施例提出的算法STDM-SA要稍好些，但对固定增益攻击的鲁棒性很弱；算法rdm(Rational Dither Modulation)对固定增益攻击的鲁棒性很好，但对高斯噪声攻击的鲁棒性很差，该算法的优势是其水印容量比其他算法高的多，其中，rdm算法可参考文献：Fernando Pérez-González,Mauro Barni,Andrea Abrardo,and CarlosMosquera.Rational dither modulation:A novel data-hiding method robust tovalue-metric scaling attacks.In 2004IEEE 6th Workshop on Multimedia SignalProcessing,number I,pages 139–142,2004；而算法STDM-SF(对自适应函数进一步优化后的STDM算法)对固定增益攻击和高斯噪声攻击都具有较强的鲁棒性，之所以对高斯噪声攻击的鲁棒性比算法STDM和STDM-SA弱，是因为在最大失真相同时，算法STDM-SF的平均失真比算法STDM和STDM-SA小，如图7(a)和7(b)所示，但是随着最大失真(或嵌入强度)的增大，这种差距也在逐渐缩小。

本发明实施例提供的一种PDF文档水印生成方法和提取方法，在原始STDM算法中引入自适应函数，使算法能够自动调节对文档的修改幅度，然后通过优化自适应函数，使算法能够抵抗固定增益攻击。与原始的STDM算法相比，本发明实施例提出的算法在保证较好的不可见性情况下，对高斯噪声攻击和固定增益攻击具有较强的鲁棒性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。