CN103530574A

CN103530574A - 一种基于英文pdf文档的隐藏信息嵌入和提取方法

Info

Publication number: CN103530574A
Application number: CN201310435974.8A
Authority: CN
Inventors: 刘红梅; 林少柳; 黄继武
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2013-09-23
Filing date: 2013-09-23
Publication date: 2014-01-22
Anticipated expiration: 2033-09-23
Also published as: CN103530574B

Abstract

本发明涉及一种基于英文PDF文档的隐藏信息嵌入和提取方法。嵌入方法包括：读入PDF文档的数据流；读入待嵌入的隐藏信息，并转换为二进制串；分析该PDF文档的逻辑结构，找出所有页面内容流对象；解压缩页面内容流对象的内容流，通过修改显示字符码的表示方式，在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度，并在信息头后接着嵌入已转为二进制串的隐藏信息；重新压缩内容流并写入文件体；根据重压缩后内容流的长度变化，更新交叉引用表和文件尾；输出嵌有隐藏信息的PDF文档。本发明能在英文PDF文档中嵌入和提取隐藏信息，其具有良好的视觉隐蔽性和对文档的一般编辑行为是鲁棒的。

Description

一种基于英文PDF文档的隐藏信息嵌入和提取方法

技术领域

本发明涉及多媒体信号处理领域，更具体地，涉及一种基于英文PDF文档的隐藏信息嵌入和提取方法。

背景技术

近些年，随着网络技术的快速发展，人们开始越来越多地通过互联网传输和获取信息。与此同时，电子商务、电子政务等新型办公模式正被广泛应用，越来越多的行政、商业文件如授权书、注册单、合同、发票等，开始以电子文档的形式进行流通和传输。但在互联网这个开放的环境中，拷贝、篡改等恶意行为时刻威胁着电子文档的版权归属问题，大量版权盗用、非法传输、信息伪造等问题层出不穷。基于这种情况，电子文档的数据隐藏技术日益成为版权认证、真伪鉴定、解决纠纷的主要手段。

PDF(Portable Document Format)文件格式是Adobe公司开发的电子文件格式。这种文件格式在Windows、Unix、Mac等操作系统中都是通用的，独立于操作系统平台。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息，支持特长文件，集成度和安全可靠性都较高。再者，PDF文件使用了工业标准的压缩算法，易于传输与储存。上述特性使得PDF成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。

现有基于PDF文档的信息隐藏技术容易被文档的各种日常阅读操作和保存操作所破坏，嵌入后的隐藏信息难以被完整提取出来。

因此，基于PDF文档的信息隐藏技术的研究，是有十分重要的实际意义的。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷（不足），提供一种。

为解决上述技术问题，本发明的技术方案如下：

一种基于英文PDF文档的隐藏信息嵌入方法，包括：

读入PDF文档的数据流；

读入待嵌入的隐藏信息，并转换为二进制串；

分析该PDF文档的逻辑结构，找出所有页面内容流对象；

解压缩页面内容流对象的内容流，通过修改显示字符码的表示方式，在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度，并在信息头后接着嵌入已转为二进制串的隐藏信息

重新压缩内容流并写入文件体；

根据重压缩后内容流的长度变化，更新交叉引用表和文件尾；

输出嵌有隐藏信息的PDF文档。

上述方案中，信息头嵌入页面内容流的方式为：

利用内容流中操作符的操作数，当信息头的信息比特为0时，操作符中的文字串的显示字符码用字符表示；当信息头的信息比特为1时，操作符中的文字串的显示字符码用字符值的八进制序列表示。

上述方案中，二进制串的隐藏信息嵌入页面内容流的方式为：

利用内容流中操作符的操作数，当隐藏信息的信息比特为0时，操作符中的文字串的显示字符码用字符表示；当隐藏信息的信息比特为1时，操作符中的文字串的显示字符码用字符值的八进制序列表示。

上述方案中，在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度前还进行如下步骤：

遍历页面内容流中所有的操作符的操作数，依次找到操作符中的所有文字串；

计算文字串中所有显示字符码的个数；

计算转为二进制串的隐藏信息的长度，将隐藏信息的长度转换为二进制串，将该二进制串作为信息头；

将隐藏信息的长度和信息头的长度相加后与显示字符码的个数相比较，确定PDF文档中有足够的信息嵌入容量。

上述方案中，二进制串的隐藏信息在嵌入页面内容流之前还利用密钥进行加密操作。

上述方案中，根据隐藏信息的实际长度设置信息头的长度。

一种基于英文PDF文档的隐藏信息提取方法，PDF文档为利用上述所述的方法嵌入隐藏信息后的文件，所述方法包括：

读入嵌有隐藏信息的PDF文档数据流；

分析该文档的逻辑结构，找出所有页面内容流对象；

解压缩页面内容流对象的流，根据显示字符码的表示形式，提取位于前面的一定比特的信息并转换为十进制整数，该十进制整数即为隐藏信息的长度；

根据隐藏信息的长度，在内容流中提取相应长度的二进制串；

将二进制串转换为隐藏消息字符串并输出。

上述方案中，根据显示字符码的表示形式，提取位于前面的一定比特的信息并转换为十进制整数，该十进制整数即为隐藏信息的长度包括：

按顺序查找内页面内容流中操作符的操作数，在操作符中逐个查找文字串的显示字符码，如果文字串的显示字符码是字符则提取比特‘0’，如果文字串的显示字符码是八进制序列则提取比特‘1’，提取一定长度的二进制序列后，将该二进制序列转换为整数，即得到隐藏信息的长度。

上述方案中，根据隐藏信息的长度，在内容流中提取相应长度的二进制串包括：

在已提取了隐藏信息的长度的操作符后的操作符中，逐个查找文字串的显示字符码，如果文字串的显示字符码是字符则提取比特‘0’，如果文字串的显示字符码是八进制序列则提取比特‘1’，根据隐藏信息的长度提取相应长度的二进制串。

上述方案中，当在内容流中提取的二进制串为经过加密操作的二进制串时，则还利用密钥对该二进制串进行解密操作，再将解密后的二进制串转换为隐藏信息。

与现有技术相比，本发明技术方案的有益效果是：

本发明能够在英文PDF文档中嵌入和提取隐藏信息，利用英文PDF文档中的显示字符码嵌入特定的隐藏信息，以此为依据判别PDF文档的来源、版权、真伪等信息。其中，隐藏信息嵌入PDF文档后，对文档的显示不会带来任何的影响，具有良好的视觉隐蔽性。而且，被嵌入隐藏信息后的PDF文档通过用户一般的编辑性操作后，仍然能够从中提取出正确的隐藏信息，使得本发明的方法对文档的一般编辑行为是鲁棒的。

附图说明

图1为现有技术中显示字符码的利用字符与八进制序列表示的示例图。

图2为部分显示字符码的转移序列图。

图3为本发明一种基于英文PDF文档的隐藏信息嵌入方法具体实施例的流程图。图4为原载体文档和利用本发明方法嵌入隐藏信息后的文档显示对比图。

图5为本发明一种基于英文PDF文档的隐藏信息提取方法具体实施例的流程图。图6为对已嵌入隐藏信息的文件进行的各种注释、标记操作的显示图。

图7为原始文档与“另存为”文档的逻辑结构关系图。

图8为对已嵌入隐藏信息的英文PDF文档进行各种攻击后的实验结果统计图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本发明的方法基于文字串中的字符与八进制序列的等价关系来嵌入信息。如图1所示，其为显示字符码的两种表达方式示例。该图展示了字符与八进制序列的等价关系，图中的第一行，操作符TJ的操作数中的显示字符码以字符C形式表示；第二行，操作符TJ的操作数中的显示字符码以八进制序列\ddd形式表示。这两者描述的内容都是“Research on”。如图2所示，为部分显示字符码的转移序列图。参加图2，操作符TJ的操作数中的“\”是转义字符，字符前加上一个反斜杠具有严格的解释意义，表中第一列是字符码序列，第二列是字符码序列的具体含义，第三列表示其等价的八进制序列，第四列是该字符码序列的ASCII码。

本发明中，隐藏信息的编码方案：当嵌入信息比特为0时，文字串的元素用字符表示；当嵌入信息比特为1时，文字串的元素用字符值的八进制序列表示。具体地，如图3所示，本发明一种基于英文PDF文档的隐藏信息嵌入方法具体实施例的具体步骤包括：

S101.读入PDF文档P的数据流。

S102.读入待嵌入的隐藏信息M，并转换为二进制串M_B。

S103.分析该PDF文档P的逻辑结构，找出所有页面内容流对象。

具体地，分析文档P的逻辑结构，查找根节点下面的页面树，以页面的显示顺序查找所有子页面对象Page={Page₁,Page₂,…,Page_i,…}，然后在各子页面对象中依次找出所有的内容流对象Content={Content₁,Content₂,…,Content_i,…}。

S104.解压缩页面内容流对象的内容流S，通过修改显示字符码的表示方式，在页面内容流S中嵌入一定比特的信息头表示隐藏信息M的长度，并在信息头后接着嵌入已转为二进制串的隐藏信息。

具体地，在通过修改显示字符码的表示方式，在页面内容流S中嵌入一定比特的信息头表示隐藏信息M的长度前还进行如下步骤：

遍历页面内容流S中所有的操作符TJ的操作数，依次找到操作符TJ中的所有文字串；

计算文字串中所有显示字符码的个数；将显示字符码的个数作为可嵌入信息的容量大小Size_max；

计算二进制串M_B的长度，将二进制串M_B的长度L转换为二进制串，将该二进制串作为信息头；其中，信息头可以根据隐藏信息的实际长度而设置，只要足够表达隐藏信息的长度即可。一般地，二进制串M_B的长度L转换为两个字节的二进制串，也就是16比特的二进制串。

将二进制串M_B的长度L和信息头的长度相加后与显示字符码的个数相比较，确定PDF文档中有足够的信息嵌入容量；优选地，当L+16<Size_max，表示PDF文档中有足够的信息嵌入容量。

其中，信息头嵌入页面内容流的方式为：

其中，二进制串的隐藏信息嵌入页面内容流的方式为：

在本发明中，先根据隐藏信息设置表示隐藏信息长度的信息头，将该信息头嵌入页面内容流中，接着在页面内容流中已嵌入信息头的后面接着嵌入隐藏信息。

优选地，二进制串的隐藏信息在嵌入页面内容流S之前还利用密钥进行加密操作。

S105.重新压缩内容流并写入文件体。

S106.根据重压缩后内容流的长度变化，更新交叉引用表和文件尾。

S107.输出嵌有隐藏信息的PDF文档。

其中。为了明确操作符中的文字串和显示字符码的关系，通过如下例子说明：

如操作符为[(Ja)-12(va)7(Script)]TJ，

其中，（Ja）、（va）与（Script）称为文字串，文字串里面的元素（J，a，v，a，S，c，r，I，p，t）称为显示字符码。

如图4所示，是原载体英文PDF文档和已嵌入隐藏信息的英文PDF文档文件显示图，图a)是原载体英文PDF文档显示图，图b)已嵌入隐藏信息的英文PDF文档显示图，从图中可以看出嵌入隐藏信息后对文档的显示没有带来任何影响，可以判定本方法具有良好的视觉隐蔽性。

将隐藏信息嵌入英文PDF文档后，还可以从载有隐藏信息的英文PDF文档中提取出隐藏信息来。具体地：

如图5所示，本发明一种基于英文PDF文档的隐藏信息提取方法具体实施例的具体步骤包括：

S201.读入嵌有隐藏信息的PDF文档P’数据流；

S202.分析该文档P’的逻辑结构，找出所有页面内容流对象；具体地，分析文档P’的逻辑结构，查找根节点下面的页面树，以页码的顺序查找所有子页面对象Page={Page₁,Page₂,…,Page_i,…}，然后在各子页面对象中依次找出所有的内容流对象Content={Content₁,Content₂,…,Content_i,…}。

S203.解压缩页面内容流对象的流，根据显示字符码的表示形式，提取位于前面的一定比特的信息并转换为十进制整数，该十进制整数即为隐藏信息的长度；优选地，一定比特为16比特。

具体地，解压缩内容对象中的内容流，得到解压缩流S={S₁,S₂,…,S_i,…}，按顺序查找S中操作符TJ的操作数，在操作符TJ中逐个查找文字串的元素，如果文字串的元素是字符则提取比特‘0’，如果是八进制序列则提取比特‘1’。提一定长度二进制序列L_B，然后将L_B转换为整数L，即隐藏信息的长度；其中，二进制序列L_B的长度预先设定，其根据嵌入的隐藏信息的长度确定，一般为16位。

S204.根据隐藏信息的长度，在内容流中提取相应长度的二进制串；如果L=0，则该文档P’没有嵌入隐藏信息，则直接结束提取操作。

具体地，在已提取了隐藏信息的长度的操作符后的操作符中，逐个查找文字串的显示字符码，如果文字串的显示字符码是字符则提取比特‘0’，如果文字串的显示字符码是八进制序列则提取比特‘1’，根据隐藏信息的长度提取相应长度的二进制串。

S205.将二进制串转换为隐藏消息字符串并输出。其中，当在内容流中提取的二进制串为经过加密操作的二进制串C_B时，则读取密钥K，对密文二进制串C_B进行解密操作，得到明文二进制串M_B；将M_B转换为有意义的隐藏信息字符串并输出。

图6是对已嵌入隐藏信息的PDF文档进行的各种注释、标记操作图示。该图是使用Adobe Acrobat Professional9.5对已嵌入隐藏信息的PDF文档进行的软件提供的所有注释、标记的结果。然后，对被编辑后的PDF文档提取隐藏信息，提取检测结果正确率为100%。因此，本发明对一般编辑行为是鲁棒的。

图7是原始PDF文档与“另存为”PDF文档的逻辑结构关系图。在页面显示层上，“另存为”得到的PDF文档与原始PDF文档是完全一样的。从PDF逻辑结构的角度上看，与PDF文档显示层最紧密相关的是页面树的叶子节点，即页面内容流对象，换而言之，由“另存为”操作得到的文档，其页面树叶子节点的信息与原始文档是一致的，即这两个文档的内容流是相同的。

图8为对已嵌入隐藏信息的英文PDF文档进行各种攻击的实验结果统计图。在Adobe Acrobat Professional9.5的平台上对嵌入了隐藏信息的载体英文PDF文档进行各种常见的阅读操作并保存，然后提取文档中的隐藏信息，实验结果如图8所示。从图8可以知道，被嵌入隐藏信息后的英文PDF文档通过用户一般的编辑性操作后，仍然能够从中提取出正确的隐藏信息，本发明的方法对文档的一般编辑行为是鲁棒的。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于英文PDF文档的隐藏信息嵌入方法，其特征在于，包括：

读入PDF文档的数据流；

读入待嵌入的隐藏信息，并转换为二进制串；

分析该PDF文档的逻辑结构，找出所有页面内容流对象；

解压缩页面内容流对象的内容流，通过修改显示字符码的表示方式，在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度，并在信息头后接着嵌入已转为二进制串的隐藏信息；

重新压缩内容流并写入文件体；

输出嵌有隐藏信息的PDF文档。

2.根据权利要求1所述的基于英文PDF文档的隐藏信息嵌入方法，其特征在于，信息头嵌入页面内容流的方式为：

3.根据权利要求1所述的基于英文PDF文档的隐藏信息嵌入方法，其特征在于，二进制串的隐藏信息嵌入页面内容流的方式为：

4.根据权利要求1所述的基于英文PDF文档的隐藏信息嵌入方法，其特征在于，在页面内容流中嵌入一定比特的信息头表示隐藏信息的长度前还进行如下步骤：

计算文字串中所有显示字符码的个数；

5.根据权利要求1所述的基于英文PDF文档的隐藏信息嵌入方法，其特征在于，二进制串的隐藏信息在嵌入页面内容流之前还利用密钥进行加密操作。

6.根据权利要求1至5任一项所述的基于英文PDF文档的隐藏信息嵌入方法，其特征在于，根据隐藏信息的实际长度设置信息头的长度。

7.一种基于英文PDF文档的隐藏信息提取方法，其特征在于，PDF文档为利用权利要求1所述的方法嵌入隐藏信息后的文件，所述方法包括：

读入嵌有隐藏信息的PDF文档数据流；

分析该文档的逻辑结构，找出所有页面内容流对象；

将二进制串转换为隐藏消息字符串并输出。

8.根据权利要求7所述的基于英文PDF文档的隐藏信息提取方法，其特征在于，根据显示字符码的表示形式，提取位于前面的一定长度的信息并转换为十进制整数，该十进制整数即为隐藏信息的长度包括：

按顺序查找内页面内容流中操作符的操作数，在操作符中逐个查找文字串的显示字符码，如果文字串的显示字符码是字符则提取比特‘0’，如果文字串的显示字符码是八进制序列则提取比特‘1’，提取一定数量的二进制序列后，将该二进制序列转换为整数，即得到隐藏信息的长度。

9.根据权利要求8所述的基于英文PDF文档的隐藏信息提取方法，其特征在于，根据隐藏信息的长度，在内容流中提取相应长度的二进制串包括：

10.根据权利要求7至9任一项所述的基于英文PDF文档的隐藏信息提取方法，其特征在于，当在内容流中提取的二进制串为经过加密操作的二进制串时，则还利用密钥对该二进制串进行解密操作，再将解密后的二进制串转换为隐藏信息。