CN109784082A

CN109784082A - 一种基于pdf文件的图文相关鲁棒隐写方法及系统

Info

Publication number: CN109784082A
Application number: CN201910129282.8A
Authority: CN
Inventors: 张卫明; 俞能海; 陈可江; 周航; 董潇逸
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-05-21

Abstract

本发明公开了一种基于PDF文件的图文相关鲁棒隐写方法及系统，方法包括：利用载体图像生成对应的文本，基于载体图像和载体图像对应的文本生成初始PDF文件，基于初始PDF文件的结构和格式，提取初始PDF文件中的载体图像，基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入，生成载密图像，将载密图像转化为码流，并从底层修改载密PDF文件内容。本发明基于PDF文件在社交媒体上传输是无损的，各大社交媒体不会对PDF文件进行处理，结合图像理解和主题生成的技术，生成图文相关的PDF文件，并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法，能够有效的避免大数据分析手段的攻击，以及保证隐秘信息的正确提取。

Description

一种基于PDF文件的图文相关鲁棒隐写方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于PDF文件的图文相关鲁棒隐写方法及系统。

背景技术

隐写术的主要目的是用图像、音频、视频等载体掩盖秘密消息，实现隐蔽通信。信号中相关性弱、难以模型化的区域(如图像的纹理复杂区域)更适合修改，因为在这样的区域内修改嵌入信息是难以被检测到的，而相关性强的区域内嵌入信息则易被检测到。这促使隐写术自适应地优先修改失真小(难检测)的区域。相应地，隐写编码技术也向自适应方向发展。针对这种需求，目前提出了实用的最小化失真隐写编码，被称为STC。实用的最小化失真隐写编码出现以后，隐写术的研究就集中在了如何设计合理的失真函数。

当前最流行的隐写载体为图像，它具有嵌入容量大的特点。但是大部分研究都是基于含有秘密信息的图像未经过任何处理传送到接收方。显然在实际生活中，更多场景是有损的处理，比如各大社交网站。载密图片在社交媒体上的传输会不可避免的受到有损处理，包括有损压缩，重采样等，这将导致隐秘信息无法正确提取。

因此，如何有效的避免大数据分析手段的攻击，以及保证隐秘信息的正确提取，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于PDF文件的图文相关鲁棒隐写方法，基于PDF文件在社交媒体上传输是无损的，各大社交媒体不会对PDF文件进行处理，结合图像理解和主题生成的技术，生成图文相关的PDF文件，并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法，能够有效的避免大数据分析手段的攻击，以及保证隐秘信息的正确提取。

本发明提供了一种基于PDF文件的图文相关鲁棒隐写方法，包括：

利用载体图像生成对应的文本；

基于所述载体图像和所述载体图像对应的文本生成初始PDF文件；

基于所述初始PDF文件的结构和格式，提取所述初始PDF文件中的所述载体图像；

基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入，生成载密图像；

将所述载密图像转化为码流，并从底层修改载密PDF文件内容。

优选地，所述利用载体图像生成对应的文本包括：

提取所述载体图像的语义信息；

基于所述语义信息，利用文本生成模型或利用关键词在网络上扒取获得一段文本。

优选地，所述提取所述载体图像的语义信息包括：

使用预训练的视觉语义映射模型提取所述载体图像的语义信息。

优选地，所述利用载体图像生成对应的文本包括：

基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本。

优选地，所述基于所述初始PDF文件的结构和格式，提取所述初始PDF文件中的所述载体图像包括：

基于所述初始PDF文件的结构和格式，提取所述初始PDF文件中的所述载体图像对象中的JPEG格式图像。

一种基于PDF文件的图文相关鲁棒隐写系统，包括：

第一生成模块，用于利用载体图像生成对应的文本；

第二生成模块，用于基于所述载体图像和所述载体图像对应的文本生成初始PDF文件；

提取模块，用于基于所述初始PDF文件的结构和格式，提取所述初始PDF文件中的所述载体图像；

第三生成模块，用于基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入，生成载密图像；

转化模块，用于将所述载密图像转化为码流，并从底层修改载密PDF文件内容。

优选地，所述第一生成模块在执行利用载体图像生成对应的文本时，包括：

提取单元，用于提取所述载体图像的语义信息；

扒取单元，用于基于所述语义信息，利用文本生成模型或利用关键词在网络上扒取获得一段文本。

优选地，所述提取单元在执行提取所述载体图像的语义信息时，具体用于：

优选地，所述第一生成模块在执行利用载体图像生成对应的文本时，具体用于：

优选地，所述提取模块具体用于：

综上所述，本发明提供了一种基于PDF文件的图文相关鲁棒隐写方法，包括：利用载体图像生成对应的文本，基于载体图像和所述载体图像对应的文本生成初始PDF文件，基于初始PDF文件的结构和格式，提取初始PDF文件中的载体图像，基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入，生成载密图像，将载密图像转化为码流，并从底层修改载密PDF文件内容。本发明基于PDF文件在社交媒体上传输是无损的，各大社交媒体不会对PDF文件进行处理，结合图像理解和主题生成的技术，生成图文相关的PDF文件，并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法，能够有效的避免大数据分析手段的攻击，以及保证隐秘信息的正确提取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例1的流程图；

图2为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例2的流程图；

图3为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例3的流程图；

图4为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例1的结构示意图；

图5为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例2的结构示意图；

图6为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例3的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例1的流程图，可以包括以下步骤：

S101、利用载体图像生成对应的文本；

当需要实现基于PDF文件的图文相关鲁棒隐写时，首先获取用于加载加密信息的载体图像，同时，利用获取到的载体图像生成与载体图像对应的文本。

S102、基于载体图像和载体图像对应的文本生成初始PDF文件；

当获取到载体图像，以及与载体图像对应的文本后，进一步根据载体图像和载体图像对应的文本生成初始PDF文件。需要说明的是，在生成初始PDF文件时，可利用Microsoft Word或者其他办公软件编辑，并生成初始PDF文件。

S103、基于初始PDF文件的结构和格式，提取初始PDF文件中的载体图像；

其中，PDF文件的结构和格式包括：

文件头(Header)，指明了该文件所遵从的PDF规范的版本号，它出现在PDF文件的第一行。

文件体(Body)，PDF文件的主要部分，由一系列对象组成。

交叉引用表(Cross-referencetable)，为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。

文件尾(Trailer)，声明了交叉引用表的地址，即指明了文件体的根对象(Catalog)，从而能够找到PDF文件中各个对象体的位置，达到随机访问。另外还保存了PDF文件的加密等安全信息。

根据初始PDF文件的结构和格式，提取出初始PDF文件中的载体图像。

S104、基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入，生成载密图像；

当提取到初始PDF文件中的载体图像后，进一步根据图像自适应隐写算法在提取到的初始PDF文件中的载体图像上进行加密信息嵌入，生成载密图像。

S105、将载密图像转化为码流，并从底层修改载密PDF文件内容。

最后，将载密图像转化为码流，并从底层修改载密PDF文件内容，即将被载体图像码流替换为载密图像码流。具体的，以二进制方式对文件进行处理，用载密图像的码流替换初始PDF文件中的载体图像的码流，该操作完成后载密PDF文件无其他被修改特征，不影响整个传输操作的安全性。

综上所述，在上述实施例中，基于PDF文件在社交媒体上传输是无损的，各大社交媒体不会对PDF文件进行处理，结合图像理解和主题生成的技术，生成图文相关的PDF文件，并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法，能够有效的避免大数据分析手段的攻击，以及保证隐秘信息的正确提取。

如图2所示，为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例2的流程图，可以包括以下步骤：

S201、提取载体图像的语义信息；

具体的，在生成与载体图像对应的文本时，首先提取载体图像语义信息，使用预训练的视觉语义映射模型，将载体图像转化为描述其内容的短语。基于深度学习的视觉语义映射模型很多都可以应用在本发明中，具体的可以以im2txt为例，它是一个端到端的视觉语义映射模型。将载体图像输入到一个VisionDeepCNN网络，网络的输出紧连着LanguageGenerating RNN网络输出描述图像的短语c。

S202、基于语义信息，利用文本生成模型或利用关键词在网络上扒取获得一段文本；

然后，根据输出的描述图像的短语c再利用文本生成模型或者利用关键词在网络上扒取获得一段文本。文本生成模型基于马尔可夫的语言模型在数据驱动的自然语言生成，也有基于深度学习的文本生成模型。本发明可以采用char-RNN网络实现自然文本的生成，将生成文本表示为w。

S203、基于载体图像和载体图像对应的文本生成初始PDF文件；

S204、基于初始PDF文件的结构和格式，提取初始PDF文件中的载体图像；

其中，PDF文件的结构和格式包括：

文件体(Body)，PDF文件的主要部分，由一系列对象组成。

PDF文件中的图像分为两类：图像外部对象(XObject)：在内容流(contentstream)之外定义的一个有名字的被引用对象。内嵌图像(inline image)：直接把图像属性和数据嵌在一个内容流里的小图像，通常大小在4KB之内。本发明中主要研究图像外部对象中的JPEG图像。

具体的，提取载体图像对象中的JPEG图像数据具体步骤可以如下：

步骤1、利用关键字/XObject或/Im定位查找到含有图像的对象；

步骤2、将含有图像的页对象的页码记录下来，并将图像在该页和文档中出现的顺序记录下来；

步骤3、按照图像对象的编号，在交叉参考表中找到该对象在文件中的偏移量，定位该对象；

步骤4、提取对象关键词“/Filter”后面的值，如果是“DCTDecode”，就进行步骤5的操作；

步骤5、提取该对象的流长度，如果长度大于1000，即数据大于1k，认为数据是有意义的，进行步骤6的操作；

步骤6、提取“stream”和“endstream”之间的内容，验证是否JPEG格式，如果是JPEG格式，保存时添加后缀名.jpg，并将文件名和图像出现的页码和在该页中的顺序也保存到文件名中。

S205、基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入，生成载密图像；

具体的，可以采用以下步骤：

步骤1、读取JPEG图像，解码得到DCT系数矩阵X。

步骤2、根据UERD的失真计算图像中每个DCT系数±1的失真D。

步骤3、利用加密算法对秘密消息m进行加密，将明文消息转化为密文消息m'。

步骤4、根据失真D和密文消息，利用STC(Sydrome Trellis Codes)工具箱进行信息嵌入，得到载密图像Y。其中STC工具箱嵌入信息和提取操作可以用如下公式表示：

Ext(Y)＝HY

其中，C(m')＝{z∈{0,1}ⁿ|Hz＝m'}是m'的陪集。编码嵌入过程的本质就是在秘密信息m'的陪集中寻找与载体X具有最小失真的码字Y的过程。接收方在收到Y后，将其乘以奇偶校验矩阵H就可以得到密文消息m’。

应用自适应隐写算法，修改都发生纹理复杂区域，不仅人眼难以察觉，隐写分析也难以成功检测。

S206、将载密图像转化为码流，并从底层修改载密PDF文件内容。

如图3所示，为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例3的流程图，可以包括以下步骤：

S301、基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本；

具体的，在生成与载体图像对应的文本时，可以采用开源的Neural-storyteller，它是一个能够根据图像内容生成故事的循环神经网络。整个网络包含四个部分：1)跳接联想向量(skip-thought vectors)；2)图像语句嵌入(image-sentence embedding)；3)条件神经语言模型(conditional neural language models)4)；风格变化模型(styleshifting)。基于现有大量的标注数据，训练文章生成循环神经网络(对应skip-thoughtvectors)以及视觉语义转化网络(对应image-sentence embedding)。在这两个网络间构建桥梁，即建立图像-句子-文章的向量映射，实现图像生成故事。

S302、基于载体图像和载体图像对应的文本生成初始PDF文件；

S303、基于初始PDF文件的结构和格式，提取初始PDF文件中的载体图像；

其中，PDF文件的结构和格式包括：

文件体(Body)，PDF文件的主要部分，由一系列对象组成。

步骤1、利用关键字/XObject或/Im定位查找到含有图像的对象；

S304、基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入，生成载密图像；

具体的，可以采用以下步骤：

步骤1、读取JPEG图像，解码得到DCT系数矩阵X。

步骤2、根据UERD的失真计算图像中每个DCT系数±1的失真D。

步骤3、利用加密算法对秘密消息m进行加密，将明文消息转化为密文消息。

步骤4、根据失真D和密文消息，利用STC(Sydrome Trellis Codes)工具箱进行信息嵌入，得到载密图像Y。其中，STC工具箱嵌入信息和提取操作可以用如下公式表示：

Ext(Y)＝HY

S305、将载密图像转化为码流，并从底层修改载密PDF文件内容。

需要说明的是，本发明实施例还提供了载密图像的提取方式，相当于前述步骤的逆向过程，其步骤如下：

步骤1、读取PDF文件，按同样方法搜索定位JPEG图像并提取，读取JPEG图像可获得无损的载密DCT系数Y。

步骤2、利用STC编码工具箱提取密文消息。接收端共享奇偶校验矩阵H，利用Ext(Y)＝HY便可以提取密文消息。

步骤3、根据解密算法将密文消息转化为明文消息m。

本发明生成图文相关的PDF文件，在微信，QQ等社交软件上都能进行隐蔽通信，接收端消息都能被正确提取。

下面通过以下几个方面对本发明进行测试：信息提取，载体图像和载密图像的隐写分析实验，PDF文档的合理性程度。

1)信息提取

根据本发明所提算法，选取100张JPEG图片，利用Neural-storyteller产生图像对应的故事，利用Microsoft Word编辑并生成PDF文件。分析PDF文件，提取JPEG图像作为载体图像，用0.1-0.5bpnzac(bit per non-zero AC coefficient)的嵌入率进行嵌入，得到载密的JPEG载体图像，然后进行码流替换得到最终的PDF文档。将文档传输到各大社交媒体上包括微博，微信，Twitter等，可以发现消息都能100％正确提取。

2)隐写分析

以BOSSbase 1.01作为图像库，质量因子为75，10000张512×512大小的JPEG图像，UERD作为失真定义的方法，利用STC进行消息嵌入，得到载密图像。隐写分析的实验设置是将图像库分为训练集测试集，在训练集上提取体征，训练分类器，这个我们选用了多种JPEG隐写分析特征，包括DCTR，GFR，J+SRM。利用分类器对测试集进行隐写分析的测试，得到最终检测性能，如表一所示。

表一 JPEG隐写分析性能(平均检错率％)

	0.1bpnzac	0.2bpnzac	0.3bpnzac	0.4bpnzac	0.5bpnzac
						DCTR	42.95	33.24	23.02	14.68	8.71
GFR	39.83	27.96	17.74	10.45	5.92
						J+SRM	43.42	33.45	23.74	15.36	9.59

从表一的实验结果可以看出，此隐写算法具有较高的安全性能，尤其在小嵌入率情况下。

3)行为安全

生成的PDF文件中，图像和文字高度相关，我们也寻找不知情的50人对100个PDF文件是否正常进行主观衡量，给的选项包含正常与不正常，图文是否相关。

收集到的实验结果中所有的PDF是都被认为正常的PDF文件，90％的PDF文件是图文相关的。

因此传输此PDF文件是行为上安全的。

综上所述，针对现有图像隐写难以抵抗社交媒体的有损信道的处理，本发明提出了基于PDF文件和图像隐写相结合的思想，利用PDF文档在社交媒体上的鲁棒性，实现隐蔽通信。考虑到单纯发送单张图片的PDF文件不符合大众的行为，结合图像生成和主题生成的方法，生成与图像相关的文字，加入到PDF文件中，使得本发明在行为上更加安全。实验证明，本发明经过社交媒体传输后，消息仍然能够正确提取。设计的隐写算法能有效抵抗当前主流的隐写分析算法，并且生成的PDF文件图文高度相关，符合行为安全的要求。

如图4所示，为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例1的结构示意图，系统可以包括：

第一生成模块401，用于利用载体图像生成对应的文本；

第二生成模块402，用于基于载体图像和载体图像对应的文本生成初始PDF文件；

提取模块403，用于基于初始PDF文件的结构和格式，提取初始PDF文件中的载体图像；

其中，PDF文件的结构和格式包括：

文件体(Body)，PDF文件的主要部分，由一系列对象组成。

第三生成模块404，用于基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入，生成载密图像；

转化模块405，用于将载密图像转化为码流，并从底层修改载密PDF文件内容。

如图5所示，为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例2的结构示意图，系统可以包括：

提取单元501，用于提取载体图像的语义信息；

扒取单元502，用于基于语义信息，利用文本生成模型或利用关键词在网络上扒取获得一段文本；

第二生成模块503，用于基于载体图像和载体图像对应的文本生成初始PDF文件；

提取模块504，用于基于初始PDF文件的结构和格式，提取初始PDF文件中的载体图像；

其中，PDF文件的结构和格式包括：

文件体(Body)，PDF文件的主要部分，由一系列对象组成。

步骤1、利用关键字/XObject或/Im定位查找到含有图像的对象；

第三生成模块505，用于基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入，生成载密图像；

具体的，可以采用以下步骤：

步骤1、读取JPEG图像，解码得到DCT系数矩阵X。

步骤2、根据UERD的失真计算图像中每个DCT系数±1的失真D。

步骤4、根据失真D和密文消息m'，利用STC(Sydrome Trellis Codes)工具箱进行信息嵌入，得到载密图像Y。其中STC工具箱嵌入信息和提取操作可以用如下公式表示：

Ext(Y)＝HY

转化模块506，用于将载密图像转化为码流，并从底层修改载密PDF文件内容。

如图6所示，为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例3的结构示意图，系统可以包括：

第一生成模块601，用于基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本；

第二生成模块602，用于基于载体图像和载体图像对应的文本生成初始PDF文件；

提取模块603，用于基于初始PDF文件的结构和格式，提取初始PDF文件中的载体图像；

其中，PDF文件的结构和格式包括：

文件体(Body)，PDF文件的主要部分，由一系列对象组成。

步骤1、利用关键字/XObject或/Im定位查找到含有图像的对象；

第三生成模块604，用于基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入，生成载密图像；

具体的，可以采用以下步骤：

步骤1、读取JPEG图像，解码得到DCT系数矩阵X。

步骤2、根据UERD的失真计算图像中每个DCT系数±1的失真，其利用加密算法对秘密消息m进行加密，将明文消息转化为密文消息。

步骤3、根据失真D和密文消息，利用STC(Sydrome Trellis Codes)工具箱进行信息嵌入，得到载密图像Y。其中STC工具箱嵌入信息和提取操作可以用如下公式表示：

Ext(Y)＝HY

转化模块605，用于将载密图像转化为码流，并从底层修改载密PDF文件内容。

本文中应用了具体的个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于PDF文件的图文相关鲁棒隐写方法，其特征在于，包括：

利用载体图像生成对应的文本；

2.根据权利要求1所述的方法，其特征在于，所述利用载体图像生成对应的文本包括：

提取所述载体图像的语义信息；

3.根据权利要求2所述的方法，其特征在于，所述提取所述载体图像的语义信息包括：

4.根据权利要求1所述的方法，其特征在于，所述利用载体图像生成对应的文本包括：

5.根据权利要求2或4所述的方法，其特征在于，所述基于所述初始PDF文件的结构和格式，提取所述初始PDF文件中的所述载体图像包括：

6.一种基于PDF文件的图文相关鲁棒隐写系统，其特征在于，包括：

第一生成模块，用于利用载体图像生成对应的文本；

7.根据权利要求6所述的系统，其特征在于，所述第一生成模块在执行利用载体图像生成对应的文本时，包括：

提取单元，用于提取所述载体图像的语义信息；

8.根据权利要求7所述的系统，其特征在于，所述提取单元在执行提取所述载体图像的语义信息时，具体用于：

9.根据权利要求6所述的系统，其特征在于，所述第一生成模块在执行利用载体图像生成对应的文本时，具体用于：

10.根据权利要求7或9所述的系统，其特征在于，所述提取模块具体用于：