CN109784082A - 一种基于pdf文件的图文相关鲁棒隐写方法及系统 - Google Patents

一种基于pdf文件的图文相关鲁棒隐写方法及系统 Download PDF

Info

Publication number
CN109784082A
CN109784082A CN201910129282.8A CN201910129282A CN109784082A CN 109784082 A CN109784082 A CN 109784082A CN 201910129282 A CN201910129282 A CN 201910129282A CN 109784082 A CN109784082 A CN 109784082A
Authority
CN
China
Prior art keywords
image
file
carrier image
initial
carrier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910129282.8A
Other languages
English (en)
Inventor
张卫明
俞能海
陈可江
周航
董潇逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910129282.8A priority Critical patent/CN109784082A/zh
Publication of CN109784082A publication Critical patent/CN109784082A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Editing Of Facsimile Originals (AREA)

Abstract

本发明公开了一种基于PDF文件的图文相关鲁棒隐写方法及系统,方法包括:利用载体图像生成对应的文本,基于载体图像和载体图像对应的文本生成初始PDF文件,基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像,基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像,将载密图像转化为码流,并从底层修改载密PDF文件内容。本发明基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。

Description

一种基于PDF文件的图文相关鲁棒隐写方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于PDF文件的图文相关鲁棒隐写方法及系统。
背景技术
隐写术的主要目的是用图像、音频、视频等载体掩盖秘密消息,实现隐蔽通信。信号中相关性弱、难以模型化的区域(如图像的纹理复杂区域)更适合修改,因为在这样的区域内修改嵌入信息是难以被检测到的,而相关性强的区域内嵌入信息则易被检测到。这促使隐写术自适应地优先修改失真小(难检测)的区域。相应地,隐写编码技术也向自适应方向发展。针对这种需求,目前提出了实用的最小化失真隐写编码,被称为STC。实用的最小化失真隐写编码出现以后,隐写术的研究就集中在了如何设计合理的失真函数。
当前最流行的隐写载体为图像,它具有嵌入容量大的特点。但是大部分研究都是基于含有秘密信息的图像未经过任何处理传送到接收方。显然在实际生活中,更多场景是有损的处理,比如各大社交网站。载密图片在社交媒体上的传输会不可避免的受到有损处理,包括有损压缩,重采样等,这将导致隐秘信息无法正确提取。
因此,如何有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于PDF文件的图文相关鲁棒隐写方法,基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。
本发明提供了一种基于PDF文件的图文相关鲁棒隐写方法,包括:
利用载体图像生成对应的文本;
基于所述载体图像和所述载体图像对应的文本生成初始PDF文件;
基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像;
基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
将所述载密图像转化为码流,并从底层修改载密PDF文件内容。
优选地,所述利用载体图像生成对应的文本包括:
提取所述载体图像的语义信息;
基于所述语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本。
优选地,所述提取所述载体图像的语义信息包括:
使用预训练的视觉语义映射模型提取所述载体图像的语义信息。
优选地,所述利用载体图像生成对应的文本包括:
基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本。
优选地,所述基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像包括:
基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像对象中的JPEG格式图像。
一种基于PDF文件的图文相关鲁棒隐写系统,包括:
第一生成模块,用于利用载体图像生成对应的文本;
第二生成模块,用于基于所述载体图像和所述载体图像对应的文本生成初始PDF文件;
提取模块,用于基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像;
第三生成模块,用于基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
转化模块,用于将所述载密图像转化为码流,并从底层修改载密PDF文件内容。
优选地,所述第一生成模块在执行利用载体图像生成对应的文本时,包括:
提取单元,用于提取所述载体图像的语义信息;
扒取单元,用于基于所述语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本。
优选地,所述提取单元在执行提取所述载体图像的语义信息时,具体用于:
使用预训练的视觉语义映射模型提取所述载体图像的语义信息。
优选地,所述第一生成模块在执行利用载体图像生成对应的文本时,具体用于:
基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本。
优选地,所述提取模块具体用于:
基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像对象中的JPEG格式图像。
综上所述,本发明提供了一种基于PDF文件的图文相关鲁棒隐写方法,包括:利用载体图像生成对应的文本,基于载体图像和所述载体图像对应的文本生成初始PDF文件,基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像,基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像,将载密图像转化为码流,并从底层修改载密PDF文件内容。本发明基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例1的流程图;
图2为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例2的流程图;
图3为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例3的流程图;
图4为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例1的结构示意图;
图5为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例2的结构示意图;
图6为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例3的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例1的流程图,可以包括以下步骤:
S101、利用载体图像生成对应的文本;
当需要实现基于PDF文件的图文相关鲁棒隐写时,首先获取用于加载加密信息的载体图像,同时,利用获取到的载体图像生成与载体图像对应的文本。
S102、基于载体图像和载体图像对应的文本生成初始PDF文件;
当获取到载体图像,以及与载体图像对应的文本后,进一步根据载体图像和载体图像对应的文本生成初始PDF文件。需要说明的是,在生成初始PDF文件时,可利用Microsoft Word或者其他办公软件编辑,并生成初始PDF文件。
S103、基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像;
其中,PDF文件的结构和格式包括:
文件头(Header),指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。
文件体(Body),PDF文件的主要部分,由一系列对象组成。
交叉引用表(Cross-referencetable),为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。
文件尾(Trailer),声明了交叉引用表的地址,即指明了文件体的根对象(Catalog),从而能够找到PDF文件中各个对象体的位置,达到随机访问。另外还保存了PDF文件的加密等安全信息。
根据初始PDF文件的结构和格式,提取出初始PDF文件中的载体图像。
S104、基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
当提取到初始PDF文件中的载体图像后,进一步根据图像自适应隐写算法在提取到的初始PDF文件中的载体图像上进行加密信息嵌入,生成载密图像。
S105、将载密图像转化为码流,并从底层修改载密PDF文件内容。
最后,将载密图像转化为码流,并从底层修改载密PDF文件内容,即将被载体图像码流替换为载密图像码流。具体的,以二进制方式对文件进行处理,用载密图像的码流替换初始PDF文件中的载体图像的码流,该操作完成后载密PDF文件无其他被修改特征,不影响整个传输操作的安全性。
综上所述,在上述实施例中,基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。
如图2所示,为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例2的流程图,可以包括以下步骤:
S201、提取载体图像的语义信息;
当需要实现基于PDF文件的图文相关鲁棒隐写时,首先获取用于加载加密信息的载体图像,同时,利用获取到的载体图像生成与载体图像对应的文本。
具体的,在生成与载体图像对应的文本时,首先提取载体图像语义信息,使用预训练的视觉语义映射模型,将载体图像转化为描述其内容的短语。基于深度学习的视觉语义映射模型很多都可以应用在本发明中,具体的可以以im2txt为例,它是一个端到端的视觉语义映射模型。将载体图像输入到一个VisionDeepCNN网络,网络的输出紧连着LanguageGenerating RNN网络输出描述图像的短语c。
S202、基于语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本;
然后,根据输出的描述图像的短语c再利用文本生成模型或者利用关键词在网络上扒取获得一段文本。文本生成模型基于马尔可夫的语言模型在数据驱动的自然语言生成,也有基于深度学习的文本生成模型。本发明可以采用char-RNN网络实现自然文本的生成,将生成文本表示为w。
S203、基于载体图像和载体图像对应的文本生成初始PDF文件;
当获取到载体图像,以及与载体图像对应的文本后,进一步根据载体图像和载体图像对应的文本生成初始PDF文件。需要说明的是,在生成初始PDF文件时,可利用Microsoft Word或者其他办公软件编辑,并生成初始PDF文件。
S204、基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像;
其中,PDF文件的结构和格式包括:
文件头(Header),指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。
文件体(Body),PDF文件的主要部分,由一系列对象组成。
交叉引用表(Cross-referencetable),为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。
文件尾(Trailer),声明了交叉引用表的地址,即指明了文件体的根对象(Catalog),从而能够找到PDF文件中各个对象体的位置,达到随机访问。另外还保存了PDF文件的加密等安全信息。
PDF文件中的图像分为两类:图像外部对象(XObject):在内容流(contentstream)之外定义的一个有名字的被引用对象。内嵌图像(inline image):直接把图像属性和数据嵌在一个内容流里的小图像,通常大小在4KB之内。本发明中主要研究图像外部对象中的JPEG图像。
具体的,提取载体图像对象中的JPEG图像数据具体步骤可以如下:
步骤1、利用关键字/XObject或/Im定位查找到含有图像的对象;
步骤2、将含有图像的页对象的页码记录下来,并将图像在该页和文档中出现的顺序记录下来;
步骤3、按照图像对象的编号,在交叉参考表中找到该对象在文件中的偏移量,定位该对象;
步骤4、提取对象关键词“/Filter”后面的值,如果是“DCTDecode”,就进行步骤5的操作;
步骤5、提取该对象的流长度,如果长度大于1000,即数据大于1k,认为数据是有意义的,进行步骤6的操作;
步骤6、提取“stream”和“endstream”之间的内容,验证是否JPEG格式,如果是JPEG格式,保存时添加后缀名.jpg,并将文件名和图像出现的页码和在该页中的顺序也保存到文件名中。
S205、基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
当提取到初始PDF文件中的载体图像后,进一步根据图像自适应隐写算法在提取到的初始PDF文件中的载体图像上进行加密信息嵌入,生成载密图像。
具体的,可以采用以下步骤:
步骤1、读取JPEG图像,解码得到DCT系数矩阵X。
步骤2、根据UERD的失真计算图像中每个DCT系数±1的失真D。
步骤3、利用加密算法对秘密消息m进行加密,将明文消息转化为密文消息m'。
步骤4、根据失真D和密文消息,利用STC(Sydrome Trellis Codes)工具箱进行信息嵌入,得到载密图像Y。其中STC工具箱嵌入信息和提取操作可以用如下公式表示:
Ext(Y)=HY
其中,C(m')={z∈{0,1}n|Hz=m'}是m'的陪集。编码嵌入过程的本质就是在秘密信息m'的陪集中寻找与载体X具有最小失真的码字Y的过程。接收方在收到Y后,将其乘以奇偶校验矩阵H就可以得到密文消息m’。
应用自适应隐写算法,修改都发生纹理复杂区域,不仅人眼难以察觉,隐写分析也难以成功检测。
S206、将载密图像转化为码流,并从底层修改载密PDF文件内容。
最后,将载密图像转化为码流,并从底层修改载密PDF文件内容,即将被载体图像码流替换为载密图像码流。具体的,以二进制方式对文件进行处理,用载密图像的码流替换初始PDF文件中的载体图像的码流,该操作完成后载密PDF文件无其他被修改特征,不影响整个传输操作的安全性。
综上所述,在上述实施例中,基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。
如图3所示,为本发明公开的一种基于PDF文件的图文相关鲁棒隐写方法实施例3的流程图,可以包括以下步骤:
S301、基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本;
当需要实现基于PDF文件的图文相关鲁棒隐写时,首先获取用于加载加密信息的载体图像,同时,利用获取到的载体图像生成与载体图像对应的文本。
具体的,在生成与载体图像对应的文本时,可以采用开源的Neural-storyteller,它是一个能够根据图像内容生成故事的循环神经网络。整个网络包含四个部分:1)跳接联想向量(skip-thought vectors);2)图像语句嵌入(image-sentence embedding);3)条件神经语言模型(conditional neural language models)4);风格变化模型(styleshifting)。基于现有大量的标注数据,训练文章生成循环神经网络(对应skip-thoughtvectors)以及视觉语义转化网络(对应image-sentence embedding)。在这两个网络间构建桥梁,即建立图像-句子-文章的向量映射,实现图像生成故事。
S302、基于载体图像和载体图像对应的文本生成初始PDF文件;
当获取到载体图像,以及与载体图像对应的文本后,进一步根据载体图像和载体图像对应的文本生成初始PDF文件。需要说明的是,在生成初始PDF文件时,可利用Microsoft Word或者其他办公软件编辑,并生成初始PDF文件。
S303、基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像;
其中,PDF文件的结构和格式包括:
文件头(Header),指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。
文件体(Body),PDF文件的主要部分,由一系列对象组成。
交叉引用表(Cross-referencetable),为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。
文件尾(Trailer),声明了交叉引用表的地址,即指明了文件体的根对象(Catalog),从而能够找到PDF文件中各个对象体的位置,达到随机访问。另外还保存了PDF文件的加密等安全信息。
PDF文件中的图像分为两类:图像外部对象(XObject):在内容流(contentstream)之外定义的一个有名字的被引用对象。内嵌图像(inline image):直接把图像属性和数据嵌在一个内容流里的小图像,通常大小在4KB之内。本发明中主要研究图像外部对象中的JPEG图像。
具体的,提取载体图像对象中的JPEG图像数据具体步骤可以如下:
步骤1、利用关键字/XObject或/Im定位查找到含有图像的对象;
步骤2、将含有图像的页对象的页码记录下来,并将图像在该页和文档中出现的顺序记录下来;
步骤3、按照图像对象的编号,在交叉参考表中找到该对象在文件中的偏移量,定位该对象;
步骤4、提取对象关键词“/Filter”后面的值,如果是“DCTDecode”,就进行步骤5的操作;
步骤5、提取该对象的流长度,如果长度大于1000,即数据大于1k,认为数据是有意义的,进行步骤6的操作;
步骤6、提取“stream”和“endstream”之间的内容,验证是否JPEG格式,如果是JPEG格式,保存时添加后缀名.jpg,并将文件名和图像出现的页码和在该页中的顺序也保存到文件名中。
S304、基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
当提取到初始PDF文件中的载体图像后,进一步根据图像自适应隐写算法在提取到的初始PDF文件中的载体图像上进行加密信息嵌入,生成载密图像。
具体的,可以采用以下步骤:
步骤1、读取JPEG图像,解码得到DCT系数矩阵X。
步骤2、根据UERD的失真计算图像中每个DCT系数±1的失真D。
步骤3、利用加密算法对秘密消息m进行加密,将明文消息转化为密文消息。
步骤4、根据失真D和密文消息,利用STC(Sydrome Trellis Codes)工具箱进行信息嵌入,得到载密图像Y。其中,STC工具箱嵌入信息和提取操作可以用如下公式表示:
Ext(Y)=HY
其中,C(m')={z∈{0,1}n|Hz=m'}是m'的陪集。编码嵌入过程的本质就是在秘密信息m'的陪集中寻找与载体X具有最小失真的码字Y的过程。接收方在收到Y后,将其乘以奇偶校验矩阵H就可以得到密文消息m’。
应用自适应隐写算法,修改都发生纹理复杂区域,不仅人眼难以察觉,隐写分析也难以成功检测。
S305、将载密图像转化为码流,并从底层修改载密PDF文件内容。
最后,将载密图像转化为码流,并从底层修改载密PDF文件内容,即将被载体图像码流替换为载密图像码流。具体的,以二进制方式对文件进行处理,用载密图像的码流替换初始PDF文件中的载体图像的码流,该操作完成后载密PDF文件无其他被修改特征,不影响整个传输操作的安全性。
综上所述,在上述实施例中,基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。
需要说明的是,本发明实施例还提供了载密图像的提取方式,相当于前述步骤的逆向过程,其步骤如下:
步骤1、读取PDF文件,按同样方法搜索定位JPEG图像并提取,读取JPEG图像可获得无损的载密DCT系数Y。
步骤2、利用STC编码工具箱提取密文消息。接收端共享奇偶校验矩阵H,利用Ext(Y)=HY便可以提取密文消息。
步骤3、根据解密算法将密文消息转化为明文消息m。
本发明生成图文相关的PDF文件,在微信,QQ等社交软件上都能进行隐蔽通信,接收端消息都能被正确提取。
下面通过以下几个方面对本发明进行测试:信息提取,载体图像和载密图像的隐写分析实验,PDF文档的合理性程度。
1)信息提取
根据本发明所提算法,选取100张JPEG图片,利用Neural-storyteller产生图像对应的故事,利用Microsoft Word编辑并生成PDF文件。分析PDF文件,提取JPEG图像作为载体图像,用0.1-0.5bpnzac(bit per non-zero AC coefficient)的嵌入率进行嵌入,得到载密的JPEG载体图像,然后进行码流替换得到最终的PDF文档。将文档传输到各大社交媒体上包括微博,微信,Twitter等,可以发现消息都能100%正确提取。
2)隐写分析
以BOSSbase 1.01作为图像库,质量因子为75,10000张512×512大小的JPEG图像,UERD作为失真定义的方法,利用STC进行消息嵌入,得到载密图像。隐写分析的实验设置是将图像库分为训练集测试集,在训练集上提取体征,训练分类器,这个我们选用了多种JPEG隐写分析特征,包括DCTR,GFR,J+SRM。利用分类器对测试集进行隐写分析的测试,得到最终检测性能,如表一所示。
表一 JPEG隐写分析性能(平均检错率%)
0.1bpnzac 0.2bpnzac 0.3bpnzac 0.4bpnzac 0.5bpnzac
DCTR 42.95 33.24 23.02 14.68 8.71
GFR 39.83 27.96 17.74 10.45 5.92
J+SRM 43.42 33.45 23.74 15.36 9.59
从表一的实验结果可以看出,此隐写算法具有较高的安全性能,尤其在小嵌入率情况下。
3)行为安全
生成的PDF文件中,图像和文字高度相关,我们也寻找不知情的50人对100个PDF文件是否正常进行主观衡量,给的选项包含正常与不正常,图文是否相关。
收集到的实验结果中所有的PDF是都被认为正常的PDF文件,90%的PDF文件是图文相关的。
因此传输此PDF文件是行为上安全的。
综上所述,针对现有图像隐写难以抵抗社交媒体的有损信道的处理,本发明提出了基于PDF文件和图像隐写相结合的思想,利用PDF文档在社交媒体上的鲁棒性,实现隐蔽通信。考虑到单纯发送单张图片的PDF文件不符合大众的行为,结合图像生成和主题生成的方法,生成与图像相关的文字,加入到PDF文件中,使得本发明在行为上更加安全。实验证明,本发明经过社交媒体传输后,消息仍然能够正确提取。设计的隐写算法能有效抵抗当前主流的隐写分析算法,并且生成的PDF文件图文高度相关,符合行为安全的要求。
如图4所示,为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例1的结构示意图,系统可以包括:
第一生成模块401,用于利用载体图像生成对应的文本;
当需要实现基于PDF文件的图文相关鲁棒隐写时,首先获取用于加载加密信息的载体图像,同时,利用获取到的载体图像生成与载体图像对应的文本。
第二生成模块402,用于基于载体图像和载体图像对应的文本生成初始PDF文件;
当获取到载体图像,以及与载体图像对应的文本后,进一步根据载体图像和载体图像对应的文本生成初始PDF文件。需要说明的是,在生成初始PDF文件时,可利用Microsoft Word或者其他办公软件编辑,并生成初始PDF文件。
提取模块403,用于基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像;
其中,PDF文件的结构和格式包括:
文件头(Header),指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。
文件体(Body),PDF文件的主要部分,由一系列对象组成。
交叉引用表(Cross-referencetable),为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。
文件尾(Trailer),声明了交叉引用表的地址,即指明了文件体的根对象(Catalog),从而能够找到PDF文件中各个对象体的位置,达到随机访问。另外还保存了PDF文件的加密等安全信息。
根据初始PDF文件的结构和格式,提取出初始PDF文件中的载体图像。
第三生成模块404,用于基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
当提取到初始PDF文件中的载体图像后,进一步根据图像自适应隐写算法在提取到的初始PDF文件中的载体图像上进行加密信息嵌入,生成载密图像。
转化模块405,用于将载密图像转化为码流,并从底层修改载密PDF文件内容。
最后,将载密图像转化为码流,并从底层修改载密PDF文件内容,即将被载体图像码流替换为载密图像码流。具体的,以二进制方式对文件进行处理,用载密图像的码流替换初始PDF文件中的载体图像的码流,该操作完成后载密PDF文件无其他被修改特征,不影响整个传输操作的安全性。
综上所述,在上述实施例中,基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。
如图5所示,为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例2的结构示意图,系统可以包括:
提取单元501,用于提取载体图像的语义信息;
当需要实现基于PDF文件的图文相关鲁棒隐写时,首先获取用于加载加密信息的载体图像,同时,利用获取到的载体图像生成与载体图像对应的文本。
具体的,在生成与载体图像对应的文本时,首先提取载体图像语义信息,使用预训练的视觉语义映射模型,将载体图像转化为描述其内容的短语。基于深度学习的视觉语义映射模型很多都可以应用在本发明中,具体的可以以im2txt为例,它是一个端到端的视觉语义映射模型。将载体图像输入到一个VisionDeepCNN网络,网络的输出紧连着LanguageGenerating RNN网络输出描述图像的短语c。
扒取单元502,用于基于语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本;
然后,根据输出的描述图像的短语c再利用文本生成模型或者利用关键词在网络上扒取获得一段文本。文本生成模型基于马尔可夫的语言模型在数据驱动的自然语言生成,也有基于深度学习的文本生成模型。本发明可以采用char-RNN网络实现自然文本的生成,将生成文本表示为w。
第二生成模块503,用于基于载体图像和载体图像对应的文本生成初始PDF文件;
当获取到载体图像,以及与载体图像对应的文本后,进一步根据载体图像和载体图像对应的文本生成初始PDF文件。需要说明的是,在生成初始PDF文件时,可利用Microsoft Word或者其他办公软件编辑,并生成初始PDF文件。
提取模块504,用于基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像;
其中,PDF文件的结构和格式包括:
文件头(Header),指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。
文件体(Body),PDF文件的主要部分,由一系列对象组成。
交叉引用表(Cross-referencetable),为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。
文件尾(Trailer),声明了交叉引用表的地址,即指明了文件体的根对象(Catalog),从而能够找到PDF文件中各个对象体的位置,达到随机访问。另外还保存了PDF文件的加密等安全信息。
PDF文件中的图像分为两类:图像外部对象(XObject):在内容流(contentstream)之外定义的一个有名字的被引用对象。内嵌图像(inline image):直接把图像属性和数据嵌在一个内容流里的小图像,通常大小在4KB之内。本发明中主要研究图像外部对象中的JPEG图像。
具体的,提取载体图像对象中的JPEG图像数据具体步骤可以如下:
步骤1、利用关键字/XObject或/Im定位查找到含有图像的对象;
步骤2、将含有图像的页对象的页码记录下来,并将图像在该页和文档中出现的顺序记录下来;
步骤3、按照图像对象的编号,在交叉参考表中找到该对象在文件中的偏移量,定位该对象;
步骤4、提取对象关键词“/Filter”后面的值,如果是“DCTDecode”,就进行步骤5的操作;
步骤5、提取该对象的流长度,如果长度大于1000,即数据大于1k,认为数据是有意义的,进行步骤6的操作;
步骤6、提取“stream”和“endstream”之间的内容,验证是否JPEG格式,如果是JPEG格式,保存时添加后缀名.jpg,并将文件名和图像出现的页码和在该页中的顺序也保存到文件名中。
第三生成模块505,用于基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
当提取到初始PDF文件中的载体图像后,进一步根据图像自适应隐写算法在提取到的初始PDF文件中的载体图像上进行加密信息嵌入,生成载密图像。
具体的,可以采用以下步骤:
步骤1、读取JPEG图像,解码得到DCT系数矩阵X。
步骤2、根据UERD的失真计算图像中每个DCT系数±1的失真D。
步骤3、利用加密算法对秘密消息m进行加密,将明文消息转化为密文消息m'。
步骤4、根据失真D和密文消息m',利用STC(Sydrome Trellis Codes)工具箱进行信息嵌入,得到载密图像Y。其中STC工具箱嵌入信息和提取操作可以用如下公式表示:
Ext(Y)=HY
其中,C(m')={z∈{0,1}n|Hz=m'}是m'的陪集。编码嵌入过程的本质就是在秘密信息m'的陪集中寻找与载体X具有最小失真的码字Y的过程。接收方在收到Y后,将其乘以奇偶校验矩阵H就可以得到密文消息m’。
应用自适应隐写算法,修改都发生纹理复杂区域,不仅人眼难以察觉,隐写分析也难以成功检测。
转化模块506,用于将载密图像转化为码流,并从底层修改载密PDF文件内容。
最后,将载密图像转化为码流,并从底层修改载密PDF文件内容,即将被载体图像码流替换为载密图像码流。具体的,以二进制方式对文件进行处理,用载密图像的码流替换初始PDF文件中的载体图像的码流,该操作完成后载密PDF文件无其他被修改特征,不影响整个传输操作的安全性。
综上所述,在上述实施例中,基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。
如图6所示,为本发明公开的一种基于PDF文件的图文相关鲁棒隐写系统实施例3的结构示意图,系统可以包括:
第一生成模块601,用于基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本;
当需要实现基于PDF文件的图文相关鲁棒隐写时,首先获取用于加载加密信息的载体图像,同时,利用获取到的载体图像生成与载体图像对应的文本。
具体的,在生成与载体图像对应的文本时,可以采用开源的Neural-storyteller,它是一个能够根据图像内容生成故事的循环神经网络。整个网络包含四个部分:1)跳接联想向量(skip-thought vectors);2)图像语句嵌入(image-sentence embedding);3)条件神经语言模型(conditional neural language models)4);风格变化模型(styleshifting)。基于现有大量的标注数据,训练文章生成循环神经网络(对应skip-thoughtvectors)以及视觉语义转化网络(对应image-sentence embedding)。在这两个网络间构建桥梁,即建立图像-句子-文章的向量映射,实现图像生成故事。
第二生成模块602,用于基于载体图像和载体图像对应的文本生成初始PDF文件;
当获取到载体图像,以及与载体图像对应的文本后,进一步根据载体图像和载体图像对应的文本生成初始PDF文件。需要说明的是,在生成初始PDF文件时,可利用Microsoft Word或者其他办公软件编辑,并生成初始PDF文件。
提取模块603,用于基于初始PDF文件的结构和格式,提取初始PDF文件中的载体图像;
其中,PDF文件的结构和格式包括:
文件头(Header),指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。
文件体(Body),PDF文件的主要部分,由一系列对象组成。
交叉引用表(Cross-referencetable),为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。
文件尾(Trailer),声明了交叉引用表的地址,即指明了文件体的根对象(Catalog),从而能够找到PDF文件中各个对象体的位置,达到随机访问。另外还保存了PDF文件的加密等安全信息。
PDF文件中的图像分为两类:图像外部对象(XObject):在内容流(contentstream)之外定义的一个有名字的被引用对象。内嵌图像(inline image):直接把图像属性和数据嵌在一个内容流里的小图像,通常大小在4KB之内。本发明中主要研究图像外部对象中的JPEG图像。
具体的,提取载体图像对象中的JPEG图像数据具体步骤可以如下:
步骤1、利用关键字/XObject或/Im定位查找到含有图像的对象;
步骤2、将含有图像的页对象的页码记录下来,并将图像在该页和文档中出现的顺序记录下来;
步骤3、按照图像对象的编号,在交叉参考表中找到该对象在文件中的偏移量,定位该对象;
步骤4、提取对象关键词“/Filter”后面的值,如果是“DCTDecode”,就进行步骤5的操作;
步骤5、提取该对象的流长度,如果长度大于1000,即数据大于1k,认为数据是有意义的,进行步骤6的操作;
步骤6、提取“stream”和“endstream”之间的内容,验证是否JPEG格式,如果是JPEG格式,保存时添加后缀名.jpg,并将文件名和图像出现的页码和在该页中的顺序也保存到文件名中。
第三生成模块604,用于基于图像自适应隐写算法在初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
当提取到初始PDF文件中的载体图像后,进一步根据图像自适应隐写算法在提取到的初始PDF文件中的载体图像上进行加密信息嵌入,生成载密图像。
具体的,可以采用以下步骤:
步骤1、读取JPEG图像,解码得到DCT系数矩阵X。
步骤2、根据UERD的失真计算图像中每个DCT系数±1的失真,其利用加密算法对秘密消息m进行加密,将明文消息转化为密文消息。
步骤3、根据失真D和密文消息,利用STC(Sydrome Trellis Codes)工具箱进行信息嵌入,得到载密图像Y。其中STC工具箱嵌入信息和提取操作可以用如下公式表示:
Ext(Y)=HY
其中,C(m')={z∈{0,1}n|Hz=m'}是m'的陪集。编码嵌入过程的本质就是在秘密信息m'的陪集中寻找与载体X具有最小失真的码字Y的过程。接收方在收到Y后,将其乘以奇偶校验矩阵H就可以得到密文消息m’。
应用自适应隐写算法,修改都发生纹理复杂区域,不仅人眼难以察觉,隐写分析也难以成功检测。
转化模块605,用于将载密图像转化为码流,并从底层修改载密PDF文件内容。
最后,将载密图像转化为码流,并从底层修改载密PDF文件内容,即将被载体图像码流替换为载密图像码流。具体的,以二进制方式对文件进行处理,用载密图像的码流替换初始PDF文件中的载体图像的码流,该操作完成后载密PDF文件无其他被修改特征,不影响整个传输操作的安全性。
综上所述,在上述实施例中,基于PDF文件在社交媒体上传输是无损的,各大社交媒体不会对PDF文件进行处理,结合图像理解和主题生成的技术,生成图文相关的PDF文件,并结合PDF文件的鲁棒性和图像隐写的嵌入容量大的特点构造隐写算法,能够有效的避免大数据分析手段的攻击,以及保证隐秘信息的正确提取。
本文中应用了具体的个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种基于PDF文件的图文相关鲁棒隐写方法,其特征在于,包括:
利用载体图像生成对应的文本;
基于所述载体图像和所述载体图像对应的文本生成初始PDF文件;
基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像;
基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
将所述载密图像转化为码流,并从底层修改载密PDF文件内容。
2.根据权利要求1所述的方法,其特征在于,所述利用载体图像生成对应的文本包括:
提取所述载体图像的语义信息;
基于所述语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本。
3.根据权利要求2所述的方法,其特征在于,所述提取所述载体图像的语义信息包括:
使用预训练的视觉语义映射模型提取所述载体图像的语义信息。
4.根据权利要求1所述的方法,其特征在于,所述利用载体图像生成对应的文本包括:
基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本。
5.根据权利要求2或4所述的方法,其特征在于,所述基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像包括:
基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像对象中的JPEG格式图像。
6.一种基于PDF文件的图文相关鲁棒隐写系统,其特征在于,包括:
第一生成模块,用于利用载体图像生成对应的文本;
第二生成模块,用于基于所述载体图像和所述载体图像对应的文本生成初始PDF文件;
提取模块,用于基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像;
第三生成模块,用于基于图像自适应隐写算法在所述初始PDF文件中的载体图像上进行信息嵌入,生成载密图像;
转化模块,用于将所述载密图像转化为码流,并从底层修改载密PDF文件内容。
7.根据权利要求6所述的系统,其特征在于,所述第一生成模块在执行利用载体图像生成对应的文本时,包括:
提取单元,用于提取所述载体图像的语义信息;
扒取单元,用于基于所述语义信息,利用文本生成模型或利用关键词在网络上扒取获得一段文本。
8.根据权利要求7所述的系统,其特征在于,所述提取单元在执行提取所述载体图像的语义信息时,具体用于:
使用预训练的视觉语义映射模型提取所述载体图像的语义信息。
9.根据权利要求6所述的系统,其特征在于,所述第一生成模块在执行利用载体图像生成对应的文本时,具体用于:
基于开源的循环神经网络文本生成算法生成所述载体图像对应的文本。
10.根据权利要求7或9所述的系统,其特征在于,所述提取模块具体用于:
基于所述初始PDF文件的结构和格式,提取所述初始PDF文件中的所述载体图像对象中的JPEG格式图像。
CN201910129282.8A 2019-02-21 2019-02-21 一种基于pdf文件的图文相关鲁棒隐写方法及系统 Pending CN109784082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910129282.8A CN109784082A (zh) 2019-02-21 2019-02-21 一种基于pdf文件的图文相关鲁棒隐写方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910129282.8A CN109784082A (zh) 2019-02-21 2019-02-21 一种基于pdf文件的图文相关鲁棒隐写方法及系统

Publications (1)

Publication Number Publication Date
CN109784082A true CN109784082A (zh) 2019-05-21

Family

ID=66504642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910129282.8A Pending CN109784082A (zh) 2019-02-21 2019-02-21 一种基于pdf文件的图文相关鲁棒隐写方法及系统

Country Status (1)

Country Link
CN (1) CN109784082A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859897A (zh) * 2019-10-16 2020-10-30 沈阳工业大学 基于动态路由胶囊网络的文本隐写分析方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101080013A (zh) * 2007-06-19 2007-11-28 中山大学 一种基于预测编码的jpeg无损压缩图像隐写方法
CN101673334A (zh) * 2004-12-09 2010-03-17 中国科学院计算技术研究所 以一类pdf文本作为掩体的信息嵌入和提取方法
CN103345767A (zh) * 2013-07-02 2013-10-09 中国科学技术大学 一种高安全性的jpeg图像隐写方法
CN104052658A (zh) * 2014-07-05 2014-09-17 中国科学技术大学 一种基于社交网络的隐私保护系统及方法
US20150047037A1 (en) * 2013-08-06 2015-02-12 Duquesne University Of The Holy Spirit Computer Security System and Method
CN105426709A (zh) * 2015-11-12 2016-03-23 福建北卡科技有限公司 基于jpeg图像信息隐藏的私密信息通信方法与系统
US20160105585A1 (en) * 2014-10-13 2016-04-14 Digimarc Corporation Methods for estimating watermark signal strength, an embedding process using the same, and related arrangements
CN106023053A (zh) * 2016-02-05 2016-10-12 四川长虹电器股份有限公司 基于jpeg图像的高容量文件加密隐写及提取方法
CN108024028A (zh) * 2017-12-12 2018-05-11 中国人民解放军战略支援部队信息工程大学 基于串行级联码和dct系数相对关系的jpeg图像鲁棒隐写方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673334A (zh) * 2004-12-09 2010-03-17 中国科学院计算技术研究所 以一类pdf文本作为掩体的信息嵌入和提取方法
CN101080013A (zh) * 2007-06-19 2007-11-28 中山大学 一种基于预测编码的jpeg无损压缩图像隐写方法
CN103345767A (zh) * 2013-07-02 2013-10-09 中国科学技术大学 一种高安全性的jpeg图像隐写方法
US20150047037A1 (en) * 2013-08-06 2015-02-12 Duquesne University Of The Holy Spirit Computer Security System and Method
CN104052658A (zh) * 2014-07-05 2014-09-17 中国科学技术大学 一种基于社交网络的隐私保护系统及方法
US20160105585A1 (en) * 2014-10-13 2016-04-14 Digimarc Corporation Methods for estimating watermark signal strength, an embedding process using the same, and related arrangements
CN105426709A (zh) * 2015-11-12 2016-03-23 福建北卡科技有限公司 基于jpeg图像信息隐藏的私密信息通信方法与系统
CN106023053A (zh) * 2016-02-05 2016-10-12 四川长虹电器股份有限公司 基于jpeg图像的高容量文件加密隐写及提取方法
CN108024028A (zh) * 2017-12-12 2018-05-11 中国人民解放军战略支援部队信息工程大学 基于串行级联码和dct系数相对关系的jpeg图像鲁棒隐写方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
谷今杰 等: ""基于PDF文本的信息隐藏技术"", 《科学技术与工程》 *
陈云榕 等: ""PDF文档中JPEG图像的自动提取技术研究"", 《信息工程大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859897A (zh) * 2019-10-16 2020-10-30 沈阳工业大学 基于动态路由胶囊网络的文本隐写分析方法

Similar Documents

Publication Publication Date Title
CN109711121B (zh) 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
Xiang et al. A novel linguistic steganography based on synonym run-length encoding
CN111026861A (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN113630302B (zh) 一种垃圾邮件识别方法及装置、计算机可读存储介质
Li et al. Generating steganographic image description by dynamic synonym substitution
CN109829499A (zh) 基于同一特征空间的图文数据融合情感分类方法和装置
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取系统
CN111178039A (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
Xu et al. An approach to image spam filtering based on base64 encoding and N-Gram feature extraction
CN111767697A (zh) 文本处理方法、装置、计算机设备以及存储介质
CN108090044B (zh) 联系方式的识别方法和装置
KR20210058059A (ko) 문장 임베딩 기반의 비지도 학습 문서 요약 방법 및 이를 이용한 문서 요약용 디바이스
Shiu et al. Data hiding on social media communications using text steganography
CN109784082A (zh) 一种基于pdf文件的图文相关鲁棒隐写方法及系统
Changder et al. A new approach to Hindi text steganography by shifting matra
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
Yang et al. Approaching optimal embedding in audio steganography with GAN
WO2023078264A1 (zh) 一种名片信息抽取系统训练方法及装置、计算机可读存储介质
CN113272799A (zh) 编码信息提取器
Majumder et al. A new text steganography method based on sudoku puzzle generation
CN113345409B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN113382086B (zh) 文档传输方法、装置、电子设备及计算机程序产品
CN114297375A (zh) 网络安全实体与关系的网络模型的训练方法及抽取方法
KR20230056959A (ko) 자연어 처리 장치 및 방법
US11024067B2 (en) Methods for dynamic management of format conversion of an electronic image and devices thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521

RJ01 Rejection of invention patent application after publication