CN111083307A

CN111083307A - 一种基于隐写术的文件检测和破解方法

Info

Publication number: CN111083307A
Application number: CN201911163511.4A
Authority: CN
Inventors: 冯岳
Original assignee: Beijing Information Security Technology Co ltd
Current assignee: Beijing Information Security Technology Co ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-04-28

Abstract

本发明公开了一种基于隐写术的文件检测和破解方法，首先，利用隐写软件将待保护文档嵌入到文件载体中，并生成文件；其次，利用隐写扫描破译系统扫描生成的每一个文件，并通过算法检测出所述文件的隐写软件算法；然后，利用隐写扫描破译系统对扫描的文件进行破解，从而找到所述文件中所述保护文档；最后，生成报告并输出。本发明利用先进的信息隐写技术，并利用多种学习方法，使得检测隐藏文件的成功性较高，同时，扫描速度更快。

Description

一种基于隐写术的文件检测和破解方法

技术领域

本发明涉及信息隐藏技术领域，具体是一种基于隐写术的文件检测和破解方法。

背景技术

随着智能手机设备广泛应用，多种信息隐藏技术出现，对于信息隐藏技术的取证将面临着更复杂的数据隐藏和隐写威胁。随着技术的发展，数据隐藏和隐写术带来的安全威胁会越来越大，其中包括木马、键盘记录器、僵尸网络、隐匿技术、间谍软件、有线和无线网络嗅探器、远程访问应用程序和反取证技术等诸多恶意行为。

隐写术一般是指将秘密信息嵌入或隐藏到其他不受怀疑的公开信息之中的技术。隐写术的方法通常要依赖于隐秘通信的存在是不为其他人所知的这样的一种假设。它主要使用相互信任的两方进行点对点通信的方法。因此，从它的基本特征上能够看出，隐写术的方法一般是不稳健的，隐藏的信息也很难在载体数据被处理后进行有效地恢复。过去的几年中，“隐写术”这个术语已引起了执法部门的广泛关注。恐怖分子可使用这项技术来将他们的秘密信息在互联网中传递，例如美国的911袭击事件、2014年发现宙斯银行特洛伊木马(ZeusVM)的一个变体、2016年发生的与Magento有关的攻击。

发明内容

本发明针对现有隐写检测软件功能不强的问题，提供一种基于隐写术的文件检测和破解方法，通过对图片、音频、视频等文件进行检测，从而找到加密算法并对其破解，找到隐藏文件。

为实现上述目的，本发明采用如下的技术方案：

一种基于隐写术的文件检测和破解方法，包括以下步骤：

S1：利用隐写软件将待保护文档嵌入到文件载体中，并生成文件；S2：利用隐写扫描破译系统扫描步骤S1生成的每一个文件，并通过算法检测出所述文件的隐写软件算法；S3：利用隐写扫描破译系统对步骤S2扫描的文件进行破解，从而找到所述文件中所述保护文档；S4：生成报告并输出。

进一步地，所述步骤S1文件载体是文档、音视频、程序、压缩包、图片的任一文件载体。

进一步地，所述步骤S1中生成文件是生成文档、音视频、程序、压缩包、图片的任一文件。

进一步地，所述步骤S2是通过机器学习算法，或统计算法，或特征匹配算法检测出所述文件的隐写软件算法。

进一步地，所述隐写软件是利用Openstego、Jsteg或PythonLSB工具将待保护文档嵌入到文件载体中。

进一步地，所述隐写软件利用Openstego、Jsteg或PythonLSB工具并通过其隐藏通道将待保护文档嵌入到文件载体中。

进一步地，当所述步骤S3破解的是图片文件时，还可使用图片RGP功能对比，具体是通过图片中R、G、B三个颜色通道的变化以及它们相互之间的叠加来分析是否图片有隐藏数，所述隐写软件包含分析RGB十个通道。

本发明的有益效果：

1、本发明利用先进的信息隐写技术，并利用多种学习方法，使得检测隐藏文件的成功性较高；2、本发明隐写文件检测软件扫描速度更快；3、本发明隐写文件检测软件具有RGB图形比对功能，功能强大；4、隐写文件检测软件识别和检测文件种类多。

附图说明

图1：本发明一种基于隐写术的文件检测和破解方法的示意图。

图2：本发明数据分析模块功能示意图。

具体实施方式

下面结合附图以及实施例对本发明进行详细说明。

实施例1：

如图1所示，一种基于隐写术的文件检测和破解方法，包括以下步骤：

S1：隐写软件利用Openstego、Jsteg或PythonLSB工具并通过其隐藏通道将待保护文档嵌入到文档、音视频、程序、压缩包、图片的任一载体中，并生成文档、音视频、程序、压缩包或图片文件。

通常隐写的内容是很广泛的，可以是音频、文章、图片或者任何私密信息。所使用的载体可以是网上的任何一种媒介。隐写常见的方式是将一个.txt者.doc格式的文件或者是加密过的文件、图片或者密钥等镶嵌到其他伪装的载体中。隐写术中很重要的一个分支是隐蔽通道，一般隐写术，只是对某种媒介进行了隐写，而其在网络中传输的过程并不安全，因为Internet是一个开放的环境，本发明使用隐蔽通道则可以使隐写信息在安全的环境中传输，且达到很高的安全程度。

本发明隐写术支持的文件如下表1所示：

表1：支持文件表

本发明隐写术支持的算法如下表2所示：

表2：支持算法表

F5	Pystego	LSBstego	Jphide	Steghide	Etinvisiblesecrets
						GoLSB	Jsteg	StegoLSB	Secretlayer	HideNSend	Steganographx plus
xiao	PythonLSB	tuzhimei	Outguess	Ssuite Picsel	PixelJihad
						Hide4pgp	Crypture	Blindside	Openstego

S2：利用隐写扫描破译系统扫描步骤S1生成的文档、音视频、程序、压缩包或图片文件，并通过机器学习算法，或统计算法，或特征匹配算法检检测出文档、音视频、程序、压缩包或图片文件中的隐写软件算法；

隐写扫描破译系统是一款支持图片、文档、压缩包、音视频及其他主流文件格式的隐藏信息破解软件，涵盖现下95％的主流文件格式。软件内置高效引擎，能以最快速率进行文件读取，在SSD下最高速度可达500M/S。同时，软件现已支持离线升级。

所述步骤S2扫描前，指定扫描路径、过滤设置，扫描阶段会列出所有可疑文件，具体是首先对扫描文件的文件大小进行限制，超过该值的文件自动跳过不进行扫描，添加需要扫描的文件夹或者硬盘符，点击开始扫描，随即开始扫描。

其中，机器学习算法是目前流行的分类算法，它通过使用机器视觉对媒体文件进行低维特征再提取，再使用分类工具对其特征分类，达到识别媒体文件是否是一个隐写文件的目的。机器学习算法在隐写检测过程中具有良好的鲁棒性，低维大数据的支撑为机器学习算法提供了精确可靠的检测结果。

统计算法是一类高效的隐写检测算法，它通过分析隐写算法在隐写过程中，修改隐写信道的内容导致载密图片信道平片的统计分量与载体图片不同导致出现统计偏差来判断一个文件是否包含隐写内容。它甚至可以估计隐写内容的长度，针对不同的内容大小进行定量的破译攻击，从而达到破译隐写原文的目的。

特征匹配算法通过扫描大量载密文件，且分别对每个文件进行特征提取，通过算法对共同特征进行验证，分析有效部分作为第一阶段数据。再类似地提取出载体文件所共有的特征作为第二阶段数据。最后，将两个阶段数据进行对比筛选，剔除共有特征，保留只存在于载密文件中的特征。

S3：利用隐写扫描破译系统对步骤S2扫描的文件进行破解，从而找到所述文件中所述保护文档；作为优选地，当需要破解的是图片文件时，还可使用图片RGP功能对比，具体是通过图片中R、G、B三个颜色通道的变化以及它们相互之间的叠加来分析是否图片有隐藏数，所述隐写软件包含分析RGB十个通道。

S4：生成报告并输出。

实施例2：

重要涉密内容选择隐藏载体的图像或者视频等，获取重要涉密的文字或者文件，其中载体图像包括五类：文档、音视频、程序、压缩包、图片。

本发明隐写术包括基于图像隐写术(以LSB算法和HUGO算法为典型代表)和基于变换域的图像隐写术(以F5算法和J-UNIWARD算法为典型代表)；具体方法是：将待保护的重要文件或者文字隐藏到图像载体中，并生成隐藏文件的携码文件，其中隐写密钥隐藏算法的输入参数，隐写密钥通常是长度为0～16字节的英文字符或数字，由隐写术程序确定；破译该重要文件，需要找到该图像或者文件、分析使用的隐写术，保证软件在需要执行破译文件前能从图像中恢复出隐藏文件；隐藏文件通常封装成单独的执行模块，可以利用软件中搜索；也可以对原始文件执行过程进行改造。

如图2所示，隐藏文件方法可以表示为一个五元组，也即∑＝<c，r，C′，En，Dn>，其中c为载体文件集合、r为隐藏文件集合、c′为隐藏后载体文件，隐藏文件后所得到的隐藏文件集合、En为隐写算法、Dn为还原算法。在文件隐藏方法∑中，包括2个主要算法模块：

隐写模块和隐藏文件还原模块。各模块的功能需求如下：

1.文件隐藏模块

在隐写秘钥n控制下，该模块将待保护文件r嵌入到载体文件c中，输出携码文件c′，该模块执行文件隐藏算法En可以表示为：En：c×r→c′。

2.文件还原算法模块

在隐写秘钥n控制下，该模块从隐藏后文件c′中提取出隐藏的文件r。该模块执行文件还原算法Dn可以表示为：Dn：c′→r。

下面进一步给出本发明的测试结果，测试方法采用黑盒测试方法，主要用了正常文件单独测试、隐写文件单独测试和合并测试，测试内容包括两个文件夹，共45683个文件，其中包括：

(1)正常文件夹：该文件夹下存在25000个正常文件，共1.67GB；

(2)隐写文件夹：该文件夹下存在20683个隐写文件，包括11个隐写工具，共3.99GB。

测试结果数据对比如下：

1)部分文件测试

a.正常文件夹单独测试

b.隐写文件单独测试

c.合并测试

2)全部文件测试

a.正常文件单独测试

b.隐写文件单独测试

c.合并测试

3)下面根据上述测试结果进行对比，具体如下：

a.识别可疑文件个数对比——部分文件

b.识别可疑文件时间对比——部分文件

c.识别可疑文件个数对比——全部文件

d.识别可疑文件时间对比——全部文件

由于破解步骤与方式不同，其中StegoHunt涉及大量用户交互所用时间与暴力破解所用时间，无法对破译时间及破译个数进行对比。

综上测试结果比对可知，本发明识别可疑文件准确率更高、时间更快。

最后应说明的是：以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围中。

Claims

1.一种基于隐写术的文件检测和破解方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于隐写术的文件检测和破解方法，其特征在于：所述步骤S1文件载体是文档、音视频、程序、压缩包、图片的任一文件载体。

3.根据权利要求1所述的基于隐写术的文件检测和破解方法，其特征在于：所述步骤S1中生成文件是生成文档、音视频、程序、压缩包、图片的任一文件。

4.根据权利要求1所述的基于隐写术的文件检测和破解方法，其特征在于：所述步骤S2是通过机器学习算法，或统计算法，或特征匹配算法检测出所述文件的隐写软件算法。

5.根据权利要求1所述的基于隐写术的文件检测和破解方法，其特征在于：所述隐写软件是利用Openstego、Jsteg或PythonLSB工具将待保护文档嵌入到文件载体中。

6.根据权利要求5所述的基于隐写术的文件检测和破解方法，其特征在于：所述隐写软件利用Openstego、Jsteg或PythonLSB工具并通过其隐藏通道将待保护文档嵌入到文件载体中。

7.根据权利要求1所述的基于隐写术的文件检测和破解方法，其特征在于：当所述步骤S3破解的是图片文件时，还可使用图片RGP功能对比，具体是通过图片中R、G、B三个颜色通道的变化以及它们相互之间的叠加来分析是否图片有隐藏数，所述隐写软件包含分析RGB十个通道。