CN106845242B - 一种基于is4软件特征的隐藏信息检测及提取方法 - Google Patents

一种基于is4软件特征的隐藏信息检测及提取方法 Download PDF

Info

Publication number
CN106845242B
CN106845242B CN201610739104.3A CN201610739104A CN106845242B CN 106845242 B CN106845242 B CN 106845242B CN 201610739104 A CN201610739104 A CN 201610739104A CN 106845242 B CN106845242 B CN 106845242B
Authority
CN
China
Prior art keywords
file
software
data
hidden
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610739104.3A
Other languages
English (en)
Other versions
CN106845242A (zh
Inventor
易小伟
李金才
王运韬
赵险峰
于海波
刘长军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201610739104.3A priority Critical patent/CN106845242B/zh
Publication of CN106845242A publication Critical patent/CN106845242A/zh
Application granted granted Critical
Publication of CN106845242B publication Critical patent/CN106845242B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于IS4软件特征的隐藏信息检测及提取方法,通过利用逆向工程对IS4软件进行分析,获得该软件的隐写特征和隐藏信息的嵌入原理,进而实现对隐藏信息的检测和提取,包括文件格式识别、关键数据抽取、关键数据内容解析、隐写检测判定和隐藏信息提取步骤;本发明适用于检测识别图像文件(JPG/PNG/BMP格式)、音频文件(WAV格式)、文本文件(HTML格式)是否由IS4软件制作的隐秘载体,并提取隐秘载体中嵌入的隐藏数据(可能是加密数据),具有识别准确率高的优点。

Description

一种基于IS4软件特征的隐藏信息检测及提取方法
技术领域
本发明涉及软件分析技术领域和隐写信息检测技术领域,特别是涉及基于IS4软件特征的隐藏信息检测及提取方法。
背景技术
随着信息隐藏技术的日趋成熟和网络隐写软件数量的迅猛增长,使用互联网隐写软件进行隐蔽通信愈发普遍。据报道,很多恐怖组织和基地组织利用信息隐写手段来散播秘密消息,对国防安全及社会稳定都构成了严重威胁,因此需要实现一种隐秘载体的快速检测技术。
East-tec InvisibleSecrets 4(IS4)是一款提供隐私保护和加密保护完整解决方案的商业软件套件。2013年3月,east-tec公司发布了最新的InvisibleSecrets 4.8软件版本,软件可以运行在Windows 10/8/7Vista/XP等系统平台。这款软件不仅提供对文件的加密保护,还提供对秘密信息的隐藏保护。在保证有足够隐藏容量条件下,IS4软件支持对任意文件流的隐藏保护,支持的隐写载体涵盖图像、音频和文本,包括JPG格式、PNG格式、BMP格式、WAV格式和HTML格式,支持的加密算法有AES-Rijndael、Twofish、RC4、Cast128、Gost、Blowfish、Diamond 2和Sapphire II。
当前,学术上对隐写分析领域的研究主要集中在通用盲隐写检测方法和专用的隐写检测方法,此类方法在检测准确率和先验知识上有很大的局限性和依赖性。特别是对低嵌入容量下的检测问题,以及隐藏信息的提取问题均不能有效的解决。利用隐写软件漏洞和隐写痕迹来识别隐秘载体是一种新型的高效隐写检测方法,在这方面的研究成果主要有:2011年解放军信息工程大学郑东宁等人提出了一种基于代码分割技术的隐写软件识别框架(郑东宁.基于代码分割的隐写软件识别技术研究[D].解放军信息工程大学,2011.)。2012年解放军信息工程大学郑永振等人2012从软件算法核心代码的角度提出了一种基于核心代码的隐写软件识别框架(郑永振.基于核心代码的隐写软件识别技术研究[D].解放军信息工程大学.)。2013年解放军信息工程大学赵正等人提出了一种基于自动机理论的隐写软件识别框架(赵正.基于模型检测的隐写软件识别技术研究[D].解放军信息工程大学,2013.),该框架验证待识别软件中是否存在隐写行为。2009年 Zax等人对隐写软件安装、运行、卸载后的系统痕迹(如注册表、文件、文件目录)进行了研究(Zax R,AdelsteinF.FAUST:Forensic artifacts of uninstalled steganography tools[J].DigitalInvestigation,2009,6(1):25-38.),通过这些痕迹构造隐写指纹库来对隐写软件进行检测。2011年西安电子科技大学米鹏等人针对当前互联网上60多种隐写软件(米鹏.隐写软件检测系统的设计与实现[D].西安电子科技大学,2011.),利用它们在计算机中的使用痕迹或驻留信息来提取特征构造指纹库,并利用指纹库对这些软件进行检测。2007年胡昊然等人通过对Imagehide和JPEGX两款的隐写原理进行分析(胡昊然,钱萌.基于待征码的Imagehide与JPEGX图像隐藏信息检测以及提取[J].科技广场,2007(1):125.),提出了基于特征码的检测方法。2006年吴明巧等人提出了一种针对Stego文本隐写软件的特征码检测算法(吴明巧,金士尧.针对文本隐写软件Stego的隐写分析方法[J].计算机工程,2006,32(23):10-12.)。2012年Zheng等人对Jsteg等几款隐写软件进行研究(Zheng Y,Liu F,LuoX,et al.A Method Based on Feature Matching to Identify Steganography Software[C].Proceedings of the 2012 Fourth International Conference on MultimediaInformation Networking and Security.IEEE Computer Society,2012:989-994.),在获取软件特征码基础上,提出了针对隐写软件的通用盲性隐写分析软件。2009年解放军信息工程大学任光等人提出了一种获取隐写软件特征码的方法(任光.互联网上常见隐写软件的分析与攻击[D].解放军信息工程大学,2009.),并分析了已有隐写软件的选位机制,获得了MASKER、datastash等18种隐写软件的特征码。2015年Sloan等人利用MP4格式文件的特点及OpenPuff隐写软件的嵌入特点(Sloan T,Hernandez-Castro J.Steganalysis ofOpenPuff through atomic concatenation of mp4 flags[J].Digital Investigation,2015,13:15-21.),提出了针对OpenPuff MP4格式的检测方法。2010年Bell等人通过训练同款软件生成的多张隐秘载体(Bell G,Lee Y K.A Method for Automatic Identificationof Signatures of Steganography Software[J].IEEE Transactions on InformationForensics&Security,2010,5(2):354-358.),查找图像中的相同不变信息,把其作为该隐写软件的特征码。但是通过文献调研分析发现,当前针对IS4隐写软件的分析及隐藏信息的检测提取方法的研究还未见公开文献。
发明内容
本发明所要解决的技术问题是:IS4隐写软件制作隐秘载体的识别与隐藏信息的提取,并提供基于IS4软件特征的隐藏信息检测及提取方法,识别检测准确率高。
本发明适用于检测识别图像文件(JPG/PNG/BMP格式)、音频文件(WAV格式)、文本文件(HTML格式)是否由IS4软件制作的隐秘载体,并提取隐秘载体中嵌入的隐 藏数据(可能是加密数据)。
本发明的技术解决方案是基于IS4软件特征的隐藏信息检测及提取方法,通过利用逆向工程对IS4软件进行分析,获得该软件的隐写特征和隐藏信息的嵌入原理,进而实现对隐藏信息的检测和提取,主要包括如下步骤:
(1)文件格式识别。根据输入待检测文件File的文件头标识FileID来判定文件格式,JPG图片的文件头标识为“0xFF D8 FF”、PNG图片的文件头标识为“0x89 50 4E 47”、BMP图片的文件头标识为“0x42 4D”、WAV音频的文件头标识为“0x57 41 56 45”、HTML文本的文件头标识为“0x3C 21 44 4F 43 54 59 50 45 20 68 74 6D 6C”。
(2)关键数据抽取。分别依据IS4软件对JPG、PNG、BMP、WAV和HTML文件载体的嵌入原理,使用信息提取算法Extra(·)从待检测的文件中抽取关键数据信息KeyInfo。
(3)关键数据内容解析。解析KeyInfo各字段内容信息,包括软件签名Sig、信息长度Len、隐藏消息数据Msg等。
(4)隐写检测判定。利用KeyInfo中Sig和Len等字段信息,与IS4软件的隐写特征(针对不同载体格式的隐写特征不同)做匹配,如果匹配成功则表明当前文件是经IS4软件处理的隐秘载体,反之判定为正常文件。
(5)隐藏信息提取。如果步骤(4)判定为隐秘载体,则从KeyInfo中提取出嵌入的隐藏信息Msg(可能是密文消息)。
所述步骤(2)中,当待检测文件File是检测JPG文件时,Extra(·)表示从File二进制比特流中搜索到的比特串模式,是一个由N个以“0xFF FE”开头的比特串和“0xFF FF”比特串结尾组成的比特流;然后去除模式串中的开头标记,即“0xFF FE”和结尾标记,即“0xFFFF”,最后获得关键数据信息KeyInfo。
所述步骤(2)中,当待检测文件File是检测PNG文件时,Extra(·)表示从File二进制比特流中搜索到一个由N个以“0x74 45 58 74 43 6F 6D 6D 65 6E 74 00”开头的比特串和“0x00 00 00 00 49 45 4E 44 AE 42 60 82”比特串结尾(N≥2)组成的比特流,然后去除模式串中的开头标记(“0x74 45 58 74 43 6F 6D 6D 65 6E 74”)和结尾标记(“0x0000 00 00 49 45 4E 44 AE 42 60 82”),最后获得关键数据信息KeyInfo。
所述步骤(2)中,当待检测文件File是检测BMP文件时,Extra(·)表示从File中抽取图片像素最低比特位(Least Significant Bit,LSB)组成比特流,抽取顺序为(I) 像素间按照图像坐标轴从左至右、由上及下的空间顺序;(II)像素内按照BGR的通道顺序。
所述步骤(2)中,当待检测文件File是检测WAV文件时,Extra(·)表示抽取Filedata数据块中数据段数据的某些字节最低比特位(LSB)组成比特流(WAV文件的data数据块的标记为“0x64 61 74 61”,标记字段随后的4字节为data数据块大小字段,再随后是数据段),其中数据段数据的选择取决于File的声道数,如果File是单声道音频则选取所有的数据段数据,如果File是双声道音频则选择数据段的奇数位字节。
所述步骤(2)中,当待检测文件File是检测HTML文件时,Extra(·)表示从File中匹配二进制模式串“0x3E@**@0D 0A”,其中“0x3E”表示标签结束标记“>”、“@**@”表示若干个“0x20”和“0x09”、“0x0D 0A”表示文本换行,并抽取子串“@**@”以及文件末尾的模式串“@**@”,然后将“0x20”和“0x09”分别映射为比特“0”和“1”构成KeyInfo的比特流数据。
所述步骤(4)中,与IS4软件的隐写特征做匹配时,针对不同文件载体格式,即JPG、PNG、BMP、WAV和HTML的隐写特征不同。
对于JPG格式的文件,隐写特征如下:
A.关键数据块的总数N≥2;
B.满足数据长度关系式
Figure DEST_PATH_GDA0001242636040000041
C.关键数据块长度校验,即满足
Figure DEST_PATH_GDA0001242636040000042
从JPG格式的文件中抽取出关键数据块KeyInfon的实际数据长度
Figure DEST_PATH_GDA0001242636040000043
M表示消息数据Msg的个数,i和j表示索引下标,Lj表示信息长度。
对于PNG格式的文件,隐写特征如下:
A.关键数据块的总数N≥2;
B.满足数据长度关系式
Figure DEST_PATH_GDA0001242636040000044
C.关键数据块长度校验,即满足(I)从PNG文件中抽取出关键数据块KeyInfo1的实际数据长度
Figure DEST_PATH_GDA0001242636040000045
(II)
Figure DEST_PATH_GDA0001242636040000046
从PNG文件中抽取出隐藏消息数据Msgm的实际数据长度
Figure DEST_PATH_GDA0001242636040000047
对于BMP格式的文件,隐写特征如下:
A.满足数据长度关系式
Figure DEST_PATH_GDA0001242636040000051
B.关键数据块长度校验,即满足(I)从BMP文件中抽取出信息头Header的实际数据长度
Figure DEST_PATH_GDA0001242636040000052
(II)
Figure DEST_PATH_GDA0001242636040000053
从BMP文件中抽取出隐藏消息数据Msgm的实际数据长度
Figure DEST_PATH_GDA0001242636040000054
对于WAV格式的文件和HTML格式的文件,隐写特征如下:
A.依据对通信协议头Header数据长度的统计分析,File中包含模式串“@**@”的总长度≥512字节;
B.满足数据长度关系式
Figure DEST_PATH_GDA0001242636040000055
C.关键数据块长度校验,即满足(I)从WAV格式的文件或HTML格式的文件中抽取出信息头Header的实际数据长度
Figure DEST_PATH_GDA0001242636040000056
(II)
Figure DEST_PATH_GDA0001242636040000057
从WAV格式的文件或HTML格式的文件中抽取出隐藏消息数据Msgm的实际数据长度
Figure DEST_PATH_GDA0001242636040000058
所述步骤(5)中的隐藏信息Msg可能是密文消息。
本发明与现有技术相比的有益效果在于:
(1)本发明中,给出了从JPG/PNG/BMP/WAV/HTML文件中抽取出关键数据的方法,关键数据是判定文件是否为IS4隐秘载体以及提取隐藏信息的重要基础。
(2)本发明中,提供了对IS4软件嵌入在JPG/PNG/BMP/WAV/HTML格式文件中关键数据各字段内容的解析方法,识别检测准确率高,为隐写特征分析及隐藏信息提取提供基础。
(3)本发明中,分别针对JPG/PNG/BMP/WAV/HTML格式文件获得了IS4软件的信息隐写特征,识别检测准确率高,为高效识别隐写载体提供基础。
(4)本发明中,利用IS4软件的信息隐写特征分别提出了针对JPG/PNG/BMP/WAV/HTML格式文件的隐写存在性判定算法,有效识别载体是否为隐写载体。
附图说明
图1是本发明方法实施例的实现流程图;
图2是本发明方法中IS4-JPG文件隐藏的关键数据流结构示意图;
图3是本发明方法中IS4-JPG文件隐藏关键数据的内容解析示意图;
图4是本发明方法中IS4-PNG文件隐藏关键数据的内容解析示意图;
图5是本发明方法中IS4-BMP文件隐藏关键数据的提取顺序示意图;
图6是本发明方法中IS4-BMP文件隐藏关键数据的内容解析示意图;
图7是本发明方法中IS4-WAV文件隐藏关键数据的嵌入位置示意图;
图8是本发明方法中IS4-HTML文件隐藏关键数据的嵌入位置示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
如图1所示,是本发明实现对IS4软件隐写信息检测与提取方法的流程示意图,检测与提取过程共包含5个步骤(S1~S5),其中步骤S1用于识别待检测文件的格式,步骤S2~S4依据不同类型的文件分别进行隐藏信息的检测判定,步骤S5是对应的隐藏信息提取。本发明的具体实现过程如下:
(S1)文件格式识别。
根据输入待检测文件File的文件头标识FileID来判定文件格式,JPG图片的文件头标识为“0xFF D8 FF”、PNG图片的文件头标识为“0x89 50 4E 47”、BMP图片的文件头标识为“0x42 4D”、WAV音频的文件头标识为“0x57 41 56 45”、HTML文本的文件头标识为“0x3C21 44 4F 43 54 59 50 45 20 68 74 6D 6C”。对于FileID不匹配上述5种格式标记的将不做处理。
1.JPG文件的隐写检测
(S2-1)关键数据抽取。
利用信息提取算法Extra(·)从待检测的JPG文件File中抽取出关键数据信息KeyInfo,也即KeyInfo=Extra(File)。其中,Extra(·)表示从File二进制比特流中搜索到如图2的比特串模式,是一个由N个以“0xFF FE”开头的比特串和“0xFF FF”比特串结尾(N≥2)组成的比特流,然后去除模式串中的开头标记(“0xFF FE”)和结尾标记(“0xFF FF”),最后获得关键数据信息KeyInfo,也即KeyInfo=KeyInfo1||…||KeyInfon||…||KeyInfoN(N≥2)(式中“||”是字节流拼接运算)。注:若N<2则表明该JPG文件File未被IS4软件嵌入隐藏信息。
(S3-1)关键数据内容解析。
嵌入数据流的组织方式如图3所示,第1个关键数据块KeyInfo1包括3部分数据,依次为:KeyInfo1块的长度Len1(采用2个字节大端序存储)、通信协议头(加密存储) 和Msg的总长度Len(采用4个字节小端序存储)。从第2个关键数据块KeyInfo1到第N个关键数据块KeyInfoN是实现消息数据Msg及其长度信息L的嵌入,实际应用中Msg可能由多个文件构成,也即
Figure DEST_PATH_GDA0001242636040000071
KeyInfon块(n≥2)中可能同时包括多个最小隐藏消息单元。它们采用串联拼接的方式进行组织,每个最小单元Um(单个Msgm消息数据)包括Msgm消息长度
Figure DEST_PATH_GDA0001242636040000072
(采用4个字节小端序存储)和Msgm消息数据本身(m=1,…,M,Msgm可能被压缩、加密,这取决于IS软件使用模式)。以第n个关键数据块KeyInfon(n=2,…,N)为例,它包括2部分数据,依次为:KeyInfon块的长度Lenn(采用2个字节大端序存储)和若干个最小隐藏消息单元的有序序列<Ui,…,Ui+j>(i,j∈N+,i+j≤M)。
(S4-1)隐写检测判定。
通过步骤S3的分析,可以发现IS4软件制作的JPG隐秘图片具有下述特征:
A.关键数据块的总数N≥2;
B.满足数据长度关系式
Figure DEST_PATH_GDA0001242636040000073
C.关键数据块长度校验,即满足
Figure DEST_PATH_GDA0001242636040000074
从JPG文件中抽取出关键数据块KeyInfon的实际数据长度
Figure DEST_PATH_GDA0001242636040000075
因此,如果待检测JPG文件File满足上述3个隐写特征,则判定File为IS4软件制作的隐秘图片,否则判定为正常图片。
2.PNG文件的隐写检测
(S2-2)关键数据抽取。
利用信息提取算法Extra(·)从待检测的PNG文件File中抽取出关键数据信息KeyInfo,也即KeyInfo=Extra(File)。其中,Extra(·)表示从File二进制比特流中搜索到如图3的比特串模式,是一个由N个以“0x74 45 58 74 43 6F 6D 6D 65 6E 74 00”开头的比特串和“0x00 00 00 00 49 45 4E 44 AE 42 60 82”比特串结尾(N≥2)组成的比特流,然后去除模式串中的开头标记(“0x74 45 58 74 43 6F 6D 6D 65 6E 74”)和结尾标记(“0x00 00 00 00 49 45 4E 44 AE 42 60 82”),最后获得关键数据信息KeyInfo,也即KeyInfo=KeyInfo1||…||KeyInfon||…||KeyInfoN(N≥2)(式中“||”是字节流拼接运算)。注:若N<2则表明该PNG文件File未被IS4软件嵌入隐藏信息。
(S3-2)关键数据内容解析。
嵌入数据流的组织方式如图4所示,在标记头“0x74 45 58 74 43 6F 6D 6D 656E 74 00”前面4字节表示KeyInfo1块的长度Len1(采用字节大端序存储)。第1个关键数据块KeyInfo1包括2部分数据,依次为:通信协议头(加密存储)和U1~UM块的总长度Len(采用4个字节大端序存储)。从第2个关键数据块KeyInfo1到第N个关键数据块KeyInfoN实际上是若干个最小隐藏消息单元的有序序列<U1,…,UM>(M≥1),每个最小单元Um(单个Msgm消息数据)包括Msgm消息长度
Figure DEST_PATH_GDA0001242636040000081
(采用4个字节小端序存储)和Msgm消息数据本身(m=1,…,M,Msgm可能被压缩、加密,这取决于IS软件使用模式)。注:每个KeyInfon块(n≥2)中可能同时包括多个最小单元Um
(S4-2)隐写检测判定。
通过步骤S3的分析,可以发现IS4软件制作的PNG隐秘图片具有下述特征:
A.关键数据块的总数N≥2;
B.满足数据长度关系式
Figure DEST_PATH_GDA0001242636040000082
C.关键数据块长度校验,即满足(I)从PNG文件中抽取出关键数据块KeyInfo1的实际数据长度
Figure DEST_PATH_GDA0001242636040000083
(II)
Figure DEST_PATH_GDA0001242636040000084
从PNG文件中抽取出隐藏消息数据Msgm的实际数据长度
Figure DEST_PATH_GDA0001242636040000085
因此,如果待检测PNG文件File满足上述3个隐写特征,则判定File为IS4软件制作的隐秘图片,否则判定为正常图片。
3.BMP文件的隐写检测
(S2-3)关键数据抽取。
利用信息提取算法Extra(·)从待检测的BMP文件File(本发明中只考虑24位BMP图片)中抽取出关键数据信息KeyInfo,也即KeyInfo=Extra(File)。其中,Extra(·)表示从File中抽取图片像素最低比特位(Least Significant Bit,LSB)组成比特流,抽取顺序为(I)像素间按照图像坐标轴从左至右、由上及下的空间顺序(如图5所示);(II)像素内按照BGR的通道顺序。
(S3-3)关键数据内容解析。
嵌入数据流的组织方式如图6所示,依次为:Header信息的长度Len0(采用4个字节小端序存储)、通信协议头Header数据(加密存储)、U1~UM块的总长度Len(采用4个字节小端序存储)和M个最小隐藏消息单元Um的有序序列<U1,…,UM>(M≥1)。每个最小单元Um包括Msgm消息长度
Figure DEST_PATH_GDA0001242636040000091
(采用4个字节小端序存储)和Msgm消息数据本身(m=1,…,M,Msgm可能被压缩、加密,这取决于IS软件使用模式)。
(S4-3)隐写检测判定。
通过步骤S3的分析,可以发现IS4软件制作的BMP隐秘图片具有下述特征:
A.满足数据长度关系式
Figure DEST_PATH_GDA0001242636040000092
B.关键数据块长度校验,即满足(I)从BMP文件中抽取出信息头Header的实际数据长度
Figure DEST_PATH_GDA0001242636040000093
(II)
Figure DEST_PATH_GDA0001242636040000094
从BMP文件中抽取出隐藏消息数据Msgm的实际数据长度
Figure DEST_PATH_GDA0001242636040000095
因此,如果待检测BMP文件File满足上述2个隐写特征,则判定File为IS4软件制作的隐秘图片,否则判定为正常图片。
4.WAV文件的隐写检测
(S2-4)关键数据抽取。
利用信息提取算法Extra(·)从待检测的WAV文件File中抽取出关键数据信息KeyInfo,也即KeyInfo=Extra(File)。其中,Extra(·)表示抽取File data数据块中数据段数据的某些字节最低比特位(LSB)组成比特流(WAV文件的data数据块的标记为“0x64617461”,标记字段随后的4字节为data数据块大小字段,再随后是数据段)。数据段数据的选择取决于File的声道数,如果File是单声道音频则选取所有的数据段数据,如果File是双声道音频则选择数据的位置如图7所示,是WAV文件data数据块中数据段的奇数位字节。
(S3-4)关键数据内容解析。
本步骤操作与步骤(S3-3)相同。
(S4-4)隐写检测判定。
本步骤操作与步骤(S4-3)相同。
5.HTML文件的隐写检测
(S2-5)关键数据抽取。
利用信息提取算法Extra(·)从待检测的HTML文件File中抽取出关键数据信息KeyInfo,也即KeyInfo=Extra(File)。依据IS4在每个HTML文本行尾的标签结束标记后嵌入隐藏信息,并利用不可见字符“0x20”和“0x09”对比特流做编码(如图8所示),Extra(·)表示从File中匹配二进制模式串“0x3E@**@0D 0A”(其中“0x3E”表示标签结束标记“>”、“@**@”表示若干个“0x20”和“0x09”、“0x0D 0A”表示文本换行),并抽取子串“@**@”以及文件末尾的模式串“@**@”,然后将“0x20”和“0x09”分别映射为比特“0”和“1”构成KeyInfo的比特流数据。注:IS4在嵌入前会根据HTML文本中可嵌入位置数和嵌入信息量来计算模式串“@**@”的长度,因此嵌入到HTML文本中模式串“@**@”的长度是固定的,剩余信息则嵌入到文件尾部。
(S3-5)关键数据内容解析。
本步骤操作与步骤(S3-3)相同。
(S4-5)隐写检测判定。
通过步骤S3的分析,可以发现IS4软件制作的HTML隐秘文本具有下述特征:
A.依据对通信协议头Header数据长度的统计分析,File中包含模式串“@**@”的总长度≥512字节;
B.满足数据长度关系式
Figure DEST_PATH_GDA0001242636040000101
C.关键数据块长度校验,即满足(I)从BMP文件中抽取出信息头Header的实际数据长度
Figure DEST_PATH_GDA0001242636040000102
(II)
Figure DEST_PATH_GDA0001242636040000103
从BMP文件中抽取出隐藏消息数据Msgm的实际数据长度
Figure DEST_PATH_GDA0001242636040000104
因此,如果待检测HTML文件File满足上述3个隐写特征,则判定File为IS4软件制作的隐秘文本,否则判定为正常文本。
(S5)隐藏信息提取。
通过分析可知,IS4软件可以在JPG/PNG/BMP/WAV/HTML文件中同时隐藏多个消息Msgm,并且支持对Msgm的压缩和加密,这取决于IS4软件的操作选项。(I)若IS4软件未对Msgm做压缩加密,则可以利用隐藏消息单元Um获得Msgm明文;(II)若IS4软件对Msgm进行压缩、加密,则可以利用隐藏消息单元Um仅能够获得Msgm的压缩数据或密文。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发 明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (7)

1.一种基于IS4软件特征的隐藏信息检测及提取方法,其特征在于包括如下步骤:
(1)文件格式识别,根据输入待检测文件File的文件头标识FileID来判定文件载体的格式,格式包括JPG、PNG、BMP、WAV和HTML;
(2)关键数据抽取,分别依据IS4软件对JPG、PNG、BMP、WAV和HTML格式的文件载体的嵌入原理,采用信息提取算法Extra(·)从待检测文件File中抽取关键数据信息KeyInfo;
(3)关键数据内容解析,解析KeyInfo各字段内容信息,所述字段内容信息包括软件签名Sig、信息长度Len、隐藏信息Msg;
(4)隐写检测判定,利用KeyInfo中软件签名Sig和信息长度Len,与IS4软件的隐写特征做匹配,如果匹配成功则表明当前文件File是经IS4软件处理的隐秘载体,反之判定为正常文件;
(5)隐藏信息提取,如果步骤(4)判定为隐秘载体,则从KeyInfo中提取出嵌入的隐藏信息Msg;
所述步骤(4)中,与IS4软件的隐写特征做匹配时,针对不同文件载体格式,即JPG、PNG、BMP、WAV和HTML的隐写特征不同;
对于JPG格式的文件,隐写特征如下:
A.关键数据块的总数N≥2;
B.满足数据长度关系式
Figure FDA0002258825350000011
C.关键数据块长度校验,即满足
Figure FDA0002258825350000012
从JPG格式的文件中抽取出关键数据块KeyInfon的实际数据长度
Figure FDA0002258825350000013
M表示隐藏信息Msg的个数,i和j表示索引下标,Lj表示信息长度;
对于PNG格式的文件,隐写特征如下:
A.关键数据块的总数N≥2;
B.满足数据长度关系式
Figure FDA0002258825350000014
C.关键数据块长度校验,即满足(I)从PNG文件中抽取出关键数据块KeyInfo1的实际数据长度
Figure FDA0002258825350000021
(II)M表示隐藏信息Msg的个数,
Figure FDA0002258825350000022
从PNG文件中抽取出隐藏信息Msgm的实际数据长度
Figure FDA0002258825350000023
对于BMP格式的文件,隐写特征如下:
A.满足数据长度关系式
Figure FDA0002258825350000024
B.关键数据块长度校验,即满足(I)从BMP文件中抽取出信息头Header的实际数据长度
Figure FDA0002258825350000025
(II)M表示隐藏信息Msg的个数,
Figure FDA0002258825350000026
从BMP文件中抽取出隐藏信息Msgm的实际数据长度
Figure FDA0002258825350000027
对于WAV格式的文件和HTML格式的文件,隐写特征如下:
A.依据对通信协议头Header数据长度的统计分析,File中包含模式串“@**@”的总长度≥512字节;
B.满足数据长度关系式
Figure FDA0002258825350000028
C.关键数据块长度校验,即满足(I)从WAV格式的文件或HTML格式的文件中抽取出信息头Header的实际数据长度
Figure FDA0002258825350000029
(II)M表示隐藏信息Msg的个数,
Figure FDA00022588253500000210
从WAV格式的文件或HTML格式的文件中抽取出隐藏信息Msgm的实际数据长度
Figure FDA00022588253500000211
2.根据权利要求1所述的基于IS4软件特征的隐藏信息检测及提取方法,其特征在于:所述步骤(2)中,当待检测文件File是检测JPG文件时,Extra(·)表示从File二进制比特流中搜索到的比特串模式,是一个由N个以“0xFF FE”开头的比特串和“0xFF FF”比特串结尾组成的比特流;然后去除模式串中的开头标记即“0xFF FE”和结尾标记即“0xFF FF”,最后获得关键数据信息KeyInfo。
3.根据权利要求1所述的基于IS4软件特征的隐藏信息检测及提取方法,其特征在于:所述步骤(2)中,当待检测文件File是检测PNG文件时,Extra(·)表示从File二进制比特流中搜索到一个由N个以“0x74 45 58 74 43 6F 6D 6D 65 6E 74 00”开头的比特串和“0x0000 00 00 49 45 4E 44 AE 42 60 82”比特串结尾组成的比特流,N≥2,然后去除模式串中的开头标记“0x74 45 58 74 43 6F 6D 6D 65 6E 74 00”和结尾标记“0x00 00 00 00 4945 4E 44 AE 42 60 82”,最后获得关键数据信息KeyInfo。
4.根据权利要求1所述的基于IS4软件特征的隐藏信息检测及提取方法,其特征在于:所述步骤(2)中,当待检测文件File是检测BMP文件时,Extra(·)表示从File中抽取图片像素最低比特位(Least Significant Bit,LSB)组成比特流,抽取顺序为(I)像素间按照图像坐标轴从左至右、由上及下的空间顺序;(II)像素内按照BGR的通道顺序。
5.根据权利要求1所述的基于IS4软件特征的隐藏信息检测及提取方法,其特征在于:所述步骤(2)中,当待检测文件File是检测WAV文件时,Extra(·)表示抽取File data数据块中数据段数据的字节最低比特位(LSB)组成比特流,WAV文件的data数据块的标记为“0x64 61 74 61”,标记字段随后的4字节为data数据块大小字段,再随后是数据段,其中数据段数据的选择取决于File的声道数,如果File是单声道音频则选取所有的数据段数据,如果File是双声道音频则选择数据段的奇数位字节。
6.根据权利要求1所述的基于IS4软件特征的隐藏信息检测及提取方法,其特征在于:所述步骤(2)中,当待检测文件File是检测HTML文件时,Extra(·)表示从File中匹配二进制模式串“0x3E@**@0D 0A”,其中“0x3E”表示标签结束标记“>”、“@**@”表示若干个“0x20”和“0x09”、“0x0D 0A”表示文本换行,并抽取子串“@**@”以及文件末尾的模式串“@**@”,然后将“0x20”和“0x09”分别映射为比特“0”和“1”构成KeyInfo的比特流数据。
7.根据权利要求1所述的基于IS4软件特征的隐藏信息检测及提取方法,其特征在于:所述步骤(5)中的隐藏信息Msg是密文消息。
CN201610739104.3A 2016-08-26 2016-08-26 一种基于is4软件特征的隐藏信息检测及提取方法 Expired - Fee Related CN106845242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610739104.3A CN106845242B (zh) 2016-08-26 2016-08-26 一种基于is4软件特征的隐藏信息检测及提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610739104.3A CN106845242B (zh) 2016-08-26 2016-08-26 一种基于is4软件特征的隐藏信息检测及提取方法

Publications (2)

Publication Number Publication Date
CN106845242A CN106845242A (zh) 2017-06-13
CN106845242B true CN106845242B (zh) 2020-04-14

Family

ID=59145958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610739104.3A Expired - Fee Related CN106845242B (zh) 2016-08-26 2016-08-26 一种基于is4软件特征的隐藏信息检测及提取方法

Country Status (1)

Country Link
CN (1) CN106845242B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555308B (zh) * 2018-06-01 2021-11-12 北京安天网络安全技术有限公司 一种终端应用行为跟踪和威胁风险评估方法及系统
CN109241780B (zh) * 2018-09-05 2021-10-29 郑州云海信息技术有限公司 一种图像隐藏信息的检测方法、装置及设备
CN109753809B (zh) * 2018-11-27 2021-07-06 国网浙江省电力有限公司 一种基于云存储系统的电网数据块分割方法
CN111049724B (zh) * 2019-10-16 2022-06-17 中国平安财产保险股份有限公司 邮件安全性检查方法、装置、计算机设备及存储介质
CN114098729B (zh) * 2020-08-27 2023-11-10 中国科学院心理研究所 基于心脏间期的情绪状态客观测量方法
CN112948852A (zh) * 2021-02-26 2021-06-11 杭州安恒信息安全技术有限公司 一种数据存取方法、装置和计算机可读存储介质
CN113111200B (zh) * 2021-04-09 2024-05-24 百度在线网络技术(北京)有限公司 审核图片文件的方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103108188A (zh) * 2013-03-01 2013-05-15 武汉大学 基于局部代价非最优统计的视频隐写分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9197655B2 (en) * 2013-07-16 2015-11-24 Bank Of America Corporation Steganography detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103108188A (zh) * 2013-03-01 2013-05-15 武汉大学 基于局部代价非最优统计的视频隐写分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本信息隐藏及分析技术研究;眭新光;《中国优秀博士学位论文全文数据库信息科技辑》;20120115(第1期);第21-148页 *

Also Published As

Publication number Publication date
CN106845242A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106845242B (zh) 一种基于is4软件特征的隐藏信息检测及提取方法
Lu et al. Multimedia forensic hash based on visual words
CN101807208B (zh) 视频指纹快速检索方法
US9197523B2 (en) Systems and methods for extracting media from network traffic having unknown protocols
CN106796625A (zh) 使用预测图案的多样性的水印检测
CN100550653C (zh) 一种可变长度结构化信息的编码和解码方法
CN103544408A (zh) 一种基于复合字体的pdf文档隐藏信息嵌入和提取方法
Joshi A new approach of text steganography using ASCII values
Gong et al. Detecting fingerprints of audio steganography software
Mandal et al. A new approach of text Steganography based on mathematical model of number system
CN103530574B (zh) 一种基于英文pdf文档的隐藏信息嵌入和提取方法
Quach Extracting hidden messages in steganographic images
US9082175B2 (en) Method for retrieving associated information using an image
CN110048847A (zh) 一种基于区块链技术的快速扫码签名方法
Liu et al. Multi-keywords carrier-free text steganography method based on Chinese pinyin
Cao et al. Approaches to obtaining fingerprints of steganography tools which embed message in fixed positions
Alam et al. An investigation into encrypted message hiding through images using LSB
Castiglione et al. Hiding Information into OOXML Documents: New Steganographic Perspectives.
CN103731654A (zh) 一种使用2d/3d视频的信息嵌入系统和信息提取系统
Chang et al. Image authentication with tampering localization based on watermark embedding in wavelet domain
CN114140850A (zh) 人脸识别方法、装置和电子设备
Sinhal et al. A source and ownership identification framework for Mobile-based messenger applications
CN111986065A (zh) 一种数字水印嵌入方法及装置
Guo et al. Information hiding in ooxml format data based on the splitting of text elements
Singh et al. A Novel Approach For Data Hiding In Web Page Steganography Using Encryption With Compression Based Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200414

Termination date: 20200826

CF01 Termination of patent right due to non-payment of annual fee