CN103455597B - 面向海量web图像的分布式信息隐藏检测方法 - Google Patents

面向海量web图像的分布式信息隐藏检测方法 Download PDF

Info

Publication number
CN103455597B
CN103455597B CN201310394077.7A CN201310394077A CN103455597B CN 103455597 B CN103455597 B CN 103455597B CN 201310394077 A CN201310394077 A CN 201310394077A CN 103455597 B CN103455597 B CN 103455597B
Authority
CN
China
Prior art keywords
image
information
detection
detection method
graph picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310394077.7A
Other languages
English (en)
Other versions
CN103455597A (zh
Inventor
赵彦玲
孙占全
黄惠芬
郑晓势
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center
Original Assignee
Shandong Computer Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center filed Critical Shandong Computer Science Center
Priority to CN201310394077.7A priority Critical patent/CN103455597B/zh
Publication of CN103455597A publication Critical patent/CN103455597A/zh
Application granted granted Critical
Publication of CN103455597B publication Critical patent/CN103455597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明的面向海量web图像的分布式信息隐藏检测方法,包括:a).在云计算平台上搭建Hadoop运行环境;b).产生Nutch抓取队列;c).按照Hadoop的MapReduce架构,进行分布式网页抓取;d).对网页进行解析并提取出web网页中的图像;e).采用Hbase存储提取的web图像;f).图像的通用盲检测;g).筛选出BMP格式和JPEG格式的图像;h). BMP格式的图像检测;i).JPEG格式的图像检测。本发明的图像隐藏检测方法,采用开源技术Hadoop、Nutch等,易于设计及开发实现,检测效果较好;适用于目前网络环境下的海量图像提取及隐藏信息检测,对发现、跟踪利用公开的信道进行隐蔽通信的不法分子,对维护国家信息安全,具有重要的现实意义。

Description

面向海量web图像的分布式信息隐藏检测方法
技术领域
本发明涉及一种面向海量web图像的分布式信息隐藏检测方法,属于信息安全领域。
背景技术
信息隐藏检测系统是信息隐藏检测技术的应用层次。面向Internet的图像信息隐藏检测系统具有广泛的应用前景。
Stegdetect是一个针对于JPEG图像文件的检测工具,只能检测几种嵌入工具,如:JSteg,JSteg-Shell,JPHide,Outguess等。Stegdetect包括了:Stegdetect,Grawl,StegBreak,Distributed Dictionary Attack四个部分。由Crawl模块自动的在网络上收集JPEG图像文件,为检测器提供数据来源。Stegdetect内建了统计检测模型,检测一个JPEG图像文件包含隐藏信息的可能性。通过字典攻击工具StegBreak分辨出该图像文件采用的隐藏工具,引入了分布式处理机制,提高检测的速度。
Sekarji等人在基于图像的信息隐藏检测系统中引入了神经网络模型,采用了基于签名的检测方法。神经网络模型由输入层、签名特征搜索层、求和层组成。通过神经网络,对大量的图像文件和不同的隐藏工具签名特征进行学习,修正网络连接的权值。从而根据阈值判定是否存在信息隐藏,并判定可能的隐藏工具。
Provos研制了基于Linux的自动下载网上图像隐蔽通信检测系统,对eBay上二百万幅图像过滤扫描,用字典攻击法分析USENET上的一百万件文档。Xsteg是它的图形用户界面。美国空军研究院(AFRL)资助Westone Technoligies公司研制的Stego Watch是一个流行的信息隐藏检测软件,它可用于分析一组文件,提供其中含有秘密信息的概率以及可能使用的信息隐藏工具。
Westone Technoligies公司的Gargoyle可用来分析计算机中存在哪些信息隐藏工具。它将分布于一系列已知信息隐藏工具中的专用数据集(或hash集)与被检测文件的hash集相比较,从而发现计算机中存在的信息隐藏工具。根据找到的工具便可进一步将怀疑重点指向特定类型的文件,例如一旦发现有S-Tool,就可以重点检查硬盘上的GIF,BMP,WAV等文件。
但现有的信息隐藏检测系统仅限于单机检测而不考虑实时性的现状,一般无法对海量web图像起到信息隐藏检测的作用。诸多不法分子会利用公开的信道进行隐蔽通信,譬如将要传送的信息隐藏在图片之中,利用公开的网络进行隐蔽通信或散播网络病毒,对国家信息安全形成严重威胁。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种面向海量web图像的分布式信息隐藏检测方法。
本发明的面向海量web图像的分布式信息隐藏检测方法,其特别之处在于,包括以下步骤:a).Hadoop环境搭建,在云计算平台中申请一定数目的计算节点,搭建出Hadoop的运行环境,以实现数据的并行处理;b).产生Nutch抓取队列,将初始种子网址放到抓取数据库中,用generate模块对抓取数据库中的网址进行过滤,产生要抓取的页面并将其放到抓取队列中;c).分布式网页抓取,按照Hadoop的MapReduce架构,将抓取队列中要抓取的网页分配给各个计算节点,利用爬虫Crawler访问这些链接并进行网页抓取;d).网页解析,对抓取完成的网页进行解析,产生一些新的链接与网页内容的解析结果;把新产生的链接更新到抓取数据库中,可进行下一轮抓取,重复步骤b)、c)、d)直至达到预先设定的抓取深度;同时解析并提取出web网页中的图像;e).web图像的存储,采用Hbase存储提取的web图像,以提高图像的检索和查询的速度;f).图像的通用盲检测,利用常用的图像信息隐藏检测算法,逐一检测web图像,判断web图像中是否存在隐藏信息;若某web图像被检测出含有隐藏信息,则认为其含有非法的秘密信息;否则执行步骤g);g).格式筛选,从步骤f)中未检测到隐藏信息的web图像中,筛选出BMP格式和JPEG格式的图像;BMP格式的图像,按照步骤h)进行处理,JPEG格式的图像,按照步骤i)进行处理;h).BMP格式的图像检测,采用BMP格式图像的检测算法,判断图像中是否含有隐藏信息;i).JPEG格式的图像检测,采用JPEG格式图像的检测算法,判断图像中是否含有隐藏信息。
步骤a)为根据工作量在云计算平台上申请一定数目的计算节点,形成Hadoop的运行环境;Hadoop采用分布式系统基础架构,可提供高传输率来访问应用程序的数据,适合超大数据集的应用场合。步骤b)中,首先把初始网址输入到抓取数据库中进行准备抓取,然后用generate模块对抓取数据库中的网址进行过滤,产生要抓取的队列。步骤c)为按照Hadoop的MapReduce架构,将抓取任务分配给各个计算节点,利用Nutch中的爬虫Crawler对分配的抓取队列中的网页进行抓取,步骤d)抓取后会产生一些新的链接和网页内容解析结果,把新链接更新到抓取数据库中去,可进行下一轮抓取(重复b),c),d)步骤),直至预先设定的抓取深度,同时解析识别出web网页中的图像,实现海量web图像的快速提取;步骤e)为采用Hbase数据库对海量web图像进行存储。步骤f)为采用常用的图像信息隐藏检测算法,对图像进行逐一检测;对于未检测到隐藏信息的图像,将按格式分类进一步检测,其中BMP格式、JPEG格式图像可分别按照步骤h)、步骤i)进行检测。
本发明的面向海量web图像的分布式信息隐藏检测方法,步骤f)中所述的常用的图像信息隐藏检测算法包括基于随机性度量的通用盲检测算法、追尾检测算法、图像格式冗余检测算法、基于差分直方图的LSB信息隐藏的可靠检测方法;步骤h)中所述的BMP格式图像的检测算法包括位平面分割分析检测法、Lapalacian分布特征检测法、基于调色板图像的通用性检测法;步骤i)中所述的JPEG格式图像的检测算法包括基于DCT系数统计模型的信息隐藏检测方法、JPEG图像DCT系数检测法、JPEG相容性检测法。
本发明的有益效果是:本发明的面向海量图像的分布式信息隐藏检测方法,首先利用Nutch的爬虫Crawler形成要访问网页的抓取队列,并按照Hadoop的MapReduce架构将其分配到各个计算节点上,然后将抓取的海量web图像存储到Hbase形式的数据库中,最后利用常用的BMP格式或JPEG格式的检测算法,对图像中是否含有隐藏信息进行检测。由于采用目前较成熟的多种技术集合而成,具有较好的可扩展性和通用性,检测效果较好。本发明适用于目前网络环境下的海量图像提取及隐藏信息检测,对发现、跟踪利用公开的信道进行隐蔽通信的不法分子,对维护国家信息安全,具有重要的现实意义。
本发明的分布式信息隐藏检测方法,可实现大规模数据的并行处理,包括并行网页数据抓取、并行web图像提取、并行信息隐藏检测等;由于采用开源技术Hadoop、Nutch、Hbase等,均为目前较成熟的技术,易于设计及开发实现;具有较好的可扩展性和通用性,检测效果较好。
附图说明
图1为本发明的分布式信息隐藏检测方法的原理图;
图2为本发明的海量web图像分布式信息隐藏检测的流程图;
图3为单个子节点web图像抓取及信息隐藏检测流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1~3所示,分别给出了本发明的面向海量web图像的分布式信息隐藏检测方法的原理图、流程图和单个子节点的运行流程图,其通过以下步骤来实现:
a).Hadoop环境搭建,在云计算平台中申请一定数目的计算节点,搭建出Hadoop的运行环境,以实现数据的并行处理;
Hadoop采用分布式系统基础架构,可提供高传输率来访问应用程序的数据,适合超大数据集的应用场合;计算节点的数目根据工作量来确定。
b).产生Nutch抓取队列,将初始种子网址放到抓取数据库中,用generate模块对抓取数据库中的网址进行过滤,产生要抓取的页面并将其放到抓取队列中;
Nutch是一个开源搜索引擎,其由爬虫crawler和查询searcher两部分组成,Crawler主要用于从网络上抓取网页并为这些网页建立索引。
c).分布式网页抓取,按照Hadoop的MapReduce架构,将抓取队列中要抓取的网页分配给各个计算节点,利用爬虫Crawler访问这些链接并进行网页抓取;
利用MapReduce技术将网页索引分配各个计算节点,有利于实现大规模数据的并行处理。
d).网页解析,对抓取完成的网页进行解析,产生一些新的链接与网页内容的解析结果;把新产生的链接更新到抓取数据库中,可进行下一轮抓取,重复步骤b)、c)、d)直至达到预先设定的抓取深度;同时解析并提取出web网页中的图像;
计算节点根据相应的网页索引进行网络抓取,通过文档结构解析,实现网页图像的快速提取。
e).web图像的存储,采用Hbase存储提取的web图像,以提高图像的检索和查询的速度;
Hbase是对海量异构数据统一存储的表结构,类似于google的大表技术,可大大提高文件检索和查询的速度,是目前大数据存储的主要技术之一,它是一个适合于非结构化数据存储的数据库,便于分布式处理。
f).图像的通用盲检测,利用常用的图像信息隐藏检测算法,逐一检测web图像,判断web图像中是否存在隐藏信息;若某web图像被检测出含有隐藏信息,则认为其含有非法的秘密信息;否则执行步骤g);
该步骤中,所述的常用的图像信息隐藏检测算法包括基于随机性度量的通用盲检测算法、追尾检测算法、图像格式冗余检测算法、基于差分直方图的LSB信息隐藏的可靠检测方法。
g).格式筛选,从步骤f)中未检测到隐藏信息的web图像中,筛选出BMP格式和JPEG格式的图像;BMP格式的图像,按照步骤h)进行处理,JPEG格式的图像,按照步骤i)进行处理;
h).BMP格式的图像检测,采用BMP格式图像的检测算法,对筛选出的BMP格式图像进行隐藏信息的检测,判断图像中是否含有隐藏信息;
该步骤中,所述的BMP格式图像的检测算法包括位平面分割分析检测法、Lapalacian分布特征检测法、基于调色板图像的通用性检测法。
i).JPEG格式的图像检测,采用JPEG格式图像的检测算法,对筛选出的JPEG格式图像进行隐藏信息的检测,判断图像中是否含有隐藏信息。
该步骤中,所述的JPEG格式图像的检测算法包括基于DCT系数统计模型的信息隐藏检测方法、JPEG图像DCT系数检测法、JPEG相容性检测法。
本发明的面向海量图像的分布式信息隐藏检测方法,采用开源技术Hadoop、Nutch等,易于设计及开发实现;采用MapReduce架构,可实现大规模图像集的并行处理;本发明中的信息隐藏检测方法采用目前较成熟的多种技术集成的方法,具有较好的可扩展性和通用性,检测效果较好。

Claims (2)

1.一种面向海量web图像的分布式信息隐藏检测方法,其特征在于,包括以下步骤:
a).Hadoop环境搭建,在云计算平台中申请一定数目的计算节点,搭建出Hadoop的运行环境,以实现数据的并行处理;
b).产生Nutch抓取队列,将初始种子网址放到抓取数据库中,用generate模块对抓取数据库中的网址进行过滤,产生要抓取的页面并将其放到抓取队列中;
c).分布式网页抓取,按照Hadoop的MapReduce架构,将抓取队列中要抓取的网页分配给各个计算节点,利用爬虫Crawler访问这些链接并进行网页抓取;
d).网页解析,对抓取完成的网页进行解析,产生一些新的链接与网页内容的解析结果;把新产生的链接更新到抓取数据库中,可进行下一轮抓取,重复步骤b)、c)、d)直至达到预先设定的抓取深度;同时解析并提取出web网页中的图像;
e).web图像的存储,采用Hbase存储提取的web图像,以提高图像的检索和查询的速度;
f).图像的通用盲检测,利用常用的图像信息隐藏检测算法,逐一检测web图像,判断web图像中是否存在隐藏信息;若某web图像被检测出含有隐藏信息,则认为其含有非法的秘密信息;否则执行步骤g);
g).格式筛选,从步骤f)中未检测到隐藏信息的web图像中,筛选出BMP格式和JPEG格式的图像;BMP格式的图像,按照步骤h)进行处理,JPEG格式的图像,按照步骤i)进行处理;
h). BMP格式的图像检测,采用BMP格式图像的检测算法,判断图像中是否含有隐藏信息;
i).JPEG格式的图像检测,采用JPEG格式图像的检测算法,判断图像中是否含有隐藏信息。
2.根据权利要求1所述的面向海量web图像的分布式信息隐藏检测方法,其特征在于:步骤f)中所述的常用的图像信息隐藏检测算法包括基于随机性度量的通用盲检测算法、追尾检测算法、图像格式冗余检测算法、基于差分直方图的LSB信息隐藏的可靠检测方法;步骤h)中所述的BMP格式图像的检测算法包括位平面分割分析检测法、Lapalacian分布特征检测法、基于调色板图像的通用性检测法;步骤i)中所述的JPEG格式图像的检测算法包括基于DCT系数统计模型的信息隐藏检测方法、JPEG图像DCT系数检测法、JPEG相容性检测法。
CN201310394077.7A 2013-09-03 2013-09-03 面向海量web图像的分布式信息隐藏检测方法 Active CN103455597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310394077.7A CN103455597B (zh) 2013-09-03 2013-09-03 面向海量web图像的分布式信息隐藏检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310394077.7A CN103455597B (zh) 2013-09-03 2013-09-03 面向海量web图像的分布式信息隐藏检测方法

Publications (2)

Publication Number Publication Date
CN103455597A CN103455597A (zh) 2013-12-18
CN103455597B true CN103455597B (zh) 2016-08-24

Family

ID=49737960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310394077.7A Active CN103455597B (zh) 2013-09-03 2013-09-03 面向海量web图像的分布式信息隐藏检测方法

Country Status (1)

Country Link
CN (1) CN103455597B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528370B (zh) * 2014-09-30 2020-04-07 奇安信科技集团股份有限公司 页面检测方法及客户端
CN104660715A (zh) * 2015-03-16 2015-05-27 浪潮集团有限公司 一种基于数据服务的开放接口实现方法
CN105138561B (zh) * 2015-07-23 2018-11-27 中国测绘科学研究院 一种暗网空间数据采集方法及装置
CN106251374B (zh) * 2016-07-21 2019-05-10 深圳市检验检疫科学研究院 Hadoop中基于Zigzag的MapReduce数据处理方法
CN107423382A (zh) * 2017-07-13 2017-12-01 中国物品编码中心 网络爬取方法和装置
CN107943588A (zh) * 2017-11-22 2018-04-20 用友金融信息技术股份有限公司 数据处理方法、系统、计算机设备和可读存储介质
CN109858510A (zh) * 2018-11-28 2019-06-07 南京知常容信息技术有限公司 一种针对HTTP协议ETag值隐蔽通信的检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556689B1 (en) * 1998-05-29 2003-04-29 University Of Delaware Watermarking methods for digital images and videos
CN1725868A (zh) * 2005-07-14 2006-01-25 上海交通大学 针对调色板图像文件信息隐藏检测的方法
CN101414378A (zh) * 2008-11-24 2009-04-22 罗向阳 特征维数可选的图像信息隐藏盲检测方法
CN101504760A (zh) * 2009-02-27 2009-08-12 上海师范大学 一种数字图像隐密信息检测与定位的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556689B1 (en) * 1998-05-29 2003-04-29 University Of Delaware Watermarking methods for digital images and videos
CN1725868A (zh) * 2005-07-14 2006-01-25 上海交通大学 针对调色板图像文件信息隐藏检测的方法
CN101414378A (zh) * 2008-11-24 2009-04-22 罗向阳 特征维数可选的图像信息隐藏盲检测方法
CN101504760A (zh) * 2009-02-27 2009-08-12 上海师范大学 一种数字图像隐密信息检测与定位的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
图像隐写分析与检测;郭艳格;《中国优秀硕士学位论文全文数据库信息科技辑》;20061115;第21、25-29页 *
基于Hadoop的分布式爬虫及其实现;程锦佳;《中国优秀硕士学位论文全文数据库信息科技辑》;20110415;第11、24、29、31-32、37页,图2-5、3-1、3-5 *

Also Published As

Publication number Publication date
CN103455597A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103455597B (zh) 面向海量web图像的分布式信息隐藏检测方法
Vinayakumar et al. A visualized botnet detection system based deep learning for the internet of things networks of smart cities
US10834128B1 (en) System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
CN106778241B (zh) 恶意文件的识别方法及装置
CN103810425B (zh) 恶意网址的检测方法及装置
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN108229156A (zh) Url攻击检测方法、装置以及电子设备
Mehtab et al. AdDroid: rule-based machine learning framework for android malware analysis
WO2016201938A1 (zh) 一种多阶段钓鱼网站检测方法与系统
CN110557382A (zh) 一种利用域名共现关系的恶意域名检测方法及系统
Yoo et al. Two-phase malicious web page detection scheme using misuse and anomaly detection
Li et al. Adversarial batch image steganography against CNN-based pooled steganalysis
CN107463844B (zh) Web木马检测方法及系统
CN102306287A (zh) 一种用于识别敏感图像的方法与设备
Arefkhani et al. Malware clustering using image processing hashes
CN109101810A (zh) 一种基于ocr技术的文字验证码识别方法
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
Hashim et al. An extensive analysis and conduct comparative based on statistical attach of LSB substitution and LSB matching
Assefa et al. Intelligent phishing website detection using deep learning
Khan et al. Digital forensics and cyber forensics investigation: security challenges, limitations, open issues, and future direction
Pradeepa et al. Lightweight approach for malicious domain detection using machine learning
Li Emerging digital forensics applications for crime detection, prevention, and security
Kumar et al. Detection of malware using deep learning techniques
CN112257076A (zh) 一种基于随机探测算法和信息聚合的漏洞检测方法
CN112380537A (zh) 一种检测恶意软件的方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant