CN103209170A - 文件类型识别方法及识别系统 - Google Patents

文件类型识别方法及识别系统 Download PDF

Info

Publication number
CN103209170A
CN103209170A CN2013100677169A CN201310067716A CN103209170A CN 103209170 A CN103209170 A CN 103209170A CN 2013100677169 A CN2013100677169 A CN 2013100677169A CN 201310067716 A CN201310067716 A CN 201310067716A CN 103209170 A CN103209170 A CN 103209170A
Authority
CN
China
Prior art keywords
file
identified
data link
described data
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100677169A
Other languages
English (en)
Inventor
刘伟
董茂培
陈金达
杨宇云
余兆
许晶
祝方方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Opzoon Technology Co Ltd
Original Assignee
Opzoon Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Opzoon Technology Co Ltd filed Critical Opzoon Technology Co Ltd
Priority to CN2013100677169A priority Critical patent/CN103209170A/zh
Publication of CN103209170A publication Critical patent/CN103209170A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文件类型识别方法,包括以下步骤:S1、建立特征库,并对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载,若是,则执行步骤S2;若不是,则继续执行步骤S1;S2、对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;S3、将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型;本发明通过建立独立的特征库以及匹配方案,无须依赖于请求报头的文件类型后缀名,就可以实现对隐藏后缀名的文件进行类型确认,并且解决了对于传统识别方法对后缀名恶意更改的错误识别;本发明还提供一种文件类型识别系统。

Description

文件类型识别方法及识别系统
技术领域
本发明涉及网络安全领域,特别涉及一种文件类型识别方法及识别系统。
背景技术
文件类型的多样性,带来了有关数据保密以及信息安全等方面的威胁,通过对一些文件类型的识别和阻断,可以避免互联网上木马和病毒的传播,还可以避免公司保密文件的泄漏,所以需要一种工具来对文件类型进行识别。
现有技术中主要依靠请求报头内的文件后缀名对文件类型进行确认,但是在面对后缀名隐藏或后缀名被更改的文件时,现有技术并不能对文件类型进行正确的判断;例如迅雷方舟里面的电影,由于隐藏了文件的后缀名,导致所有的应用协议都将其识别为网页浏览;另外,一些木马程序通过更改其后缀名而在网络传播;这些都会导致有关数据保密以及信息安全等方面的威胁。
基于此,现有技术确实有待于改进。
发明内容
针对现有技术的不足,本发明提供一种文件类型识别方法及识别系统,使得其在对文件进行下载或传输时,能不依赖请求报文的文件类型后缀名而对文件类型进行识别,该发明还可以解决文件类型后缀名被篡改后不能有效识别出文件类型的问题。
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种文件类型识别方法,包括以下步骤:
S1、建立特征库,并对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载,若是,则执行步骤S2;若不是,则继续执行步骤S1;
S2、对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
S3、将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型。
优选的,所述步骤S1进一步包括:提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
优选的,所述步骤S1通过对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
优选的,所述步骤S3进一步包括:
对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配,若匹配成功,则确定待识别数据包的文件类型;若匹配不成功,则返回步骤S1继续执行。
优选的,所述步骤S3进一步包括只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
本发明还提供一种文件类型识别系统,包括有:
特征库单元,用于建立特征库;
判断单元,用于对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载;
标记单元,用于对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
匹配单元,用于将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型。
优选的,所述特征库单元进一步用于提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
优选的,所述判断单元进一步用于对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
优选的,所述匹配单元进一步用于对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配。
优选的,所述匹配单元进一步用于只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
本发明提供了一种文件类型识别方法及识别系统,通过建立独立的特征库以及匹配方案,与传统的文件类型识别方法相比,无须依赖于请求报头的文件类型后缀名,就可以实现对隐藏后缀名的文件进行类型确认,并且解决了对于传统识别方法对后缀名恶意更改的错误识别;本发明可以挂在任何应用协议下,在不影响其他应用协议识别效率的基础上,实现了对文件类型的快速准确的识别。
附图说明
图1为本发明一实施例的流程图;
图2为本发明一实施例的系统装置图。
具体实施方式
下面对于本发明所提出的一种文件类型识别方法及识别系统,结合附图和实施例详细说明。
如图1所示,本发明提供了一种文件类型识别方法,包括以下步骤:
S1、建立特征库,并对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载,若是,则执行步骤S2;若不是,则继续执行步骤S1;
S2、对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
S3、将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型。
优选的,所述步骤S1进一步包括:提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
优选的,所述步骤S1通过对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
优选的,所述步骤S3进一步包括:
对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配,若匹配成功,则确定待识别数据包的文件类型;若匹配不成功,则返回步骤S1继续执行。
优选的,所述步骤S3进一步包括只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
如图2所示,本发明还提供一种文件类型识别系统,包括有:
特征库单元,用于建立特征库;
判断单元,用于对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载;
标记单元,用于对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
匹配单元,用于将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型。
优选的,所述特征库单元进一步用于提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
优选的,所述判断单元进一步用于对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
优选的,所述匹配单元进一步用于对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配。
优选的,所述匹配单元进一步用于只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
以迅雷方舟的文件类型识别为例,利用本发明记载的技术方案,其中,迅雷方舟文件的类型为FLV格式,在该实施例中,对请求报头内的文件类型后缀名进行了隐藏,以下为迅雷方舟的文件类型识别步骤:
步骤1:提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库;
步骤2:登录迅雷方舟下载文件,并对链接进行扫描,对所述链接对应的请求报头进行分析,识别出该链接为文件下载;
步骤3:对所述数据链接进行标记,跳过所述数据链接对应的请求报头与响应报头;
步骤4:对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配,若匹配发现FLV格式的特征关键字,则确定该文件的文件类型为FLV,此时即可将其以FLV格式进行下载。
本发明提供了一种文件类型识别方法及识别系统,通过建立独立的特征库以及匹配方案,与传统的文件类型识别方法相比,无须依赖于请求报头的文件类型后缀名,就可以实现对隐藏后缀名的文件进行类型确认,并且解决了对于传统识别方法对后缀名恶意更改的错误识别;本发明可以挂在任何应用协议下,在不影响其他应用协议识别效率的基础上,实现了对文件类型的快速准确的识别。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种文件类型识别方法,其特征在于,包括以下步骤:
S1、建立特征库,并对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载,若是,则执行步骤S2;若不是,则继续执行步骤S1;
S2、对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
S3、将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定所述待识别数据包的文件类型。
2.如权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
3.如权利要求2所述的方法,其特征在于,所述步骤S1通过对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
4.如权利要求3所述的方法,其特征在于,所述步骤S3进一步包括:
对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配,若匹配成功,则确定待识别数据包的文件类型;若匹配不成功,则返回步骤S1继续执行。
5.如权利要求4所述的方法,其特征在于,所述步骤S3进一步包括只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
6.一种文件类型识别系统,其特征在于,包括有:
特征库单元,用于建立特征库;
判断单元,用于对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载;
标记单元,用于对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
匹配单元,用于将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定所述待识别数据包的文件类型。
7.如权利要求6所述的系统,其特征在于,所述特征库单元进一步用于提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
8.如权利要求7所述的系统,其特征在于,所述判断单元进一步用于对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
9.如权利要求8所述的系统,其特征在于,所述匹配单元进一步用于对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配。
10.如权利要求9所述的系统,其特征在于,所述匹配单元进一步用于只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
CN2013100677169A 2013-03-04 2013-03-04 文件类型识别方法及识别系统 Pending CN103209170A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100677169A CN103209170A (zh) 2013-03-04 2013-03-04 文件类型识别方法及识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100677169A CN103209170A (zh) 2013-03-04 2013-03-04 文件类型识别方法及识别系统

Publications (1)

Publication Number Publication Date
CN103209170A true CN103209170A (zh) 2013-07-17

Family

ID=48756255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100677169A Pending CN103209170A (zh) 2013-03-04 2013-03-04 文件类型识别方法及识别系统

Country Status (1)

Country Link
CN (1) CN103209170A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104079493A (zh) * 2014-06-11 2014-10-01 国家计算机网络与信息安全管理中心 基于下载资源名的流量识别方法和设备、管控方法和设备
CN108040069A (zh) * 2017-12-28 2018-05-15 成都数成科技有限公司 一种快速打开网络数据包文件的方法
CN108270783A (zh) * 2018-01-15 2018-07-10 新华三信息安全技术有限公司 一种数据处理方法及装置
CN108595672A (zh) * 2018-04-28 2018-09-28 努比亚技术有限公司 一种识别下载文件类型的方法、装置及可读存储介质
CN109327451A (zh) * 2018-10-30 2019-02-12 深信服科技股份有限公司 一种防御文件上传验证绕过的方法、系统、装置及介质
CN109597542A (zh) * 2018-10-08 2019-04-09 华为技术有限公司 一种相册展示方法、电子设备及存储介质
CN111563063A (zh) * 2020-05-12 2020-08-21 福建天晴在线互动科技有限公司 一种基于HashMap识别文件类型的方法
CN113111147A (zh) * 2020-01-13 2021-07-13 深信服科技股份有限公司 一种文本类型识别方法、装置及电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288015A1 (en) * 2005-06-15 2006-12-21 Schirripa Steven R Electronic content classification
CN101763394A (zh) * 2009-12-31 2010-06-30 傅如毅 计算机系统涉密文件搜索方法
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN102624878A (zh) * 2012-02-23 2012-08-01 汉柏科技有限公司 基于dns协议识别p2p协议的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288015A1 (en) * 2005-06-15 2006-12-21 Schirripa Steven R Electronic content classification
CN101622598A (zh) * 2005-06-15 2010-01-06 谷歌公司 电子内容分类
CN101763394A (zh) * 2009-12-31 2010-06-30 傅如毅 计算机系统涉密文件搜索方法
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN102624878A (zh) * 2012-02-23 2012-08-01 汉柏科技有限公司 基于dns协议识别p2p协议的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张润峰: "基于特征标识的文件类型识别与匹配", 《计算机安全》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104079493A (zh) * 2014-06-11 2014-10-01 国家计算机网络与信息安全管理中心 基于下载资源名的流量识别方法和设备、管控方法和设备
CN108040069A (zh) * 2017-12-28 2018-05-15 成都数成科技有限公司 一种快速打开网络数据包文件的方法
CN108270783A (zh) * 2018-01-15 2018-07-10 新华三信息安全技术有限公司 一种数据处理方法及装置
CN108270783B (zh) * 2018-01-15 2021-04-16 新华三信息安全技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN108595672A (zh) * 2018-04-28 2018-09-28 努比亚技术有限公司 一种识别下载文件类型的方法、装置及可读存储介质
CN109597542A (zh) * 2018-10-08 2019-04-09 华为技术有限公司 一种相册展示方法、电子设备及存储介质
US11481357B2 (en) 2018-10-08 2022-10-25 Huawei Technologies Co., Ltd. Album display method, electronic device, and storage medium
CN109327451A (zh) * 2018-10-30 2019-02-12 深信服科技股份有限公司 一种防御文件上传验证绕过的方法、系统、装置及介质
CN109327451B (zh) * 2018-10-30 2021-07-06 深信服科技股份有限公司 一种防御文件上传验证绕过的方法、系统、装置及介质
CN113111147A (zh) * 2020-01-13 2021-07-13 深信服科技股份有限公司 一种文本类型识别方法、装置及电子设备和存储介质
CN111563063A (zh) * 2020-05-12 2020-08-21 福建天晴在线互动科技有限公司 一种基于HashMap识别文件类型的方法

Similar Documents

Publication Publication Date Title
CN103209170A (zh) 文件类型识别方法及识别系统
US11399288B2 (en) Method for HTTP-based access point fingerprint and classification using machine learning
CN104320377B (zh) 一种流媒体文件的防盗链方法及设备
US9686344B2 (en) Method for implementing cross-domain jump, browser, and domain name server
CN102098331B (zh) 一种还原web类应用内容的方法及其系统
US10243829B2 (en) Communication protocol testing method, and tested device and testing platform thereof
US8572366B1 (en) Authenticating clients
CN103401845B (zh) 一种网址安全性的检测方法、装置
CN102129528A (zh) 一种web网页篡改识别方法及系统
CN103428261A (zh) 通过硬件辅助处理http报头的方法
CN103297270A (zh) 应用类型识别方法及网络设备
CN102801698B (zh) 一种基于url请求时序的恶意代码检测方法和系统
US20150215429A1 (en) System and method for extracting identifiers from traffic of an unknown protocol
CN102664935A (zh) 一种web类用户行为和用户信息的关联输出方法及系统
CN104811462A (zh) 一种接入网关重定向方法及接入网关
CN103560995A (zh) 一种同时实现ipv4和ipv6的URL过滤方法
CN103778113A (zh) 终端、服务器及终端、服务器的网页处理方法
CN103136251A (zh) 识别网页的方法和装置
WO2016008212A1 (zh) 一种终端及检测终端数据交互的安全性的方法、存储介质
CN106778229A (zh) 一种基于vpn的恶意应用下载拦截方法及系统
CN102624692A (zh) 基于http传输协议的无用户身份验证方法
CN108259416B (zh) 检测恶意网页的方法及相关设备
CN105262720A (zh) web机器人流量识别方法及装置
CN105049437A (zh) 一种网络应用层数据过滤方法
JP5743822B2 (ja) 情報漏洩防止装置及び制限情報生成装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130717