CN103209170A - 文件类型识别方法及识别系统 - Google Patents
文件类型识别方法及识别系统 Download PDFInfo
- Publication number
- CN103209170A CN103209170A CN2013100677169A CN201310067716A CN103209170A CN 103209170 A CN103209170 A CN 103209170A CN 2013100677169 A CN2013100677169 A CN 2013100677169A CN 201310067716 A CN201310067716 A CN 201310067716A CN 103209170 A CN103209170 A CN 103209170A
- Authority
- CN
- China
- Prior art keywords
- file
- identified
- data link
- described data
- packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文件类型识别方法,包括以下步骤:S1、建立特征库,并对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载,若是,则执行步骤S2;若不是,则继续执行步骤S1;S2、对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;S3、将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型;本发明通过建立独立的特征库以及匹配方案,无须依赖于请求报头的文件类型后缀名,就可以实现对隐藏后缀名的文件进行类型确认,并且解决了对于传统识别方法对后缀名恶意更改的错误识别;本发明还提供一种文件类型识别系统。
Description
技术领域
本发明涉及网络安全领域,特别涉及一种文件类型识别方法及识别系统。
背景技术
文件类型的多样性,带来了有关数据保密以及信息安全等方面的威胁,通过对一些文件类型的识别和阻断,可以避免互联网上木马和病毒的传播,还可以避免公司保密文件的泄漏,所以需要一种工具来对文件类型进行识别。
现有技术中主要依靠请求报头内的文件后缀名对文件类型进行确认,但是在面对后缀名隐藏或后缀名被更改的文件时,现有技术并不能对文件类型进行正确的判断;例如迅雷方舟里面的电影,由于隐藏了文件的后缀名,导致所有的应用协议都将其识别为网页浏览;另外,一些木马程序通过更改其后缀名而在网络传播;这些都会导致有关数据保密以及信息安全等方面的威胁。
基于此,现有技术确实有待于改进。
发明内容
针对现有技术的不足,本发明提供一种文件类型识别方法及识别系统,使得其在对文件进行下载或传输时,能不依赖请求报文的文件类型后缀名而对文件类型进行识别,该发明还可以解决文件类型后缀名被篡改后不能有效识别出文件类型的问题。
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种文件类型识别方法,包括以下步骤:
S1、建立特征库,并对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载,若是,则执行步骤S2;若不是,则继续执行步骤S1;
S2、对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
S3、将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型。
优选的,所述步骤S1进一步包括:提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
优选的,所述步骤S1通过对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
优选的,所述步骤S3进一步包括:
对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配,若匹配成功,则确定待识别数据包的文件类型;若匹配不成功,则返回步骤S1继续执行。
优选的,所述步骤S3进一步包括只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
本发明还提供一种文件类型识别系统,包括有:
特征库单元,用于建立特征库;
判断单元,用于对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载;
标记单元,用于对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
匹配单元,用于将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型。
优选的,所述特征库单元进一步用于提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
优选的,所述判断单元进一步用于对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
优选的,所述匹配单元进一步用于对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配。
优选的,所述匹配单元进一步用于只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
本发明提供了一种文件类型识别方法及识别系统,通过建立独立的特征库以及匹配方案,与传统的文件类型识别方法相比,无须依赖于请求报头的文件类型后缀名,就可以实现对隐藏后缀名的文件进行类型确认,并且解决了对于传统识别方法对后缀名恶意更改的错误识别;本发明可以挂在任何应用协议下,在不影响其他应用协议识别效率的基础上,实现了对文件类型的快速准确的识别。
附图说明
图1为本发明一实施例的流程图;
图2为本发明一实施例的系统装置图。
具体实施方式
下面对于本发明所提出的一种文件类型识别方法及识别系统,结合附图和实施例详细说明。
如图1所示,本发明提供了一种文件类型识别方法,包括以下步骤:
S1、建立特征库,并对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载,若是,则执行步骤S2;若不是,则继续执行步骤S1;
S2、对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
S3、将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型。
优选的,所述步骤S1进一步包括:提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
优选的,所述步骤S1通过对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
优选的,所述步骤S3进一步包括:
对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配,若匹配成功,则确定待识别数据包的文件类型;若匹配不成功,则返回步骤S1继续执行。
优选的,所述步骤S3进一步包括只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
如图2所示,本发明还提供一种文件类型识别系统,包括有:
特征库单元,用于建立特征库;
判断单元,用于对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载;
标记单元,用于对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
匹配单元,用于将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定待识别数据包的文件类型。
优选的,所述特征库单元进一步用于提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
优选的,所述判断单元进一步用于对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
优选的,所述匹配单元进一步用于对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配。
优选的,所述匹配单元进一步用于只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
以迅雷方舟的文件类型识别为例,利用本发明记载的技术方案,其中,迅雷方舟文件的类型为FLV格式,在该实施例中,对请求报头内的文件类型后缀名进行了隐藏,以下为迅雷方舟的文件类型识别步骤:
步骤1:提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库;
步骤2:登录迅雷方舟下载文件,并对链接进行扫描,对所述链接对应的请求报头进行分析,识别出该链接为文件下载;
步骤3:对所述数据链接进行标记,跳过所述数据链接对应的请求报头与响应报头;
步骤4:对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配,若匹配发现FLV格式的特征关键字,则确定该文件的文件类型为FLV,此时即可将其以FLV格式进行下载。
本发明提供了一种文件类型识别方法及识别系统,通过建立独立的特征库以及匹配方案,与传统的文件类型识别方法相比,无须依赖于请求报头的文件类型后缀名,就可以实现对隐藏后缀名的文件进行类型确认,并且解决了对于传统识别方法对后缀名恶意更改的错误识别;本发明可以挂在任何应用协议下,在不影响其他应用协议识别效率的基础上,实现了对文件类型的快速准确的识别。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (10)
1.一种文件类型识别方法,其特征在于,包括以下步骤:
S1、建立特征库,并对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载,若是,则执行步骤S2;若不是,则继续执行步骤S1;
S2、对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
S3、将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定所述待识别数据包的文件类型。
2.如权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
3.如权利要求2所述的方法,其特征在于,所述步骤S1通过对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
4.如权利要求3所述的方法,其特征在于,所述步骤S3进一步包括:
对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配,若匹配成功,则确定待识别数据包的文件类型;若匹配不成功,则返回步骤S1继续执行。
5.如权利要求4所述的方法,其特征在于,所述步骤S3进一步包括只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
6.一种文件类型识别系统,其特征在于,包括有:
特征库单元,用于建立特征库;
判断单元,用于对主机的数据链接进行扫描,判断所述数据链接是否为文件传输或文件下载;
标记单元,用于对所述数据链接进行标记,并跳过所述数据链接对应的请求报头与响应报头;
匹配单元,用于将所述数据链接中待识别数据包的实体报文与所述特征库进行匹配,确定所述待识别数据包的文件类型。
7.如权利要求6所述的系统,其特征在于,所述特征库单元进一步用于提取各文件类型对应的特征关键字,并将所述特征关键字进行编译,形成特征库。
8.如权利要求7所述的系统,其特征在于,所述判断单元进一步用于对所述数据链接对应的请求报头进行分析,判断所述数据链接是否为文件传输或文件下载。
9.如权利要求8所述的系统,其特征在于,所述匹配单元进一步用于对所述数据链接中待识别数据包的实体报文进行分析,并将分析后的所述待识别数据包中的实体报文与所述特征库进行匹配。
10.如权利要求9所述的系统,其特征在于,所述匹配单元进一步用于只对所述数据链接中待识别数据包的第一个实体报文或前两个实体报文进行分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100677169A CN103209170A (zh) | 2013-03-04 | 2013-03-04 | 文件类型识别方法及识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100677169A CN103209170A (zh) | 2013-03-04 | 2013-03-04 | 文件类型识别方法及识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103209170A true CN103209170A (zh) | 2013-07-17 |
Family
ID=48756255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013100677169A Pending CN103209170A (zh) | 2013-03-04 | 2013-03-04 | 文件类型识别方法及识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103209170A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079493A (zh) * | 2014-06-11 | 2014-10-01 | 国家计算机网络与信息安全管理中心 | 基于下载资源名的流量识别方法和设备、管控方法和设备 |
CN108040069A (zh) * | 2017-12-28 | 2018-05-15 | 成都数成科技有限公司 | 一种快速打开网络数据包文件的方法 |
CN108270783A (zh) * | 2018-01-15 | 2018-07-10 | 新华三信息安全技术有限公司 | 一种数据处理方法及装置 |
CN108595672A (zh) * | 2018-04-28 | 2018-09-28 | 努比亚技术有限公司 | 一种识别下载文件类型的方法、装置及可读存储介质 |
CN109327451A (zh) * | 2018-10-30 | 2019-02-12 | 深信服科技股份有限公司 | 一种防御文件上传验证绕过的方法、系统、装置及介质 |
CN109597542A (zh) * | 2018-10-08 | 2019-04-09 | 华为技术有限公司 | 一种相册展示方法、电子设备及存储介质 |
CN111563063A (zh) * | 2020-05-12 | 2020-08-21 | 福建天晴在线互动科技有限公司 | 一种基于HashMap识别文件类型的方法 |
CN113111147A (zh) * | 2020-01-13 | 2021-07-13 | 深信服科技股份有限公司 | 一种文本类型识别方法、装置及电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060288015A1 (en) * | 2005-06-15 | 2006-12-21 | Schirripa Steven R | Electronic content classification |
CN101763394A (zh) * | 2009-12-31 | 2010-06-30 | 傅如毅 | 计算机系统涉密文件搜索方法 |
CN102571767A (zh) * | 2011-12-24 | 2012-07-11 | 成都市华为赛门铁克科技有限公司 | 文件类型识别方法及文件类型识别装置 |
CN102624878A (zh) * | 2012-02-23 | 2012-08-01 | 汉柏科技有限公司 | 基于dns协议识别p2p协议的方法及系统 |
-
2013
- 2013-03-04 CN CN2013100677169A patent/CN103209170A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060288015A1 (en) * | 2005-06-15 | 2006-12-21 | Schirripa Steven R | Electronic content classification |
CN101622598A (zh) * | 2005-06-15 | 2010-01-06 | 谷歌公司 | 电子内容分类 |
CN101763394A (zh) * | 2009-12-31 | 2010-06-30 | 傅如毅 | 计算机系统涉密文件搜索方法 |
CN102571767A (zh) * | 2011-12-24 | 2012-07-11 | 成都市华为赛门铁克科技有限公司 | 文件类型识别方法及文件类型识别装置 |
CN102624878A (zh) * | 2012-02-23 | 2012-08-01 | 汉柏科技有限公司 | 基于dns协议识别p2p协议的方法及系统 |
Non-Patent Citations (1)
Title |
---|
张润峰: "基于特征标识的文件类型识别与匹配", 《计算机安全》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079493A (zh) * | 2014-06-11 | 2014-10-01 | 国家计算机网络与信息安全管理中心 | 基于下载资源名的流量识别方法和设备、管控方法和设备 |
CN108040069A (zh) * | 2017-12-28 | 2018-05-15 | 成都数成科技有限公司 | 一种快速打开网络数据包文件的方法 |
CN108270783A (zh) * | 2018-01-15 | 2018-07-10 | 新华三信息安全技术有限公司 | 一种数据处理方法及装置 |
CN108270783B (zh) * | 2018-01-15 | 2021-04-16 | 新华三信息安全技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN108595672A (zh) * | 2018-04-28 | 2018-09-28 | 努比亚技术有限公司 | 一种识别下载文件类型的方法、装置及可读存储介质 |
CN109597542A (zh) * | 2018-10-08 | 2019-04-09 | 华为技术有限公司 | 一种相册展示方法、电子设备及存储介质 |
US11481357B2 (en) | 2018-10-08 | 2022-10-25 | Huawei Technologies Co., Ltd. | Album display method, electronic device, and storage medium |
CN109327451A (zh) * | 2018-10-30 | 2019-02-12 | 深信服科技股份有限公司 | 一种防御文件上传验证绕过的方法、系统、装置及介质 |
CN109327451B (zh) * | 2018-10-30 | 2021-07-06 | 深信服科技股份有限公司 | 一种防御文件上传验证绕过的方法、系统、装置及介质 |
CN113111147A (zh) * | 2020-01-13 | 2021-07-13 | 深信服科技股份有限公司 | 一种文本类型识别方法、装置及电子设备和存储介质 |
CN111563063A (zh) * | 2020-05-12 | 2020-08-21 | 福建天晴在线互动科技有限公司 | 一种基于HashMap识别文件类型的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103209170A (zh) | 文件类型识别方法及识别系统 | |
US11399288B2 (en) | Method for HTTP-based access point fingerprint and classification using machine learning | |
CN104320377B (zh) | 一种流媒体文件的防盗链方法及设备 | |
US9686344B2 (en) | Method for implementing cross-domain jump, browser, and domain name server | |
CN102098331B (zh) | 一种还原web类应用内容的方法及其系统 | |
US10243829B2 (en) | Communication protocol testing method, and tested device and testing platform thereof | |
US8572366B1 (en) | Authenticating clients | |
CN103401845B (zh) | 一种网址安全性的检测方法、装置 | |
CN102129528A (zh) | 一种web网页篡改识别方法及系统 | |
CN103428261A (zh) | 通过硬件辅助处理http报头的方法 | |
CN103297270A (zh) | 应用类型识别方法及网络设备 | |
CN102801698B (zh) | 一种基于url请求时序的恶意代码检测方法和系统 | |
US20150215429A1 (en) | System and method for extracting identifiers from traffic of an unknown protocol | |
CN102664935A (zh) | 一种web类用户行为和用户信息的关联输出方法及系统 | |
CN104811462A (zh) | 一种接入网关重定向方法及接入网关 | |
CN103560995A (zh) | 一种同时实现ipv4和ipv6的URL过滤方法 | |
CN103778113A (zh) | 终端、服务器及终端、服务器的网页处理方法 | |
CN103136251A (zh) | 识别网页的方法和装置 | |
WO2016008212A1 (zh) | 一种终端及检测终端数据交互的安全性的方法、存储介质 | |
CN106778229A (zh) | 一种基于vpn的恶意应用下载拦截方法及系统 | |
CN102624692A (zh) | 基于http传输协议的无用户身份验证方法 | |
CN108259416B (zh) | 检测恶意网页的方法及相关设备 | |
CN105262720A (zh) | web机器人流量识别方法及装置 | |
CN105049437A (zh) | 一种网络应用层数据过滤方法 | |
JP5743822B2 (ja) | 情報漏洩防止装置及び制限情報生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130717 |