CN106845221A - 一种基于语法形式的脚本类文件格式识别方法和系统 - Google Patents

一种基于语法形式的脚本类文件格式识别方法和系统 Download PDF

Info

Publication number
CN106845221A
CN106845221A CN201610983857.9A CN201610983857A CN106845221A CN 106845221 A CN106845221 A CN 106845221A CN 201610983857 A CN201610983857 A CN 201610983857A CN 106845221 A CN106845221 A CN 106845221A
Authority
CN
China
Prior art keywords
identification point
script
identification
class file
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610983857.9A
Other languages
English (en)
Inventor
沈长伟
童志明
肖新光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Antiy Technology Co Ltd
Original Assignee
Harbin Antiy Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Antiy Technology Co Ltd filed Critical Harbin Antiy Technology Co Ltd
Priority to CN201610983857.9A priority Critical patent/CN106845221A/zh
Publication of CN106845221A publication Critical patent/CN106845221A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing

Abstract

本发明公开了一种基于语法形式的脚本类文件格式识别方法及系统,包括:获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎;否则重复以上步骤直至提取到可用的识别点。本方法解决了传统方法中,对于脚本类格式识别难的问题。采用基于脚本语法特点的方法,可以有效提高脚本类格式识别的准确度。

Description

一种基于语法形式的脚本类文件格式识别方法和系统
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于语法形式的脚本类文件格式识别方法。
背景技术
传统的格式识别方法多采用结构方法进行识别,例如格式幻数等。格式识别技术在恶意代码检测中,具有十分重要的作用。格式识别的准确性对于更好更快的检测恶意代码重要的基础技术。
脚本类文件语法灵活多样,没有固定的结构,无法用传统的格式识别方法 (例如幻数方法等)进行识别,而在与恶意代码检测中,又需要识别脚本类文件格式。
发明内容
针对上述技术问题,本发明所述的技术方案提出了一种基于语法形式的脚本类文件格式识别方法和系统,即,基于每类文件的语法特征通过一些识别方法进行识别脚本类文件,解决了传统方法中,对于脚本类格式识别难的问题,采用基于脚本语法特点的方法,可以有效提高脚本类格式识别的准确率和降低误报率
本发明采用如下方法来实现:
一种基于语法形式的脚本类文件格式识别方法,包括:
获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;
针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;
将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;
所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。
本发明采用如下系统来实现:
一种基于语法形式的脚本类文件格式识别系统,包括:
分析模块,用于获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;
提取模块,用于针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;
测试模块,用于将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;
所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。
综上,本发明给出一种基于语法形式的脚本类文件格式识别方法及系统,包括:获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点直至完成识别。
有益效果为:
本方法解决了传统方法中,对于脚本类格式识别难的问题,采用基于脚本语法特点的方法,可以有效提高脚本类格式识别的准确率和降低误报率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于语法形式的脚本类文件格式识别方法实施例流程图;
图2为本发明提供的一种基于语法形式的脚本类文件格式识别系统实施例结构图。
具体实施方式
本发明给出了一种基于语法形式的脚本类文件格式识别方法及系统实施例,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供一种基于语法形式的脚本类文件格式识别方法实施例,如图1所示,包括:
S101获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;
其中,所述语法特点包括关键词、函数声明等形式。
S102针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;
其中,提取单一识别点的为javascript脚本文件,它的识别点为匿名函数的形式;提取多个识别点的如MIME的信息标签,信息标签如”from”、”to”等字样。
S103将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;
其中,可用的识别点是基于不同的识别方法转换成相对应的识别规则,识别方法包括但不限于正则、状态机,相对应的识别规则包括正则表达式、状态机序列等。
所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。
本发明同时提供了一种基于语法形式的脚本类文件格式识别系统实施例,如图2所示,包括:
分析模块201,用于获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;
提取模块202,用于针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;
测试模块203,用于将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;
其中,可用的识别点是基于不同的识别方法转换成相对应的识别规则,识别方法包括但不限于正则、状态机,相对应的识别规则包括正则表达式、状态机序列等。
所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
如上所述,上述实施例给出了一种基于语法形式的脚本类文件格式识别方法,包括:获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。采用基于脚本语法特点的方法,可以有效提高脚本类格式识别的准确度和降低误报率。
以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于语法形式的脚本类文件格式识别方法,其特征在于,包括:
获取并分析同类脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;
针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;
将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;
所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。
2.一种基于语法形式的脚本类文件格式识别系统,其特征在于,包括:
分析模块,用于获取并分析脚本类文件的语法特点;所述脚本类文件包括脚本文件以及具有语法定义的文件;
提取模块,用于针对分析后的语法特点提取至少一个识别点,所述识别点为每种脚本类文件独有的区别特征;
测试模块,用于将所述至少一个识别点在待测试用例中进行评估测试,判断是否为可用的识别点,若是,则将可用的识别点转换成识别规则并加入格式识别引擎完成识别;否则重复以上步骤直至提取到可用的识别点;
所述可用的识别点为评估测试结果中准确率和误报率达到预定阈值范围的识别点。
CN201610983857.9A 2016-11-09 2016-11-09 一种基于语法形式的脚本类文件格式识别方法和系统 Pending CN106845221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610983857.9A CN106845221A (zh) 2016-11-09 2016-11-09 一种基于语法形式的脚本类文件格式识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610983857.9A CN106845221A (zh) 2016-11-09 2016-11-09 一种基于语法形式的脚本类文件格式识别方法和系统

Publications (1)

Publication Number Publication Date
CN106845221A true CN106845221A (zh) 2017-06-13

Family

ID=59146296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610983857.9A Pending CN106845221A (zh) 2016-11-09 2016-11-09 一种基于语法形式的脚本类文件格式识别方法和系统

Country Status (1)

Country Link
CN (1) CN106845221A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1938679A (zh) * 2004-04-01 2007-03-28 瓦卡亚技术私人有限公司 用于程序执行的系统和方法
CN101960448A (zh) * 2008-02-29 2011-01-26 惠普开发有限公司 当前执行组件脚本的元素的识别
CN103559447A (zh) * 2013-11-15 2014-02-05 北京奇虎科技有限公司 一种基于病毒样本特征的检测方法、检测装置及检测系统
CN103577188A (zh) * 2013-10-24 2014-02-12 北京奇虎科技有限公司 防御跨站脚本攻击的方法及装置
CN104081377A (zh) * 2012-01-19 2014-10-01 微软公司 管理脚本文件依赖性和加载时间
CN105069355A (zh) * 2015-08-26 2015-11-18 厦门市美亚柏科信息股份有限公司 webshell变形的静态检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1938679A (zh) * 2004-04-01 2007-03-28 瓦卡亚技术私人有限公司 用于程序执行的系统和方法
CN101960448A (zh) * 2008-02-29 2011-01-26 惠普开发有限公司 当前执行组件脚本的元素的识别
CN104081377A (zh) * 2012-01-19 2014-10-01 微软公司 管理脚本文件依赖性和加载时间
CN103577188A (zh) * 2013-10-24 2014-02-12 北京奇虎科技有限公司 防御跨站脚本攻击的方法及装置
CN103559447A (zh) * 2013-11-15 2014-02-05 北京奇虎科技有限公司 一种基于病毒样本特征的检测方法、检测装置及检测系统
CN105069355A (zh) * 2015-08-26 2015-11-18 厦门市美亚柏科信息股份有限公司 webshell变形的静态检测方法和装置

Similar Documents

Publication Publication Date Title
CN106709345B (zh) 基于深度学习方法推断恶意代码规则的方法、系统及设备
US10033757B2 (en) Identifying malicious identifiers
US11218500B2 (en) Methods and systems for automated parsing and identification of textual data
CN105956180B (zh) 一种敏感词过滤方法
CN101266550B (zh) 一种恶意代码检测方法
CN109117634B (zh) 基于网络流量多视图融合的恶意软件检测方法及系统
CN110266675B (zh) 一种基于深度学习的xss攻击自动化检测方法
CN108063768B (zh) 基于网络基因技术的网络恶意行为识别方法及装置
CN110808968A (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN102999420B (zh) 基于dom的跨站脚本漏洞测试方法和系统
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
EP3703329B1 (en) Webpage request identification
CN103177215A (zh) 基于软件控制流特征的计算机恶意软件检测新方法
US10594655B2 (en) Classifying locator generation kits
CN112307473A (zh) 一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型
KR102196508B1 (ko) 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN103425931B (zh) 一种网页异常脚本检测方法及系统
CN106169050B (zh) 一种基于网页知识发现的PoC程序提取方法
CN101751530A (zh) 检测漏洞攻击行为的方法及设备
CN104751053A (zh) 移动智能终端软件的静态行为分析方法
CN107423285A (zh) 一种基于文本规则的公司简称识别方法及系统
CN109889471B (zh) 结构化查询语句sql注入检测方法和系统
CN103902906A (zh) 基于应用图标的移动终端恶意代码检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 150028 Building 7, Innovation Plaza, Science and Technology Innovation City, Harbin Hi-tech Industrial Development Zone, Harbin, Heilongjiang Province (838 Shikun Road)

Applicant after: Harbin antiy Technology Group Limited by Share Ltd

Address before: 506 room 162, Hongqi Avenue, Nangang District, Harbin Development Zone, Heilongjiang, 150090

Applicant before: Harbin Antiy Technology Co., Ltd.

CB02 Change of applicant information
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170613

WD01 Invention patent application deemed withdrawn after publication