一种多态URL检测方法、装置及存储介质
技术领域
本发明涉及网络安全技术领域,特别涉及一种多态URL检测方法、装置及存储介质。
背景技术
随着计算机的更新换代及互联网的普及,恶意URL也相应发生着演变,无论是在数量上,还是种类上,都呈现出较高的增长趋势。传统的启发式检测方法,需要进行复杂的逻辑分析,或虚拟环境来动态执行URL链接,因此具有大概率、大范围误报的可能。
发明内容
基于上述问题,本申请提出了一种多态URL检测方法、装置及存储介质,通过聚类分析方法,对多态URL进行精确识别和分类,从而对每类URL进行检测,大大降低了误报的可能。
本申请中所述的多态URL,是指通过聚类分析得到的,具有相同格式,包括但不限于主机名(hostname)、路径(path)、参数(parameters)等等方面的内容具有一致性的,参数值不同的URL,所述URL包含但不限于挂马类URL。
首先,本发明提出一种多态URL检测方法,包括:
获取已知恶意URL并进行聚类分析,将具有相同格式,不同参数值的URL归一化处理,归为同一类别;
分别设定每个URL类别的灰度值及阈值,建立知识库;
获取待检测URL,对所述待检测URL进行解析;
判断所述待检测URL是否与知识库中任一URL类别匹配;若匹配,则根据知识库,确认所述待检测URL对应URL类别的灰度值,判断所述灰度值是否大于阈值,如果是,则判定所述待检测URL为恶意;否则,判定所述待检测URL非恶意;将检测结果规范化输出,并将待检测URL及检测结果存储到知识库中;
若不匹配,则对所述待检测URL进行常规检测,判断所述待检测URL是否为恶意,如果是,则将所述待检测URL作为新类别加入知识库。
所述的方法中,判断所述待检测URL是否与知识库中任一URL类别匹配,具体为:将所述待检测URL归一化处理,并与知识库中每一类别URL归一化处理结果对比,若相同,则匹配。
所述的方法中,将所述待检测URL作为新分类加入知识库,具体为:将所述待检测URL归一化处理结果作为新类别存储到知识库,并设定灰度值及阈值。
所述的方法中,所述灰度值,为根据每个URL类别中恶意URL的比例,确定的值;所述阈值,为根据每个URL类别的威胁程度,设定的灰度值的阈值。
上述的任一方法中,还包括:根据预设周期,对知识库中的URL进行检测,并根据检测结果调整灰度值及阈值。
本发明还相应提出一种多态URL检测装置,包括:存储器和处理器;
所述存储器可存储在处理器上运行的计算机程序;
所述处理器在运行计算机程序时,实现如下步骤:
获取已知恶意URL并进行聚类分析,将具有相同格式,不同参数值的URL归一化处理,归为同一类别;
分别设定每个URL类别的灰度值及阈值,建立知识库;
获取待检测URL,对所述待检测URL进行解析;
判断所述待检测URL是否与知识库中任一URL类别匹配;若匹配,则根据知识库,确认所述待检测URL对应URL类别的灰度值,判断所述灰度值是否大于阈值,如果是,则判定所述待检测URL为恶意;否则,判定所述待检测URL非恶意;将检测结果规范化输出,并将待检测URL及检测结果存储到知识库中;
若不匹配,则对所述待检测URL进行常规检测,判断所述待检测URL是否为恶意,如果是,则将所述待检测URL作为新类别加入知识库。
所述的装置中,判断所述待检测URL是否与知识库中任一URL类别匹配,具体为:将所述待检测URL归一化处理,并与知识库中每一类别URL归一化处理结果对比,若相同,则匹配。
所述的装置中,将所述待检测URL作为新分类加入知识库,具体为:将所述待检测URL归一化处理结果作为新类别存储到知识库,并设定灰度值及阈值。
所述的装置中,所述灰度值,为根据每个URL类别中恶意URL的比例,确定的值;所述阈值,为根据每个URL类别的威胁程度,设定的灰度值的阈值。
上述任一所述的装置中,还包括:根据预设周期,对知识库中的URL进行检测,并根据检测结果调整灰度值及阈值。
一种多态URL检测装置,包括:
知识库模块,获取已知恶意URL并进行聚类分析,将具有相同格式,不同参数值的URL归一化处理,归为同一类别;分别设定每个URL类别的灰度值及阈值,建立知识库;
获取模块,获取待检测URL,对所述待检测URL进行解析;
判断模块,判断所述待检测URL是否与知识库中任一URL类别匹配;若匹配,则根据知识库,确认所述待检测URL对应URL类别的灰度值,判断所述灰度值是否大于阈值,如果是,则判定所述待检测URL为恶意;否则,判定所述待检测URL非恶意;将检测结果规范化输出,并将待检测URL及检测结果存储到知识库中;
检测模块,若不匹配,则对所述待检测URL进行常规检测,判断所述待检测URL是否为恶意,如果是,则将所述待检测URL作为新类别加入知识库。
本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的多态URL检测方法。
本发明的优势在于,能够通过聚类分析的方法,可多态URL进行分类,并依据分类进行识别和判定,并且灰度值可以根据定期对URL的精确检测进行调整,同时根据某一类URL的恶意程度来修改阈值,实现了对未知URL的检测,同时大大降低了误报的可能。
本发明提出一种多态URL检测方法、装置及存储介质,所述方法包括:获取已知URL并进行分类,确认每一类URL的灰度及阈值;对待检测URL进行解析归类,根据所述类别URL的灰度值,得到待检测URL的灰度,并根据阈值,确定该URL是否为恶意;并将结果规范化输出;对于未检出的URL,则直接检测该URL。同时该方法还定期对所检测过的URL进行传统方法检测,来对灰度及阈值进行调整,提高检测结果的准确度。通过本发明方法及装置,能够通过对多态URL进行精确识别和分类,对每类URL进行检测,大大降低了误报的可能性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种多态URL检测方法流程图;
图2为本发明一种多态URL检测装置实施例结构示意图;
图3为本发明一种多态URL检测装置实施例结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明。
本申请中所述的多态URL,是指通过聚类分析得到的,具有相同格式,包括但不限于主机名(hostname)、路径(path)、参数(parameters)等等方面的内容具有一致性的,参数值不同的URL,所述URL包含但不限于挂马类URL,挂马类URL指的是能够进行恶意文件实体下载的URL。
首先,给出一种多态URL检测方法实施例,如图1所示,包括:
S101:获取已知恶意URL并进行聚类分析,将具有相同格式,不同参数值的URL归一化处理,归为同一类别;
S102:分别设定每个URL类别的灰度值及阈值,建立知识库;
灰度值是通过分析每一类多态URL中所有URL的恶意性所得到的该类URL的可信因子;阈值是根据该类URL的恶意性所确定的该类URL灰度的阈值;
S103:获取待检测URL,对所述待检测URL进行解析;
S104:判断所述待检测URL是否与知识库中任一URL类别匹配;若匹配,执行S105;否则,执行S108;
S105:根据知识库,确认所述待检测URL对应URL类别的灰度值;
S106:判断所述灰度值是否大于阈值,如果是,则判定所述待检测URL为恶意;否则;判定所述待检测URL非恶意;
S107:将检测结果规范化输出,并将待检测URL及检测结果存储到知识库中;
将检测结果规范化输出主要根据预先设定的输出格式,对检测结果进行输出;对于检测结果的存储,在实际操作中,可以将知识库中分为两部分,一部分存储预先收集的URL,一部分存储检测的结果,以提高匹配速度;
S108:对所述待检测URL进行常规检测,判断所述待检测URL是否为恶意,如果是,则将所述待检测URL作为新类别加入知识库。
所述的方法中,判断所述待检测URL是否与知识库中任一URL类别匹配,具体为:将所述待检测URL归一化处理,并与知识库中每一类别URL归一化处理结果对比,若相同,则匹配。
所述的方法中,将所述待检测URL作为新类别加入知识库,具体为:将所述待检测URL归一化处理结果作为新类别存储到知识库,并设定灰度值及阈值。
所述的方法中,所述灰度值,为根据每个URL类别中恶意URL的比例,确定的值;所述阈值,为根据每个URL类别的威胁程度,设定的灰度值的阈值。
上述的任一方法中,还包括:根据预设周期,对知识库中的URL进行检测,并根据检测结果调整灰度值及阈值。
该步骤实现知识库的的积累和灰度值的更新,目的是为了保证每类URL灰度值的准确性这个过程中,一旦某类多态URL的灰度值小于阈值,则该条多态URL的检出可能会发生误报,即不再对该多态URL进行检出,降低误报发生的概率。
以下通过构建的多态URL来举例说明:
URL1:"http://abc.com/abc?a=112&b=122",具有恶意性。
URL2:"http://abc.com/abc?a=223&b=233",具有恶意性。
…
URLn:"http://abc.com/abc?a=nnm&b=nmm",具有恶意性。
针对该类URL,归一化处理结果为"http://abc.com/abc?a=xxx&b=xxx",总数大于固定量,例如100,阈值为99%。如果当前所有URL都具有恶意性,该类灰度值为100%,则可对所有归一化处理结果为"http://abc.com/abc?a=xxx&b=xxx"的URL进行恶意性判定。同时,记录URLn,一旦发现URLn不具有恶意性,则直接调整灰度值,当该类URL的灰度值小于阈值时,则该类URL不可直接用归一化结果进行恶意性判定。
本发明还相应提出一种多态URL检测装置,如图2所示,包括:存储器201和处理器202;
所述存储器可存储在处理器上运行的计算机程序;
所述处理器在运行计算机程序时,实现如下步骤:
获取已知恶意URL并进行聚类分析,将具有相同格式,不同参数值的URL归一化处理,归为同一类别;
分别设定每个URL类别的灰度值及阈值,建立知识库;
获取待检测URL,对所述待检测URL进行解析;
判断所述待检测URL是否与知识库中任一URL类别匹配;若匹配,则根据知识库,确认所述待检测URL对应URL类别的灰度值,判断所述灰度值是否大于阈值,如果是,则判定所述待检测URL为恶意;否则,判定所述待检测URL非恶意;将检测结果规范化输出,并将待检测URL及检测结果存储到知识库中;
若不匹配,则对所述待检测URL进行常规检测,判断所述待检测URL是否为恶意,如果是,则将所述待检测URL作为新类别加入知识库。
所述的装置中,判断所述待检测URL是否与知识库中任一URL类别匹配,具体为:将所述待检测URL归一化处理,并与知识库中每一类别URL归一化处理结果对比,若相同,则匹配。
所述的装置中,将所述待检测URL作为新类别加入知识库,具体为:将所述待检测URL归一化处理结果作为新类别存储到知识库,并设定灰度值及阈值。
所述的装置中,所述灰度值,为根据每个URL类别中恶意URL的比例,确定的值;所述阈值,为根据每个URL类别的威胁程度,设定的灰度值的阈值。
上述任一所述的装置中,还包括:根据预设周期,对知识库中的URL进行检测,并根据检测结果调整灰度值及阈值。
一种多态URL检测装置,如图3所示,包括:
知识库模块301,获取已知恶意URL并进行聚类分析,将具有相同格式,不同参数值的URL归一化处理,归为同一类别;分别设定每个URL类别的灰度值及阈值,建立知识库;
获取模块302,获取待检测URL,对所述待检测URL进行解析;
判断模块303,判断所述待检测URL是否与知识库中任一URL类别匹配;若匹配,则根据知识库,确认所述待检测URL对应URL类别的灰度值,判断所述灰度值是否大于阈值,如果是,则判定所述待检测URL为恶意;否则,判定所述待检测URL非恶意;将检测结果规范化输出,并将待检测URL及检测结果存储到知识库中;
检测模块304,若不匹配,则对所述待检测URL进行常规检测,判断所述待检测URL是否为恶意,如果是,则将所述待检测URL作为新类别加入知识库。
本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的多态URL检测方法。
本发明的优势在于,能够通过聚类分析的方法,可多态URL进行分类,并依据分类进行识别和判定,并且灰度值可以根据定期对URL的精确检测进行调整,同时根据某一类URL的恶意程度来修改阈值,实现了对未知URL的检测,同时大大降低了误报的可能。
本发明提出一种多态URL检测方法、装置及存储介质,所述方法包括:获取已知URL并进行分类,确认每一类URL的灰度及阈值;对待检测URL进行解析归类,根据所述类别URL的灰度值,得到待检测URL的灰度,并根据阈值,确定该URL是否为恶意;并将结果规范化输出;对于未检出的URL,则直接检测该URL。同时该方法还定期对所检测过的URL进行传统方法检测,来对灰度及阈值进行调整,提高检测结果的准确度。通过本发明方法及装置,能够通过对多态URL进行精确识别和分类,对每类URL进行检测,大大降低了误报的可能性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。