CN110768943A

CN110768943A - 一种多态url检测方法、装置及存储介质

Info

Publication number: CN110768943A
Application number: CN201811100368.XA
Authority: CN
Inventors: 李增光; 童志明; 何公道
Original assignee: Harbin Antiy Technology Group Co Ltd
Current assignee: Harbin Antiy Technology Group Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2020-02-07

Abstract

本发明提出一种多态URL检测方法、装置及存储介质，所述方法包括：获取已知URL并进行分类，确认每一类URL的灰度及阈值；对待检测URL进行解析归类，根据对应类别URL的灰度值，得到待检测URL的灰度，并根据阈值，确定该URL是否为恶意；并将结果规范化输出；对于未检出的URL，则直接检测该URL。同时该方法还定期对所检测过的URL进行传统方法检测，来对灰度及阈值进行调整，提高检测结果的准确度。通过本发明方法及装置，能够通过对多态URL进行精确识别和分类，对每类URL进行检测，大大降低了误报的可能性。

Description

一种多态URL检测方法、装置及存储介质

技术领域

本发明涉及网络安全技术领域，特别涉及一种多态URL检测方法、装置及存储介质。

背景技术

随着计算机的更新换代及互联网的普及，恶意URL也相应发生着演变，无论是在数量上，还是种类上，都呈现出较高的增长趋势。传统的启发式检测方法，需要进行复杂的逻辑分析，或虚拟环境来动态执行URL链接，因此具有大概率、大范围误报的可能。

发明内容

基于上述问题，本申请提出了一种多态URL检测方法、装置及存储介质，通过聚类分析方法，对多态URL进行精确识别和分类，从而对每类URL进行检测，大大降低了误报的可能。

本申请中所述的多态URL，是指通过聚类分析得到的，具有相同格式，包括但不限于主机名(hostname)、路径(path)、参数(parameters)等等方面的内容具有一致性的，参数值不同的URL，所述URL包含但不限于挂马类URL。

首先，本发明提出一种多态URL检测方法，包括：

获取已知恶意URL并进行聚类分析，将具有相同格式，不同参数值的URL归一化处理，归为同一类别；

分别设定每个URL类别的灰度值及阈值，建立知识库；

获取待检测URL，对所述待检测URL进行解析；

判断所述待检测URL是否与知识库中任一URL类别匹配；若匹配，则根据知识库，确认所述待检测URL对应URL类别的灰度值，判断所述灰度值是否大于阈值，如果是，则判定所述待检测URL为恶意；否则，判定所述待检测URL非恶意；将检测结果规范化输出，并将待检测URL及检测结果存储到知识库中；

若不匹配，则对所述待检测URL进行常规检测，判断所述待检测URL是否为恶意，如果是，则将所述待检测URL作为新类别加入知识库。

所述的方法中，判断所述待检测URL是否与知识库中任一URL类别匹配，具体为：将所述待检测URL归一化处理，并与知识库中每一类别URL归一化处理结果对比，若相同，则匹配。

所述的方法中，将所述待检测URL作为新分类加入知识库，具体为：将所述待检测URL归一化处理结果作为新类别存储到知识库，并设定灰度值及阈值。

所述的方法中，所述灰度值，为根据每个URL类别中恶意URL的比例，确定的值；所述阈值，为根据每个URL类别的威胁程度，设定的灰度值的阈值。

上述的任一方法中，还包括：根据预设周期，对知识库中的URL进行检测，并根据检测结果调整灰度值及阈值。

本发明还相应提出一种多态URL检测装置，包括：存储器和处理器；

所述存储器可存储在处理器上运行的计算机程序；

所述处理器在运行计算机程序时，实现如下步骤：

分别设定每个URL类别的灰度值及阈值，建立知识库；

获取待检测URL，对所述待检测URL进行解析；

所述的装置中，判断所述待检测URL是否与知识库中任一URL类别匹配，具体为：将所述待检测URL归一化处理，并与知识库中每一类别URL归一化处理结果对比，若相同，则匹配。

所述的装置中，将所述待检测URL作为新分类加入知识库，具体为：将所述待检测URL归一化处理结果作为新类别存储到知识库，并设定灰度值及阈值。

所述的装置中，所述灰度值，为根据每个URL类别中恶意URL的比例，确定的值；所述阈值，为根据每个URL类别的威胁程度，设定的灰度值的阈值。

上述任一所述的装置中，还包括：根据预设周期，对知识库中的URL进行检测，并根据检测结果调整灰度值及阈值。

一种多态URL检测装置，包括：

知识库模块，获取已知恶意URL并进行聚类分析，将具有相同格式，不同参数值的URL归一化处理，归为同一类别；分别设定每个URL类别的灰度值及阈值，建立知识库；

获取模块，获取待检测URL，对所述待检测URL进行解析；

判断模块，判断所述待检测URL是否与知识库中任一URL类别匹配；若匹配，则根据知识库，确认所述待检测URL对应URL类别的灰度值，判断所述灰度值是否大于阈值，如果是，则判定所述待检测URL为恶意；否则，判定所述待检测URL非恶意；将检测结果规范化输出，并将待检测URL及检测结果存储到知识库中；

检测模块，若不匹配，则对所述待检测URL进行常规检测，判断所述待检测URL是否为恶意，如果是，则将所述待检测URL作为新类别加入知识库。

本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一所述的多态URL检测方法。

本发明的优势在于，能够通过聚类分析的方法，可多态URL进行分类，并依据分类进行识别和判定，并且灰度值可以根据定期对URL的精确检测进行调整，同时根据某一类URL的恶意程度来修改阈值，实现了对未知URL的检测，同时大大降低了误报的可能。

本发明提出一种多态URL检测方法、装置及存储介质，所述方法包括：获取已知URL并进行分类，确认每一类URL的灰度及阈值；对待检测URL进行解析归类，根据所述类别URL的灰度值，得到待检测URL的灰度，并根据阈值，确定该URL是否为恶意；并将结果规范化输出；对于未检出的URL，则直接检测该URL。同时该方法还定期对所检测过的URL进行传统方法检测，来对灰度及阈值进行调整，提高检测结果的准确度。通过本发明方法及装置，能够通过对多态URL进行精确识别和分类，对每类URL进行检测，大大降低了误报的可能性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种多态URL检测方法流程图；

图2为本发明一种多态URL检测装置实施例结构示意图；

图3为本发明一种多态URL检测装置实施例结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术方案作进一步详细的说明。

本申请中所述的多态URL，是指通过聚类分析得到的，具有相同格式，包括但不限于主机名(hostname)、路径(path)、参数(parameters)等等方面的内容具有一致性的，参数值不同的URL，所述URL包含但不限于挂马类URL，挂马类URL指的是能够进行恶意文件实体下载的URL。

首先，给出一种多态URL检测方法实施例，如图1所示，包括：

S101：获取已知恶意URL并进行聚类分析，将具有相同格式，不同参数值的URL归一化处理，归为同一类别；

S102：分别设定每个URL类别的灰度值及阈值，建立知识库；

灰度值是通过分析每一类多态URL中所有URL的恶意性所得到的该类URL的可信因子；阈值是根据该类URL的恶意性所确定的该类URL灰度的阈值；

S103：获取待检测URL，对所述待检测URL进行解析；

S104：判断所述待检测URL是否与知识库中任一URL类别匹配；若匹配，执行S105；否则，执行S108；

S105：根据知识库，确认所述待检测URL对应URL类别的灰度值；

S106：判断所述灰度值是否大于阈值，如果是，则判定所述待检测URL为恶意；否则；判定所述待检测URL非恶意；

S107：将检测结果规范化输出，并将待检测URL及检测结果存储到知识库中；

将检测结果规范化输出主要根据预先设定的输出格式，对检测结果进行输出；对于检测结果的存储，在实际操作中，可以将知识库中分为两部分，一部分存储预先收集的URL，一部分存储检测的结果，以提高匹配速度；

S108：对所述待检测URL进行常规检测，判断所述待检测URL是否为恶意，如果是，则将所述待检测URL作为新类别加入知识库。

所述的方法中，将所述待检测URL作为新类别加入知识库，具体为：将所述待检测URL归一化处理结果作为新类别存储到知识库，并设定灰度值及阈值。

该步骤实现知识库的的积累和灰度值的更新，目的是为了保证每类URL灰度值的准确性这个过程中，一旦某类多态URL的灰度值小于阈值，则该条多态URL的检出可能会发生误报，即不再对该多态URL进行检出，降低误报发生的概率。

以下通过构建的多态URL来举例说明：

URL1:"http://abc.com/abc？a＝112&b＝122"，具有恶意性。

URL2:"http://abc.com/abc？a＝223&b＝233"，具有恶意性。

…

URLn:"http://abc.com/abc？a＝nnm&b＝nmm"，具有恶意性。

针对该类URL，归一化处理结果为"http://abc.com/abc？a＝xxx&b＝xxx"，总数大于固定量，例如100，阈值为99％。如果当前所有URL都具有恶意性，该类灰度值为100％，则可对所有归一化处理结果为"http://abc.com/abc？a＝xxx&b＝xxx"的URL进行恶意性判定。同时，记录URLn，一旦发现URLn不具有恶意性，则直接调整灰度值，当该类URL的灰度值小于阈值时，则该类URL不可直接用归一化结果进行恶意性判定。

本发明还相应提出一种多态URL检测装置，如图2所示，包括：存储器201和处理器202；

所述存储器可存储在处理器上运行的计算机程序；

所述处理器在运行计算机程序时，实现如下步骤：

分别设定每个URL类别的灰度值及阈值，建立知识库；

获取待检测URL，对所述待检测URL进行解析；

所述的装置中，将所述待检测URL作为新类别加入知识库，具体为：将所述待检测URL归一化处理结果作为新类别存储到知识库，并设定灰度值及阈值。

一种多态URL检测装置，如图3所示，包括：

知识库模块301，获取已知恶意URL并进行聚类分析，将具有相同格式，不同参数值的URL归一化处理，归为同一类别；分别设定每个URL类别的灰度值及阈值，建立知识库；

获取模块302，获取待检测URL，对所述待检测URL进行解析；

判断模块303，判断所述待检测URL是否与知识库中任一URL类别匹配；若匹配，则根据知识库，确认所述待检测URL对应URL类别的灰度值，判断所述灰度值是否大于阈值，如果是，则判定所述待检测URL为恶意；否则，判定所述待检测URL非恶意；将检测结果规范化输出，并将待检测URL及检测结果存储到知识库中；

检测模块304，若不匹配，则对所述待检测URL进行常规检测，判断所述待检测URL是否为恶意，如果是，则将所述待检测URL作为新类别加入知识库。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本发明，本领域普通技术人员知道，本发明有许多变形和变化而不脱离本发明的精神，希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims

1.一种多态URL检测方法，其特征在于，包括：

分别设定每个URL类别的灰度值及阈值，建立知识库；

获取待检测URL，对所述待检测URL进行解析；

2.如权利要求1所述的方法，其特征在于，判断所述待检测URL是否与知识库中任一URL类别匹配，具体为：将所述待检测URL归一化处理，并与知识库中每一类别URL归一化处理结果对比，若相同，则匹配。

3.如权利要求1所述的方法，其特征在于，将所述待检测URL作为新类别加入知识库，具体为：将所述待检测URL归一化处理结果作为新类别存储到知识库，并设定灰度值及阈值。

4.如权利要求3所述的方法，其特征在于，所述灰度值，为根据每个URL类别中恶意URL的比例确定的值；所述阈值，为根据每个URL类别的威胁程度，设定的灰度值的阈值。

5.如权利要求1至4任一所述的方法，其特征在于，还包括：根据预设周期，对知识库中的URL进行检测，并根据检测结果调整灰度值及阈值。

6.一种多态URL检测装置，其特征在于，包括：存储器和处理器；

所述存储器可存储在处理器上运行的计算机程序；

所述处理器在运行计算机程序时，实现如下步骤：

分别设定每个URL类别的灰度值及阈值，建立知识库；

获取待检测URL，对所述待检测URL进行解析；

7.如权利要求6所述的装置，其特征在于，判断所述待检测URL是否与知识库中任一URL类别匹配，具体为：将所述待检测URL归一化处理，并与知识库中每一类别URL归一化处理结果对比，若相同，则匹配。

8.如权利要求6所述的装置，其特征在于，将所述待检测URL作为新类别加入知识库，具体为：将所述待检测URL归一化处理结果作为新类别存储到知识库，并设定灰度值及阈值。

9.如权利要求8所述的装置，其特征在于，所述灰度值，为根据每个URL类别中恶意URL的比例，确定的值；所述阈值，为根据每个URL类别的威胁程度，设定的灰度值的阈值。

10.如权利要求6至9任一所述的装置，其特征在于，还包括：根据预设周期，对知识库中的URL进行检测，并根据检测结果调整灰度值及阈值。

11.一种多态URL检测装置，其特征在于，包括：

获取模块，获取待检测URL，对所述待检测URL进行解析；

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的多态URL检测方法。