CN108023868A

CN108023868A - 恶意资源地址检测方法和装置

Info

Publication number: CN108023868A
Application number: CN201610978043.6A
Authority: CN
Inventors: 林全智
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2018-05-11
Anticipated expiration: 2036-10-31
Also published as: WO2018077035A1; CN108023868B

Abstract

本发明涉及一种恶意资源地址检测方法和装置，该方法包括：获取待检测资源地址；获取所述待检测资源地址的字符特征；查询所述待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征；将所述字符特征和所述相关属性特征组合得到多维度特征；根据所述多维度特征判断所述待检测资源地址是否为恶意资源地址。本发明提供的恶意资源地址检测方法和装置，能够更加有效地检测出恶意资源地址。

Description

恶意资源地址检测方法和装置

技术领域

本发明涉及网络安全技术领域，特别是涉及一种恶意资源地址检测方法和装置。

背景技术

资源地址是用于表示网络上所存储资源的位置的标识，如URL(Uniform ResourceLocator，统一资源定位符)。将资源放置在网络中，通过资源地址就可以方便地访问和分享资源。但资源地址也会被一些人用作从事非法活动的媒介，链接到对用户不利的恶意资源，如仿冒网站或诈骗网站等，成为恶意资源地址。目前，检测恶意资源地址通常采用网络爬虫爬取待检测资源地址对应的网页内容，对网页内容进行分析得到相应的检测结果。

然而，由于网络爬虫爬取网页内容的方式很容易被避开，比如通过屏蔽网络爬虫网络地址避开，或者通过将恶意内容隐藏在网页的脚本或动画文件等动态资源中，导致网络爬虫无法爬取到网页内容，难以有效地检测恶意资源地址。

发明内容

基于此，有必要针对通过网络爬虫爬取网页内容难以有效地检测恶意资源地址的技术问题，提供一种恶意资源地址检测方法和装置。

一种恶意资源地址检测方法，所述方法包括：

获取待检测资源地址；

获取所述待检测资源地址的字符特征；

查询所述待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征；

将所述字符特征和所述相关属性特征组合得到多维度特征；

根据所述多维度特征判断所述待检测资源地址是否为恶意资源地址。

一种恶意资源地址检测装置，所述装置包括：

数据接入模块，用于获取待检测资源地址；

特征提取模块，用于获取所述待检测资源地址的字符特征；查询所述待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征；用于将所述字符特征和所述相关属性特征组合得到多维度特征；

检测模块，用于根据所述多维度特征判断所述待检测资源地址是否为恶意资源地址。

上述恶意资源地址检测方法和装置，利用统计得到的待检测资源地址的字符特征，以及查询恶意相关属性库得到的相关属性特征，组合形成代表待检测资源地址的多维度特征，再利用机器学习分类器对多维度特征进行分类，得到待检测资源地址是否为恶意资源地址的检测结果。结合了待检测资源地址自身的字符特征以及与待检测资源地址相应的相关属性，相比仅依赖于网络爬虫爬取待检测资源地址对应的资源进行恶意资源地址检测的方式，能够更加有效地检测出恶意资源地址。

附图说明

图1为一个实施例中恶意资源地址检测系统的应用环境图；

图2为一个实施例中服务器的内部结构示意图；

图3为一个实施例中恶意资源地址检测方法的流程示意图；

图4为一个实施例中将字符特征和相关属性特征组合得到多维度特征的步骤的流程示意图；

图5为一个实施例中根据漏报或误报的恶意资源地址更新恶意相关属性库的步骤的流程示意图；

图6为一个实施例中根据漏报或误报的恶意资源地址更新机器学习分类器的步骤的流程示意图；

图7为一个具体应用场景中恶意资源地址检测方法的流程示意图；

图8为一个实施例中恶意资源地址检测装置的结构框图；

图9为另一个实施例中恶意资源地址检测装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中恶意资源地址检测系统的应用环境图。参照图1，该恶意资源地址检测系统包括终端110和服务器120。终端110可用于将待检测资源地址发送至服务器120。服务器120可用于获取终端110发送的待检测资源地址；获取待检测资源地址的字符特征；查询待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征；将字符特征和相关属性特征组合得到多维度特征；根据多维度特征判断待检测资源地址是否为恶意资源地址。服务器120还可用于将待检测资源地址是否为恶意资源地址的恶意资源地址检测结果反馈至终端110。

图2为一个实施例中服务器的内部结构示意图。如图2所示，该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该服务器的非易失性存储介质存储有操作系统、数据库和恶意资源地址检测装置。数据库可包括恶意相关属性库、恶意资源地址库、非恶意资源地址库以及预设无恶意资源地址库。该恶意资源地址检测装置用于实现适用于服务器的一种恶意资源地址检测方法。该服务器的处理器用于提供计算和控制能力，支撑整个服务器的运行。该服务器的内存储器为非易失性存储介质中的恶意资源地址检测装置的运行提供环境，该内存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种恶意资源地址检测方法。该服务器的网络接口用于据以与外部的终端通过网络连接通信，比如接收终端发送的待检测资源地址，向终端反馈恶意资源地址检测结果等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3为一个实施例中恶意资源地址检测方法的流程示意图。本实施例主要以该方法应用于上述图1中恶意资源地址检测系统中的服务器120来举例说明。参照图3，该恶意资源地址检测方法具体包括如下步骤：

S302，获取待检测资源地址。

其中，待检测资源地址是需要检测是否为恶意资源地址的资源地址。资源地址则是标识资源在网络中位置的数据，比如URL或URI(Uniform Resource Identifier，统一资源标识符)。资源是指可在网络中存储和传输的数据，如网页或者网络文件。恶意资源地址是链接至恶意资源的资源地址，恶意资源如仿冒网站或者诈骗网站，恶意资源地址则可以是链接至仿冒网站或者诈骗网站的URL。仿冒网站是仿冒其它正规网站的网站，一般会植入恶意代码，该恶意代码执行时可搜集用户敏感信息，如银行账号和密码等。诈骗网站是通过虚假事实引导用户泄露用户敏感信息的网站，如中奖诈骗网站。

具体地，终端可在依据某资源地址发起资源访问请求时，将该资源地址作为待检测资源地址发送至服务器，由服务器获取该待检测资源地址。服务器也可以主动收集资源地址作为待检测资源地址。

S304，获取待检测资源地址的字符特征。

其中，待检测资源地址是若干字符组成的字符串，服务器可对组成该检测资源地址的字符进行统计分析，得到与该待检测资源地址相应的字符特征。统计分析可以是针对待检测资源地址中字符或字符所组成单词的统计分析。组成该检测资源地址的字符可以是字母或者符号，符号如“/”，“？”或者“.”等。待检测资源地址若包括标准前缀“http://”，获取待检测资源地址的字符特征时，可以统计包括该标准前缀的待检测资源地址的字符特征，也可以将标准前缀从待检测资源地址中剔除后再统计字符特征。

在一个实施例中，字符特征包括待检测资源地址的总长度，待检测资源地址中的单词总数，待检测资源地址是否包括预设可疑关键词，待检测资源地址中主机地址的长度与待检测资源地址的总长度的比值，以及，待检测资源地址中字符出现频率与恶意资源地址库中相应字符出现频率之间的KL散度中的一种或几种的组合。

其中，待检测资源地址的总长度可以是待检测资源地址所包括字符的总数量。预设可疑关键词是预先设定的单词，当待检测资源地址中包括该单词时表示待检测资源地址是恶意资源地址的概率大于0。因恶意资源地址中可能会混入与正常的资源地址相似的词汇，字符特征采用预设可疑关键词可以一定程度上反映待检测资源地址存在恶意的可能性。主机(host)地址是标识资源所在的网络中设备的地址，是待检测资源地址的一部分。KL散度(Kullback–Leibler divergence)又称为相对熵，是描述两个概率分布差异的量。

举例说明，假设待检测资源地址为“http://www.icloud-service-centre.com/ic/indexa.asp？b6mrhzlw”。该待检测资源地址的总长度可记为59，主机地址为“htt p://www.icloud-service-centre.com”，主机地址的长度为36，含有预设可疑关键词“icloud”。

S306，查询待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征。

具体地，服务器可获取待检测资源地址的相关属性，从而查询该相关属性所属的相关属性类型对应的恶意相关属性库，判断是否能够命中恶意相关属性库，根据是否命中恶意相关属性库的查询结果生成与待检测资源地址该类型相关属性相应的相关属性特征。恶意相关属性库可缓存在服务器内存中，提高查询效率。

其中，相关属性是与待检测资源地址相关的属性。相关属性特征是表征查询待检测资源地址的相关属性是否属于相应的恶意相关属性库的查询结果的特征，具体可以是二值化的数值，如0或者1。相关属性类型可以是一种或者多于一种，每种相关属性类型对应有相应的恶意相关属性库，该恶意相关属性库是恶意资源地址所具有的该种类型的相关属性构成的集合。恶意相关属性库可通过对已知的恶意资源地址进行大数据分析得到。

在一个实施例中，待检测资源地址的相关属性可以包括待检测资源地址的传播渠道信息、网页模板信息、网站注册人信息以及网际协议地址中的一种或几种的组合。

待检测资源地址的传播渠道信息是表示待检测资源地址传播途径的信息，具体可通过对待检测资源地址的传播路径进行回溯，可以得到待检测资源地址的传播渠道信息。由于恶意资源地址可能会通过某些特定工具发送，因此传播渠道信息可以一定程度上反映待检测资源地址存在恶意的可能性。

网页模板信息是表示待检测资源地址所对应网页的网页结构的信息。网页模板信息可以是表示网页结构的网页数据，也可以是根据表示网页结构的网页数据生成的哈希值。表示网页结构的网页数据如网页文件中的标签或者DOM(Document Object Model，文档对象模型)树。

网站注册人信息是注册待检测资源地址的域名时登记的注册人信息。网站注册人可以是公司或者个人。网站注册人信息可以包括网站注册人的名称、代码及其他注册信息，也可以是根据网站注册人的名称、代码及其他注册信息生成的哈希值。网际协议地址英文全称为Internet Protocol Address，即IP地址。网际协议地址是一种稀缺资源，恶意资源地址在网际协议地址上具有一定聚集性。

其中，步骤S304和步骤S306可以同时执行，也可以先后顺序。步骤S304可以在步骤S306之前或之后执行。

S308，将字符特征和相关属性特征组合得到多维度特征。

具体地，字符特征包括一种或多于一种的特征，相关属性特征也包括一种或多于一种的特征。服务器可按照预设的特征组合顺序，依次将字符特征和相关属性特征组合，得到多维度特征。多维度特征中每个维度表示一个字符特征或者相关属性特征。该多维度特征可表征待检测资源地址。

举例说明，假设待检测资源地址的总长度为53，该字符特征可记为53；若待检测资源地址中的单词总数为13，该字符特征可记为13；若待检测资源地址包括预设可疑关键词，该字符特征可记为1(若待检测资源地址不包括预设可疑关键词则可记为0)；待检测资源地址中主机地址的长度为12，该字符特征记为12；若待检测资源地址中主机地址的长度与所述待检测资源地址的总长度的比值为12/53；待检测资源地址的传播渠道信息、网页模板信息、网站注册人信息以及网际协议地址均命中相应的恶意相关属性库，这些相关属性特征可均记为1。则将这些字符特征和相关属性特征依次组合形成特征向量[53，13，1，12，12/53，1，1，1，1]。S310，根据多维度特征判断待检测资源地址是否为恶意资源地址。

具体地，服务器可根据多维度特征判断待检测资源地址是否为恶意资源地址。机器学习分类器是经过训练的机器学习算法模型。机器学习英文全称为Machine Learning，简称ML。机器学习分类器可通过样本学习具备分类能力，本实施例的机器学习分类器用于将由多维度特征表征的待检测资源地址划分到恶意资源地址和非恶意资源地址中的一类。非恶意资源地址是不指向恶意资源的资源地址。机器学习分类器可以采用SVM(SupportVector Machine，支持向量机)分类器、贝叶斯分类器或者神经网络模型等。实践中采用SVM分类器可以达到很好的效果。

具体地，服务器将多维度特征输入预先训练得到的机器学习分类器，由机器学习分类器对该多维度特征进行运算，输出恶意资源地址检测结果，该恶意资源地址检测结果表示待检测资源地址是否为恶意资源地址。训练机器学习分类器采用的多维度特征所包括的特征类型和特征顺序，与判断待检测资源地址是否为恶意资源地址时依据的多维度特征的特征类型和特征顺序一致。

在一个实施例中，服务器通过机器学习分类器并根据输入的多维度特征，计算出多维度特征所表征的待检测资源地址属于恶意资源地址的概率，并判断该概率是否大于条件阈值；若概率大于或等于条件阈值，则通过机器学习分类器输出表示待检测资源地址为恶意资源地址的恶意资源地址检测结果；若概率小于条件阈值，则通过机器学习分类器输出表示待检测资源地址为非恶意资源地址的恶意资源地址检测结果。条件阈值可以设置为0.8～0.98，具体可设置为0.95。

在一个实施例中，机器学习分类器可表示为f(x)：

其中，x表示向量形式的多维特征，用来表征待检测资源地址。m表示判断为恶意资源地址，比如可取1；n表示判断为非恶意资源地址，比如可取0或者-1等。函数g()表示逻辑回归函数。q表示条件阈值，比如可取0.8～0.98。w^Tx+b表示超平面，该超平面使得训练集在特征空间中两种类别的多维特征之间的间隔最大。w表示法向量，T表示转置，b表示系数。w和b通过训练获得。训练时求取w和b的问题可转化为凸二次规划问题求解，使得||w||最小化；||w||是w的二阶范数。

上述恶意资源地址检测方法，利用统计得到的待检测资源地址的字符特征，以及查询恶意相关属性库得到的相关属性特征，组合形成代表待检测资源地址的多维度特征，再利用机器学习分类器对多维度特征进行分类，得到待检测资源地址是否为恶意资源地址的检测结果。结合了待检测资源地址自身的字符特征以及与待检测资源地址相应的相关属性，相比仅依赖于网络爬虫爬取待检测资源地址对应的资源进行恶意资源地址检测的方式，能够更加有效地检测出恶意资源地址。

在一个实施例中，步骤S304和步骤S306之前，该恶意资源地址检测方法还包括：判断所述待检测资源地址为非恶意资源地址或可疑资源地址；当所述待检测资源地址为可疑资源地址时，执行步骤S304以及步骤S306。

具体地，服务器可获取待检测资源地址的相关属性特征和/或字符特征，将获取的相关属性特征和/或字符特征输入过滤分类器，由过滤分类器输出表示待检测资源地址是否为可疑资源地址的可疑资源地址检测结果。过滤分类器可采用贝叶斯分类器，优选可采用决策树分类器。服务器将判断为非可疑资源地址的待检测资源地址过滤掉，仅保留判断为可疑资源地址的待检测资源地址，进而将判断为可疑资源地址的待检测资源地址继续执行步骤S304、S306、S308以及S310，得到恶意资源地址检测结果。

其中，可疑资源地址是存在一定概率是恶意资源地址的资源地址。决策树分类器用于过滤掉确定为非恶意资源地址的待检测资源地址，且决策树分类器的处理效率很高，可以从数量庞大的待检测资源地址中过滤掉非恶意资源地址，减少负载，并提高检测恶意资源地址的准确率。决策树分类器的训练集包括恶意资源地址库和非恶意资源地址库，训练决策树分类器时可提取训练集中每个资源地址相应的多于一种类型的相关属性，并查询提取的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征，从而根据该相关属性特征训练决策树分类器。

本实施例中，将待检测资源地址进行过滤，可以过滤掉明显不属于恶意资源地址的待检测资源地址，减少负载，并提高检测恶意资源地址的准确率。

图4为一个实施例中步骤S308流程示意图。参照图4，该步骤S308具体包括如下步骤：

S402，获取当前检测的恶意资源地址类型。

其中，当前检测的恶意资源地址类型，是指当前执行恶意资源地址检测方法时需要检测的恶意资源地址的类型。恶意资源地址可分为不同的恶意资源地址类型，如仿冒网站类型和诈骗网站类型。仿冒网站类型又可以细分为仿冒购物网站类型、仿冒银行网站类型和仿冒指定官方网站等。对于不同的恶意资源地址类型，分别训练不同的机器学习分类器进行恶意资源地址检测。

S404，在字符特征和相关属性特征中选择与恶意资源地址类型适配的特征。

对于不同类型的恶意资源地址，不同的特征对恶意资源地址检测的贡献程度不同。服务器可预先存储恶意资源地址类型和相适配特征之间的对应关系，从而在获取到当前检测的恶意资源地址类型后，在字符特征和相关属性特征中，根据该对应关系选择与当前检测的恶意资源地址类型适配的特征。恶意资源地址类型和相适配特征之间的对应关系可根据先验知识进行设定，也可以通过对已知的恶意资源地址进行大数据分析得到。

S406，将选择的特征组合得到多维度特征。

具体地，服务器可按照预设的特征组合顺序，依次将选择的各个特征组合，得到多维度特征。在一个实施例中，服务器还可以根据与当前检测的恶意资源地址类型适配的特征间权重关系，对多维度特征中各维度的特征进行加权处理。通过加权处理使得多维度特征更加适合当前检测的恶意资源地址类型。

举例说明，对于中奖诈骗类型的资源地址，待检测资源地址是否包括预设可疑关键词的字符特征就不太能起作用，在选择特征时可将其剔除。而对于仿冒网站，待检测资源地址是否包括预设可疑关键词的字符特征就可以起到很好的作用，需要选择该特征构成多维度特征。

本实施例中，细分不同的恶意资源地址类型，对于每种恶意资源地址类型，全量的特征在检测恶意资源地址时未必都能起到作用，甚至会起到相反的作用，因此选择与当前检测的恶意资源地址类型适配的特征可以更加准确、有效地进行恶意资源地址检测。

在一个实施例中，该恶意资源地址检测方法还包括根据漏报或误报的恶意资源地址更新恶意相关属性库的步骤。本实施例中步骤S310中采用机器学习分类器判断。参照图5，该根据漏报或误报的恶意资源地址更新恶意相关属性库的步骤具体包括如下步骤：

S502，收集在采用机器学习分类器判断待检测资源地址是否为恶意资源地址时漏报或误报的恶意资源地址。

其中，漏报的恶意资源地址是指原本是恶意资源地址却通过机器学习分类器被判断为非恶意资源地址；误报的恶意资源地址是指原本是非恶意资源地址却通过机器学习分类器被判断为恶意资源地址。

具体地，漏报的恶意资源地址可通过人工举报途径得到，也可以采用不同的机器学习分类器且针对相同待检测资源地址的恶意资源地址检测结果进行交叉比对得到。比如相同的待检测资源地址通过机器学习分类器A、B和C，恶意资源地址检测结果依次是：恶意资源地址、非恶意资源地址以及非恶意资源地址，则可将该待检测资源地址作为机器学习分类器B和C漏报的恶意资源地址。误报的恶意资源地址可通过人工申诉或人工检查得到。

S504，获取漏报或误报的恶意资源地址的相关属性。具体地，服务器可通过大数据分析采集漏报或误报的恶意资源地址的相关属性。

S506，根据采集的相关属性更新相应的恶意相关属性库。

具体地，对于漏报的恶意资源地址，服务器可将采集的漏报的恶意资源地址的相关属性添加到相应的恶意相关属性库中。对于误报的恶意资源地址，服务器可将误报的恶意资源地址的相关属性从相应的恶意相关属性库中删除。

本实施例中，通过漏报或者误报的恶意资源地址，对恶意相关属性库进行更新，可以避免后续漏报或误报情况的蔓延，提高了检测恶意资源地址的准确率。

在一个实施例中，该恶意资源地址检测方法还包括根据漏报或误报的恶意资源地址更新机器学习分类器的步骤。参照图6，该根据漏报或误报的恶意资源地址更新机器学习分类器的步骤具体包括如下步骤：

S602，获取漏报或误报的恶意资源地址的字符特征。

其中，字符特征可以包括漏报或误报的恶意资源地址的总长度，漏报或误报的恶意资源地址中的单词总数，漏报或误报的恶意资源地址是否包括预设可疑关键词，漏报或误报的恶意资源地址中主机地址的长度与漏报或误报的恶意资源地址的总长度的比值，以及，漏报或误报的恶意资源地址中字符出现频率与恶意资源地址库中相应字符出现频率之间的KL散度中的一种或几种的组合。

S604，查询漏报或误报的恶意资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征。

具体地，服务器可获取漏报或误报的恶意资源地址的相关属性，从而查询该相关属性所属的相关属性类型对应的恶意相关属性库，判断是否能够命中恶意相关属性库，根据是否命中恶意相关属性库的查询结果生成与漏报或误报的恶意资源地址该类型相关属性相应的相关属性特征。

S606，将漏报或误报的恶意资源地址的字符特征以及与漏报或误报的恶意资源地址相应的相关属性特征组合得到相应的多维度特征。

具体地，服务器可按照预设的特征组合顺序，依次将字符特征和相关属性特征组合，得到多维度特征。在一个实施例中，服务器还可以获取当前的机器学习分类器所对应的恶意资源地址类型，从而在字符特征和相关属性特征中选择与该恶意资源地址类型适配的特征。

S608，根据与漏报或误报的恶意资源地址相应的多维度特征更新机器学习分类器。

本实施例中，产生漏报或误报的恶意资源地址时，根据漏报或误报的恶意资源地址对机器学习分类器进行更新，更新后检测恶意资源地址的准确率得以提升。

在一个实施例中，该恶意资源地址检测方法还包括：待检测资源地址被判断为恶意资源地址，将待检测资源地址加入恶意资源地址库中；其中，恶意资源地址库用于对针对恶意资源地址库中的恶意资源地址的资源访问请求进行拦截。

具体地，终端在根据某资源地址发起资源访问请求时，先查询该资源地址是否属于恶意资源地址库，若属于则对该资源访问请求进行拦截；若不属于则发出该资源访问请求。终端具体可从服务器或者本地查询某资源地址是否属于恶意资源地址库，本地的恶意资源地址库可从服务器定期同步得到。

本实施例中，将待检测资源地址加入恶意资源地址库中，从而可以根据该恶意资源地址库，对针对恶意资源地址库中的恶意资源地址的资源访问请求进行拦截，保证资源访问安全。

在一个实施例中，该恶意资源地址检测方法还包括：当待检测资源地址被判断为恶意资源地址，且待检测资源地址不属于预设无恶意资源地址库时，将待检测资源地址加入恶意资源地址库中；其中，恶意资源地址库用于对针对恶意资源地址库中的恶意资源地址的资源访问请求进行拦截。

具体地，服务器在判定待检测资源地址为恶意资源地址时，可继续判断待检测资源地址是否属于预设无恶意资源地址库。预设无恶意资源地址库是预设的用于防误报处理的非恶意资源地址构成的集合。若待检测资源地址属于预设无恶意资源地址库，则服务器不再处理该待检测资源地址。若待检测资源地址不属于预设无恶意资源地址库，则服务器可将待检测资源地址加入恶意资源地址库中，使得检测出的恶意资源地址可以用于对相应资源访问请求进行拦截。

本实施例中，由于机器学习分类器分类准确率难以达到100％，因此采用机器学习分类器检测出的恶意资源地址会存在误报的可能，而恶意资源地址库用来对资源访问请求进行拦截，发生误报可能会影响到正常的资源访问。而在待检测资源地址不属于预设无恶意资源地址库时，将待检测资源地址加入恶意资源地址库中，可以防止误报的发生，避免误报的恶意资源地址影响到正常的资源访问。

下面用一个具体应用场景来说明上述恶意资源地址检测方法的原理。参照图7，服务器可将恶意资源地址库和非恶意资源地址库作为训练样本库，利用恶意资源地址库中恶意资源地址的相关属性构成相关属性库，生成训练样本中资源地址的字符特征和相关属性特征，并按照相应的恶意资源地址类型从生成的字符特征和相关属性特征中选择特征构成多维度特征。服务器采用与训练样本中资源地址相应的多维度特征训练得到机器学习分类器。

进一步地，服务器接收传入的待检测资源地址，并采用决策树分类器过滤掉非恶意资源地址的待检测资源地址，对过滤后剩余的待检测资源地址提取字符特征和相关属性特征，按照当前检测的恶意资源地址类型从提取的字符特征和相关属性特征中选择特征构成多维度特征。服务器将与待检测资源地址相应的多维度特征输入与当前检测的恶意资源地址类型适配的机器学习分类器，由机器学习分类器输出待检测资源地址是否为恶意资源地址的恶意资源地址检测结果。

更进一步地，服务器可对恶意资源地址检测结果进行防误报处理。服务器具体可在待检测资源地址被判断为恶意资源地址时，判断待检测资源地址是否属于预设无恶意资源地址库，若不属于预设无恶意资源地址库则将待检测资源地址加入恶意资源地址。服务器还可以在待检测资源地址被判断为恶意资源地址时，判断待检测资源地址的指定特征是否符合无恶意资源地址的指定特征条件，如搜索量或者点击量或者热度超过预设值，若不符合则将待检测资源地址加入恶意资源地址。

服务器还可以根据人工申诉确定误报的恶意资源地址，根据人工举报确定漏报的恶意资源地址，从而根据误报和误报的资源地址更新相关属性库和机器学习分类器。服务器还可以通过比检测恶意资源地址时所用的机器学习分类器概率判断条件更为宽松的另一种机器学习分类器监控恶意资源地址，如条件阈值小于检测恶意资源地址时所用的机器学习分类器的条件阈值的另一种机器学习分类器，该另一种机器学习分类器的条件阈值比如可以是0.5。该另一种机器学习分类器判断待检测资源地址为恶意资源地址的准确率，低于检测恶意资源地址时所用的机器学习分类器判断待检测资源地址为恶意资源地址的准确率；该另一种机器学习分类器监控到恶意资源地址覆盖率，高于检测恶意资源地址时所用的机器学习分类器检测到恶意资源地址的覆盖率。通过另一种机器学习分类器监控恶意资源地址，可以发现更多的恶意资源地址，保证恶意资源地址检测的覆盖率。

图8为一个实施例中恶意资源地址检测装置800的结构框图。参照图8，该恶意资源地址检测装置800包括：数据接入模块810、特征提取模块820和检测模块830。

数据接入模块810，用于获取待检测资源地址。

特征提取模块820，用于获取待检测资源地址的字符特征。查询待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征。用于将字符特征和相关属性特征组合得到多维度特征。

检测模块830，用于根据多维度特征判断待检测资源地址是否为恶意资源地址。

上述恶意资源地址检测装置800，利用统计得到的待检测资源地址的字符特征，以及查询恶意相关属性库得到的相关属性特征，组合形成代表待检测资源地址的多维度特征，再利用机器学习分类器对多维度特征进行分类，得到待检测资源地址是否为恶意资源地址的检测结果。结合了待检测资源地址自身的字符特征以及与待检测资源地址相应的相关属性，相比仅依赖于网络爬虫爬取待检测资源地址对应的资源进行恶意资源地址检测的方式，能够更加有效地检测出恶意资源地址。

图9为另一个实施例中恶意资源地址检测装置800的结构框图。参照图9，该恶意资源地址检测装置800还包括：过滤模块840，用于判断所述待检测资源地址为非恶意资源地址或可疑资源地址；当所述待检测资源地址为可疑资源地址时通知特征提取模块820。

特征提取模块820还用于当待检测资源地址为可疑资源地址时，获取待检测资源地址的字符特征，以及查询待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征。

本实施例中，对待检测资源地址进行过滤，可以过滤掉明显不属于恶意资源地址的待检测资源地址，减少负载，并提高检测恶意资源地址的准确率。

在一个实施例中，待检测资源地址的相关属性包括待检测资源地址的传播渠道信息、网页模板信息、网站注册人信息以及网际协议地址中的一种或几种的组合。

在一个实施例中，特征提取模块820还用于获取当前检测的恶意资源地址类型；在字符特征和相关属性特征中选择与恶意资源地址类型适配的特征；将选择的特征组合得到多维度特征。

在一个实施例中，检测模块830还用于采用机器学习分类器并根据所述多维度特征判断所述待检测资源地址是否为恶意资源地址。

恶意资源地址检测装置800还包括：漏报或误报收集模块850和恶意相关属性库更新模块860。

漏报或误报收集模块850，用于收集在采用机器学习分类器判断待检测资源地址是否为恶意资源地址时漏报或误报的恶意资源地址。

恶意相关属性库更新模块860，用于获取漏报或误报的恶意资源地址的相关属性；根据采集的相关属性更新相应的恶意相关属性库。

在一个实施例中，恶意资源地址检测装置800还包括：机器学习分类器更新模块870，用于获取漏报或误报的恶意资源地址的字符特征；查询漏报或误报的恶意资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征；将漏报或误报的恶意资源地址的字符特征以及与漏报或误报的恶意资源地址相应的相关属性特征组合得到相应的多维度特征；根据与漏报或误报的恶意资源地址相应的多维度特征更新机器学习分类器。

在一个实施例中，恶意资源地址检测装置800还包括：恶意资源地址库管理模块880，用于当待检测资源地址被判断为恶意资源地址时，将待检测资源地址加入恶意资源地址库中；其中，恶意资源地址库用于对针对恶意资源地址库中的恶意资源地址的资源访问请求进行拦截。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种恶意资源地址检测方法，所述方法包括：

获取待检测资源地址；

获取所述待检测资源地址的字符特征；

将所述字符特征和所述相关属性特征组合得到多维度特征；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

判断所述待检测资源地址为非恶意资源地址或可疑资源地址；

当所述待检测资源地址为可疑资源地址时，执行所述获取所述待检测资源地址的字符特征的步骤，以及所述查询所述待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征的步骤。

3.根据权利要求1所述的方法，其特征在于，所述字符特征包括所述待检测资源地址的总长度，所述待检测资源地址中的单词总数，所述待检测资源地址是否包括预设可疑关键词，所述待检测资源地址中主机地址的长度与所述待检测资源地址的总长度的比值，以及，所述待检测资源地址中字符出现频率与恶意资源地址库中相应字符出现频率之间的KL散度中的一种或几种的组合。

4.根据权利要求1所述的方法，其特征在于，所述待检测资源地址的相关属性包括所述待检测资源地址的传播渠道信息、网页模板信息、网站注册人信息以及网际协议地址中的一种或几种的组合。

5.根据权利要求1所述的方法，其特征在于，所述将所述字符特征和所述相关属性特征组合得到多维度特征的步骤包括：

获取当前检测的恶意资源地址类型；

在所述字符特征和所述相关属性特征中选择与所述恶意资源地址类型适配的特征；

将选择的特征组合得到多维度特征。

6.根据权利要求1所述的方法，其特征在于，所述根据所述多维度特征判断所述待检测资源地址是否为恶意资源地址的步骤中采用机器学习分类器判断；

所述方法还包括：

收集在采用所述机器学习分类器判断所述待检测资源地址是否为恶意资源地址时漏报或误报的恶意资源地址；

获取所述漏报或误报的恶意资源地址的相关属性；

根据采集的所述相关属性更新相应的所述恶意相关属性库。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述漏报或误报的恶意资源地址的字符特征；

查询所述漏报或误报的恶意资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征；

将漏报或误报的恶意资源地址的所述字符特征以及与所述漏报或误报的恶意资源地址相应的所述相关属性特征组合得到相应的多维度特征；

根据与所述漏报或误报的恶意资源地址相应的所述多维度特征更新所述机器学习分类器。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述待检测资源地址被判断为恶意资源地址时，将所述待检测资源地址加入恶意资源地址库中；

其中，所述恶意资源地址库用于对针对所述恶意资源地址库中的恶意资源地址的资源访问请求进行拦截。

9.一种恶意资源地址检测装置，其特征在于，所述装置包括：

数据接入模块，用于获取待检测资源地址；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

过滤模块，用于判断所述待检测资源地址为非恶意资源地址或可疑资源地址；当所述待检测资源地址为可疑资源地址时通知所述特征提取模块；

所述特征提取模块还用于当所述待检测资源地址为可疑资源地址时，获取所述待检测资源地址的字符特征，以及查询所述待检测资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征。

11.根据权利要求9所述的装置，其特征在于，所述字符特征包括所述待检测资源地址的总长度，所述待检测资源地址中的单词总数，所述待检测资源地址是否包括预设可疑关键词，所述待检测资源地址中主机地址的长度与所述待检测资源地址的总长度的比值，以及，所述待检测资源地址中字符出现频率与恶意资源地址库中相应字符出现频率之间的KL散度中的一种或几种的组合。

12.根据权利要求9所述的装置，其特征在于，所述待检测资源地址的相关属性包括所述待检测资源地址的传播渠道信息、网页模板信息、网站注册人信息以及网际协议地址中的一种或几种的组合。

13.根据权利要求9所述的装置，其特征在于，所述特征提取模块还用于获取当前检测的恶意资源地址类型；在所述字符特征和所述相关属性特征中选择与所述恶意资源地址类型适配的特征；将选择的特征组合得到多维度特征。

14.根据权利要求9所述的装置，其特征在于，所述检测模块还用于采用机器学习分类器并根据所述多维度特征判断所述待检测资源地址是否为恶意资源地址；

所述装置还包括：

漏报或误报收集模块，用于收集在采用所述机器学习分类器判断所述待检测资源地址是否为恶意资源地址时漏报或误报的恶意资源地址；

恶意相关属性库更新模块，用于获取所述漏报或误报的恶意资源地址的相关属性；根据采集的所述相关属性更新相应的所述恶意相关属性库。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

机器学习分类器更新模块，用于获取所述漏报或误报的恶意资源地址的字符特征；查询所述漏报或误报的恶意资源地址的相关属性是否属于相应的恶意相关属性库，得到相应的相关属性特征；将漏报或误报的恶意资源地址的所述字符特征以及与所述漏报或误报的恶意资源地址相应的所述相关属性特征组合得到相应的多维度特征；根据与所述漏报或误报的恶意资源地址相应的所述多维度特征更新所述机器学习分类器。

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

恶意资源地址库管理模块，用于当所述待检测资源地址被判断为恶意资源地址时，将所述待检测资源地址加入恶意资源地址库中；其中，所述恶意资源地址库用于对针对所述恶意资源地址库中的恶意资源地址的资源访问请求进行拦截。