CN108183902B

CN108183902B - 一种恶意网站的识别方法和装置

Info

Publication number: CN108183902B
Application number: CN201711463995.5A
Authority: CN
Inventors: 郭峰; 赵发全; 李晓波; 尹露
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2021-10-22
Anticipated expiration: 2037-12-28
Also published as: CN108183902A

Abstract

本发明实施例提供了一种恶意网站的识别方法和装置，所述方法包括：在服务器侧对至少两种识别引擎进行识别能力检测；当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理；采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站。通过本发明实施例，能够自动检测识别引擎的识别能力，并对识别能力不满足预设条件的识别引擎进行优化处理，提升了识别引擎的可靠性，且采用优化处理后的至少两种识别引擎进行交叉识别，保证了恶意网站识别的准确性。

Description

一种恶意网站的识别方法和装置

技术领域

本发明涉及网络安全技术领域，特别是涉及一种恶意网站的识别方法和装置。

背景技术

恶意网站是指故意在计算机系统上执行恶意任务的病毒、蠕虫和特洛伊木马等的非法网站，在通常情况下，恶意网站是以某种网页形式让人们正常浏览页面内容，同时非法获取用户计算机中的各种数据。

如今，恶意网站是影响用户网络环境的主要因素，对恶意网站的识别也已经成为保证网络安全的重要工作之一。在现有技术中，可以通过调用识别引擎的接口，采用识别引擎对恶意网站进行识别。

然而，随着恶意网站的不断更新，识别引擎无法及时进行更新，导致误报率较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种恶意网站的识别方法和相应的一种恶意网站的识别装置。

第一方面，本发明实施例提供了一种恶意网站的识别方法，所述方法包括：

在服务器侧对至少两种识别引擎进行识别能力检测；

当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理；

采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站。

可选地，所述在服务器侧对至少两种识别引擎进行识别能力检测的步骤包括：

采用至少两种识别引擎对多个已知网站进行识别；其中，所述多个已知网站为可疑恶意网站；

针对每种识别引擎，确定对所述多个已知网站进行识别的误报率；

当所述误报率大于阈值时，判定所述误报率对应的识别引擎的识别能力不满足预设条件。

可选地，所述采用至少两种识别引擎对多个已知网站进行识别的步骤包括：

分别获取多个已知网站的基础数据；

调用至少两种识别引擎的接口，对所述基础数据进行检测；

当检测到所述基础数据命中预设的恶意规则时，则识别所述基础数据对应的已知网站为恶意网站。

可选地，所述当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理的步骤包括：

确定所述识别能力不满足预设条件的识别引擎的引擎类型；其中，所述引擎类型包括规则引擎或者学习引擎；

当所述引擎类型为规则引擎时，对所述规则引擎增加识别规则；

当所述引擎类型为学习引擎时，对所述学习引擎增加样本数据。

可选地，所述当所述引擎类型为规则引擎时，对所述规则引擎增加识别规则的步骤包括：

从所述多个已知网站中，确定目标网站；其中，所述目标网站为所述识别能力不满足预设条件的识别引擎误报的网站；

依据所述目标网站的基础数据，生成对应的识别规则；

将所述识别规则加入所述识别能力不满足预设条件的识别引擎中。

可选地，所述当所述引擎类型为学习引擎时，对所述学习引擎增加样本数据的步骤包括：

从所述目标网站的基础数据中提取部分基础数据，作为样本数据；

将所述样本数据加入所述所述识别能力不满足预设条件的识别引擎中，以采用所述样本数据进行更新。

可选地，所述采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站的步骤包括：

接收客户端侧发送的识别请求，所述识别请求包括未知网站的标识；

在所述服务器侧采用所述优化处理后的至少两种识别引擎对所述未知网站进行识别。

基于所述优化处理后的至少两种识别引擎，对客户端侧的至少两种识别引擎进行优化同步，并在所述客户端侧采用所述优化同步后至少两种识别引擎对未知网站进行识别。

可选地，还包括：

当识别所述未知网站为恶意网站时，在所述客户端侧对所述未知网站进行拦截。

可选地，所述多个已知网站包括被举报的网站，所述基础数据至少包括如下一项：

URL、HTML文本、标识图片。

第二方面，本发明实施例还提供了一种恶意网站的识别装置，所述装置包括：

识别能力检测模块，适于在服务器侧对至少两种识别引擎进行识别能力检测；

优化处理模块，适于当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理；

未知网站识别模块，适于采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站。

可选地，所述识别能力检测模块包括：

已知网站识别子模块，适于采用至少两种识别引擎对多个已知网站进行识别；其中，所述多个已知网站为可疑恶意网站；

误报率确定子模块，适于针对每种识别引擎，确定对所述多个已知网站进行识别的误报率；

预设条件判定子模块，适于当所述误报率大于阈值时，判定所述误报率对应的识别引擎的识别能力不满足预设条件。

可选地，所述已知网站识别子模块包括：

基础数据获取单元，适于分别获取多个已知网站的基础数据；

基础数据检测单元，适于调用至少两种识别引擎的接口，对所述基础数据进行检测；

恶意网站识别单元，适于当检测到所述基础数据命中预设的恶意规则时，则识别所述基础数据对应的已知网站为恶意网站。

可选地，所述优化处理模块包括：

引擎类型确定子模块，适于确定所述识别能力不满足预设条件的识别引擎的引擎类型；其中，所述引擎类型包括规则引擎或者学习引擎；

识别规则增加子模块，适于当所述引擎类型为规则引擎时，对所述规则引擎增加识别规则；

样本数据增加子模块，适于当所述引擎类型为学习引擎时，对所述学习引擎增加样本数据。

可选地，所述识别规则增加子模块包括：

目标网站确定单元，适于从所述多个已知网站中，确定目标网站；其中，所述目标网站为所述识别能力不满足预设条件的识别引擎误报的网站；

识别规则生成单元，适于依据所述目标网站的基础数据，生成对应的识别规则；

识别规则加入单元，适于将所述识别规则加入所述识别能力不满足预设条件的识别引擎中。

可选地，所述样本数据增加子模块包括：

样本数据提取单元，适于从所述目标网站的基础数据中提取部分基础数据，作为样本数据；

样本数据加入单元，适于将所述样本数据加入所述所述识别能力不满足预设条件的识别引擎中，以采用所述样本数据进行更新。

可选地，所述未知网站识别模块包括：

识别请求接收子模块，适于接收客户端侧发送的识别请求，所述识别请求包括未知网站的标识；

服务器侧识别子模块，适于在所述服务器侧采用所述优化处理后的至少两种识别引擎对所述未知网站进行识别。

可选地，所述未知网站识别模块包括：

客户端侧识别子模块，适于基于所述优化处理后的至少两种识别引擎，对客户端侧的至少两种识别引擎进行优化同步，并在所述客户端侧采用所述优化同步后至少两种识别引擎对未知网站进行识别。

可选地，还包括：

未知网站拦截模块，适于当识别所述未知网站为恶意网站时，通过所述客户端侧对所述未知网站进行拦截。

URL、HTML文本、标识图片。

第三方面，本发明实施例提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

在本发明实施例中，通过在服务器侧对至少两种识别引擎进行识别能力检测，当检测到识别能力不满足预设条件时，对至少两种识别引擎进行优化处理，采用优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断未知网站是否为恶意网站，能够自动检测识别引擎的识别能力，并对识别能力不满足预设条件的识别引擎进行优化处理，提升了识别引擎的可靠性，且采用优化处理后的至少两种识别引擎进行交叉识别，保证了恶意网站识别的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种恶意网站的识别方法实施例一的步骤流程图；

图2示出了根据本发明一个实施例的一种恶意网站的识别方法实施例二的步骤流程图；

图3示出了根据本发明一个实施例的一种恶意网站的识别装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参考图1，示出了根据本发明一个实施例的一种恶意网站的识别方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，在服务器侧对至少两种识别引擎进行识别能力检测；

在实际应用中，用户可以通过安装第三方安全应用程序进行恶意网站识别，第三方安全应用程序可以采用多种类型的识别引擎对恶意网站进行交叉识别，从而避免采用单个识别引擎进行识别而导致误报，提升了对恶意网站识别的准确性。

作为一种示例，多种类型的识别引擎可以包括规则引擎、学习引擎

其中，规则引擎可以采用预先存储在规则库中的识别规则来对恶意网站进行识别，识别规则可以包括针对多种类型的基础数据的识别规则，如针对URL的识别规则、针对HTML(HyperText Markup Language，超级文本标记语言)文本的识别规则等，其可以通过人工添加，也可以自动生成。

学习引擎可以采用预先建立的识别模型来对恶意网站进行识别，识别模型可以为通过对基础数据进行学习训练建立的模型，其可以通过机器学习的方式进行训练，在学习方式上可以包括监督式学习、非监督式学习、半监督式学习、强化学习等，在学习算法的种类方面，可以包括回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、基于核的算法、聚类算法、分类算法、关联规则算法、卷积神经网络、深度学习、降低维度算法、集成算法等。

在具体实现中，本发明实施例可以采用至少两种识别引擎对已知的恶意网站进行识别，进而根据每种识别引擎的识别结果判断识别引擎的识别能力，以实现对至少两个识别引擎的识别能力检测。

在本发明一种优选实施例中，步骤101可以包括如下子步骤：

子步骤S11，采用至少两种识别引擎对多个已知网站进行识别；

其中，多个已知网站可以为可疑恶意网站，已知网站可以包括被举报的网站，如被用户、合作方举报为恶意网站的网站，还可以包括随机抽取的多种类型恶意网站。

在获取多个已知网站以后，本发明实施例可以调用至少两种识别引擎的接口，采用至少两种识别引擎对多个已知网站进行识别，以使至少两种识别引擎判断已知网站是否为恶意网站。

在本发明一种优选实施例中，子步骤S11可以包括如下子步骤：

子步骤S111，分别获取多个已知网站的基础数据；

作为一种示例，基础数据至少可以包括如下一项：

URL、HTML文本、标识图片。

具体的，本发明实施例可以先获取已知网站的域名，在全网检索包含已知网站域名的URL，然后可以采用网络爬虫(web crawler)采集URL对应网页的HTML文本，并可以调用浏览器打开URL对应的网页，然后生成截图指令，对该网页进行截图操作，以获得标识图片。

子步骤S112，调用至少两种识别引擎的接口，对所述基础数据进行检测；

在获得基础数据后，本发明实施例可以分别调用至少两种识别引擎的接口，分别采用至少两种识别引擎检测基础数据是否命中恶意规则。

例如，当基础数据包括已知网站的URL时，规则引擎可以从已知网站的URL中提取出关键字段，如URL为“http://b.com:8080/？src＝lm&ls＝n7&au＝8i/readme.asp”，则提取出关键字段为“http://:8080/？au＝&ls＝&src＝/”，在预置的规则库中匹配URL的关键字段，当匹配成功时，则判定对该基础数据是否命中恶意规则。

作为一种优选示例，由于针对每个已知网站，从中获取的每种基础数据可以包括多个，如每个已知网站存在多个URL，本发明实施例可以针对每个已知网站，计算命中恶意规则的基础数据占多个基础数据的比例，当该比例大于阈值时，则可以判定该已知网站的基础数据命中恶意规则。

例如，某个已知网站的基础数据包括多个URL，则可以从多个URL中提取出路径集合，然后将路径集合中路径与规则库中预先存储的路径进行匹配，确定路径集合与规则库中重复路径，并计算重复路径占路径集合的比例，当该比例大于阈值时，则判定该已知网站的URL命中恶意规则。

子步骤S113，当检测到所述基础数据命中预设的恶意规则时，则识别所述基础数据对应的已知网站为恶意网站。

当检测到已知网站的基础数据命中恶意规则时，则识别该已知网站为恶意网站，即识别引擎对已知网站识别不存在误报。

当检测到已知网站的基础数据未命中恶意规则时，则识别该已知网站不为恶意网站，即识别引擎对已知网站识别存在误报。

子步骤S12，针对每种识别引擎，确定对所述多个已知网站进行识别的误报率；

在对已知网站进行识别后，本发明实施例可以对识别结果进行汇总，针对每种识别引擎，确定其对多个已知网站识别失败的网站，进而计算该识别失败的网站占多个已知网站的比例，将该比例作为识别引擎的误报率。

例如，在100个已知网站中，识别引擎将30个网站识别为恶意网站，将70个网站识别为非恶意网站，则该识别引擎的误报率为70％。

子步骤S13，当所述误报率大于阈值时，判定所述误报率对应的识别引擎的识别能力不满足预设条件。

当检测到误报率大于阈值时，如误报率大于40％，则可以判定该误报率对应的识别引擎的识别能力不满足预设条件，即识别引擎对恶意网站识别的覆盖度低，识别效果不佳，该识别引擎需要进行优化。

步骤102，当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理；

当检测到识别引擎的识别能力不满足预设条件是，则可以对识别能力不满足预设条件的识别引擎进行优化处理，如对规则引擎增加规则、对学习模型增加样本数据。

步骤103，采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站。

在对识别引擎进行优化处理后，当检测到客户端针对未知网站的访问请求时，可以从未知网站中获取特征信息，然后调用优化处理后的至少两种识别引擎的接口，分别采用每种识别引擎对未知网站的特征信息进行识别，以识别未知网站是否为恶意网站。

作为一种示例，特征信息可以包括URL、HTML文本、标识图片。

例如，可以获取未知网站的主页的URL，依据URL采集主页的HTML文本，在从HTML文本中查找目标标签，如title、keyword等标签，然后获取目标标签对应的属性值，采用规则引擎在规则库中对该属性值进行匹配，以识别该未知网站为恶意网站。

又如，可以获取未知站点的主页的URL，依据URL进行未知站点的主页，然后对主页进行截图操作，得到标识图片，采用学习引擎将该标识图片输入识别模型，以识别该未知网站为恶意网站。

当任一种识别引擎识别该为未知网站为恶意网站时，则可以判定该位置网站为恶意网站，从而实现了多种识别引擎对恶意网站的交叉识别，避免某一种识别引擎失准而导致对恶意网站的误报。

在一种优选实施例中，在对未知网站进行识别后，还可以将识别结果信息发送至防误报系统，防误报系统可以采用如下方式进行防误报检测：

接收识别结果信息，所述识别结果信息包括通过目标规则识别出的恶意网站的标识信息；基于所述标识信息，获取所述恶意网站的多维特征信息；确定符合误报规则的特征信息；获取所述符合误报规则的特征信息的数量或者比例；若所述数量大于或等于第一预设阈值和/或所述比例大于或等于第二预设阈值，则判定所述识别结果信息为误报的识别结果；若所述数量小于第一预设阈值和/或所述比例小于第二预设阈值，则判定所述识别结果信息不为误报的识别结果。

在具体实现中，防误报系统可以根据全网的搜索数据结合预设的黑名单数据，进行数据挖掘，得到当前恶意网站的特征信息。

在本发明实施例中，该特征信息可以是多个维度的特征信息，作为一种示例，该特征信息可以包括通过查询获得的属性信息、通过统计得到的统计信息等。

进一步的，作为一种示例，该属性信息可以包括如下信息的至少一种：所述该恶意网站的URL信息、网络内容服务商ICP(Internet Content Provider，网络内容服务商)备案信息、WHOIS信息等。

该统计信息可以包括如下信息的至少一种：

该恶意网站的页面浏览量PV和/或独立访客量UV；

该恶意网站的服务器IP地址下的黑站数量和/或黑站比例；

该恶意网站的子站数量和/或URL数量；

该恶意网站中进入搜索引擎的实际记录数；

获取WHOIS注册时间后，计算的所述WHOIS注册时间距离当前时间的注册时长。

需要说明的是，上述的特征信息只是本发明实施例的一种示例说明，本领域技术人员根据实际需求定义其他维度的特征信息均是可以的，本发明实施例对此不作限定。

在一种实施方式中，可以采用如下方式确定符合误报规则的特征信息：

方式一：判断所述属性信息是否在预置的白名单列表中；若是，则判定所述属性信息符合误报规则；若否，则判定所述属性信息不符合误报规则，例如，可以包括如下情况的至少一种或结合：

(1)判断所述ICP备案信息是否在预置的ICP备案白名单列表中；

在具体实现中，防误报系统中可以设置有ICP备案白名单列表，其中包含了通过验证的ICP备案信息。

如果恶意网站的ICP备案信息在该ICP备案白名单列表中，则表示该恶意网站实际为通过验证的网站，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。如果恶意网站的ICP备案信息不在该ICP备案白名单列表中，则该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(2)判断所述WHOIS信息是否在预置的WHOIS注册白名单列表中；

在具体实现中，防误报系统中可以设置有WHOIS注册白名单列表，其中包含了通过验证的域名信息。

如果恶意网站的WHOIS信息在该WHOIS注册白名单列表中，则表示该恶意网站的域名实际为通过验证的域名，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。如果恶意网站的WHOIS信息不在该WHOIS注册白名单列表中，则该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(3)判断所述URL信息是否在预置的网址白名单列表中。

在具体实现中，防误报系统中可以设置有网址白名单列表，其中包含了采集的知名站点的网址信息。

如果恶意网站的URL信息在该网址白名单列表中，则表示该恶意网站实际为知名网站，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。如果恶意网站的URL信息不在该网址白名单列表中，则该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

方式二：根据所述统计信息以及对应的统计阈值的比较结果，确定所述统计信息是否符合误报规则，例如，可以包括如下情况的至少一种或结合：

(4)若所述页面浏览量大于预设浏览量阈值，和/或，所述独立访客量大于预设独立访客量阈值，则判定所述统计信息符合误报规则。

具体的，如果该恶意网站的PV和/或UV数据都较大，大于预设的阈值的情况下，表示该网站的访问量大，受欢迎的程度较高，则其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果PV或者UV数据都较低，则表示该网站受欢迎的程度较低，则该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(5)当所述服务器IP地址下的黑站数量小于预设黑站数量阈值，和/或，所述黑站比例小于预设比例值，则判定所述统计信息符合误报规则；

在具体实现中，可以设置网站黑名单列表，根据恶意网站的标识信息可以获取恶意网站下的所有子站和/或URL的信息，并将该子站和/或URL的信息与网站黑名单列表进行匹配，如果存在匹配项，则将匹配的子站或者URL作为黑站，匹配完成以后，可以计算黑站的数量，并根据黑站的数量与该恶意网站的总子站数量，计算黑站比例。

如果该黑站数量和/或黑站比例都较小，小于预设的阈值的情况下，表示该网站为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果该黑站数量和/或黑站比例都较大，则表示该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(6)当所述子站数量大于预设的子站阈值，和/或，所述URL数量大于预设的URL阈值，则判定所述统计信息符合误报规则；

如果该恶意网站下的子站数量和/或URL数量都较大，大于预设的阈值的情况下，表示该恶意网站的结构比较复杂，模仿难度大，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果恶意网站下的子站数量和/或URL数量都较少，表示该恶意网站的结构比较简单，模仿难度小，则表示该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(7)当所述进入搜索引擎的实际记录数大于预设的记录数阈值，则判定所述统计信息符合误报规则；

具体的，进入搜索引擎的实际记录数可以为该网站或其子站被搜索引擎抓取的记录的数量。如果该恶意网站下进入搜索引擎的实际记录数较大，大于预设的阈值的情况下，表示该恶意网站为比较受欢迎的网站，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果恶意网站下的进入搜索引擎的实际记录数较少，则表示该恶意网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

(8)若所述注册时长大于预设的时间阈值，则判定所述统计信息符合误报规则。

具体的，注册时长大于预设的时间阈值的网站，表示其注册时间比较早，通常注册时间比较早的网站很难被攻击，所以如果该恶意网站下的注册时长大于预设的时间阈值，表示该网站注册时间比较早，其为恶意网站的概率比较低，即其识别结果信息为误判的结果的可能性比较大，符合误报规则。否则，如果恶意网站下的注册时长小于或等于预设的时间阈值，表示该网站注册时间比较晚，则表示该网站确认为恶意网站的概率比较大，即针对恶意网站的识别结果信息为误报的结果的可能性较低，不符合误报规则。

需要说明的是，本发明实施例并不限于上述的特征信息的判断方式，本领域技术人员根据实际需求定义其他与特征信息匹配的误报规则均是可以的，本发明实施例对此不作限定。

为了提高防误报系统的检测准确度，可以结合上述特征信息中的至少两种特征信息(包括全部)的判断结果进行最终的防误报判断，例如，如果上述(1)-(8)的情况中，可以设定阈值，当上述八种判断方式中，判定符合误报规则的特征信息的数量或者比例超过该阈值，才判定该识别结果信息为误判的结果，如果低于阈值，则判定该识别结果信息不为误判的结果。

防误报系统进行防误报检测得到检测结果以后，可以将该检测结果返回该目标规则对应的客户端和/或服务器，以通知客户端和/或服务器其采用目标规则进行识别得到的识别结果是否存在误报。

在本发明实施例中，通过在服务器侧对至少两种识别引擎进行识别能力检测，当检测到识别能力不满足预设条件时，对至少两种识别引擎进行优化处理，采用优化处理后的至少两种识别引擎对未知网站进行识别，以判断未知网站是否为恶意网站，能够自动检测识别引擎的识别能力，并对识别能力不满足预设条件的识别引擎进行优化处理，提升了识别引擎的可靠性，且采用优化处理后的至少两种识别引擎进行交叉识别，保证了恶意网站识别的准确性。

参考图2，示出了根据本发明一个实施例的一种恶意网站的识别方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，在服务器侧对至少两种识别引擎进行识别能力检测；

在本发明实施例中，可以采用至少两种识别引擎对已知的恶意网站进行识别，进而根据每种识别引擎的识别结果判断识别引擎的识别能力，以实现对至少两个识别引擎的识别能力检测。

步骤202，当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理；

在本发明一种优选实施例中，步骤202可以包括如下子步骤：

子步骤S21，确定所述识别能力不满足预设条件的识别引擎的引擎类型；

其中，引擎类型可以包括规则引擎或者学习引擎。

在进行识别能力检测后，本发明实施例可以确定识别能力不满足预设条件的一种或多种识别引擎，然后可以查找该识别引擎对应的引擎类型。

子步骤S22，当所述引擎类型为规则引擎时，对所述规则引擎增加识别规则；

当检测到识别能力不满足预设条件的识别引擎为规则引擎时，本发明实施例可以对采用人工或自动方式，为规则引擎增加相应的识别规则，以实现对规则引擎的优化处理。

具体的，子步骤S22可以包括如下子步骤：

子步骤S221，从所述多个已知网站中，确定目标网站；

其中，目标网站可以为识别能力不满足预设条件的识别引擎误报的网站；

针对识别能力不满足预设条件的识别引擎，本发明实施例可以从多个已知网站中，确定其在识别能力检测过程中误报的网站，作为目标网站。

子步骤S222，依据所述目标网站的基础数据，生成对应的识别规则；

在确定目标网站后，本发明实施例可以对预先获取的已知网站的基础数据进行筛选，得到目标网站的基础数据，然后保留基础数据中的关键字段，生成关键字段对应的识别规则。

例如，URL为“http://b.com:8080/？src＝lm&ls＝n7&au＝8i/readme.asp”，则当保留端口号字段时，获得针对URL的识别规则为“http://:8080/？au＝&ls＝&src＝/”，当保留文件名字段中的文件后缀时，获得针对URL的识别规则为“http:///？au＝&ls＝&src＝/.asp”，当保留端口号字段和文件名字段中的文件后缀时，获得针对URL的识别规则为“http://:8080/？au＝&ls＝&src＝/.asp”。

子步骤S223，将所述识别规则加入所述识别能力不满足预设条件的识别引擎中。

在生成识别规则后，本发明实施例可以将识别规则添加到该规则引擎的规则库中，从而实现对规则引擎的优化处理，提升规则引擎的识别效果。

子步骤S23，当所述引擎类型为学习引擎时，对所述学习引擎增加样本数据。

当检测到识别能力不满足预设条件的识别引擎为学习引擎时，本发明实施例可以获取相应的样本数据，将样本数据输入学习引擎的识别模型中，采用识别模型对样本数据进行学习训练，以实现对学习引擎的优化处理。

具体的，子步骤S23可以包括如下子步骤：

子步骤S231，从所述多个已知网站中，确定目标网站；

其中，目标网站可以为识别能力不满足预设条件的识别引擎误报的网站。

子步骤S232，从所述目标网站的基础数据中提取部分基础数据，作为样本数据；

在确定目标网站后，本发明实施例可以对预先获取的已知网站的基础数据进行筛选，得到目标网站的基础数据，然后可以按照基础数据的类型，从基础数据中提取出指定类型的部分基础数据，作为样本数据，如将基础数据中的标识图片作为样本数据。

子步骤S233，将所述样本数据加入所述所述识别能力不满足预设条件的识别引擎中，以采用所述样本数据进行更新。

在获得样本数据后，本发明实施例可以将样本数据输入学习引擎的识别模型中，识别模型可以对该样本数据进行训练学习，从而实现识别模型的更新。

作为一种示例，识别模型可以采用如下算法对样本数据进行训练学习：

回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、基于核的算法、聚类算法、分类算法、关联规则算法、卷积神经网络、深度学习、降低维度算法、集成算法等。

步骤203，采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站；

在对识别引擎进行优化处理后，当检测到未知网站时，可以从未知网站中获取特征信息，然后调用优化处理后的至少两种识别引擎的接口，分别采用每种识别引擎对未知网站的特征信息进行识别，以识别未知网站是否为恶意网站。

在一种实施方式中，步骤203可以包括如下子步骤：

接收客户端侧发送的识别请求，所述识别请求包括未知网站的标识；在所述服务器侧采用所述优化处理后的至少两种识别引擎对所述未知网站进行识别。

当检测到针对未知网站的访问请求时，客户端侧可以获取未知网站的标识，如URL，依据未知网站的标识生成识别请求，并发送至服务器侧。

服务器侧可以接收客户端侧发送的识别请求，并从中解析出未知网站的标识，然后调用优化处理后的至少两种识别引擎的接口，对未知网站进行识别，通过在服务器侧对恶意网站进行识别，保证了识别的准确性，且减少了对客户端的资源占用。

此外，为了降低服务器侧的工作量，可以先基于网站的网页内容计算网站的评估分，根据网站的评估分与设定阈值比较结果来判断是否由服务器侧进行识别，即首先在客户端对网站进行了筛选，对筛选出的大于设定阈值的网站由服务器侧进行识别，加快了网站识别的检测速度，降低了云端服务器的负载。

在另一种实施方式中，步骤203可以包括如下子步骤：

在具体实现中，客户端侧可以设置有与服务器侧相对应的至少两种识别引擎，在对服务器侧的至少两种识别引擎进行优化处理后，可以对客户端侧的至少两种识别引擎进行优化同步，如将在优化处理过程中增加的识别规则同步至客户端侧的规则引擎中，通过在客户端侧对恶意网站进行识别，提升了识别的速度，保证了识别的及时性。

在一种优选实施方式中，客户端侧可以具有本地内容规则库，服务器侧可以具有云端内容规则库，在浏览器加载未知网站的网页时，客户端从可以获取网页的内容信息，从网页的内容信息中提取指定信息，指定信息包括CSS(Cascading Style Sheets，层叠样式表)信息和/或脚本信息和/或标签内容信息，然后可以采用客户端侧的至少两种识别引擎对指定信息进行识别。

若指定信息与本地内容规则库内的至少一条规则匹配，则将本地所匹配的至少一条规则的规则标识发送给服务器侧，服务器侧可以采用服务侧的至少两种识别引擎判断本地所匹配的至少一条规则的规则标识是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识，当两者相覆盖时，则判定该未知网站的网页为恶意网站的网页。

具体的，云端内容规则库中的规则是基于标签内容信息创建。

例如，框架标签(iframe标签)一般用来包含别的页面，iframe元素会创建包含另外一个文档的内联框架(即行内框架)。在iframe标签中定义了多个属性，例如src属性、height属性、width属性等(在此不一一列举)，其中src属性用于规定在iframe中显示文档的URL，该属性的属性值为URL；height属性用于规定iframe的高度，该属性的属值为pixels；width属性用于规定iframe的宽度，该属性的属性值为pixels。恶意作者可通过iframe标签中的src属性的属性值URL来实现恶意目的，例如，将src属性的属性值URL修改为黑URL，因此这里将iframe标签的src属性的属性值URL确定为iframe标签内容信息的指定属性信息，判断该URL是否属于URL黑名单或者是否具有指定路径。

图像标签(img标签)用于向网页中嵌入一幅图像，img标签创建的是被引用图像的占位空间。在img标签中同样定义了很多属性，例如，src属性、alt属性、height属性、width属性等(在此不一一列举)，其中src属性用于规定显示图像的URL，该属性的属性值为URL；alt属性用于规定图像的替代文本，该属性的属性值为text；height属性用于设置图像的高度，该属性的属值为pixels％；width属性用于设置图像的宽度，该属性的属性值为pixels％。恶意作者可通过img标签中的src属性的属性值URL来实现钓鱼目的，例如，将src属性的属性值URL修改为黑URL，因此这里将img标签的src属性的属性值URL确定为img标签内容信息的指定属性信息，判断该URL是否具有指定路径或是否属于URL黑名单。

标题标签(title标签)用于定义文档的标题，在title标签中定义了dir属性、lang属性，其中dir属性用于规定元素中内容的文本方向；lang属性用于规定元素中内容的语言代码，该属性的属性值为language_code。这里将lang属性的属性值language_code确定为title标签内容信息的指定属性信息，判断标题内容是否具有指定关键字。

超链接标签或锚标签(a标签)用于从一张页面链接到另一张页面。在a标签中定义了多个属性，例如href属性、download属性、rel属性等(在此不一一列举)其中，href属性规定了链接指向的页面的URL，其属性值为URL；download属性规定了被下载的超链接目标，其属性值为filename；rel属性规定了当前文档与被连接文档之间的关系，其属性值为text。恶意作者可通过a标签中的href属性的属性值URL来实现恶意目的，例如，将href属性的属性值URL修改为黑URL，因此这里将a标签的href属性的属性值URL确定为a标签内容信息的指定属性信息，判断该URL是否属于URL黑名单或者是否具有指定路径。

通过获取浏览器所打开未知网站的网页的URL，根据该URL确定网页所属站点是否为新站点。

若通过判断得到iframe标签、img标签或者a标签中的URL属于URL黑名单，则可判断网页为可疑恶意网站的网页，由此可确定URL属于黑名单可以作为一条规则用于判断网页是否为可疑恶意网站的网页，云端内容规则库内至少包含这条规则的规则集合可用于判断网页是否为可疑恶意网站的网页。

若通过判断得到iframe标签、img标签或者a标签中的URL具有指定路径，且网页所属站点为新站点，则可判断网页为可疑恶意网站的网页，由此可确定URL具有指定路径和网页所属站点为新站点可以作为两条规则用于判断网页是否为可疑恶意网页，云端内容规则库内至少包含这两条规则的规则集合可用于判断网页是否为可疑恶意网站的网页。

若通过判断得到标题内容具有指定关键字，且网页所属站点为新站点，则可判断网页为可疑恶意网页，由此可确定标题内容具有指定关键字和网页所属站点为新站点可以作为两条规则用于判断网页是否为可疑恶意网页，云端内容规则库内至少包含这两条规则的规则集合可用于判断网页是否为可疑恶意网站的网页。

步骤204，当识别所述未知网站为恶意网站时，通过所述客户端侧对所述未知网站进行拦截。

当识别未知网站为恶意网站时，本发明实施例可以生成拦截指令，并将拦截指令发送至客户端侧，由客户端侧执行拦截指令对该未知网站进行拦截，并可以将该未知网站添加到黑名单中，保证了网页访问的安全性。

可选地，在根据上述步骤确定网页为可疑钓鱼网页后，可采用生成云查询日志的方式将识别的恶意网站记录在云查询日志中，审核人员可通过该日志了解是否有误拦截的情况，对于误拦截的网页可以进行出库处理。

此外，还可向客户端发送用于报警的提示信息，以使客户端向用户展示提示信息，用户在看到客户端展示的提示信息后，可以有选择性的决定是否继续访问网页。

而且，通过基于从误判的恶意网站中获取的基础数据，分别采用对规则引擎增加识别规则、对学习引擎增加样本数据的方式来对进行优化处理，保证了识别引擎的优化效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参考图3，示出了根据本发明一个实施例的一种恶意网站的识别装置实施例的结构框图，具体可以包括如下模块：

识别能力检测模块301，适于在服务器侧对至少两种识别引擎进行识别能力检测；

优化处理模块302，适于当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理；

未知网站识别模块303，适于采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站。

在本发明一种优选实施例中，所述识别能力检测模块301可以包括如下子模块：

在本发明一种优选实施例中，所述已知网站识别子模块以包括如下单元：

在本发明一种优选实施例中，所述优化处理模块302可以包括如下子模块：

在本发明一种优选实施例中，所述识别规则增加子模块可以包括如下单元：

在本发明一种优选实施例中，所述样本数据增加子模块可以包括如下单元：

在本发明一种优选实施例中，所述未知网站识别模块303可以包括如下子模块：

识别请求接收子模块，用于接收客户端侧发送的识别请求，所述识别请求包括未知网站的标识；

服务器侧识别子模块，用于在所述服务器侧采用所述优化处理后的至少两种识别引擎对所述未知网站进行识别。

客户端侧识别子模块，用于基于所述优化处理后的至少两种识别引擎，对客户端侧的至少两种识别引擎进行优化同步，并在所述客户端侧采用所述优化同步后至少两种识别引擎对未知网站进行识别。

在本发明一种优选实施例中，所述装置还可以包括如下模块：

在本发明一种优选实施例中，所述多个已知网站包括被举报的网站，所述基础数据至少包括如下一项：

URL、HTML文本、标识图片。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的恶意网站的识别方法和装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

A1、一种恶意网站的识别方法，所述方法包括：

在服务器侧对至少两种识别引擎进行识别能力检测；

A2、如A1所述的方法，其特征在于，所述在服务器侧对至少两种识别引擎进行识别能力检测的步骤包括：

A3、如A2所述的方法，所述采用至少两种识别引擎对多个已知网站进行识别的步骤包括：

分别获取多个已知网站的基础数据；

调用至少两种识别引擎的接口，对所述基础数据进行检测；

A4、如A1或A2或A3所述的方法，所述当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理的步骤包括：

A5、如A4所述的方法，所述当所述引擎类型为规则引擎时，对所述规则引擎增加识别规则的步骤包括：

依据所述目标网站的基础数据，生成对应的识别规则；

A6、如A4所述的方法，所述当所述引擎类型为学习引擎时，对所述学习引擎增加样本数据的步骤包括：

A7、如A1所述的方法，所述采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站的步骤包括：

A8、如A1所述的方法，所述采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站的步骤包括：

A9、如A1所述的方法，还包括：

当识别所述未知网站为恶意网站时，通过所述客户端侧对所述未知网站进行拦截。

A10、如A3所述的方法，所述多个已知网站包括被举报的网站，所述基础数据至少包括如下一项：

URL、HTML文本、标识图片。

B11、一种恶意网站的识别装置，所述装置包括：

B12、如B11所述的装置，所述识别能力检测模块包括：

B13、如B12所述的装置，所述已知网站识别子模块包括：

B14、如B11或12或13所述的装置，所述优化处理模块包括：

B15、如B14所述的装置，所述识别规则增加子模块包括：

B16、如B15所述的装置，所述样本数据增加子模块包括：

B17、如B11所述的装置，所述采未知网站识别模块包括：

B18、如B11所述的装置，所述未知网站识别模块包括：

B19、如B11所述的装置，还包括：

B20、如B13所述的装置，所述多个已知网站包括被举报的网站，所述基础数据至少包括如下一项：

URL、HTML文本、标识图片。

C21、一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现A1至A10任一项所述方法的步骤。

D22、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现A1至A10任一项所述方法的步骤。

Claims

1.一种恶意网站的识别方法，所述方法包括：

在服务器侧对至少两种识别引擎进行识别能力检测；

采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站；

所述在服务器侧对至少两种识别引擎进行识别能力检测的步骤包括：

2.如权利要求1所述的方法，其特征在于，所述采用至少两种识别引擎对多个已知网站进行识别的步骤包括：

分别获取多个已知网站的基础数据；

调用至少两种识别引擎的接口，对所述基础数据进行检测；

3.如权利要求1或2所述的方法，其特征在于，所述当检测到所述识别能力不满足预设条件时，对所述至少两种识别引擎进行优化处理的步骤包括：

4.如权利要求3所述的方法，其特征在于，所述当所述引擎类型为规则引擎时，对所述规则引擎增加识别规则的步骤包括：

依据所述目标网站的基础数据，生成对应的识别规则；

5.如权利要求3所述的方法，其特征在于，所述当所述引擎类型为学习引擎时，对所述学习引擎增加样本数据的步骤包括：

6.如权利要求1所述的方法，其特征在于，所述采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站的步骤包括：

7.如权利要求1所述的方法，其特征在于，所述采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站的步骤包括：

8.如权利要求1所述的方法，其特征在于，还包括：

9.如权利要求2所述的方法，其特征在于，所述多个已知网站包括被举报的网站，所述基础数据至少包括如下一项：

URL、HTML文本、标识图片。

10.一种恶意网站的识别装置，所述装置包括：

未知网站识别模块，适于采用所述优化处理后的至少两种识别引擎对客户端侧请求访问的未知网站进行识别，以判断所述未知网站是否为恶意网站；

所述识别能力检测模块包括：

11.如权利要求10所述的装置，其特征在于，所述已知网站识别子模块包括：

12.如权利要求10或11所述的装置，其特征在于，所述优化处理模块包括：

13.如权利要求12所述的装置，其特征在于，所述识别规则增加子模块包括：

14.如权利要求13所述的装置，其特征在于，所述样本数据增加子模块包括：

15.如权利要求10所述的装置，其特征在于，所述未知网站识别模块包括：

16.如权利要求10所述的装置，其特征在于，所述未知网站识别模块包括：

17.如权利要求10所述的装置，其特征在于，还包括：

18.如权利要求11所述的装置，其特征在于，所述多个已知网站包括被举报的网站，所述基础数据至少包括如下一项：

URL、HTML文本、标识图片。

19.一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至9任一项所述方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。