CN116318974A

CN116318974A - 站点风险识别方法、装置、计算机可读介质及电子设备

Info

Publication number: CN116318974A
Application number: CN202310253061.8A
Authority: CN
Inventors: 李鹏博; 董志强; 钱业斐; 凌霄; 杜学智
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-06-23

Abstract

本申请的实施例提供了一种站点风险识别方法、装置、计算机可读介质及电子设备，该方法包括：确定多类风险特征，多类风险特征包括以下中的至少一类：图种识别特征、网站框架识别特征和接口探测识别特征；图种识别特征对应的特征信息与待识别站点中图片资源相关，网站框架识别特征对应的特征信息与源码文件相关，接口探测识别特征对应的特征信息与接口的返回结果相关；针对待识别站点，获取与多类风险特征中每类风险特征对应的风险信息；风险信息包括风险类型标签和与风险类型标签对应的风险得分；根据与多类风险特征中每类风险特征对应的风险信息，确定待识别站点的风险信息。本申请实施例可以提高风险识别的准确性。

Description

站点风险识别方法、装置、计算机可读介质及电子设备

技术领域

本申请涉及网络安全技术领域，具体而言，涉及一种站点风险识别方法、装置、计算机可读介质及电子设备。

背景技术

随着云技术的发展，越来越多的用户使用云厂商提供的云上资源来搭建网络站点。

然而，一些不法分子也开始使用云上资源来搭建不良的网络站点，而云厂商只能根据用户举报来事后对风险站点进行处理。因此，目前亟需一种能够精准对网络站点进行风险识别的方法。

发明内容

本申请的实施例提供了一种站点风险识别方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以提高风险识别的准确性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种站点风险识别方法，所述方法包括：确定用于风险识别的多类风险特征，所述多类风险特征包括以下中的至少一类特征：图种识别特征、网站框架识别特征和接口探测识别特征；所述图种识别特征对应的特征信息是所述待识别站点中图片资源的至少一种指纹信息，所述网站框架识别特征对应的特征信息是所述待识别站点中源码文件的指纹信息，所述接口探测识别特征对应的特征信息是所述待识别站点中接口的返回结果的至少一部分；针对待识别站点，获取与所述多类风险特征中每类风险特征对应的风险信息；所述风险信息包括至少一个风险类型标签和与所述风险类型标签对应的风险得分，各类风险特征对应的风险信息是通过将各类风险特征对应的特征信息与各类风险特征对应的预设风险比对信息进行比对得到的；根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息。

根据本申请实施例的一个方面，提供了一种站点风险识别装置，所述装置包括：风险特征确定单元，用于确定用于风险识别的多类风险特征，所述多类风险特征包括以下中的至少一类特征：图种识别特征、网站框架识别特征和接口探测识别特征；所述图种识别特征对应的特征信息是所述待识别站点中图片资源的至少一种指纹信息，所述网站框架识别特征对应的特征信息是所述待识别站点中源码文件的指纹信息，所述接口探测识别特征对应的特征信息是所述待识别站点中接口的返回结果的至少一部分；特征风险信息获取单元，用于针对待识别站点，获取与所述多类风险特征中每类风险特征对应的风险信息；所述风险信息包括至少一个风险类型标签和与所述风险类型标签对应的风险得分，各类风险特征对应的风险信息是通过将各类风险特征对应的特征信息与各类风险特征对应的预设风险比对信息进行比对得到的；站点风险信息确定单元，用于根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息。

在本申请的一些实施例中，基于前述方案，所述多类风险特征还包括关键词特征，与所述关键词特征对应的所述预设风险比对信息为风险关键词和风险类型标签映射表，所述特征风险信息获取单元配置为：从所述待识别站点中提取至少一个关键词；确定所述至少一个关键词在所述风险关键词和风险类型标签映射表中的比对结果，并根据所述比对结果得到与所述关键词特征对应的风险信息。

在本申请的一些实施例中，基于前述方案，所述装置还包括域名信息获取单元和域名信息分析单元；在根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息之前，各单元分别用于执行以下操作：所述域名信息获取单元用于获取所述待识别站点的域名信息；所述域名信息分析单元用于通过预先建立的域名风险研判模型对所述域名信息进行文本的风险程度分析，得到与域名风险特征对应的风险得分；所述站点风险信息确定单元配置为：对与所述多类风险特征中每类风险特征对应的风险信息和与所述域名风险特征对应的风险得分进行融合处理，得到所述待识别站点的风险信息。

在本申请的一些实施例中，基于前述方案，所述装置还包括图片资源获取单元、指纹信息生成单元和第一构建单元；在获取与所述多类风险特征中每类风险特征对应的风险信息之前，各单元分别用于执行以下操作：图片资源获取单元用于获取已知风险站点的图片资源；所述指纹信息生成单元用于为所述图片资源生成文件指纹和图像指纹中的至少一种指纹信息，所述文件指纹是通过对图片资源进行哈希运算得到的指纹信息，所述图像指纹用来进行相似度比对的指纹信息；所述第一构建单元用于根据所述至少一种指纹信息构建图种指纹和风险类型标签映射表，并将所述图种指纹和风险类型标签映射表作为图种识别特征对应的预设风险比对信息。

在本申请的一些实施例中，基于前述方案，所述装置还包括源码文件获取单元、哈希单元、剔除单元和第二构建单元；在获取与多类风险特征中每类风险特征对应的风险信息之前，各单元分别用于执行以下操作：所述源码文件获取单元用于获取已知风险站点的源码文件；所述哈希单元用于对各所述源码文件进行哈希运算，得到各源码文件的指纹信息；所述剔除单元用于在所有指纹信息中剔除白名单信息，得到风险源码文件指纹信息；所述第二构建单元用于根据所述风险源码文件指纹信息构建源码文件指纹信息和风险类型标签映射表，并将所述源码文件指纹信息和风险类型标签映射表作为所述网站框架识别特征对应的预设风险比对信息；所述特征风险信息获取单元配置为：获取所述待识别站点的待识别源码文件；对各所述待识别源码文件进行哈希运算，得到各待识别源码文件的待识别指纹信息；确定所述待识别指纹信息在所述源码文件指纹信息和风险类型标签映射表中的比对结果，并根据所述比对结果得到与所述网站框架识别特征对应的风险信息。

在本申请的一些实施例中，基于前述方案，所述站点风险信息确定单元配置为：根据与所述多类风险特征中每类风险特征对应的风险信息，确定各类风险特征的目标风险类型标签和与所述目标风险类型标签对应的风险得分；对各类风险特征的目标风险类型标签和与所述目标风险类型标签对应的风险得分进行融合处理，得到所述待识别站点的风险信息。

在本申请的一些实施例中，基于前述方案，在确定所述待识别站点的风险信息之后，所述站点风险信息确定单元还用于：在云端中确定与所述待识别站点依赖的资源关联的用户相关联的其他资源所服务的站点的风险信息；对其他资源所服务的站点的风险信息和所述待识别站点的风险信息进行整合，得到所述用户的风险信息。

在本申请的一些实施例中，基于前述方案，在确定所述待识别站点的风险信息之后，所述站点风险信息确定单元还用于：将与至少一类风险特征对应的预设风险比对信息与其他站点的相应信息进行比对，并将比对成功的站点作为目标站点；将与其他类风险特征对应的预设风险比对信息与所述目标站点的相应信息进行比对，以确定所述目标站点的风险信息。

在本申请的一些实施例中，基于前述方案，在确定所述待识别站点的风险信息之后，所述站点风险信息确定单元还用于：获取在云端为创建所述待识别站点注册的IP地址；确定与所述IP地址在同一时间段内注册的其他IP地址；确定所述其他IP地址对应的站点的风险信息。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的站点风险识别方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的站点风险识别方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上述实施例中所述的站点风险识别方法。

在本申请的一些实施例所提供的技术方案中，在对待识别站点进行风险识别时，对该待识别站点获取与多类风险特征中每类风险特征对应的风险信息，风险信息包括至少一个风险类型标签和与风险类型标签对应的风险得分，在此基础上，通过根据与多类风险特征中每类风险特征对应的风险信息，来确定待识别站点的风险信息。由于确定的多类风险特征包括图种识别特征、网站框架识别特征和接口探测识别特征中的至少一类特征，因此，本申请实施例首次提出使用这些风险特征对待识别站点进行风险识别，这些风险特征均对存在风险的站点具有更好的特异性，能够提高风险识别的准确性；此外，本申请实施例同时采用多类风险特征进行风险识别，而且风险信息同时包括风险类型标签和与风险类型标签对应的风险得分，能够更全面和准确地进行风险识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以用来实现本申请实施例的技术方案的示例性系统架构的示意图；

图2示出了根据本申请的一个实施例的站点风险识别方法的流程图；

图3示出了根据本申请的一个实施例的图2实施例中步骤260的细节的流程图；

图4示出了根据本申请的一个实施例的模型各阶段的流程图；

图5示出了根据本申请的一个实施例的图2实施例中步骤260之前步骤以及步骤260的细节的流程图；

图6示出了根据本申请的一个实施例的基于网站框架特征进行风险识别的流程图；

图7示出了根据本申请的一个实施例的基于图种特征进行风险识别的流程图；

图8示出了根据本申请的一个实施例的基于接口探测特征进行风险识别的流程图；

图9示出了根据本申请的一个实施例的图3实施例中步骤290之前步骤以及步骤290的细节的流程图；

图10示出了根据本申请的一个实施例的图2实施例中步骤290的细节的流程图；

图11示出了根据本申请的一个实施例的图2实施例中步骤290之后步骤的流程图；

图12示出了根据本申请的另一个实施例的图2实施例中步骤290之后步骤的流程图；

图13示出了根据本申请的一个实施例的在确定所述待识别站点的风险信息之后步骤的流程图；

图14示出了根据本申请的一个实施例的站点风险识别装置的框图；

图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

随着互联网的发展，网络上经常会存在一些提供不良信息或存在不良行为的风险网站。为了营造健康的互联网环境，有必要对这些风险网站进行管理。而目前很多网站都是利用云厂商提供的云上资源来搭建的，因此，云厂商也需要对风险网站进行风险识别。

在相关技术中，主要存在以下三类对网站进行检测的方案：

1、基于主题网络爬虫的不良网页的发现与识别

方案内容：将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的。

该方案的缺陷是：a)基于文本特征进行识别和匹配，存在较高的误报率，仅可作为扩大召回率的辅助手段，不能作为识别不良网站的主要手段；b)与搜索引擎结合进行不良网站识别，无法解决未被搜索引擎收录、屏蔽搜索引擎收录、搜索引擎屏蔽结果等场景下的漏出问题。

2、利用网页特征识别不良图像网页

方案内容：通过机器学习对网站的图片内容特征进行检测，识别不良图像网页。

该方案的缺陷是：基于图片识别的方案仅在某些场景下有较好的效果，但对于其他场景的不良网站(如仿冒网站、刷单返现网站)等，无法有效识别。

3、基于多维度特征的不良网站检测

方案内容：通过域名注册、解析方面的相关特征,并通过机器学习方法构建检测模型，用模型进行网站检测。

该方案的缺陷是：通过域名注册、解析的特点进行预测，是与风险用户的行为习惯进行关联的，该种方式误报率高、召回率低，且随着云上产业发展，该类行为特征会发生变化，且该方法对学习样本的要求极高。另外，该方案可作为一种预测方案，不可作为精准检测的依据。

综上所述，发明人发现，相关技术的方案主要存在以下问题：

1、用于检测涉诈风险的特征设计不合理：相关技术对风险特征的选取较为单一，无法规避数据源不全面造成的漏检及应对复杂多变的待检测对象时的误检，不利于后续做风险治理。

2、检测结果误报率高：通过这些风险特征检测目标网站输出结果来评判资源的风险程度，这种方式会存在较高误判率，不利于后续做风险治理。

为此，本申请首先提供了一种站点风险识别方法。基于本申请实施例提供的站点风险识别方法可以克服上述缺陷，一方面，首次提出了利用图种识别特征、网站框架识别特征和接口探测识别特征等更具有特异性的风险特征对待识别站点进行风险识别，能够提高风险识别的准确性；另一方面，通过联合采用多类风险特征进行风险识别，将风险类型标签和与风险类型标签对应的风险得分作为风险信息用于风险识别，能够更精准和全面地进行风险识别。

图1示出了可以用来实现本申请实施例的技术方案的示例性系统架构的示意图。如图1所示，该系统架构100可以包括站点负责人终端110、云端120和用户终端130，云端120具体包括相互通信连接的云服务器121和风险识别服务器122，站点负责人终端110和用户终端130均与云端120建立通信连接，风险识别服务器122存储有预设风险比对信息。站点负责人终端110为本申请实施例的执行主体，当本申请提供的一种站点风险识别方法应用于图1所示的系统架构中时，一个过程可以是这样的：首先，站点负责人使用站点负责人终端110访问云端120，从而使用云端120提供的云服务器121的资源建立待识别站点；然后，风险识别服务器122访问待识别站点，得到各类风险特征对应的特征信息；接着，风险识别服务器122通过将各类风险特征对应的特征信息与各类风险特征对应的预设风险比对信息进行比对得到与多类风险特征中每类风险特征对应的风险信息；接下来，风险识别服务器122基于各类风险特征对应的风险信息，确定出待识别站点的风险信息。

在本申请的一个实施例中，风险识别服务器122还根据待识别站点与用户的映射关系，确定出用户的风险信息。

在本申请的一个实施例中，风险识别服务器122还根据域名与云服务器的关系，对待识别站点的其他服务器进行风险识别，并结合对所有待识别站点的所有服务器的识别结果，得到待识别站点的风险信息。

在本申请的一个实施例中，在得到待识别站点的风险信息之后，将待识别站点的风险信息推送至站点负责人终端。

应该理解，图1中的站点负责人终端、用户终端、云服务器和风险识别服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的站点负责人终端、用户终端、云服务器和风险识别服务器，即用户终端和站点负责人终端均可以为多个，云服务器和风险识别服务器可以是多个服务器组成的服务器集群等。

需要说明的是，图1示出的仅为本申请的一个实施例。虽然在图1实施例的方案中，用户终端为笔记本电脑，站点负责人终端为台式计算机，但在本申请的其他实施例中，用户终端和站点负责人终端还可以是台式计算机、工作站、平板电脑、车载终端、智能手机等各种类型的终端设备；虽然在图1实施例的方案中，风险识别服务器与云服务器均位于云端，但在本申请的其他实施例中，风险识别服务器还可以位于云端之外，比如可以作为一个独立的服务器；虽然在图1实施例的方案中，预设风险比对信息存储在风险识别服务器上，但在本申请的其他实施例中，还可以将预设风险比对信息存储在风险识别服务器能够访问的数据库中。本申请实施例对此不作任何限定，本申请的保护范围也不应因此而受到任何限制。

易于理解，本申请实施例所提供的站点风险识别方法一般由服务器执行，相应地，站点风险识别装置一般设置于服务器中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的站点风险识别方案。

因此，本申请实施例可以应用于终端或服务器中。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的站点风险识别方法的流程图，可以将本申请实施例提供的站点风险识别方法的整体作为一个模型。该站点风险识别方法可以由各种能够计算和处理的设备来执行，比如可以是用户终端或云服务器，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。请参照图2所示，该站点风险识别方法至少包括以下步骤：

在步骤250中，确定用于风险识别的多类风险特征，多类风险特征包括以下中的至少一类特征：图种识别特征、网站框架识别特征和接口探测识别特征；图种识别特征对应的特征信息是待识别站点中图片资源的至少一种指纹信息，网站框架识别特征对应的特征信息是待识别站点中源码文件的指纹信息，接口探测识别特征对应的特征信息是待识别站点中接口的返回结果的至少一部分。

本申请实施例的方案是基于风险特征进行风险识别的，因此，需要先确定哪些风险特征用于风险识别。可以将预先设定好的风险特征作为用于风险识别的多类风险特征，也可以从预设的风险特征集合中确定用于风险识别的多类风险特征，例如，可以以抽样的方式从预设的风险特征集合中选取用于风险识别的多类风险特征。

多类风险特征可以同时包括图种识别特征、网站框架识别特征、接口探测识别特征和关键词特征，也可以仅包括这些风险特征中的任意两种或三种风险特征，只要使得最终确定出的多类风险特征包括图种识别特征、网站框架识别特征和接口探测识别特征中的至少一类即可。

在实际应用本申请实施例提供的站点风险识别方法时，可以结合多类风险特征和域名风险特征这一类特殊的风险特征来进行风险识别。

表1

多类风险特征的详细信息如表1所示，可以看到，图种识别特征、网站框架识别特征、接口探测识别特征是特有风险特征，即这些风险特征在进行风险识别时特异性更强，因此，它们作为检测的主要手段；而关键词特征和域名风险特征是非特有风险特征，即与特有风险特征相比，这些风险特征在进行风险识别时的特异性弱一些，因此，它们作为检测的辅助手段。表1中的风险类型一列代表对应的风险特征是否具备判断风险类型的能力，可以看到，除了域名风险特征之外，其他风险特征都具备判断风险类型的能力。

通过表1还可以看到，各风险特征对应有权重，关于权重将在后续内容中介绍，此处暂不详述。

在步骤260中，针对待识别站点，获取与多类风险特征中每类风险特征对应的风险信息；风险信息包括至少一个风险类型标签和与风险类型标签对应的风险得分，各类风险特征对应的风险信息是通过将各类风险特征对应的特征信息与各类风险特征对应的预设风险比对信息进行比对得到的。

如果一个网站提供不良信息或存在不良行为，那么其就是一个存在异常的风险网站，也就是说，风险网站可以是各种不符合相关法律法规的规定的网站，例如风险网站可以是欺骗用户的网站，也可以是传播不健康信息的网站。

待识别站点可以是在云端使用云平台提供的云上资源搭建的网络站点。云平台会提供云服务器(Cloud Virtual Machine，CVM)、DNSPod(域名解析)、内容分发网络(ContentDelivery Network，CDN)等产品，用户在云平台购买这些产品，这些产品便是网络站点的搭建和使用所需的资源，具体来说，用户通过购买云服务器等产品进行网络站点的搭建，通过购买DNSPod、CDN等产品对网络站点进行域名注册解析和加速。

图3示出了根据本申请的一个实施例的图2实施例中步骤260的细节的流程图。请参见图3所示，获取与多类风险特征中每类风险特征对应的风险信息具体可以包括以下步骤：

在步骤261中，从待识别站点中提取至少一个关键词。

待识别站点中通常有文本信息，可以从文本信息中提取关键词；当然，待识别站点中往往也有图片，也可以从图片中提取关键词。可以从待识别站点中提取所有关键词，以便进行检测。可以以不重复的方式进行关键词提取，也可以以重复的方式进行关键词提取。

在步骤262中，确定至少一个关键词在风险关键词和风险类型标签映射表中的比对结果，并根据比对结果得到与关键词特征对应的风险信息。

在本申请的一个实施例中，确定至少一个关键词在风险关键词和风险类型标签映射表中的比对结果，并根据比对结果得到与关键词特征对应的风险信息，包括：确定每个关键词在风险关键词和风险类型标签映射表中命中的风险类型标签；根据各风险类型标签被关键词命中的次数，确定与各风险类型标签对应的风险得分。

比如，若某个风险类型标签被关键词命中的次数为L，那么，与该风险类型标签对应的风险得分可以为：

易于理解，某个风险类型标签被关键词命中的次数可以包括被重复的关键词命中的次数和被不重复的关键词命中的次数，也可以仅包括被不重复的关键词命中的次数。与不同风险类型标签对应的风险得分的计算方式也可以不同。

还可以基于其他方式确定与各风险类型标签对应的风险得分。比如，每当被不重复的关键词命中一次，计1分，但为多个重复关键词命中同一风险类型标签的情况单独进行计分，例如，可以统一计为1.2分，也可以计为1+lnn，其中，n为同一关键词的重复次数。当然，还可以每个关键词单独设定相应的命中得分，每个风险类型标签对应的风险得分可以通过计算命中该风险类型标签的命中得分之和来确定。

当多类风险特征还包括关键词特征时，与关键词特征对应的预设风险比对信息为风险关键词和风险类型标签映射表。

在本申请的一个实施例中，在获取与多类风险特征中每类风险特征对应的风险信息之前，该站点风险识别方法还包括：获取已知风险站点的关键词和每个关键词对应的风险类型标签；根据关键词和与每个关键词对应的风险类型标签构建风险关键词和风险类型标签映射表。

同一风险类型标签可以对应着多个关键词。

比如，对于“时时彩”、“新快三”等关键词，对应的风险类型标签为“彩票风险”；对于“基金开户”、“信用卡申领”等关键词，对应的风险类型标签则为“金融类风险”。

各个关键词对应的风险类型标签可以由人工进行确定，也可以由预定的识别算法进行确定。

图4示出了根据本申请的一个实施例的模型各阶段的流程图。下面，结合图4来进一步介绍本申请实施例的方案。请参见图4所示，用来实现本申请实施例提供的方法的模型主要包括准备阶段、识别和研判阶段、用户模型阶段和治理阶段共四个阶段。在准备阶段的流程为：首先，分析已有风险网站；然后，形成各类特征规则；最后，规则录入模型。这里的特征规则指的便是与各类风险特征对应的预设风险比对信息以及生成与每类风险特征对应的风险信息的方式。

下面介绍网站框架识别特征。图5示出了根据本申请的一个实施例的图2实施例中步骤260之前步骤以及步骤260的细节的流程图。请参见图5所示，在获取与多类风险特征中每类风险特征对应的风险信息之前，该站点风险识别方法包括：

在步骤220中，获取已知风险站点的源码文件。

对已知风险站点进行访问，可以得到相应源码文件，具体可以包括HTML、JS、CSS文件。

在步骤230中，对各源码文件进行哈希运算，得到各源码文件的指纹信息。

可以利用SHA1等哈希算法对源码文件进行哈希运算，得到相应的指纹信息。

在步骤240中，在所有指纹信息中剔除白名单信息，得到风险源码文件指纹信息。

白名单信息可以是vue.min.js等公开技术框架的指纹信息。通过剔除白名单信息，可以避免公开技术框架的干扰。

在步骤250中，根据风险源码文件指纹信息构建源码文件指纹信息和风险类型标签映射表，并将源码文件指纹信息和风险类型标签映射表作为网站框架识别特征对应的预设风险比对信息。

源码文件指纹信息和风险类型标签映射表中存在风险源码文件指纹信息和风险类型标签之间的映射关系，与风险源码文件指纹信息对应的风险类型标签可以预先根据经验来设置。

请继续参见图5，获取与多类风险特征中每类风险特征对应的风险信息，具体可以包括以下步骤：

在步骤261'中，获取待识别站点的待识别源码文件。

通过对待识别站点进行访问，可以得到相应的待识别源码文件。

在步骤262'中，对各待识别源码文件进行哈希运算，得到各待识别源码文件的待识别指纹信息。

可以利用前面生成源码文件的指纹信息时采用的哈希算法对各待识别源码文件进行哈希运算，从而得到相应的指纹信息。

在步骤263'中，确定待识别指纹信息在源码文件指纹信息和风险类型标签映射表中的比对结果，并根据比对结果得到与网站框架识别特征对应的风险信息。

在本申请的一个实施例中，确定待识别指纹信息在源码文件指纹信息和风险类型标签映射表中的比对结果，并根据比对结果得到与网站框架识别特征对应的风险信息，包括：确定每个待识别源码文件的待识别指纹信息在源码文件指纹信息和风险类型标签映射表中命中的风险类型标签；根据各风险类型标签被待识别指纹信息命中的次数，确定与各风险类型标签对应的风险得分。

比如，若某个风险类型标签被待识别指纹信息命中的次数为L，那么，与该风险类型标签对应的风险得分可以为：

图6示出了根据本申请的一个实施例的基于网站框架特征进行风险识别的流程图。请参见图6所示，在准备阶段可以包括以下流程：首先，将风险网站录入模型；然后，访问风险网站并获取风险网站的全部文件；接下来，对风险网站的用javascript脚本语言编写的文件(JS文件)、层叠样式表文件(CSS文件)和超文本标记语言文件(HTML文件)等文件分别进行哈希运算，得到相应的指纹信息；然后，在得到的指纹信息中过滤掉白名单中的公开框架指纹；最后，为指纹信息匹配风险类型，并保存指纹信息。在风险识别时，可以包括以下流程：首先，访问待检测网站，得到相应的源码文件；然后，对待检测网站的所有用javascript脚本语言编写的文件、层叠样式表文件和超文本标记语言文件文件分别进行哈希运算；接下来，对哈希结果和模型库中的结果进行匹配；最后，输出命中情况与风险类型。

在本申请的一个实施例中，在获取与多类风险特征中每类风险特征对应的风险信息之前，该站点风险识别方法还包括：获取已知风险站点的图片资源；为图片资源生成文件指纹和图像指纹中的至少一种指纹信息，文件指纹是通过对图片资源进行哈希运算得到的指纹信息，图像指纹用来进行相似度比对的指纹信息；根据至少一种指纹信息构建图种指纹和风险类型标签映射表，并将图种指纹和风险类型标签映射表作为图种识别特征对应的预设风险比对信息。

图片资源即为图种。可以仅获取已知风险站点中favicon.ico等特定格式的图片资源，也可以获取已知风险站点中的全部图片资源。例如，可以提取仿冒网站的风险网站的favicon.ico图标作为图种，上传至模型图种库中，同时将该图种与“仿冒网站”、“钓鱼网站”等风险类型标签关联，然后再生成文件指纹和图像指纹中的至少一种。图种对应的风险类型标签可以根据经验来设置。

在实际应用时，可以将银行、基金、证券等公司的线上logo图标作为图种进行相应金融类钓鱼网站识别，该特征在对金融领域的风险识别方面效果十分显著。

至少一种指纹信息可以同时包括文件指纹和图像指纹。通过SHA1等哈希算法对图片资源进行哈希运算，可以得到相应的指纹信息。可以通过均值哈希算法生成图像指纹，当然，也可以通过对图片资源进行卷积处理来生成图像指纹。

均值哈希算法：是一种用于生成图像指纹的常用算法，生成的图像指纹是可以进行比较和计算相似度的。其大致分为几个步骤：缩小尺寸、简化色彩、计算像素平均值、比较像素的灰度、生成图像哈希。后续在比较相似度时，通过计算两个图像指纹的汉明距离作为图像的相似度。汉明距离越小，图像相似度越高。

在本申请的一个实施例中，获取与多类风险特征中每类风险特征对应的风险信息，还可以包括以下步骤：获取待识别站点的图片资源；生成图片资源的文件指纹和图像指纹；确定各图片资源的文件指纹和图像指纹在图种指纹和风险类型标签映射表中的比对结果，并根据比对结果得到与图种识别特征对应的风险信息。

具体来说，如果图片资源的图像指纹与图种指纹和风险类型标签映射表中的图像指纹的相似度大于预定相似度阈值，或者图片资源的文件指纹命中了图种指纹和风险类型标签映射表中的图种指纹，则记为比对成功；若某个风险类型标签对待识别站点的各图片资源比对成功的次数为L，那么，与该风险类型标签对应的风险得分可以为：

预定相似度阈值可以根据需要进行设置，比如，可以设置为80％。

当然，在本申请的其他实施例中，还可以将图像指纹间的相似度大于80％的记为比对成功一次，将图像指纹间的相似度大于60％且未超过80％的记为比对成功0.8次，将图像指纹间的相似度未超过于60％的记为比对失败。还可以根据图像指纹间的实际相似度确定相应的比对成功次数，只需要使得比对成功次数与图像指纹间的实际相似度大小正相关即可。

图7示出了根据本申请的一个实施例的基于图种特征进行风险识别的流程图。请参见图7所示，在准备阶段可以包括以下流程：首先，提取已知风险站点的存在明显风险特征的图片作为图种；然后，形成图种与风险类型之间的映射关系表；接下来，将图种与映射关系表录入模型；接着，进行模型处理，利用哈希算法生成图种的文件指纹，并利用平均哈希算法对图种进行处理，生成图种的图像指纹，准备阶段完成。

在风险识别时的流程如下：首先，筛选待识别站点的图片资源；然后，将图片资源的文件指纹与映射关系表中图种的文件指纹对比；接着，生成图片资源的图像指纹，并将该图像指纹与映射关系表中图种的图像指纹对比，风险识别完成。

在本申请的一个实施例中，在获取与多类风险特征中每类风险特征对应的风险信息之前，该站点风险识别方法还包括：获取已知风险站点的接口的返回结果的至少一部分；根据接口的返回结果构建返回结果和风险类型标签映射表，并将返回结果和风险类型标签映射表作为接口探测识别特征对应的预设风险比对信息。

在本申请的一个实施例中，获取与多类风险特征中每类风险特征对应的风险信息，还可以包括以下步骤：获取待识别站点的接口的返回结果的至少一部分；确定各接口的返回结果的至少一部分在返回结果和风险类型标签映射表中的比对结果，并根据比对结果得到与接口探测识别特征对应的风险信息。

在实际应用中，可以仅选取站点的配置接口或者存在特殊关键词返回结果的接口来进行风险识别。

例如，已知风险站点为http://abc.com，通过分析发现，该网站为“刷单返利”类风险网站，存在接口http://abc.com/api/config/get_config_default，且返回json格式的配置信息，其包含网站相应的配置信息，则可提取接口的返回结果的路径为：/api/config/get_config_default，可以将访问该路径得到返回结果或者返回结果中的关键词录入模型中，并录入相应的风险类型标签为“刷单返利”。

在进行待识别站点的识别时，若待识别站点为http://def.org，通过访问该站点的接口http://def.org/api/config/get_config_default得到相应的返回结果，将返回结果或返回结果中的关键词与模型中的相应内容进行匹配。如果某个风险类型标签对应的匹配成功的次数为L，那么，与该风险类型标签对应的风险得分可以为：

虽然本申请实施例中每次匹配成功计数1次，但在本申请的其他实施例中，对不同内容进行匹配时可以按照不同的匹配次数进行计算。

图8示出了根据本申请的一个实施例的基于接口探测特征进行风险识别的流程图。如图8所示，在准备阶段可以包括以下流程：首先，分析已知网站的API接口；然后，记录特定接口路径及返回内容；最后，匹配风险类型并录入模型。在风险识别时可以包括以下流程：首先，针对待识别网站访问特定接口路径；然后，将特定接口路径的返回结果与模型中已有的返回内容进行对比；最后，输出命中情况与风险类型。

请继续参见图4所示，在识别和研判阶段，进行如下流程：一方面，对未知网站进行特征匹配，形成相应特征标记；另一方面，对目标网站进行关联排查和穿透排查，形成相应特征标记。此处的特征标记即风险类型标签。关联排查和穿透排查是指对与目标网站的资源有联系的其他资源进行排查，比如可以是目标网站的云服务器通过API网关接入的其他云服务器，或者是与目标网站的云服务器关联在同一域名下的其他云服务器。

在步骤290中，根据与多类风险特征中每类风险特征对应的风险信息，确定待识别站点的风险信息。

通过结合各类风险特征对应的风险信息，可以得到待识别站点的风险信息。待识别站点的风险信息可以包括风险类型标签和与风险类型标签对应的风险得分。

在本申请的一个实施例中，根据与多类风险特征中每类风险特征对应的风险信息，确定待识别站点的风险信息，包括：将与多类风险特征中每类风险特征对应的风险信息输入至预定风险信息预测模型中，得到预定风险信息预测模型输出的待识别站点的风险信息。

预定风险信息预测模型可以根据各种算法构建的模型，比如可以是机器学习算法，也可以是基于神经网络的深度学习算法。

图9示出了根据本申请的一个实施例的图3实施例中步骤290之前步骤以及步骤290的细节的流程图。请参见图9所示，在步骤290之前可以包括以下步骤：

在步骤270中，获取待识别站点的域名信息。

发明人发现，风险用户购买域名时，因为价格敏感等原因，常常会购买一些无实际含义，域名内容杂乱的域名，因此可以基于此进行风险识别。

可以通过拆解待识别站点的URL(Uniform Resource Locator，统一资源定位符)来得到域名信息。

在步骤280中，通过预先建立的域名风险研判模型对域名信息进行文本的风险程度分析，得到与域名风险特征对应的风险得分。

域名风险研判模型可以是基于各种机器学习算法或者深度学习算法构建的，可以通过对已知风险域名和正常域名的标记来训练得到域名风险研判模型。

域名风险研判模型对域名信息进行分析和评估，可以输出域名风险特征对应的风险得分。域名风险特征对应的风险得分S_B，其取值在0-10之间，且取值越大说明风险越高。

步骤290具体可以包括：

在步骤290'中，对与多类风险特征中每类风险特征对应的风险信息和与域名风险特征对应的风险得分进行融合处理，得到待识别站点的风险信息。

最终待识别站点的风险信息融合了每类风险特征对应的风险信息和与域名风险特征对应的风险得分。

图10示出了根据本申请的一个实施例的图2实施例中步骤290的细节的流程图。请参见图10所示，根据与多类风险特征中每类风险特征对应的风险信息，确定待识别站点的风险信息具体可以包括以下步骤：

在步骤291中，根据与多类风险特征中每类风险特征对应的风险信息，确定各类风险特征的目标风险类型标签和与目标风险类型标签对应的风险得分。

各类风险特征的目标风险类型标签可能相同，也可能不同。

对于关键词特征，可以将对应的风险得分最高的风险类型标签作为目标风险类型标签，即可以将被待识别站点的关键词命中的次数最多的风险类型标签作为关键词特征的目标风险类型标签M_A。如果待识别站点的关键词没有命中任一风险类型标签，那么关键词特征的目标风险类型标签可以为空。

对于网站框架识别特征，可以将对应的风险得分最高的风险类型标签作为目标风险类型标签，即可以将被待识别站点的待识别指纹信息命中的次数最多的风险类型标签作为网站框架识别特征的目标风险类型标签M_D。如果待识别站点的待识别指纹信息没有命中任一风险类型标签，那么网站框架识别特征的目标风险类型标签可以为空。

对于图种识别特征，可以将对应的风险得分最高的风险类型标签作为目标风险类型标签，即可以将比对成功的次数最多的风险类型标签作为图种识别特征的目标风险类型标签M_C。如果没有一次比对成功，那么图种识别特征的目标风险类型标签可以为空。

对于接口探测识别特征，可以将对应的风险得分最高的风险类型标签作为目标风险类型标签，即可以将匹配成功的次数最多的风险类型标签作为接口探测识别特征的目标风险类型标签M_E。如果没有一次匹配成功，那么接口探测识别特征的目标风险类型标签可以为空。

在步骤292中，对各类风险特征的目标风险类型标签和与目标风险类型标签对应的风险得分进行融合处理，得到待识别站点的风险信息。

待识别站点的风险信息是根据各类风险特征的目标风险类型标签和与目标风险类型标签对应的风险得分进行综合计算得到的。

在本申请的一个实施例中，对各类风险特征的目标风险类型标签和与目标风险类型标签对应的风险得分进行融合处理，得到待识别站点的风险信息，包括：将各类风险特征的目标风险类型标签和与目标风险类型标签对应的风险得分输入至预先训练好的机器学习模型中，得到待识别站点的风险信息。

预先训练好的机器学习模型可以基于各种机器学习算法训练而成，预先训练好的机器学习模型可以对各类风险特征的目标风险类型标签和与目标风险类型标签对应的风险得分进行综合分析，从而得到准确的待识别站点的风险信息。

在本申请的一个实施例中，对各类风险特征的目标风险类型标签和与目标风险类型标签对应的风险得分进行融合处理，得到待识别站点的风险信息，包括：根据各类风险特征的目标风险类型标签确定待识别站点的风险类型标签；根据与各类风险特征的目标风险类型标签对应的风险得分确定待识别站点的风险得分。

待识别站点的风险信息包括待识别站点的风险类型标签和待识别站点的风险得分。具体地，可以将各类风险特征的目标风险类型标签输入至预定标签识别模型来得到待识别站点的风险类型标签，可以与各类风险特征的目标风险类型标签对应的风险得分输入至预定得分预测模型来得到待识别站点的风险得分。预定标签识别模型和预定得分预测模型可以是各种模型构建而成的，例如，预定得分预测模型可以是基于逻辑回归模型构建而成的。

在本申请的一个实施例中，各类风险特征均具有对应的权重系数，根据与各类风险特征的目标风险类型标签对应的风险得分确定待识别站点的风险得分，包括：根据各类风险特征对应的权重系数确定与各类风险特征的目标风险类型标签对应的风险得分的加权和，作为待识别站点的风险得分。

如前所述，模型使用的多类风险特征包括图种识别特征、网站框架识别特征、接口探测识别特征和关键词特征，此外还包括域名风险特征这一类特殊的风险特征。对于这五类风险特征，可以利用如下公式得到待识别站点的风险得分S_U：

S_U＝*S_A+*_B+*_C+*_D+*_E

其中，S_A为A特征的目标风险类型标签对应的风险得分，S_B为B特征的目标风险类型标签对应的风险得分，以此类推；a、b、c、d、e分别为A、B、C、D、E这五类特征对应的权重系数，关于a、b、c、d、e以及A、B、C、D、E所对应的风险特征已在表1中进行介绍，此处不再赘述。权重系数需满足：

a+b+c+d+e＝1

各权重系数的取值可以根据经验或者实际情况来设置，例如依照特征本身的特点，再结合实际模型运行的效果反馈，可以将各权重参数的取值设置为：

权重参数	a	b	c	d	e
						建议值	0.12	0.08	0.3	0.2	0.3

表2

根据表2可知，其列出的各权重参数的取值与表1中各权重的高低关系是对应的。

待识别站点的风险类型标签可以是与某一类风险特征的目标风险类型标签，也可以是其他形式的标签。

在本申请的一个实施例中，根据各类风险特征的目标风险类型标签确定待识别站点的风险类型标签，包括：在各类风险特征中确定对应的权重系数和风险得分之积最大的目标风险特征；将目标风险特征的目标风险类型标签作为待识别站点的风险类型标签。

在本申请的一个实施例中，根据各类风险特征的目标风险类型标签确定待识别站点的风险类型标签，包括：在各类风险特征中确定对应的权重系数最大且对应的目标风险类型标签不为空的目标风险特征；将目标风险特征的目标风险类型标签作为待识别站点的风险类型标签。

具体地，由于每类风险特征都具有对应的权重系数，目标风险特征可以通过如下方式确定出来：按照权重系数从大到小的顺序对各类风险特征进行排序；从排序在最前的风险特征开始，判断每类风险特征对应的目标风险类型标签是否为空，并将对应的目标风险类型标签不为空的首类风险特征作为目标风险特征。

如前所述，由于域名风险特征(B)不具备判断风险类型的能力，因此，域名风险特征不参与待识别站点的风险类型标签的生成，根据表2中的权重系数可以确定，A、C、D、E这四类风险特征对应的目标风险类型标签的判断顺序为M_E、M_C、M_D、M_A，即待识别站点的风险类型标签依次取M_E、M_C、M_D、M_A这四个目标风险类型标签中的非空值。

图11示出了根据本申请的一个实施例的图2实施例中步骤290之后步骤的流程图。请参见图11所示，在步骤290之后该方法还可以包括：

在步骤2100中，将与至少一类风险特征对应的预设风险比对信息与其他站点的相应信息进行比对，并将比对成功的站点作为目标站点。

在步骤2110中，将与其他类风险特征对应的预设风险比对信息与目标站点的相应信息进行比对，以确定目标站点的风险信息。

具体地，风险网站绝大部分是基于HTTP协议搭建，并不存在协议层面的SSL加密，鉴于此，我们可以根据云平台的流量数据做更大规模的特征扩散。

对于关键词特征，可以根据模型配置的关键词，对于机房的所有出口HTTP流量包体数据做关键词筛查，将命中的录入模型，进行其他类型特征的筛查。

对于域名风险特征，可以提取所有入口HTTP流量Header中的Host字段，进行域名风险判断，对于风险较高的录入模型，进行其他类型特征的筛查。

对于图种识别特征，可以提取所有出口HTTP流量且content-type为如image/png等图片格式的流量数据，进行相应哈希算法计算，对于匹配命中特征哈希库的录入模型，进行其他类型特征的筛查。

对于网站框架识别特征，可以提取所有出口HTTP流量且content-type为“application/javascript”、“text/html”、“text/css”的包体数据，进行相应的哈希计算，对于匹配命中特征哈希库的录入模型，进行其他类型特征的筛查。

对于接口探测识别特征，可以提取所有入口HTTP流量匹配相应访问路径，将返回结果与特征返回结果匹配，对于匹配命中特征的录入模型，进行其他类型特征的筛查。

在流量筛查过程中，图种识别和网站框架特征识别可能由于计算量大等原因不适合大规模筛查，可根据实际计算能力选取扩散方案。也可依据其他三项筛查作为前置筛查后，再对筛查结果进行图种识别特征和网站框架识别特征的判断。

图12示出了根据本申请的另一个实施例的图2实施例中步骤290之后步骤的流程图。请参见图12所示，在步骤290之后还可以包括：

在步骤2100'中，在云端中确定与待识别站点依赖的资源关联的用户相关联的其他资源所服务的待识别站点的风险信息。

可以采用本申请实施例提供的方法对云端中与该待识别站点相关联的其他待识别站点，从而得到相应的风险信息。

在步骤2110'中，对其他资源所服务的待识别站点的风险信息和待识别站点的风险信息进行整合，得到用户的风险信息。

可以将对所有待识别站点的识别结果整合归纳到用户层面，可以得到用户的风险得分为：

其中，U_n为站点的标识，

为站点U_n的风险得分；

风险类型标签为：

其中，

为站点U_n的风险类型标签。

用户的风险信息即为基本的用户模型，另外，再结合用户资源的使用情况及主体的基本信息，可得到更丰富的用户模型数据，从而得到更完善的用户模型。比如可以得到以下维度的用户模型数据：“风险评分”、“风险类型指标”、“用户地域特征”、“资源地域分布特征”、“资源归属产品分布特征”、“用户资源使用行为特征”、“用户主体行业特征”、“用户主体规模特征”等。

请继续参见图4所示，在用户模型阶段包括以下流程：首先，获得资源特征；然后，基于资源特征归纳形成用户资源情况；最后，结合用户资源情况以主体情况形成用户模型。

形成的用户模型，可用于梳理风险用户群体、了解风险用户的行为特征、针对性进行风险控制、观测风险发展趋势。比如，基于风险评分可以分离出头部风险用户，结合风险类型指标可以指导风险用户的治理措施，资源归属产品分布特征可以用于观测风险发展的分布趋势，分析头部用户都集中在使用哪些产品、使用何种技术架构等。同时，这些用户模型数据也可用于用户群体的扩散，增大风险用户覆盖范围。

图13示出了根据本申请的一个实施例的在确定所述待识别站点的风险信息之后步骤的流程图。如图13所示，可以包括以下步骤：

在步骤1310中，获取在云端为创建待识别站点注册的IP地址。

创建的站点使用IP地址才能被外界访问。

在步骤1320中，确定与IP地址在同一时间段内注册的其他IP地址。

在一段时间内，用户可能在云平台注册多个IP地址。

在步骤1330中，确定其他IP地址对应的站点的风险信息。

其他IP地址也是用来搭建相应的站点的，因此，也可以识别出这些站点的风险信息。

在本申请实施例中，借助于时间段的约束对其他IP地址的站点进行风险筛查，实现了用户层面的风险筛查扩散。

当然，在本申请的其他实施例中，还可以从用户购买资源的IP地址的角度，对同一IP地址购买的资源所服务的其他网站进行风险筛查。

请继续参见图4所示，在用户模型阶段结束后，进入治理阶段，可以采取各种措施进行风险治理，具体如下：首先，进行资源监测；然后，如果监测到风险，则进行资源警告；接着，若风险达到一定程度，则进行资源封禁；最后，进行用户清退。

通过使用本申请实施例提出的模型，分离出了头部风险用户1000多个，通过对这些用户的治理，风险网站的数量下降逾90％，有效缓解了云上的风险。同时，基于较高的准确率，也保证了客户投诉情况的平稳和事故的零发生。

综上所述，本申请实施例提供的站点风险识别方法具有以下优点：通过提出能够更精准进行风险识别的特征，避免了面对复杂多样的待检测网站时出现的误报率高的问题；通过设计了不同权重的复合风险特征模式：避免了单一特征造成的漏检误检问题，通过设计多个风险特征及赋权方式实现对目前大多数风险网站的特征涵盖；通过依靠特有的资源与用户身份的联系，进行资源检测的同时进行用户模型的建立。不依赖单一资源结果，以用户模型结果作为风险标准。既大大降低了误报率，也能通过用户模型进行扩散保证了召回率和治理效率。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的站点风险识别方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的站点风险识别方法的实施例。

图14示出了根据本申请的一个实施例的站点风险识别装置的框图。参照图14所示，根据本申请的一个实施例的站点风险识别装置1400，包括：风险特征确定单元1410、特征风险信息获取单元1420和站点风险信息确定单元1430。风险特征确定单元1410用于确定用于风险识别的多类风险特征，所述多类风险特征包括以下中的至少一类特征：图种识别特征、网站框架识别特征和接口探测识别特征；所述图种识别特征对应的特征信息是所述待识别站点中图片资源的至少一种指纹信息，所述网站框架识别特征对应的特征信息是所述待识别站点中源码文件的指纹信息，所述接口探测识别特征对应的特征信息是所述待识别站点中接口的返回结果的至少一部分；特征风险信息获取单元1420用于针对待识别站点，获取与所述多类风险特征中每类风险特征对应的风险信息；所述风险信息包括至少一个风险类型标签和与所述风险类型标签对应的风险得分，各类风险特征对应的风险信息是通过将各类风险特征对应的特征信息与各类风险特征对应的预设风险比对信息进行比对得到的；站点风险信息确定单元1430用于根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息。

在本申请的一些实施例中，基于前述方案，所述多类风险特征还包括关键词特征，与所述关键词特征对应的所述预设风险比对信息为风险关键词和风险类型标签映射表，特征风险信息获取单元1420配置为：从所述待识别站点中提取至少一个关键词；确定所述至少一个关键词在所述风险关键词和风险类型标签映射表中的比对结果，并根据所述比对结果得到与所述关键词特征对应的风险信息。

在本申请的一些实施例中，基于前述方案，所述装置还包括图片资源获取单元、指纹信息生成单元和第一构建单元；在获取与所述多类风险特征中每类风险特征对应的风险信息之前，各单元分别用于执行以下操作：图片资源获取单元用于获取已知风险站点的图片资源；所述指纹信息生成单元用于为所述图片资源生成文件指纹和图像指纹中的至少一种指纹信息，，所述文件指纹是通过对图片资源进行哈希运算得到的指纹信息，所述图像指纹用来进行相似度比对的指纹信息；所述第一构建单元用于根据所述至少一种指纹信息构建图种指纹和风险类型标签映射表，并将所述图种指纹和风险类型标签映射表作为图种识别特征对应的预设风险比对信息。

在本申请的一些实施例中，基于前述方案，所述装置还包括源码文件获取单元、哈希单元、剔除单元和第二构建单元；在获取与多类风险特征中每类风险特征对应的风险信息之前，各单元分别用于执行以下操作：所述源码文件获取单元用于获取已知风险站点的源码文件；所述哈希单元用于对各所述源码文件进行哈希运算，得到各源码文件的指纹信息；所述剔除单元用于在所有指纹信息中剔除白名单信息，得到风险源码文件指纹信息；所述第二构建单元用于根据所述风险源码文件指纹信息构建源码文件指纹信息和风险类型标签映射表，并将所述源码文件指纹信息和风险类型标签映射表作为所述网站框架识别特征对应的预设风险比对信息；特征风险信息获取单元1420配置为：获取所述待识别站点的待识别源码文件；对各所述待识别源码文件进行哈希运算，得到各待识别源码文件的待识别指纹信息；确定所述待识别指纹信息在所述源码文件指纹信息和风险类型标签映射表中的比对结果，并根据所述比对结果得到与所述网站框架识别特征对应的风险信息。

在本申请的一些实施例中，基于前述方案，站点风险信息确定单元1420配置为：根据与所述多类风险特征中每类风险特征对应的风险信息，确定各类风险特征的目标风险类型标签和与所述目标风险类型标签对应的风险得分；对各类风险特征的目标风险类型标签和与所述目标风险类型标签对应的风险得分进行融合处理，得到所述待识别站点的风险信息。

在本申请的一些实施例中，基于前述方案，在确定所述待识别站点的风险信息之后，站点风险信息确定单元1420还用于：在云端中确定与所述待识别站点依赖的资源关联的用户相关联的其他资源所服务的站点的风险信息；对其他资源所服务的站点的风险信息和所述待识别站点的风险信息进行整合，得到所述用户的风险信息。

在本申请的一些实施例中，基于前述方案，在确定所述待识别站点的风险信息之后，站点风险信息确定单元1420还用于：将与至少一类风险特征对应的预设风险比对信息与其他站点的相应信息进行比对，并将比对成功的站点作为目标站点；将与其他类风险特征对应的预设风险比对信息与所述目标站点的相应信息进行比对，以确定所述目标站点的风险信息。

在本申请的一些实施例中，基于前述方案，在确定所述待识别站点的风险信息之后，站点风险信息确定单元1420还用于：获取在云端为创建所述待识别站点注册的IP地址；确定与所述IP地址在同一时间段内注册的其他IP地址；确定所述其他IP地址对应的站点的风险信息。

需要说明的是，图15示出的电子设备的计算机系统1500仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算机系统1500包括中央处理单元(Central Processing Unit，CPU)1501，其可以根据存储在只读存储器(Read-Only Memory，ROM)1502中的程序或者从存储部分1508加载到随机访问存储器(Random Access Memory，RAM)1503中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1503中，还存储有系统操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(Input/Output，I/O)接口1505也连接至总线1504。

以下部件连接至I/O接口1505：包括键盘、鼠标等的输入部分1506；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1507；包括硬盘等的存储部分1508；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1510上，以便于从其上读出的计算机程序根据需要被安装入存储部分1508。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1509从网络上被下载和安装，和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(CPU)1501执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

可以理解的是，在本申请的具体实施方式中，涉及到与站点风险识别相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种站点风险识别方法，其特征在于，所述方法包括：

确定用于风险识别的多类风险特征，所述多类风险特征包括以下中的至少一类特征：图种识别特征、网站框架识别特征和接口探测识别特征；所述图种识别特征对应的特征信息是所述待识别站点中图片资源的至少一种指纹信息，所述网站框架识别特征对应的特征信息是所述待识别站点中源码文件的指纹信息，所述接口探测识别特征对应的特征信息是所述待识别站点中接口的返回结果的至少一部分；

针对待识别站点，获取与所述多类风险特征中每类风险特征对应的风险信息；所述风险信息包括至少一个风险类型标签和与所述风险类型标签对应的风险得分，各类风险特征对应的风险信息是通过将各类风险特征对应的特征信息与各类风险特征对应的预设风险比对信息进行比对得到的；

根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息。

2.根据权利要求1所述的站点风险识别方法，其特征在于，所述多类风险特征还包括关键词特征，与所述关键词特征对应的所述预设风险比对信息为风险关键词和风险类型标签映射表，所述获取与所述多类风险特征中每类风险特征对应的风险信息，包括：

从所述待识别站点中提取至少一个关键词；

确定所述至少一个关键词在所述风险关键词和风险类型标签映射表中的比对结果，并根据所述比对结果得到与所述关键词特征对应的风险信息。

3.根据权利要求2所述的站点风险识别方法，其特征在于，在根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息之前，所述方法还包括：

获取所述待识别站点的域名信息；

通过预先建立的域名风险研判模型对所述域名信息进行文本的风险程度分析，得到与域名风险特征对应的风险得分；

所述根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息，包括：

对与所述多类风险特征中每类风险特征对应的风险信息和与所述域名风险特征对应的风险得分进行融合处理，得到所述待识别站点的风险信息。

4.根据权利要求1所述的站点风险识别方法，其特征在于，在获取与所述多类风险特征中每类风险特征对应的风险信息之前，所述方法还包括：

获取已知风险站点的图片资源；

为所述图片资源生成文件指纹和图像指纹中的至少一种指纹信息，所述文件指纹是通过对图片资源进行哈希运算得到的指纹信息，所述图像指纹用来进行相似度比对的指纹信息；

根据所述至少一种指纹信息构建图种指纹和风险类型标签映射表，并将所述图种指纹和风险类型标签映射表作为图种识别特征对应的预设风险比对信息。

5.根据权利要求1所述的站点风险识别方法，其特征在于，在获取与所述多类风险特征中每类风险特征对应的风险信息之前，所述方法还包括：

获取已知风险站点的源码文件；

对各所述源码文件进行哈希运算，得到各源码文件的指纹信息；

在所有指纹信息中剔除白名单信息，得到风险源码文件指纹信息；

根据所述风险源码文件指纹信息构建源码文件指纹信息和风险类型标签映射表，并将所述源码文件指纹信息和风险类型标签映射表作为所述网站框架识别特征对应的预设风险比对信息；

所述获取与所述多类风险特征中每类风险特征对应的风险信息，包括：

获取所述待识别站点的待识别源码文件；

对各所述待识别源码文件进行哈希运算，得到各待识别源码文件的待识别指纹信息；

确定所述待识别指纹信息在所述源码文件指纹信息和风险类型标签映射表中的比对结果，并根据所述比对结果得到与所述网站框架识别特征对应的风险信息。

6.根据权利要求1所述的站点风险识别方法，其特征在于，所述根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息，包括：

根据与所述多类风险特征中每类风险特征对应的风险信息，确定各类风险特征的目标风险类型标签和与所述目标风险类型标签对应的风险得分；

对各类风险特征的目标风险类型标签和与所述目标风险类型标签对应的风险得分进行融合处理，得到所述待识别站点的风险信息。

7.根据权利要求1-6任意一项所述的站点风险识别方法，其特征在于，在确定所述待识别站点的风险信息之后，所述方法还包括：

在云端中确定与所述待识别站点依赖的资源关联的用户相关联的其他资源所服务的站点的风险信息；

对其他资源所服务的站点的风险信息和所述待识别站点的风险信息进行整合，得到所述用户的风险信息。

8.根据权利要求1-6任意一项所述的站点风险识别方法，其特征在于，在确定所述待识别站点的风险信息之后，所述方法还包括：

将与至少一类风险特征对应的预设风险比对信息与其他站点的相应信息进行比对，并将比对成功的站点作为目标站点；

将与其他类风险特征对应的预设风险比对信息与所述目标站点的相应信息进行比对，以确定所述目标站点的风险信息。

9.根据权利要求1-6任意一项所述的站点风险识别方法，在确定所述待识别站点的风险信息之后，所述方法还包括：

获取在云端为创建所述待识别站点注册的IP地址；

确定与所述IP地址在同一时间段内注册的其他IP地址；

确定所述其他IP地址对应的站点的风险信息。

10.一种站点风险识别装置，其特征在于，所述装置包括：

风险特征确定单元，用于确定用于风险识别的多类风险特征，所述多类风险特征包括以下中的至少一类特征：图种识别特征、网站框架识别特征和接口探测识别特征；所述图种识别特征对应的特征信息是所述待识别站点中图片资源的至少一种指纹信息，所述网站框架识别特征对应的特征信息是所述待识别站点中源码文件的指纹信息，所述接口探测识别特征对应的特征信息是所述待识别站点中接口的返回结果的至少一部分；

特征风险信息获取单元，用于针对待识别站点，获取与所述多类风险特征中每类风险特征对应的风险信息；所述风险信息包括至少一个风险类型标签和与所述风险类型标签对应的风险得分，各类风险特征对应的风险信息是通过将各类风险特征对应的特征信息与各类风险特征对应的预设风险比对信息进行比对得到的；

站点风险信息确定单元，用于根据与所述多类风险特征中每类风险特征对应的风险信息，确定所述待识别站点的风险信息。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的站点风险识别方法。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的站点风险识别方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至9中任一项所述的站点风险识别方法。