CN114900363A

CN114900363A - 一种恶意网站识别方法、装置、电子设备及存储介质

Info

Publication number: CN114900363A
Application number: CN202210539411.2A
Authority: CN
Inventors: 唐宇飞; 王顺
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-12
Anticipated expiration: 2042-05-18
Also published as: CN114900363B

Abstract

本发明提供一种恶意网站识别方法、装置、电子设备及存储介质，涉及网络安全领域，方法包括：获取恶意网站的网页指纹信息以及待检测网站对应的网页特征信息；利用网页指纹信息生成第一哈希值，以及利用网页特征信息生成第二哈希值；利用第一哈希值确定第一分区号，并将网页指纹信息分配至第一分区号对应的分区；分区的数量小于网页指纹信息的数量；利用第二哈希值确定第二分区号，并利用第二分区号对应的分区所具有的目标网页指纹信息对网页特征信息进行检测，以确定待检测网站是否属于恶意网站；可通过分区匹配方式降低恶意网站识别的匹配计算量，避免采用全量网页指纹信息进行恶意网站识别带来的效率低下问题，进而可提升恶意网站的识别速率。

Description

一种恶意网站识别方法、装置、电子设备及存储介质

技术领域

本发明涉及网络安全领域，特别涉及一种恶意网站识别方法、装置、电子设备及存储介质。

背景技术

恶意网站是指包含网络淫秽色情、网络赌博、网络诈骗等有害信息的网站。由于当下利用互联网新技术产生的新型网络犯罪形式层出不穷，且网络黑灰产也呈现出了黑灰色产业链的发展趋势，因此对恶意网站的及时发现及处理，对打击网络犯罪具有重要意义。

相关技术中，恶意网站识别方法通常已知恶意网站的网页指纹信息进行全量匹配识别。然而网页指纹信息的数量较大，上述方式容易增加匹配量，进而容易降低匹配效率及恶意网站识别速率。

发明内容

本发明的目的是提供一种恶意网站识别方法、装置、电子设备及存储介质，可通过分区匹配方式降低恶意网站识别的匹配计算量，进而可提升恶意网站的识别速率。

为解决上述技术问题，本发明提供一种恶意网站识别方法，包括：

获取恶意网站的网页指纹信息以及待检测网站对应的网页特征信息；

利用所述网页指纹信息生成第一哈希值，以及利用所述网页特征信息生成第二哈希值；

利用所述第一哈希值确定第一分区号，并将所述网页指纹信息分配至所述第一分区号对应的分区；所述分区的数量小于所述网页指纹信息的数量；

利用所述第二哈希值确定第二分区号，并利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测，以确定所述待检测网站是否属于所述恶意网站。

可选地，所述获取待检测网站对应的网页特征信息，包括：

利用爬虫程序在所述待检测网站中提取初始网页特征信息；

利用JSON格式的预设模板整合所述初始网页特征信息，得到所述网页特征信息。

可选地，在得到所述网页特征信息之后，还包括：

将所述网页特征信息转换为弹性分布式数据集；

相应的，所述利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测，包括：

利用所述目标网页指纹信息对转换为所述弹性分布式数据集的网页特征信息进行检测。

可选地，在将所述网页指纹信息分配至所述第一分区号对应的分区之后，还包括：

将所述网页指纹信息保存至所述第一分区号对应的分区所属的分布式存储中。

可选地，所述利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测，包括：

在Spark计算平台中，将所述目标网页指纹信息输入至基于有向无环图构建的检测框架中；

利用所述检测框架对所述网页特征信息进行检测。

可选地，在利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测之后，还包括：

若确定所述待检测网站属于所述恶意网站，则为所述网页特征信息添加预设标识，并将添加了所述预设标识的网页特征信息保存至Hive数据仓库。

可选地，所述利用所述第一哈希值确定第一分区号，包括：

利用所述分区的数量与所述第一哈希值进行模运算，得到所述第一分区号；

相应的，所述利用所述第二哈希值确定第二分区号，包括：

利用所述分区的数量与所述第二哈希值进行所述模运算，得到所述第二分区号。

本发明还提供一种恶意网站识别装置，包括：

获取模块，用于获取恶意网站的网页指纹信息以及待检测网站对应的网页特征信息；

哈希值生成模块，用于利用所述网页指纹信息生成第一哈希值，以及利用所述网页特征信息生成第二哈希值；

网页指纹信息分配模块，用于利用所述第一哈希值确定第一分区号，并将所述网页指纹信息分配至所述第一分区号对应的分区；所述分区的数量小于所述网页指纹信息的数量；

恶意网站检测模块，用于利用所述第二哈希值确定第二分区号，并利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测，以确定所述待检测网站是否属于所述恶意网站。

本发明还提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的恶意网站识别方法的步骤。

本发明还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的恶意网站识别方法的步骤。

本发明提供一种恶意网站识别方法，包括：获取恶意网站的网页指纹信息以及待检测网站对应的网页特征信息；利用所述网页指纹信息生成第一哈希值，以及利用所述网页特征信息生成第二哈希值；利用所述第一哈希值确定第一分区号，并将所述网页指纹信息分配至所述第一分区号对应的分区；所述分区的数量小于所述网页指纹信息的数量；利用所述第二哈希值确定第二分区号，并利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测，以确定所述待检测网站是否属于所述恶意网站。

可见，本发明首先会获取现有恶意网站的网页指纹信息，以及待检测网站对应网页特征信息，并分别利用网页指纹信息及网页特征信息生成第一哈希值及第二哈希值；随后，本发明可利用第一哈希值确定第一分区号，并将网页指纹信息分配至与第一分区号对应的分区中，即能够将所有网页指纹信息划分至若干个分区中，进而本发明还可利用第二哈希值确定第二分区号，并利用第二分区号对应分区所具有的目标网页指纹信息对所述网页特征信息进行检测，即能够通过分区匹配方式降低恶意网站识别的匹配计算量，避免采用全量网页指纹信息进行恶意网站识别容易导致的效率低下问题，进而可有效提升恶意网站的识别速率。本发明还提供一种恶意网站识别装置、电子设备及存储介质，具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种恶意网站识别方法的流程图；

图2为本发明实施例所提供的一种恶意网站识别装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，恶意网站识别方法通常已知恶意网站的网页指纹信息进行全量匹配识别。然而网页指纹信息的数量较大，上述方式容易增加匹配量，进而容易降低匹配效率及恶意网站识别速率。有鉴于此，本发明提供一种恶意网站识别方法，可通过分区匹配方式降低恶意网站识别的匹配计算量，进而可提升恶意网站的识别速率。请参考图1，图1为本发明实施例所提供的一种恶意网站识别方法的流程图，该方法可以包括：

S101、获取恶意网站的网页指纹信息以及待检测网站对应的网页特征信息。

本发明首先会获取恶意网站的网页指纹信息及待检测网站对应的网页特征信息，其中网页指纹信息是指对涉黑产的网页源代码或网页消息头、响应体或服务使用框架等特征进行业务提取的特征化字符集，网页特征信息为待检测网页中的指定内容，例如网页标题、网页内容、域名、端口等特征信息。本发明实施例并不限定网站指纹信息的具体数量，可根据实际应用需求进行设定。本发明实施例也不限定单个待检测网站对应的网页特征信息的类型数量，可根据实际应用需求进行设定。具体的，网页指纹信息通常已经过清洗处理，可直接获取使用；而网络特征信息即可直接获取已完成清洗处理的，也可以利用爬虫程序从待检测网站中进行爬取。在本发明实施例中，为便于获取，可直接利用爬虫程序从待检测网站中提取初始网页特征信息，在对后者进行清洗格式化后得到待使用的网页特征信息。需要说明的是，本发明实施例并不限定具体的爬虫程序，可根据实际应用需求进行处理。本发明实施例也不限定对初始网页特征信息进行清洗格式化的具体方式，例如可利用JSON格式(JavaScript Object Notation，JavaScript对象简谱)的预设模板整合初始网络特征信息，得到网页特征信息。

在一种可能的情况中，获取待检测网站对应的网页特征信息，可以包括：

步骤11：利用爬虫程序在待检测网站中提取初始网页特征信息；

步骤12：利用JSON格式的预设模板整合初始网页特征信息，得到网页特征信息。

当然，在爬取到网页特征信息后，也可将其保存在文件存储系统中，例如可保存至HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)分布式文件存储系统中，以便在分布式存储中对网页特征信息进行检测。进一步，在使用JSON格式的网页特征信息时，也可采用利用Hive构建的分布式计算框架对JSON数据进行解析。

S102、利用网页指纹信息生成第一哈希值，以及利用网页特征信息生成第二哈希值。

需要说明的是，本发明实施例并不限定哈希值的生成方式，例如可采用int算法，可根据实际应用需求进行设定。

S103、利用第一哈希值确定第一分区号，并将网页指纹信息分配至第一分区号对应的分区；分区的数量小于网页指纹信息的数量。

在本发明实施例中，为实现降低恶意网站识别的计算量的目的，首先对网页指纹信息进行了分区。具体的，本发明实施例首先利用网页指纹信息对应的第一哈希值确定了一个分区号，该分区号与具体的分区相对应。随后，本发明实施例会将网页指纹信息分配至对应的分区中。换而言之，本发明实施例可将网页指纹信息划分至多个分区中。此外，本发明实施例特将分区的数量设置为小于网页指纹信息的数量，这样，可通过分区识别的方式减低恶意网站识别计算量。例如，在处理亿量级别的网页识别时，假若原本指纹信息的数量为N，原本的计算强度为亿*N，则调整为分区识别后，计算强度可以降维到亿*分区数量，能够大幅降低计算量，尤其在处理大规模黑产识别任务时能够大幅提升处理效率。

需要说明的是，本发明实施例并不限定分区号的确定方式，例如为便于设置，可利用预设的分区数量与第一哈希值进行模运算，并将余数作为分区号。

在一种可能的情况中，利用第一哈希值确定第一分区号，可以包括：

步骤21：利用分区的数量与第一哈希值进行模运算，得到第一分区号；

进一步，在确定网页指纹信息对应的分区之后，可将这些信息保存至该分区对应的分布式存储中，以便利用分布式系统进行恶意网站识别处理。需要说明的是，本发明实施例并不限定具体的分布式存储，可参考分布式存储的相关技术。

在一种可能的情况中，在将网页指纹信息分配至第一分区号对应的分区之后，还包括：

步骤31：将网页指纹信息保存至第一分区号对应的分区所属的分布式存储中。

S104、利用第二哈希值确定第二分区号，并利用第二分区号对应的分区所具有的目标网页指纹信息对网页特征信息进行检测，以确定待检测网站是否属于恶意网站。

由于预先对网页指纹信息进行分区，因此在对网页特征信息进行检测时，也会利用其对应的第二哈希值确定对应的分区号，以利用对应分区的目标网络指纹信息对其检测。同样，第二分区号的确定方式也可以为利用预设的分区数量与第二哈希值进行模运算，并将余数作为第二分区号。

在一种可能的情况总，利用第二哈希值确定第二分区号，可以包括：

步骤41：利用分区的数量与第二哈希值进行模运算，得到第二分区号。

进一步，考虑到网页特征信息的识别通常会包含若干中间过程，假若网页特征信息保存在慢速存储设备上，则每次读取该数据都会损耗大量时间。因此，可在得到网页特征信息时，便将其转换为弹性分布式数据集，其中弹性分布式数据集(RDD，ResilientDistributed Dataset)是大数据处理平台的一种数据格式，其不仅能够确保大数据处理平台始终利用内存这类高速缓存设备处理网页特征信息，同时也更适合分布式系统，即便于使用分布式系统进一步提升恶意网站识别处理的效率。

在一种可能的情况中，在得到网页特征信息之后，还可以包括：

步骤51：将网页特征信息转换为弹性分布式数据集；

相应的，利用第二分区号对应的分区所具有的目标网页指纹信息对网页特征信息进行检测，可以包括：

步骤61：利用目标网页指纹信息对转换为弹性分布式数据集的网页特征信息进行检测。

进一步，为提升恶意网站识别处理的效率，可采用大数据处理平台对网页特征信息进行检测。本发明实施例并不限定具体的大数据处理平台，例如可以为Spark平台。本发明实施例也不限定Spark平台所利用的检测框架，例如可利用基于有向无环图(DAG，Directed acyclic graph)构建的检测框架对网页特征信息进行检测。具体的，该框架在使用过程中，需将目标网页指纹信息输入其中，以便按顺序利用目标网页指纹信息对网页特征信息进行检测。

在一种可能的情况中，利用第二分区号对应的分区所具有的目标网页指纹信息对网页特征信息进行检测，可以包括：

步骤71：在Spark计算平台中，将目标网页指纹信息输入至基于有向无环图构建的检测框架中；

步骤72：利用检测框架对网页特征信息进行检测。

进一步，当发现待检测网页属于恶意网页时，即可执行告警操作，也可将其所对应的网页特征信息进行保存，以便丰富黑产资源信息。可以理解的是，在进行信息保存时，可为网页特征信息添加预设标识，例如添加可表明待检测网页所属黑产类型(如淫秽色情、赌博等)的标识信息。进一步，本发明实施例并不限定网页特征信息的具体保存位置，例如可保存在Spark系统常使用的Hive数据仓库中。

在一种可能的情况中，在利用第二分区号对应的分区所具有的目标网页指纹信息对网页特征信息进行检测之后，还可以包括：

步骤81：若确定待检测网站属于恶意网站，则为网页特征信息添加预设标识，并将添加了预设标识的网页特征信息保存至Hive数据仓库。

基于上述实施例，本发明首先会获取现有恶意网站的网页指纹信息，以及待检测网站对应网页特征信息，并分别利用网页指纹信息及网页特征信息生成第一哈希值及第二哈希值；随后，本发明可利用第一哈希值确定第一分区号，并将网页指纹信息分配至与第一分区号对应的分区中，即能够将所有网页指纹信息划分至若干个分区中，进而本发明还可利用第二哈希值确定第二分区号，并利用第二分区号对应分区所具有的目标网页指纹信息对所述网页特征信息进行检测，即能够通过分区匹配方式降低恶意网站识别的匹配计算量，避免采用全量网页指纹信息进行恶意网站识别容易导致的效率低下问题，进而可有效提升恶意网站的识别速率。

下面对本发明实施例提供的恶意网站识别装置、电子设备及存储介质进行介绍，下文描述的恶意网站识别装置、电子设备及存储介质与上文描述的恶意网站识别方法可相互对应参照。

请参考图2，图2为本发明实施例所提供的一种恶意网站识别装置的结构框图，该装置可以包括：

获取模块201，用于获取恶意网站的网页指纹信息以及待检测网站对应的网页特征信息；

哈希值生成模块202，用于利用网页指纹信息生成第一哈希值，以及利用网页特征信息生成第二哈希值；

网页指纹信息分配模块203，用于利用第一哈希值确定第一分区号，并将网页指纹信息分配至第一分区号对应的分区；分区的数量小于网页指纹信息的数量；

恶意网站检测模块204，用于利用第二哈希值确定第二分区号，并利用第二分区号对应的分区所具有的目标网页指纹信息对网页特征信息进行检测，以确定待检测网站是否属于恶意网站。

可选地，获取模块201，可以包括：

爬虫子模块，用于利用爬虫程序在待检测网站中提取初始网页特征信息；

网页特征信息整合子模块，用于利用JSON格式的预设模板整合初始网页特征信息，得到网页特征信息。

可选地，该装置还可以包括：

转换模块，用于将网页特征信息转换为弹性分布式数据集；

相应的，恶意网站检测模块204，具体用于：

利用目标网页指纹信息对转换为弹性分布式数据集的网页特征信息进行检测。

可选地，该装置还可以包括：

保存模块，用于将网页指纹信息保存至第一分区号对应的分区所属的分布式存储中。

可选地，恶意网站检测模块204，包括：

输入子模块，用于在Spark计算平台中，将目标网页指纹信息输入至基于有向无环图构建的检测框架中；

检测子模块，用于利用检测框架对网页特征信息进行检测。

可选地，该装置还可以包括：

保存子模块，用于若确定待检测网站属于恶意网站，则为网页特征信息添加预设标识，并将添加了预设标识的网页特征信息保存至Hive数据仓库。

可选地，网页指纹信息分配模块203，可以包括：

第一分区号确定子模块，用于利用分区的数量与第一哈希值进行模运算，得到第一分区号；

相应的，恶意网站检测模块204，可以包括：

第二分区号确定子模块，用于利用分区的数量与第二哈希值进行模运算，得到第二分区号。

本发明实施例还提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述的恶意网站识别方法的步骤。

由于电子设备部分的实施例与恶意网站识别方法部分的实施例相互对应，因此电子设备部分的实施例请参见恶意网站识别方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的恶意网站识别方法的步骤。

由于存储介质部分的实施例与恶意网站识别方法部分的实施例相互对应，因此存储介质部分的实施例请参见恶意网站识别方法部分的实施例的描述，这里暂不赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种恶意网站识别方法、装置、电子设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种恶意网站识别方法，其特征在于，包括：

2.根据权利要求1所述的恶意网站识别方法，其特征在于，所述获取待检测网站对应的网页特征信息，包括：

利用爬虫程序在所述待检测网站中提取初始网页特征信息；

3.根据权利要求2所述的恶意网站识别方法，其特征在于，在得到所述网页特征信息之后，还包括：

将所述网页特征信息转换为弹性分布式数据集；

4.根据权利要求1所述的恶意网站识别方法，其特征在于，在将所述网页指纹信息分配至所述第一分区号对应的分区之后，还包括：

5.根据权利要求1所述的恶意网站识别方法，其特征在于，所述利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测，包括：

利用所述检测框架对所述网页特征信息进行检测。

6.根据权利要求1所述的恶意网站识别方法，其特征在于，在利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测之后，还包括：

7.根据权利要求1至6任一项所述的恶意网站识别方法，其特征在于，所述利用所述第一哈希值确定第一分区号，包括：

相应的，所述利用所述第二哈希值确定第二分区号，包括：

8.一种恶意网站识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的恶意网站识别方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的恶意网站识别方法的步骤。