CN115208677A

CN115208677A - 一种恶意网址识别方法及装置

Info

Publication number: CN115208677A
Application number: CN202210849195.1A
Authority: CN
Inventors: 孙亚东; 王宁; 李国松; 谭咏茂; 蔚晨; 吴海洋; 张荣臻; 向小佳; 黄时光; 丁永建; 李璠
Original assignee: Everbright Technology Co ltd
Current assignee: Everbright Technology Co ltd
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-10-18
Anticipated expiration: 2042-07-19
Also published as: CN115208677B

Abstract

本发明提供了一种恶意网址识别方法及装置，该方法包括：采用哈希算法确定待识别网址的预定数量的哈希值；从恶意网址的布隆Bloom结构中确定该待识别网址的预定数量的哈希值对应位置上的数值是否均为1；在该预定数量的哈希值对应位置上的数值均为1的情况下，确定该待识别网站为恶意网址；在该预定数量的哈希值对应位置上的数值不均为1的情况下，确定该待识别网站为非恶意网址，可以解决相关技术中采用原文比对、内容过滤方式识别恶意网址，识别效率低的问题，采用Bloom结构，将恶意网址压缩到一个链表中，在海量恶意网址比对的情况下，大幅降低了恶意网址的存储空间，大大提高了恶意网址识别效率。

Description

一种恶意网址识别方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种恶意网址识别方法及装置。

背景技术

目前WEB应用安全领域的恶意网址识别与网页防挂马主要采用原文比对、内容过滤方式，存在存储空间大、识别效率低的问题。

针对相关技术中采用原文比对、内容过滤方式识别恶意网址，识别效率低的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种恶意网址识别方法及装置，以至少解决相关技术中采用原文比对、内容过滤方式识别恶意网址，识别效率低的问题。

根据本发明的一个实施例，提供了一种恶意网址识别方法，包括：

采用哈希算法确定待识别网址的预定数量的哈希值；

从恶意网址的布隆Bloom结构中确定所述待识别网址的预定数量的哈希值对应位置上的数值是否均为1，其中，所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数值为1；

在所述预定数量的哈希值对应位置上的数值均为1的情况下，确定所述待识别网站为恶意网址；

在所述预定数量的哈希值对应位置上的数值不均为1的情况下，确定所述待识别网站为非恶意网址。

可选地，所述方法还包括：

生成所述Bloom结构，并初始化所述Bloom结构中所有位置的数据值为0；

采用哈希算法生成所述恶意网址的预定数量的哈希值；

将所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数据值置为1。

可选地，所述方法还包括：

在加载所述待识别网址对应的网页时，从服务器获取密钥并解密所述网页上的身份标识密文，得到身份标识明文；

生成规则生成所述网页的身份标识；

将生成的身份标识与所述身份标识明文进行对比；

若所述生成的身份标识与所述身份标识明文相同，确定所述网页未被挂马攻击；

若所述生成的身份标识与所述身份标识明文不相同，确定所述网页被挂马攻击。

可选地，所述方法还包括：

在发布所述待识别网址对应的网页时，生成规则生成所述网页的身份标识，并对所述身份标识进行加密，得到所述身份标识密文。

可选地，生成所述网页的身份标识包括：

采用摘要密码算法SM3生成所述待识别网址对应的网页的全量身份标识；或者

采用摘要密码算法SM3，分别生成网页的网页头、网页尾、网页体的局部身份标识；

其中，所述身份标识为所述全量身份标识或所述局部身份标识。

可选地，所述方法还包括：

以预设时间定期生成随机数，并将所述随机数作为SM3算法的签名密钥，采用所述SM3算法，根据所述签名密钥生成所述网页的网页签名；

将生成的所述网页签名与预先存储的所述网页发布时生成的网页签名进行对比；

若生成的所述网页签名与预先存储的网页签名相同，确定所述网页未被篡改；

若生成的所述网页签名与预先存储的网页签名不相同，确定所述网页被篡改。

可选地，所述方法还包括：

在发布所述待识别网址对应的网页时，生成随机数，并将所述随机数作为SM3算法的签名密钥；

采用所述SM3算法，根据所述签名密钥生成并存储所述网页的网页签名。

根据本发明的另一个实施例，还提供了一种恶意网址识别装置，包括：

第一确定模块，用于采用哈希算法确定待识别网址的预定数量的哈希值；

第二确定模块，用于从恶意网址的布隆Bloom结构中确定所述待识别网址的预定数量的哈希值对应位置上的数值是否均为1，其中，所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数值为1；

第三确定模块，用于在所述预定数量的哈希值对应位置上的数值均为1的情况下，确定所述待识别网站为恶意网址；

第四确定模块，用于在所述预定数量的哈希值对应位置上的数值不均为1的情况下，确定所述待识别网站为非恶意网址。

可选地，所述装置还包括：

初始化模块，用于生成所述Bloom结构，并初始化所述Bloom结构中所有位置的数据值为0；

第一生成模块，用于采用哈希算法生成所述恶意网址的预定数量的哈希值；

设置模块，用于将所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数据值置为1。

可选地，所述装置还包括：

获取模块，用于在加载所述待识别网址对应的网页时，从服务器获取密钥并解密所述网页上的身份标识密文，得到身份标识明文；

第二生成模块，用于生成规则生成所述网页的身份标识；

第一对比模块，用于将生成的身份标识与所述身份标识明文进行对比；

第五确定模块，用于若所述生成的身份标识与所述身份标识明文相同，确定所述网页未被挂马攻击；若所述生成的身份标识与所述身份标识明文不相同，确定所述网页被挂马攻击。

可选地，所述第二生成模块，还用于在发布所述待识别网址对应的网页时，生成规则生成所述网页的身份标识，并对所述身份标识进行加密，得到所述身份标识密文。

可选地，所述第二生成模块，还用于采用摘要密码算法SM3生成所述待识别网址对应的网页的全量身份标识；或者采用摘要密码算法SM3，分别生成网页的网页头、网页尾、网页体的局部身份标识；其中，所述身份标识为所述全量身份标识或所述局部身份标识。

可选地，所述装置还包括：

第一签名模块，用于以预设时间定期生成随机数，并将所述随机数作为SM3算法的签名密钥，采用所述SM3算法，根据所述签名密钥生成所述网页的网页签名；

第二对比模块，用于将生成的所述网页签名与预先存储的所述网页发布时生成的网页签名进行对比；

第六确定模块，用于若生成的所述网页签名与预先存储的网页签名相同，确定所述网页未被篡改；若生成的所述网页签名与预先存储的网页签名不相同，确定所述网页被篡改。

可选地，所述装置还包括：

第二签名模块，用于在发布所述待识别网址对应的网页时，生成随机数，并将所述随机数作为SM3算法的签名密钥；

第三生成模块，用于采用所述SM3算法，根据所述签名密钥生成并存储所述网页的网页签名。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，采用哈希算法确定待识别网址的预定数量的哈希值；从恶意网址的布隆Bloom结构中确定所述待识别网址的预定数量的哈希值对应位置上的数值是否均为1，其中，所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数值为1；在所述预定数量的哈希值对应位置上的数值均为1的情况下，确定所述待识别网站为恶意网址；在所述预定数量的哈希值对应位置上的数值不均为1的情况下，确定所述待识别网站为非恶意网址，可以解决相关技术中采用原文比对、内容过滤方式识别恶意网址，识别效率低的问题，采用Bloom结构，将恶意网址压缩到一个链表中，在海量恶意网址比对的情况下，大幅降低了恶意网址的存储空间，大大提高了恶意网址识别效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的恶意网址识别方法的移动终端的硬件结构框图；

图2是根据本发明实施例的恶意网址识别方法的流程图；

图3是根据本发明实施例的Bloom结构的示意图；

图4是根据本发明实施例的初始化Bloom结构的示意图；

图5是根据本发明实施例的网页内容生成身份标识的示意图；

图6是根据本发明实施例的比对网页身份标识的示意图；

图7是根据本发明实施例的生成网页签名的示意图；

图8是根据本发明实施例的验证网页签名的示意图；

图9是根据本发明实施例的恶意网址识别装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的恶意网址识别方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的恶意网址识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的恶意网址识别方法，图2是根据本发明实施例的恶意网址识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，采用哈希算法确定待识别网址的预定数量的哈希值；

步骤S204，从恶意网址的布隆Bloom结构中确定所述待识别网址的预定数量的哈希值对应位置上的数值是否均为1，其中，所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数值为1；

步骤S206，在所述预定数量的哈希值对应位置上的数值均为1的情况下，确定所述待识别网站为恶意网址；

步骤S208，在所述预定数量的哈希值对应位置上的数值不均为1的情况下，确定所述待识别网站为非恶意网址。

通过上述步骤S202至S208，可以解决相关技术中采用原文比对、内容过滤方式识别恶意网址，识别效率低的问题，采用Bloom结构，将恶意网址压缩到一个链表中，在海量恶意网址比对的情况下，大幅降低了恶意网址的存储空间，大大提高了恶意网址识别效率。

在恶意网址识别过程中，由于恶意网址数据很多，采用明文一一对比发现的识别方式，识别效率低，影响用户体验。本发明实施例采用Bloom结构和Bloom过滤器压缩恶意网址、识别恶意网址的方法，显著提升了恶意网址识别效率。

在一可选的实施例中，所述方法还包括：生成所述Bloom结构，并初始化所述Bloom结构中所有位置的数据值为0；采用哈希算法生成所述恶意网址的预定数量的哈希值；将所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数据值置为1。本发明实施例采用Bloom结构，将恶意网址压缩到一个链表中，在海量恶意网址比对的情况下，大幅降低了恶意网址的存储空间。采用BloomFilter，以识别0/1的方式在常数存储空间中，快速定位恶意网址的哈希值，大幅提升了恶意网址的识别效率。

图3是根据本发明实施例的Bloom结构的示意图，如图3所示，根据BloomFilter原理，将恶意网址压缩为Bloom结构。系统自动生成长度2000字段的每个字段128个比特位的链表，此链表被称为Bloom结构。初始化Bloom结构，图4是根据本发明实施例的初始化Bloom结构的示意图，如图4所示，假设有如下恶意地址：恶意网址1：www.aaa.com；恶意网址2：www.bbb.com；恶意网址3：www.ccc.com。采用哈希128算法，生成恶意网址的128比特位哈希值。使用三个哈希128算法，生成三个哈希值。并将哈希值对应Bloom结构的数据值，置为1。

本发明实施例中恶意网址识别，假设待地址为：恶意网址1：www.ddd.com，识别过程如下：采用Hash128算法，生成待识别网址的128比特位哈希值。使用三个Hash128算法，生成三个哈希值h1、h2、h3。检查Bloom结构h1、h2、h3位置上的数值是否为1。如果全为1，则说明此地址为恶意网址；如果不全为1，则说明此地址不是恶意网址。

在另一可选的实施例中，所述方法还包括：在加载所述待识别网址对应的网页时，从服务器获取密钥并解密所述网页上的身份标识密文，得到身份标识明文；生成规则生成所述网页的身份标识；将生成的身份标识与所述身份标识明文进行对比；若所述生成的身份标识与所述身份标识明文相同，确定所述网页未被挂马攻击；若所述生成的身份标识与所述身份标识明文不相同，确定所述网页被挂马攻击。

在网页挂马检测过程中，由于挂马种类多、行为多样，目前多采用沙箱方式，将网页隔离运行，如果发生危险行为，浏览器即可识别到危险，但是这种方式识别效率很低，如果加入的恶意程序处于潜伏状态，未运行，则无法发现。本发明实施例采国产密码算法SM3的网页挂马识别方法，采用SM3算法为网页生成身份标识，进行网页挂马识别时，无需比对内容或进行输入内容过滤，通过比较新生成的网页身份标识即可判定，通过对比发布状态的网页标识与运行状态的网页标识，快速识别被插入恶意程序的网页，显著提升网页挂马来识别效率。解决了通过过滤器的方式，识别网页挂马的效率低问题。

在另一可选的实施例中，所述方法还包括：在发布所述待识别网址对应的网页时，生成规则生成所述网页的身份标识，具体地可以根据预设的网页身份标识生成规则生成，并对所述身份标识进行加密，得到所述身份标识密文。具体可以采用SM4算法进行加密，采用SM4算法加密网页身份标识，使用攻击者无法还原浏览器客户端的网页身份标识明文，保护了网页身份标识安全与网页内容安全。

在另一可选的实施例中，生成所述网页的身份标识包括：采用摘要密码算法SM3生成所述待识别网址对应的网页的全量身份标识；或者采用摘要密码算法SM3，分别生成网页的网页头、网页尾、网页体的局部身份标识，其中，所述身份标识为所述全量身份标识或所述局部身份标识。

图5是根据本发明实施例的网页内容生成身份标识的示意图，如图5所示，生成网页身份标识包括：

网页全量身份标识，当网页被挂马后，网页中出现了与WEB发布网页不同的内容。因此，可以基于此特点，采用国产摘要密码算法SM3，生成网页的身份标识。网页全量身份标识是指，用网页的全部后台代码生成一个身份标识。

网页局部身份标识，一般情况下，一个网页由页面头、页面尾、页面体三个部分组成。其中页面头和页面尾不易变化，页面体变化较为频繁。基于此特点，将网页为三个部分，采用国产摘要密码算法SM3，分别生成网页局部的身份标识。

网页身份标识加密，在网页发布时，采用国产对称密码算法SM4，加密生成的身份标识。

图6是根据本发明实施例的比对网页身份标识的示意图，如图6所示，检查网页身份标识，网页身份标识解密，在页面加载时，从服务器获得SM4算法的密钥，解密网页上的身份标识，获得身份标识明文。再次生成网页身份标识，根据网页身份标识生成规则，再次生成全局或局部网页身份标识。

对比新生成的网页生成标识与网页发布时包括网页身份标识。如果两个标识相等，说明网页没有并挂马攻击，如果两个标识不相等，说明网页已经被挂马攻击。

在另一可选的实施例中，所述方法还包括：以预设时间定期生成随机数，并将所述随机数作为SM3算法的签名密钥，采用所述SM3算法，根据所述签名密钥生成所述网页的网页签名；将生成的所述网页签名与预先存储的所述网页发布时生成的网页签名进行对比；若生成的所述网页签名与预先存储的网页签名相同，确定所述网页未被篡改；若生成的所述网页签名与预先存储的网页签名不相同，确定所述网页被篡改。

在另一可选的实施例中，所述方法还包括：在发布所述待识别网址对应的网页时，生成随机数，并将所述随机数作为SM3算法的签名密钥；采用所述SM3算法，根据所述签名密钥生成并存储所述网页的网页签名。

在网页篡改检测过程中，由于篡改方式多样，目前多采用内容比对方式，比对识别效率很低。本发明实施例采国产密码算法SM3的网页内容篡改识别方法，通过对比发布状态的网页签名与当前状态的网页签名，快速识别被篡改的网页，显著提升了网页篡改识别效率。

图7是根据本发明实施例的生成网页签名的示意图，如图7所示，发布WEB网页时，系统生成随机数，作为SM3算法的签名密钥。系统采用SM3算法，生成网页内容签名。加密保存签名密钥，系统采用SM2算法，加密保存随机数。系统存储网页签名。

图8是根据本发明实施例的验证网页签名的示意图，如图8所示，生成网页签名，系统定期采用SM3算法以及签名时使用的随机数密钥，生成网页签名。将新生成的网页签名与旧的网页比对，如果签名一致，则说明网页未被篡改。如果篡改不一致，则说明网页已被篡改。

根据本发明的另一个实施例，还提供了一种恶意网址识别装置，图9是根据本发明实施例的恶意网址识别装置的框图，如图9所示，包括：

第一确定模块92，用于采用哈希算法确定待识别网址的预定数量的哈希值；

第二确定模块94，用于从恶意网址的布隆Bloom结构中确定所述待识别网址的预定数量的哈希值对应位置上的数值是否均为1，其中，所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数值为1；

第三确定模块96，用于在所述预定数量的哈希值对应位置上的数值均为1的情况下，确定所述待识别网站为恶意网址；

第四确定模块98，用于在所述预定数量的哈希值对应位置上的数值不均为1的情况下，确定所述待识别网站为非恶意网址。

可选地，所述装置还包括：

第二生成模块，用于生成规则生成所述网页的身份标识；

可选地，所述装置还包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，采用哈希算法确定待识别网址的预定数量的哈希值；

S2，从恶意网址的布隆Bloom结构中确定所述待识别网址的预定数量的哈希值对应位置上的数值是否均为1，其中，所述Bloom结构中所述恶意网址的预定数量的哈希值对应位置上的数值为1；

S3，在所述预定数量的哈希值对应位置上的数值均为1的情况下，确定所述待识别网站为恶意网址；

S4，在所述预定数量的哈希值对应位置上的数值不均为1的情况下，确定所述待识别网站为非恶意网址。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，采用哈希算法确定待识别网址的预定数量的哈希值；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种恶意网址识别方法，其特征在于，包括：

采用哈希算法确定待识别网址的预定数量的哈希值；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用哈希算法生成所述恶意网址的预定数量的哈希值；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

生成规则生成所述网页的身份标识；

将生成的身份标识与所述身份标识明文进行对比；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3或4所述的方法，其特征在于，生成所述网页的身份标识包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

以预设时间定期生成随机数，并将所述随机数作为SM3算法的签名密钥，采用所述SM3算法，根据所述签名密钥生成网页的网页签名；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种恶意网址识别装置，其特征在于，包括：

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的方法。