CN115967562A

CN115967562A - 基于聚类算法的二维码恶意网站检测方法及装置

Info

Publication number: CN115967562A
Application number: CN202211659559.6A
Authority: CN
Inventors: 姚若楠; 刘佳男; 肖新光
Original assignee: Antiy Technology Group Co Ltd
Current assignee: Antiy Technology Group Co Ltd
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-04-14

Abstract

本发明提供了一种基于聚类算法的二维码恶意网站检测方法及装置，其中方法包括：当检测到二维码的扫描事件时，获取该二维码所对应目标网站的目标特征信息；基于属于合法网站分类的样本点和属于恶意网站分类的样本点，利用聚类算法计算所述目标特征信息与每一个分类所对应中心点的距离；将最小距离对应的分类确定为所述目标网站的分类。本方案，能够快速且准确的检测出二维码所对应网站是否为恶意网站。

Description

基于聚类算法的二维码恶意网站检测方法及装置

技术领域

本发明实施例涉及网络安全技术领域，特别涉及一种基于聚类算法的二维码恶意网站检测方法及装置。

背景技术

随着互联网应用的发展，越来越多用户通过手机扫描二维码的方式来浏览网页信息。同时，二维码逐渐成为攻击者传播恶意软件的新方式，针对移动用户的恶意网站也越来越多。当移动用户扫描带有恶意网站的二维码时，可能会被定向到钓鱼网站，还可能被诱导下载安装恶意软件，这些操作都可能导致用户信息泄露、账户密码被盗，甚至造成财产损失等问题。

现有技术中，通过搜集恶意网站的URL链接以生成黑名单，利用黑名单对二维码所对应网站的URL进行匹配，若匹配到，则确定该二维码对应网站为恶意网站。但是，黑名单所涵盖恶意网站的URL有限，检测准确性较低。

发明内容

本发明实施例提供了一种基于聚类算法的二维码恶意网站检测方法及装置，能够快速且准确的检测出二维码所对应网站是否为恶意网站。

第一方面，本发明实施例提供了一种基于聚类算法的二维码恶意网站检测方法，包括：

当检测到二维码的扫描事件时，获取该二维码所对应目标网站的目标特征信息；

基于属于合法网站分类的样本点和属于恶意网站分类的样本点，利用聚类算法计算所述目标特征信息与每一个分类所对应中心点的距离；

将最小距离对应的分类确定为所述目标网站的分类。

在一种可能的实现方式中，所述获取该二维码所对应目标网站的目标特征信息，包括：

从该二维码中解析出所述目标网站的网站信息；

根据解析出的网站信息确定所述目标网站的目标特征信息。

在一种可能的实现方式中，所述根据解析出的网站信息确定所述目标网站的目标特征信息，包括：

构建沙箱；

根据解析出的网站信息在所述沙箱中访问所述目标网站，以获取所述目标网站的目标特征信息。

在一种可能的实现方式中，所述目标特征信息包括：源代码、域名、URL长度、域名长度、关键字、特殊字符的数量、是否包括敏感词语、传输协议类型、网页状态码、IP地址地区和网页类型。

在一种可能的实现方式中，在所述基于属于合法网站分类的样本点和属于恶意网站分类的样本点，利用聚类算法计算所述目标特征信息与每一个分类所对应中心点的距离之前，还包括：

将获取的多个合法网站和多个恶意网站作为样本点，并定义合法网站分类和恶意网站分类；

在样本点中随机选择k个中心点，k为不小于2的整数；

针对每一个样本点，计算该样本点与k个初始中心点的距离，并将该样本点划分至最小距离的初始中心点所对应的分类中；

基于重新划分的分类，重新确定每一个分类的中心点，并针对每一个样本点，计算该样本点与中心点的距离，并将该样本点划分至最小距离的中心点所对应的分类中，重复本步骤，直到达到终止条件；

基于终止后的分类，得到属于合法网站分类的样本点、属于恶意网站分类的样本点。

在一种可能的实现方式中，所述重新确定每一个分类的中心点，包括：

将当前分类中各样本点的特征信息的均值作为当前分类的中心点的取值；所述特征信息包括源代码、域名、URL长度、域名长度、关键字、特殊字符的数量、是否包括敏感词语、传输协议类型、网页状态码、IP地址地区和网页类型。

在一种可能的实现方式中，还包括：每隔预设周期，基于当前周期内对各目标网络的分类结果，对属于合法网站分类的样本点和属于恶意网站分类的样本点进行更新。

第二方面，本发明实施例还提供了一种基于聚类算法的二维码恶意网站检测装置，包括：

特征信息获取单元，用于当检测到二维码的扫描事件时，获取该二维码所对应目标网站的目标特征信息；

计算单元，用于基于属于合法网站分类的样本点和属于恶意网站分类的样本点，利用聚类算法计算所述目标特征信息与每一个分类所对应中心点的距离；

分类确定单元，用于将最小距离对应的分类确定为所述目标网站的分类。

第三方面，本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本说明书任一实施例所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本说明书任一实施例所述的方法。

本发明实施例提供了一种基于聚类算法的二维码恶意网站检测方法及装置，预先将多个网站作为样本点以进行分类，一个分类为合法网络分类，另一个分类为恶意网站，当检测到二维码的扫描事件时，获取二维码所对应目标网站的目标特征信息，利用聚类算法计算目标特征信息与每一个分类所对应中心点的距离，并将最小距离对应的分类确定为目标网站的分类，如此可以快速且准确的确定目标网站是属于合法网站还是恶意网站。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于聚类算法的二维码恶意网站检测方法流程图；

图2是本发明一实施例提供的一种电子设备的硬件架构图；

图3是本发明一实施例提供的一种基于聚类算法的二维码恶意网站检测装置结构图；

图4是本发明一实施例提供的另一种基于聚类算法的二维码恶意网站检测装置结构图；

图5是本发明一实施例提供的又一种基于聚类算法的二维码恶意网站检测装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如前所述，利用黑名单匹配方式检测二维码所对应网站是否为恶意网站，需要不断的更新黑名单，因此黑名单涵盖恶意网站的URL有限，无法准确的实现检测。

基于此，本发明的发明构思在于：通过搜集大量的恶意网站和合法网站，采用聚类算法基于恶意网站和合法网站的特征进行分类，并利用聚类算法对二维码网站进行特征提取和检测，如此，即使已知的恶意网站数量有限，也可以基于二维码网站的特征，准确的检测出二维码所对应网站是否为恶意网站。

下面描述以上构思的具体实现方式。

请参考图1，本发明实施例提供了一种基于聚类算法的二维码恶意网站检测方法，该方法包括：

步骤100，当检测到二维码的扫描事件时，获取该二维码所对应目标网站的目标特征信息；

步骤102，基于属于合法网站分类的样本点和属于恶意网站分类的样本点，利用聚类算法计算所述目标特征信息与每一个分类所对应中心点的距离；

步骤104，将最小距离对应的分类确定为所述目标网站的分类。

本发明实施例中，预先将多个网站作为样本点以进行分类，一个分类为合法网络分类，另一个分类为恶意网站，当检测到二维码的扫描事件时，获取二维码所对应目标网站的目标特征信息，利用聚类算法计算目标特征信息与每一个分类所对应中心点的距离，并将最小距离对应的分类确定为目标网站的分类，如此可以快速且准确的确定目标网站是属于合法网站还是恶意网站。

下面描述图1所示的各个步骤的执行方式。

首先，针对步骤100，当检测到二维码的扫描事件时，获取该二维码所对应目标网站的目标特征信息。

其中，该二维码是用于访问网站的二维码，当检测到该二维码的扫描事件时，表明接下来需要访问二维码所对应的目标网站，为了保证网络安全，需要检测该二维码所对应目标网站是否为恶意网站。

本发明实施例中，需要使用该二维码所对应目标网站的目标特征信息进行恶意网站检测。具体地，获取该二维码所对应目标网站的目标特征信息的方式，可以包括：

从该二维码中解析出所述目标网站的网站信息；

根据解析出的网站信息确定所述目标网站的目标特征信息。

二维码中包含有目标网站的网站信息，该网站信息用于提供目标网站的部分信息，以使扫描该二维码的终端设备能够基于该网站信息访问目标网站的。其中，网站信息可以为URL、网站名称等。

一个实施方式中，可以直接将解析出的网站信息确定为目标网站的目标特征信息。

另一个实施方式中，可以利用该网站信息获取该目标网站更丰富的信息作为目标特征信息，以提高检测结果的准确性。

具体地，根据解析出的网站信息确定所述目标网站的目标特征信息，至少可以通过如下一种方式实现：构建沙箱；根据解析出的网站信息在所述沙箱中访问所述目标网站，以获取所述目标网站的目标特征信息。

该沙箱内外环境隔离，通过在沙箱中访问目标网站，若目标网站为恶意网站，则不会对终端设备带来安全风险，且在沙箱中访问目标网站之后，可以获取到目标网站丰富的信息。

本发明实施例中，该目标特征信息可以包括：源代码、域名、URL长度、域名长度、关键字、特殊字符的数量、是否包括敏感词语、传输协议类型(https传输协议或http传输协议)、网页状态码、IP地址地区和网页类型(动态网站或静态网站)中的至少一个。其中，该特殊字符可以为非预设字符。比如，预设字符为中文文字、英文字符和数字，将除中文文字、英文字符和数字以外的字符确定为特殊字符。

需要说明的是，除上述方式确定目标网站的目标特征信息以外，还可以使用其他实现方式，比如，通过情报数据库对该目标网站的网站信息进行匹配，将匹配到的信息作为该目标网站的目标特征信息。

然后，针对步骤102，基于属于合法网站分类的样本点和属于恶意网站分类的样本点，利用聚类算法计算所述目标特征信息与每一个分类所对应中心点的距离。

在本发明实施例中，执行本步骤102之前，需要预先获取属于合法网站分类的样本点和属于恶意网站分类的样本点，且该分类是由聚类算法实现的。其中，该聚类算法可以为K-Means聚类算法。具体地，可以包括：

在样本点中随机选择k个中心点，k为不小于2的整数；

基于终止后的两个分类，得到属于合法网站分类的样本点、属于恶意网站分类的样本点。

其中，该终止条件可以是达到迭代次数，也可以是每一个分类中的样本点不再发生变化。

本发明实施例中，通过将获取的多个合法网站和多个恶意网站作为样本点，利用聚类算法进行迭代计算，使得聚类算法充分学习合法网站和恶意网站的特征，从而实现合法网站和恶意网站的分类，使得后续对二维码所对应网站进行检测时，检测结果的准确率更高。

另外，在重新确定每一个分类的中心点时，可以将当前分类中各样本点的特征信息的均值作为当前分类的中心点的取值；所述特征信息包括源代码、域名、URL长度、域名长度、关键字、特殊字符的数量、是否包括敏感词语、传输协议类型、网页状态码、IP地址地区和网页类型中的至少一个。

可见，聚类算法在进行分类时采用的特征信息与对目标网站进行计算使用的目标特征信息相同，从而可以使得检测结果更加准确。

需要说明的是，除上述分类方式以外，还可以直接将获取的多个合法网站作为最终合法网站的分类，以及直接将获取的多个恶意网站作为最终恶意网站的分类；也就是说，直接将获取的多个合法网站作为属于合法网站分类的样本点，以及直接将获取的多个恶意网站作为属于恶意网站分类的样本点。

最后，针对步骤104“将最小距离对应的分类确定为所述目标网站的分类”进行说明。

本发明实施例中，若最小距离对应的分类为合法网站分类，则表明该目标网站为合法网站，如此可允许对该目标网站的访问；若最小距离对应的分类为恶意网站分类，则表明该目标网站为恶意网站，如此则需要拦截对该目标网站的访问。

为了提高检测结果的准确率，可以通过丰富属于合法网站分类的样本点和属于恶意网站分类的样本点的数量来实现，具体可以包括：每隔预设周期，基于当前周期内对各目标网络的分类结果，对属于合法网站分类的样本点和属于恶意网站分类的样本点进行更新。

其中，该预设周期可以为固定时长，也可以根据检测的目标网站的数量自行设定。

本发明实施例中，采用K-Means聚类算法对网站数据进行分类，提高聚类的质量，能高效率的处理大数据集。通过对恶意网站的识别和过滤，降低用户遭到网络威胁的可能性，减少用户损失。

如图2、图3所示，本发明实施例提供了一种基于聚类算法的二维码恶意网站检测装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图2所示，为本发明实施例提供的一种基于聚类算法的二维码恶意网站检测装置所在电子设备的一种硬件架构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图3所示，作为一个逻辑意义上的装置，是通过其所在电子设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种基于聚类算法的二维码恶意网站检测装置，包括：

特征信息获取单元301，用于当检测到二维码的扫描事件时，获取该二维码所对应目标网站的目标特征信息；

计算单元302，用于基于属于合法网站分类的样本点和属于恶意网站分类的样本点，利用聚类算法计算所述目标特征信息与每一个分类所对应中心点的距离；

分类确定单元303，用于将最小距离对应的分类确定为所述目标网站的分类。

在本发明一个实施例中，所述特征信息获取单元，具体用于：从该二维码中解析出所述目标网站的网站信息；根据解析出的网站信息确定所述目标网站的目标特征信息。

在本发明一个实施例中，所述特征信息获取单元，在根据解析出的网站信息确定所述目标网站的目标特征信息时，具体包括：构建沙箱；根据解析出的网站信息在所述沙箱中访问所述目标网站，以获取所述目标网站的目标特征信息。

在本发明一个实施例中，所述目标特征信息包括：源代码、域名、URL长度、域名长度、关键字、特殊字符的数量、是否包括敏感词语、传输协议类型、网页状态码、IP地址地区和网页类型。

在本发明一个实施例中，请参考图4，该装置还可以包括：

聚类单元304，用于将获取的多个合法网站和多个恶意网站作为样本点，并定义合法网站分类和恶意网站分类；在样本点中随机选择k个中心点，k为不小于2的整数；针对每一个样本点，计算该样本点与k个初始中心点的距离，并将该样本点划分至最小距离的初始中心点所对应的分类中；基于重新划分的分类，重新确定每一个分类的中心点，并针对每一个样本点，计算该样本点与中心点的距离，并将该样本点划分至最小距离的中心点所对应的分类中，重复本步骤，直到达到终止条件；基于终止后的分类，得到属于合法网站分类的样本点、属于恶意网站分类的样本点。

在本发明一个实施例中，所述聚类单元在重新确定每一个分类的中心点时，具体包括：将当前分类中各样本点的特征信息的均值作为当前分类的中心点的取值；所述特征信息包括源代码、域名、URL长度、域名长度、关键字、特殊字符的数量、是否包括敏感词语、传输协议类型、网页状态码、IP地址地区和网页类型。

在本发明一个实施例中，请参考图5，该装置还可以包括：

更新单元305，用于每隔预设周期，基于当前周期内对各目标网络的分类结果，对属于合法网站分类的样本点和属于恶意网站分类的样本点进行更新。

可以理解的是，本发明实施例示意的结构并不构成对一种基于聚类算法的二维码恶意网站检测装置的具体限定。在本发明的另一些实施例中，一种基于聚类算法的二维码恶意网站检测装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本发明任一实施例中的一种基于聚类算法的二维码恶意网站检测方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，使所述处理器执行本发明任一实施例中的一种基于聚类算法的二维码恶意网站检测方法。

具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于聚类算法的二维码恶意网站检测方法，其特征在于，包括：

将最小距离对应的分类确定为所述目标网站的分类。

2.根据权利要求1所述的方法，其特征在于，所述获取该二维码所对应目标网站的目标特征信息，包括：

从该二维码中解析出所述目标网站的网站信息；

根据解析出的网站信息确定所述目标网站的目标特征信息。

3.根据权利要求2所述的方法，其特征在于，所述根据解析出的网站信息确定所述目标网站的目标特征信息，包括：

构建沙箱；

4.根据权利要求1-3中任一所述的方法，其特征在于，所述目标特征信息包括：源代码、域名、URL长度、域名长度、关键字、特殊字符的数量、是否包括敏感词语、传输协议类型、网页状态码、IP地址地区和网页类型。

5.根据权利要求1所述的方法，其特征在于，在所述基于属于合法网站分类的样本点和属于恶意网站分类的样本点，利用聚类算法计算所述目标特征信息与每一个分类所对应中心点的距离之前，还包括：

将获取的多个合法网站和多个恶意网站作为样本点，定义合法网站分类和恶意网站分类；

在样本点中随机选择k个中心点，k为不小于2的整数；

6.根据权利要求5所述的方法，其特征在于，所述重新确定每一个分类的中心点，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

每隔预设周期，基于当前周期内对各目标网络的分类结果，对属于合法网站分类的样本点和属于恶意网站分类的样本点进行更新。

8.一种基于聚类算法的二维码恶意网站检测装置，其特征在于，包括：

9.一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项所述的方法。