CN113783858A

CN113783858A - 一种非法网站检测方法、装置、计算机设备及存储介质

Info

Publication number: CN113783858A
Application number: CN202111016167.3A
Authority: CN
Inventors: 吴凯丽; 杨熠; 张秉彬
Original assignee: Shanghai Weiwenjia Information Technology Co ltd
Current assignee: Shanghai Weiwenjia Information Technology Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-10

Abstract

本发明涉及互联网信息安全技术领域，具体涉及一种非法网站检测方法、装置、计算机设备及存储介质。方法包括提取目标网站的HTML信息及图像信息；对HTML信息进行特征字符提取，获得特征文本信息；将特征文本信息导入文本神经网络模型，输出第一概率值；在第一概率值大于设定阈值时，判定目标网站为非法网站，否则对图像信息进行图像特征提取，获得图像特征信息；将图像特征信息导入图像神经网络模型，输出第二概率值；在第二概率值大于设定阈值时，判定目标网站为非法网站，否则判定目标网站为正常网站。本发明可以对目标网站进行文本和图像两个层面的非法检测，在文本层面检测不出情况下再进行图像层面的检测，有效提高对非法网站的检测精确度。

Description

一种非法网站检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及互联网信息安全技术领域，具体涉及一种非法网站检测方法、装置、计算机设备及存储介质。

背景技术

随着互联网的迅速发展，越来越多的人从网站上获取、共享、交换信息。然而，互联网上的信息不仅包含了人们需要的有用知识，同时也滋生了一些非法信息，给广大网民的身心带来危害。因此，网站安全检测显得尤为重要，对非法网站的检测对于构建健康的网络环境具有重要现实意义。网站安全检测，也称网站安全评估、网站漏洞测试、Web安全检测等。它是通过技术手段对网站进行漏洞扫描，检测网页是否存在漏洞、网页是否挂马、网页有没有被篡改、是否有欺诈网站等，提醒网站管理员及时修复和加固，保障web网站的安全运行。

随着机器学习的不断发展，机器学习技术被应用于对非法网站进行检测。目前较为常见的基于机器学习的网站分类方法为基于网页文本内容的方法，其实现机器学习时，先获取网站页面的文本内容，再进行关键字提取，放入模型进行训练，反复调优，最终实现分类。但是目前大量的非法网站其实是正常的网站被攻击后变成的非法网站，其网站文本内容可能均为正常内容，但用户实际看见的内容为图片形式的非法信息，这样就逃避了文本内容的检测。因此，现有的基于机器学习的非法网站检测方法已经不足以应对目前的网站安全检测需求，有待进一步改进。

发明内容

针对现有技术存在的不足，本发明提供了一种非法网站检测方法、装置、计算机设备及存储介质，其应用时，可以对目标网站进行文本和图像两个层面的非法检测，在文本层面检测不出情况下再进行图像层面的检测，有效提高对非法网站的检测精确度。

第一方面，本发明提供一种非法网站检测方法，包括：

获取目标网址，并根据目标网址访问目标网站；

提取目标网站的HTML信息及图像信息；

对HTML信息进行特征字符提取，获得特征文本信息；

将特征文本信息导入预置的文本神经网络模型，对特征文本信息进行非法概率判定，输出第一概率值；

在第一概率值大于设定阈值时，判定目标网站为非法网站，否则，对图像信息进行图像特征提取，获得图像特征信息；

将图像特征信息导入预置的图像神经网络模型，对图像特征信息进行非法概率判定，输出第二概率值；

在第二概率值大于设定阈值时，判定目标网站为非法网站，否则判定目标网站为正常网站。

基于上述发明内容，通过提取目标网站的HTML信息的特征文本信息，来导入相应的文本神经网络模型，可以利用文本神经网络模型进行第一层面的目标网站智能非法检测，当文本神经网络模型判定输出的第一概率值大于设定阈值时，就可以判定目标网站为非法网站，否则继续通过提取目标网站图像信息对应的图像特征信息，来导入相应的图像神经网络模型，利用图像神经网络模型进行第二层面的目标网站智能非法检测，当图像神经网络模型判定输出的第二概率值大于设定阈值时，就可以判定目标网站为非法网站，否则判定目标网站为正常网站。通过对目标网站进行文本和图像两个层面的非法检测，可以在文本层面检测不出情况下再进行图像层面的检测，有效提高对非法网站的检测精确度。

在一个可能的设计中，所述文本神经网络模型采用训练后的ELECTRA预训练模型，其训练过程包括：

获取若干非正常样本网站的HTML信息标记为1，以及对应数量的正常样本网站的HTML信息标记为0，组成第一原始训练数据集；

利用正则表达式过滤掉第一原始训练数据集HTML信息中的非中文字符；

将过滤后的字符按设定的字符-数字对应关系一一对应转换为相应的数字，使原始训练数据集转换成第一处理后训练数据集；

将第一处理后训练数据集输入ELECTRA预训练模型进行训练，直至 ELECTRA预训练模型的损失函数收敛。

在一个可能的设计中，所述对HTML信息进行特征字符提取，获得特征文本信息，包括：

利用正则表达式过滤掉HTML信息中的非中文字符；

将过滤后的字符按设定的字符-数字对应关系一一对应转换为相应的数字，形成特征文本信息。

在一个可能的设计中，在文本神经网络模型对特征文本信息进行非法概率判定时，所述方法还包括：采用Sigmoid函数对文本神经网络模型的输出结果进行数据转换，得到第一概率值，使第一概率值在0到1之间。

在一个可能的设计中，所述图像神经网络模型采用训练后的MobileNetV3 模型，其训练过程包括：

获取若干非正常样本网站的图像信息标记为1，以及对应数量的正常样本网站的图像信息标记为0，组成第二原始训练数据集；

对第二原始训练数据集的图像信息进行图像特征提取，使提取的图像特征信息及相应标记组成第二处理后训练数据集；

将第二处理后训练数据集输入MobileNetV3模型进行训练，直至 MobileNetV3模型的损失函数收敛。

在一个可能的设计中，在图像神经网络模型对目标网站对应图像特征信息进行非法概率判定时，所述方法还包括：采用Sigmoid函数对在图像神经网络模型的输出结果进行数据转换，得到第二概率值，使第二概率值在0到1之间。

在一个可能的设计中，所述设定阈值为0.5。

第二方面，本发明提供一种非法网站检测装置，包括：

获取单元，用于获取目标网址，并根据目标网址访问目标网站；

提取单元，用于提取目标网站的HTML信息及图像信息，并对HTML信息进行特征字符提取，获得特征文本信息；

第一模型单元，用于将特征文本信息导入预置的文本神经网络模型，对特征文本信息进行非法概率判定，输出第一概率值；

第一判定单元，用于在第一概率值大于设定阈值时，判定目标网站为非法网站，否则，对图像信息进行图像特征提取，获得图像特征信息；

第二模型单元，用于将图像特征信息导入预置的图像神经网络模型，对图像特征信息进行非法概率判定，输出第二概率值；

第二判定单元，用于在第二概率值大于设定阈值时，判定目标网站为非法网站，否则判定目标网站为正常网站。

第三方面，本发明提供一种计算机设备，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行上述第一方面中任意一种所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行上述第一方面中任意一种所述的方法。

第五方面，本发明提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行上述第一方面中任意一种所述的方法。

本发明的有益效果为：

本发明通过提取目标网站的HTML信息的特征文本信息，来导入相应的文本神经网络模型，可以利用文本神经网络模型进行第一层面的目标网站智能非法检测，当文本神经网络模型判定输出的第一概率值大于设定阈值时，就可以判定目标网站为非法网站，否则继续通过提取目标网站图像信息对应的图像特征信息，来导入相应的图像神经网络模型，利用图像神经网络模型进行第二层面的目标网站智能非法检测，当图像神经网络模型判定输出的第二概率值大于设定阈值时，就可以判定目标网站为非法网站，否则判定目标网站为正常网站。通过对目标网站进行文本和图像两个层面的非法检测，可以在文本层面检测不出情况下再进行图像层面的检测，有效提高对非法网站的检测精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法步骤示意图；

图2为本发明的装置结构示意图；

图3为本发明的计算机设备结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，术语第一、第二等仅用于区分描述，而不能理解为指示或暗示相对重要性。尽管本文可以使用术语第一、第二等等来描述各种单元，这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元，并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实施例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例1：

本实施例提供一种非法网站检测方法，如图1所示，包括以下步骤：

S101.获取目标网址，并根据目标网址访问目标网站。

具体实施时，可先通过相应的途径/渠道获得疑似非法网站的目标网址，通过目标网址来可利用相应的网页浏览器访问目标网站。

S102.提取目标网站的HTML信息及图像信息。

具体实施时，可采用相应的爬虫技术爬取目标网站的HTML(Hyper Text MarkupLanguage，超文本标记语言)信息及图像信息，所述图像信息可以是目标网站的网页图片，也可以是网页截图。

S103.对HTML信息进行特征字符提取，获得特征文本信息。

具体实施时，对HTML信息进行特征字符提取的过程包括：利用正则表达式过滤掉HTML信息中的非中文字符，可选操作代码为re.compile(r'[\x00-\xff] +')；将过滤后的留下的中文字符按设定的字符-数字对应关系一一对应转换为相应的数字，形成特征文本信息，可以以“我”对应为1，“你”对应为2，“她”对应为3，这样的转换规则建立字符-数字对应关系。

S104.将特征文本信息导入预置的文本神经网络模型，对特征文本信息进行非法概率判定，输出第一概率值。

具体实施时，所述文本神经网络模型采用训练后的ELECTRA预训练模型，其训练过程包括：

将第一处理后训练数据集输入ELECTRA(Efficiently Learning an Encoderthat Classifies Token Replacements Accurately)预训练模型进行训练，直至 ELECTRA预训练模型的损失函数收敛，损失函数可表示为：

文本神经网络模型输出为无范围限制的小数，不方便理解和使用，因此，再使用sigmoid函数(1/(1+e^(-x)))对文本神经网络模型输出结果进行数据转换，得到第一概率值，使第一概率值在0到1之间，值越接近1说明其非法概率越大。

S105.在第一概率值大于设定阈值时，判定目标网站为非法网站，否则，对图像信息进行图像特征提取，获得图像特征信息。

具体实施时，所述设定阈值可设定为0.5，当0.5＜第一概率值≤1时，即可直接判定目标网站为非法网站，当0≤第一概率值≤0.5时，再进行图像层面的非法检测，对目标网站的图像信息进行图像特征提取，获得图像特征信息，提取的图像特征可以为方向梯度直方图(Histogram of Oriented Gradient，HOG) 特征。

S106.将图像特征信息导入预置的图像神经网络模型，对图像特征信息进行非法概率判定，输出第二概率值。

具体实施时，所述图像神经网络模型采用训练后的MobileNetV3模型，其训练过程包括：

将第二处理后训练数据集输入MobileNetV3模型进行训练，直至 MobileNetV3模型的损失函数收敛，损失函数可表示为：

同样，可采用sigmoid函数(1/(1+e^(-x)))对图像神经网络模型输出结果进行数据转换，得到第二概率值，使第二概率值在0到1之间，值越接近1说明其非法概率越大。

S107.在第二概率值大于设定阈值时，判定目标网站为非法网站，否则判定目标网站为正常网站。

具体实施时，所述设定阈值可设定为0.5，当0.5＜第一概率值≤1时，即可判定目标网站为非法网站，当0≤第一概率值≤0.5时，判定目标网站为正常网站。通过对目标网站进行文本和图像两个层面的非法检测，可以在文本层面检测不出情况下再进行图像层面的检测，有效提高对非法网站的检测精确度。

实施例2：

本实施例提供一种非法网站检测装置，如图2所示，包括：

实施例3：

本实施例提供一种计算机设备，如图3所示，在硬件层面，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行实施例1中所述的非法网站检测方法。

可选地，该计算机设备还包括内部总线和通讯接口。处理器、存储器和通讯接口可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

所述存储器可以但不限于包括随机存取存储器(Random Access Memory， RAM)、只读存储器(Read Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(FirstInput First Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等。所述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例4：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行实施例1中所述的非法网站检测方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick) 等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

实施例5：

本实施例提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行实施例1中所述的非法网站检测方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非法网站检测方法，其特征在于，包括：

获取目标网址，并根据目标网址访问目标网站；

提取目标网站的HTML信息及图像信息；

对HTML信息进行特征字符提取，获得特征文本信息；

2.根据权利要求1所述的一种非法网站检测方法，其特征在于，所述文本神经网络模型采用训练后的ELECTRA预训练模型，其训练过程包括：

将第一处理后训练数据集输入ELECTRA预训练模型进行训练，直至ELECTRA预训练模型的损失函数收敛。

3.根据权利要求2所述的一种非法网站检测方法，其特征在于，所述对HTML信息进行特征字符提取，获得特征文本信息，包括：

利用正则表达式过滤掉HTML信息中的非中文字符；

4.根据权利要求2所述的一种非法网站检测方法，其特征在于，在文本神经网络模型对特征文本信息进行非法概率判定时，所述方法还包括：采用Sigmoid函数对文本神经网络模型的输出结果进行数据转换，得到第一概率值，使第一概率值在0到1之间。

5.根据权利要求1所述的一种非法网站检测方法，其特征在于，所述图像神经网络模型采用训练后的MobileNetV3模型，其训练过程包括：

将第二处理后训练数据集输入MobileNetV3模型进行训练，直至MobileNetV3模型的损失函数收敛。

6.根据权利要求5所述的一种非法网站检测方法，其特征在于，在图像神经网络模型对目标网站对应图像特征信息进行非法概率判定时，所述方法还包括：采用Sigmoid函数对在图像神经网络模型的输出结果进行数据转换，得到第二概率值，使第二概率值在0到1之间。

7.根据权利要求4或6所述的一种非法网站检测方法，其特征在于，所述设定阈值为0.5。

8.一种非法网站检测装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1-7任意一项所述的方法。