CN117951389A

CN117951389A - 一种基于深度学习的非法网站识别方法

Info

Publication number: CN117951389A
Application number: CN202410324702.9A
Authority: CN
Inventors: 熊凌龙; 何月顺; 陈杰
Original assignee: Jiangxi Minxuan Big Data Co ltd; East China Institute of Technology
Current assignee: Jiangxi Minxuan Big Data Co ltd; East China Institute of Technology
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-04-30

Abstract

本发明涉及网站筛选技术领域，公开了一种基于深度学习的非法网站识别方法，S100：将网站的HTML内容输入至BERT‑CNN模型中，输出网站为非法网站的概率；S200：将网站的图片输入至ResNet‑18模型中，输出网站为非法网站的概率；S300：获取BERT‑CNN模型和ResNet‑18模型的输出，通过融合算法对这两个分类结果进行融合，待识别网站被预测为非法网站的概率；S400：对已判断其为非法网站的待识别网站的网站URL进行标记，并录入至非法网站库内储存。本发明使用BERT模型和ResNet模型研究了非法网站不同维度信息的特征分析和提取，并对BERT模型在局部特征提取存在的问题进行了改进，在公开的数据集上进行实验测试，模型的评价指标表现出良好的性能，能够有效地检测和识别非法网站。

Description

一种基于深度学习的非法网站识别方法

技术领域

本发明涉及网站筛选领域，更具体地说，它涉及一种基于深度学习的非法网站识别方法。

背景技术

在互联网迅速发展的背景下，网络安全问题变得日益突出。在一些非法网站的HTML内容中，通常具有长文本、大量信息和复杂结构，并可能包含动态生成的JavaScript脚本，增加了页面的复杂性，让文本内容变得难以阅读和理解，增加模型的识别难度。

尤其是，一些非法网站的网页的HTML会通过 JavaScript 来动态修改页面内容，具体的，使用 JavaScript 设置一个定时器，每隔一定时间更换文字内容，实现文字的动态变化效果，会使网页的HTML在被文本特征提取模型进行文本特征提取时，提取的文本特征和从网站截图提取的图像特征并非完全是网页的首页，使非法网站的判断结果存在偏差。

发明内容

本发明提供一种基于深度学习的非法网站识别方法，解决相关技术中非法网站会使用 JavaScript 设置一个定时器，每隔一定时间更换文字内容，实现文字的动态变化效果，会使网页的HTML在被文本特征提取模型进行文本特征提取时，提取的文本特征和从网站截图提取的图像特征并非完全是网页的首页，造成非法网站的判断结果存在偏差的技术问题。

本发明提供了一种基于深度学习的非法网站识别方法，包括以下步骤：

S100：将网站的HTML内容输入至BERT（Bidirectional Encoder Representationsfrom Transformers）-CNN（Convolutional Neural Network）模型中，输出网站为非法网站的概率；

S200：将网站的图片输入至ResNet-18模型中，输出网站为非法网站的概率；

S300：获取BERT-CNN模型和ResNet-18模型的输出，通过融合算法对这两个分类结果进行融合，待识别网站被预测为非法网站的概率，当该被预测为非法网站的概率大于0.5，则该待识别网站为非法网站；

融合算法的计算公式如下：

；

表示考虑文本和图像特征后，第i个待识别网站被预测为非法网站的概率，/>和/>分别表示第一特征权重系数和第二特征权重系数，/>是基于BERT-CNN模型预测的测试集中第i个网站为非法网站的概率，/>是基于ResNet-18模型预测的测试集中第i个网站为非法网站的概率；

S400：对已判断其为非法网站的待识别网站的网站URL进行标记，并录入至非法网站库内储存。

进一步地，在步骤S100中还包括：

S110，将第一网页文本和第二网页文本分别进行分句，生成第一句子集合和第二句子集合，第一句子集合包括第一网页文本分句的所有句子，第二句子集合包括第二网页文本分句的所有句子；

每间隔一段时间提取一次网页文本，直至提取到一个与第一次提取的网页文本不完全相同的网页文本为止，最后一次提取的网页文本即是第二网页文本，第一次提取的网页文本是第一网页文本；

S120，删除第一句子集合和第二句子集合中属于否定句的句子；

S130，将第一句子集合中的句子与第二句子集合中的句子分别进行一一对比，在每次对比时进行以下操作：

删除重复的词，然后将不重复的词放入第一词库；

S140，识别第一词库中属于敏感词的词来放入第二词库中；

S150，在步骤S110中的第一句子集合中提取包含第二词库的词的句子生成第三句子集合；

在步骤S110中的第二句子集合中提取包含第二词库的词的句子生成第四句子集合；

S160，从第一网页文本中删除不属于第三句子集合的句子获得第一文本；

从第二网页文本中删除不属于第四句子集合的句子获得第二文本；

将第二文本组合到第一文本之后获得第三文本，第三文本作为网站的HTML内容输入BERT-CNN模型。

进一步地，在步骤S120中否定句的定义是：一个句子中包含了奇数个否定词；

判断词语是否定词时将句子进行分词，然后将分词后的词与否定词的词库中的词进行匹配，如果匹配到相同的词，则判断该词为否定词；

否定词的词库为包括所有否定词的词库。

进一步地，步骤S100还包括以下步骤：

S101：将首页图片中的文本特征进行分词，并添加分类标记和分段标记，以及对应的位置编码；

S102：将编码后的文本输入BERT模型，获取模型在文本上的隐藏状态，通常是提取最后一层的隐藏状态作为文本嵌入；

BERT模型的注意力机制的计算公式为：

；

Q代表Query矩阵，也称为查询向量矩阵，表示目标字或待生成标注的词；V代表Value矩阵，也称为值向量矩阵，表示上下文中各个字的原始value表示；K代表Key矩阵，也称为键向量矩阵，表示上下文中各个字的key向量表示，Q和K矩阵中向量的维度为；

S103：获得的文本嵌入作为第一文本特征向量；

S104：将第一文本特征向量输入CNN模型，CNN模型包括基于卷积神经网络的局部特征卷积层、全连接层和分类器层，局部特征卷积层使用卷积核来提取文本中包含的关键短语局部显著特征，作为第二文本特征向量；

S105：高级特征向量输入到全连接层，全连接层的输出输入分类器层，在分类器层中使用SoftMax函数输出网站为非法网站的概率。

进一步地，在步骤S104中，局部特征卷积层包含多个卷积操作，每个卷积操作产生一个显著特征，将这些特征串联起来形成高级特征向量，高级特征向量表示为：

；

、/>、/>分别表示第1、2、y个卷积操作获得的显著特征，这个高级特征向量/>作为局部特征卷积模块的输出，并被用于最终的文本分类任务；

对于一个卷积操作，采用一维卷积操作来生成特征图；

再对特征图进行最大化池化，提取最大值/>作为对应的显著特征；

使用卷积操作来提取文本中包含的关键短语局部显著特征。

在步骤S200中，还包括以下步骤：

S201：经过ResNet-18模型的卷积层和池化层对网站的图片进行初步降维和特征提取，得到网站的图片中的图像特征；

S202：ResNet-18模型通过一系列堆叠的残差块构成了四个阶段，每个阶段都包含多个残差块，其中每个残差块由两个3×3大小的卷积层组成；

残差的计算公式为：

；

为当前残差块的输入，/>为当前残差块的输出，/>表示用来调整卷积层的权重参数，影响当前残差块的输入 />的变换，/>是残差部分，由两个或三个卷积层组成，将的输出与/>相加后，通过非线性激活relu函数得到残差块的输出。

S203：最后一个残差块的输出送入到全局平均池化层中，以将每个通道的特征值进行平均，从而减少特征图的空间尺寸；

S204：通过一个全连接层将处理后的特征图映射到网站的分类标签，输出的结果通过SoftMax函数处理为概率值。

进一步地，该识别方法还包括用于性能标准评价的混淆矩阵，性能标准评价的指标包括准确率、精确度、召回率以及统计量。

进一步地，混淆矩阵由真正例、真负例、假正例和假负例四个值组成。

进一步地，准确率的表达式为：

；

式中TP是指真正例，TN是指真负例，FP是指假正例，FN是指假负例；其中，TP是正确预测为非法网站的非法网站数量，TN是正确预测为正常网站的正常网站数量，FP是错误预测为非法网站的正常网站数量，FN是错误预测为正常网站的非法网站数量；

精确度的表达式为：

；

召回率的表达式为：

；

进一步地，F-measure是召回率和精确度的调和平均数，其表达式为：

；

表示调和平均数。

本发明还提供了一种基于深度学习的非法网站识别系统，其通过基于深度学习的非法网站识别方法进行非法网站识别，包括：

网页提取模块：用于从互联网上获取网页数据，并将其传递给后续的识别模型中；

数据预处理模块：对获取到的网页数据进行清洗、格式化和结构化，以便后续的分析和识别处理；

特征提取模块：从网页内容中提取特征信息，包括文本内容、图片和链接，用于后续的分类和识别；

分类模型模块：包括文本分类模型和图片分类模型，用于对网页内容进行分类，判断是否属于非法内容；

识别模块：基于预先设定的规则和策略，对网页内容进行规则匹配和识别，判断待识别网站为非法网站的概率；

非法网站库：用于记录和收集被判别为非法网站的URL信息。

本发明还提供了一种存储介质，其存储了非暂时性计算机可读指令，当非暂时性计算机可读指令由计算机执行时，能够执行一种基于深度学习的非法网站识别方法中的步骤。

本发明的有益效果在于：本网站识别方法是基于文本-视觉多特征的识别方法，利用深度学习中的自然语言处理技术和图像识别技术，通过结合多特征融合和多维度分析的研究思路，分别使用BERT模型和ResNet模型研究了非法网站不同维度信息的特征分析和提取，并对BERT模型在局部特征提取存在的问题进行了改进，在公开的数据集上进行实验测试，模型的评价指标表现出良好的性能，能够有效地检测和识别非法网站；

同时通过非法网站的提取模型中加入定时器，使提取的文本特征和从网站截图提取的图像特征涵盖了不同状态下的网页文本，使非法网站的判断结果不会受到网站中的定时跳转的隐蔽手段影响。

附图说明

图1是本发明的BERT-CNN网络结构图；

图2是本发明的BERT模型解译文本结构图；

图3是本发明的ResNet-18网络结构图；

图4是本发明的融合算法的流程图；

图5是本发明的评价指标的混淆矩阵。

具体实施方式

现在将参考示例实施方式讨论本发明描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本发明描述的主题，可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其他例子中也可以进行组合。

参阅图1-图5所示，一种基于深度学习的非法网站识别方法，包括以下步骤：

S100：将网站的HTML内容输入至BERT-CNN模型中，输出网站为非法网站的概率；

网站的HTML内容指的是网页的HTML源代码，包括网页中的文本、图像、链接、样式和其他元素。这些HTML内容定义了网页的结构、布局和呈现方式，通过查看网站的HTML内容，可了解网页是如何构建的，以及其中包含的各种元素和信息；

BERT-CNN模型表示BERT模型与CNN模型的组合；

融合算法的计算公式如下：

；

表示考虑文本和图像特征后，第i个待识别网站被预测为非法网站的概率，/>和/>分别表示第一特征权重系数和第二特征权重系数。

如图4所示，第一特征权重系数和第二特征权重系数的获取方法包括：

通过构建的BERT-CNN文本分类模型和 ResNet-18模型对数据集中网页的文本和图像特征进行提取分类，然后得到了四组概率集合、/>、/>和/>其中n和m分别是训练集和测试集中网站的数量。以下是对得到的概率集合的定义：

是/>概率集合中的一个元素。/>是基于文本分类模型（BERT-CNN）预测的训练集中第i个网站为非法网站的概率。

是/>概率集合中的一个元素。/>是基于文本分类模型（BERT-CNN）预测的测试集中第i个网站为非法网站的概率。

是/>概率集合中的一个元素。/>是基于图像分类模型（ResNet-18）预测的训练集中第 i 个网站为非法网站的概率。

是/>概率集合中的一个元素。/>基于图像分类模型（ResNet-18）预测的测试集中第i个网站为非法网站的概率。

基于训练集得到的概率列表和/>被用作逻辑回归（LR）模型的新的二维特征向量，用于训练LR模型，以获取文本特征和图像特征的重要性度量，表达其对分类结果的影响程度。

使用和/>分别表示特征 />和/>的重要性。为了便于后续的加权计算，我们将/>和/>的值映射到区间[0,1]并表示为/>和/>，计算方法如下：

；

其中，和/>分别表示第一特征权重系数和第二特征权重系数，满足/>。

权重系数越大，对应分类结果对的影响越显著。

数据集包括正常网站和非法网站。

整个数据集分为两个主要部分，一部分是HTML文本特征的数据，另一部分是img图像的图像特征数据。

S400：对已判断其为非法网站的待识别网站的网站URL进行标记，并录入至非法网站库内储存；

网站URL通常由多个部分组成，包括协议类型、主机名、路径等，用于唯一确定网络资源的位置。

非法网站库为记录和收集非法或违规网站信息的数据库，数据库中的网站可能违反了法律法规。

对于S100，其具体包括以下步骤：

BERT模型限制输入字符数量最多为512个字符，需将网页整体文本分成短文本，如图1中的文本1和文本2所示。

随后，将这些短文本对封装成一系列Token序列。

例如对于文本1，其形式为（[CLS], Tok1, Tok2,……[SEP], Toki,…… TokN，[SEP]）。其中[CLS]代表分类标记，[SEP]代表分段标记，Toki对应文本的第i个Token，Token是处理文本的最小单位，可以是单词、字或词。其中BERT模型的输入被定义为，其中/>∈ />是通过对应的Token、segment和position位置来构建的第i个嵌入，d是最大嵌入维度，/>是最大输入序列的长度；/>表示第i个Token的词向量编码、段落号编码和Token位置编码的组合，这个组合可以是编码的拼接或相加，整个过程如图2所示。

S102：将编码后的文本输入BERT模型，获取模型在文本上的隐藏状态，通常是提取某一层（如最后一层）的隐藏状态作为文本嵌入；

BERT模型的注意力机制的计算公式为：

；

Q代表Query矩阵，也称为查询向量矩阵，表示目标字或待生成标注的词；V代表Value矩阵，也称为值向量矩阵，表示上下文中各个字的原始value表示；K代表Key矩阵，也称为键向量矩阵，表示上下文中各个字的key向量表示。Q和K矩阵中向量的维度为；

S103：获得的文本嵌入作为第一文本特征向量；

S104：将第一文本特征向量输入CNN模型，CNN模型包括基于卷积神经网络的局部特征卷积层、全连接层和分类器层，局部特征卷积层使用卷积核来提取文本中包含的关键短语等局部显著特征，作为第二文本特征向量；

局部特征卷积层包含多个卷积操作（多个卷积核），每个卷积操作产生一个显著特征，将这些特征串联起来形成高级特征向量，高级特征向量表示为：

；

对于一个卷积操作，采用一维卷积操作来生成特征图接着对特征图/>进行最大化池化，提取最大值/>作为对应的显著特征。

使用卷积核来提取文本中包含的关键短语等局部显著特征；

对于S200，如图3所示的ResNet-18网络结构图，其具体包括以下步骤：

残差的计算公式为：

；

为当前残差块的输入，/>为当前残差块的输出，/>表示用来调整卷积层的权重参数，影响当前残差块的输入/>的变换，/>是残差部分，一般由两个或三个卷积层组成，将/>的输出与/>相加后，通过非线性激活relu函数得到残差块的输出。

采用准确率、精确度、召回率以及F-measure（统计量）等多项指标作为评估本发明所提方法的性能标准。

如图5所示了评价指标的混淆矩阵，该矩阵由四个值组成：真正例（TP）、真负例（TN）、假正例（FP）和假负例（FN）。其中，TP是正确预测为非法网站的非法网站数量，TN是正确预测为正常网站的正常网站数量，FP是错误预测为非法网站的正常网站数量，FN是错误预测为正常网站的非法网站数量。

准确率衡量了被正确预测为非法和正常网站的比例占所有网站的比例：

；

表示准确率；

精确度衡量了被正确预测为非法网站的比例占所有被预测为非法网站的比例：

；

表示精确度；

召回率衡量了被正确预测为非法网站的比例占所有非法网站的比例：

；

表示召回率；

其中TP是指真正例，TN是指真负例，FP是指假正例，FN是指假负例；具体的，TP是正确预测为非法网站的非法网站数量，TN是正确预测为正常网站的正常网站数量，FP是错误预测为非法网站的正常网站数量，FN是错误预测为正常网站的非法网站数量；

F-measure是召回率和精确度的调和平均数：

；

表示调和平均数；

现有的非法网站的网页的HTML会通过 JavaScript 来动态修改页面内容，具体的，使用 JavaScript 设置一个定时器，每隔一定时间更换文字内容，实现文字的动态变化效果，会使网页的HTML在被文本特征提取模型进行文本特征提取时，提取的文本特征和从网站截图提取的图像特征并非完全是网页的首页，使非法网站的判断结果存在偏差。

为了解决前述的技术问题，在本发明的一个实施例中，步骤S100还包括：

每间隔一段时间提取一次网页文本，直至提取到一个与第一次提取的网页文本不完全相同的网页文本为止，最后一次提取的网页文本即是第二网页文本，第一次提取的网页文本是第一网页文本。

前述的网页文本完全相同，是指网页文本包含了完全相同的文字，并且排列顺序相同。

否定句的定义是：一个句子中包含了奇数个否定词；

对于词语是否是否定词可以将句子进行分词，然后将分词后的词与否定词的词库中的词进行匹配，如果匹配到相同的词则判断该词为否定词；

否定词的词库为包括所有否定词的词库，词库中包括但不限于“不”、“没有”、“否”等否定词；

第一句子集合和第二句子集合中可以首先进行删除重复句子的处理。

S130，将第一句子集合中的句子分别与第二句子集合中的句子分别进行一一对比，在每次对比时进行以下操作：

删除重复的词，然后将不重复的词放入第一词库；

在本发明的一个实施例中，在步骤S130中还包括对第一词库缩减规模的处理，缩减规模后的第一词库中仅包括名词、动词、形容词、数词和量词。

通过缩减规模能够降低语义处理的难度，并且尽可能地降低对于非法网站识别的影响。

S140，识别第一词库中属于敏感词的词来放入第二词库中；

敏感词的语义能够表征非法网站的非法特性；

识别敏感词的一个方法是将第一词库中的词与敏感词的词库中的词进行匹配，如果匹配到相同的词则判断该词为敏感词；

敏感词的词库为包括所有敏感词的词库，词库中包括但不限于“赌博”、“凶杀”、“色情”等敏感词。

S150，从第一网页文本中删除不属于第三句子集合的句子获得第一文本；

由于第一文本和第三文本是由第一网页文本和第二网页文本删除句子获得的，因此保留了原有的段落结构，能够应用BERT模型的段落编码。

本发明的至少一个实施例中提供一种基于深度学习的非法网站识别系统，包括：

分类模型模块：包括文本分类模型或图片分类模型，用于对网页内容进行分类，判断是否属于非法或色情内容；

非法网站库：用于记录和收集被判别为非法网站的URL信息。

本公开的至少一实施例提供一种存储介质，存储有非暂时性计算机可读指令，用于执行前述的基于深度学习的非法网站识别方法中的一个或多个步骤。

计算机程序可以被存储/分布在合适的介质上，例如与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质，但是也可以被以其他形式分布，例如经由互联网或其他有线或无线的电信系统来分布。权利要求中的任何附图标记都不应被解释为对范围的限制。

上面对本实施例的实施例进行了描述，但是本实施例并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本实施例的启示下，还可做出很多形式，均属于本实施例的保护之内。

Claims

1.一种基于深度学习的非法网站识别方法，其特征在于，包括以下步骤：

S300：获取BERT-CNN模型和ResNet-18模型的输出，通过融合算法对这两个分类结果进行融合，得到待识别网站被预测为非法网站的概率，当被预测为非法网站的概率大于0.5，则该待识别网站为非法网站；

融合算法的计算公式如下：

；

表示考虑文本和图像特征后，第i个待识别网站被预测为非法网站的概率，和/>分别表示第一特征权重系数和第二特征权重系数，/>是基于BERT-CNN模型预测的测试集中第i个网站为非法网站的概率，/>基于ResNet-18模型预测的测试集中第i个网站为非法网站的概率；

在步骤S100中还包括：

S130，将第一句子集合中的句子分别与第二句子集合中的句子进行一一对比，在每次对比时进行以下操作：

删除重复的词，然后将不重复的词放入第一词库；

在步骤S130中还包括对第一词库缩减规模的处理，缩减规模后的第一词库中仅包括名词、动词、形容词、数词和量词；

S140，识别第一词库中属于敏感词的词来放入第二词库中；

2.根据权利要求1所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤S120中否定句的定义是：一个句子中包含了奇数个否定词；

否定词的词库为包括所有否定词的词库。

3.根据权利要求2所述的一种基于深度学习的非法网站识别方法，其特征在于，步骤S100还包括以下步骤：

S102：将编码后的文本输入BERT模型，获取模型在文本上的隐藏状态，提取最后一层的隐藏状态作为文本嵌入；

S103：获得的文本嵌入作为第一文本特征向量；

4.根据权利要求3所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤S104中，局部特征卷积层包含多个卷积操作，每个卷积操作产生一个显著特征，将这些特征串联起来形成高级特征向量，高级特征向量表示为：

；

对于一个卷积操作，采用一维卷积操作来生成特征图；

使用卷积操作来提取文本中包含的关键短语局部显著特征。

5.根据权利要求1所述的一种基于深度学习的非法网站识别方法，其特征在于，在步骤S200中，还包括以下步骤：

残差的计算公式为：

；

为当前残差块的输入，/>为当前残差块的输出，/>表示用来调整卷积层的权重参数，影响当前残差块的输入 />的变换，/>是残差部分，由两个或三个卷积层组成，将的输出与/>相加后，通过非线性激活relu函数得到残差块的输出；

6.根据权利要求5所述的一种基于深度学习的非法网站识别方法，其特征在于，该识别方法还包括用于性能标准评价的混淆矩阵，性能标准评价的指标包括准确率、精确度、召回率以及统计量，混淆矩阵由真正例、真负例、假正例和假负例四个值组成。

7.根据权利要求6所述的一种基于深度学习的非法网站识别方法，其特征在于，准确率的表达式为：

；

精确度的表达式为：

；

召回率的表达式为：

。

8.根据权利要求7所述的一种基于深度学习的非法网站识别方法，其特征在于，F-measure是召回率和精确度的调和平均数，其表达式为：

；

表示调和平均数。

9.一种基于深度学习的非法网站识别系统，其特征在于，其通过如权利要求1-8任一所述的基于深度学习的非法网站识别方法进行非法网站识别，包括：

非法网站库：用于记录和收集被判别为非法网站的URL信息。

10.一种存储介质，其特征在于，其存储了非暂时性计算机可读指令，当非暂时性计算机可读指令由计算机执行时，能够执行如权利要求1-8中任一所述的一种基于深度学习的非法网站识别方法中的步骤。