CN109376244A

CN109376244A - 一种基于特征分类的诈骗网站识别方法

Info

Publication number: CN109376244A
Application number: CN201811252792.6A
Authority: CN
Inventors: 高勇; 孙志猛; 刘善武; 李进; 孟繁瑞; 赵龙斌; 刘志会; 柴军民; 孙涛; 郝振江; 夏光升
Original assignee: National Computer Network And Information Security Management Center Shandong Branch; Tianjin Rui Digital Security System Ltd By Share Ltd; Shandong Communications Administration
Current assignee: National Computer Network And Information Security Management Center Shandong Branch; Tianjin Rui Digital Security System Ltd By Share Ltd; Shandong Communications Administration
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-02-22

Abstract

本发明涉及网络安全技术领域，尤其涉及一种基于特征分类的诈骗网站识别方法。该方法包括以下步骤：将采集到的多个网站分别标识为安全网站和诈骗网站；将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档；计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组；计算出各文档中出现的每个敏感词组的正反向词频，作为各文档的特征向量；根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。本发明以安全网站和诈骗网站中文档的特征向量作为样本，得到用于识别网站是否为诈骗网站的BP神经网络模型，方法简单、操作方便，具有网站识别准确率高的优点。

Description

一种基于特征分类的诈骗网站识别方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于特征分类的诈骗网站识别方法。

背景技术

随着互联网的快速发展，网站的规模达到海量级别。非正常、诈骗的网站数量也逐渐增多，非正常网站包括恶意网站、钓鱼网站、诈骗网站等，一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息，获取用户个人隐私等，给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一，在网络安全中，对其进行识别是确保网络安全的重中之重。

现有的网站监测或者识别技术主要是通过维护黑名单来判断用户访问的网站是否为恶意、钓鱼、诈骗网站，这种方法需要极高的人工成本进行筛选；另一种网站识别方法是通过URL(Uniform Resoure Locator，统一资源定位符，是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址)特征，其识别速度快，能主动发现非正常网站，但由于URL包含的信息有限，仅从URL并不能很好的判断出一个网站属于非正常网站还是正常网站，所以现在也有一些基于网站内容的网站识别方法。基于内容的网站分类涉及到文本分类，现有的文本分类技术主要流程为提取敏感关键词，计算文本中关键词的TF-IDF(term frequency–inverse document frequency，是一种用于信息检索与数据挖掘的常用加权技术)作为特征向量，然后用SVM(Support Vector Machine，支持向量机)训练这些特征向量生成分类模型。基于这种分类模型对网站进行识别的方法存在准确率较低、误判率较高的缺点。

因此，急需一种基于特征分类的诈骗网站识别方法。

发明内容

本发明提供了一种基于特征分类的诈骗网站识别方法，用于识别网站是否为诈骗网站，以解决现有技术中网站识别方法准确率低、误判率高的问题。

本发明提供了一种基于特征分类的诈骗网站识别方法，包括以下步骤：

将采集到的多个网站分别标识为安全网站和诈骗网站；

将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档；

计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组；

计算出各文档中出现的每个敏感词组的正反向词频，作为各文档的特征向量；

根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

进一步地，计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组的步骤包括以下步骤：

对各文档中的词组进行过滤；

计算出各文档中过滤后的词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组。

进一步地，对各文档中的词组进行过滤的步骤包括以下步骤：

将各文档中的文本分别分成多个词组；

对各文档中的词组进行过滤。

进一步地，对各文档中的词组进行过滤的方法为：删掉停用词，停用词包括介词、语气助词。

进一步地，根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤：

将所有文档的特征向量进行归一化处理；

根据归一化处理后所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

进一步地，计算词组的卡方统计量的公式为：

其中，w为词组，c为安全网站和诈骗网站中的任一，A为w出现在类别为c中的文档数，B为w出现在类别不为c中的文档数，C为w不出现在类别为c中的文档数，D为w不出现在类别不为c中的文档数，N为文档总数，χ²(w，c)为w在c中的卡方统计量。

进一步地，计算敏感词组的正反向词频的公式为：

TF-IDF_w＝TF_w×IDF_w (3)

其中，w为词组，TF_w为w的词频，IDF_w为w的逆向文件词频，TF-IDF_w为w的正反向词频。

进一步地，还包括步骤：采集多个网站，并将各网站中每一层页面的文本作为一个文档进行存储。

进一步地，采集的每个网站至少包括一个文档。

进一步地，若词组的卡方统计量在预设排名内，则选取该词组为敏感词组。

本发明提供的基于特征分类的诈骗网站识别方法，与现有技术相比具有以下进步：

(1)以预先采集的安全网站和诈骗网站及其包含的文档为数据源，筛选出文档中的敏感词组，再利用敏感词组计算出各文档的特征向量，以所有文档的特征向量作为样本对BP神经网络模型进行训练，最终得到用于识别网站是否为诈骗网站的BP神经网络模型，方法简单、操作方便、易于实施，具有网站识别准确率高的优点。

(2)在计算词组卡方统计量之前，先对各文档中的词组进行过滤，去除掉一些无用的词组，提高后续模型训练的工作效率，有利于提高最终BP神经网络模型建立的准确度和可靠度。

(3)在训练BP神经网络模型之前，首先对所有文档的特征向量进行归一化处理，消弭误差，使最终得到的BP神经网络模型更加符合需求，易于推广和使用。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中基于特征分类的诈骗网站识别方法的步骤图；

图2为本发明实施例步骤300具体实施时的步骤图；

图3为本发明实施例步骤500具体实施时的步骤图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

本实施例提供了一种基于特征分类的诈骗网站识别方法。

如图1，本实施例提供了一种基于特征分类的诈骗网站识别方法，包括以下步骤：

步骤200、将采集到的多个网站分别标识为安全网站和诈骗网站；

步骤300、将安全网站和诈骗网站中的文档分别标识为安全文档和诈骗文档；

步骤400、计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组；

步骤500、计算出各文档中出现的每个敏感词组的正反向词频，作为各文档的特征向量；

步骤600、根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

本实施例的基于特征分类的诈骗网站识别方法，以预先采集的安全网站和诈骗网站及其包含的文档为数据源，筛选出文档中的敏感词组，再利用敏感词组计算出各文档的特征向量，以所有文档的特征向量作为样本对BP(back propagation)神经网络模型(一种按照误差逆向传播算法训练的多层前馈神经网络)进行训练，最终得到用于识别网站是否为诈骗网站的BP神经网络模型，方法简单、操作方便、易于实施，具有网站识别准确率高的优点。

如图2，本实施例的基于特征分类的诈骗网站识别方法中，步骤300在具体实施时，包括以下步骤：

步骤410、将各文档中的文本分别分成多个词组；

步骤420、对各文档中的词组进行过滤；

步骤430、计算出各文档中过滤后的词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组。

具体实施时，对各文档中的词组进行过滤的方法为：删掉停用词，停用词包括介词、语气助词、连接词等无意义的词组。在计算词组的卡方统计量之前，先对各文档中的词组进行过滤，去除掉一些无意义的词组，提高后续模型训练的工作效率，有利于提高最终BP神经网络模型建立的准确度和可靠度。

如图3，本实施例的基于特征分类的诈骗网站识别方法中，步骤500在具体实施时，包括以下步骤：

步骤610、将所有文档的特征向量进行归一化处理；

步骤620、根据归一化处理后所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

在训练BP神经网络模型之前，首先对所有文档的特征向量进行归一化处理，消弭误差，使最终得到的BP神经网络模型更加符合需求，易于推广和使用。

本实施例的基于特征分类的诈骗网站识别方法在具体实施时，计算词组的卡方统计量的公式为：

计算敏感词组的正反向词频的公式为：

TF-IDF_w＝TF_w×IDF_w (3)

如图1，本实施例的基于特征分类的诈骗网站识别方法，在具体实施时，还包括步骤：

步骤100、采集多个网站，并将各网站中每一层页面的文本作为一个文档进行存储。其中，采集的每个网站至少包括一个文档。

本实施例的基于特征分类的诈骗网站识别方法中，可以将采集到的安全网站添加标识为0，诈骗网站添加标识为1，网站中的文档可以是将网站的一个页面中的文本内容作为一个文档，可以采集网站的多个页面，即能得到一个网站的多个文档，文档数目根据需要进行设置和采集。将文档中的文本分为多个词、词组，本实施例中所说的词组包括单个的词。对多个词、词组进行过滤，过滤的规则是将一些语气助词、介词、连接词等无意义的词删掉，如阿、哎、哎呀、哎哟，然而、另外等等，剩下的词组需要计算其卡方统计量；若词组的卡方统计量在预设排名内，则选取该词组为敏感词组。如，可以选取卡方统计量最大的3200个词组作为敏感词组，另外，还可以根据需要，人为加入一些敏感词组；将所有文档的特征向量作为输入x，传递给BP神经网络(BP(back propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络)进行训练，输出y的标签为：0-安全网站，1-诈骗网站。

本实施例的基于特征分类的诈骗网站识别方法在使用时，把待测试网站中所有文档的特征向量作为输入，传递给已经训练好的BP神经网络，BP神经网络会输出0-1的小数，结果大于0.5的就是诈骗网站，结果小于等于0.5的为安全网站。通过本发明中建立的BP神经网络，用户很容易的识别出网站是否为安全网站，可靠性高和操作简单。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于特征分类的诈骗网站识别方法，其特征在于，包括以下步骤：

将采集到的多个网站分别标识为安全网站和诈骗网站；

2.根据权利要求1所述的基于特征分类的诈骗网站识别方法，其特征在于，计算出各文档中每个词组分别出现在安全网站和诈骗网站中的卡方统计量，并根据词组的卡方统计量筛选得到敏感词组的步骤包括以下步骤：

对各文档中的词组进行过滤；

3.根据权利要求2所述的基于特征分类的诈骗网站识别方法，其特征在于，对各文档中的词组进行过滤的步骤包括以下步骤：

将各文档中的文本分别分成多个词组；

对各文档中的词组进行过滤。

4.根据权利要求3所述的基于特征分类的诈骗网站识别方法，其特征在于，对各文档中的词组进行过滤的方法为：删掉停用词，停用词包括介词、语气助词。

5.根据权利要求1所述的基于特征分类的诈骗网站识别方法，其特征在于，根据所有文档的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤：

将所有文档的特征向量进行归一化处理；

6.根据权利要求1-5中任一权利要求所述的基于特征分类的诈骗网站识别方法，其特征在于，计算词组的卡方统计量的公式为：

7.根据权利要求6所述的基于特征分类的诈骗网站识别方法，其特征在于，计算敏感词组的正反向词频的公式为：

TF-IDF_w＝TF_w×IDF_w (3)

8.根据权利要求7所述的基于特征分类的诈骗网站识别方法，其特征在于，还包括步骤：采集多个网站，并将各网站中每一层页面的文本作为一个文档进行存储。

9.根据权利要求8所述的基于特征分类的诈骗网站识别方法，其特征在于，采集的每个网站至少包括一个文档。

10.根据权利要求9所述的基于特征分类的诈骗网站识别方法，其特征在于，若词组的卡方统计量在预设排名内，则选取该词组为敏感词组。