CN109492219A

CN109492219A - 一种基于特征分类和情感语义分析的诈骗网站识别方法

Info

Publication number: CN109492219A
Application number: CN201811250384.7A
Authority: CN
Inventors: 高勇; 孙志猛; 刘善武; 李进; 孟繁瑞; 赵龙斌; 刘志会; 柴军民; 孙涛; 郝振江; 夏光升
Original assignee: National Computer Network And Information Security Management Center Shandong Branch; Tianjin Rui Digital Security System Ltd By Share Ltd; Shandong Communications Administration
Current assignee: National Computer Network And Information Security Management Center Shandong Branch; Tianjin Rui Digital Security System Ltd By Share Ltd; Shandong Communications Administration
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-03-19

Abstract

本发明涉及网络安全技术领域，尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。该方法包括以下步骤：为采集的网站文本中的每一个词添加情感标识，情感标识为积极和消极中的任一；将词的序列转换为词的向量，作为特征向量；使用长短期记忆网络对所有的特征向量进行训练，得到用于识别网站是否为诈骗网站的情感分析分类模型。本发明利用BP神经网络模型先对采集到的网站进行识别，只有在采集到的网站是诈骗网站的情况下，才对采集到的网站进行基于情感分析的判断，有利于降低误判率，提高网站识别准确率，还有利于提高用户体验，节约时间。

Description

一种基于特征分类和情感语义分析的诈骗网站识别方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于特征分类和情感语义分析的诈骗网站识别方法。

背景技术

随着近年来国内互联网的发展，网站的数量日益增多。非正常、不安全的网站数量也逐渐增多，而且让人难以分辨，非正常网站包括恶意网站、钓鱼网站、诈骗网站等，一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息，获取用户个人隐私等，给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一，在网络安全中，对其进行识别是确保网络安全的重中之重。

现有的网站监测或者识别技术主要是通过维护黑名单来判断用户访问的网站是否为恶意、钓鱼、诈骗网站，这种方法需要极高的人工成本进行筛选；另一种网站识别方法是通过URL(Uniform Resoure Locator，统一资源定位符，是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址)特征，其识别速度快，能主动发现非正常网站，但由于URL包含的信息有限，仅从URL并不能很好的判断出一个网站属于非正常网站还是正常网站，所以现在也有一些基于网站内容的网站识别方法。基于内容的网站分类涉及到文本分类，现有的文本分类技术主要流程为提取敏感关键词，计算文本中关键词的TF-IDF(term frequency–inverse document frequency，是一种用于信息检索与数据挖掘的常用加权技术)作为特征向量，然后用SVM(Support Vector Machine，支持向量机)训练这些特征向量生成分类模型。但是在实际情况中，有些安全、正常网站中也包含有同样的关键词和相似的词频，如“反诈骗联盟”等，由于网站中含有“诈骗”这个非安全网站的敏感词语，现有的网站识别模型也会把正常网站识别为诈骗网站。

因此，为了提高网站识别的准确率，降低误判率，急需一种基于特征分类和情感语义分析的诈骗网站识别方法。

发明内容

本发明提供了一种基于特征分类和情感语义分析的诈骗网站识别方法，以解决现有技术中网站识别方法误判率高的问题。

本发明提供了一种基于特征分类和情感语义分析的诈骗网站识别方法，包括以下步骤：

为采集的网站文本中的每一个词添加情感标识，情感标识为积极和消极中的任一；

将词的序列转换为词的向量，作为特征向量；

使用长短期记忆网络对所有的特征向量进行训练，得到用于识别网站是否为诈骗网站的情感分析分类模型。

进一步地，还包括步骤：将采集的网站中的文本输入训练好的BP神经网络模型，若输出结果为诈骗网站，则将采集的网站中的文本分成多个词，为采集的网站文本中的每一个词添加情感标识。

进一步地，训练BP神经网络模型包括以下步骤：

将采集到的多个网站分别标识为安全网站和诈骗网站；

将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本；

计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量，并根据词的卡方统计量筛选得到敏感词；

计算出各文本中出现的每个敏感词的正反向词频，作为各文本的特征向量；

根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

进一步地，计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量，并根据词的卡方统计量筛选得到敏感词的步骤包括以下步骤：

将各文本分别分成多个词；

对各文本中的词进行过滤；

计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量，并根据词的卡方统计量筛选得到敏感词。

进一步地，对各文本中的词进行过滤的方法为：删掉停用词，停用词包括介词、语气助词。

进一步地，根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤：

将所有文本的特征向量进行归一化处理；

根据所有归一化处理后文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

进一步地，计算词的卡方统计量的公式为：

其中，w为词，c为安全网站和诈骗网站中的任一，A为w出现在类别为c中的文本数，B为w出现在类别不为c中的文本数，C为w不出现在类别为c中的文本数，D为w不出现在类别不为c中的文本数，N为文本总数，χ²(w，c)为w在c中的卡方统计量。

进一步地，计算敏感词的正反向词频的公式为：

TF-IDF_w＝TF_w×IDF_w (3)

其中，w为词，TF_w为w的词频，IDF_w为w的逆向文件词频，TF-IDF_w为w的正反向词频。

进一步地，为采集的网站文本中的每一个词添加情感标识，情感标识为积极和消极中的任一的步骤包括以下步骤：

对多个词进行筛选，将出现次数小于预设频率的词删除；

为筛选后的每个词添加情感标识，情感标识为积极和消极中的任一。

进一步地，使用长短期记忆网络对所有的特征向量进行训练，得到用于识别网站是否为诈骗网站的情感分析分类模型的步骤包括以下步骤：

将所有特征向量进行归一化处理；

使用长短期记忆网络对所有归一化处理后的特征向量进行训练，得到用于识别网站是否为诈骗网站的情感分析分类模型。

本发明提供的基于特征分类和情感语义分析的诈骗网站识别方法，与现有技术相比具有以下进步：

(1)先为采集到的网站中的每一个词添加情感标识，再使用长短期记忆网络对特征向量进行训练，得到用于识别网站是否为诈骗网站的情感分析分类模型，利用该情感分析分类模型对网站进行识别的结果准确率高、误判率低，且具有结构简单、操作方便的优点。

(2)利用BP神经网络模型先对采集到的网站进行识别，只有在采集到的网站是诈骗网站的情况下，才对采集到的网站进行基于情感分析的判断，有利于降低误判率，提高网站识别准确率，还有利于提高用户体验，节约时间。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中基于特征分类和情感语义分析的诈骗网站识别方法的步骤图；

图2为本发明实施例中训练BP神经网络模型的步骤图；

图3为本发明实施例中步骤130具体实施时的步骤图；

图4为本发明实施例中步骤150具体实施时的步骤图；

图5为本发明实施例中步骤200具体实施时的步骤图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

本实施例提供了一种基于特征分类和情感语义分析的诈骗网站识别方法。

如图1，本实施例的基于特征分类和情感语义分析的诈骗网站识别方法，包括以下步骤：

步骤200、为采集的网站文本中的每一个词添加情感标识，情感标识为积极和消极中的任一；

步骤300、将词的序列转换为词的向量，作为特征向量；

步骤400、使用长短期记忆网络对所有的特征向量进行训练，得到用于识别网站是否为诈骗网站的情感分析分类模型。

本实施例的基于特征分类和情感语义分析的诈骗网站识别方法，先为采集到的网站中的每一个词添加情感标识，再使用长短期记忆网络对特征向量进行训练，得到用于识别网站是否为诈骗网站的情感分析分类模型，利用该情感分析分类模型对网站进行识别的结果准确率高、误判率低，且具有结构简单、操作方便的优点。

如图1，本实施例的基于特征分类和情感语义分析的诈骗网站识别方法在具体实施时，还包括步骤100、将采集的网站中的文本输入训练好的BP神经网络模型，若输出结果为诈骗网站，则进行步骤200。

利用BP神经网络模型先对采集到的网站进行识别，只有在采集到的网站是诈骗网站的情况下，才对采集到的网站进行基于情感分析的判断，有利于降低误判率，提高网站识别准确率，还有利于提高用户体验，节约时间。

如图2，训练BP神经网络模型包括以下步骤：

步骤110、将采集到的多个网站分别标识为安全网站和诈骗网站；

步骤120、将安全网站和诈骗网站中的文本分别标识为安全文本和诈骗文本；

步骤130、计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量，并根据词的卡方统计量筛选得到敏感词；

步骤140、计算出各文本中出现的每个敏感词的正反向词频，作为各文本的特征向量；

步骤150、根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

以预先采集的安全网站和诈骗网站及其包含的文本为数据源，筛选出文本中的敏感词，再利用敏感词计算出各文本的特征向量，以所有文本的特征向量作为样本对BP(backpropagation)神经网络模型(一种按照误差逆向传播算法训练的多层前馈神经网络)进行训练，最终得到用于识别网站是否为诈骗网站的BP神经网络模型，方法简单、操作方便、易于实施，具有网站识别准确率高的优点。

具体实施时，如图3，步骤130包括以下步骤：

步骤131、将各文本分别分成多个词；

步骤132、对各文本中的词进行过滤；

步骤133、计算出各文本中过滤后的词分别出现在安全网站和诈骗网站中的卡方统计量，并根据词的卡方统计量筛选得到敏感词。

对各文本中的词进行过滤的方法为：删掉停用词，停用词包括介词、语气助词、连接词等无意义的词。在计算词的卡方统计量之前，先对各文本中的词进行过滤，去除掉一些无意义的词，提高后续模型训练的工作效率，有利于提高最终BP神经网络模型建立的准确度和可靠度。

如图4，本实施例的基于特征分类和情感语义分析的诈骗网站识别方法具体实施时，步骤150包括以下步骤：

步骤151、将所有文本的特征向量进行归一化处理；

步骤152、根据所有归一化处理后文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型。

归一化处理的方法可以是线性函数归一化，在训练BP神经网络模型之前，首先对所有文本的特征向量进行归一化处理，消弭误差，使最终得到的BP神经网络模型更加符合需求，易于推广和使用。

具体实施时，在

计算词的卡方统计量的公式为：

计算敏感词的正反向词频的公式为：

TF-IDF_w＝TF_w×IDF_w (3)

如图5，本实施例的基于特征分类和情感语义分析的诈骗网站识别方法具体实施时，步骤200包括以下步骤：

步骤210、对多个词进行筛选，将出现次数小于预设频率的词删除；

步骤220、为筛选后的每个词添加情感标识，情感标识为积极和消极中的任一。

对多个词进行筛选，将出现次数小于预设频率的词删除，有利于保证最终情感分析分类模型建立的有效性，提高网站识别模型建立的效率。

本实施例的基于特征分类和情感语义分析的诈骗网站识别方法具体实施时，使用word2vec模型将词的序列转换为词的向量，且将词的向量输入到word2vec模型的Embeding层，输出降低维度后的词的向量，作为特征向量，降低词的向量的维度，有利于提高最终建立的情感分析分类模型的准确性和可靠性。

本实施例的基于特征分类和情感语义分析的诈骗网站识别方法具体使用时，先将采集到的网站输入训练好的BP神经网络模型，若输出结果为诈骗网站，则将采集到的网站中的文本中的每一个词都添加情感标识，情感标识为积极和消极中的任一。将具有情感标识的词的序列转化为词的索引序列，词的索引序列用整数表示，如：[今天没有下雨]->[44 12 15]，再将词的索引序列输入训练好的Embeding层和长短期记忆网络(LSTM)组合模型，即本实施例方法建立的情感分析分类模型，若输出结果小于预设值，则判定为积极(赞成)；若输出结果大于预设值，则判定为消极(反对)；将判定结果为消极的网站排除掉，判定结果为积极的就是诈骗网站，能够有效的降低网站识别的误判率。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，包括以下步骤：

将词的序列转换为词的向量，作为特征向量；

2.根据权利要求1所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，还包括步骤：将采集的网站中的文本输入训练好的BP神经网络模型，若输出结果为诈骗网站，则将采集的网站中的文本分成多个词，为采集的网站文本中的每一个词添加情感标识。

3.根据权利要求2所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，训练BP神经网络模型包括以下步骤：

将采集到的多个网站分别标识为安全网站和诈骗网站；

4.根据权利要求3所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，计算出各文本中每个词分别出现在安全网站和诈骗网站中的卡方统计量，并根据词的卡方统计量筛选得到敏感词的步骤包括以下步骤：

将各文本分别分成多个词；

对各文本中的词进行过滤；

5.根据权利要求4所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，对各文本中的词进行过滤的方法为：删掉停用词，停用词包括介词、语气助词。

6.根据权利要求5所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，根据所有文本的特征向量训练出用于识别网站是否为诈骗网站的BP神经网络模型的步骤包括以下步骤：

将所有文本的特征向量进行归一化处理；

7.根据权利要求6所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，计算词的卡方统计量的公式为：

8.根据权利要求7所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，计算敏感词的正反向词频的公式为：

TF-IDF_w＝TF_w×IDF_w (3)

其中，w为词，IDF_w为w的词频，IDF_w为w的逆向文件词频，TF-IDF_w为w的正反向词频。

9.根据权利要求1-8中任一权利要求所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，为采集的网站文本中的每一个词添加情感标识，情感标识为积极和消极中的任一的步骤包括以下步骤：

对多个词进行筛选，将出现次数小于预设频率的词删除；

10.根据权利要求9所述的基于特征分类和情感语义分析的诈骗网站识别方法，其特征在于，使用长短期记忆网络对所有的特征向量进行训练，得到用于识别网站是否为诈骗网站的情感分析分类模型的步骤包括以下步骤：

将所有特征向量进行归一化处理；