CN112287072A

CN112287072A - 一种多维互联网文本风险数据识别方法

Info

Publication number: CN112287072A
Application number: CN202011307349.1A
Authority: CN
Inventors: 王慧娟; 王晓峰; 印晓天
Original assignee: First Research Institute of Ministry of Public Security
Current assignee: First Research Institute of Ministry of Public Security
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-01-29

Abstract

本发明公开了一种多维互联网文本风险数据识别方法，包括：S1、对训练样本进行文本预处理；S2、对步骤S1中预处理后的文本数据进行特征提取，生成词向量；S3、使用深度自编码网络对步骤S2中提取的特征进行降维，得到降维后的深度特征；S4、使用降维后的深度特征训练双向LSTM神经网络模型；S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。本发明的方法尤其适用于海量多源的多维互联网文本数据的识别，可以准确、有效地识别出互联网文本风险数据。

Description

一种多维互联网文本风险数据识别方法

技术领域

本发明涉及数据识别技术领域，具体涉及一种多维互联网文本风险数据识别方法。

背景技术

随着互联网的高速发展,其数据量呈指数级爆炸性增长。互联网中的各类门户网站、社交媒体、博客论坛包含海量数据，而且不断产生新网页新数据。互联网数据蕴含大量有价值的信息，对于互联网社会公共安全数据风险防控具有重要意义。

其中，互联网文本数据具有数据量大、实时性强、数据维度高、数据边界广泛等特点，而目前现有的数据识别方法存在模型比较单一的问题，对于多维数据的识别效果差，不适用于海量多源互联网数据，难以准确地在海量互联网文本数据中识别出风险数据。因此设计一种准确高效的多维互联网文本风险数据识别方法,是实现风险防控的关键。

发明内容

针对现有技术的不足，本发明旨在提供一种多维互联网文本风险数据识别方法，可以实现准确、有效地识别出互联网文本风险数据。

为了实现上述目的，本发明采用如下技术方案：

一种多维互联网文本风险数据识别方法，包括：

S1、对训练样本进行文本预处理：

S1.1、选取互联网中的文本无风险数据以及文本风险数据作为训练样本；对文本无风险数据和文本风险数据加入不同标注；

S1.2、按顺序判断文本为中文还是英文，然后采用相应的分词方法将文本分割为词语；

S1.3、中文文本和英文文本分词结束后，进行去停用词处理，根据停用词表剔除定义为停用词的常用词；

S2、对步骤S1中预处理后的文本数据进行特征提取，生成词向量；

S3、使用深度自编码网络对步骤S2中提取的特征进行降维，得到降维后的深度特征；

S4、使用降维后的深度特征训练双向LSTM神经网络模型；

S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。

进一步地，步骤S1.1中，所述文本风险数据包括含有诈骗、色情、恐吓、暴力内容中的一种或几种的互联网文本数据。

进一步地，步骤S1.1中，文本无风险数据和文本风险数据的数量比例为1：1。

进一步地，步骤S1.2中，若文本为英文，则使用英文分词法对英文句子分词；英文分词法过程包括：分割单词、去除标点符号、大小写转换、词干提取。

进一步地，步骤S1.2中，若文本为中文，则使用基于词典的中文分词法，基于已有的公开人工词库，按照正向最大匹配法将各个部分与词典进行匹配，完成中文语句的分词。

进一步地，步骤S2中，使用word2vec词嵌入方法中的CBOW模型来完成文本特征提取。

进一步地，步骤S4中，将所有深度特征构成的样本集按照数量比7：3划分为训练集和测试集进行双向LSTM神经网络模型的训练，采用固定学习率0.001。

进一步地，步骤S5的具体过程为：采集待识别的互联网文本数据，按照步骤S1-S3对待识别的互联网文本数据进行处理，输入到步骤S4所得训练好的双向LSTM神经网络模型中，若分类结果为风险数据，则该文本数据含有风险信息，完成互联网文本数据风险的识别。

本发明的有益效果在于：本发明的方法尤其适用于海量多源的多维互联网文本数据的识别，可以准确、有效地识别出互联网文本风险数据。

附图说明

图1为本发明实施例的方法流程示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本实施例提供一种多维互联网文本风险数据识别方法，如图1所示，包括：

S1、对训练样本进行文本预处理：

S1.1、选取互联网中的文本无风险数据以及含有诈骗、色情、恐吓、暴力等内容的文本风险数据作为训练样本，文本无风险数据和文本风险数据的数量比例为1：1；对文本无风险数据和文本风险数据加入不同标注；

S1.2、按顺序判断文本为中文还是英文，然后将文本分割为词语(词语是自然语言处理中里最细粒度的表达)。将文本分割为词语方便计算机理解和进一步分析语义，而英文和中文由于构词法和语法的不同，采用不同的分词方法。

若文本为英文，则使用英文分词法对英文句子分词；英文分词法过程包括：分割单词，去除标点符号，大小写转换，词干提取(即词根的还原)。其中，词干提取将属于同一个词干的派生词进行归类转化为统一形式，进一步增加词的类别与文档中的词之间匹配度。

若文本为中文，则使用基于词典的中文分词法，基于已有的公开人工词库(即词典)，按照正向最大匹配法将各个部分与词典进行匹配，完成中文语句的分词。

需要说明的是，采用正向最大匹配法与词典进行匹配的过程为：从左向右取待分汉语句的m个字作为匹配字段，m为词典中最长词的长度；查找词典进行匹配；若匹配成功，则将该字段作为一个词切分出去；若匹配不成功，则将该字段最后一个字去掉，剩下的字作为新匹配字段，进行再次匹配；重复上述过程，直到切分所有词为止；

S1.3、中文文本和英文文本分词结束后，进行去停用词处理，根据停用词表剔除定义为停用词的常用词。停用词是没有实际含义的虚词，如中文的“了、着、吧、啊”和英文中的“the、that、a”，结构助词“的、是、对”和“is、to、on、of”等。

预处理结束后，得到分词化、去冗余的文本数据，作为特征提取的输入。

S2、对预处理后的文本数据进行特征提取，生成词向量。

预处理后得到的仍然是文本数据，计算机无法直接处理，需要将单词映射到向量空间中，进行文本特征提取。使用word2vec词嵌入方法中的Cont inuous Bag-of-Words(CBOW)模型来完成文本特征提取。模型训练及单词向量化过程为：

CBOW模型是一个三层的神经网络模型，假设输入文本如下：“a b c d e f g“，想象有个滑动窗口，第一个词‘e’为关键词，其它词帮助分析。文本的长度为7，就得到了7个one-hot向量，作为CBOW模型的输入向量，训练目标是：最大化在给定前后文本情况下输出正确关键词的概率，即：

Maximise P("e"|("c","d","f","g"))

训练完成后，权重矩阵中的每一行就是对应单词的word2vec向量，即为文本中提取的特征。

S3、使用深度自编码网络对步骤S2中提取的特征进行降维。

特征提取后得到的word2vec向量是高维向量，含有大量冗余信息，通过深度自编码网络降维可以提取深度特征，减少数据量，提高识别准确率和效率。

深度自编码网络是多层的神经网络，使用非线性激活函数，由编码器和解码器两部分组成，编码器用于将输入的高维数据映射到低维向量空间，解码器用于重构输入数据，深度自编码网络的训练目标是：最小化输入数据和重构输入数据的误差，即：

训练完成后，编码器输出结果即为降维后的深度特征。

另外，除了深度自编码网络外，还可以采用PCA进行降维操作。

S4、使用降维后的深度特征训练双向LSTM神经网络模型。

双向LSTM神经网络模型，是在双向LSTM层基础上，加入全连接层和softmax层，克服了RNN和LSTM只能依据之前时刻的时序信息来预测下一时刻输出的问题，真正做到基于上下文判断，对于双向LSTM神经网络模型结构不再赘述。将所有深度特征构成的样本集按照数量比7：3划分为训练集和测试集进行双向LSTM神经网络模型的训练，采用固定学习率0.001。

S5、使用训练好的神经网络模型实现对文本风险数据的识别。

采集待识别的互联网文本数据，按照步骤S1-S3对待识别的互联网文本数据进行处理，输入到步骤S4所得训练好的双向LSTM神经网络模型中，若分类结果为风险数据，则该文本数据含有风险信息，完成互联网文本数据风险的识别。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种多维互联网文本风险数据识别方法，其特征在于，包括：

S1、对训练样本进行文本预处理：

S4、使用降维后的深度特征训练双向LSTM神经网络模型；

2.根据权利要求1所述的方法，其特征在于，步骤S1.1中，所述文本风险数据包括含有诈骗、色情、恐吓、暴力内容中的一种或几种的互联网文本数据。

3.根据权利要求1所述的方法，其特征在于，步骤S1.1中，文本无风险数据和文本风险数据的数量比例为1：1。

4.根据权利要求1所述的方法，其特征在于，步骤S1.2中，若文本为英文，则使用英文分词法对英文句子分词；英文分词法过程包括：分割单词、去除标点符号、大小写转换、词干提取。

5.根据权利要求1所述的方法，其特征在于，步骤S1.2中，若文本为中文，则使用基于词典的中文分词法，基于已有的公开人工词库，按照正向最大匹配法将各个部分与词典进行匹配，完成中文语句的分词。

6.根据权利要求1所述的方法，其特征在于，步骤S2中，使用word2vec词嵌入方法中的CBOW模型来完成文本特征提取。

7.根据权利要求1所述的方法，其特征在于，步骤S4中，将所有深度特征构成的样本集按照数量比7：3划分为训练集和测试集进行双向LSTM神经网络模型的训练，采用固定学习率0.001。

8.根据权利要求1所述的方法，其特征在于，步骤S5的具体过程为：采集待识别的互联网文本数据，按照步骤S1-S3对待识别的互联网文本数据进行处理，输入到步骤S4所得训练好的双向LSTM神经网络模型中，若分类结果为风险数据，则该文本数据含有风险信息，完成互联网文本数据风险的识别。