CN109543084B

CN109543084B - 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Info

Publication number: CN109543084B
Application number: CN201811332770.0A
Authority: CN
Inventors: 罗敏楠; 林中平; 郑庆华; 秦涛; 刘欢
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2021-01-19
Anticipated expiration: 2038-11-09
Also published as: CN109543084A

Abstract

本发明公开了一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法，包括以下步骤：步骤1、互联网社交媒体文本数据高效采集及预处理，构建面向特定应用场景的数据集以及词向量词典，利用稠密的词向量，为数据集中每个类别标签赋予中文语义信息；步骤2、基于深度神经网络特征的多分类模型训练，利用卷积神经网络提取样本数据的深度特征，训练一个多分类的支持向量机；步骤3、基于中文语义理解的模型测试评价，通过深度特征向量得到文本的隐含语义。用于无敏感关键词情况下，从中文语义层面检测网络社交媒体上的中文隐蔽敏感信息，从而增加了网络舆情监测的精准程度。

Description

一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

技术领域

本发明属于互联网信息处理技术领域，具体涉及一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法。

背景技术

随着互联网的快速发展和全民应用，网络舆情成为社会舆情中十分重要的一部分。相对于传统媒介(电视、报纸、广播等)，承载网络舆情的互联网呈现出言论自由度过高、突发性、传播快、受众广等特点，这也给舆情监控系统提出了实时性、高精度等要求。

针对隐蔽性程度较高的有害网络敏感舆情信息，近年来，不法分子逐渐避开在此类信息中直接使用涉及敏感的关键词。虽然这类单词不直接出现，但是从短文本整体的中文语义上，又可以明显地辨别出这种涉及敏感的有害舆情信息。此时，传统舆情系统的关键词过滤方法以及变形关键词过滤方法(拆分关键词、用拼音代替等)已经无法准确滤除包含隐蔽敏感信息的文本。因此，如何准确地检测出社交媒体中具有高隐蔽性的敏感文本信息是一个亟待解决的难点。

针对网络社交媒体的敏感信息检测方法，申请人经过查新，检索到一篇与本发明相关的专利，名称为一种基于计算机的互联网舆情监测系统，专利申请号为CN201620877903.2；该专利1提出了一种基于计算机的互联网舆情监测系统，该系统包括：服务器、数据存储器、信息提取器、数据采集网关、信号采集设备、智能分类检测器、应用网关监测设备、信号传感器、计算机、无线网络路由器和移动设备端。该专利通过数据采集网关简单过滤含特定敏感关键词的信息，但该方式仅能滤除包含显式关键词的敏感信息，对于语义隐蔽性程度较高(不包含特定敏感关键词)的网络敏感舆情信息，尚未提出有效的解决方案。

发明内容

为了解决上述问题，本发明提供了一种有效的建立用于检测隐蔽敏感文本信息的面向网络社交媒体的检测模型的方法。

为达到上述目的，本发明所述一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法，包括以下步骤：

步骤1、互联网文本数据采集及隐蔽敏感文本数据集构建。首先，通过爬虫程序，在网络社交媒体站点——新浪微博(http://weibo.cn)上利用事件关键词(组)获取与某事件相关的微博文本内容。对上述获取的原始文本数据进行预处理，以构建面向特定应用场景的隐蔽敏感文本数据集以及词向量词典D。该数据有如下两个用途：1、作为训练神经网络的数据集；2、利用公开的word2vec方法训练词向量(稠密向量)，为每一条文本样本数据的标签(tag)赋予中文语义信息。

步骤2、隐蔽敏感文本检测模型训练。对步骤1隐蔽敏感信息数据集训练集中每一个文本样本，将其表示为矩阵形式A∈R^m×n，m表示样本中的单词数，n表示词向量的维度。在训练集上预训练一个卷积神经网络分类模型(Convolutional Neural Network)，该模型依次包括一个卷积层、一个池化层、一个全连接层和一个Softmax分类层。当训练完成后，固定前三层的网络参数，将Softmax分类层替换为一个待训练的全连接层，该层的输出作为一个深度特征向量(维度与词向量相同，表示输入文本的整体特征信息)，基于该向量训练一个多分类支持向量机，优化该支持向量机的目标函数，从而得到最优的模型，即为隐蔽敏感文本检测模型。

步骤3、隐蔽敏感文本检测模型测试及评估。在步骤2中训练完成的隐蔽敏感文本检测模型，使用预先划分好的测试集样本进行测试及性能评估。采用“Top-K”方法评估该模型的性能，首先将其输入深度神经网络经过前向计算获得特征向量，计算该向量与词典D中欧式距离余弦距离最小的k个单词向量，由这k个向量得到对应的k个单词，若满足“样本标签类别对应的单词属于k个单词中的一个”这一条件，则认为预测正确，最终得到准确率。在模型实际工作过程中，对某样本生成的集合S中的单词，理解为该样本包含的语义信息。对特定的隐蔽敏感信息的样本而言，集合S中可能会出现表示其敏感信息的显式关键词。在实际应用过程中，对于一个新样本(可以是用爬虫实时抓取的文本内容，且不带有显式的敏感关键词)，首先经过数据清洗(去除特殊符号、分词、去除停用词)，然后表示为大小固定的输入矩阵首先输入隐蔽敏感文本检测模型，经过步骤2.4中已经训练完成的神经网络前向计算获得特征向量，计算该特征向量与类别集合中所有词向量的余弦距离，最后根据距离由小到大距得到k个单词， k个单词可以理解为这个新样本包含的语义信息，并且其中可能会出现表示其敏感信息的显式单词。

进一步的，步骤1包括以下步骤：

步骤1.1、对于目标热点事件，人工设定相关的关键词(组)集合，又已知新浪微博搜索接口链接为“https://weibo.cn/search/mblog？&keyword＝{}”，将关键词(组)进行url编码，将编码结果填入链接末尾的“{}”中得到目标链接。

步骤1.2、之后利用基于Scrapy框架的Python爬虫程序访问这些目标链接，并解析目标页面，即可获取相关微博页面的原始html文档。

步骤1.3、利用爬虫解析html文档内容，获取搜索结果的原始文本内容。一个目标链接对应一个新浪微博搜索网页，每个网页大约有20条博文，每条博文的文本内容在一对<p>标签中。通过Xpath语法获取原始文本数据。对每一条原始文本数据，首先保留中文，去除数字、英文字母、表情符号等噪声，再对文本进行分词操作，进一步去除停用词，得到若干中文单词，每条原始数据被表示为若干个中文单词的组合，将中文单词存储，构成原始语料库；

步骤1.4、为语料库中的每条文本数据人工添加类别(Class)信息,构建完整的隐蔽敏感信息数据集。以“全国研究生入学考试”为例，将隐蔽敏感信息数据集中的样本分为N个类别，并用N个中文单词表示,M个敏感信息正类和N-M个非敏感信息负类别，敏感信息正类指可能包含违法信息的类别，非敏感信息负类别指与上述违法信息类别相关但其本身不是违法信息的类别，最后将该隐蔽敏感信息数据集划分为80％训练集和20％测试集。步骤1.5、使用开源的 Word2vec方法对步骤1.3中获得的原始语料库进行无监督训练，得到原始语料库中每一个单词的n维稠密向量表征，称为词向量，词向量以实数向量的形式表示单词的语义信息。原始语料库中的中文单词及其词向量组成一个词典D，以供后续步骤使用。

步骤1.6、为隐蔽敏感信息数据集样本添加标签对应的词向量。将步骤1.4得到隐蔽敏感信息数据集的类别信息映射为数值语义信息。在词向量词典D中索引查询得到N个类别单词分别对应的词向量，用以表征中文单词的语义信息，以便后续进行数值计算。

进一步的，步骤2包括以下步骤：

步骤2.1、对一个经过预处理的文本样本(xⁱ,yⁱ)，xⁱ表示第i个输入网络的隐蔽敏感原始文本数据，yⁱ表示其对应的类别标签，为one-hot编码形式；xⁱ首先被表示为i×n的矩阵形式，i为xⁱ中实际包含的词向量数，然后对xⁱ进行处理，使训练集数据转换为维度为m×n的输入矩阵A，行数m表示词向量数，列数n表示一个词向量的维度；

步骤2.2、训练卷积神经网络模型，作为预训练模型，首先构建一个4层的卷积神经网络，在网络结构上包括一个卷积层C1，一个池化层P2，一个全连接层F3和一个Softmax分类层 S4；在训练集上优化卷积神经网络的网络参数，待网络参数迭代至最优，作为步骤2.4的预训练模型；

步骤2.3、引入样本类别携带的语义信息，对于某样本的类别单词w_t，从词向量词典D 索引得到一个n维的词向量

表示类别标签的中文语义信息；

步骤2.4、改变步骤2.2中预训练模型的网络结构，训练隐蔽敏感信息检测模型，固定C1、 P2、F3层，将S4层替换为一个线性变换层L4，将步骤2.2中F3层得到的特征向量F³传入线性变换层L4计算后得到一个n维深度特征向量，

用下列目标函数训练L4层的参数矩阵M，

其中，O表示多分类支持向量机的目标函数，margin为支持向量机分类间隔值，

为样本类别单词tag表征的中文单词的词向量，M为线性变换层的参数矩阵，经过初始化后需要训练，

为线性变换层输出向量；

为其余类别对应词向量；L4层输出与词向量同维度的稠密向量

表示输入样本的低维文本语义向量；最后分别计算它与样本对应的类别词向量

和其余类别词向量

的点积，使用点积相似度度量文本语义向量与类别向量

的相似性，点积运算的值越大，则表示文本样本与某个类别词在语义上更为接近，则可判断为该训练样本属于哪个类别。

进一步的，步骤2.2包括以下步骤：输入训练集样本(xⁱ,yⁱ)，将xⁱ表示为输入矩阵A的形式，

在卷积层C1中，输入矩阵A经过m个宽度为l的一维卷积核

(i＝1,2,3,…,m)卷积生成m个(n-l+1)×1的特征映射向量：

其中，

为第1层卷积层第i个卷积核的输出结果，conv1(·)为卷积运算算子，

为第1 个卷积层第i个卷积运算的偏置项，

为第1层卷积层第i个卷积核的激活函数输出结果，f(·) 为激活函数算子；

在池化层P2中，一个(n-l+1)×1的特征映射向量取最大值作为池化映射，共生成m个池化映射

其中，

为池化层第i个池化窗口的输出结果，down(·)为池化运算算子，

为第2层池化层第i个池化运算的偏置项，

为池化层的第i个池化操作经过激活函数作用的输出结果， f(·)为激活函数算子；

在普通全连接层F3中，m个池化映射

拼接成为一个向量a，以全连接方式与下一层的q个神经元联结，

F³＝f(W³·a+b³)，

其中，F³为第3层全连接层经过激活函数作用的输出向量，f(·)为激活函数算子；W³为全连接层的系数矩阵，b³为第3层全连接层的偏置项；

在带Softmax分类器的特殊全连接层S4中，输出样本所属的类别，假设有q个类别(C₁,C₂,C₃,…,C_q)，对应地，Softmax分类层有q个神经元；对于样本A，得到q个神经元的输出，即该样本分别属于这q个类别的概率值，其中最大概率值对应的类别C_i就代表样本A的所属类别，计算过程如下：

S⁴＝W⁴·F³+b⁴，

其中，S⁴为第4层全连接层的输出向量，W⁴为全连接层的系数矩阵，b⁴为第4层全连接层的偏置项，P(y＝C_i|A)为样本A属于类别C_i的概率；

为S⁴向量中第i个元素做指数幂运算的结果；对一个样本，计算它分别属于4个类别的概率，得到向量：

计算样本(xⁱ,yⁱ)经过卷积神经网络前向传播后其分类结果的交叉熵损失(Loss)，具体公式如下：

其中，

表示训练集样本xⁱ的“one-hot”标签yⁱ的第j个元素；同理，

表示训练集样本xⁱ经过卷积神经网络计算后得到的向量

的第j个元素；在深度学习编程工具中，通过开源的算法迭代优化Loss，使其值不断变小至收敛，可以得到最优化的卷积神经网络相邻层之间的网络参数矩阵；保存这些网络参数矩阵以及卷积神经网络的结构(C1，P2，F3，S4层)，作为后续步骤中的预训练模型。

进一步的，步骤3包括以下步骤：

步骤3.1、对于隐蔽敏感信息测试集中的一个样本，经过改变结构的卷积神经网络前向传播计算后，获得线性变换层的输出向量

计算

在词典D中与之距离最近的k个词向量之间的余弦距离，按照余弦距离由小到大排序，得到k个词向量构成的序列，List(k)＝ {v₁,v₂,…,v_k}；

步骤3.2、通过逆向“键-值”索引得到k个单词，构成一个单词序列，计算测试集的整体准确率，List(w)＝{w₁,w₂,…,w_k}，若List(w)中出现样本标签对应的单词，则预测结果为正确。

进一步的，步骤3.2中利用Top-K评价方法计算隐蔽敏感文本检测模型整体准确率，包括以下步骤：

步骤3.2.1、已知测试集样本数目为N，将样本输入到隐蔽敏感信息检测模型中；始化循环控制变量i＝1，用于标识测试样本索引，样本预测准确数pre＝0；

步骤3.2.2、对于测试集中的第i个样本，i≤N，经过隐蔽敏感文本检测模型网络前向传播计算后，获得线性变换层输出的n维向量，计算该向量在词向量词典与之余弦距离最小的k个n 维词向量，并通过反向索引得到k个单词，k个单词组成集合S；

步骤3.2.3、若测试样本i的标签对应单词在集合S中，则为预测准确，pre自增1，接着开始判断第i+1个样本；反之，直接判断第i+1个样本；

步骤3.2.4、当遍历完N个测试集样本后，计算

与现有技术相比，本发明至少具有以下有益的技术效果，针对来自互联网社交媒体站点的文本数据，提取出不同类别隐蔽敏感信息的深度特征，基于以上特征，训练一个适用的深度学习模型，从而对社交媒体中新的隐蔽敏感文本信息进行有效检测。

传统鉴别敏感信息的方法大多是“分步”的，首先人为设置敏感关键词，然后在文本内容中进行精确匹配，效果容易被一些汉字拆分、异体字等手段所干扰。而本专利基于“端到端”的思路，利用目前在文本挖掘领域应用较为广泛的深度学习技术，在检测效率和效果上相较以往有了显著提升。

附图说明

图1本发明隐蔽敏感信息检测方法流程图；

图2互联网文本数据采集及预处理流程图；

图3语义模型“Top-K”评价方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

参照图1，本实施例以全国大型考试期间(如高考、研究生入学考试等)对网络社交媒体中隐蔽敏感文本进行检测。一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法，包括以下步骤：

步骤1、互联网文本数据采集及隐蔽敏感文本数据集构建。首先在网络社交媒体站点——新浪微博上获取与“考试”相关的文本信息。在大型考试到来前1-2个月，人工设定相关的若干个关键词，利用爬虫工具爬取新浪微博的用户发表的与“考试”相关的文本信息，然后对原始文本经过数据清洗、类别标注等操作后得到与考试有关的隐蔽敏感数据数据集。以“全国研究生入学考试”为例，在标注文本数据阶段，经过对采集到的历史数据进行简单分析，预先定义若干种隐蔽敏感信息的类别，如“作弊”、“泄题”、“助考”等类别(比如“作弊”类包含了与“作弊”有关的文本，但文本中不包含单词“作弊”，比如“今天带的小纸条终于派上用场了”这条博文，在考研期间，大概率涉及“作弊”这一现象)，另外添加一个非敏感信息类，定义为“考研”类。“作弊”、“泄题”、“助考”和“考研”组成类别集合，将文本数据分到上述若干个类别中。在该隐蔽敏感文本的数据集上使用公开的Word2vec方法无监督训练得到词向量并持久化存储为词向量词典。由于隐蔽敏感信息在网络中分布较少，在训练词向量的数据集中，保留中文单词“作弊”“泄题”“助考”；在训练以及测试后续机器学习模型时，数据集中滤除了这些单词，保证数据集呈现出“隐蔽”性的特点。

步骤1包括以下步骤：

步骤1.1、对于某个全国性考试，如“研究生入学考试”，设置与其相关的关键词(组) 集合，如(“考研”、“考研分数线”等)，在新浪微博搜索页面进行全站搜索，寻找包含关键词组的相关微博内容，又已知新浪微博搜索接口链接为“https://weibo.cn/search/mblog？ &keyword＝{}”，将关键词(组)进行url编码，将编码结果填入链接末尾的“{}”中得到目标链接。

步骤1.2、利用基于Scrapy框架的Python爬虫程序访问步骤1.1获得的目标链接，并解析目标页面，即可获取相关微博页面的原始html文档。

步骤1.3、利用爬虫解析html文档内容，获取搜索结果的原始文本内容。一个目标链接对应一个新浪微博搜索网页，每个页面大约有20条博文，每条博文的文本内容在一对<p>标签中。通过Xpath语法获取原始文本数据。在数据清洗阶段，对每一条原始文本数据，首先保留中文，去除数字、英文字母、表情符号等噪声，再对文本进行分词操作，去除停用词，得到若干中文单词，每条原始文本数据被表示为若干个中文单词的组合，将中文单词存储，构成原始语料库；此时，语料库中每条文本数据由若干个中文单词构成。

步骤1.4、为语料库中的每条文本数据人工添加类别(Class)信息,构建完整的隐蔽敏感信息数据集。以“全国研究生入学考试”为例，将数据集中的样本分为四个携带具体含义的类别，并用四个中文单词表示：“泄题”，“答案”，“作弊”三个隐蔽敏感信息正类和一个“考研”负类，最后将该数据集划分为80％训练集和20％测试集。

步骤1.5、使用开源的Word2vec方法对步骤1.3中获得的原始语料库进行无监督训练，得到语料库中每一个单词对应的n维稠密数值向量，称为词向量。词向量以实数向量的形式表示单词的语义信息。原始语料库中的所有中文单词及其词向量组成一个词典D，以“词-词向量”的“键-值”对方式进行查询，供后续步骤使用。

步骤1.6、将步骤1.4得到隐蔽敏感信息数据集的类别信息映射为数值语义信息。仍然以“研究生入学考试”的隐蔽敏感信息数据集为例，在词向量词典D中索引查询得到四个类别单词分别对应的词向量，用以表征中文单词的语义信息，以便后续进行数值计算。

步骤2、隐蔽敏感文本检测模型训练。对步骤1隐蔽敏感文本数据集的训练集中每一个文本样本，将其表示为矩阵形式A∈R^m×n，m表示样本中的单词数，n表示词向量的维度。在训练集上预训练一个卷积神经网络分类模型(Convolutional Neural Network)，该分类模型依次包括一个卷积层、一个池化层、一个全连接层和一个Softmax分类层。当训练完成后，固定前三层的网络参数，将Softmax分类层替换为一个待训练的全连接层，该层的输出作为一个深度特征向量(维度与词向量相同，表示输入文本的整体特征信息)，基于该向量训练一个多分类支持向量机，使用时下开源的深度学习工具优化该多分类支持向量机的目标函数，从而得到最优的模型，即为隐蔽敏感文本检测模型。

步骤2具体包括以下步骤：

步骤2.1、对一个经过预处理的文本样本(xⁱ,yⁱ)，xⁱ表示第i个输入网络的隐蔽敏感原始文本数据，yⁱ表示其对应的类别标签，为“one-hot”编码形式(在本范例中，“作弊”类的编码向量为[1,0,0,0]，“泄题”类的编码向量为[0,1,0,0]，“助考”类的编码向量为[0,0,1,0]，“考研”类的编码向量为[0,0,0,1])；xⁱ首先被表示为i×n的矩阵形式，i为xⁱ中实际包含的词向量数，然后对xⁱ进行处理，使训练集数据转换为维度为m×n的输入矩阵A，行数m表示词向量数，列数n表示一个词向量的维度；

步骤2.2、训练卷积神经网络。获得步骤2.1中某个样本的矩阵表示A后，将该样本作为卷积神经网络的输入，卷积神经网络包括一个卷积层C1，一个池化层P2，一个普通全连接层 F3和一个Softmax分类层S4。然后利用训练集得到一个基于卷积神经网络的预训练模型；

在卷积层C1中，A经过m个宽度为l的一维卷积核

卷积生成m个 (n-l+1)×1的特征映射向量：

其中，

为第1 个卷积层第i个卷积运算的偏置项，

为第1层卷积层第i个卷积核的激活函数输出结果，f(·) 为激活函数算子。

其中，

为第2层池化层第i个池化运算的偏置项，

为池化层的第i个池化操作经过激活函数作用的输出结果， f(·)为激活函数算子。

在普通全连接层F3中，m个池化映射

拼接成为一个向量a，以全连接方式与下一层的q个神经元联结。

F³＝f(W³·a+b³)

其中，F³为第3层全连接层经过激活函数作用的输出向量，f(·)为激活函数算子；W³为全连接层的系数矩阵，b³为第3层全连接层的偏置项。

在带Softmax分类器的特殊全连接层S4中，输出样本所属的类别。假设有q个类别(C₁,C₂,C₃,…,C_q)，对应地，Softmax分类层有q个神经元。对于样本A，得到q个神经元的输出，即该样本分别属于这q个类别的概率值，其中最大概率值对应的类别C_i就代表样本A的所属类别，计算过程：

S⁴＝W⁴·F³+b⁴

为S⁴向量中第i个元素做指数幂运算的结果。对一个样本，计算它分别属于4个类别的概率，得到向量：

其中，

表示训练集样本xⁱ的“one-hot”标签yⁱ的第j个元素。同理，

表示训练集样本xⁱ经过卷积神经网络计算后得到的向量

的第j个元素。在深度学习编程工具中，通过开源的算法迭代优化Loss，使其值不断变小至收敛，可以得到最优化的卷积神经网络相邻层之间的网络参数矩阵。保存这些网络参数矩阵以及卷积神经网络的结构(C1，P2，F3，S4层)，作为后续步骤中的预训练模型。

步骤2.3、引入样本类别携带的语义信息。对于某样本的类别单词w_t，从词向量词典D 索引得到一个n维的词向量

表示类别标签的中文语义信息。

步骤2.4、改变步骤2.2中卷积神经网络结构，训练多分类支持向量机模型(即隐蔽敏感文本检测模型)。固定C1、P2、F3层，将S4层替换为一个线性变换层L4。将步骤2.2中F3层得到的特征向量F³传入线性变换层L4计算后得到一个n维深度特征向量(与词向量维度相同，表示文本的深度特征)

用下列目标函数训练L4层的参数矩阵M。

其中，O表示多分类支持向量机模型的目标函数，margin为支持向量机分类间隔值，

为其余类别对应词向量(在本范例中，若tag表示“泄题”，那么 j＝{“作弊”，“答案”，“考研”})。L4层输出与词向量同维度的稠密向量

表示输入样本的低维文本语义向量。最后分别计算它与样本对应的类别词向量

和其余类别词向量

的点积，使用点积相似度(Product Similarity)度量文本语义向量与类别向量

步骤3、隐蔽敏感文本检测模型测试及评估。首先判断步骤2.4中的敏感文本检测模型是否训练完成(网络参数是否收敛)，若隐蔽敏感文本检测模型已经完成优化收敛，使用预先划分好的测试集样本进行测试及性能评估。采用“Top-K”方法评估该模型的性能，首先将其输入深度神经网络经过前向计算获得特征向量，计算该向量与词典D中余弦距离最小的k个向量 (k值大小由人工设定，一般k≤20)，由这k个向量得到对应的k个单词，若满足“样本类别对应的单词属于k个单词中的一个”这一条件，则认为预测正确，最终得到准确率。

为模型准确率设置一个阈值，若准确率结果大于该阈值，则认为该隐蔽敏感信息检测模型有效；反之，通过调整学习率或/和指数衰减率，直至准确率符合阈值要求。

在实际应用过程中，对于一个新样本(可以是用爬虫实时抓取的文本内容，且不带有显式的敏感关键词)，首先经过数据清洗(去除特殊符号、分词、去除停用词)，然后表示为大小固定的输入矩阵，经过步骤2.4中已经训练完成的神经网络前向计算获得特征向量，计算该特征向量与类别集合中所有词向量的余弦距离，最后根据距离由小到大得到k个单词，k个单词可以理解为这个新样本包含的语义信息，并且其中可以出现表示其敏感信息的显式单词。

步骤3具体包括以下步骤：

步骤3.1、在模型测试评价阶段，对于隐蔽敏感信息测试集中的一个样本，经过改变结构的卷积神经网络前向传播计算后，获得线性变换层的输出向量

计算

在词典D中与之距离最近的k个词向量之间的余弦距离，计算公式如下：

表示词向量词典中的任意词向量，按照余弦距离由小到大排序，得到k个词向量构成的序列，List(k)＝{v₁,v₂,…,v_k}。

步骤3.2、通过逆向“键-值”索引得到k个单词，构成一个单词序列，List(w)＝{w₁,w₂,…,w_k}，若List(w)中出现样本标签对应的单词，则认为预测正确，最终可以计算测试集的整体准确率。同时，List(w)中的单词也可以表征某一段新的文本样本包含的语义信息，实验证明，即使某些样本中未显式地出现某些敏感词汇，在List(w)中也能够查找得到表示敏感信息且与原文本语义相关的单词，以此可以检测网络社交媒体中某些文本是否呈现携带隐蔽敏感信息。

步骤3.2中利用“Top-K”评价方法计算测试集的整体准确率，参照图3，“Top-K”评价方法计算测试集的整体准确率具体包括以下步骤：

步骤3.2.1、在测试集上进行模型评价。已知测试集样本数目为N，将这些样本输入到隐蔽敏感文本检测模型中。另初始化循环控制变量i＝1，用于标识测试样本索引，样本预测准确数pre＝0。

步骤3.2.2、对于测试集中的第i(i≤N)个样本，经过隐蔽敏感文本检测模型网络前向传播计算后，获得线性变换层输出的n维向量，计算该向量在词向量词典与之余弦距离最小的 k个n维词向量，从而通过反向索引得到k个单词，k个单词组成集合S。

步骤3.2.3、若测试样本i的标签对应单词在k个单词的集合中，则为预测准确，对pre做自增1，开始判断第i+1个样本；反之，直接开始判断第i+1个样本。

步骤3.2.4、当遍历完N个测试集样本后，计算

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法，其特征在于，包括以下步骤：

步骤1、互联网文本数据采集及隐蔽敏感文本数据集构建：在网络社交媒体站点上利用事件关键词或关键词组获取与某事件相关的原始文本数据，对获取的文本数据进行预处理，以构建隐蔽敏感文本数据集以及词向量词典D，并将隐蔽敏感信息数据集划分为训练集和测试集；

步骤2、隐蔽敏感文本检测模型训练：训练隐蔽敏感信息数据集中的每一个文本样本，将其表示为矩阵形式A∈R^m×n，m表示样本中的单词数，n表示词向量的维度；在训练集上预训练一个卷积神经网络分类模型，训练完成后，固定前三层的网络参数，将Softmax分类层替换为一个待训练的全连接层，该层的输出作为一个深度特征向量，基于该深度特征向量训练一个多分类支持向量机，优化该支持向量机的目标函数，从而得到最优的模型，即为隐蔽敏感文本检测模型；

步骤3、隐蔽敏感文本检测模型测试及评估：使用预先划分好的测试集样本对步骤2中训练完成的隐蔽敏感文本检测模型进行测试及性能评估，评估隐蔽敏感文本检测模型的准确率；

步骤2包括以下步骤：

步骤2.1、对一个经过预处理的文本样本(xⁱ，yⁱ)，xⁱ表示第i个输入网络的隐蔽敏感原始文本数据，yⁱ表示其对应的类别标签，为one-hot编码形式；xⁱ首先被表示为i×n的矩阵形式，i为xⁱ中实际包含的词向量数，然后对xⁱ进行处理，使训练集数据转换为维度为m×n的输入矩阵A，行数m表示词向量数，列数n表示一个词向量的维度；

步骤2.2、训练卷积神经网络模型，作为预训练模型，首先构建一个4层的卷积神经网络，在网络结构上包括一个卷积层C1，一个池化层P2，一个全连接层F3和一个Softmax分类层S4；在训练集上优化卷积神经网络的网络参数，待网络参数迭代至最优，作为步骤2.4的预训练模型；

步骤2.3、引入样本类别携带的语义信息，对于某样本的类别单词w_t，从词向量词典D索引得到一个n维的词向量

表示类别标签的中文语义信息；

步骤2.4、改变步骤2.2中预训练模型的网络结构，训练隐蔽敏感信息检测模型，固定C1、P2、F3层，将S4层替换为一个线性变换层L4，将步骤2.2中F3层得到的特征向量F³传入线性变换层L4计算后得到一个n维深度特征向量，

用下列目标函数训练L4层的参数矩阵M，

为线性变换层输出向量；

和其余类别词向量

的点积，使用点积相似度度量文本语义向量与类别向量

2.根据权利要求1所述的一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法，其特征在于，步骤1包括以下步骤：

步骤1.1、人工设定与某事件相关的关键或关键词组词集合，将关键词或关键词组进行url编码，得到目标链接；

步骤1.2、利用基于Scrapy框架的Python爬虫程序访问步骤1.1得到的所有目标链接，并解析目标页面，即可获取相关页面的原始html文档；

步骤1.3、解析原始html文档内容，获取原始文本数据，对每一条原始文本数据，依次进行保留中文、去除数字、英文字母以及表情符号的操作，再进行分词操作，然后去除停用词，得到若干中文单词，每条原始文本数据被表示为若干个中文单词的组合，将中文单词存储，构成原始语料库，此时，语料库中的每条文本数据由若干个中文单词构成；

步骤1.4、为语料库中的每条文本数据人工添加类别信息，构建隐蔽敏感信息数据集，将隐蔽敏感信息数据集中的样本分为N个类别，并用N个中文单词表示，N个类别包括M个敏感信息正类和N-M个非敏感信息负类别，敏感信息正类指可能包含违法信息的类别，非敏感信息负类别指与上述违法信息类别相关但其本身不是违法信息的类别，最后将隐蔽敏感信息数据集划分为80％训练集和20％测试集；

步骤1.5、使用开源的Word2vec方法对原始语料库进行无监督训练，得到原始语料库中每一个单词的n维稠密向量表征，称为词向量，原始语料库中的中文单词及其词向量组成一个词典D；

步骤1.6、将隐蔽敏感信息数据集的类别信息映射为数值语义信息，在词向量词典D中索引查询得到N个类别单词分别对应的词向量，用以表征中文单词的语义信息。

3.根据权利要求1所述的一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法，其特征在于，步骤2.2包括以下步骤：输入训练集样本(xⁱ，yⁱ)，将xⁱ表示为输入矩阵A的形式，

在卷积层C1中，输入矩阵A经过m个宽度为l的一维卷积核