CN116467443A

CN116467443A - 基于主题识别的网络舆情文本分类方法

Info

Publication number: CN116467443A
Application number: CN202310404738.3A
Authority: CN
Inventors: 朱磊; 王菁; 马维纲; 黑新宏; 赵钦; 杨明松; 文苗青
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-21

Abstract

本发明公开了一种基于主题识别的网络舆情文本分类方法，具体包括如下步骤：步骤1，选取原始数据集，对该数据集进行处理；步骤2，对步骤1处理后的数据进行主题识别，得到与网络舆情主题相关的文本数据；步骤3，采用混合数据增强技术对步骤2所得的文本数据进行对抗训练；步骤4，对步骤3处理后的数据进行不相关词汇剔除；步骤5，将经步骤4处理后的数据导入TextCNN模型中进行文本分类。本发明解决了网络空间中涉法舆情领域所爬取的评论数据呈现短文本居多且核心内容稀疏的问题，以及涉法网络舆情文本语义表述隐晦、专业术语难以识别的问题。

Description

基于主题识别的网络舆情文本分类方法

技术领域

本发明属于计算机自然处理技术领域，涉及一种基于主题识别的网络舆情文本分类方法。

背景技术

随着互联网的普及以及计算机相关技术的快速发展，社会舆论的呈现方式也逐渐从口口相传或人们从报纸、收音机和电视等媒介被动式获取信息转到了虚拟网络空间中，每个人都可以通过手中的智能手机或电脑键盘去成为主动传播舆情者，从而形成了互联网背景下的网络舆情。在诸多的网络舆情分类中，涉法网络舆情极为不同，涉及到的语言术语种类繁多，隐晦难懂，并且负面的涉法社会舆论性质恶劣影响深远，对公民的人身财产安全和思想健康有着严重的威胁。

随着计算机领域深度学习的不断发展，NLP相关技术提高了各类文本语言的理解和处理能力，特别是现有的文本分类技术，在文本的语义信息挖掘有着卓越的性能表现。现有的文本分类模型有Fasttext、DPCNN、TextRNN、TextRCNN、BiLSTM_Attention和TextCNN等，其中TextCNN与传统图像的CNN网络相比，其在网络结构上没有任何变化,它只有一层convolution，一层max-pooling,最后将输出外接softmax来n分类，但这些模型中部分存在效率低下、不适用于短文本处理的缺点，同时缺乏对于专业术语和隐晦词较多的涉及法律相关文本分类的考虑。

发明内容

本发明的目的是提供一种基于主题识别的网络舆情文本分类方法，解决了网络空间中涉法舆情领域所爬取的评论数据呈现短文本居多且核心内容稀疏的问题，以及涉法网络舆情文本语义表述隐晦、专业术语难以识别的问题。

本发明所采用的技术方案是，基于主题识别的网络舆情文本分类方法，具体包括如下步骤：

步骤1，选取原始数据集，对该数据集进行处理；

步骤2，对步骤1处理后的数据进行主题识别，得到与网络舆情主题相关的文本数据；

步骤3，采用混合数据增强技术对步骤2所得的文本数据进行对抗训练；

步骤4，对步骤3处理后的数据进行不相关词汇剔除；

步骤5，将经步骤4处理后的数据导入TextCNN模型中进行文本分类。

本发明的特点还在于：

步骤1的具体过程为：

步骤1.1，从舆论平台爬取所要处理的舆论主题的用户评论作为原始数据集，通过Python中的pandas来对json格式的原始数据进行主题帖的文本拼接操作，并经过格式转换处理为csv格式保存；

步骤1.2，使用Jieba分词工具对步骤1.1所获得的主题帖进行中文文本数据的分词，然后人工删除掉拼接文本分词后的标点符号和停用词；

步骤1-3，将步骤1.2处理后的文本数据进行分类标签类别划分，划分为n类标签；

步骤1-4，按照步骤1-3划分的标签，对经步骤1.2处理后的文本进行标签标注；

步骤1-5，手动构建所分类的网络舆情主题文本的术语词典，其中词典中的词汇取自人工判别后的步骤1-2中经过分词预处理的文本。

步骤2的具体过程为：

步骤2.1，按照步骤1.3标注的标签对经步骤1.2处理后的文本进行拼接，构建出以主题帖为单位的文档级数据；其中假设包含D个文本的语料库，每个语料库文本中含有B个词对，每个语料库文本中有N个单词，每个语料库文本中一共涉及到K个主题；

步骤2.2，将步骤2.1中经过主题拼接之后的文档级数据集作为输入文档传入到BTM模型中，BTM模型中先生成词对语料库，利用语料库信息将短文本转化为词对模式，从语料库的层面去描述主题分布以及词分布。

步骤2.2的具体过程为：

步骤2-2-1，通过迪利克雷分布数学概率模型的计算获得特定主题下的单词分布ф_k～Dir(β)，其中ф为主题-词概率分布，即ф_k＝P(w|r)，Dir为BTM模型中所用到的数学概率迪利克雷分布，β是迪利克雷先验参数，标签主题用k表示，语料库联合形成的词向量为w以及主题分布为r，P(w|r)表示w，r的联合概率分布；

步骤2-2-2，在步骤2-1中得到的整个文本数据集合中随机获得一个主题分布θ_d～Dir(α)，其中θ为文档-主题概率分布，语料库文本用d表示，Dir为BTM模型中所用到的数学概率迪利克雷分布，α是迪利克雷先验参数；

步骤2-2-3，对于词对集合B中的词对b，b∈B，从主题分布θ中任意抽取一个主题k,获得一个主题分配k～Multi(θ_k)；从主题k中任意抽取一个词对biterm，即b_i和b_j，b_i，b_j～Multi(ф_k)，其中Multi(*)表示参数为*的多项式分布，θ_k表示整个语料库中K个主题的概率分布，即θ_k＝P(k)；

文本的主题分布采用如下公式(1)表示：

P(d)＝∑_kP(k)P(b_i|k)P(b_j|k)＝∑_kθ_kф_i|kф_j|k (1)；

其中，∑_k ^*表示针对于每一个主题k相关的(*)操作进行求和运算；θ_k，P(k)表示整个语料库中第k个主题的概率分布；P(b_#|k)表示文本所取词b_#对应的主题分布，由于词对b＝(b_i，b_j)，所以这里的#取i或j；ф_#|k表示主题k下的词b_#的概率分布；

根据公式(1)，将词对b＝(b_i，b_j)的联合分布概率计算出来，语料库中含有K个主题和|B|个词对，词对b则是由b_i和b_j组成，因而，整个语料库中双词集合B的概率P(B)采用如下公式(2)表示：

P(B)＝Π_(i,j)∑_kP(k)P(b_i|k)P(b_j|k) (2)；

步骤2-2-4，根据文档中单词对的预期概率进行文档主题的推断，进行文档中的主题的条件概率分布计算：

P(k|d)＝∑_bP(k|b)P(b|d) (3)；

其中，P(k|d)表示文档d中的主题k下的条件概率分布，∑_b(*)表示对于文本语料库中的每一个词对b的(*)操作进行求和运算，P(k|b)表示词对b对应主题k的条件概率分布，P(b|d)表示文本d中包含的词对b的条件概率分布；

其中，P(k|b)表示文档b中的主题k下的条件概率分布，P(b_#|k)表示主题k下所包含词对中b_#的条件概率分布，由于词对b＝(b_i，b_j)，所以这里的#取i或j，∑_k(*)表示对于主题k的(*)操作进行求和运算；为了获取到文档中单词对的条件概率P(b|d)，可以将单词对作为中间媒介来计算：

其中，n_d(b)表示共现单词对b在文档d中出现的频次总和，且在舆情文本数据集中，P(b|d)可以看作是文档d中所有的共现词对b的均匀分布；

步骤2-2-5，采用基于MCMC算法对网络舆情文本数据去进行吉普斯抽样，当Gibbs采样收敛后，收敛的条件为通过转移概率矩阵可以收敛到稳定的概率分布，即可得到所有词的采样主题，利用所有采样得到的词和主题的对应关系，得到每个文档-主题分布θ_d和每个主题-词分布ф_k，从而从爬取文本数据中过滤掉不相关数据，只留下与网络舆情主题相关的文本数据。

步骤3的具体过程为：

步骤3-1，首先依据步骤2中经过BTM模型处理后的初步过滤了不相关文本后的数据集，输入到翻译软件进行语言的转化，将转化后的文本与原始数据集进行生成对抗网络的训练，其中生成对抗网络的整体优化目标函数表示为：

arg min_Lmax_DV(L,D) (6)；

其中，arg指的是复数的辐角主值，公式(6)表示使V(L,D)式子中L最小，D最大时的变量的取值；

公式(6)中的函数V(L,D)是判别器辨别能力的度量，表示为：

其中，在生成对抗网络中，生成器抽象为G(·)，生成器所生成的样本分布可以记为P_g(x)；真实的样本分布记为P_d(x)，判别器抽象表示为函数D(·)，函数D(·)可以用来隐式地表示P_g(x)与P_d(x)；

步骤3-2，将生成器固定，对判别器取得极大值，即对多项式进行求导运算并取极值，则得到的判别器的解析式为：

步骤3-3，当判别器达到最优时，生成对抗网络实际优化的是JS散度，其中，JS散度表示生成样本与真实样本间的差距，当生成器分布产生的分布P_L(x)与真实分布P_data(x)一致时，生成器达到最优，实现数据增强。

步骤4的具体过程为：

步骤4-1，通过对于经过对抗训练后的文本数据中的中心词c预测其上下文特定词r的概率P(R＝r|C＝c)，其中假设文本词汇量的大小为X，隐藏层的大小为Y，相邻层的神经元是全连接的，输入层用one-hot方式编码的单词向量x＝{x₁,…,x_X}表示，要求每个单词向量中只有一个为1，其余均为0；

步骤4-2，通过对文本数据中的词对进行随机采样，组成正负样本对，对于在训练原始文本中遇到的每一个单词，设定它们都有一定概率从文本中被删掉，而这个被删除的概率与单词的频率有关；

步骤4-3，接下来通过反向传播算法以及梯度下降来学习权重，在第c个上下文位置预测w(c,j)时实现概率最大化，可以使用损失函数L：

其目标函数为:

其中，

本发明的有益效果是，本发明面向网络舆情领域的文本分类任务进行研究，伴随着移动互联网的普及，网络舆情的形成更迅速、传播更广泛，对社会影响巨大。但缺乏有效的自动化数据审查技术，使得难以实现对网络舆情信息快速高效的识别。文本分类作为网络信息审查的重要手段，能够为相关部门加强网络监管、净化网络环境提供有力帮助，而文本分类算法的性能直接影响了上述工作开展得难易程度及完成质量。本发明结合网络舆情评论数据集自身的特点有针对性地在分类任务常见基准模型的基础上进行改进，以更好的适配目前面临的语义表达隐晦、术语较多等场景下的高效文本分类需求。

附图说明

图1是本发明基于主题识别的网络舆情文本分类方法中采用的模型结构示意图；

图2为本发明基于主题识别的网络舆情文本分类方法中采用的BTM主题模型结构分解示意图；

图3为本发明基于主题识别的网络舆情文本分类方法中采用的BackTranlate&&AdversarialTraining数据增强方式所示的分解示意图；

图4为本发明基于主题识别的网络舆情文本分类方法在词嵌入模型中引入了负采样机制的Skip-Gram模型的分解示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于主题识别的网络舆情文本分类方法，解决了当下涉法网络舆情领域的短文本稀疏性问题及涉法网络舆情文本语义表述隐晦、专业术语难以识别的问题，运用了基于TextCNN模型的优化方法，具体实施方式则是在文本分类阶段进行创新型地预处理，其次在embedding层引入了负采样机制，最后在池化阶段融入了协方差的Max-CovariancePooling方法，从而多角度地提升了涉法网络舆情的文本分类性能和效率。

本发明基于主题识别的网络舆情文本分类方法，如图1所示，具体包括如下步骤：

步骤1，从微博、博客等舆论平台爬取所要处理的舆论主题的用户真实评论作为文本处理模型的基础数据集，接下来对获取到的用户涉及所文本分类处理的网络舆情领域的真实评论文本数据进行文本预处理、标签的标注以及专业术语词典的构建。

步骤1-1，由于原始文本数据集为平台的用户评论，评论字数长度从几个字到一两百字不等，首先通过Python中的pandas来对json格式的原始数据进行主题帖的文本拼接操作，并经过格式转换处理为csv格式保存，为后续的文本表示时使用。

步骤1-2，使用Jieba分词工具对步骤1所获得的主题帖进行中文文本数据的分词，然后人工删除掉拼接文本分词后的标点符号和停用词，至此文本预处理步骤完成。

步骤1-3，接下来根据实际需求初步将经过了步骤1-1的拼接与步骤1-2的预处理后的舆论主题的用户真实评论进行分类标签类别划分，可划分为n类标签(其中n为整数且n≥2)，这里的n类标签类别和规则的划分是处理者在对处理文本有一定了解的基础上进行个人个性化的设定，是对文本主题标签的设定。令本步骤中所命名赋予的标签主题个数为k。

步骤1-4，接下来对步骤1-2中预处理步骤后的文本进行人工统一标注上所设定的多分类标签，至此标签的标注步骤完成。

步骤1-5，由于所处理的网络舆情文本会涉及具有更深层次含义的暗语和专业术语，为了后续文本的分类，因此需要手动构建所分类的网络舆情主题文本的术语词典，其中词典中的词汇取自人工判别后的步骤1-2中经过分词预处理的文本，由划分文本中的暗语和专业用语整理而成，其中暗语是指在所研究领域中用约定好的词来表达特别的意思的词语，专业术语是指所研究领域中对特定事物的统一的业内称谓，而对于行外人来说，是难以理解的词汇；术语词典也可搜集互联网上现有的相关丰富的专业语料库对所分类文本主题的术语进行扩充完善。也就是说，术语词典来源于手动提取文本术语和互联网专业语料库的补充，直到所构建的术语词典涵盖了所研究文本中的所有暗语和专业术语为止，至此专业术语词典的构建步骤完成。

经过上述步骤整理完成的网络舆情主题专业术语词典可深入原始文本数据挖掘特定词汇的深层信息，形成的专业术语词典辅助模型实现分类的预测，为后续的文本处理做了基础性的铺垫。

步骤2，由于通过步骤1的预处理和人工标注形成的相应文本分类数据集类别间存在严重的数据文本不平衡问题，因此如图2所示，本步骤引入BTM(Biterm Topic Model-词对主题模型)对文本数据进行主题识别，使得数据不平衡下的舆情文本检测效率显著提升。

步骤2-1，将步骤1中预处理得到的文本数据集进一步按照各自所属主题帖即所标注的标签进行评论文本数据的拼接，得到了标注为同一类的文本数据的拼接文档，从而构建出以主题帖为单位的文档级数据，也就是说针对每个主题标签都得到了一个主题文档，为接下来的BTM主题模型对主题帖文档进行主题生成，筛选出生成的含舆论主题评论的主题词及该类别下的所有主题帖做准备，其中假设包含D个文本的语料库，每个语料库文本中含有B个词对，每个语料库文本中有N个单词，每个语料库文本中一共涉及到K个主题(大写代表总集合，小写代表个体，下同)。

步骤2-2，将步骤2-1中经过主题拼接之后的文档级数据集作为输入文档传入到BTM模型中，在BTM模型中，先自动生成词对语料库，利用丰富的语料库信息将舆情文本信息转化为词对模式，从语料库的层面去描述主题分布以及词分布。BTM中语料库的具体生成过程可以描述为以下步骤，且在实际进行BTM模型的实验的设计过程中，需采用和参照Python中的Scikit-learn库：

步骤2-2-1，通过迪利克雷分布数学概率模型的计算获得特定主题下的单词分布ф_k～Dir(β)，其中ф为主题-词概率分布，即ф_k＝P(w|r)，Dir为BTM模型中所用到的数学概率迪利克雷分布，β是迪利克雷先验参数，标签主题用k表示，语料库联合形成的词向量为w以及主题分布为r，P(w|r)表示w，r的联合概率分布。

步骤2-2-2，在步骤2-1中得到的整个文本数据集合中随机获得一个主题分布θ_d～Dir(α)，其中θ为文档-主题概率分布，语料库文本用d表示，同样地Dir为BTM模型中所用到的数学概率迪利克雷分布，α是迪利克雷先验参数；

步骤2-2-3，对于词对集合B中的词对b，b∈B，从主题分布θ中任意抽取一个主题k，获得一个主题分配k～Multi(θ_k)；从主题k中任意抽取一个词对biterm，即b_i和b_j，b_i，b_j～Multi(ф_k)，其中Multi(*)表示参数为*的多项式分布，θ_k表示整个语料库中K个主题的概率分布，即θ_k＝P(k)。

根据以上步骤2-2-1～2-2-3三个生成过程，可以得出以下公式：

P(d)＝∑_kP(k)P(b_i|k)P(b_j|k)＝∑_kθ_kф_i|kф_j|k (1)；

其中，P(d)表示文本的主题分布；∑_k*表示针对于每一个主题k相关的(*)操作进行求和运算；θ_k，P(k)表示整个语料库中第k个主题的概率分布；P(b_#|k)表示文本所取词b_#对应的主题分布，由于词对b＝(b_i，b_j)，所以这里的#取i或j；ф_#|k表示主题k下的词b_#的概率分布。

根据上述公式(1)，将词对b＝(b_i，b_j)的联合分布概率计算出来。语料库中含有K个主题和|B|个词对，词对b则是由b_i和b_j组成。因而，整个语料库中双词集合B的概率可用公式表示计算出来：

P(B)＝Π_(i,j)∑_kP(k)P(b_i|k)P(b_j|k) (2)；

P(k|d)＝∑_bP(k|b)P(b|d) (3)；

其中，P(k|d)表示文档d中的主题k下的条件概率分布，∑_b(*)表示对于文本语料库中的每一个词对b的(*)操作进行求和运算，P(k|b)表示词对b对应主题k的条件概率分布，P(b|d)表示文本d中包含的词对b的条件概率分布。

其中，P(k|b)表示文档b中的主题k下的条件概率分布，P(b_#|k)表示主题k下所包含词对中b_#的条件概率分布，由于词对b＝(b_i，b_j)，所以这里的#取i或j，∑_k(*)表示对于主题k的(*)操作进行求和运算。为了获取到文档中单词对的条件概率P(b|d)，可以将单词对作为中间媒介来计算：

其中，n_d(b)表示共现单词对b在文档d中出现的频次总和，且在舆情文本数据集中，P(b|d)可以看作是文档d中所有的共现词对b的均匀分布。

步骤2-2-5，由于BTM模型若使用极大似然法求边缘概率分布的结果相当复杂，且无法做到精确的推理计算得到参数{θ,ф}，因此可以采用基于MCMC算法对网络舆情文本数据去进行吉普斯抽样，从而去求解BTM模型。在Gibbs采样收敛后，会得到第i个词语的主题，以此类推，当通过采样得到所有词的主题，那么通过统计所有词的主题计数，就可以得到各个主题的词分布。接着统计各个文档对应词的主题计数，可得到各个文档的主题分布。

Gibbs采样是通过条件分布采样模拟联合分布，再通过模拟的联合分布直接推导出条件分布，以此循环。Gibbs抽样的主要思想是交替的跟换参数，并在剩余变量的值中用一个变量的值去替换掉另一个变量的值。其中在BTM模型中需要对3类潜在的变量进行抽样，分别为k、θ和ф这三个参数。在使用折叠吉布斯抽样技术时，θ和ф可以由共轭先验参数α、β积分得出。

在进行Gibbs抽样时，BTM模型随机选择Markov链的最初始状态，然后计算每个bitermb＝(b_i，b_j)的条件分布P(k|k_-b,B,α、β)，B是词对biterm集合。模型通过对整个语料库的联合概率运用其链式规则，得到条件概率：

其中，k_b表示第b个词对对应的主题k，(k_-b，B)表示除去b之外的所有词对biterm的主题分配，P(k_b|k_-b,B)表示词对集合B中某个词对应主题的条件分布概率，P(k,B)表示词对集合B的主题k的概率分布，p(k_-b,B)表示词对集合B中除去词对b的主题k的概率分布，α表示文档-主题概率的迪利克雷分布的参数，P(B|k)表示主题k下词对B的条件概率分布，P(k)表示主题k的概率分布，P(B_-b|k_-b)表示在除去词对b的主题k的条件下，词对集合B中除去词对b的条件概率分布，P(k_-b)表示除去词对b的主题k的概率分布。

在公式中，P(B|k)可以通过对Φ进行积分得到，其中Φ是由K个主题-词分布组成，P(B|k)的计算方法公式如下：

在公式(7)中，Γ(·)是标准的Gamma函数，P(k)可以通过对α进行积分得到，其中

类推计算出P(B_-b|k_-b)和P(k_-b)后，将它们代入公式中，同时根据表达式Γ(x+1)＝xΓ(x)，可得BTM模型中Gibbs采样所需要的概率分布公式：

其中，n_k表示分配给主题k的词对bitermb的数目，n_w|r表示特征单词w被分配给主题r的数目，M则表示整个语料库中有M个不同的词。一旦确认将词对bitermb分配给了某个主题k，则bitermb下的两个词b_i和b_j将同时被分配给该主题k。根据以下两个公式便能很便捷的估算出语料库中主题-词分布ф和主题-文档分布θ。

其中，K是主题数的大小，B代表着整个语料库中词对biterm的数目，ф_w|r是单词w在主题r下的概率，θ_k是主题k的概率。

当Gibbs采样收敛后，收敛的条件为通过转移概率矩阵可以收敛到稳定的概率分布，即可得到所有词的采样主题。利用所有采样得到的词和主题的对应关系，我们就可以得到每个文档-主题分布θ_d和每个主题-词分布ф_k。从而从海量的爬取文本数据中过滤掉不相关数据，只留下与网络舆情主题相关的文本数据，从而减轻后续工作的负担。

另外有关马尔科夫链算法：该算法首先根据已知条件构造出一条满足相应要求的马尔可夫链，当它满足逐渐收敛至平稳状态分布条件时刚好成为待估算参数的后验分布，再基于这条已存在的马尔可夫链去生成符合后验标准分布的样本，最后在上述已有样本基础之上进行估计。具体操作步骤如下：

假设概率函数为P(h)，其中h表示一种状态，T(h’|h)表示在马尔可夫链T上，状态h转移变为状态h'的概率，那么马尔可夫链T处于某个时刻满足平稳分布的条件为：

P(h^t)T(h^t-1|h^t)＝P(h^t-1)T(h^t|h^t-1) (12)；

其中，时刻t时的状态分布概率为P(h^t)，P(h^t-1)表示时刻t-1时的状态分布概率，T(h^t|h^t-1)表示状态h^t-1转移变为状态h^t的概率，T(h^t-1|h^t)表示状态h^t转移变为状态h^t-1的概率。

此时P(h)是平稳分布的，且马尔可夫链此时的状态从已收敛变为平稳。

步骤3，如图3所示，本发明引进了一种混合数据增强技术，命名为BackTranlate&&AdversarialTraining方法，去混合数据增强方法，包括回译和对抗训练模型的使用，从而在经过步骤2的主题模型识别的基础上进一步提升模型泛化能力。

步骤3-1，首先依据步骤2中经过BTM模型处理后的初步过滤了不相关文本后的数据集，输入到翻译软件进行语言的转化，先翻译为其他语种语言，此过程可以尝试多种外语的翻译，接下来再次翻译回汉语。回译不仅与语言的翻译直接相关，更涉及语言背后的文化，因此可以挖掘更深层的文本信息。最后将回译后的文本与原始数据集进行生成对抗网络的训练，其中生成对抗网络的整体优化目标函数表示为：

arg min_Lmax_DV(L,D) (13)；

其中，arg指的是复数的辐角主值，上述式子表示使V(L,D)式子中L最小，D最大时的变量的取值。

上述式子中的函数V(L,D)是判别器辨别能力的度量，可以表示为：

其中，在生成对抗网络中，生成器抽象为G(·)，生成器所生成的样本分布可以记为P_g(x)。相应的，真实的样本分布记为P_d(x)。判别器抽象表示为函数D(·)，这个函数输出一个标量，用来表示对当前输入数据真伪的判断。通过足量的数据采样，函数D(·)可以用来隐式地表示P_g(x)与P_d(x)。

带入可得到：

步骤3-3，接下来，当上述判别器达到最优时，也就是满足arg(*)函数条件要求时，生成对抗网络实际优化的是Jensen-Shannon散度(简称JS散度)，其中JS散度表示生成样本与真实样本间的差距。当生成器分布产生的分布P_L(x)与真实分布P_data(x)一致时，生成器达到最优。其中生成器函数抽象为G(·)，其所生成的样本分布可以记为P_L(x)；真实的样本分布记为P_data(x)，判别器函数抽象为D(·)，输出一个标量用来表示对当前输入数据真伪的判断，从而解决所属主题k下相关词汇较为稀疏的问题，实现对部分不平衡标签数据的补足，构建出完整且全面的文本分类数据集。

基于BackTranlate&&AdversarialTraining方法在很大程度上可以防止模型的过拟合，实现了对部分标签数据不平衡的补足，实现采样过程的均衡性，构建出完整且全面的文本分类数据集。该数据增强技术通过回译和对抗训练的方法对数据进行增强，与其他增强方法相比，采用了多种增强技术混合的方式，更适用于当前网络舆情主题下的文本处理过程，能够发挥不同方法的优势并加以融合。

步骤4：如图4所示，在上述步骤3对抗训练文本数据集初步平衡不同主题下词汇文本不均衡问题的基础上，使用在词嵌入部分引入负采样机制的TextCNN模型去提升Skip-Gram模型的训练速度，从而提高了网络舆情文本分类模型的运行效率。

步骤4-1：Skip-Gram模型用于预测与给定中心词相对应的上下文词，通过对于经过对抗训练后的文本数据中的中心词c预测其上下文特定词r的概率P(R＝r|C＝c)，其中假设文本词汇量的大小为X，隐藏层的大小为Y，相邻层的神经元是全连接的，输入层用one-hot方式编码的单词向量x＝{x₁,…,x_X}表示，要求每个单词向量中只有一个为1，其余均为0。

从输入层到隐藏层的权重值可以用一个X×Y维的矩阵W来表示，其中W矩阵的每一行代表的是一个与输入层相关的Y维单词向量，记为X_w。具体为给定一个上下文(一个单词)，其单词向量的第k个元素x_k＝1，其余均为0，则：

h从矩阵W的第k行复制和转置而来，为输入单词的向量表示，隐藏层单元的链接(激活)函数是简单的线性变换(即，直接将其加权输入总和传递给下一层)。

在输出层，输出的不是一个多项式分布，而是输出C个多项式分布。每个输出都使用相同的从隐藏层到输出层的权重矩阵计算：

其中，w_I表示的是输入词，w_c,j表示输出层第c个词实际落在了第j个单词即神经元,w_R,c表示输出层第c个词应该落在第R个神经元，y_c,j表示输出层第c个词实际落在了第j个神经元上归一化后的概率，u_c,j表示输出层第c个词实际落在了第j个神经元上未归一化的值。因为输出层共享权重，所以：

其中，表示第j个单词的输出向量，其值为隐藏层到输出层的权重矩阵的第j列。

步骤4-2，通过对文本数据中的词对进行随机采样，组成正负样本对，对于在训练原始文本中遇到的每一个单词，设定它们都有一定概率从文本中被删掉，而这个被删除的概率与单词的频率有关。

W_i是一个单词，M(W_i)是W_i这个单词在所有语料库中出现的频次，那么这个单词被留下来的概率P(W_i)表示为：

其中，每个单词被赋予一个权重，即f(W_i),它代表着单词出现的频次。

其目标函数为：

其中，

经过上述步骤的操作与计算实现，可以达到在经过对抗训练的文本数据进行进一步剔除不相关词汇，留下和主题相关性大的词汇，从而进一步提高了在现有文本数据集的基础上模型的分类效率。

步骤5，在经过步骤1至步骤4的层层细化均衡标签下的文本数据运用代入至现有的TextCNN模型中去进行文本分类，本发明采用Max-Covariance Pooling的方法，将原有文本分类方法常用的最大池化方法与协方差池化方法结合起来实现TextCNN的池化过程，从而提升原有模型在文本分类任务上的性能。

步骤5-1，在CNN卷积神经网络中，池化层中的特征提取部分进行优化，引入Max-Covariance Pooling方法，使用最大池化与协方差池化融合的方式对特征进行降维处理。

具体描述为：在池化过程中输入对应池化窗口的最大值，

其中，Y为输出特征图，X为输入特征图，n表示特征图号，a是通道号，h是行号，w是列号，k是池化窗口的长、宽大小，hs是和h对应的，步长为s时的行号，ia为对应的列号。反向传播时，将后一层的损失传给池化窗口最大值所在位置，

其中，F(·)是找到X最大的k_h、k_w的函数，并返回一个二维向量p(n,a,h,w)。

步骤5-2，在TextCNN模型的结构中，词向量输入卷积层在多个卷积核的卷积操作作用下生成对应局部特征的特征向量，这些向量在池化层进行池化后聚合为一个特征向量，经过多个全连接层后最终输入Softmax层做多类别分类。TextCNN模型卷积层后，得到一组由各个卷积核输出的大小为d的特征向量X_i(i＝1,2,…,k)，其中k为这组特征向量的数量(k即是卷积核的个数)。协方差池化的思想是，把特征向量视为一个随机变量，特征向量的每个元素都是这个随机变量的一个样本值。

协方差矩阵编码两个以上随机变量之间的关系。这个协方差矩阵对于k个随机变量，其在i,j位置的元素是第i个和第j个特征向量之间的协方差。特征向量的协方差矩阵定义为：

其中，两两特征向量可以看作是一对分别具有期望值E(X_i)和E(X_j)的离散随机变量(X_i,X_j)，X_i和X_j的协方差可以表示为：

逐个计算协方差矩阵C中的元素显然比较麻烦。实际上，如果把各个特征向量X_i拼成一个尺寸为(d,k)的特征向量矩阵W，则经过推导可以将协方差矩阵计算为：

其中1是大小与W相同的全1矩阵。协方差矩阵C是对称正定的，故它可以进行正交分解：

C＝UΛU^T (28)；

其中Λ是C的特征值构成的对角阵。则协方差矩阵C的一个平方根(即协标准差矩阵)为：

协方差池化的出发点是找出一个新的能代表整个特征向量数据分布的量。在前面的推导中，特征向量矩阵C的尺寸为(d,k)，那么协标准差矩阵的尺寸为(k,k)。因此，把协标准差矩阵展开写作：

其中，y_k代表第k个卷积核输出的特征向量对其他卷积核输出的特征向量的协标准差的集合(这k个协标准差拼接成了这个向量)，它描述了该卷积核输出特征向量和其他特征向量之间的相关性。那么，能更好地代表第k个特征向量的数据分布的量就是其协标准差向量各分量的平均值：

即对于尺寸为(d,k)的一组输入特征向量，协方差池化的输出是尺寸为(1×k)的二维张量，其中它在卷积输出维度上每个分量的值是z_k。

相比于最大池化所用的最大值，可见z_k考虑了各个卷积核输出特征向量之间的联系。

步骤5-3，最后设置两个超参数k₁和k₂且满足k₁+k₂＝1，最终令池化层每块的输出为

Z＝k₁Z_k1+k₂Z_k2 (32)；

最终将结果输入到激活函数，对于步骤1中提出二分类标签问题，采用sigmoid函数进行激活：

而相应地，对于步骤1中提出的多分类标签问题，则采用softmax函数进行激活：

其中，z_i为第i个节点的输出值，C为输出节点的个数，即分类的类别个数。

本发明提出的模型中池化层同时使用最大池化和协方差池化的方式处理，并将结果输入到全连接层对提取到的特征进行线性组合，之后加入Dropout层防止模型过拟合，再接入一层全连接层对特征向量降维。

Claims

1.基于主题识别的网络舆情文本分类方法，其特征在于：具体包括如下步骤：

步骤1，选取原始数据集，对该数据集进行处理；

步骤4，对步骤3处理后的数据进行不相关词汇剔除；

2.根据权利要求1所述的基于主题识别的网络舆情文本分类方法，其特征在于：所述步骤1的具体过程为：

3.根据权利要求2所述的基于主题识别的网络舆情文本分类方法，其特征在于：所述步骤2的具体过程为：

4.根据权利要求3所述的基于主题识别的网络舆情文本分类方法，其特征在于：所述步骤2.2的具体过程为：

步骤2-2-1，通过迪利克雷分布数学概率模型的计算获得特定主题下的单词分布φ_k～Dir(β)，其中φ为主题-词概率分布，即φ_k＝P(w|r)，Dir为BTM模型中所用到的数学概率迪利克雷分布，β是迪利克雷先验参数，标签主题用k表示，语料库联合形成的词向量为w以及主题分布为r，P(w|r)表示w，r的联合概率分布；

步骤2-2-3，对于词对集合B中的词对b，b∈B，从主题分布θ中任意抽取一个主题k，获得一个主题分配k～Multi(θ_k)；从主题k中任意抽取一个词对biterm，即b_i和b_j，b_i，b_j～Multi(φ_k)，其中Multi(*)表示参数为*的多项式分布，θ_k表示整个语料库中K个主题的概率分布，即θ_k＝P(k)；

文本的主题分布采用如下公式(1)表示：

P(d)＝∑_kP(k)P(b_i|k)P(b_j|k)＝∑_kθ_kφ_i|kφ_j|k (1)；

其中，∑_k*表示针对于每一个主题k相关的(*)操作进行求和运算；θ_k，P(k)表示整个语料库中第k个主题的概率分布；P(b_#|k)表示文本所取词b_#对应的主题分布，由于词对b＝(b_i，b_j)，所以这里的#取i或j；φ_#|k表示主题k下的词b_#的概率分布；

P(B)＝Π_(i，j)∑_kP(k)P(b_i|k)P(b_j|k) (2)；

P(k|d)＝∑_bP(k|b)P(b|d) (3)；

步骤2-2-5，采用基于MCMC算法对网络舆情文本数据去进行吉普斯抽样，当Gibbs采样收敛后，收敛的条件为通过转移概率矩阵可以收敛到稳定的概率分布，即可得到所有词的采样主题，利用所有采样得到的词和主题的对应关系，得到每个文档-主题分布θ_d和每个主题-词分布φ_k，从而从爬取文本数据中过滤掉不相关数据，只留下与网络舆情主题相关的文本数据。

5.根据权利要求4所述的基于主题识别的网络舆情文本分类方法，其特征在于：所述步骤3的具体过程为：

arg min_Lmax_DV(L，D) (6)；

其中，arg指的是复数的辐角主值，公式(6)表示使V(L，D)式子中L最小，D最大时的变量的取值；

公式(6)中的函数V(L，D)是判别器辨别能力的度量，表示为：

6.根据权利要求5所述的基于主题识别的网络舆情文本分类方法，其特征在于：所述步骤4的具体过程为：

步骤4-1，通过对于经过对抗训练后的文本数据中的中心词c预测其上下文特定词r的概率P(R＝r|C＝c)，其中假设文本词汇量的大小为X，隐藏层的大小为Y，相邻层的神经元是全连接的，输入层用one-hot方式编码的单词向量x＝{x₁，…，x_X}表示，要求每个单词向量中只有一个为1，其余均为0；

步骤4-3，接下来通过反向传播算法以及梯度下降来学习权重，在第c个上下文位置预测w(c，j)时实现概率最大化，可以使用损失函数L：

其目标函数为：

其中，