CN110909167A

CN110909167A - 一种微博文本分类系统

Info

Publication number: CN110909167A
Application number: CN201911197204.8A
Authority: CN
Inventors: 吴渝; 赵珍妮; 李红波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-24
Anticipated expiration: 2039-11-29
Also published as: CN110909167B

Abstract

本发明请求保护一种微博文本分类系统，具体包括以下模块：数据预处理模块：用python爬虫软件爬取微博博文信息和微博用户信息，清洗缺失的数据，并根据情感极性进行人工打标；词向量词性增强模块：通过word2vec构造微博博文信息的词向量，在原始词向量的基础上，根据情感词词典和程度副词词典增强词性信息；新特征构造模块：用于对微博用户信息进行特征提取工作，在原始特征的基础上构造出新的特征；分类模块：利用改进的textCNN模型，先通过卷积层和池化层学习词向量信息，再通过全连接层融入用户信息，最后用softmax函数激活，将微博文本分为积极、消极和中性三种类型。

Description

一种微博文本分类系统

技术领域

本发明属于网络舆情领域，具体涉及一种用于网络的分类系统。

背景技术

随着互联网时代的到来，越来越多的民众通过互联网获取信息和发布信息。互联网已经成为民众对政府管理以及各种社会现象和问题表达态度、意见和情绪的平台。这使得网络聚集增多，网络平台也逐渐成为社会舆论新的中心点。与传统传播平台相比，社交网络中观点的交流与情感的传播更加活跃、影响范围更大，这些信息在被进一步的讨论和放大后，就容易造成网络空间群体性事件(简称网群事件)。因此，如果不加以管控，网群事件将造成比较严重的负面影响，比如网络舆论的爆发、不法分子的恶意引导、网络谣言的肆意传播，这严重破坏网络空间的健康与和谐。

微博文本分类主要分为基于词典的分类方法和基于机器学习的分类方法。基于词典的分类方法虽然简单，但是过于依赖语料库和规则语料库，语料库的质量决定了文本分类的效果。基于机器学习的分类方法总体的分类效果优于词典的分类方法。机器学习又进一步分为传统的机器学习和深度学习。传统的机器学习方法大多以统计学为基础，通过提取有效的特征训练分类器，得到最终的分类模型，模型的好坏很大程度上取决于特征的质量。因此，特征工程对于传统的机器学习算法尤为重要，但是文本表示的特征表达能力弱，且十分耗时耗力，成本很高。近年来，随着神经网络的发展，依赖上下文语义相似度的文本分类方法逐渐流行，但语义理解的程度对反义词存在很大的局限性，在文本分类中容易混淆。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高微博文本分类的准确率的分类系统。本发明的技术方案如下：

一种微博文本分类系统，其包括：数据预处理模块：用python爬虫软件爬取微博博文信息和微博用户信息，清洗缺失的数据，并根据情感极性进行人工打标；

词向量词性增强模块：通过word2vec构造微博博文信息的词向量，在原始词向量的基础上，根据情感词词典和程度副词词典增强词性信息；

新特征构造模块：用于对微博用户信息进行特征提取工作，在原始特征的基础上构造出用户活跃度和用户影响力两个新特征；

分类模块：利用改进的textCNN文本卷积神经网络模型，先通过卷积层和池化层学习词向量信息，再通过全连接层融入用户信息，最后用softmax函数激活，得到最终的分类结果。textCNN模型的改进主要在全连接层对语义特征和用户特征进行融合，使其在学习语义信息的同时还学习到用户信息。

进一步的，数据清洗和打标具体包括：

去除爬取的数据中包含缺失字段的样本，使每个样本都包含博文内容和用户的性别、发博时间、粉丝数、关注数、博文数、点赞数七个字段；

根据博文内容对每个样本的情感极性打标，其中0代表中性，1代表积极，2代表消极，为保证数据的多样性，打标的样本量大于等于10000条。

进一步的，所述词向量词性增强模块具体包括：

计算Hownet词典中所有情感词和程度副词的词向量T{t₁,t₁,t₃,...,t_n}，t_i表示词典中第i个词的词向量，n表示词典中所有情感词的数量，并利用语料库中的得分进行词性增强；

将词性增强后的情感词和程度副词替换原有的word2vec模型中的情感词和程度副词；

利用结巴对样本进行分词和去停用词的处理，通过训练好优化后的word2vec模型计算所有样本的词向量集合，由于微博客户端限制了博文的长度，因此每条微博的词汇量不会超过100，不足100的微博用0补齐。

进一步的，所述词向量词性增强模块根据情感词词典和程度副词词典增强词性信息，具体包括：

找出距待词性增强目标词t_i最相似的k个词

表示离第i个目标词最近的第j个词的词向量，根据Hownet词典中的词性相似度重新对S_i排序，计算t_i到

的距离权重w_ij，其公式如下：

移动t_i至t_i′，t_i′表示经过一次迭代后目标词的位置，使t_i′距离S_i的距离之和最小，为了预防所有目标词朝同一个方向移动，约束了t_i的移动距离，其目标函数公式如下：

其中，dist表示两个向量的欧几里得距离，t_i表示待增强词向量的初始位置位置，t_i′表示经过一次增强后词向量的位置，参数α和β为权值系数，用于约束t_i的移动距离和t_i′与其最近的k个词的距离的比重，α越大表示t_i′更接近其原始向量，相反，β越大表示t_i′更接近S_i，且有：

α+β＝1

当α＝1，β＝0时目标词将不会移动。随着比值的减小，约束也逐渐减小，T_i′可以更接近S_i；α＝0，β＝1意味着约束是失效的，两个词向量的距离为他们的欧几里得距离，其公式如下：

其中，p和q表示任意两个词的词向量，D为词向量的维度，最后，对目标函数求偏导得到t_i′，更新原目标词向量t_i，使得：

t_i＝t_i′

迭代上述步骤，直至t_i的移动距离收敛到某个阈值。

进一步的，所述新特征构造模块在微博用户特征提取中，需要提取用户活跃度、用户影响力、用户发博时间和用户性别。

进一步的，所述用户活跃度的计算步骤包括：

对用户累计博文数和用户关注数进行归一化处理，用户活跃度可表示为：

其中，f_activation(u)为用户活跃度，u_post表示用户主动发布的次数，u_repost表示用户主转发的次数，u_attention表示用户关注的人数，T为时间周期。

进一步的，所述用户影响力的计算步骤包括：

对用户粉丝数和其他用户对该条博文的点赞数进行归一化处理，用户影响力可表示为：

f_influence(u)＝λ₁u_fans+λ₂u_like+λ₃u_verified

其中，f_influence(u)表示用户影响力，u_fans表示用户粉丝数，u_like表示用户被点赞数，u_verified表示用户身份认证值，其计算公式如下：

λ₁、λ₂、λ₃分别为用户粉丝数、用户被点赞数、用户身份认证值的权值。

进一步的，所述用户性别特征提取步骤包括：利用one_hot编码方式对性别特征进行编码，最终得到一个长度为二的向量。

进一步的，所述用户发博时间特征提取步骤包括：先对连续型时间数据进行分箱处理，再利用one_hot编码方式对时间特征进行编码，最终得到一个长度为七的向量。

进一步的，所述分类模块对模型训练的步骤包括：

将预先训练好的词向量集合W送入textCNN，分别用宽度为2、3、4的卷积核进行训练；

将卷积层的输出送入最大池化层，得到博文内容的知识表示；

将博文信息与用户特征拼接，利用交叉熵作为损失函数，放入全连接层训练；

用softmax函数激活，得到最终的训练结果。

本发明的优点及有益效果如下：

本发明在词向量词性增强模块、新特征构造模块和分类模块进行了创新。

(1)在词向量词性增强模块中，本发明通过引入Hownet情感词典对词性进行增强，区分出语境相似但语义相反的词。在传统的词向量训练中，多是通过单词在上下文中出现位置计算的，但是极性相反的词之间往往有着相似的使用习惯。例如‘好’和‘坏’两词在语义相反，但在使用上通常都用来形容某个名词，这使得传统的词向量难以区分两者的差别。本发明通过引入语料库作为先验知识，对原始词向量进行迭代更新，通过最小化目标词与同义词的距离、最大化目标词与反义词的距离，移动其在向量空间中的位置。最后，对目标词的移动范围进行约束，使其学习到更为完整的语义信息。

(2)在新特征构造模块中，本发明引入微博发出者的用户信息对文本分类的特征集进行补充，提高文本分类的效果。不同的社会群体在非正式的环境中用语习惯有着巨大差异，通过提取不同人群的语言习惯可提高微博文本分类的准确性。本发明通过用户的原始特征构造出用户活跃度和用户影响力两个复合特征，并利用离散化方法对用户性别进行编码，拼接得到最终的用户特征集。用户特征集能使分类模型充分地学习到用户群的用语习惯，区分不同群体中语言的差异性，并在一定程度上降低模型的过拟合。

(3)在分类模块中，本发明优化了textCNN(文本卷积神经网络)模型，使其能同时训练词向量特征和用户特征。传统的textCNN模型以嵌入层的二维词向量矩阵作为唯一输入，模型的训练仅依赖于词向量特征。本发明在全连接层处输入了用户特征，将其与卷积、池化后的词向量矩阵进行拼接，使模型同时可以学习两种不同形式不同维度的特征，提高了模型的分类效果。

附图说明

图1是本发明提供优选实施例提供微博文本分类的总体流程图；

图2是本发明提供情感词向量构造的流程图；

图3是本发明提供用户特征提取的流程图；

图4是本发明提供文本分类器构造的模型图；

图5是本发明提供优选实施例分类系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1示出根据本发明示例性实施例的针对微博情进行分类的总体流程图。这里，作为示例，所述方法可以作为计算机程序来执行，也可作为插件在其他程序中执行。

在步骤S10中，对数据进行采集和预处理。

作为示例，所述的采集方法是开发微博爬虫软件，通过设置待爬取事件名和发博时间，爬取目标微博的所有博文信息和博文所属用户信息。其中，博文信息为该条微博所包含的博文内容，用户信息包括用户的性别、发博时间、粉丝数、关注数、博文数、点赞数。

作为示例，所述的数据预处理包括数据清洗和数据打标两个阶段。在数据清洗阶段，去除爬取的数据中包含缺失字段的样本，使每个样本都包含完整的信息。在数据打标阶段。根据博文内容对每个样本的情感极性打标。其中0代表中性，1代表积极，2代表消极，为保证数据的多样性，打标的样本量大于等于10000条。

在步骤S20中，通过word2vec构造微博博文信息的词向量，在原始词向量的基础上，根据情感词词典和程度副词词典增强词性信息。

作为示例，利用结巴对样本进行分词和去停用词的处理，通过训练好优化后的word2vec模型计算所有样本的词向量集合，由于微博客户端限制了博文的长度，因此每条微博的词汇量不会超过100，不足100的微博用0补齐。

在步骤S30中，微博用户信息进行特征提取工作，在原始特征的基础上构造出新的特征。

在步骤S40中，利用改进的textCNN模型，先通过卷积层和池化层学习词向量信息，再通过全连接层融入用户信息，最后用softmax函数激活，得到最终的分类结果。

具体的，如图2所示，步骤S20包括：

步骤S21，利用训练好的word2vec模型计算Hownet词典中所有情感词和程度副词的原始词向量T{t₁,t₁,t₃,...,t_n}，t_i表示词典中第i个词的词向量；

步骤S22，找出距待词性增强目标词t_i最相似的k个词

表示离第i个目标词最近的第j个词的词向量。相似性为两个向量的余弦距离，其公式如下：

步骤S23，根据Hownet词典中的词性相似度重新对S_i排序，计算t_i到

的距离权重w_ij，其公式如下：

步骤S24，移动t_i至t_i′，t_i′表示经过一次迭代后目标词的位置，使t_i′距离S_i的距离之和最小，为了预防所有目标词朝同一个方向移动，约束了t_i的移动距离，其目标函数公式如下：

其中，dist表示两个向量的欧几里得距离，t_i表示待增强词向量的初始位置位置，t_i′表示经过一次增强后词向量的位置，参数α和β为权值系数，用于约束t_i的移动距离和t_i′与其最近的k个词的距离的比重。α越大表示t_i′更接近其原始向量，相反，β越大表示t_i′更接近S_i，且有：

α+β＝1

当α＝1，β＝0时目标词将不会移动。随着比值的减小，约束也逐渐减小，T_i′可以更接近S_i。α＝0，β＝1意味着约束是失效的。两个词向量的距离为他们的欧几里得距离。其公式如下：

其中，p和q表示任意两个词的词向量，D为词向量的维度。最后，对目标函数求偏导得到t_i′，其计算公式如下：

更新原目标词向量t_i，使得：

t_i＝t_i′

迭代上述步骤，直至t_i的移动距离收敛到某个阈值。

具体的，如图3所示，步骤S30包括：

步骤S31，提取用户属性特征和用户行为特征，对用户的粉丝数、关注数、博文数和点赞数进行归一化处理。由于数据没有明确边界且可能存在极端数据值，本发明采用均值方差归一化。其计算公式如下：

x_scal_e表示归一化后的数据，x表示原始数据，x_mean表示所有样本中该列数据的均值，s表示所有样本中该列数据的方差。

步骤S32，在提取的用户特征的基础上，构造用户活跃度、用户影响力两个复合特征。

具体的，用户活跃度特征的计算步骤包括：

具体的，用户影响力的计算步骤包括：

用户影响力可表示为：

f_influence(u)＝λ₁u_fans+λ₂u_like+λ₃u_verified

步骤S33，将用户性别和用户发博时间编码。

具体的，用户性别特征提取步骤包括：

利用one_hot编码方式对性别特征进行编码，最终得到一个长度为二的向量，其公式如下：

具体的，用户发博时间特征提取步骤包括：

对连续型时间数据进行分箱处理，将时间分为凌晨、早晨、上午、中午、下午、晚上、深夜七个时段，再利用one_hot编码方式对时间特征进行编码，最终得到一个长度为七的向量。

具体的，如图4所示：

用softmax函数激活，得到最终的训练结果。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种微博文本分类系统，其特征在于，包括：

数据预处理模块：用python爬虫软件爬取微博博文信息和微博用户信息，清洗缺失的数据，并根据情感极性进行人工打标；

分类模块：利用改进的textCNN卷积神经网络模型，先通过卷积层和池化层学习词向量信息，再通过全连接层融入用户信息，最后用softmax函数激活，得到最终的分类结果。textCNN模型的改进主要在全连接层对语义特征和用户特征进行融合，使其在学习语义信息的同时还学习到用户信息。

2.根据权利要求1所述的一种微博文本分类系统，其特征在于，所述数据预处理模块中，数据清洗和打标具体包括：

3.根据权利要求1所述的一种微博文本分类系统，其特征在于，所述词向量词性增强模块具体包括：

4.根据权利要求3所述的一种微博文本分类系统，其特征在于，所述词向量词性增强模块根据情感词词典和程度副词词典增强词性信息，具体包括：

找出距待词性增强目标词t_i最相似的

个词

的距离权重w_ij，其公式如下：

α+β＝1

其中，

和q表示任意两个词的词向量，D为词向量的维度，最后，对目标函数求偏导得到t_i′，更新原目标词向量t_i，使得：

t_i＝t_i′

迭代上述步骤，直至t_i的移动距离收敛到某个阈值。

5.根据权利要求4所述的一种微博文本分类系统，其特征在于，所述新特征构造模块在微博用户特征提取中，需要提取用户活跃度、用户影响力、用户发博时间和用户性别。

6.根据权利要求书5所述的微博文本分类系统，其特征在于，所述用户活跃度的计算步骤包括：

对用户累计博文数和用户关注数进行归一化处理，用户活跃度f_activation(u)的具体公式如下：

其中，u_post表示用户主动发布的次数，u_repost表示用户主转发的次数，u_attention表示用户关注的人数，T为时间周期。

7.根据权利要求书5所述的微博文本分类系统，其特征在于，所述用户影响力的计算步骤包括：

对用户粉丝数和其他用户对该条博文的点赞数进行归一化处理，用户影响力f_influence(u)的具体公式如下：

f_influence(u)＝λ₁u_fans+λ₂u_like+λ₃u_verified

其中，u_fans表示用户粉丝数，u_like表示用户被点赞数，u_verified表示用户身份认证值，其计算公式如下：

8.根据权利要求书5所述的微博文本分类系统，其特征在于，所述用户性别特征提取步骤包括：利用one_hot编码方式对性别特征进行编码，最终得到一个长度为二的向量。

9.根据权利要求书5所述的微博文本分类系统，其特征在于，所述用户发博时间特征提取步骤包括：先对连续型时间数据进行分箱处理，再利用one_hot编码方式对时间特征进行编码，最终得到一个长度为七的向量。

10.根据权利要求书5所述的微博文本分类系统，其特征在于，所述分类模块对模型训练的步骤包括：

用softmax函数激活，得到最终的训练结果。