CN111008274B

CN111008274B - 特征扩展卷积神经网络的案件微博观点句识别构建方法

Info

Publication number: CN111008274B
Application number: CN201911258365.3A
Authority: CN
Inventors: 余正涛; 王晓涵; 相艳; 郭军军; 黄于欣
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-04-06
Anticipated expiration: 2039-12-10
Also published as: CN111008274A

Abstract

本发明涉及特征扩展卷积神经网络的案件微博观点句识别构建方法，属自然语言处理领域。本发明包括：构建案件微博数据库；对案件微博数据库中的评论进行标注，形成案件微博评论的训练集和测试集；对案件的多个微博原文进行关键词的抽取；从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量；将关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络，再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。本发明实现了从案件微博原文中获取关键词作为特征扩展，从获取的舆情数据中识别出所需观点句，为后续对观点句进行情感倾向性分析提供了支撑。

Description

特征扩展卷积神经网络的案件微博观点句识别构建方法

技术领域

本发明涉及特征扩展卷积神经网络的案件微博观点句识别构建方法，属于自然语言处理技术领域。

背景技术

案件微博是指与案件相关热点事件为焦点的互联网微博。与一般的新闻微博相比，案件微博能够在短时间内引发案件相关热点话题，导致社会舆情爆发。如能及时地处理这一类舆情事件的相关信息，从获取的舆情数据中识别出所需观点句，对观点句进行情感倾向性分析，正确地引导舆情，就能有效的降低舆情事件造成的负面影响。

发明内容

本发明提供了特征扩展卷积神经网络的案件微博观点句识别构建方法，以用于对案件微博观点句进行识别，解决了案件微博观点句识别准确率低和单一模型识别能力不足等问题。

本发明的技术方案是：特征扩展卷积神经网络的案件微博观点句识别构建方法，所述方法的具体步骤如下：

Step1、构建案件微博数据库；

Step2、对案件微博数据库中的评论进行标注，形成案件微博评论的训练集和测试集；

Step3、利用textRank算法对案件的多个微博原文进行关键词的抽取；

Step4、从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量；

Step5、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络，再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取相关案件微博原文及评论；

Step1.2、再对案件微博原文及评论进行过滤筛选，从而构建案件微博数据集，最终得到案件微博的数据库；

过滤筛选的方式如下所示：

Step1.2.1、对微博博文按照转发关系“//”进行划分，用于保证转发微博下面的评论是基于原始微博进行分析的；

Step1.2.2、删除微博评论里“＠+用户名+回复”这样的结构，且删除无关超链接广告；

Step1.2.3、对连续出现多个标点符号情况，采用首位标点符号进行替换，并去除微博评论内容中的表情符号；

Step1.2.4、对小于七个字符的评论数据进行过滤筛除，用于保证评论内容的完整和可用性。

作为本发明的优选方案，所述步骤Step2中：

案件微博数据库的评论数据采用人工标注，以一条微博原文为单位对包含的评论数据进行标注工作；

其中，一句微博评论中既包含观点又包含案件相关要素，标注为0；其他视为非观点句，标注为1；三人盲判取交集，最终获得观点句的标注结果。

作为本发明的优选方案，所述步骤Step3的具体步骤如下：

Step3.1、把案件微博原文文本分割成若干个完整的句子，每个句子需要过滤掉停用词，并只保留指定的词性的词，即名词、动词，形成句子和词的集合；

Step3.2、基于句子和词的集合构建候选关键词图G＝(V,E)，其中V为节点集，由生成的候选关键词组成；

Step3.3、然后采用共现关系构造任两点之间的边计算出每个词节点的权重，每个节点的权重如式(1)所示：

其中，D为阻尼系数，W_ji为词V_j与词V_i的连接权重，W_jl为词V_j与词V_l之间的连接权重，T代表一个词的textRank值；

Step3.4、对节点的权重进行倒序排序，指定需要的关键词个数，最后得到案件微博原文的关键词。

作为本发明的优选方案，所述步骤Step4的具体步骤如下：

Step4.1、把整个评论句和获取的关键词组输入到嵌入层中；其中每个评论句子由n个词组成，关键词组由s个词组成；

Step4.2、将评论句和关键词经过word2vec词向量模型处理得到d维特征的词向量，然后将评论句中的每一个词的词向量后面依次拼接上关键词组的词向量，形成一个具有案件评论和关键词特征的新的词向量x_i；x_i表示拼接操作后第i个词的词向量，x_i∈R^(s ^+1)d，其中i＝1，2，…n；评论句表示为x_i,x_i+1,…,x_i+n-1；

Step4.3、循环执行步骤Step4.2，使得每一个评论句都对关键词组进行拼接操作后形成卷积层的输入。

作为本发明的优选方案，所述步骤Step5的具体步骤如下：

Step5.1、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量输入到卷积层，卷积层的核心是滤波器，由不同大小的卷积核在不同范围内抽取评论的局部信息，从而组合出案件微博评论中不同的特征；

每个卷积层都有固定大小的滑动窗口，每次只处理窗口内的信息；窗口的大小定义为k，在卷积操作中有连续k个词向量获得新的特征值c_i，x_i:i+k-1表示输入评论句中第i个词到i+k-1个词的卷积的操作过程用式(2)表示为：

c_i＝f₁(w·x_i:i+k-1+b) (2)

其中，滤波器的权重矩阵定义为w∈R^k×d，b为偏置项，f₁为激活函数；抽取出的特征向量C用式(3)表示为：

C＝[c₁,c₂,…,c_n-k+1] (3)

其中，C∈R^n-k+1；i＝1，2，…n，n是每个评论句子中词的个数；

Step5.2、经过了卷积层的操作后，案件微博评论中的观点和案件的相关特征表现明显，在此基础上，池化层从不同窗口的特征集合中筛选出微博评论中包含的相关特征；对于得到的案件微博评论特征向量C进行max-pooling生成最大的特征值

用式(4)表示为：

Step5.3、在池化层的特征值

通过多个不同大小的滤波器生成的特征值进行组合获得情感分类特征v；经过全连接层的操作将特征进一步量化，从而抽取到更深层的语义特征v′，量化的过程用式(5)表示为：

v′＝w′·v+b (5)

其中，w′为全连接层训练的权重矩阵，b为偏置项；

Step5.4、v′经过全连接层，获得了多个特征类别范围内的估计值，需要做归一化的处理，采用softmax分类函数决策出最大概率的类别，用式(6)表示为：

p＝softmax(v′) (6)

其中，softmax为分类器，p表示评论句最终特征所属的概率大小为0或1，如果是1，则表示该评论句不是观点句，如果是0，则该评论句是观点句，从而能判别出案件微博评论句属于观点句还是非观点句；

Step5.5、通过步骤Step5.1-Step5.4训练出卷积神经网络，再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。

本发明的有益效果是：

1、实现了从案件微博原文中获取关键词作为特征扩展，从获取的舆情数据中识别出所需观点句，为后续对观点句进行情感倾向性分析提供了支撑，解决了针对案件微博观点句识别任务如何进行领域知识扩展的问题。

2、本发明提出了特征扩展的创新，提高了案件微博领域的观点句识别任务的准确性；

3、本发明使用卷积神经网络来作为主要模型，大大提高了案件微博观点句识别任务的效率；本发明作为案件审判全过程舆情观点挖掘的第一步，为接下来的任务打下了夯实的支撑基础。

附图说明

图1为本发明中识别模型的具体结构示意图；

图2为本发明的流程图。

具体实施方式

实施例1：如图1-2所示，特征扩展卷积神经网络的案件微博观点句识别构建方法，所述方法的具体步骤如下：

Step1、构建案件微博数据库；

过滤筛选的方式如下所示：

作为本发明的优选方案，所述步骤Step2中：

例如，针对#重庆公交车坠江案#和#奔驰司机维权案#这两个案件，从微博上爬取筛选了案件微博原文及评论并构建了案件微博数据集。其中，#重庆公交坠江案#采用了16个案件微博原文，#奔驰女司机维权案#采用了23个案件微博原文。

数据集相关信息如下表1所示。

表1公交车案和奔驰案数据集分布情况

作为本发明的优选方案，所述步骤Step3的具体步骤如下：

作为本发明的优选方案，所述步骤Step4的具体步骤如下：

作为本发明的优选方案，所述步骤Step5的具体步骤如下：

c_i＝f₁(w·x_i:i+k-1+b) (2)

C＝[c₁,c₂,…,c_n-k+1] (3)

用式(4)表示为：

Step5.3、在池化层的特征值

v′＝w′·v+b (5)

其中，w′为全连接层训练的权重矩阵，b为偏置项；

p＝softmax(v′) (6)

为了说明本发明的效果，在两个数据集下，实验设置了2组对比实验。第一组实验验证本文模型和7个基准模型的性能对比。第二组实验比较关键词个数对本文模型的影响，关键词个数分别设为4、5、6和7个。

表2公交车案和奔驰案数据集模型准确率对比

表2实验结果表明：(1)在与Fasttext、LSTM等深度学习模型得到的准确率相比，基于特征扩展的CNN模型的准确率较高；(2)本发明加入了案件微博原文外部特征之后的CNN模型得到的观点句识别结果比起基本的CNN分类模型的结果分别提升了5.06％和2.71％，说明加入了案件相关特征之后，卷积滤波器可以对文本抽取到更精准的特征，能达到更好的识别效果。

表3公交车案和奔驰案不同关键词个数的对比实验结果

表3实验结果表明：因表2中在公交车案和奔驰案的数据集上，没有进行特征拓展的CNN模型的准确率为79.68％和79.38％。在公交车案的数据上，加了“公交车”、道歉”、“女司机”、“媒体”这4个关键词的时候准确率幅度明显提升，说明关键词可以影响模型的准确率使其优化。而在关键词加入“红车”，个数为5的时候，模型效果达到最佳。这五个关键词在案件微博原文中占有很大的比重，评论句中对于这些关键词的讨论也是大量的。当关键词继续增加的时候准确率也逐渐下降。说明随着关键词个数地加大，卷积层对关键词和评论句子拼接后的向量学习到的特征会更分散，这时候关键词对评论句子产生了噪声，准确率在后续不再增加。实验说明关键词的个数不是越大越好，而是需要根据关键词与评论句的紧密程度来设定。

通过以上实验数据和分析，该方法通过抽取案件原文的关键词，并将关键词与案件微博评论进行拼接进入卷积神经网络得到案件相关特征的扩展，从而识别出案件微博观点句。实验结果表明，针对案件微博观点句识别的特定任务，关键词的融入对观点句识别任务有着很好的指导作用，实验效果也得以提升。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.特征扩展卷积神经网络的案件微博观点句识别构建方法，其特征在于：

所述方法的具体步骤如下：

Step1、构建案件微博数据库；

2.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法，其特征在于：所述步骤Step1的具体步骤为：

过滤筛选的方式如下所示：

3.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法，其特征在于：所述步骤Step2中：

4.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法，其特征在于：所述步骤Step3的具体步骤如下：

5.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法，其特征在于：所述步骤Step4的具体步骤如下：

Step4.2、将评论句和关键词经过word2vec词向量模型处理得到d维特征的词向量，然后将评论句中的每一个词的词向量后面依次拼接上关键词组的词向量，形成一个具有案件评论和关键词特征的新的词向量x_i；x_i表示拼接操作后第i个词的词向量，x_i∈R^(s+1)d，其中i＝1，2，…n；评论句表示为x_i,x_i+1,…,x_i+n-1；

6.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法，其特征在于：所述步骤Step5的具体步骤如下：

c_i＝f₁(w·x_i:i+k-1+b) (2)

C＝[c₁,c₂,…,c_n-k+1] (3)

用式(4)表示为：

Step5.3、在池化层的特征值

v′＝w′·v+b (5)

其中，w′为全连接层训练的权重矩阵，b为偏置项；

p＝softmax(v′) (6)