CN111008274B - 特征扩展卷积神经网络的案件微博观点句识别构建方法 - Google Patents

特征扩展卷积神经网络的案件微博观点句识别构建方法 Download PDF

Info

Publication number
CN111008274B
CN111008274B CN201911258365.3A CN201911258365A CN111008274B CN 111008274 B CN111008274 B CN 111008274B CN 201911258365 A CN201911258365 A CN 201911258365A CN 111008274 B CN111008274 B CN 111008274B
Authority
CN
China
Prior art keywords
microblog
case
sentence
comment
comments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911258365.3A
Other languages
English (en)
Other versions
CN111008274A (zh
Inventor
余正涛
王晓涵
相艳
郭军军
黄于欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201911258365.3A priority Critical patent/CN111008274B/zh
Publication of CN111008274A publication Critical patent/CN111008274A/zh
Application granted granted Critical
Publication of CN111008274B publication Critical patent/CN111008274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及特征扩展卷积神经网络的案件微博观点句识别构建方法,属自然语言处理领域。本发明包括:构建案件微博数据库;对案件微博数据库中的评论进行标注,形成案件微博评论的训练集和测试集;对案件的多个微博原文进行关键词的抽取;从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量;将关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。本发明实现了从案件微博原文中获取关键词作为特征扩展,从获取的舆情数据中识别出所需观点句,为后续对观点句进行情感倾向性分析提供了支撑。

Description

特征扩展卷积神经网络的案件微博观点句识别构建方法
技术领域
本发明涉及特征扩展卷积神经网络的案件微博观点句识别构建方法,属于自然语言处理技术领域。
背景技术
案件微博是指与案件相关热点事件为焦点的互联网微博。与一般的新闻微博相比,案件微博能够在短时间内引发案件相关热点话题,导致社会舆情爆发。如能及时地处理这一类舆情事件的相关信息,从获取的舆情数据中识别出所需观点句,对观点句进行情感倾向性分析,正确地引导舆情,就能有效的降低舆情事件造成的负面影响。
发明内容
本发明提供了特征扩展卷积神经网络的案件微博观点句识别构建方法,以用于对案件微博观点句进行识别,解决了案件微博观点句识别准确率低和单一模型识别能力不足等问题。
本发明的技术方案是:特征扩展卷积神经网络的案件微博观点句识别构建方法,所述方法的具体步骤如下:
Step1、构建案件微博数据库;
Step2、对案件微博数据库中的评论进行标注,形成案件微博评论的训练集和测试集;
Step3、利用textRank算法对案件的多个微博原文进行关键词的抽取;
Step4、从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量;
Step5、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取相关案件微博原文及评论;
Step1.2、再对案件微博原文及评论进行过滤筛选,从而构建案件微博数据集,最终得到案件微博的数据库;
过滤筛选的方式如下所示:
Step1.2.1、对微博博文按照转发关系“//”进行划分,用于保证转发微博下面的评论是基于原始微博进行分析的;
Step1.2.2、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.2.3、对连续出现多个标点符号情况,采用首位标点符号进行替换,并去除微博评论内容中的表情符号;
Step1.2.4、对小于七个字符的评论数据进行过滤筛除,用于保证评论内容的完整和可用性。
作为本发明的优选方案,所述步骤Step2中:
案件微博数据库的评论数据采用人工标注,以一条微博原文为单位对包含的评论数据进行标注工作;
其中,一句微博评论中既包含观点又包含案件相关要素,标注为0;其他视为非观点句,标注为1;三人盲判取交集,最终获得观点句的标注结果。
作为本发明的优选方案,所述步骤Step3的具体步骤如下:
Step3.1、把案件微博原文文本分割成若干个完整的句子,每个句子需要过滤掉停用词,并只保留指定的词性的词,即名词、动词,形成句子和词的集合;
Step3.2、基于句子和词的集合构建候选关键词图G=(V,E),其中V为节点集,由生成的候选关键词组成;
Step3.3、然后采用共现关系构造任两点之间的边计算出每个词节点的权重,每个节点的权重如式(1)所示:
Figure BDA0002310936360000021
其中,D为阻尼系数,Wji为词Vj与词Vi的连接权重,Wjl为词Vj与词Vl之间的连接权重,T代表一个词的textRank值;
Step3.4、对节点的权重进行倒序排序,指定需要的关键词个数,最后得到案件微博原文的关键词。
作为本发明的优选方案,所述步骤Step4的具体步骤如下:
Step4.1、把整个评论句和获取的关键词组输入到嵌入层中;其中每个评论句子由n个词组成,关键词组由s个词组成;
Step4.2、将评论句和关键词经过word2vec词向量模型处理得到d维特征的词向量,然后将评论句中的每一个词的词向量后面依次拼接上关键词组的词向量,形成一个具有案件评论和关键词特征的新的词向量xi;xi表示拼接操作后第i个词的词向量,xi∈R(s +1)d,其中i=1,2,…n;评论句表示为xi,xi+1,…,xi+n-1
Step4.3、循环执行步骤Step4.2,使得每一个评论句都对关键词组进行拼接操作后形成卷积层的输入。
作为本发明的优选方案,所述步骤Step5的具体步骤如下:
Step5.1、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量输入到卷积层,卷积层的核心是滤波器,由不同大小的卷积核在不同范围内抽取评论的局部信息,从而组合出案件微博评论中不同的特征;
每个卷积层都有固定大小的滑动窗口,每次只处理窗口内的信息;窗口的大小定义为k,在卷积操作中有连续k个词向量获得新的特征值ci,xi:i+k-1表示输入评论句中第i个词到i+k-1个词的卷积的操作过程用式(2)表示为:
ci=f1(w·xi:i+k-1+b) (2)
其中,滤波器的权重矩阵定义为w∈Rk×d,b为偏置项,f1为激活函数;抽取出的特征向量C用式(3)表示为:
C=[c1,c2,…,cn-k+1] (3)
其中,C∈Rn-k+1;i=1,2,…n,n是每个评论句子中词的个数;
Step5.2、经过了卷积层的操作后,案件微博评论中的观点和案件的相关特征表现明显,在此基础上,池化层从不同窗口的特征集合中筛选出微博评论中包含的相关特征;对于得到的案件微博评论特征向量C进行max-pooling生成最大的特征值
Figure BDA0002310936360000031
用式(4)表示为:
Figure BDA0002310936360000032
Step5.3、在池化层的特征值
Figure BDA0002310936360000033
通过多个不同大小的滤波器生成的特征值进行组合获得情感分类特征v;经过全连接层的操作将特征进一步量化,从而抽取到更深层的语义特征v′,量化的过程用式(5)表示为:
v′=w′·v+b (5)
其中,w′为全连接层训练的权重矩阵,b为偏置项;
Step5.4、v′经过全连接层,获得了多个特征类别范围内的估计值,需要做归一化的处理,采用softmax分类函数决策出最大概率的类别,用式(6)表示为:
p=softmax(v′) (6)
其中,softmax为分类器,p表示评论句最终特征所属的概率大小为0或1,如果是1,则表示该评论句不是观点句,如果是0,则该评论句是观点句,从而能判别出案件微博评论句属于观点句还是非观点句;
Step5.5、通过步骤Step5.1-Step5.4训练出卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。
本发明的有益效果是:
1、实现了从案件微博原文中获取关键词作为特征扩展,从获取的舆情数据中识别出所需观点句,为后续对观点句进行情感倾向性分析提供了支撑,解决了针对案件微博观点句识别任务如何进行领域知识扩展的问题。
2、本发明提出了特征扩展的创新,提高了案件微博领域的观点句识别任务的准确性;
3、本发明使用卷积神经网络来作为主要模型,大大提高了案件微博观点句识别任务的效率;本发明作为案件审判全过程舆情观点挖掘的第一步,为接下来的任务打下了夯实的支撑基础。
附图说明
图1为本发明中识别模型的具体结构示意图;
图2为本发明的流程图。
具体实施方式
实施例1:如图1-2所示,特征扩展卷积神经网络的案件微博观点句识别构建方法,所述方法的具体步骤如下:
Step1、构建案件微博数据库;
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取相关案件微博原文及评论;
Step1.2、再对案件微博原文及评论进行过滤筛选,从而构建案件微博数据集,最终得到案件微博的数据库;
过滤筛选的方式如下所示:
Step1.2.1、对微博博文按照转发关系“//”进行划分,用于保证转发微博下面的评论是基于原始微博进行分析的;
Step1.2.2、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.2.3、对连续出现多个标点符号情况,采用首位标点符号进行替换,并去除微博评论内容中的表情符号;
Step1.2.4、对小于七个字符的评论数据进行过滤筛除,用于保证评论内容的完整和可用性。
Step2、对案件微博数据库中的评论进行标注,形成案件微博评论的训练集和测试集;
作为本发明的优选方案,所述步骤Step2中:
案件微博数据库的评论数据采用人工标注,以一条微博原文为单位对包含的评论数据进行标注工作;
其中,一句微博评论中既包含观点又包含案件相关要素,标注为0;其他视为非观点句,标注为1;三人盲判取交集,最终获得观点句的标注结果。
例如,针对#重庆公交车坠江案#和#奔驰司机维权案#这两个案件,从微博上爬取筛选了案件微博原文及评论并构建了案件微博数据集。其中,#重庆公交坠江案#采用了16个案件微博原文,#奔驰女司机维权案#采用了23个案件微博原文。
数据集相关信息如下表1所示。
表1公交车案和奔驰案数据集分布情况
Figure BDA0002310936360000051
Step3、利用textRank算法对案件的多个微博原文进行关键词的抽取;
作为本发明的优选方案,所述步骤Step3的具体步骤如下:
Step3.1、把案件微博原文文本分割成若干个完整的句子,每个句子需要过滤掉停用词,并只保留指定的词性的词,即名词、动词,形成句子和词的集合;
Step3.2、基于句子和词的集合构建候选关键词图G=(V,E),其中V为节点集,由生成的候选关键词组成;
Step3.3、然后采用共现关系构造任两点之间的边计算出每个词节点的权重,每个节点的权重如式(1)所示:
Figure BDA0002310936360000061
其中,D为阻尼系数,Wji为词Vj与词Vi的连接权重,Wjl为词Vj与词Vl之间的连接权重,T代表一个词的textRank值;
Step3.4、对节点的权重进行倒序排序,指定需要的关键词个数,最后得到案件微博原文的关键词。
Step4、从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量;
作为本发明的优选方案,所述步骤Step4的具体步骤如下:
Step4.1、把整个评论句和获取的关键词组输入到嵌入层中;其中每个评论句子由n个词组成,关键词组由s个词组成;
Step4.2、将评论句和关键词经过word2vec词向量模型处理得到d维特征的词向量,然后将评论句中的每一个词的词向量后面依次拼接上关键词组的词向量,形成一个具有案件评论和关键词特征的新的词向量xi;xi表示拼接操作后第i个词的词向量,xi∈R(s +1)d,其中i=1,2,…n;评论句表示为xi,xi+1,…,xi+n-1
Step4.3、循环执行步骤Step4.2,使得每一个评论句都对关键词组进行拼接操作后形成卷积层的输入。
Step5、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。
作为本发明的优选方案,所述步骤Step5的具体步骤如下:
Step5.1、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量输入到卷积层,卷积层的核心是滤波器,由不同大小的卷积核在不同范围内抽取评论的局部信息,从而组合出案件微博评论中不同的特征;
每个卷积层都有固定大小的滑动窗口,每次只处理窗口内的信息;窗口的大小定义为k,在卷积操作中有连续k个词向量获得新的特征值ci,xi:i+k-1表示输入评论句中第i个词到i+k-1个词的卷积的操作过程用式(2)表示为:
ci=f1(w·xi:i+k-1+b) (2)
其中,滤波器的权重矩阵定义为w∈Rk×d,b为偏置项,f1为激活函数;抽取出的特征向量C用式(3)表示为:
C=[c1,c2,…,cn-k+1] (3)
其中,C∈Rn-k+1;i=1,2,…n,n是每个评论句子中词的个数;
Step5.2、经过了卷积层的操作后,案件微博评论中的观点和案件的相关特征表现明显,在此基础上,池化层从不同窗口的特征集合中筛选出微博评论中包含的相关特征;对于得到的案件微博评论特征向量C进行max-pooling生成最大的特征值
Figure BDA0002310936360000071
用式(4)表示为:
Figure BDA0002310936360000072
Step5.3、在池化层的特征值
Figure BDA0002310936360000073
通过多个不同大小的滤波器生成的特征值进行组合获得情感分类特征v;经过全连接层的操作将特征进一步量化,从而抽取到更深层的语义特征v′,量化的过程用式(5)表示为:
v′=w′·v+b (5)
其中,w′为全连接层训练的权重矩阵,b为偏置项;
Step5.4、v′经过全连接层,获得了多个特征类别范围内的估计值,需要做归一化的处理,采用softmax分类函数决策出最大概率的类别,用式(6)表示为:
p=softmax(v′) (6)
其中,softmax为分类器,p表示评论句最终特征所属的概率大小为0或1,如果是1,则表示该评论句不是观点句,如果是0,则该评论句是观点句,从而能判别出案件微博评论句属于观点句还是非观点句;
Step5.5、通过步骤Step5.1-Step5.4训练出卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。
为了说明本发明的效果,在两个数据集下,实验设置了2组对比实验。第一组实验验证本文模型和7个基准模型的性能对比。第二组实验比较关键词个数对本文模型的影响,关键词个数分别设为4、5、6和7个。
表2公交车案和奔驰案数据集模型准确率对比
Figure BDA0002310936360000081
表2实验结果表明:(1)在与Fasttext、LSTM等深度学习模型得到的准确率相比,基于特征扩展的CNN模型的准确率较高;(2)本发明加入了案件微博原文外部特征之后的CNN模型得到的观点句识别结果比起基本的CNN分类模型的结果分别提升了5.06%和2.71%,说明加入了案件相关特征之后,卷积滤波器可以对文本抽取到更精准的特征,能达到更好的识别效果。
表3公交车案和奔驰案不同关键词个数的对比实验结果
Figure BDA0002310936360000082
表3实验结果表明:因表2中在公交车案和奔驰案的数据集上,没有进行特征拓展的CNN模型的准确率为79.68%和79.38%。在公交车案的数据上,加了“公交车”、道歉”、“女司机”、“媒体”这4个关键词的时候准确率幅度明显提升,说明关键词可以影响模型的准确率使其优化。而在关键词加入“红车”,个数为5的时候,模型效果达到最佳。这五个关键词在案件微博原文中占有很大的比重,评论句中对于这些关键词的讨论也是大量的。当关键词继续增加的时候准确率也逐渐下降。说明随着关键词个数地加大,卷积层对关键词和评论句子拼接后的向量学习到的特征会更分散,这时候关键词对评论句子产生了噪声,准确率在后续不再增加。实验说明关键词的个数不是越大越好,而是需要根据关键词与评论句的紧密程度来设定。
通过以上实验数据和分析,该方法通过抽取案件原文的关键词,并将关键词与案件微博评论进行拼接进入卷积神经网络得到案件相关特征的扩展,从而识别出案件微博观点句。实验结果表明,针对案件微博观点句识别的特定任务,关键词的融入对观点句识别任务有着很好的指导作用,实验效果也得以提升。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:
所述方法的具体步骤如下:
Step1、构建案件微博数据库;
Step2、对案件微博数据库中的评论进行标注,形成案件微博评论的训练集和测试集;
Step3、利用textRank算法对案件的多个微博原文进行关键词的抽取;
Step4、从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量;
Step5、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。
2.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取相关案件微博原文及评论;
Step1.2、再对案件微博原文及评论进行过滤筛选,从而构建案件微博数据集,最终得到案件微博的数据库;
过滤筛选的方式如下所示:
Step1.2.1、对微博博文按照转发关系“//”进行划分,用于保证转发微博下面的评论是基于原始微博进行分析的;
Step1.2.2、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.2.3、对连续出现多个标点符号情况,采用首位标点符号进行替换,并去除微博评论内容中的表情符号;
Step1.2.4、对小于七个字符的评论数据进行过滤筛除,用于保证评论内容的完整和可用性。
3.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step2中:
案件微博数据库的评论数据采用人工标注,以一条微博原文为单位对包含的评论数据进行标注工作;
其中,一句微博评论中既包含观点又包含案件相关要素,标注为0;其他视为非观点句,标注为1;三人盲判取交集,最终获得观点句的标注结果。
4.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、把案件微博原文文本分割成若干个完整的句子,每个句子需要过滤掉停用词,并只保留指定的词性的词,即名词、动词,形成句子和词的集合;
Step3.2、基于句子和词的集合构建候选关键词图G=(V,E),其中V为节点集,由生成的候选关键词组成;
Step3.3、然后采用共现关系构造任两点之间的边计算出每个词节点的权重,每个节点的权重如式(1)所示:
Figure FDA0002310936350000021
其中,D为阻尼系数,Wji为词Vj与词Vi的连接权重,Wjl为词Vj与词Vl之间的连接权重,T代表一个词的textRank值;
Step3.4、对节点的权重进行倒序排序,指定需要的关键词个数,最后得到案件微博原文的关键词。
5.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step4的具体步骤如下:
Step4.1、把整个评论句和获取的关键词组输入到嵌入层中;其中每个评论句子由n个词组成,关键词组由s个词组成;
Step4.2、将评论句和关键词经过word2vec词向量模型处理得到d维特征的词向量,然后将评论句中的每一个词的词向量后面依次拼接上关键词组的词向量,形成一个具有案件评论和关键词特征的新的词向量xi;xi表示拼接操作后第i个词的词向量,xi∈R(s+1)d,其中i=1,2,…n;评论句表示为xi,xi+1,…,xi+n-1
Step4.3、循环执行步骤Step4.2,使得每一个评论句都对关键词组进行拼接操作后形成卷积层的输入。
6.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step5的具体步骤如下:
Step5.1、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量输入到卷积层,卷积层的核心是滤波器,由不同大小的卷积核在不同范围内抽取评论的局部信息,从而组合出案件微博评论中不同的特征;
每个卷积层都有固定大小的滑动窗口,每次只处理窗口内的信息;窗口的大小定义为k,在卷积操作中有连续k个词向量获得新的特征值ci,xi:i+k-1表示输入评论句中第i个词到i+k-1个词的卷积的操作过程用式(2)表示为:
ci=f1(w·xi:i+k-1+b) (2)
其中,滤波器的权重矩阵定义为w∈Rk×d,b为偏置项,f1为激活函数;抽取出的特征向量C用式(3)表示为:
C=[c1,c2,…,cn-k+1] (3)
其中,C∈Rn-k+1;i=1,2,…n,n是每个评论句子中词的个数;
Step5.2、经过了卷积层的操作后,案件微博评论中的观点和案件的相关特征表现明显,在此基础上,池化层从不同窗口的特征集合中筛选出微博评论中包含的相关特征;对于得到的案件微博评论特征向量C进行max-pooling生成最大的特征值
Figure FDA0002310936350000031
用式(4)表示为:
Figure FDA0002310936350000032
Step5.3、在池化层的特征值
Figure FDA0002310936350000033
通过多个不同大小的滤波器生成的特征值进行组合获得情感分类特征v;经过全连接层的操作将特征进一步量化,从而抽取到更深层的语义特征v′,量化的过程用式(5)表示为:
v′=w′·v+b (5)
其中,w′为全连接层训练的权重矩阵,b为偏置项;
Step5.4、v′经过全连接层,获得了多个特征类别范围内的估计值,需要做归一化的处理,采用softmax分类函数决策出最大概率的类别,用式(6)表示为:
p=softmax(v′) (6)
其中,softmax为分类器,p表示评论句最终特征所属的概率大小为0或1,如果是1,则表示该评论句不是观点句,如果是0,则该评论句是观点句,从而能判别出案件微博评论句属于观点句还是非观点句;
Step5.5、通过步骤Step5.1-Step5.4训练出卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。
CN201911258365.3A 2019-12-10 2019-12-10 特征扩展卷积神经网络的案件微博观点句识别构建方法 Active CN111008274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911258365.3A CN111008274B (zh) 2019-12-10 2019-12-10 特征扩展卷积神经网络的案件微博观点句识别构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911258365.3A CN111008274B (zh) 2019-12-10 2019-12-10 特征扩展卷积神经网络的案件微博观点句识别构建方法

Publications (2)

Publication Number Publication Date
CN111008274A CN111008274A (zh) 2020-04-14
CN111008274B true CN111008274B (zh) 2021-04-06

Family

ID=70115139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911258365.3A Active CN111008274B (zh) 2019-12-10 2019-12-10 特征扩展卷积神经网络的案件微博观点句识别构建方法

Country Status (1)

Country Link
CN (1) CN111008274B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753058B (zh) * 2020-06-30 2023-06-02 北京信息科技大学 一种文本观点挖掘方法及系统
CN112131863B (zh) * 2020-08-04 2022-07-19 中科天玑数据科技股份有限公司 一种评论观点主题抽取方法、电子设备及存储介质
CN112732903A (zh) * 2020-09-19 2021-04-30 中国人民解放军战略支援部队信息工程大学 即时通信信息取证过程中证据分类方法及系统
CN112287240A (zh) * 2020-09-23 2021-01-29 昆明理工大学 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN112287197B (zh) * 2020-09-23 2022-07-19 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112765350A (zh) * 2021-01-15 2021-05-07 西华大学 基于表情图和文本信息的微博评论情感分类方法
CN113076425B (zh) * 2021-04-25 2022-12-20 昆明理工大学 一种用于微博评论的事件相关观点句分类方法
CN113312532B (zh) * 2021-06-01 2022-10-21 哈尔滨工业大学 一种基于深度学习面向公检法领域的舆情等级预测方法
CN113722482A (zh) * 2021-08-25 2021-11-30 昆明理工大学 一种新闻评论观点句识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202574A (zh) * 2016-08-19 2016-12-07 清华大学 面向微博平台话题推荐的评估方法及装置
CN109815485A (zh) * 2018-12-24 2019-05-28 厦门市美亚柏科信息股份有限公司 一种微博短文本情感极性识别的方法、装置及存储介质
CN110347836A (zh) * 2019-07-15 2019-10-18 昆明理工大学 融入观点句特征的汉越双语新闻情感分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213130A1 (en) * 2016-01-21 2017-07-27 Ebay Inc. Snippet extractor: recurrent neural networks for text summarization at industry scale
US10832001B2 (en) * 2018-04-26 2020-11-10 Google Llc Machine learning to identify opinions in documents
CN109376242B (zh) * 2018-10-18 2020-11-17 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类方法
CN110472047B (zh) * 2019-07-15 2022-12-13 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202574A (zh) * 2016-08-19 2016-12-07 清华大学 面向微博平台话题推荐的评估方法及装置
CN109815485A (zh) * 2018-12-24 2019-05-28 厦门市美亚柏科信息股份有限公司 一种微博短文本情感极性识别的方法、装置及存储介质
CN110347836A (zh) * 2019-07-15 2019-10-18 昆明理工大学 融入观点句特征的汉越双语新闻情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Convolutional Neural Networks for Sentence Classification》;Yoon Kim;《arXiv:1408.5882v2》;20140903;第1-6页 *
《基于特征扩展的短文本分类》;宋爽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190215;I138-2211 *

Also Published As

Publication number Publication date
CN111008274A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN111008274B (zh) 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Gong et al. Hashtag recommendation using attention-based convolutional neural network.
WO2020224097A1 (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN110781684B (zh) 验证和校正用于文本分类的训练数据
CN109858034B (zh) 一种基于注意力模型和情感词典的文本情感分类方法
CN107818084B (zh) 一种融合点评配图的情感分析方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
US10387805B2 (en) System and method for ranking news feeds
Raychev et al. Language-independent sentiment analysis using subjectivity and positional information
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN111914061B (zh) 文本分类主动学习的基于半径的不确定度采样方法和系统
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN113449084A (zh) 基于图卷积的关系抽取方法
Han et al. Augmented sentiment representation by learning context information
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant