CN110990564A - 一种基于情感计算与多头注意力机制的负面新闻识别方法 - Google Patents

一种基于情感计算与多头注意力机制的负面新闻识别方法 Download PDF

Info

Publication number
CN110990564A
CN110990564A CN201911133898.9A CN201911133898A CN110990564A CN 110990564 A CN110990564 A CN 110990564A CN 201911133898 A CN201911133898 A CN 201911133898A CN 110990564 A CN110990564 A CN 110990564A
Authority
CN
China
Prior art keywords
word
emotion
news
negative
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911133898.9A
Other languages
English (en)
Other versions
CN110990564B (zh
Inventor
张仰森
周炜翔
黄改娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201911133898.9A priority Critical patent/CN110990564B/zh
Publication of CN110990564A publication Critical patent/CN110990564A/zh
Application granted granted Critical
Publication of CN110990564B publication Critical patent/CN110990564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于情感计算与多头注意力机制的负面新闻识别方法,涉及网络舆情监测技术领域,解决的技术问题是如何解决客观性负面新闻难以识别的问题,包括如下具体步骤:(1)对网络新闻文本数据进行采集和预处理;(2)建立并扩充负向情感种子词库并进行感倾向度计算;(3)进行向量化表示,确定判别模型的输入;(4)建立负面新闻判别模型;(5)进行负面新闻识别。本发明有效地克服了对负面新闻难以识别的问题,在负面新闻文本的识别正确率及有效性上都取得了良好的效果。

Description

一种基于情感计算与多头注意力机制的负面新闻识别方法
技术领域
本发明涉及网络舆情监测技术领域,尤其涉及一种基于情感计算与多头注意力机制的负面新闻识别方法。
背景技术
随着自媒体时代的到来,网络新闻成为信息传递的一种重要载体,具有传播速度快、影响面广、渠道多等特点。网络新闻来源于多个门户网站,海内外每天产生的新闻量巨大。网络新闻犹如一把双刃剑,好的新闻能够使人们快速了解当前发生的热点事件,坏的新闻会直接影响国家的安全稳定。网络新闻平台是一个错综复杂的社会环境,不同的新闻工作者对于同一事件的报道有着自己独特的见解,很容易产生一些片面的理解,导致报道的内容出现危害国家和社会的行为。负面新闻是指报道的新闻内容违反社会公德、道德标准以及危害国家的不正当言论。此类负面新闻一旦进行传播,严重影响社会健康有序的发展。当前,负面新闻主要通过人工构建规则模板,采用匹配的方式进行筛选。由于新闻时效性强,这种方式不能满足业务系统的相关要求。因此,从海量网络新闻文本中识别出负面新闻,及时遏制负面新闻的传播具有较高的研究意义。
负面新闻是一种具有情感倾向性的文本,是一种客观性的情感,与主观评价性的文本不同,不具备较强的情感倾向,因此新闻的倾向性判定问题难度较大,情感区分度不高。目前,对于网络新闻情感的分析研究较少,大多数的研究者都集中在主观评价的情感判别方面,其主要判别的方法有两种:基于情感词典与语义规则结合的方法及基于机器学习的判别方法。
基于情感词典与语义规则结合的方法,该方法首先判断词语的情感倾向,再通过对篇章中极性词语或词组计数、或对其褒贬程度值求和或求均值、或结合句法分析等方法获得篇章的总体情感倾向;例如,Turney等提出了基于情感词组的SO-PMI的语义分类方法,提取符合规则的形容词或副词词组作为情感词词组,利用点互信息计算抽取的词语与情感词词组的语义相关性得到总体的情感极性;王兰成等提出了基于情感本体的主题网络舆情倾向性分析方法,利用情感本体抽取特征词并判断其情感倾向,结合句法规则判断网络文本的情感倾向;周文等提出了基于依存句法“动词配价”原理与组块的概念,对句子进行句法分析,在句法树和依赖关系中按规则提取情感依存元组,建立简单句情感依存元组判别模型,来计算句子的情感倾向性;陈涛等提出了一种基于依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模,通过对输入句进行情感句模分类实现文本情感分类;周邦定等提出给单个倾向词分配倾向性、强度、极性和标志4个属性,通过依存句法找出倾向词之间的依存关系,再通过所提出的情感识别算法结合倾向词词典得出整个句子的情感值,最后将整篇新闻中关键句的情感值叠加,得到整篇新闻的情感值;曹欢欢等提出了一种融合依存语法和简化的格语法框架理论,结合情感词典对关键句子集进行主题相关的语义倾向性分析,进而判定负面新闻的方法。
基于机器学习的方法,该方法通过统计正面或负面词语出现的频率或 TFIDF值作为特征,采用机器学习的算法进行文本分类;例如,Pang Bo等最早利用机器学习方法来解决基于情感的文本分类问题,应用朴素贝叶斯、最大熵、SVM对电影评论进行分类,然而,机器学习需要人工选择特征,特征选择的好坏直接影响分类结果的准确性;相比于传统机器学习方法,深层神经网络的表达能力有了质的飞跃,并摆脱了特征工程的束缚;利用语义合成性原理通过不同深度模型将低层词向量合成高层文本情感语义特征向量,从而得到文本的深层次情感语义表达;例如,Tang等采用3种神经网络来构建学习特殊情感词的嵌入方式(SSWE),将情感信息编码为词的连续表示,并实现了区分“好”和“坏”两个极性相反的情感在词向量空间中的表示;Ren等构建了两个神经网络模型分别处理当前Tweet的特征,用神经网络的池化方法自动抽取有效的特征以实现两种网络的非线性融合,从而获得最终的情感分类结果;
以上方法都是用来解决带有主观性情感的分类问题,但对于新闻类的客观性情感判定则研究的较少。在客观性情感的识别方面,2007年徐军等提出了机器学习方法进行新闻的情感自动分类,选择具有语义倾向的词汇作为特征项,采用贝叶斯算法进行分类;何志勇提出了一种基于LSTM的新闻情感倾向性分析方法,该方法运用LSTM模型进行文本分类,判断新闻的情感倾向。但该方法主要针对暴恐事件相关的文本,泛化性不强,不适合处理海量新闻文本的情感极性判定问题。注意力机制的出现极大提高了传统编码方式捕获特征的能力,注意力机制更擅长捕获在语义表示中重要的部分;关鹏飞等提出了一种注意力增强的双向LSTM情感分析方法,该方法通过注意力机制从词向量层面学习词语对句子情感倾向的权重分布,从而提高了双向LSTM的分类效果;李丽双等提出了一种基于动态注意力GRU的特定目标情感分类方法,利用动态注意力机制提取上下文单词的重要程度,提高了识别不同实体情感类别的能力。
上述基于情感词典与语义规则结合的方法及基于机器学习的判别方法,在针对客观性负面新闻时都存在难以识别的问题。
发明内容
针对现有技术的不足,本发明所解决的技术问题是如何解决客观性负面新闻难以识别的问题。
为解决上述技术问题,本发明采用的技术方案是一种基于情感计算与多头注意力机制的负面新闻识别方法,包括如下具体步骤:
(1)对网络新闻文本数据进行采集和预处理,包括如下具体分步骤:
1)利用正则表达式识别数据中的URL脚本内容,并将其进行删除;
2)采用Hanlp工具包提供的繁简体转换功能,将繁体字转换成简体字;
3)统计文本的长度分布。
(2)建立并扩充负向情感种子词库并进行感倾向度计算,从预处理后的海量文本中提取新闻情感词,然后对提取到的新闻情感词语进行筛选得到负向情感种子词库,采用词语语义相似度计算方法对现有技术负向情感种子词库进行扩充,并计算词语的情感倾向度,包括如下具体分步骤:
1)进行负向情感词的遴选与现有技术情感本体库的扩充;
所述负向情感词的遴选过程如下:
a)将输入的网络新闻文本数据进行分词和停用词过滤预处理,生成处理后的词语集合;
b)计算预处理后的词语集合中每个词语的TFIDF,并按TFIDF值进行倒序排序;
c)选取TFIDF值的Top1000个词语进行人工筛选,筛选出带有负面情感的词语作为负向种子词集L1;
d)将词语集合中的每个词语以及负向种子词集L1中的每个词语分别采用预训练好的n维词向量进行表示,然后利用余弦相似度计算词语集合中每个词语与负向种子词集L1中每个词语的相似度,其相似度计算公式如下式所示:
Figure RE-GDA0002345931400000041
其中A,B表示采用word2vec预训练好的n维词向量;
e)若相似度超过0.95,则将该词语加入构建负向情感词语库L2;
f)将负向情感词语库L2与现有技术的情感本体库进行融合,得到最终的情感词库。
2)进行词语情感极性倾向度的计算,具体过程如下:
利用现有技术情感本体库,优选参考大连理工大学林鸿飞教授带领团队整理的《情感本体库》,将词语的情感强度分为1,3,5,7,9五个层级,9表示强度最大,1表示强度最小。同时,根据词语之间的相似度和情感度成正比的关系,计算每个词语的情感倾向度,如下式所示:
Figure RE-GDA0002345931400000051
其中,
Figure RE-GDA0002345931400000052
表示词语A的情感倾向度,N表示《情感本体库》中情感词的数量,
Figure RE-GDA0002345931400000053
表示词语A的词向量,
Figure RE-GDA0002345931400000054
表示词语i的词向量,
Figure RE-GDA0002345931400000055
表示词语A与情感词典中词语i相似度的最大值,
Figure RE-GDA0002345931400000056
表示词语i的情感倾向度,负向情感词取值为负数,正向情感词取值为正数;
(3)进行向量化表示,确定判别模型的输入,将词语和词语的情感倾向度进行向量化表示作为负面新闻判别模型的输入;
(4)建立负面新闻判别模型,具体过程如下:
在层次化注意力模型(HAN)的基础上,引入了负向新闻情感知识库和现有技术的多头注意力机制,构建基于负向新闻情感计算和层次化多头注意力相结合的负面新闻识别模型,所述负面新闻识别模型包括自下而上的词向量表示层、词语序列编码层、词语注意力层、句子序列编码层、句子注意力层、新闻极性计算层;
所述词向量表示层用于表示词语的语义信息,词向量表示层作为模型的输入,词向量表示的好坏直接影响文本的语义信息,考虑到词语情感倾向的强弱,将情感词的情感倾向度引入词向量表示层,其输入的词向量主要包括两部分:词语的向量和词语的情感倾向度,其计算公式如下式所示:
Figure RE-GDA0002345931400000057
其中Wewit表示词语wit的词向量,
Figure RE-GDA0002345931400000058
表示词语wit的情感倾向度,xit表示第i 个句子的第t个词语的输入向量,
Figure RE-GDA0002345931400000059
表示在行方向上进行拼接,T表示每个句子的长度,We是采用Word2Vec工具预训练得到的200维词向量。
所述词语序列编码层LSTM能够捕获文本中较长距离的语义信息,包含记忆单元、输入门(it)、遗忘门(ft)和输出门(ot),用于记录和更新记忆单元的信息;其中,遗忘门(ft)决定记忆单元前一状态信息是否保留,输入门(it) 控制记忆单元当前时刻信息的输入,记忆单元根据当前输入信息更新记忆状态,通过输出门判断记忆单元对下一状态的输出结果,采用BiLSTM对新闻词语信息进行编码捕获句子的正向词语关系信息及前后的词语关系信息;
对于词语序列编码层计算公式如下式所示:
Figure RE-GDA0002345931400000061
Figure RE-GDA0002345931400000062
Figure RE-GDA0002345931400000063
其中
Figure RE-GDA0002345931400000064
表示第i句第t个词语前向LSTM网络的输出值,
Figure RE-GDA0002345931400000065
表示第i句第t 个词语后向词语序列编码层LSTM网络的输出值,hit表示第i句第t个词语 BiLSTM网络的输出值。
所述词汇注意力层,是采用所述多头注意力机制计算词语编码序列的词语权重,其输入为词语编码层的输出hit,多头注意力计算后的结果通过Max pooling进行压缩变换,最终得到单个序列的表示Si,i∈[1,L],L表示句子的个数。
所述句子序列编码层,是指采用BiLSTM对整个句子进行编码,寻找句子中的隐性特征并进行表示。其计算公式如下式所示:
Figure RE-GDA0002345931400000066
Figure RE-GDA0002345931400000067
Figure RE-GDA0002345931400000068
其中
Figure RE-GDA0002345931400000069
表示第i句前向LSTM网络的输出值,
Figure RE-GDA00023459314000000610
表示第i句后向LSTM网络的输出值,hi表示第i句BiLSTM网络的输出值。
所述句子注意力层,是采用现有技术的多头注意力机制来衡量每个句子对文本的重要性,其输入为句子序列编码层的输出值hi,多头注意力计算后的结果采用max pooling进行压缩变换得到句子的表示v。
所述情感判定层,是采用softmax分类器构建新闻文本情感标签的分类,计算公式如下式所示:p=softmax(Wv+b);
其中,p表示每一个倾向类别的概率值,目标函数采用负对数似然函数作为训练的损失函数,其计算公式如下式所示:L=-∑dlog pdj
其中j表示文档d的标签。
(5)进行负面新闻识别,进行模型参数设置,前端采用keras深度学习框架进行搭建,后端采用tensorflow作为计算框架设定模型参数,采用精准率P、召回率R、F1值以及正确率Accuracy作为模型的评价指标,其计算公式如下式所示:
Figure RE-GDA0002345931400000071
Figure RE-GDA0002345931400000072
Figure RE-GDA0002345931400000073
Figure RE-GDA0002345931400000074
其中,TP表示真正属于负向的新闻数量,FP示将正向的新闻判定为负向的新闻数量,TN表示真正属于正向的新闻数量,FN示将负向的新闻判定为正向的新闻数量。
与现有技术相比,本发明有效地克服了对负面新闻难以识别的问题,在负面新闻文本的识别正确率及有效性上都取得了良好的效果。
附图说明
图1为本发明流程图;
图2为数据预处理的数据长度分布图;
图3为负向情感词的遴选流程图;
图4为现有技术多头注意力结构图;
图5新闻情感判别模型;
图6为BiLSTM结构图;
图7为实验结果正确率对比图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明,但不是对本发明的限定。
图1示出了一种基于情感计算与多头注意力机制的负面新闻识别方法,包括如下具体步骤:
(1)对网络新闻文本数据进行采集和预处理,包括如下具体分步骤:
1)利用正则表达式识别数据中的URL脚本内容,并将其进行删除;
2)采用Hanlp工具包提供的繁简体转换功能,将繁体字转换成简体字;
3)统计文本的长度分布,如图2所示。
由图2可以看出,新闻文本的数据长度大多在1000字以内,本发明对长度超过1000字的部分内容进行截断,同时对长度小于50字的内容进行了过滤。
本发明利用爬取的30万新闻语料和百度百科语料库构建了一个Word2Vec 词向量训练语料,采用Skip-gram模型进行词向量训练,训练参数为默认值,输出词向量维度为200维。经过训练,得到了包含2009501个词的词向量,该词向量包含所有常用词语与专业名词。
(2)建立并扩充负向情感种子词库并进行感倾向度计算,从预处理后的海量文本中提取新闻情感词,然后对提取到的新闻情感词语进行筛选得到负向情感种子词库,采用词语语义相似度计算方法对现有技术负向情感种子词库进行扩充,并计算词语的情感倾向度,包括如下具体分步骤:
1)进行负向情感词的遴选与现有技术情感本体库的扩充;
所述负向情感词的遴选过程如下,如图3所示:
a)将输入的网络新闻文本数据进行分词和停用词过滤预处理,生成处理后的词语集合;
b)计算预处理后的词语集合中每个词语的TFIDF,并按TFIDF值进行倒序排序;
c)选取TFIDF值的Top1000个词语进行人工筛选,筛选出带有负面情感的词语作为负向种子词集L1;
d)将词语集合中的每个词语以及负向种子词集L1中的每个词语分别采用预训练好的n维词向量进行表示,然后利用余弦相似度计算词语集合中每个词语与负向种子词集L1中每个词语的相似度,其相似度计算公式如下式所示:
Figure RE-GDA0002345931400000091
其中A,B表示采用word2vec预训练好的n维词向量;
e)若相似度超过0.95,则将该词语加入构建负向情感词语库L2;
f)将负向情感词语库L2与现有技术的情感本体库进行融合,得到最终的情感词库。通过以上步骤,本发明构建的负向情感词语库如表1所示:
表1负向情感库
Figure RE-GDA0002345931400000092
Figure RE-GDA0002345931400000101
从表1中可以看出,大多数的新闻负向词语为动词或名词形式,成语、副词、习用语的数量偏少,这与实际用语的情况相符。可以证明本发明提出的基于语义相似度的情感库扩增方法能够筛选出负向情感词语,并且筛选的情感词语具有较强的政治性负向情感色彩。为避免本发明构建的情感词库出现局限性和词语覆盖程度过小等问题,选用大连理工大学的的《情感本体库》中的词语和本发明构建的新闻负向情感词库进行融合,得到最终的情感词库。
2)进行词语情感极性倾向度的计算;
情感倾向是主体对客体内在评价的倾向,在新闻文本的情感判定中,可以理解为新闻发布者对某一事件表达自身观点所持有的一种态度以及报道的事件是否会危害社会的安全与稳定。情感倾向度是指主体对客体持有正面情感或负面情感的强弱程度,强弱程度主要通过词语的情感程度和说话的语气所体现。
词语情感倾向度的计算是对单个词语的情感极性、情感强度进行分析,目的是为文本情感倾向分析提供依据。常用的词语倾向性计算的方法主要基于SO-PMI,实验中发现SO-PMI算法受共现窗口大小和语料库的规模影响较大。
本发明的词语情感极性倾向度的计算具体过程如下:
参考大连理工大学林鸿飞教授带领团队整理的《情感本体库》,将词语的情感强度分为1,3,5,7,9五个层级,9表示强度最大,1表示强度最小。同时,根据词语之间的相似度和情感度成正比的关系,采用下式计算每个词语的情感倾向度:
Figure RE-GDA0002345931400000102
其中,
Figure RE-GDA0002345931400000111
表示词语A的情感倾向度,N表示《情感本体库》中情感词的数量,
Figure RE-GDA0002345931400000112
表示词语A的词向量,
Figure RE-GDA0002345931400000113
表示词语i的词向量,
Figure RE-GDA0002345931400000114
表示词语A与情感词典中词语i相似度的最大值,
Figure RE-GDA0002345931400000115
表示词语i的情感倾向度,负向情感词取值为负数,正向情感词取值为正数;
通过以上方法对词语进行情感计算,构建了包含30737个情感词语库,其中正向情感词语12270个,负向情感词语12434个,其情感词倾向度如表2 所示。
表格2情感词倾向度表
序号 情感词 情感倾向度 最相似词
1 爆炸 -2.91 爆裂
2 冲击 -0.96 冲撞
3 制裁 -6.65 挟制
4 造假 -2.91 作假
5 撞伤 -4.85 撞车
从表2中可以看出,采用式(2)计算的词语情感倾向度与种子《情感本体库》中的情感倾向度较为相近,同时能够明显区分出词语的情感倾向强弱程度,从而说明本发明提出的词语情感倾向度计算方法的合理性。
(3)进行向量化表示,确定判别模型的输入,将词语和词语的情感倾向度进行向量化表示作为负面新闻判别模型的输入;
(4)建立负面新闻判别模型;
多头注意力模型是2017年google机器翻译团队提出了多头注意力模型 (Multi-Head Attention model),多头注意力模型是由多个放缩点积注意力 (Scaled Dot-Product Attention)的基础单元堆叠起来,其模型如图4所示。
其中输入矩阵为Q∈Rn*d、K∈Rn*d、V∈Rn*d三个值,Scaled Dot-Product Attention部分有h层,每一层的注意力计算如下式所示:
Figure RE-GDA0002345931400000121
其中d为神经网络隐藏单元的个数,因为多头注意力采用的自注意力机制,所以输入的Q=K=V,Q、K、V代表编码后的词向量。在多头注意力模型中,首先将Q、K、V向量进行线性变换;其次Q和每个K采用点积相似度函数计算其权重,通过除以一个K的维度进行放缩,避免内积值太大,采用softmax 函数对这些权重进行归一化处理;最后将权重和相应的键值进行加权求和得到Attention。经过h次放缩注意力计算后,得到多个head,将每一次的head 进行拼接,经过线性变换得到最后的结果,计算公式如下式所示:
headi=Attention(QWi Q,KWi K,VWi V);
MultiHead(Q,K,V)=Concat(head1,...,headh)Wo
其中Wo表示线性变换的权重,
Figure RE-GDA0002345931400000122
分别表示第i个head中Q、 K、V对应的初始化矩阵,Concat(head1,…,headh)表示将h个head进行连接,MultiHead(Q,K,V)表示最后计算的结果。通过多次Attention的计算,模型能够从不同空间中学习到更多的特征信息。
本发明建立负面新闻判别模型,具体过程如下:在层次化注意力模型 (HAN)的基础上,引入了负向新闻情感知识库和现有技术的多头注意力机制,构建基于负向新闻情感计算和层次化多头注意力相结合的负面新闻识别模型,所述负面新闻识别模型包括自下而上的词向量表示层、词语序列编码层、词语注意力层、句子序列编码层、句子注意力层、新闻极性计算层,如图5 所示;
所述词向量表示层用于表示词语的语义信息,词向量表示层作为模型的输入,词向量表示的好坏直接影响文本的语义信息。考虑到词语情感倾向的强弱,将情感词的情感倾向度引入词向量表示层,其输入的词向量主要包括两部分:词语的向量和词语的情感倾向度,如图5所示,图中○表示词语的向量,●表示词语的情感倾向度。其计算公式如下式所示:
Figure RE-GDA0002345931400000131
其中Wewit表示词语wit的词向量,
Figure RE-GDA0002345931400000132
表示词语wit的情感倾向度,xit表示第i 个句子的第t个词语的输入向量,
Figure RE-GDA0002345931400000133
表示在行方向上进行拼接,T表示每个句子的长度,We是采用Word2Vec工具预训练得到的200维词向量。
所述词语序列编码层LSTM能够捕获文本中较长距离的语义信息,包含记忆单元、输入门(it)、遗忘门(ft)和输出门(ot),用于记录和更新记忆单元的信息;其中,遗忘门(ft)决定记忆单元前一状态信息是否保留,输入门(it) 控制记忆单元当前时刻信息的输入,记忆单元根据当前输入信息更新记忆状态,通过输出门判断记忆单元对下一状态的输出结果。
新闻文本词语之间具有前后的连续关系,除了正向要考虑词语的词义信息,还要考虑词语之间前后的依赖关系;因此,采用BiLSTM对新闻词语信息进行编码,够捕获句子的正向词语关系信息及前后的词语关系信息,其模型结构如图6所示;图中,x表示输入的词语,e表示对应输入词语的词向量,
Figure RE-GDA0002345931400000134
表示前向LSTM网络的输出值,
Figure RE-GDA0002345931400000135
表示后向LSTM网络的输出值,h表示BiLSTM 的输出值。对于词语序列编码层计算公式如下式所示:
Figure RE-GDA0002345931400000136
Figure RE-GDA0002345931400000141
Figure RE-GDA0002345931400000142
其中
Figure RE-GDA0002345931400000143
表示第i句第t个词语前向LSTM网络的输出值,
Figure RE-GDA0002345931400000144
表示第i句第 t个词语后向词语序列编码层LSTM网络的输出值,hit表示第i句第t个词语 BiLSTM网络的输出值。
所述词汇注意力层,新闻文本中不是每个词语都对句子有重要意义,一句话中往往只有少数的词语影响句子的含义,是将每个词语赋予不同的权重来表示对句子的贡献程度。注意力机制能够学习句子中词语的依赖关系,从而捕获句子的内部结构,找出对输入的文本句子含义价值最大的词语或字,采用所述多头注意力机制计算词语编码序列的词语权重,其输入为词语编码层的输出hit,多头注意力计算后的结果通过Max pooling进行压缩变换,最终得到单个序列的表示Si,i∈[1,L],L表示句子的个数。
所述句子序列编码层,在新闻负面文本的判定中,每个句子的情感极性影响着整篇文章的情感极性,通过神经网络能够挖掘出句子隐含的信息,同时句子与句子之间又存在着前后依赖关系。因此,本发明是指采用BiLSTM对整个句子进行编码,寻找句子中的隐性特征并进行表示。其计算公式如下式所示:
Figure RE-GDA0002345931400000145
Figure RE-GDA0002345931400000146
Figure RE-GDA0002345931400000147
其中
Figure RE-GDA0002345931400000148
表示第i句前向LSTM网络的输出值,
Figure RE-GDA0002345931400000149
表示第i句后向LSTM网络的输出值,hi表示第i句BiLSTM网络的输出值。
所述句子注意力层,新闻文本作为一种长文本,每句话对整个文本都有不同的影响程度,句子注意力层的目的是找出每句话对整篇文本情感分类的不同贡献程度。同样,本发明采用现有技术的多头注意力机制来衡量每个句子对文本的重要性,其输入为句子序列编码层的输出值hi,多头注意力计算后的结果采用max pooling进行压缩变换得到句子的表示v。
所述情感判定层,情感判定层主要是构建新闻文本的情感二分类判定器,对深层学习的特征信息进行情感倾向判定,输出最终新闻文本的情感标签。本发明采用softmax分类器构建新闻文本情感标签的分类,计算公式如下式所示:
p=softmax(Wv+b);
其中,p表示每一个倾向类别的概率值,目标函数采用负对数似然函数作为训练的损失函数,其计算公式如下式所示:
L=-∑dlog pdj
其中j表示文档d的标签。
(5)进行负面新闻识别,进行模型参数设置,前端采用keras深度学习框架进行搭建,后端采用tensorflow作为计算框架设定模型参数,采用精准率P、召回率R、F1值以及正确率Accuracy作为模型的评价指标,其计算公式如下式所示:
Figure RE-GDA0002345931400000151
Figure RE-GDA0002345931400000152
Figure RE-GDA0002345931400000161
Figure RE-GDA0002345931400000162
其中,TP表示真正属于负向的新闻数量,FP表示将正向的新闻判定为负向的新闻数量,TN表示真正属于正向的新闻数量,FN表示将负向的新闻判定为正向的新闻数量。
为验证本发明的有益效果,通过以下实施例来进行实验,过程如下:
(1)获取实验数据
针对负面新闻倾向性分类没有公开的评测数据集,本发明采用分布式网络爬虫技术采集了多个App新闻数据源,包含:百度新闻、搜狐新闻、澎湃新闻等。为了保证实验数据与真实情况的吻合,从经济、政治、体育等多种类别爬取了30多万条新闻文本数据。采用人工筛选的方式构建了25000条正向新闻数据和25000条负向新闻数据,将数据按照训练集与验证集3:1的比例随机进行了10次划分,用于后续实验的验证,多次随机划分数据保证了本发明实验结果的稳定性。
(2)数据预处理
通过分析发现,新闻数据主要有以下特点:
1)数据内容杂乱:网络新闻存在大量的图片信息,导致采集的数据存在大量URL;
2)数据繁体字较多:尤其海外新闻存在大量的繁体字;
3)数据较长:新闻主要倾向于注重对事件的描述,信息内容较长。
本发明针对以上几种情况进行数据预处理,处理方法如下:
a)利用正则表达式识别数据中的URL脚本内容,并将其进行删除;
b)采用Hanlp工具包提供的繁简体转换功能,将繁体字转换成简体字;
统计文本的长度分布,其结果如图2所示,由图2可以看出,新闻文本的数据长度大多在1000字以内,本发明对长度超过1000字的部分内容进行截断,同时对长度小于50字的内容进行了过滤。
本发明利用爬取的30万新闻语料和百度百科语料库构建了一个Word2Vec 词向量训练语料,采用Skip-gram模型进行词向量训练,训练参数为默认值,输出词向量维度为200维。经过训练,得到了包含2009501个词的词向量,该词向量包含所有常用词语与专业名词。
(3)实验参数设置
本发明实验中前端采用keras深度学习框架进行搭建,后端采用 tensorflow作为计算框架,模型参数设置如表3所示。
表3参数设置表
Figure RE-GDA0002345931400000171
(4)实验评价指标
本发明采用精准率P、召回率R、F1值以及正确率Accuracy作为模型的评价指标,其计算公式如下式所示:
Figure RE-GDA0002345931400000172
Figure RE-GDA0002345931400000173
Figure RE-GDA0002345931400000174
Figure RE-GDA0002345931400000181
其中,TP表示真正属于负向的新闻数量,FP表示将正向的新闻判定为负向的新闻数量,TN表示真正属于正向的新闻数量,FN表示将负向的新闻判定为正向的新闻数量。
实验使用的现有技术对比模型如下:
LSTM模型:现有技术采用LSTM模型对负面事件新闻情感倾向进行分析, 取得了不错的效果。
CNN模型:该模型自2013年kim提出以来,在多种数据集的分类任务上都取得了较好的效果。
RCNN模型:该模型首先使用循环神经网络捕获上下文信息,其次采用最大池化法判断哪些词语在文本分类中起关键作用,实现对文本的分类任务。
BiLSTM模型:该模型直接通过双向LSTM对文本进行建模,采用softmax 进行文本分类。
BiLSTM-Att模型:该模型在BiLSTM模型的基础上,采用自注意力机制学习词语的权重信息,实现文本分类。
Han模型:该模型采用层次化的注意力机制,分别从词语级到句子级对文本进行建模,保留了文本的原始结构信息,为本发明模型的基准模型。
EC-Han模型:该模型是在Han模型的基础上,引入情感计算的结果,实现对负面新闻的判别。
Hman模型:该模型是在Han模型的基础上,采用多头注意力模型实现对负面新闻的判别。
(5)实验结果与分析
本发明在上述构建的新闻数据集上进行对比试验,来验证本发明提出方法的有效性。其实验结果表4所示。
表4实验结果表
模型 P R F1
LSTM 0.8082 0.8691 0.8373
CNN 0.7629 0.9021 0.8260
RCNN 0.8061 0.8938 0.8475
BiLSTM 0.8118 0.8663 0.8378
BiLSTM-Att 0.8238 0.8776 0.8498
Han 0.8368 0.8650 0.8506
从表4中可以看出,CNN模型的召回率最高,然而精准率很低,说明CNN 模型能够筛选出更多的负面新闻,但是误将正面新闻识别为负面新闻的情况较多,其主要原因可与能CNN模型在卷积池化的过程中,更能识别出负面的词语有关。RCNN模型较CNN和LSTM模型在F1值方面提升1%左右,说明利用 RNN和CNN模型的叠加能够提升分类的效果。BiLSTM-Att模型在整体上比 BiLSTM和LSTM模型效果好,说明增加的注意力机制能够更好的捕获重要的信息。Han模型的F1值高于其他五种模型,说明Han模型通过层级注意力能够更好的识别新闻的情感倾向,同时也证明了本发明选取的基准模型具有较高的研究价值。
表5模型实验结果对比表
Figure RE-GDA0002345931400000191
从表5中可以看出,EC-Han模型较Han模型在P、R、F1三个评价指标上提高有所提高,说明词语情感度的引入能够提升模型的效果;Hman模型较Han 模型在召回率上提高较大,说明多头注意力模型在不同子空间中学习到的更多特征,能有效提升识别出负向的新闻文本的性能。EC-Hman在精准率、召回率以及F1值方面都高于Han模型,说明本发明提出的新闻情感词和层次化多头注意力能够提升Han模型的识别效果,所以能够验证本发明提出的方法合理性。实用结果正确率对比如图7所示;从图7中可以看出,Han模型作为本发明的基准模型,与其他模型相比有较高的正确率,说明Han模型保留的文本层级结构和注意力机制能够对文本有更好的分类效果。本发明提出的 EC-Hman模型在负面新闻文本的识别上取得了最好的效果,正确率达到 0.8402,相比Han模型和LSTM模型分别提升了0.67%和3.29%,能够验证本发明提出方法在网络负面新闻识别中的有效性。
与现有技术相比,本发明有效地克服了对负面新闻难以识别的问题,在 负面新闻文本的识别正确率及有效性上都取得了良好的效果。
以上结合附图对本发明的实施方式做出了详细说明,但本发明不局限于 所描述的实施方式。对于本领域技术人员而言,在不脱离本发明的原理和精 神的情况下,对这些实施方式进行各种变化、修改、替换和变型仍落入本发 明的保护范围内。

Claims (8)

1.一种基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,包括如下具体步骤:
(1)对网络新闻文本数据进行采集和预处理,包括如下具体分步骤:
1)利用正则表达式识别数据中的URL脚本内容,并将其进行删除;
2)采用Hanlp工具包提供的繁简体转换功能,将繁体字转换成简体字;
3)统计文本的长度分布;
(2)建立并扩充负向情感种子词库并进行感倾向度计算,从预处理后的海量文本中提取新闻情感词,然后对提取到的新闻情感词语进行筛选得到负向情感种子词库,采用词语语义相似度计算方法对现有技术负向情感种子词库进行扩充,并计算词语的情感倾向度,包括如下具体分步骤:
1)进行负向情感词的遴选与现有技术情感本体库的扩充;
所述负向情感词的遴选过程如下:
a)将输入的网络新闻文本数据进行分词和停用词过滤预处理,生成处理后的词语集合;
b)计算预处理后的词语集合中每个词语的TFIDF,并按TFIDF值进行倒序排序;
c)选取TFIDF值的Top1000个词语进行人工筛选,筛选出带有负面情感的词语作为负向种子词集L1;
d)将词语集合中的每个词语以及负向种子词集L1中的每个词语分别采用预训练好的n维词向量进行表示,然后利用余弦相似度计算词语集合中每个词语与负向种子词集L1中每个词语的相似度,其相似度计算公式如下式所示:
Figure FDA0002279053560000011
其中A,B表示采用word2vec预训练好的n维词向量;
e)若相似度超过0.95,则将该词语加入构建负向情感词语库L2;
f)将负向情感词语库L2与现有技术的情感本体库进行融合,得到最终的情感词库;
2)进行词语情感极性倾向度的计算,具体过程如下:
利用现有技术情感本体库,将词语的情感强度分为1,3,5,7,9五个层级,9表示强度最大,1表示强度最小;同时,根据词语之间的相似度和情感度成正比的关系,计算每个词语的情感倾向度,如下式所示:
Figure FDA0002279053560000021
其中,
Figure FDA0002279053560000022
表示词语A的情感倾向度,N表示《情感本体库》中情感词的数量,
Figure FDA0002279053560000023
表示词语A的词向量,
Figure FDA0002279053560000024
表示词语i的词向量,
Figure FDA0002279053560000025
表示词语A与情感词典中词语i相似度的最大值,
Figure FDA0002279053560000026
表示词语i的情感倾向度,负向情感词取值为负数,正向情感词取值为正数;
(3)进行向量化表示,确定判别模型的输入,将词语和词语的情感倾向度进行向量化表示作为负面新闻判别模型的输入;
(4)建立负面新闻判别模型,具体过程如下:
在层次化注意力模型(HAN)的基础上,引入了负向新闻情感知识库和现有技术的多头注意力机制,构建基于负向新闻情感计算和层次化多头注意力相结合的负面新闻识别模型,所述负面新闻识别模型包括自下而上的词向量表示层、词语序列编码层、词语注意力层、句子序列编码层、句子注意力层、新闻极性计算层;
(5)进行负面新闻识别,进行模型参数设置,前端采用keras深度学习框架进行搭建,后端采用tensorflow作为计算框架设定模型参数,采用精准率P、召回率R、F1值以及正确率Accuracy作为模型的评价指标,其计算公式如下式所示:
Figure FDA0002279053560000031
Figure FDA0002279053560000032
Figure FDA0002279053560000033
Figure FDA0002279053560000034
其中,TP表示真正属于负向的新闻数量,FP表示将正向的新闻判定为负向的新闻数量,TN表示真正属于正向的新闻数量,FN示将负向的新闻判定为正向的新闻数量。
2.根据权利要求1所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(2)中,现有技术情感本体库选用大连理工大学林鸿飞教授带领团队整理的《情感本体库》。
3.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述词向量表示层用于表示词语的语义信息,词向量表示层作为模型的输入,词向量表示的好坏直接影响文本的语义信息,考虑到词语情感倾向的强弱,将情感词的情感倾向度引入词向量表示层,其输入的词向量主要包括两部分:词语的向量和词语的情感倾向度,其计算公式如下式所示:
Figure FDA0002279053560000035
其中Wewit表示词语wit的词向量,
Figure FDA0002279053560000036
表示词语wit的情感倾向度,xit表示第i个句子的第t个词语的输入向量,
Figure FDA0002279053560000037
表示在行方向上进行拼接,T表示每个句子的长度,We是采用Word2Vec工具预训练得到的200维词向量。
4.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述词语序列编码层LSTM能够捕获文本中较长距离的语义信息,包含记忆单元、输入门(it)、遗忘门(ft)和输出门(ot),用于记录和更新记忆单元的信息;其中,遗忘门(ft)决定记忆单元前一状态信息是否保留,输入门(it)控制记忆单元当前时刻信息的输入,记忆单元根据当前输入信息更新记忆状态,通过输出门判断记忆单元对下一状态的输出结果,采用BiLSTM对新闻词语信息进行编码捕获句子的正向词语关系信息及前后的词语关系信息;
对于词语序列编码层计算公式如下式所示:
Figure FDA0002279053560000041
Figure FDA0002279053560000042
Figure FDA0002279053560000043
其中
Figure FDA0002279053560000044
表示第i句第t个词语前向LSTM网络的输出值,
Figure FDA0002279053560000045
表示第i句第t个词语后向词语序列编码层LSTM网络的输出值,hit表示第i句第t个词语BiLSTM网络的输出值。
5.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述词汇注意力层,是采用所述多头注意力机制计算词语编码序列的词语权重,其输入为词语编码层的输出hit,多头注意力计算后的结果通过Max pooling进行压缩变换,最终得到单个序列的表示Si,i∈[1,L],L表示句子的个数。
6.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述句子序列编码层,是指采用BiLSTM对整个句子进行编码,寻找句子中的隐性特征并进行表示;其计算公式如下式所示:
Figure FDA0002279053560000046
Figure FDA0002279053560000047
Figure FDA0002279053560000048
其中
Figure FDA0002279053560000051
表示第i句前向LSTM网络的输出值,
Figure FDA0002279053560000052
表示第i句后向LSTM网络的输出值,hi表示第i句BiLSTM网络的输出值。
7.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述句子注意力层,是采用现有技术的多头注意力机制来衡量每个句子对文本的重要性,其输入为句子序列编码层的输出值hi,多头注意力计算后的结果采用max pooling进行压缩变换得到句子的表示v。
8.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述情感判定层,是采用softmax分类器构建新闻文本情感标签的分类,计算公式如下式所示:
p=soft max(Wv+b);
其中,p表示每一个倾向类别的概率值,目标函数采用负对数似然函数作为训练的损失函数,其计算公式如下式所示:
L=-∑dlog pdj
其中j表示文档d的标签。
CN201911133898.9A 2019-11-19 2019-11-19 一种基于情感计算与多头注意力机制的负面新闻识别方法 Active CN110990564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911133898.9A CN110990564B (zh) 2019-11-19 2019-11-19 一种基于情感计算与多头注意力机制的负面新闻识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911133898.9A CN110990564B (zh) 2019-11-19 2019-11-19 一种基于情感计算与多头注意力机制的负面新闻识别方法

Publications (2)

Publication Number Publication Date
CN110990564A true CN110990564A (zh) 2020-04-10
CN110990564B CN110990564B (zh) 2023-12-01

Family

ID=70085081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911133898.9A Active CN110990564B (zh) 2019-11-19 2019-11-19 一种基于情感计算与多头注意力机制的负面新闻识别方法

Country Status (1)

Country Link
CN (1) CN110990564B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581979A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于证据感知分层交互注意网络的假新闻检测系统及方法
CN111639183A (zh) * 2020-05-19 2020-09-08 民生科技有限责任公司 一种基于深度学习算法的金融同业舆情分析方法及系统
CN111858903A (zh) * 2020-06-11 2020-10-30 创新工场(北京)企业管理股份有限公司 一种用于负面新闻预警的方法和装置
CN111898374A (zh) * 2020-07-30 2020-11-06 腾讯科技(深圳)有限公司 文本识别方法、装置、存储介质和电子设备
CN111966878A (zh) * 2020-08-04 2020-11-20 厦门大学 基于机器学习的舆情事件反转检测方法
CN112035759A (zh) * 2020-09-02 2020-12-04 胡煜昊 英文新闻媒体报道的假新闻检测方法
CN112257409A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种相似句子对判断方法、系统及存储介质
CN112487937A (zh) * 2020-11-26 2021-03-12 北京有竹居网络技术有限公司 视频识别方法、装置、存储介质及电子设备
CN112559743A (zh) * 2020-12-09 2021-03-26 深圳市网联安瑞网络科技有限公司 一种政企网络支持度的计算方法、装置、设备及存储介质
CN112668652A (zh) * 2020-12-31 2021-04-16 哈尔滨工业大学 无人装备对抗中集群阵型和运动趋势的识别方法及系统
CN114239591A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 敏感词识别方法及装置
CN114648015A (zh) * 2022-03-15 2022-06-21 北京理工大学 一种基于依存关系注意力模型的方面级情感词识别方法
CN118586402A (zh) * 2024-08-07 2024-09-03 四川观想科技股份有限公司 一种基于语义理解和行业学习的需求自动拆分和转换方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN110347836A (zh) * 2019-07-15 2019-10-18 昆明理工大学 融入观点句特征的汉越双语新闻情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法
CN109948165A (zh) * 2019-04-24 2019-06-28 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN110347836A (zh) * 2019-07-15 2019-10-18 昆明理工大学 融入观点句特征的汉越双语新闻情感分类方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581979A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于证据感知分层交互注意网络的假新闻检测系统及方法
CN111581979B (zh) * 2020-05-06 2022-08-16 西安交通大学 基于证据感知分层交互注意网络的假新闻检测系统及方法
CN111639183A (zh) * 2020-05-19 2020-09-08 民生科技有限责任公司 一种基于深度学习算法的金融同业舆情分析方法及系统
CN111639183B (zh) * 2020-05-19 2023-11-28 民生科技有限责任公司 一种基于深度学习算法的金融同业舆情分析方法及系统
CN111858903A (zh) * 2020-06-11 2020-10-30 创新工场(北京)企业管理股份有限公司 一种用于负面新闻预警的方法和装置
CN111898374A (zh) * 2020-07-30 2020-11-06 腾讯科技(深圳)有限公司 文本识别方法、装置、存储介质和电子设备
CN111898374B (zh) * 2020-07-30 2023-11-07 腾讯科技(深圳)有限公司 文本识别方法、装置、存储介质和电子设备
CN111966878B (zh) * 2020-08-04 2022-07-01 厦门大学 基于机器学习的舆情事件反转检测方法
CN111966878A (zh) * 2020-08-04 2020-11-20 厦门大学 基于机器学习的舆情事件反转检测方法
CN112035759A (zh) * 2020-09-02 2020-12-04 胡煜昊 英文新闻媒体报道的假新闻检测方法
CN112257409A (zh) * 2020-09-30 2021-01-22 华泰证券股份有限公司 一种相似句子对判断方法、系统及存储介质
CN112487937B (zh) * 2020-11-26 2022-12-06 北京有竹居网络技术有限公司 视频识别方法、装置、存储介质及电子设备
CN112487937A (zh) * 2020-11-26 2021-03-12 北京有竹居网络技术有限公司 视频识别方法、装置、存储介质及电子设备
CN112559743A (zh) * 2020-12-09 2021-03-26 深圳市网联安瑞网络科技有限公司 一种政企网络支持度的计算方法、装置、设备及存储介质
CN112559743B (zh) * 2020-12-09 2024-02-13 深圳市网联安瑞网络科技有限公司 一种政企网络支持度的计算方法、装置、设备及存储介质
CN112668652A (zh) * 2020-12-31 2021-04-16 哈尔滨工业大学 无人装备对抗中集群阵型和运动趋势的识别方法及系统
CN114239591A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 敏感词识别方法及装置
CN114239591B (zh) * 2021-12-01 2023-08-18 马上消费金融股份有限公司 敏感词识别方法及装置
CN114648015A (zh) * 2022-03-15 2022-06-21 北京理工大学 一种基于依存关系注意力模型的方面级情感词识别方法
CN114648015B (zh) * 2022-03-15 2022-11-15 北京理工大学 一种基于依存关系注意力模型的方面级情感词识别方法
CN118586402A (zh) * 2024-08-07 2024-09-03 四川观想科技股份有限公司 一种基于语义理解和行业学习的需求自动拆分和转换方法

Also Published As

Publication number Publication date
CN110990564B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN111241837B (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN112784041B (zh) 一种中文短文本情感倾向性分析方法
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN114936266A (zh) 基于门控机制的多模态融合谣言早期检测方法及系统
CN107818173A (zh) 一种基于向量空间模型的中文虚假评论过滤方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
Han et al. An attention-based neural framework for uncertainty identification on social media texts
CN114626367A (zh) 基于新闻文章内容的情感分析方法、系统、设备及介质
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
Yildiz A comparative study of author gender identification
Gonwirat et al. A combined deep learning model based on the ideal distance weighting method for fake news detection
Weijie et al. Long text classification based on BERT
Gao et al. Few-shot fake news detection via prompt-based tuning
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Yu et al. Multi-module Fusion Relevance Attention Network for Multi-label Text Classification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant