CN116263786A - 舆情文本情感分析方法、装置、计算机设备及介质 - Google Patents

舆情文本情感分析方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN116263786A
CN116263786A CN202211458852.6A CN202211458852A CN116263786A CN 116263786 A CN116263786 A CN 116263786A CN 202211458852 A CN202211458852 A CN 202211458852A CN 116263786 A CN116263786 A CN 116263786A
Authority
CN
China
Prior art keywords
public opinion
emotion
opinion text
text data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211458852.6A
Other languages
English (en)
Inventor
吴忆松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202211458852.6A priority Critical patent/CN116263786A/zh
Publication of CN116263786A publication Critical patent/CN116263786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及人工智能技术领域,公开了一种舆情文本情感分析方法,该方法包括:获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据;通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵;根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。通过上述方式,本发明实施例实现了对舆情文本的准确分类。

Description

舆情文本情感分析方法、装置、计算机设备及介质
技术领域
本发明实施例涉及人工智能技术领域,具体涉及一种舆情文本情感分析方法、舆情文本情感分析装置、计算机设备及计算机可读存储介质。
背景技术
目前,随着互联网技术的普及,全民参与互联网环境建设的时代正在到来。当前各大主流媒体平台都为网民提供了评论发声的渠道,人们可以在微博、公众号等公共平台发布对事实的看法,发表情感倾向。对新闻热点时间的评论进行情感分析,可以帮助政府掌握民意,预防舆论险情的产生;针对商品与服务的评论分析,能够为商家提供更深层次的用户喜好指导。因此,对互联网上的文本情感分析,能够挖掘巨大的信息资源。
文本情感分析的一般步骤可以概括为原始数据的获取、文本特征提取、经分类器对文本进行情感分类,最后输出情感类别。在已有数据量充足的情况下,可以利用测试数据对特征提取方法与分类器进行训练,达到更高的情感判断准确率。然而本申请的发明人发现,现有的基于情感词典的舆情情感分析方法大多采用人工构造的情感词典,注定了该方案会耗费大量人力,若使用已有情感词典,往往又很难适配使用场景,无法达到深层的匹配精准度,情感分析准确度低。
发明内容
鉴于上述问题,本发明实施例提供了一种舆情文本情感分析方法、舆情文本情感分析装置、计算机设备及计算机可读存储介质,用于解决现有技术中存在的情感分析准确度低的问题。
根据本发明实施例的一个方面,提供了一种舆情文本情感分析方法,所述方法包括:
获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据;
通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵;
根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。
在一种可选的方式中,所述获取舆情文本数据,对所述舆情文本数据进行预处理,进一步包括:
编写网络爬虫脚本,通过所述网络爬虫脚本获取舆情文本数据;
根据预定的处理规则对所述舆情文本数据进行预处理,得到处理后的舆情文本数据。
在一种可选的方式中,所述通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,包括:
将所述处理后的舆情文本数据输入双流自注意力机制中,得到带标记的特征向量;其中,带标记的特征向量包括各个词汇的内容状态及查询状态;
根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵。
在一种可选的方式中,所述根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵,进一步包括:
根据所述带标记的特征向量中各个词汇的内容状态及查询状态,采用双向门控循环单元进行特征提取,得到舆情文本情感特征矩阵。
在一种可选的方式中,所述根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,进一步包括:
将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,舆情文本情感特征矩阵得到情感类别分类;
根据所述情感类别分类得到舆情文本情感分类结果。
在一种可选的方式中,所述情感胶囊网络分析模型包括表示单元、概率单元及重构单元;所述将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,得到情感类别分类,包括:
通过所述表示单元基于注意力函数计算得到所述舆情文本情感特征矩阵的胶囊特征向量;
通过所述概率单元基于Sigmoid函数计算得到所述舆情文本情感特征矩阵的胶囊唤醒概率;
通过所述重构单元计算所述胶囊特征向量与所述胶囊唤醒概率的累乘值,得到各个胶囊的重构特征向量;
根据所述重构特征向量进行情感类别分类,得到情感类别分类。
根据本发明实施例的另一方面,提供了一种舆情文本情感分析装置,包括:
获取模块,用于获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据;
情感特征提取模块,用于通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵;
情感分类模块,用于根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。
根据本发明实施例的另一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的舆情文本情感分析方法的步骤。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据所述的舆情文本情感分析方法的步骤。
本发明实施例通过获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据,再通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,最后根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,能够有效提高情感分析的准确度。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了现有技术中情感分析的方法流程示意图;
图2本发明实施例提供的舆情文本情感分析方法的流程示意图;
图3示出了本发明实施例舆情文本情感分析方法的架构示意图;
图4示出了本发明实施例提供的舆情文本情感分析装置的结构示意图;
图5示出了本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
下面,首先对现有技术进行进一步阐述:
文本情感分析的一般步骤如图1所示,可以概括为原始数据的获取、文本特征提取、经分类器对文本进行情感分类,最后输出情感类别。在已有数据量充足的情况下,可以利用测试数据对特征提取方法与分类器进行训练,达到更高的情感判断准确率。
现有情感分析方法可以分为基于情感词典的方法、基于传统机器学习的方法和基于深度学习的方法。
1、基于情感词典的方法是根据已具备的情感词典中提供的词汇与情感标签映射关系,实现多个粒度下的文本情感划分。具体方案是将预处理后的文本数据集输入到训练好的情感词典模型中,根据一定规则,匹配计算出各测试文本的加权情感类型结果。为了构建方法所需的情感词典,国外最早给出了根据WordNet将含义一致的词汇合并后为其分配褒义或贬义的情感属性。而对于中文情感词典,使用较多的是NTUSD、How Net和情感词汇本体库三类。
2、基于传统机器学习的方法是使用较为广泛的舆情情感分析方案。仅需通过大量带有标签的语料,借用现有成熟的机器学习算法,便可在抽取文本的词句特征值后得出其情感分析结果。目前已有的方法可以分为三类:有监督、半监督和无监督的方法。常见的有监督的舆情情感分析方法有K近邻、朴素贝叶斯和支持向量机等,这类方法需要较大的原始数据集。半监督学习的舆情情感分析方法则可以借助特征提取的方式,减少对已标记原始数据的依赖,加快训练速度。而无监督的舆情情感分析方法使用较少,原因是它通过文本见的相似性对目标文本进行分类,难度较大。
3、基于深度学习的方法则是利用神经网络及其改良算法来充分利用文本的上下文语境信息。并且,深度学习方法通过深层网络模型提取文本中的关键特征,优化了学习的效率。起初的基于深度学习的舆情情感分析方法是借助与单一神经网络的,例如使用卷积神经网络、递归神经网络等。一种基于长短时记忆的多维话题分类模型被应用于舆情情感分析,该模型由长短时记忆细胞网络构成,实践证明该模型的平均精度达91%。为了综合多种神经网络的优势,许多研究人员尝试融合神经网络的舆情情感分析方法,取得了大量成果。例如:有学者提出了一种顺序卷积注意递归网络,融合了循环神经网络和卷积结构各自的优势,最终实验结果表明该模型由于其融合的单一神经网络模型。
上述三类均为目前常见的舆情情感分析方法,经过分析和实践,普遍存在以下的缺陷:
1、现有的基于情感词典的舆情情感分析方法大多采用人工构造的情感词典,注定了该方案会耗费大量人力,若使用已有情感词典,往往又很难适配使用场景,无法达到深层的匹配精准度。
2、无论是基于有监督、半监督还是无监督的机器学习的舆情情感分析方法,分析文本的情感时都存在忽略上下文语义的问题,单一的词汇判别让该方案不够智慧。
3、基于深度学习的舆情情感分析方法也存在某些维度上的局限性,例如需要庞大的原始数据集支撑才能取得较好的训练效果,并且许多时候为了追求更深的学习层次,实际的训练速度较慢等。
针对以上问题,本发明实施例提出了一种舆情文本情感分析方法。该方法首先针对一般文本特征向量提取方法速度慢、无法结合上下文语境的问题,通过引入双流自注意力机制对文本进行特征标识,通过借助内容状态和查询状态双流预测,充分结合了舆情文本的语境信息,有效提升了文本特征的表达能力;然后引入双向门控循环单元,对舆情文本的特征矩阵进行特征提取,进一步贴近文本的情感倾向。最后,经过池化层和Softmax层处理后,本发明实施例引入情感胶囊网络来精准地判别舆情文本地情感类别,输出舆情情感分类信息,使得能够得出更加精准的情感类别判断结果。
图2示出了本发明实施例提供的舆情文本情感分析方法的流程图,图3示出了本发明实施例提供的舆情文本情感分析方法所基于的装置的架构图。该方法由计算机设备执行。该计算机设备可以是个人计算机、台式电脑、笔记本电脑、平板电脑、智能终端等,本发明实施例不做具体限制。如图2和图3所示,该方法包括以下步骤:
步骤110:获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据。
其中,首先通过编写网络爬虫脚本,通过所述网络爬虫脚本从互联网获取舆情文本数据。具体地,通过执行Python编写的网络爬虫脚本,爬取大量微博、微信公众号、新闻网站等互联网舆情相关文本,保存于数据库中。之后根据预定的处理规则对所述舆情文本数据进行预处理,得到处理后的舆情文本数据。根据预定的处理规则对所述舆情文本数据进行预处理,包括:分词处理、去停用词处理等。具体地,不同于英文文本天然地采用空格隔开单词,中文文本需要使用相关工具通过语义来对句子进行切分成词汇。本发明实施例中可采用jieba中文分词,对所有的舆情文本数据进行分词处理。通过爬虫获取到的文章与评论等文本数据中包含着许多与舆情专题相关度不大的字母、标点、符号和助词等。因此,去除这些停用词对提升后续的情感分析流程的效率有很大帮助,本发明实施例借助与停用词表进行比对,去除舆情文本数据中的停用词。
步骤120:通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵。
其中,将所述处理后的舆情文本数据输入双流自注意力机制中,得到带标记的特征向量;其中,带标记的特征向量包括各个词汇的内容状态及查询状态;根据所述带标记的特征向量中各个词汇的内容状态及查询状态,采用双向门控循环单元进行特征提取,得到舆情文本情感特征矩阵。
具体地,将所述处理后的舆情文本数据输入双流自注意力机制中,进行舆情文本特征自回归训练,得到带标记的特征向量。其中,在舆情文本特征自回归训练阶段,考虑到常用的自编码语言模型(AE)在微调阶段缺少mask标志位的情况下会带来与预训练结果不匹配的人为误差,因而本发明实施例采用双流自注意力机制对舆情文本进行特征向量标记,不仅规避了AE的缺陷,并且不会表现出一般自回归语言模型(AR)的单向预测局限性,它能够充分结合文本的上下文语境,加强文本特征向量的表达能力。
其中,若按照排列语言模型来求一段舆情文本中某个词的对数似然,则:
Figure BDA0003954692040000071
其中,z表示序列x的随机抽取的序列,zt为z中位置为t的序号,e(x)为预测词x的embedding,hθ(xz<t)是编码了x及其上文信息的内容状态。也即,根据t之前的预测词x预测t位置的词汇内容
Figure BDA0003954692040000072
的概率。可以发现hθ(xz<t)与目标预测内容无相关性,因而任意的目标位置都会得到同一个分布结果。针对这个问题,本发明实施例引入一种新的目标位置预测方式:
Figure BDA0003954692040000081
其中,与上式相比更新的查询状态gθ(xz<t,zt)即为序列zt中t位置前面的词汇信息,它与hθ(xz<t)区别在于不编码x的内容信息。gθ(xz<t,zt)与hθ(xz<t)的状态更新如下式:
Figure BDA0003954692040000082
Figure BDA0003954692040000083
其中,初始查询状态g(0)为变量ω,初始内容状态h(0)为词汇的e(x),Q、K、V表示根据权值不同线性变换的矩阵。
通过这种方式,可以得到各个词汇的内容状态及查询状态,根据各个词汇、各个词汇的权重及各个词汇的内容状态及查询状态,得到带标记的特征向量。
在得到带标记的特征向量之后,通过双向门控循环单元进行特征提取,得到舆情文本情感特征矩阵。其中,常用的文本情感特征提取算法包括循环神经网络(RNN)、长短期记忆网络(LSTM)和门控循环单元(GRU)等。本发明实施例考虑到RNN经常出现梯度小时或爆炸情况,GRU缺乏语境信息,因此在提取文本情感特征的阶段采用双向门控循环单元(Bi-GRU)的方式,提取舆情文本情感特征矩阵H。其中,GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好。Bi-GRU由前向GRU和后向GRU组成,双向的巡查方式能够兼顾舆情上下文,优化了普通GRU模型因单向性带来的信息缺失问题。
步骤130:根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。
本发明实施例中,将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,舆情文本情感特征矩阵得到情感类别分类;根据所述情感类别分类得到舆情文本情感分类结果。所述情感胶囊网络分析模型包括多个情感胶囊网络,每个情感胶囊网络对应一个情感类别。其中,所述情感胶囊网络分析模型的每个情感胶囊网络均包括表示单元、概率单元及重构单元。通过所述表示单元基于注意力函数计算得到所述舆情文本情感特征矩阵的胶囊特征向量;通过所述概率单元基于Sigmoid函数计算得到所述舆情文本情感特征矩阵的胶囊唤醒概率;通过所述重构单元计算所述胶囊特征向量与所述胶囊唤醒概率的累乘值,得到各个胶囊的重构特征向量;根据所述重构特征向量进行情感类别分类,得到情感类别分类。具体地,舆情文本数据大多为新闻报道、时事评论等短文本。在有限的文本长度上提取情感信息,更加需要结合上下文的语境涵义。常用的循环神经网络获取整个句子序列信息有限以及在反向传播时可能存在梯度消失或梯度爆炸的问题。因此本发明实施例提出带有自注意力的情感胶囊网络分析模型,更好地适配短文本的情感分析场景。本发明实施例中,在得到了所述舆情文本情感特征矩阵后,利用情感胶囊层对舆情数据进行情感类别归置。这里采用的是胶囊网络的模型来情感判别,情感胶囊层由表示单元、概率单元和重构单元构成。首先,表示单元借助经典的注意力函数计算胶囊特征向量vc,i,而概率单元调用Sigmoid函数来得出胶囊唤醒的概率Pi,最后重构单元对表示单元和概率单元的计算结果累乘,获取各个胶囊的重构特征向量rs,i
对于表示单元:对于不同的语言情景下,同一个词表达的情感类型即正面或负面是不同的,其对应的特征值大小也不同。因此,有必要引入注意力函数,区别对待不同场景下词汇情感表达的权重,注意力函数计算如下:
ui,t=tanh(WwHt+bw)
Figure BDA0003954692040000091
vc,i=Σtαi,tHt
其中,i为舆情文本中各词汇的编号,Ht表示Bi-GRU输出向量,也即所述舆情文本情感特征矩阵。首先,将Ht传递给全连接层,用双曲正切函数计算得到隐式向量ui,t;对比隐式向量ui,t与uw的相关度,并归一化取得其相应的注意力权重ωi,t;最后简单地加权求和得到注意力函数输出值vc,i。表示单元负责加深特征向量的表示深度,输出更适配源文本、具有语义特征的特征向量。
对于概率单元:概率单元获取到表示单元输入的vc,i后,计算各胶囊唤醒的概率Pi,计算方式如下式:
Pi=σ(WP,ivc,i+bp,i);
其中,WP,i为vc,i的权重矩阵,bp,i为偏移量矩阵,σ为sigmoid激活函数。
对于重构单元:重构单元负责计算特征向量vc,i和概率胶囊唤醒概率Pi的乘积,将结果作为经胶囊网络重构的特征向量rs,i
rs,i=Pi·vc,i
假如共设定三种情感类别,分别为正面、中性和负面,则共需构建3个情感胶囊,情感胶囊数量与情感类别数量一致。理论情况下,有着与舆情文本的情感类别越是匹配的特征向量,该胶囊唤醒的概率Pi越大。
本发明实施例中,在情感胶囊网络分析模型的训练阶段,为了减小重构特征向量rs,i和舆情文本特征向量之间的误差,准确地唤醒正确的胶囊,添加损失函数如下:
Figure BDA0003954692040000101
其中,L(θ)为损失函数,Vs为文本实例特征,Pi为胶囊唤醒的概率。
通过训练样本及该损失函数,对情感胶囊网络分析模型进行训练及参数修正,从而得到训练好的情感胶囊网络分析模型。将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,舆情文本情感特征矩阵得到情感类别分类。
本发明实施例通过获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据,再通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,最后根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,能够有效提高情感分析的准确度。
图4示出了本发明实施例提供的舆情文本情感分析装置的结构示意图。
如图4所示,该装置300包括:
获取模块310,用于获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据;
情感特征提取模块320,用于通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵;
情感分类模块330,用于根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。
在一种可选的方式中,所述获取舆情文本数据,对所述舆情文本数据进行预处理,进一步包括:
编写网络爬虫脚本,通过所述网络爬虫脚本获取舆情文本数据;
根据预定的处理规则对所述舆情文本数据进行预处理,得到处理后的舆情文本数据。
在一种可选的方式中,所述通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,包括:将所述处理后的舆情文本数据输入双流自注意力机制中,得到带标记的特征向量;其中,带标记的特征向量包括各个词汇的内容状态及查询状态;
根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵。
在一种可选的方式中,所述根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵,进一步包括:
根据所述带标记的特征向量中各个词汇的内容状态及查询状态,采用双向门控循环单元进行特征提取,得到舆情文本情感特征矩阵。
在一种可选的方式中,所述根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,进一步包括:
将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,舆情文本情感特征矩阵得到情感类别分类;
根据所述情感类别分类得到舆情文本情感分类结果。
在一种可选的方式中,所述情感胶囊网络分析模型包括表示单元、概率单元及重构单元;所述将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,得到情感类别分类,包括:
通过所述表示单元基于注意力函数计算得到所述舆情文本情感特征矩阵的胶囊特征向量;
通过所述概率单元基于Sigmoid函数计算得到所述舆情文本情感特征矩阵的胶囊唤醒概率;
通过所述重构单元计算所述胶囊特征向量与所述胶囊唤醒概率的累乘值,得到各个胶囊的重构特征向量;
根据所述重构特征向量进行情感类别分类,得到情感类别分类。
本发明实施例通过获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据,再通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,最后根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,能够有效提高情感分析的准确度。
图5示出了本发明实施例提供的计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于舆情文本情感分析方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以被处理器402调用使计算机设备执行以下操作:
获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据;
通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵;
根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。
在一种可选的方式中,所述获取舆情文本数据,对所述舆情文本数据进行预处理,进一步包括:
编写网络爬虫脚本,通过所述网络爬虫脚本获取舆情文本数据;
根据预定的处理规则对所述舆情文本数据进行预处理,得到处理后的舆情文本数据。
在一种可选的方式中,所述通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,包括:将所述处理后的舆情文本数据输入双流自注意力机制中,得到带标记的特征向量;其中,带标记的特征向量包括各个词汇的内容状态及查询状态;
根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵。
在一种可选的方式中,所述根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵,进一步包括:
根据所述带标记的特征向量中各个词汇的内容状态及查询状态,采用双向门控循环单元进行特征提取,得到舆情文本情感特征矩阵。
在一种可选的方式中,所述根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,进一步包括:
将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,舆情文本情感特征矩阵得到情感类别分类;
根据所述情感类别分类得到舆情文本情感分类结果。
在一种可选的方式中,所述情感胶囊网络分析模型包括表示单元、概率单元及重构单元;所述将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,得到情感类别分类,包括:
通过所述表示单元基于注意力函数计算得到所述舆情文本情感特征矩阵的胶囊特征向量;
通过所述概率单元基于Sigmoid函数计算得到所述舆情文本情感特征矩阵的胶囊唤醒概率;
通过所述重构单元计算所述胶囊特征向量与所述胶囊唤醒概率的累乘值,得到各个胶囊的重构特征向量;
根据所述重构特征向量进行情感类别分类,得到情感类别分类。
本发明实施例通过获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据,再通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,最后根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,能够有效提高情感分析的准确度。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在计算机设备上运行时,使得所述计算机设备执行上述任意方法实施例中的舆情文本情感分析方法。
可执行指令具体可以用于使得计算机设备执行以下操作:
获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据;
通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵;
根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。
在一种可选的方式中,所述获取舆情文本数据,对所述舆情文本数据进行预处理,进一步包括:
编写网络爬虫脚本,通过所述网络爬虫脚本获取舆情文本数据;
根据预定的处理规则对所述舆情文本数据进行预处理,得到处理后的舆情文本数据。
在一种可选的方式中,所述通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,包括:将所述处理后的舆情文本数据输入双流自注意力机制中,得到带标记的特征向量;其中,带标记的特征向量包括各个词汇的内容状态及查询状态;
根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵。
在一种可选的方式中,所述根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵,进一步包括:
根据所述带标记的特征向量中各个词汇的内容状态及查询状态,采用双向门控循环单元进行特征提取,得到舆情文本情感特征矩阵。
在一种可选的方式中,所述根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,进一步包括:
将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,舆情文本情感特征矩阵得到情感类别分类;
根据所述情感类别分类得到舆情文本情感分类结果。
在一种可选的方式中,所述情感胶囊网络分析模型包括表示单元、概率单元及重构单元;所述将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,得到情感类别分类,包括:
通过所述表示单元基于注意力函数计算得到所述舆情文本情感特征矩阵的胶囊特征向量;
通过所述概率单元基于Sigmoid函数计算得到所述舆情文本情感特征矩阵的胶囊唤醒概率;
通过所述重构单元计算所述胶囊特征向量与所述胶囊唤醒概率的累乘值,得到各个胶囊的重构特征向量;
根据所述重构特征向量进行情感类别分类,得到情感类别分类。
本发明实施例通过获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据,再通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,最后根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,能够有效提高情感分析的准确度。
本发明实施例提供一种舆情文本情感分析装置,用于执行上述舆情文本情感分析方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使计算机设备执行上述任意方法实施例中的舆情文本情感分析方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的舆情文本情感分析方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (9)

1.一种舆情文本情感分析方法,其特征在于,所述方法包括:
获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据;
通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵;
根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取舆情文本数据,对所述舆情文本数据进行预处理,进一步包括:
编写网络爬虫脚本,通过所述网络爬虫脚本获取舆情文本数据;
根据预定的处理规则对所述舆情文本数据进行预处理,得到处理后的舆情文本数据。
3.根据权利要求1所述的方法,其特征在于,所述通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵,包括:将所述处理后的舆情文本数据输入双流自注意力机制中,得到带标记的特征向量;其中,带标记的特征向量包括各个词汇的内容状态及查询状态;
根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据所述带标记的特征向量中各个词汇的内容状态及查询状态进行特征提取,得到舆情文本情感特征矩阵,进一步包括:
根据所述带标记的特征向量中各个词汇的内容状态及查询状态,采用双向门控循环单元进行特征提取,得到舆情文本情感特征矩阵。
5.根据权利要求1所述的方法,其特征在于,所述根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果,进一步包括:
将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,舆情文本情感特征矩阵得到情感类别分类;
根据所述情感类别分类得到舆情文本情感分类结果。
6.根据权利要求5所述的方法,其特征在于,所述情感胶囊网络分析模型包括表示单元、概率单元及重构单元;所述将舆情文本情感特征矩阵输入预先构建好的情感胶囊网络分析模型中,得到情感类别分类,包括:
通过所述表示单元基于注意力函数计算得到所述舆情文本情感特征矩阵的胶囊特征向量;
通过所述概率单元基于Sigmoid函数计算得到所述舆情文本情感特征矩阵的胶囊唤醒概率;
通过所述重构单元计算所述胶囊特征向量与所述胶囊唤醒概率的累乘值,得到各个胶囊的重构特征向量;
根据所述重构特征向量进行情感类别分类,得到情感类别分类。
7.一种舆情文本情感分析装置,其特征在于,所述装置包括:
获取模块,用于获取舆情文本数据,对所述舆情文本数据进行预处理,得到处理后的舆情文本数据;
情感特征提取模块,用于通过双流自注意力机制对所述处理后的舆情文本数据进行特征向量标记,并提取带标记的特征向量,得到舆情文本情感特征矩阵;
情感分类模块,用于根据所述舆情文本情感特征矩阵及预先构建好的情感胶囊网络分析模型进行情感类别分类,得到舆情文本情感分类结果。
8.一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据权利要求1-6任一项所述的舆情文本情感分析方法的步骤。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-6任一项所述的舆情文本情感分析方法的步骤。
CN202211458852.6A 2022-11-17 2022-11-17 舆情文本情感分析方法、装置、计算机设备及介质 Pending CN116263786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211458852.6A CN116263786A (zh) 2022-11-17 2022-11-17 舆情文本情感分析方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211458852.6A CN116263786A (zh) 2022-11-17 2022-11-17 舆情文本情感分析方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN116263786A true CN116263786A (zh) 2023-06-16

Family

ID=86722904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211458852.6A Pending CN116263786A (zh) 2022-11-17 2022-11-17 舆情文本情感分析方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN116263786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407527A (zh) * 2023-10-19 2024-01-16 重庆邮电大学 一种教育领域舆情大数据分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407527A (zh) * 2023-10-19 2024-01-16 重庆邮电大学 一种教育领域舆情大数据分类方法

Similar Documents

Publication Publication Date Title
WO2022022163A1 (zh) 文本分类模型的训练方法、装置、设备及存储介质
Wang et al. Application of convolutional neural network in natural language processing
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
Zhang et al. Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network.
Xiao et al. Using convolution control block for Chinese sentiment analysis
US20220284321A1 (en) Visual-semantic representation learning via multi-modal contrastive training
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN111914097A (zh) 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112232053B (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
US20230376828A1 (en) Systems and methods for product retrieval
Singh et al. Word sense disambiguation for Punjabi language using deep learning techniques
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN116263786A (zh) 舆情文本情感分析方法、装置、计算机设备及介质
Chan et al. Applying and optimizing NLP model with CARU
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
Hassani et al. Disambiguating spatial prepositions using deep convolutional networks
CN116680407A (zh) 一种知识图谱的构建方法及装置
Meng et al. Multi-layer convolutional neural network model based on prior knowledge of knowledge graph for text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination