CN115169361A - 一种情感分析方法及其相关设备 - Google Patents

一种情感分析方法及其相关设备 Download PDF

Info

Publication number
CN115169361A
CN115169361A CN202210930334.3A CN202210930334A CN115169361A CN 115169361 A CN115169361 A CN 115169361A CN 202210930334 A CN202210930334 A CN 202210930334A CN 115169361 A CN115169361 A CN 115169361A
Authority
CN
China
Prior art keywords
text
emotion
analyzed
layer
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210930334.3A
Other languages
English (en)
Inventor
张盼盼
王安定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202210930334.3A priority Critical patent/CN115169361A/zh
Publication of CN115169361A publication Critical patent/CN115169361A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种情感分析方法及其相关设备,该方法包括:在获取到目标领域下的待分析文本之后,先将该待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,以使该情感分析模型能够参考该情感词典,对该待分析文本进行情感分析处理,得到并输出文本情感得分,以使该文本情感得分能够表示出该待分析文本具有正面情感的可能性以及具有负面情感的可能性,从而使得该文本情感得分能够表示能够表示出该待分析文本最有可能属于正面情感还是负面情感;再根据所述文本情感得分,确定所述待分析文本的情感分析结果,以使该情感分析结果能够表示出该待分析文本所携带的感情色彩或者情感倾向性,如此能够实现针对评论文本进行情感分析的目的。

Description

一种情感分析方法及其相关设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种情感分析方法及其相关设备。
背景技术
情感分析是指针对带有情感色彩的主观性文本(例如,“我今天好开心哦!”等文本)进行分析、处理、归纳和推理的过程。
随着互联网的普及,互联网上产生了大量的由用户参与的、针对某一对象(例如,人物、事件、产品等)进行评论所撰写的评论文本,以使这些评论文本能够表达出人们的各种情感色彩或者情感倾向性(例如,喜、怒、哀、乐、批评、赞扬等情感),从而使得哪些潜在用户可以通过浏览这些带有主观情感色彩的评论文本来了解大众舆论对于该对象(例如,人物、事件、产品等)的看法。
然而,如何针对评论文本进行情感分析仍是一项亟待解决的技术问题。
发明内容
为了解决现有技术中存在的以上技术问题,本申请提供一种情感分析方法及其相关设备,能够实现针对评论文本进行情感分析的目的。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种情感分析方法,所述方法包括:
在获取到目标领域下的待分析文本之后,将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,得到所述情感分析模型输出的文本情感得分;
根据所述文本情感得分,确定所述待分析文本的情感分析结果。
在一种可能的实施方式中,所述情感分析模型包括词嵌入模块、语义增强模块、句子嵌入模块、和情感预测模块;
所述文本情感得分的确定过程,包括:
根据所述待分析文本、所述情感词典、和所述词嵌入模块,确定文本表征向量和词典表征向量;
将所述文本表征向量和所述词典表征向量输入所述语义增强模块,得到所述语义增强模块输出的文本增强特征;
将所述文本增强特征输入所述句子嵌入模块,得到所述句子嵌入模块输出的句子嵌入向量;
将所述句子嵌入向量输入所述情感预测模块,得到所述情感预测模块输出的所述文本情感得分。
在一种可能的实施方式中,所述词嵌入模块包括字符级特征提取层、词级特征提取层、句子级特征提取层、特征融合层、和整合编码层;其中,所述整合编码层的输入数据包括所述特征融合层的输出数据;所述特征融合层的输入数据包括所述字符级特征提取层的输出数据、所述词级特征提取层的输出数据、和所述句子级特征提取层的输出数据。
在一种可能的实施方式中,所述整合编码层包括一个门控循环单元GRU。
在一种可能的实施方式中,所述句子嵌入模块包括卷积层、池化层和特征编码层;其中,所述特征编码层的输入数据包括所述池化层的输出数据;所述池化层的输入数据包括所述卷积层的输出数据。
在一种可能的实施方式中,所述特征编码层包括一个GRU。
在一种可能的实施方式中,所述情感词典包括正面情感词典和负面情感词典。
本申请实施例还提供了一种情感分析装置,包括:
得分预测单元,用于在获取到目标领域下的待分析文本之后,将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,得到所述情感分析模型输出的文本情感得分;
结果确定单元,用于根据所述文本情感得分,确定所述待分析文本的情感分析结果。
本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的情感分析方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的情感分析方法的任一实施方式。
与现有技术相比,本申请实施例至少具有以下优点:
本申请实施例提供的技术方案中,在获取到目标领域下的待分析文本之后,先将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,以使该情感分析模型能够参考该情感词典,对该待分析文本进行情感分析处理,得到并输出文本情感得分,以使该文本情感得分能够表示出该待分析文本具有正面情感的可能性以及具有负面情感的可能性,从而使得该文本情感得分能够表示能够表示出该待分析文本最有可能属于正面情感还是负面情感;再根据所述文本情感得分,确定所述待分析文本的情感分析结果,以使该情感分析结果能够表示出该待分析文本所携带的感情色彩或者情感倾向性。
其中,因情感分析模型能够针对文本数据较好地进行情感分析处理,使得利用该情感分析模型针对待分析文本分析所得的文本情感得分能够表示出该待分析文本最有可能携带的感情色彩或者情感倾向性,从而使得基于该文本情感得分所确定的情感分析结果能够表示出该待分析文本所携带的感情色彩或者情感倾向性,如此能够实现针对评论文本进行情感分析的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种情感分析方法的流程图;
图2为本申请实施例提供的一种情感分析模型的结构示意图;
图3为本申请实施例提供的一种情感分析模型的工作原理示意图;
图4为本申请实施例提供的一种情感分析装置的结构示意图。
具体实施方式
为了便于理解本申请技术方案,下面对本申请所涉及的一些技术名词进行介绍。
深度学习:深度学习是机器学习的一种,源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。
语义:语义是对数据符号的解释,而语法则是对于这些符号之间的组织规则和结构关系的定义。数据往往是通过非结构化和半结构化的数据模式来组织的,数据的访问也是通过作用于模式来获得的,这时语义就是指模式元素(例如类、属性、约束等等)的含义,而语法则是模式元素的结构。
情感分析:对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。
门控循环网络(Gated Recurrent Unit,GRU)是应用最广泛的循环神经网络(Recurrent Neural Network,RNN)变种之一,把内部状态向量和输出向量合并,统一为状态向量h。GRU提出使用两个向量,即更新门(update gate)和重置门(reset gate)的概念,用来决定什么样的信息应该被传递给输出。它可以保存很久之前的信息,也会去掉不相关的信息。
词嵌入技术是自然语言处理领域在深度学习方面的主要应用,最早是在1986年提出了词向量的概念,是指将词语表示成向量,并且可以通过神经网络来训练分布式表示的词向量,使得这些词向量带有语义信息。
多粒度中文词嵌入:基于词、字、字形结构部件等多粒度进行联合学习,充分挖掘汉字的字形结构中多蕴含的语义信息,通过使用双向长短期记忆网络和注意力机制使得加入词嵌入中的信息在语义上和词更为相关,可避免将噪声加入到词嵌入中。
噪声信息:汉字由象形文字发展为音意文字,使得汉字中只有一部分的字形部件用于表意,另有其他部分的字形部件用于表意。如:“朝”字主要的表意部件是“日”和“月”,表示的意思是“月亮消失后,太阳从草丛中升起”。类似于“巧克力”这样的音译字,词的语义和组成其的单字的语义并无太大关联。如未充分考虑到字形结构部件对词的语义贡献的有效性问题,可能将噪声信息带入至词嵌入中。
所谓池化,是一个信息筛选或者过滤的操作。池化操作使用某一位置的相邻输出的总体特征来代替网络在该位置的输出。另外,池化操作的作用主要就体现在两个方面:减少参数量和防止过拟合。
卷积神经网络在对原始数据的处理过程中,在卷积层中需要提取原始数据的特征。为提取数据特征使用的权重矩阵,称为卷积窗。
卷积窗,又名卷积层窗口,卷积窗口等,是卷积神经网络中卷积层对数据进行卷积处理的矩阵。卷积窗用于提取输入数据中的特征信息。
神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图1,该图为本申请实施例提供的一种情感分析方法的流程图。
本申请实施例提供的情感分析方法,包括S1-S2:
S1:在获取到目标领域下的待分析文本之后,将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,得到所述情感分析模型输出的文本情感得分。
其中,目标领域可以是任意一个领域;而且该目标领域下存在大量的文本数据(尤其是,大量的评论文本)。例如,目标领域可以是金融领域、娱乐领域、社会新闻领域、书籍报刊领域、影视资源领域等。
待分析文本用于表示需要进行情感分析处理的文本数据(尤其是,评论文本);而且本申请实施例不限定该待分析文本,例如,其可以是从互联网中搜索到的与目标领域相关的文本(尤其是,评论文本)。
上文“目标领域下的情感词典”用于描述该目标领域下具有感情色彩的词汇(例如,一些正面情感词汇和一些负面情感词汇等);而且该“目标领域下的情感词典”可以包括正面情感词典和负面情感词典。其中,正面情感词典用于记录大量的目标领域下的正面情感词汇。负面情感词典用于记录大量的目标领域下的负面情感词汇。
另外,本申请实施例不限定上述“目标领域下的情感词典”的获取方式,例如,其具体可以为:先采用分词、TF-IDF(term frequency–inverse document frequency)算法以及人工标注等手段,针对目标领域下大量的文本语料(例如,文献、报道、论坛内容等)进行筛选,得到大量的目标领域下的正面情感词汇和大量的目标领域下的负面情感词汇;再将这些正面情感词汇、这些负面情感词汇、以及一些已构建好的情感词典(例如,OWNET、DLUTSD、NTUSD等情感词典)进行融合,得到该目标领域下的情感词典,以使该情感词典能够尽可能多地覆盖该目标领域下具有感情色彩的词汇。
上文“情感分析模型”用于针对该情感分析模型的输入数据进行情感分析处理;而且本申请实施例不限定该情感分析模型,例如,其可以是任意一种深度学习模型。
另外,为了进一步提高情感分析效果,本申请实施例还提供了情感分析模型的一种可能的实施方式,如图2所示,该情感分析模型200具体可以包括词嵌入模块201、语义增强模块202、句子嵌入模块203、和情感预测模块204。其中,情感预测模块204的输入数据包括句子嵌入模块203的输出数据;句子嵌入模块203的输入数据包括语义增强模块202的输出数据;语义增强模块202的输入数据包括词嵌入模块201的输出数据。
为了进一步理解情感分析模型200的工作原理,下面以文本情感得分的确定过程为例进行说明。
作为示例,利用情感分析模型200确定文本情感得分的过程,具体可以包括步骤11-步骤14:
步骤11:根据所述待分析文本、所述情感词典、和所述词嵌入模块201,确定文本表征向量和词典表征向量。
其中,词嵌入模块201用于针对该词嵌入模块201的输入数据进行词嵌入处理;而且本申请实施例不限定该词嵌入模块201的实施方式,例如,可以采用现有的或者未来出现的任意一种词嵌入方法进行实施。
实际上,为了进一步提高词嵌入效果,词嵌入模块201可以采用多粒度词嵌入方式进行实施。基于此,本申请实施例还提供了词嵌入模块201的另一种可能的实施方式,其具体可以包括:字符级特征提取层、词级特征提取层、句子级特征提取层、特征融合层、和整合编码层。其中,所述整合编码层的输入数据包括所述特征融合层的输出数据;所述特征融合层的输入数据包括所述字符级特征提取层的输出数据、所述词级特征提取层的输出数据、和所述句子级特征提取层的输出数据。
需要说明的是,上述“词嵌入模块201的另一种可能的实施方式”的工作原理可以参考下文所示的“文本表征向量的确定过程”进行理解。
上文“文本表征向量”用于表示待分析文本所携带的语义信息;而且本申请实施例不限定该文本表征向量的确定过程,例如,当词嵌入模块201包括字符级特征提取层、词级特征提取层、句子级特征提取层、特征融合层、和整合编码层时,该文本表征向量的确定过程,具体可以包括步骤21-步骤25:
步骤21:将待分析文本输入字符级特征提取层,得到该字符级特征提取层输出的文本字符级特征。
其中,字符级特征提取层用于针对该字符级特征提取层的输入数据进行字符级向量表示;而且本申请实施例不限定该字符级特征提取层的实施方式,例如,其可以采用卷积网络进行实施。
文本字符级特征是指待分析文本的字符级向量表示,以使该文本字符级特征能够表示出该待分析文本在字符级上所呈现的语义信息。
另外,本申请实施例不限定文本字符级特征的表示方式,例如,当待分析文本包括N个词时,该文本字符级特征可以表示为
Figure BDA0003780573310000071
其中,
Figure BDA0003780573310000072
表示待分析文本中第n个词在字符级上所呈现的语义信息;n为正整数,n≤N,N为正整数。
步骤22:将待分析文本输入词级特征提取层,得到该词级特征提取层输出的文本词级特征。
其中,词级特征提取层用于针对该词级特征提取层的输入数据进行词级向量表示;而且本申请实施例不限定该词级特征提取层的实施方式,例如,其可以是通过对斯坦福大学的全局词表示向量(Global Vectors for Word Representation,GloVe)词嵌入工具进行微调得到的。
文本词级特征是指待分析文本的词级向量表示,以使该文本词级特征能够表示出该待分析文本在词级上所呈现的语义信息。
另外,本申请实施例不限定文本词级特征的表示方式,例如,当待分析文本包括N个词时,该文本词级特征可以表示为
Figure BDA0003780573310000081
其中,
Figure BDA0003780573310000082
表示待分析文本中第n个词在词级上所呈现的语义信息;n为正整数,n≤N,N为正整数。
步骤23:将待分析文本输入句子级特征提取层,得到该句子级特征提取层输出的文本句子级特征。
其中,句子级特征提取层用于针对该句子级特征提取层的输入数据进行句子级向量表示;而且本申请实施例不限定该句子级特征提取层的实施方式,例如,其可以通过对谷歌人工智能研究院的语言模型(Bidirectional Encoder Representation fromTransformers,Bert)嵌入工具进行微调得到的。
文本句子级特征是指待分析文本的句子级向量表示,以使该文本句子级特征能够表示出该待分析文本在句子级上所呈现的语义信息。
另外,本申请实施例不限定文本句子级特征的表示方式,例如,当待分析文本包括N个词时,该文本句子级特征可以表示为
Figure BDA0003780573310000083
其中,
Figure BDA0003780573310000084
表示待分析文本中第n个词在句子级上所呈现的语义信息;n为正整数,n≤N,N为正整数。
需要说明的是,本申请实施例不限定步骤21-步骤23之间的执行顺序,例如,可以并列执行。
步骤24:将文本字符级特征、文本词级特征、以及文本句子级特征输入特征融合层,得到该特征融合层输出的文本融合特征。
其中,特征融合层用于针对该特征融合层的输入数据进行融合处理;而且本申请实施例不限定该特征融合层的工作原理,例如,其可以采用下文公式(1)所示的串联方式进行实施。
Figure BDA0003780573310000091
式中,{E1,E2,…,EN}表示文本融合特征,而且En表示待分析文本中第n个词的在字符级、词级以及句子级上的融合特征,n为正整数,n≤N,N为正整数;
Figure BDA0003780573310000092
表示文本字符级特征,而且
Figure BDA0003780573310000093
表示待分析文本中第n个词在字符级上所呈现的语义信息;
Figure BDA0003780573310000094
表示文本词级特征,而且
Figure BDA0003780573310000095
表示待分析文本中第n个词在词级上所呈现的语义信息;
Figure BDA0003780573310000096
表示文本句子级特征,而且
Figure BDA0003780573310000097
表示待分析文本中第n个词在句子级上所呈现的语义信息;
Figure BDA0003780573310000099
表示串联操作。
步骤25:将文本融合特征输入整合编码层,得到该整合编码层输出的文本表征向量。
其中,整合编码层用于针对该整合编码层的输入数据进行整合编码处理;而且本申请实施例不限定该整合编码层的实施方式,例如,其可以为一个门控循环单元(gatedrecurrent unit,GRU);而且该GRU的工作原理如下文公式(2)-(5)所示。
zt=ρ(Wzvt+Uzht-1) (2)
rt=ρ(Wrvt+Urht-1) (3)
Figure BDA0003780573310000098
ht=(1-zt)Θht-1+ztΘht (5)
式中,vt表示GRU的输入数据;zt表示表示更新门;rt表示重置门;ρ(·)表示sigmoid函数;Wz、Uz、Wr、Ur、Wh、Uh均是整合编码层中的参数;ht表示GRU的输出数据;Θ表示按元素乘法。
需要说明的是,因GRU是一种成熟的技术,故为了简要起见,在此不再赘述GRU的详细内容,烦请参见与GRU相关的相关文献。
基于上述步骤21至步骤25的相关内容可知,对于词嵌入模块201来说,在该词嵌入模块201获取到待分析文本之后,可以先利用该词嵌入模块201中的字符级特征提取层、词级特征提取层、以及句子级特征提取层,分别从该待分析文本中提取字符级特征、词级特征、以及句子级特征,以实现针对待分析文本的多粒度特征分析;再利用该词嵌入模块201中的特征融合层,对所有粒度下的特征进行融合处理,得到融合特征,以使该融合特征能够更好地表示出该待分析文本;最后,对该融合特征进行整合编码,得到文本表征向量,以使该文本表征向量能够表示出该待分析文本所携带的语义信息。
上文“词典表征向量”用于表示情感词典所携带的语义信息;而且本申请实施例不限定该词典表征向量的确定过程,例如,如图3所示,该词典表征向量的确定过程可以类似于上文“文本表征向量的确定过程”(也就是,该词典表征向量中各个词汇的词嵌入向量的确定过程,类似于待分析文本中各个词汇的词嵌入向量的确定过程),为了简要起见,在此不再赘述。
需要说明的是,图3中F-dicj是指情感词典中的第j个词汇,j为正整数,j≤J,J为正整数,J表示情感词典中所有词汇的个数。
基于上述步骤11的相关内容可知,对于情感分析模型200来说,在该情感分析模型200获取到待分析文本和情感词典之后,可以由该情感分析模型200中的词嵌入模块201分别针对该待分析文本和情感词典进行词嵌入处理,得到文本表征向量和词典表征向量,以使该文本表征向量能够表示出该待分析文本所携带的语义信息,并使得该词典表征向量能够表示出该情感词典中各个词汇所携带的语义信息。
步骤12:将所述文本表征向量和所述词典表征向量输入所述语义增强模块202,得到所述语义增强模块202输出的文本增强特征。
其中,语义增强模块202用于针对该语义增强模块202的输入数据进行语义增强处理;而且本申请实施例不限定该语义增强模块202的工作原理,例如,其可以采用下文公式(6)进行实施。
Figure BDA0003780573310000101
式中,
Figure BDA0003780573310000102
表示待分析文本中第n个词相对于金融情感词典中第j个词的语义增强矩阵,以使该
Figure BDA0003780573310000103
能够表示出该待分析文本中第n个词与金融情感词典中第j个词之间的相似度,而且
Figure BDA0003780573310000104
表示金融情感词典中第j个词的词嵌入向量;j为正整数,j≤J,J为正整数;
Figure BDA0003780573310000105
表示;
Figure BDA0003780573310000111
表示en的转置;
Figure BDA0003780573310000112
表示待分析文本中第n个词的词嵌入向量,n为正整数,i≤N,N为正整数;而且
Figure BDA0003780573310000113
表示文本表征向量。
基于上述步骤12的相关内容可知,对于情感分析模型200来说,在该情感分析模型200中的语义增强模块202获取到文本表征向量和词典表征向量之后,可以由该语义增强模块202参考该词典表征向量,对该文本表征向量进行语义增强处理,得到文本增强特征,以使该文本增强特征能够表示出待分析文本中各个词与情感词典中各个词之间的相似度,从而使得该文本增强特征能够更好地表示出待分析文本在目标领域中所携带的语义信息,如此能够实现借助情感词典中所携带的情感语义强化待分析文本所携带的语义信息的目的。
步骤13:将所述文本增强特征输入所述句子嵌入模块203,得到所述句子嵌入模块203输出的句子嵌入向量。
其中,句子嵌入模块203用于针对该句子嵌入模块203的输入数据进行句子嵌入处理;而且本申请实施例不限定该句子嵌入模块203,例如,其可以包括卷积层、池化层和特征编码层。其中,所述特征编码层的输入数据包括所述池化层的输出数据;所述池化层的输入数据包括所述卷积层的输出数据。
其中,卷积层用于针对该卷积层的输入数据进行卷积处理;而且本申请实施例不限定该卷积层的工作原理,例如,其具体可以为:采用窗口大小为
Figure BDA0003780573310000114
并采用公式(7)所示的卷积网络进行实施。
Figure BDA0003780573310000115
式中,
Figure BDA0003780573310000116
表示卷积网络中第l层的f类型输出端口的特征映射结果;σ(·)表示ReLU函数;
Figure BDA0003780573310000117
以及bl表示卷积网络中第l层的卷积参数;Fl-1表示卷积网络中第l层的特征数。
需要说明的是,因卷积处理是一种成熟的技术,故为了简要起见,在此不再赘述卷积处理的详细内容,烦请参见与卷积处理相关的相关文献。
上述“池化层”用于针对该池化层的输出数据进行池化处理;而且本申请实施例不限定该“池化层”,例如,其具体可以为:采用池化宽度为
Figure BDA0003780573310000121
池化高度为
Figure BDA0003780573310000122
以及公式(8)进行实施。
Figure BDA0003780573310000123
需要说明的是,因池化处理是一种成熟的技术,故为了简要起见,在此不再赘述池化处理的详细内容,烦请参见与池化处理相关的相关文献。
上述“特征编码层”用于针对该特征编码层的输入数据进行编码处理;而且本申请实施例不限定该特征编码层,例如,其可以采用一个GRU进行实施。
基于上述步骤13的相关内容可知,对于情感分析模型200来说,在该情感分析模型200中的句子嵌入模块203获取到文本增强特征之后,该句子嵌入模块203可以先针对该文本增强特征进行卷积处理;再针对卷积处理结果进行池化处理,以实现将高维空间中的向量映射至低维空间中;最后,对池化处理结果进行编码处理,得到句子嵌入向量,以使该句子嵌入向量能够更好地表示出待分析文本所携带的语义信息。
步骤14:将所述句子嵌入向量输入所述情感预测模块204,得到所述情感预测模块204输出的所述文本情感得分。
其中,情感预测模块204用于针对该情感预测模块204的输入数据进行情感评分处理;而且本申请实施例不限定该情感预测模块204的实施方式,例如,其可以采用注意力机制以及分类函数(例如,softmax函数)进行实施。
基于上述步骤11至步骤13的相关内容可知,对于情感分析模型200来说,在该情感分析模型200获取到待分析文本和目标领域下的情感词典之后,该情感分析模型200能够参考该情感词典,对该待分析文本进行情感分析处理,得到该待分析文本的文本情感得分,以使该文本情感得分能够表示出该待分析文本具有正面情感的可能性以及具有负面情感的可能性,从而使得该文本情感得分能够表示能够表示出该待分析文本最有可能属于正面情感还是负面情感。
S2:根据所述文本情感得分,确定所述待分析文本的情感分析结果。
本申请实施例中,在获取到文本情感得分之后,若该文本情感得分表示待分析文本具有正面情感的可能性大于具有负面情感的可能性,则可以确定该待分析文本属于正面舆情;然而,若该文本情感得分表示待分析文本具有正面情感的可能性小于具有负面情感的可能性,则可以确定该待分析文本属于负面舆情;但是,若该文本情感得分表示待分析文本具有正面情感的可能性等于具有负面情感的可能性,则可以确定该待分析文本属于中性舆情。
基于上述S1至S2的相关内容可知,对于本申请实施例提供的情感分析方法来说,在获取到目标领域下的待分析文本之后,先将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,以使该情感分析模型能够参考该情感词典,对该待分析文本进行情感分析处理,得到并输出文本情感得分,以使该文本情感得分能够表示出该待分析文本具有正面情感的可能性以及具有负面情感的可能性,从而使得该文本情感得分能够表示能够表示出该待分析文本最有可能属于正面情感还是负面情感;再根据所述文本情感得分,确定所述待分析文本的情感分析结果,以使该情感分析结果能够表示出该待分析文本所携带的感情色彩或者情感倾向性。
其中,因情感分析模型能够针对文本数据较好地进行情感分析处理,使得利用该情感分析模型针对待分析文本分析所得的文本情感得分能够表示出该待分析文本最有可能携带的感情色彩或者情感倾向性,从而使得基于该文本情感得分所确定的情感分析结果能够表示出该待分析文本所携带的感情色彩或者情感倾向性,如此能够实现针对评论文本进行情感分析的目的。
基于上述方法实施例提供的情感分析方法,本申请实施例还提供了一种情感分析装置,下面结合附图进行解释和说明。
装置实施例
装置实施例提供的情感分析装置的技术详情,请参照上述方法实施例。
参见图4,该图为本申请实施例提供的一种情感分析装置的结构示意图。
本申请实施例提供的情感分析装置400,包括:
得分预测单元401,用于在获取到目标领域下的待分析文本之后,将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,得到所述情感分析模型输出的文本情感得分;
结果确定单元402,用于根据所述文本情感得分,确定所述待分析文本的情感分析结果。
在一种可能的实施方式中,所述情感分析模型包括词嵌入模块、语义增强模块、句子嵌入模块、和情感预测模块;
所述文本情感得分的确定过程,包括:根据所述待分析文本、所述情感词典、和所述词嵌入模块,确定文本表征向量和词典表征向量;将所述文本表征向量和所述词典表征向量输入所述语义增强模块,得到所述语义增强模块输出的文本增强特征;将所述文本增强特征输入所述句子嵌入模块,得到所述句子嵌入模块输出的句子嵌入向量;将所述句子嵌入向量输入所述情感预测模块,得到所述情感预测模块输出的所述文本情感得分。
在一种可能的实施方式中,所述词嵌入模块包括字符级特征提取层、词级特征提取层、句子级特征提取层、特征融合层、和整合编码层;其中,所述整合编码层的输入数据包括所述特征融合层的输出数据;所述特征融合层的输入数据包括所述字符级特征提取层的输出数据、所述词级特征提取层的输出数据、和所述句子级特征提取层的输出数据。
在一种可能的实施方式中,所述整合编码层包括一个门控循环单元GRU。
在一种可能的实施方式中,所述句子嵌入模块包括卷积层、池化层和特征编码层;其中,所述特征编码层的输入数据包括所述池化层的输出数据;所述池化层的输入数据包括所述卷积层的输出数据。
在一种可能的实施方式中,所述特征编码层包括一个GRU。
在一种可能的实施方式中,所述情感词典包括正面情感词典和负面情感词典。
基于上述情感分析装置400的相关内容可知,对于情感分析装置400来说,在获取到目标领域下的待分析文本之后,先将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,以使该情感分析模型能够参考该情感词典,对该待分析文本进行情感分析处理,得到并输出文本情感得分,以使该文本情感得分能够表示出该待分析文本具有正面情感的可能性以及具有负面情感的可能性,从而使得该文本情感得分能够表示能够表示出该待分析文本最有可能属于正面情感还是负面情感;再根据所述文本情感得分,确定所述待分析文本的情感分析结果,以使该情感分析结果能够表示出该待分析文本所携带的感情色彩或者情感倾向性。
其中,因情感分析模型能够针对文本数据较好地进行情感分析处理,使得利用该情感分析模型针对待分析文本分析所得的文本情感得分能够表示出该待分析文本最有可能携带的感情色彩或者情感倾向性,从而使得基于该文本情感得分所确定的情感分析结果能够表示出该待分析文本所携带的感情色彩或者情感倾向性,如此能够实现针对评论文本进行情感分析的目的。
进一步地,本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的情感分析方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的情感分析方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的情感分析方法的任一实施方式。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种情感分析方法,其特征在于,所述方法包括:
在获取到目标领域下的待分析文本之后,将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,得到所述情感分析模型输出的文本情感得分;
根据所述文本情感得分,确定所述待分析文本的情感分析结果。
2.根据权利要求1所述的方法,其特征在于,所述情感分析模型包括词嵌入模块、语义增强模块、句子嵌入模块、和情感预测模块;
所述文本情感得分的确定过程,包括:
根据所述待分析文本、所述情感词典、和所述词嵌入模块,确定文本表征向量和词典表征向量;
将所述文本表征向量和所述词典表征向量输入所述语义增强模块,得到所述语义增强模块输出的文本增强特征;
将所述文本增强特征输入所述句子嵌入模块,得到所述句子嵌入模块输出的句子嵌入向量;
将所述句子嵌入向量输入所述情感预测模块,得到所述情感预测模块输出的所述文本情感得分。
3.根据权利要求2所述的方法,其特征在于,所述词嵌入模块包括字符级特征提取层、词级特征提取层、句子级特征提取层、特征融合层、和整合编码层;其中,所述整合编码层的输入数据包括所述特征融合层的输出数据;所述特征融合层的输入数据包括所述字符级特征提取层的输出数据、所述词级特征提取层的输出数据、和所述句子级特征提取层的输出数据。
4.根据权利要求3所述的方法,其特征在于,所述整合编码层包括一个门控循环单元GRU。
5.根据权利要求2所述的方法,其特征在于,所述句子嵌入模块包括卷积层、池化层和特征编码层;其中,所述特征编码层的输入数据包括所述池化层的输出数据;所述池化层的输入数据包括所述卷积层的输出数据。
6.根据权利要求5所述的方法,其特征在于,所述特征编码层包括一个GRU。
7.根据权利要求1所述的方法,其特征在于,所述情感词典包括正面情感词典和负面情感词典。
8.一种情感分析装置,其特征在于,包括:
得分预测单元,用于在获取到目标领域下的待分析文本之后,将所述待分析文本和所述目标领域下的情感词典输入预先构建的情感分析模型,得到所述情感分析模型输出的文本情感得分;
结果确定单元,用于根据所述文本情感得分,确定所述待分析文本的情感分析结果。
9.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-5中任一项所述的方法。
CN202210930334.3A 2022-08-03 2022-08-03 一种情感分析方法及其相关设备 Pending CN115169361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210930334.3A CN115169361A (zh) 2022-08-03 2022-08-03 一种情感分析方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210930334.3A CN115169361A (zh) 2022-08-03 2022-08-03 一种情感分析方法及其相关设备

Publications (1)

Publication Number Publication Date
CN115169361A true CN115169361A (zh) 2022-10-11

Family

ID=83478175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210930334.3A Pending CN115169361A (zh) 2022-08-03 2022-08-03 一种情感分析方法及其相关设备

Country Status (1)

Country Link
CN (1) CN115169361A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629275A (zh) * 2023-07-21 2023-08-22 北京无极慧通科技有限公司 一种基于大数据的智能决策支持系统及方法
CN116756326A (zh) * 2023-08-18 2023-09-15 杭州光云科技股份有限公司 情感和非情感文本特征分析判断方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629275A (zh) * 2023-07-21 2023-08-22 北京无极慧通科技有限公司 一种基于大数据的智能决策支持系统及方法
CN116629275B (zh) * 2023-07-21 2023-09-22 北京无极慧通科技有限公司 一种基于大数据的智能决策支持系统及方法
CN116756326A (zh) * 2023-08-18 2023-09-15 杭州光云科技股份有限公司 情感和非情感文本特征分析判断方法、装置及电子设备
CN116756326B (zh) * 2023-08-18 2023-11-24 杭州光云科技股份有限公司 情感和非情感文本特征分析判断方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Peng et al. A survey on deep learning for textual emotion analysis in social networks
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
Yilmaz et al. A deep learning analysis on question classification task using Word2vec representations
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
KR102155768B1 (ko) 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법
Zobeidi et al. Opinion mining in Persian language using a hybrid feature extraction approach based on convolutional neural network
Tyagi et al. Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions
CN107066446A (zh) 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN106886580A (zh) 一种基于深度学习的图片情感极性分析方法
CN115169361A (zh) 一种情感分析方法及其相关设备
Arumugam et al. Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications
Zhao et al. ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN
US20230316003A1 (en) Natural Language Processing for Identifying Bias in a Span of Text
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN113127624A (zh) 问答模型的训练方法及装置
Ma et al. DC-CNN: Dual-channel Convolutional Neural Networks with attention-pooling for fake news detection
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
Liu et al. AMFF: A new attention-based multi-feature fusion method for intention recognition
CN105975497A (zh) 微博话题自动推荐方法及装置
Jia Sentiment classification of microblog: A framework based on BERT and CNN with attention mechanism
Al Maruf et al. Challenges and opportunities of text-based emotion detection: A survey
CN111858933A (zh) 基于字符的层次化文本情感分析方法及系统
Af'idah et al. Long short term memory convolutional neural network for Indonesian sentiment analysis towards touristic destination reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination