CN116341565A - 方面词情感分析方法、装置、电子设备及存储介质 - Google Patents
方面词情感分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116341565A CN116341565A CN202310334893.2A CN202310334893A CN116341565A CN 116341565 A CN116341565 A CN 116341565A CN 202310334893 A CN202310334893 A CN 202310334893A CN 116341565 A CN116341565 A CN 116341565A
- Authority
- CN
- China
- Prior art keywords
- candidate
- word
- words
- viewpoint
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 98
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 20
- 239000012634 fragment Substances 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 235000013550 pizza Nutrition 0.000 description 23
- 235000015067 sauces Nutrition 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 6
- 230000007935 neutral effect Effects 0.000 description 6
- 240000002234 Allium sativum Species 0.000 description 5
- 235000004611 garlic Nutrition 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241000227653 Lycopersicon Species 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000003989 dielectric material Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种方面词情感分析方法,包括如下步骤:获取待分析文本,计算所述待分析文本中相邻词之间的成分句法距离;若一对相邻词之间的所述成分句法距离大于成分句法阈值,则在该对相邻词之间对所述待分析文本进行切割,得到若干文本片段;针对每一所述文本片段,枚举得到候选词集合;对所述候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词;将所述候选方面词与所述候选观点词进行配对,得到候选方面词‑观点词对;对所述候选方面词‑观点词对进行情感极性预测,得到有效的方面词‑观点词对及其情感极性。相对于现有技术,能够正确提取方面词和观点词,减小情感分析误差。
Description
技术领域
本发明涉及方面词情感分析技术领域,尤其是涉及一种方面词情感分析方法、装置、电子设备及存储介质。
背景技术
在信息爆炸式增长的时代,人们从网络上获取有用信息的难度加大。对评论文本所表达的观点进行自动获取的情感分析技术,通过对文本中的观点、情感、评价和态度进行计算,实现自动化情感识别,能够为获取观点信息带来便利。
方面级情感分析(Aspect-Based Sentiment Analysis,ABSA)是情感分析领域的一个细粒度的任务,方面级情感分析包含方面词抽取(Aspect Term Extraction,ATE),观点词抽取(Opinion Term Extraction,OTE),方面级情感分类(Aspect-level SentimentClassification,ASC)三部分。其中方面词抽取旨在抽取正确的方面词,观点词抽取旨在抽取正确的观点词,方面级情感分类旨在对给定的方面词的情感极性进行分类,常见的情感极性包含积极(Positive)、中性(Neutral)、消极(Negative)。
现有一种基于片段的方面词情感三元组抽取模型Span-ASTE,它采用了基于片段的框架来提取方面词情感三元组。Span-ASTE通过直接对待分析文本进行枚举,以获取方面词和观点词的候选词,然后通过多层感知机(MLP)对候选词进行预测,得到正确的方面词和观点词。然而,这种方法将产生过多的候选方面词和观点词,由此加大了预测正确的方面词和观点词的难度,导致最终的情感分析误差较大。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种方面词情感分析方法,能够正确提取方面词和观点词,减小情感分析误差。
本发明是通过以下技术方案实现的:一种方面词情感分析方法,包括如下步骤:
获取待分析文本,计算所述待分析文本中相邻词之间的成分句法距离;
若一对相邻词之间的所述成分句法距离大于成分句法阈值,则在该对相邻词之间对所述待分析文本进行切割,得到若干文本片段;
针对每一所述文本片段,枚举得到候选词集合;
对所述候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词;
将所述候选方面词与所述候选观点词进行配对,得到候选方面词-观点词对;
对所述候选方面词-观点词对进行情感极性预测,得到有效的方面词-观点词对及其情感极性。
相对于现有技术,本发明的方面级情感分析方法通过引入待分析文本的成分句法信息来获取候选的方面词和观点词,所获取的候选方面词和观点词更为合理,能够提高方面词和观点词的词类预测的效率和准确性,从而增强方面级情感分析的准确性。
进一步地,将所述候选方面词与所述候选观点词进行配对,得到候选方面词-观点词对,包括步骤:
计算每一所述候选方面词与每一所述候选观点词之间的依存句法距离;
若一对所述候选方面词和所述候选观点词之间的依存句法距离小于依存句法阈值,则将该对候选方面词和候选观点词配对为候选方面词-观点词对。
进一步地,对所述候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词,包括步骤:
计算所述候选词对于每一词类型的概率,确定所有候选词中方面词类型概率最高的n*z1个所述候选词为候选方面词,确定所有候选词中观点词类型概率最高的n*z2个所述候选词为候选观点词;其中,n为待分析文本所包含的单词数,z1、z2为可调节的超参数。
进一步地,通过第一多层感知机对所述候选词集合中的所有候选词进行词类预测,通过第二多层感知机对所述候选方面词-观点词对进行的情感极性预测;
对所述第一多层感知机和所述第二多层感知机进行训练的目标函数为第一多层感知机的负对数似然和第二多层感知机的负对数似然之和。
基于同一发明构思,本发明还提供一种方面词情感分析装置,包括:
成分句法距离计算模块,用于获取待分析文本,计算所述待分析文本中相邻词之间的成分句法距离;
文本切割模块,用于若一对相邻词之间的所述成分句法距离大于成分句法阈值,则在该对相邻词之间对所述待分析文本进行切割,得到若干文本片段;
候选词枚举模块,用于针对每一所述文本片段,枚举得到候选词集合;
词类预测模块,用于对所述候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词;
配对模块,用于将所述候选方面词与所述候选观点词进行配对,得到候选方面词-观点词对;
情感极性预测模块,用于对所述候选方面词-观点词对进行情感极性预测,得到有效的方面词-观点词对及其情感极性。
进一步地,所述配对模块包括:
依存句法距离计算子模块,用于计算每一所述候选方面词与每一所述候选观点词之间的依存句法距离;
候选方面词观点词配对子模块,用于若一对所述候选方面词和所述候选观点词之间的依存句法距离小于依存句法阈值,则将该对候选方面词和候选观点词配对为候选方面词-观点词对。
进一步地,所述词类预测模块包括:
概率预测子模块,用于计算所述候选词对于每一词类型的概率,确定所有候选词中方面词类型概率最高的n*z1个所述候选词为候选方面词,确定所有候选词中观点词类型概率最高的n*z2个所述候选词为候选观点词;其中,n为待分析文本所包含的单词数,z1、z2为可调节的超参数。
进一步地,通过第一多层感知机对所述候选词集合中的所有候选词进行词类预测,通过第二多层感知机对所述候选方面词-观点词对进行的情感极性预测;
还包括训练模块,所述训练模块用于对所述第一多层感知机和所述第二多层感知机进行训练的目标函数为第一多层感知机的负对数似然和第二多层感知机的负对数似然之和。
基于同一发明构思,本发明还提供一种电子设备,包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现上述方法的步骤。
基于同一发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现上述方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为一个实施例的方面词情感分析方法的流程示意图;
图2为一示例性的成分句法树的示意图;
图3为图1所示的步骤S5的流程示意图;
图4为一示例性的依存句法树的示意图;
图5为一示例性的依存句法距离矩阵示意图;
图6为一个实施例的方面词情感分析装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明通过在提取方面词和观点词时引入待分析文本的成分句法信息,由此得到符合成分句法构成规则的候选词,由于方面词和观点词的构成与成分句法中的短语成分构成通常是一致的,因此符合成分句法构成规则的候选词更为合理,对这些候选词进行方面词和观点词预测时,能够更为高效和准确,从而能够增强方面级情感分析的准确性。具体通过以下实施例进行说明。
请参阅图1,其为一个实施例的方面词情感分析方法的流程示意图。该方法包括如下步骤:
S1:获取待分析文本,计算待分析文本中相邻词之间的成分句法距离;
S2:若一对相邻词之间的成分句法距离大于成分句法阈值,则在该对相邻词之间对待分析文本进行切割,得到若干文本片段;
S3:针对每一文本片段,枚举得到候选词集合;
S4:对候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词;
S5:将候选方面词与候选观点词进行配对,得到候选方面词-观点词对;
S6:对候选方面词-观点词对进行情感极性预测,得到有效的方面词-观点词对及其情感极性。
具体的,在步骤S1中,获取待分析文本,计算待分析文本中相邻词之间的成分句法距离。
其中,待分析文本为包括至少一个方面词和至少一个观点词的文本,可以是句子、段落或文章,例如“The sauce on the pizza is sooo good with fresh garlic andtomatoes and they don’tskimp”。由n个词组成的文本可以表示为W={w1,w2,...,wn},其中包括(M≥1)个方面词和N(N≥1)个观点词。
在计算待分析文本中相邻词之间的成分句法距离时,需要先构建待分析文本的成分句法树,再根据成分句法树获取每对相邻词的成分句法距离。
成分句法树是从文本中根据成分语法规则所提取的词性和成分组成的树结构,请参阅图2,其为一示例性的成分句法树的示意图,成分句法树包括根节点、初级节点和次级节点,其中,节点ROOT为成分句法树的根节点。初级节点用于表示其指向的单词组合的词性,包括节点S、节点NP、节点PP、节点VP、节点ADJP等,其中,节点S表示为句子,如“theydon’t skimp”;节点NP表示为名词短语,如“The sauce”;节点PP表示为介词短语,如“onthe pizza”;节点VP表示为动词短语,如“don’t skimp”;节点ADJP表示为形容词短语,如“sooo good”。次级节点用于表示其指向的单词的词性,包括节点DT、节点NN、节点IN、节点VBZ、节点RB、节点JJ、节点CC、节点NNS、节点PRP、节点RB、节点VB等,其中,节点DT表示限定词,如“the”;节点NN表示单数名词,如“sauce”;节点IN表示“介词”,如“on”;节点VBZ表示第三人称单数动词,如“is”;节点RB表示副词,如“sooo”;节点JJ表示形容词,如“good”;节点CC表示连接词,如“and”;节点NNS表示复数名词,如“tomatoes”;节点PRP表示人称代词,如“they”;节点VB表示动词,如“skimp”。在具体实施中,可选用Berkeley Neural Parser、spacy、Stanfordcorenlp等工具进行成分句法树的构建。
成分句法距离为文本中的单词在文本所构成的成分句法树上与它相邻的单词的第一个公共父亲节点的拓扑距离,在图2的示例成分句法树中,单词“pizza”和单词“is”的公共父节点为节点S,单词“pizza”到该父节点S间有4个节点的距离,即拓扑距离为4,则单词“pizza”和单词“is”的成分句法距离为4。
在构建待分析文本的成分句法树前,需要将待分析文本中的单词进行词嵌入操作,将单词转化为携带语义信息的分布式表示,以便算法执行。对单词的词嵌入操作可选用预训练语言模型Bert实施,并通过均值池化聚合单词的嵌入表示。对于n个词的文本的嵌入表示可记为X=[x1,x2,...,xn]。
在步骤S2中,若一对相邻词之间的成分句法距离大于成分句法阈值,则在该对相邻词之间对待分析文本进行切割,得到若干文本片段。
其中,如上述,成分句法距离是根据文本的语法结构计算的,可以用于衡量一对相邻词间的关联性是否足以构成同一方面词或观点词。成分句法阈值为一对相邻词间的关联性足以构成同一方面词或观点词的临界值,具体可在实施中根据实际数据调试确定。若一对相邻词之间的成分句法距离小于或等于成分句法阈值,则表明该对相邻词可能构成同一方面词或观点词,如图2中的“the”和“sauce”之间的成分句法距离为1,成分句法阈值设置为3,则“the sauce”为方面词或观点词的可能性较大;若一对相邻词之间的成分句法距离大于成分句法阈值,则表明该对相邻词的关联性弱,不可构成同一方面词或观点词,则可将该对相邻词进行分割,即在该对相邻词之间对待分析文本进行切割,如图2中的“pizza”和“is”之间的成分句法距离为4,成分句法阈值设置为3,则“pizza is”为方面词或观点词的可能性小。
对待分析文本进行切割后,可得到若干文本片段,如图2,将成分句法阈值设置为3,则在成分句法距离为4的“pizza”与“is”、成分句法距离为6的“tomatoes”与“and”处对待分析文本进行切割,得到三段文本片段,分别为“The sauce on the pizza”、“is sooogood with fresh garlic and tomatoes”和“and they don’t skimp”,可记为P=[p1,p2,p3]。
在步骤S3中,针对每一文本片段,枚举得到候选词集合。
其中,对每一文本片段进行枚举,即将文本片段中所有可能的词或词组截取出来,如对文本片段p1“The sauce on the pizza”,可枚举得到的候选词集合包括候选词“The”“The sauce”“The sauce on”“The sauce on the”“The sauce on the pizza”“sauce”“sauce on”“sauce on the”“sauce on the pizza”“on”“on the”“on the pizza”“the”“the pizza”“pizza”。候选词集合可记为S=[s1,1,s1,2,...,si,j,...,xn,n],其中,i(j≥i≥0)和j(n>j≥0)表示候选词si,j中开始单词和结束单词位于文本片段中的位置序号。
在步骤S4中,对候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词。
其中,对候选词进行词类预测即对候选词的类型进行预测,候选词的类型至少包括方面词和观点词两种。
在一可选实施例中,对候选词集合中的所有候选词进行词类预测,得到方面词和观点词具体包括步骤:计算候选词对于每一词类型的概率,确定所有候选词中方面词类型概率最高的n*z1个候选词为候选方面词,确定所有候选词中观点词类型概率最高的n*z2个候选词为候选观点词。
其中,计算候选词对于每一词类型的概率,可选用多层感知机(MLP)进行计算处理,具体包括步骤:将候选词的嵌入表示输入第一多层感知机;通过第一多层感知机获得候选词对于每一词类型的概率。
其中,xi为候选词si,j中开始单词的嵌入表示,xj为候选词si,j中结束单词的嵌入表示,width(i,j)为候选词si,j的宽度的嵌入表示,“;”表示拼接操作。
第一多层感知机输出候选词的词类型概率的表达式为:
P(m|si,j)=softmax(MLPm(si,j))
其中,m为词类型,m∈{方面词,观点词,无效词},其中无效词表示该候选词既不是方面词也不是观点词。
候选词对于方面词的概率表示为:ΦA(si,j)=P(m=Aspect term|si,j),将所有候选词按ΦA(si,j)的大小进行排序,确定其中ΦA(si,j)最高的n*z1个候选词为候选方面词,z1为可调节的超参数,用于控制候选方面词的数据。
候选词对于观点词的概率表示为:ΦO(si,j)=P(m=Opinion term|si,j),将所有候选词按ΦO(si,j)的大小进行排序,确定其中ΦO(si,j)最高的n*z2个候选词为候选方面词,z2为可调节的超参数,用于控制候选观点词的数据。
在步骤S5中,将候选方面词与候选观点词进行配对,得到候选方面词-观点词对。
其中,将候选方面词语和候选观点词组成候选方面词-观点词对,以便后续进行情感极性预测能够针对各方面的观点所表达的情感进行预测。通常可将候选方面词与候选观点词进行两两配对,即将每一候选方面词与每一候选观点词配对,得到所有可能的候选方面词-观点词对。
在步骤S6中,对候选方面词-观点词对进行的情感极性预测,得到有效的方面词-观点词对及其情感极性。
其中,对候选方面词-观点词对进行情感极性预测,即对候选方面词-观点词对的情感极性的类型进行预测,情感极性的类型包括积极(Positive)、中立(Neutral,)、消极(Negative)和无效(Invalid),其中对于情感极性类型为无效的候选方面词-观点词对无法构建方面级情感三元组,情感极性类型为积极、中立和消极的候选方面词-观点词对为有效的方面词-观点词。通过有效的方面词-观点词对及其对应的情感极性,可构建方面词情感三元组(方面词,观点词,情感极性)。
在一可选实施例中,通过对候选词集合中的所有候选词进行词类预测,得到方面词和观点词,具体包括步骤:计算候选方面词-观点词对对于每一情感极性类型的概率,确定其中概率最高的情感极性类型为对应候选方面词-观点词对的情感极性类型。
其中,计算候选方面词-观点词对对于每一情感极性类型的概率,可选用多层感知机进行情感极性类型的概率计算,具体包括步骤:将候选方面词-观点词对的嵌入表示输入第二多层感知机;通过第二多层感知机获得候选方面词-观点词对对于每一情感极性类型的概率。
其中,候选方面词-观点词对的嵌入表示为:
其中,sa,b为起始单词为待分析文本第a个单词,结束单词为待分析文本第b个单词的方面词;sc,d为起始单词为待分析文本第c个单词,结束单词为待分析文本第d个单词的观点词;fdistance(a,b,c,d)表示方面词sa,b及观点词sc,d之间的距离嵌入表示。
第二多层感知机输出候选方面词-观点词对的情感极性类型概率的表达式为:
其中,r为情感极性的类型,r∈R={Positive,Neutral,Negative,Invalid}。
进一步,由于通过两两配对得到候选方面词-观点词对中存在大量无效的候选方面词-观点词对,这对于候选方面词-观点词对进行的情感极性预测造成了极大的干扰,导致预测误差大,同时影响预测效率。为了提高候选方面词-观点词对进行的情感极性预测的准确性,以及提高预测效率,在一优选实施例中,请参阅图3,步骤S5进一步包括如下步骤:
S51:计算每一候选方面词与每一候选观点词之间的依存句法距离;
S52:若一对候选方面词和候选观点词之间的依存句法距离小于依存句法阈值,则将该对候选方面词和候选观点词配对为候选方面词-观点词对。
其中,在计算每一候选方面词与每一候选观点词之间的依存句法距离时,需要先构建待分析文本的依存句法树,再根据依存句法树获取每一候选方面词与每一候选观点词的成分句法距离。
依存句法树是从文本中根据依存语法规则所提取的词间依存关系组成的树结构,请参阅图4,其为一示例性的依存句法树的示意图,依存句法树包括根节点和依存节点,图中节点root为依存句法树的根节点。依存节点用于表示其指向的词之间的依存关系,包括节点det、节点prep、节点nsubj、节点pobj、节点acmop、节点amod、节点cc、节点conj、节点aux,其中,节点det表示限定关系,如“The”和“sauce”;节点prep表示介词修饰主语关系,如“sauce”和“on”;节点nsubj表示主谓关系,如“sauce”和“is”;节点pobj表示介词宾语关系,如“on”和“pizza”;节点acmop表示形容词补语,如“is”和“sooo”;节点amod表示形容词修饰关系,如“sooo”和“good”;节点cc表示并列关系,如“is”和“and”;节点conj表示并列词的连接关系,如“garlic”和“tomatoes”;节点aux表示非主要动词和助词,如“don’t”和“skimp”。
依存句法距离是文本中的两个单词在文本所构成的依存句法树上的拓扑距离,在图4的示例依存句法树中,单词“garlic”与单词“good”之间需经过节点pobj、节点prep、节点amod,则单词“garlic”与单词“good”之间的依存句法距离为3。
可选的,当候选方面词或候选观点词中包含多个单词,如候选方面词“sauce onthe pizza”,则在计算其与候选观点词的依存句法距离时,首先计算候选方面词中每一单词与候选观点词的依存句法距离,再取候选方面词中所有单词与候选观点词的依存句法距离的平均值作为该候选方面词与候选观点词的依存句法距离,例如单词“sauce”与候选观点词“good”的依存句法距离为3,单词“on”与候选观点词“good”的依存句法距离为4,单词“the”与候选观点词“good”的依存句法距离为6,单词“pizza”与候选观点词“good”的依存句法距离为5,则候选方面词“sauce on the pizza”与候选观点词“good”的依存句法距离为4.5。
请参阅图5,其为一示例性的依存句法距离矩阵示意图,矩阵的纵横侧分别为候选方面词和候选观点词,矩阵中的值为对应候选方面词和候选观点词的依存句法距离。
依存句法距离可以用于衡量一对候选方面词与候选观点词之间的关联度。依存句法阈值为一对候选方面词与候选观点词间的关联度足以配对为候选方面词-观点词对的临界值,依存句法阈值的具体大小可在实施中根据实际数据调试确定。若一对候选方面词与候选观点词之间的依存句法距离小于依存句法阈值,则表明该对候选方面词与候选观点词能够配对为候选方面词-观点词对,如图5中的候选方面词“sauce on the pizza”和候选观点词“good”之间的依存句法距离为4.5,当成分句法阈值设置为5时,候选方面词“sauce onthe pizza”和候选观点词“good”配对为一对候选方面词-观点词对;若一对候选方面词与候选观点词之间的依存句法距离大于或等于依存句法阈值,则表明该对候选方面词与候选观点词不可配对为候选方面词-观点词对,如图5中的候选方面词“sauce on the pizza”和候选观点词“fresh”之间的依存句法距离为7.25,当成分句法阈值设置为5时,候选方面词“sauce on the pizza”和候选观点词“good”将不进行配对。
由于有效的方面词和观点词对中的方面词和观点词之间存在高度紧密关联的依存关系,因此根据待分析文本的依存句法信息获取候选方面词-观点词对,能够过滤掉在依存句法层面关联度低的候选方面词和候选观点词的配对,保留更为合理的候选方面词-观点词对,从而在对候选方面词-观点词对进行情感极性预测时能够更为高效和准确,由此能够增强方面级情感分析的准确性。
此外,为了提高方面级情感分析中方面词/观点词预测和情感极性预测的整体一致性,在一优选实施例中,同时对上述第一多层感知机和第二多层感知机进行训练,训练的目标函数为第一多层感知机的负对数似然(log-likelihood)和第二多层感知机的负对数似然之和,该目标函数的表达式为:
相对于现有技术,本发明的方面级情感分析方法通过引入待分析文本的成分句法信息来获取候选的方面词和观点词,所获取的候选方面词和观点词更为合理,能够提高方面词和观点词的词类预测的效率和准确性,从而增强方面级情感分析的准确性。
进一步,本发明的方面级情感分析通过引入待分析文本的依存句法信息来获取更为合理的候选方面词-观点词对,能够提高候选方面词-观点词对的情感极性预测的效率和准确性,从而进一步提高方面级情感分析的准确性。
基于同一发明构思,本申请还提供一种方面词情感分析装置。请参阅图6,其为一个实施例的方面词情感分析装置的结构示意图,该装置包括成分句法距离计算模块10、文本切割模块20、候选词枚举模块30、词类预测模块40、配对模块50和情感极性预测模块60,其中,成分句法距离计算模块10用于获取待分析文本,计算所述待分析文本中相邻词之间的成分句法距离;文本切割模块20用于若一对相邻词之间的所述成分句法距离大于成分句法阈值,则在该对相邻词之间对所述待分析文本进行切割,得到若干文本片段;候选词枚举模块30用于针对每一所述文本片段,枚举得到候选词集合;词类预测模块40用于对所述候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词;配对模块50用于将所述候选方面词与所述候选观点词进行配对,得到候选方面词-观点词对;情感极性预测模块60用于对所述候选方面词-观点词对进行情感极性预测,得到有效的方面词-观点词对及其情感极性。
进一步,词类预测模块40包括概率预测子模块,该概率预测子模块用于计算候选词对于每一词类型的概率,确定所有候选词中方面词类型概率最高的n*z1个候选词为候选方面词,确定所有候选词中观点词类型概率最高的n*z2个候选词为候选观点词。
进一步,配对模块50包括依存句法距离计算子模块51和候选方面词观点词配对子模块52,其中,依存句法距离计算子模块51用于计算每一所述候选方面词与每一所述候选观点词之间的依存句法距离;候选方面词观点词配对子模块52用于若一对所述候选方面词和所述候选观点词之间的依存句法距离小于依存句法阈值,则将该对候选方面词和候选观点词配对为候选方面词-观点词对。
进一步,情感极性预测模块60包括情感概率预测子模块,用于计算候选方面词-观点词对对于每一情感极性类型的概率,确定其中概率最高的情感极性类型为对应候选方面词-观点词对的情感极性类型。
在一可选实施例中,概率预测子模块用于将候选词的嵌入表示输入第一多层感知机;通过第一多层感知机获得候选词对于每一词类型的概率。
情感概率预测子模块用于将候选方面词-观点词对的嵌入表示输入第二多层感知机;通过第二多层感知机获得候选方面词-观点词对对于每一情感极性类型的概率。
方面词情感分析装置还包括训练模块,该训练模块用于对所述第一多层感知机和所述第二多层感知机进行训练的目标函数为第一多层感知机的负对数似然和第二多层感知机的负对数似然之和。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关细节之处请参见方法实施例的说明。
基于同一发明构思,本申请还提供一种电子设备,可以是服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该设备包括一个或多个处理器和存储器,其中处理器用于执行程序实现方法实施例的方面词情感分析方法;存储器用于存储可由所述处理器执行的计算机程序。
基于同一发明构思,本申请还提供一种计算机可读存储介质,与前述方面词情感分析方法的实施例相对应,所述计算机可读存储介质其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所记载的方面词情感分析方法的步骤。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。
Claims (10)
1.一种方面词情感分析方法,其特征在于,包括如下步骤:
获取待分析文本,计算所述待分析文本中相邻词之间的成分句法距离;
若一对相邻词之间的所述成分句法距离大于成分句法阈值,则在该对相邻词之间对所述待分析文本进行切割,得到若干文本片段;
针对每一所述文本片段,枚举得到候选词集合;
对所述候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词;
将所述候选方面词与所述候选观点词进行配对,得到候选方面词-观点词对;
对所述候选方面词-观点词对进行情感极性预测,得到有效的方面词-观点词对及其情感极性。
2.根据权利要求1所述方法,其特征在于,将所述候选方面词与所述候选观点词进行配对,得到候选方面词-观点词对,包括步骤:
计算每一所述候选方面词与每一所述候选观点词之间的依存句法距离;
若一对所述候选方面词和所述候选观点词之间的依存句法距离小于依存句法阈值,则将该对候选方面词和候选观点词配对为候选方面词-观点词对。
3.根据权利要求1所述的方法,其特征在于,对所述候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词,包括步骤:
计算所述候选词对于每一词类型的概率,确定所有候选词中方面词类型概率最高的n*z1个所述候选词为候选方面词,确定所有候选词中观点词类型概率最高的n*z2个所述候选词为候选观点词;其中,n为待分析文本所包含的单词数,z1、z2为可调节的超参数。
4.根据权利要求1所述的方法,其特征在于:通过第一多层感知机对所述候选词集合中的所有候选词进行词类预测,通过第二多层感知机对所述候选方面词-观点词对进行的情感极性预测;
对所述第一多层感知机和所述第二多层感知机进行训练的目标函数为第一多层感知机的负对数似然和第二多层感知机的负对数似然之和。
5.一种方面词情感分析装置,其特征在于,包括:
成分句法距离计算模块,用于获取待分析文本,计算所述待分析文本中相邻词之间的成分句法距离;
文本切割模块,用于若一对相邻词之间的所述成分句法距离大于成分句法阈值,则在该对相邻词之间对所述待分析文本进行切割,得到若干文本片段;
候选词枚举模块,用于针对每一所述文本片段,枚举得到候选词集合;
词类预测模块,用于对所述候选词集合中的所有候选词进行词类预测,得到候选方面词和候选观点词;
配对模块,用于将所述候选方面词与所述候选观点词进行配对,得到候选方面词-观点词对;
情感极性预测模块,用于对所述候选方面词-观点词对进行情感极性预测,得到有效的方面词-观点词对及其情感极性。
6.根据权利要求5所述的装置,其特征在于,所述配对模块包括:
依存句法距离计算子模块,用于计算每一所述候选方面词与每一所述候选观点词之间的依存句法距离;
候选方面词观点词配对子模块,用于若一对所述候选方面词和所述候选观点词之间的依存句法距离小于依存句法阈值,则将该对候选方面词和候选观点词配对为候选方面词-观点词对。
7.根据权利要求5所述的装置,其特征在于,所述词类预测模块包括:
概率预测子模块,用于计算所述候选词对于每一词类型的概率,确定所有候选词中方面词类型概率最高的n*z1个所述候选词为候选方面词,确定所有候选词中观点词类型概率最高的n*z2个所述候选词为候选观点词;其中,n为待分析文本所包含的单词数,z1、z2为可调节的超参数。
8.根据权利要求5所述的装置,其特征在于:通过第一多层感知机对所述候选词集合中的所有候选词进行词类预测,通过第二多层感知机对所述候选方面词-观点词对进行的情感极性预测;
还包括训练模块,所述训练模块用于对所述第一多层感知机和所述第二多层感知机进行训练的目标函数为第一多层感知机的负对数似然和第二多层感知机的负对数似然之和。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310334893.2A CN116341565A (zh) | 2023-03-30 | 2023-03-30 | 方面词情感分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310334893.2A CN116341565A (zh) | 2023-03-30 | 2023-03-30 | 方面词情感分析方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116341565A true CN116341565A (zh) | 2023-06-27 |
Family
ID=86885545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310334893.2A Pending CN116341565A (zh) | 2023-03-30 | 2023-03-30 | 方面词情感分析方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116341565A (zh) |
-
2023
- 2023-03-30 CN CN202310334893.2A patent/CN116341565A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2607975C2 (ru) | Построение корпуса сравнимых документов на основе универсальной меры похожести | |
US9613024B1 (en) | System and methods for creating datasets representing words and objects | |
US9773053B2 (en) | Method and apparatus for processing electronic data | |
US20170132203A1 (en) | Document-based requirement identification and extraction | |
WO2014033799A1 (ja) | 単語意味関係抽出装置 | |
WO2012039686A1 (en) | Methods and systems for automated text correction | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
Wang et al. | NLP-based query-answering system for information extraction from building information models | |
JP5234232B2 (ja) | 同義表現判定装置、方法及びプログラム | |
CN110633359A (zh) | 语句等价性判断方法和装置 | |
US20220245361A1 (en) | System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework | |
CN115860006A (zh) | 一种基于语义句法的方面级情感预测方法及装置 | |
Gildea et al. | Human languages order information efficiently | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
CN115017916A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 | |
US20220237383A1 (en) | Concept system for a natural language understanding (nlu) framework | |
Chen | Computational generation of Chinese noun phrases | |
CN117236435B (zh) | 一种设计理性知识网络的知识融合方法、装置及存储介质 | |
Xiang et al. | A hybrid model for grammatical error correction | |
RU2563148C2 (ru) | Система и метод семантического поиска | |
WO2023088278A1 (zh) | 用于验证表述的真实性的方法、设备、装置和介质 | |
US20220229986A1 (en) | System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
NL2031111B1 (en) | Translation method, device, apparatus and medium for spanish geographical names |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |