CN110866087B

CN110866087B - 一种基于主题模型的面向实体的文本情感分析方法

Info

Publication number: CN110866087B
Application number: CN201910738217.5A
Authority: CN
Inventors: 骆祥峰; 黄敬; 付雪峰
Original assignee: Alibaba Group Holding Ltd; University of Shanghai for Science and Technology
Current assignee: Alibaba Group Holding Ltd; University of Shanghai for Science and Technology
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2023-11-17
Anticipated expiration: 2039-08-12
Also published as: CN110866087A

Abstract

本发明公开了一种基于主题模型的面向实体的文本情感分析方法，具体步骤如下：（1）输入待情感分析文本集；（2）从文本集中提取文本的实体集、词集和实体‑词关系；（3）利用主题模型对文本中的（实体，主题，情感，实体评价词）四元层次关系建模，并嵌入实体‑词关系作为监督信息以约束模型对输入文本集中的每个单词进行情感、实体和主题标签采样；（4）推导情感与实体之间的概率矩阵η以及实体、主题与词之间的概率矩阵ψ的具体数学表达式，并在模型收敛时依据推导的数学表达式计算概率矩阵η和ψ中的每个元素值；（5）输出情感分析结果。本方法能获取细粒度的面向实体的情感分析结果，可以提高情感分析的准确率。

Description

一种基于主题模型的面向实体的文本情感分析方法

技术领域

本发明涉及一种文本的情感分析方法，具体涉及一种基于主题模型的面向实体的文本情感分析方法，属于智能信息处理领域。

背景技术

近年来，随着社交媒体的出现，公众热衷于表达他们对名人、产品等实体的意见或观点，由此在社交媒体中产生了大量包含广大用户丰富情感的文本。为了快速准确地从海量的文本中挖掘出这些有价值的情感信息，需要从实体层面对这些文本进行情感分析。现有的情感分析技术有大部分是基于主题模型方法的，但在情感分析层面上，主要是面向篇章层面(Document-level)和方面层面(Aspect-level)。如Lin等人在论文《JointSentiment/Topic Model for Sentiment Analysis》中提出了JST主题模型(JointSentiment/Topic model)，它能够同时检测文本的情感和主题。JST适用于对篇章级别的文本进行情感分类，而对于实体级情感挖掘则使用受限。此外，Yohan等人在文章《Aspect andSentiment Unification Model for Online Review Analysis》中提出了ASUM主题模型(Aspect and Sentiment Unification model)，它进一步扩展了JST模型使之能应用于在线评论的情感分析。尽管ASUM模型能够对一个指定实体的多个方面进行情感分析，但它不能同时对多个实体进行情感分析。另外，大多数基于主题模型的情感分析方法都没有加入先验的监督信息指导模型的训练，其方法是完全非监督的，因此忽略了监督信息对主题模型提高情感分类的准确性并增强情感分析结果可解释性的作用。

发明内容

本发明的目的主要针对现有基于主题模型的文本情感分析方法的不足，提出一种基于主题模型的面向实体的文本情感分析方法，该方法能够利用从文本中提取的实体信息、词信息对(实体，主题，情感，实体评价词)四元层次关系建模，并将提取的实体-词关系作为主题模型的监督信息。最后，通过对主题模型参数的推导和求解，实现面向实体层面的文本情感分析。该方法具有面向细粒度的实体进行情感分析的特点，且利用实体-词关系作为监督信息对主题模型进行约束，可以提高情感分析的准确率。

为了达到上述的目的，本发明的构思如下：

(1)在主题模型中利用情感层来确定文本中隐藏的情感极性信息，利用实体层来明确用户的情感目标对象；(2)利用富于语义的实体-词关系作为弱监督信息，增加了对实体的主题描述(即主题-单词分布)的约束，从而帮助获得细粒度的的基于实体的主题，以提高情感分析的准确性；(3)通过求解主题模型的参数，获得面向实体的文本情感分析的结果。

根据上述发明构思，本发明采用下述技术方案：

一种基于主题模型的面向实体的文本情感分析方法，具体步骤如下：

(1)、输入待情感分析的文本语料集合；

(2)、从文本集中提取文本的实体集、词集和实体-词关系；

(3)、利用主题模型对文本中的(实体，主题，情感，实体评价词)四元层次关系建模，并嵌入实体-词关系作为监督信息以约束模型对输入文本集中的每个单词进行情感、实体和主题标签采样；

(4)、推导情感与实体之间的概率矩阵η以及实体、主题与词之间的概率矩阵ψ的具体数学表达式，并在模型收敛时依据推导的数学表达式计算概率矩阵η和ψ中的每个元素值；

(5)、输出情感分析结果。

所述步骤(2)的具体过程如下：

(2-1)、利用中文切词工具Ansj对文本集进行切词处理并去除停用词，仅保留名词、形容词、副词、动词；

(2-2)、利用命名实体识别工具Stanford NER为每篇文本进行命名实体识别，并选择保留所需情感分析的实体类型；

(2-3)、利用以下公式计算实体e和单词w的相关性大小，并选取相关性超过一定阈值μ的实体-词对为提取的实体-词关系集合EW(e,w)：

(2-4)、剔除低频词、低频实体。

所述步骤(3)的具体过程如下：

(3-1)、基于主题模型对文本中的实体，主题，情感，实体评价词四元层次关系建模，并推导出为文档d的第i个单词m分配给每个主题标签k，每个实体标签h，每维情感标签j的概率的数学公式如下；

其中，下标-i表示在推导上述概率时，只需从除文档d中第i个单词外的其它文档集D中的单词被分配的实体标签/>主题标签/>和情感标签/>向量中统计相关参数值。在此前提下：/>表示文档d中被分配了情感标签j的单词总数；/>表示文档集D中被分配了实体标签h和情感标签j的单词总数；/>表示文档集D中被分配了主题标签z和情感标签j的单词总数；/>表示文档集D中单词m被同时分配了实体标签h和主题标签z的总数。表示文档d中被分配了情感标签l’从1到L的单词总数；/>表示文档集D中被分配了情感标签j的同时被分配了实体标签e’从1到E的单词总数；/>表示文档集D中被分配了情感标签j的同时被分配了主题标签z’从1到K的单词总数；/>表示文档集D中被同时分配了实体标签h和主题标签k的单词总数。其中，文档集D中一共有L个情感标签，E个实体标签，K个主题标签，V个不重复的单词；E_d表示从文档d中提取的实体集；α，β，λ，α₀为模型参数。

(3-2)、依据(3-1)计算的概率随机采样主题标签和情感标签，将步骤(2)中提取的实体-词关系集合EW(e,w)作为监督信息；如果一个或者多个实体e与单词m组成的实体-词关系对存在于EW(e,w)中，则约束模型优先在这些实体中为单词m随机采样一个实体标签e，否则依据(3-1)中计算的概率在全部实体集中随机采样一个实体标签e。

所述步骤(4)的具体其过程如下：

(4-1)、推导出利用下式求解情感与实体之间概率矩阵η，并在模型收敛时计算概率矩阵η中的每个元素值：

其中，N_le是情感标签l和实体标签e被分配给文档集D中所有单词的总次数，N_l则是情感标签l被分配给文档集D中所有单词的总次数，E为从文档集D中提取的不重复的实体数，α为先验设置参数；

(4-2)、推导出利用下式求解实体&主题与词项之间的概率矩阵ψ，并在模型收敛时计算概率矩阵ψ中的每个元素值：

其中N_ezv是单词v被分配了实体标签e和主题标签z的总次数，N_ez则是实体标签e和主题标签z与文档集D中所有单词关联的总次数，V为从文档集D中提取的不重复的单词数，α₀为先验设置参数。

本发明与现有的技术相比较，具有如下突出特点和优点：

(1)在主题模型中利用情感层来确定文本中隐藏的情感极性信息，利用实体层来明确用户的情感目标对象，从而获得面向实体的情感分析；(2)在主题模型中嵌入提取的实体-词关系作为监督信息来增加对实体的主题-词分布的约束，从而帮助获取细粒度的基于实体的主题词分布，并进一步提高面向实体的情感分析的准确率，以及助于理解文本中用户为何在不同的主题背景下会对同一个实体表达不同的情感。

附图说明

图1是基于主题模型的面向实体的文本情感分析方法的流程图。

具体实施方式

以下结合附图对本发明的实施作进一步的详细描述。

如图1所示，一种基于主题模型的面向实体的文本情感分析方法，具体步骤如下：

S1、输入待情感分析文本集D＝{d₁,d₂,…,d_m,…,d_n}，共n篇文本。

S2、从文本集D中提取实体集E、词集W和实体-词关系集EW(e,w)。具体步骤如下：

S2.1、利用中文切词工具Ansj对文本集D中每篇文本d_m进行切词处理并去除停用词，仅保留名词、形容词、副词、动词，提取的词集表示为其中/>表示文档d_m中的第i个单词，该篇文本d_m中共有k个单词；

S2.2、利用命名实体识别工具Stanford NER为文本集D中每篇文本d_m进行命名实体识别，并选择保留所需情感分析的实体类型，如国家，组织，人物等，提取的实体集表示为其中/>表示文档d_m中的第i个实体，该篇文本d_m中共有v个实体；

S2.3、在文本集D中提取实体-词关系集合，利用以下公式计算实体e和单词w的相关性大小，并选取相关性超过一定阈值的实体-词对作为实体-词关系集合EW(e,w)，EW(e,w)＝{<e₁,w₁,PMI(e₁,w₁)>,<e₂,w₂,PMI(e₂,w₂)>,…<e_h,w_h,PMI(e_h,w_h)>}，其中<e_h,w_h,PMI(e_h,w_h)>表示单词w_h和实体e_h之间具有相关性，其相关性大小为PMI(e,w)：

其中，p(e&w)表示单词w和实体e在随机文档中共同出现的概率，p(w)、p(e)分别表示在随机文档中单词w出现的概率和实体e出现的概率；

S2.4、剔除低频词、低频实体。

S3、利用主题模型对文本中的(实体，主题，情感，实体评价词)四元层次关系建模，并嵌入实体-词关系作为监督信息以约束模型对输入文本集中的每个单词进行情感、实体和主题标签采样，其具体步骤如下：

S3.1、基于主题模型对文本中的(实体，主题，情感，实体评价词)四元层次关系建模，并推导出单词m分配给每个主题标签k，每个实体标签h，每维情感标签j的概率的数学公式如下，其中设置情感标签为六维{爱，喜，怒，悲，惧，惊}，设置主题标签一共有K个，而实体标签则为从文档集D中提取的实体总数共E个，设置参数α为0.1，α₀为0.01，β为0.02，λ为0.03；

S3.2、依据S3.1中计算的概率随机从K个主题标签中采样一个主题标签z；

S3.3、依据S3.1中计算的概率随机从六维情感标签中采样一个情感标签l；

S3.4、依据S3.1计算的概率随机采样主题标签和情感标签。将步骤S2中提取的实体-词关系集合EW(e,w)作为监督信息。如果一个或者多个实体e与单词m组成的实体-词关系对存在于EW(e,w)中，则约束模型优先在这些实体中为单词m随机采样一个实体标签e，否则依据(3-1)中计算的概率在全部实体集中随机采样一个实体标签e；

重复S3.1～S3.4直到模型收敛。

S4、推导情感与实体之间的概率矩阵η以及实体、主题与词之间的概率矩阵ψ的数学公式表达形式，并在模型收敛时依据推导的公式计算概率矩阵η和ψ中的每个元素值，其具体步骤如下：

S4.1、推导出利用下式求解情感与实体之间概率矩阵η，并在模型收敛时计算概率矩阵η中的每个元素值：

其中，N_le是情感l和实体e被分配给文档集D中所有单词的总次数，N_l则是情感l被分配给文档集D中所有单词的总次数，E为从文档集D中提取的不重复的实体数，设置先验参数α为0.1。

S4.2、推导出利用下式求解实体&主题与词项之间的概率矩阵ψ，并在模型收敛时计算概率矩阵ψ中的每个元素值：

其中N_ezv是单词v被分配给实体标签e和主题标签z的总次数，N_ez则是实体标签e和主题标签z与文档集D中所有单词关联的总次数，V为从文档集D中提取的不重复的单词数，设置先验参数α₀为0.01。

S5、通过S4的计算主要输出二个分布结果为：每个情感标签l的情感实体分布η_l、实体&主题与词项之间的概率矩阵ψ，具体输出结果如下：

S5.1、输出：如下表1所示，根据求解的主题模型的参数：情感实体分布η_l，展示了“爱”和“怒”两维情感下实体集E中不同实体e1～e4出现的概率。从表中可以看出文本集中人们对不同实体表现出的情感“爱”和“怒”的程度不同，求解的概率大小可以反映该维情感下用户对该实体表达情感的强弱：

表1“爱”和“愤怒”两维情感下不同实体出现的概率

S5.2、输出：如下表2所示，根据求解的主题模型的参数：实体&主题与词项之间的概率矩阵ψ，展示了某个固定实体e的六个不同主题Topic1～Topic6的词分布{W^ti ₁,W^ti ₂,W^ti ₃,W^ti ₄}变化。其中，W^ti ₁表示主题Topici的词分布中的第1个单词。从这六个基于实体e的不同主题变化中得到文本集中的用户在不同的主题背景下表达了对同一个实体的多种情感信息：

表2固定实体的不同主题的词分布变化

S5.3、输出：如下表3所示，根据求解的主题模型的参数：实体&主题与词项之间的概率矩阵ψ，展示了词分布{W^ei ₁,W^ei ₂,W^ei ₃,W^ei ₄}如何在某固定主题上随实体ei不同而变化。其中，W^ei ₁表示实体ei的词分布中的第1个单词。相比于提供不基于特定描述实体的词分布的方法会因缺乏情感实体目标而导致情感分析结果具有误导性。本方法可以获取基于实体与主题的词分布信息，从而有助于解释为什么文本集中人们会在不同主题背景下，对同一个实体表达不同的情感：

表3词分布在固定主题上随实体不同的变化

Claims

1.一种基于主题模型的面向实体的文本情感分析方法，其特征在于，具体步骤如下：

(1)、输入待情感分析的文本语料集合；

(2)、从文本集中提取文本的实体集、词集和实体-词关系；

(3)、利用主题模型对文本中的实体，主题，情感，实体评价词的四元层次关系建模，并嵌入实体-词关系作为监督信息以约束模型对输入文本集中的每个单词进行情感、实体和主题标签采样；

(5)、输出情感分析结果；

步骤(3)的具体过程如下：

(3-1)、基于主题模型对文本中的实体，主题，情感，实体评价词四元层次关系建模，并推导出为文档d的第i个单词m分配给每个主题标签k，每个实体标签h，每维情感标签j的概率的数学公式如下：

其中，下标-i表示在推导上述概率时，只需从除文档d中第i个单词外的其它文档集D中的单词被分配的实体标签/>主题标签/>和情感标签/>向量中统计相关参数值；在此前提下：/>表示文档d中被分配了情感标签j的单词总数；/>表示文档集D中被分配了实体标签h和情感标签j的单词总数；/>表示文档集D中被分配了主题标签z和情感标签j的单词总数；/>表示文档集D中单词m被同时分配了实体标签h和主题标签z的总数；表示文档d中被分配了情感标签l’从1到L的单词总数；/>表示文档集D中被分配了情感标签j的同时被分配了实体标签e’从1到E的单词总数；/>表示文档集D中被分配了情感标签j的同时被分配了主题标签z’从1到K的单词总数；/>表示文档集D中被同时分配了实体标签h和主题标签k的单词总数；其中，文档集D中一共有L个情感标签，E个实体标签，K个主题标签，V个不重复的单词；E_d表示从文档d中提取的实体集；α，β，λ，α₀为模型参数；设置参数α为0.1，α₀为0.01，β为0.02，λ为0.03；

(3-2)、依据(3-1)计算的概率随机采样主题标签和情感标签，将步骤(2)中提取的实体-词关系集合EW(e,w)作为监督信息；如果一个或者多个实体e与单词m组成的实体-词关系对存在于EW(e,w)中，则约束模型优先在这些实体中为单词m随机采样一个实体标签e，否则依据(3-1)中计算的概率在全部实体集中随机采样一个实体标签e；

步骤(4)的具体其过程如下：

其中，N_le是情感标签l和实体标签e被分配给文档集D中所有单词的总次数，N_l则是情感标签l被分配给文档集D中所有单词的总次数，E为从文档集D中提取的不重复的实体数；

(4-2)、推导出利用下式求解实体、主题与词之间的概率矩阵ψ，并在模型收敛时计算概率矩阵ψ中的每个元素值：

其中N_ezv是单词v被分配了实体标签e和主题标签z的总次数，N_ez则是实体标签e和主题标签z与文档集D中所有单词关联的总次数，V为从文档集D中提取的不重复的单词数，α₀为0.01；

步骤(5)的具体过程如下：

通过S4的计算主要输出二个分布结果为：情感与实体之间的概率矩阵η、以及实体、主题与词之间的概率矩阵ψ，具体输出结果如下：

S5.1、输出：根据求解的主题模型的参数：情感实体分布η_l，展示了“爱”和“怒”两维情感下实体集E中不同实体e1～e4出现的概率；对不同实体表现出的情感“爱”和“怒”的程度不同，求解的概率大小反映该维情感下用户对该实体表达情感的强弱；

S5.2、输出：根据求解的主题模型的参数：实体、主题与词之间的概率矩阵ψ，展示了某个固定实体e的六个不同主题Topic1～Topic6的词分布{W^ti ₁,W^ti ₂,W^ti ₃,W^ti ₄}变化；其中，W^ti ₁表示主题Topici的词分布中的第1个单词；从这六个基于实体e的不同主题变化中得到文本集中的用户在不同的主题背景下表达了对同一个实体的多种情感信息；

S5.3、输出：根据求解的主题模型的参数：实体、主题与词之间的概率矩阵ψ，展示了词分布{W^ei ₁,W^ei ₂,W^ei ₃,W^ei ₄}如何在某固定主题上随实体ei不同而变化；其中，W^ei ₁表示实体ei的词分布中的第1个单词；获取基于实体与主题的词分布信息，得到文本集中的用户在不同主题背景下，对同一个实体表达不同的情感。

2.根据权利要求1所述的基于主题模型的面向实体的文本情感分析方法，其特征在于，所述步骤(2)的具体过程如下：

(2-2)、利用命名实体识别工具StanfordNER为每篇文本进行命名实体识别，并选择保留所需情感分析的实体类型；

(2-3)、利用以下公式计算实体e和单词w的相关性大小，并选取相关性超过一定阈值μ的实体-词对作为提取的实体-词关系集合EW(e,w)：

(2-4)、剔除低频词、低频实体。