CN110532378B

CN110532378B - 一种基于主题模型的短文本方面提取方法

Info

Publication number: CN110532378B
Application number: CN201910395663.0A
Authority: CN
Inventors: 张雷; 叶康; 罗向阳; 谈志文; 李宁
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2021-10-26
Anticipated expiration: 2039-05-13
Also published as: CN110532378A

Abstract

本发明公开了一种基于主题模型的短文本方面提取方法，包括如下步骤：1)伪文档构建阶段：根据数据集构建词汇共现网络，生成词汇的伪文档；2)主题嵌入模块设置阶段：基于伪文档将词嵌入与主题嵌入联合训练，丰富词汇的潜在语义信息；3)注意力机制构建阶段：基于词向量信息重构句嵌入，最小化目标函数生成词汇权重参数；4)方面词汇聚类阶段：在词嵌入高维空间应用k‑means聚类算法，输出最终方面词汇簇。本发明将主题嵌入与词嵌入联合训练，丰富了词汇的潜在语义信息，并通过注意力机制提高方面词汇权重，降低非方面词汇的权重，从而极大的提高了短文本方面提取模型的性能。

Description

一种基于主题模型的短文本方面提取方法

技术领域

本发明涉及方面级情感分析和主题模型，具体涉及注意力机制和基于主题模型方面提取方法。

背景技术

随着互联网技术的飞速发展，21世纪已经进入了全新的数字时代，我们接收信息的方式发生了翻天覆地的变化。从原先单一的报纸、杂志、书籍等方式转变为智能手机、个人电脑、智能穿戴设备等各种终端，并且随着知乎、微信、微博、Facebook、Twitter等各种应用程序的驱动，用户生成的社交媒体数据量也在呈现爆炸式的增长，并且在可预见的未来这种指数级的增长会进一步发展下去。针对不同的实体，人们通常会发表他们对商品、服务、酒店、电影、餐馆、政治或者其他感兴趣实体的意见或情感。人们不断的在社交平台或者电商网络与他人分享着自己的意见与偏好，这导致了几乎任何实体都有相关的意见与评论。因此，如何将这些数据中蕴含的高价值信息提取出来成为近年来数据挖掘领域学者研究的一个热门话题。

情感分析(Sentiment Analysis)也被称为意见挖掘(Opinion Mining)，是自然语言处理(Natural Language Processing，简称NLP)领域的一个分支，其被定义为对带有主观性情感色彩的文本数据进行收集、分析、处理、推理的过程\cite{赵妍妍2010文本情感分析}。得益于社交媒体以及电商的飞速发展，21世纪以来，情感分析日益成为自然语言处理领域中研究热点之一。在电商网站中，商家可以根据买家对商品的评论，快速而有效的获得产品的反馈，从而根据买家的情感倾向做出相应的调整以提高经济效益，买家亦可根据商品评论，筛选出自己需要的产品。此外，情感分析已经从计算机领域扩展到社会科学、金融、政治等领域，政府可以根据社交平台上的网民言论获取其对于热点事件的看法，从而分析出民众的情感变化或舆论趋势，避免恶性事件的发生。

情感分析从粒度上可以分为三种：文档级的情感分析、句子级的情感分析、方面级的情感分析。从文档级别到句子级别再到方面级别，粒度上逐渐细化，相应的实现难度上也逐渐提升。目前无论在学术界还是工业界，方面级别的情感分析都是当前的研究热点，而进行方面级别情感分析任务的第一步是完成方面抽取任务。因此如何准确地抽取出实体的方面信息对最终情感分析的性能有着至关重要的影响。

发明内容

发明目的：本发明所要解决的问题是情感分析中的短文本方面提取问题，提出了基于主题模型的短文本方面提取方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于主题模型的短文本方面提取方法，包括以下步骤：

步骤1，伪文档构建阶段：根据短文本数据集构建词汇共现网络，在词汇共现网络基础上生成词汇相应的伪文档；

步骤2，主题嵌入阶段：将伪文档中相应词汇w_n-1,w_n,w_n+1作为输入，训练得出文档下面不同主题所占比重信息，并将其与词嵌入联合训练输出词汇的混合语义向量e_n-1,e_n,e_n+1，其中，主题嵌入总损失项L是SGNS损失项

与狄利克雷似然下的文档权重之和：

其中，L^d表示狄利克雷似然下的文档权重，

表示SGNS损失项

σ表示sigmoid激活函数，n表示词汇数目，

表示文档的上下文向量，

表示为目标词向量，

表示为中心词向量，中心词汇和目标词汇处于同一个滑动窗口之内，中心词汇起到预测目标词汇的作用，

表示为负采样词向量；

步骤3，注意力机制阶段：根据训练出的混合词向量，通过方面嵌入的线性组合重构句子嵌入表示，尽量降低方面嵌入表示中方面词汇的信息损失；最后根据最大边界相关目标函数随机抽样一定比例句子作为负样本，最小化目标函数得到相应权重参数；目标函数为：

其中，J(θ)表示最终目标函数，s表示语料库中的语句，m表示负采样数量大小，r_s表示重构之后的嵌入表示，z_s表示目标语句嵌入表示，D代表语料库，n_i表示为负样本，训练使得r_s尽量相似于z_s，并且与n_i最大限度不同；

步骤4，方面词汇聚类阶段：利用k-means聚类算法将高维空间中相近的方面词汇聚类成簇，得到k个方面词汇聚簇。

优选的：步骤1中伪文档生成步骤为：

S101、短文本数据集进行预处理：过滤停用词、低频词，去除噪声；

S102、用大小为5的滑动窗口扫描短文本数据集；

S103、将同窗口中共现词汇加入到词汇共现网络中；

S104、由词汇共现网络生成词汇列表；

S105、根据词汇列表和词汇共现网络生成相应伪文档。

优选的：步骤2中，基于主题嵌入训练词向量过程如下：

S201、基于Skip-gram得到词汇向量表示；

S202、引入上下文向量，上下文向量表示为：

其中，

表示为中心词汇的向量表示，

表示为对于词而言，上下文的向量表示，计算如下所示：

其中，

是主题对应的向量表示，文档向量

词汇向量

主题向量

具有相同的维度K；p_jk表示对于文档j属于主题k的概率，对于文档j属于主题k的概率p_jk范围在0到1之间；

S203、基于负采样得到目标词汇向量表示，其中词汇是否被采样如下所示：

其中，len(w)表示采样函数，counter(w)表示词汇w计数次数，D表示语料库，

表示语料库中所有词汇计数次数。

S204、最小化包含文档语义的中心词、目标词词对损失函数；

S205、最小化包含文档语义的中心词、随机词词对损失函数，文档中具体的主题分布由p_jk决定，获得

后，通过词向量与主题相似程度得到表示该主题的一系列词汇，S204和S205中损失函数如下所示：

其中，α表示主题稀疏系数，当α＜1时，主题分布会趋向稀疏，当α＞1时，主题分布会由稀疏趋向同质化。λ表示损失函数

的调整系数，p_jk表示文档j中主题k的概率分布。

优选的：步骤3中在注意力机制阶段是通过模型学习得到一系列方面嵌入表示，其中一系列方面嵌入表示用各自嵌入空间中的代表性词汇表明该方面表达的内容；对于语料库中的词汇w，对每个词汇都生成对应的特征向量e_w∈R^d来表示它，通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点，其中词嵌入矩阵E(E∈R^V×d)中相应的行表示语料库中每个词汇的嵌入表示，V代表语料库中词汇总数目。

优选的：步骤3中在注意力机制阶段步骤如下：

S301、计算语料库中句嵌入，计算公式如下所示：

其中，y_s表示句子向量的嵌入，n表示语句s中包含的词汇数量，

表示词汇w_i的嵌入表示。

S302、将句向量与词汇向量进行映射：

其中，

表示词汇w_i的嵌入转置矩阵，M表示过滤矩阵，y_s表示句子向量的嵌入，上式将得到的句子向量与词汇向量做一个映射，过滤噪音信息，获得词汇与方面的相关性信息；

S303、根据词汇与方面相关信息得到权重参数：

其中，d_i表示得到的相关方面信息，n表示语句中词汇数量，a_i表示得到的词汇权重参数；

S304、根据句子嵌入表示重构方面嵌入表示：

p_t＝softmax(W·z_s+b)

其中，T表示方面嵌入矩阵，p_t为K维的方面嵌入权重参数，z_s表示目标语句嵌入表示，b表示偏移量，W表示权重矩阵；

S305、最小化目标函数：

其中，J(θ)表示最终目标函数，s表示语料库中的语句，m表示负采样数量大小，r_s表示重构之后的嵌入表示，z_s表示目标语句嵌入表示，D代表语料库，n_i表示为负样本，训练使得r_s尽量相似于z_s，并且与n_i最大限度不同。

优选的：步骤4中方面词汇聚类阶段包括以下步骤：

S401、随机选取k个聚类质心点为

S402、对于每一个词汇w，计算其应该属于的类：

c⁽ⁱ⁾:＝arg min_j||w⁽ⁱ⁾-μ_j||²

其中，μ_j表示第j个质心，w⁽ⁱ⁾表示第i个词汇。

S403、对于每一个类j，重新计算该类的质心：

其中，m表示第j个聚类中包含的词汇数目，x⁽ⁱ⁾表示距离参数。

S404、重复S402和S403步骤直到收敛；

S405、输出相应的方面词汇聚类。

优选的：取α＝n^-1，λ取200。

本发明相比现有技术，具有以下有益效果：

本发明使用主题嵌入和注意力机制来解决短文本方面提取问题，在短文本语料库上构建词汇共现网络，通过词汇共现网络生成词汇伪文档；然后将主题嵌入与词嵌入进行联合训练，丰富了词汇的潜在语义信息即相同的词汇在不同主题的文档中能表达出不同的语义。随后引入注意力机制，通过注意力机制提高方面词汇的权重降低非方面词汇的权重来对非方面词汇起到过滤作用。本发明通过上述一系列措施解决了社交评论等短文本数据方面提取时面临的稀疏性大、不平衡等问题，极大地提高了方面提取性能。

附图说明

图1是本发明的整体流程图。

图2是基于主题模型短文本方面提取算法的整体架构图。

图3是伪文档构建和主题嵌入模块的整体示例图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示为一种基于主题模型的短文本方面提取方法，如图1-3所示，包括如下步骤：

步骤1，伪文档构建阶段：根据社交评论等短文本数据集构建词汇共现网络(窗口设置为5)，在词汇共现网络基础上生成词汇相应的伪文档；

步骤1中伪文档生成步骤为：

S101、对文档集进行预处理：过滤停用词、低频词，去除噪声；

S102、用大小为5的滑动窗口扫描文档集；

S103、将同窗口中共现词汇加入到词汇共现网络中；

S104、由词汇共现网络生成词汇列表；

S105、根据词汇列表和词汇共现网络生成相应伪文档。

步骤2，主题嵌入阶段：将伪文档中相应词汇w_n-1,w_n,w_n+1作为输入，训练得出文档下面不同主题所占比重等信息，并将其与词嵌入联合训练输出词汇的混合语义向量e_n-1,e_n,e_n+1，其中主题嵌入总损失项L是SGNS(Skip-gram Negaative-Sampling，简称SGNS)损失项

与狄利克雷似然下的文档权重之和：

其中，

表示文档的上下文向量，

表示为目标词向量(Target Word)，

表示为中心词向量(Pivot Word)，中心词汇和目标词汇处于同一个滑动窗口之内，中心词汇起到预测目标词汇的作用，

表示为负采样词向量。

步骤2中，基于主题嵌入训练词向量过程如下：

S200、基于伪文档数据生成主题分布：

S200-1、针对潜在词群z，得到其有关词汇的多项式分布：Φ_z～Dir(β)；

S200-2、针对词汇w_i的邻近词汇表L_i与潜在词群得出相应分布：Θ_i～Dir(α)；

S200-3、对于词汇w_i的邻近词表L_i中的每个词汇w_j：

S200-3-1、选择一个词群z_j～Θ_i；

S200-3-2、选择邻近词汇

其中，Θ表示在每个词汇邻近词表中潜在词群出现的概率分布，Φ表示每个词汇属于潜在词群的概率分布。与LDA相似，Θ与Φ的值由Gibbs采样得到。

S201、基于Skip-gram得到词汇向量表示；

S202、引入上下文向量，上下文向量表示为：

其中，

表示为中心词汇的向量表示，

表示为对于词而言，上下文的向量表示，计算如下所示：

其中，

是主题对应的向量表示，通过主题模型得到主题矩阵之后由矩阵分解得到，文档向量

词汇向量

主题向量

具有相同的维度K。p_jk表示对于文档j属于主题k的概率，范围在0到1之间。

其中，参数选择3/4是为了提高低频次词汇的作用，主题嵌入将词汇以及文档向量映射到同一空间中并同时训练两个维度上的向量表示。采样损失函数如下：

简化如下：

其中，

是逻辑函数，J(θ)中的第一项是与二分类相似的逻辑回归函数，第二项为负样本是对噪声的采样，p_n(w)是噪声词汇的分布。

S204、最小化包含文档语义的中心词、目标词词对损失函数；

后，可通过词向量与主题相似程度得到表示该主题的一系列词汇，S204和S205中损失函数如下所示：

其中，当α＜1时，主题分布会趋向稀疏，当α＞1时，主题分布会由稀疏趋向同质化。本模块中取α＝n^-1，n表示主题的数量。经过实验测试，λ取200时，模型性能效果最优，且随着迭代过程进行，文档主题由同质化趋向于稀疏。

步骤3，注意力机制阶段：根据训练出的混合词向量，通过方面嵌入的线性组合重构句子嵌入表示，尽量降低方面嵌入表示中方面词汇的信息损失。最后根据最大边界相关目标函数随机抽样一定比例句子作为负样本，最小化目标函数可得相应权重参数；目标函数为：

其中D代表语料库，n_i表示为负样本，训练使得r_s尽量相似于z_s，并且与n_i最大限度不同。

在注意力机制模块训练权重参数中：

注意力机制模块是通过模型学习得到一系列方面嵌入表示(Aspect Embedding)，其中这些方面可以用各自嵌入空间中的代表性词汇表明该方面表达的内容。对于语料库中的词汇w，本文对每个词汇都生成对应的特征向量e_w∈R^d来表示它，这样就可以通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点。其中词嵌入矩阵E(E∈R^V×d)中相应的行表示语料库中每个词汇的嵌入表示，V代表语料库中词汇总数目。具体步骤如下所示：

S301、计算语料库中句嵌入，计算公式如下所示：

其中，句子向量的嵌入表示y_s由组成句子词汇的向量和求平均可得。

S302、将句向量与词汇向量进行映射：

其中，矩阵M(M∈R^d×d)由模型训练而得，将得到的句子向量与词汇向量做一个映射，过滤噪音信息，获得词汇与方面的相关性信息。

S303、根据词汇与方面相关信息得到权重参数：

S304、根据句子嵌入表示重构方面嵌入表示：

p_t＝softmax(W·z_s+b)

其中，p_t为K维的方面嵌入权重向量，表示句子属于某个方面的概率，由句嵌入向量z_s从d维降到k维，最后通过softmax函数标准化得到，W和b由模型训练得到。

S305、最小化目标函数：

其中，为了减小训练中的重构误差，目标函数采用最大边界相关目标函数(Contrastive Max-margin Objective Function)即随机抽样一定比例句子作为负样本，然后通过最小化目标函数即可得到。

S306、通过正则化项确保方面多样性：

其中，I是单位矩阵，T_n是T矩阵中每行经过标准化后所得。

S307、得到添加正则项的目标函数：

L(θ)＝J(θ)+λU(θ)

S308、最小化步骤306中的目标函数即可得权重参数。

方面词汇聚类阶段包括以下步骤：

S401、随机选取k个聚类质心点为

S402、对于每一个词汇w，计算其应该属于的类：

c⁽ⁱ⁾：＝arg min_j||w⁽ⁱ⁾-μ_j||²

S403、对于每一个类j，重新计算该类的质心：

S404、重复S402和S403步骤直到收敛；

S405、输出相应的方面词汇聚类，并结束。

终上所述，在主题模型和词嵌入的基础上，语义相似的词汇会在高维空间中相近的位置共现，基于此思想本发明提出了方面提取算法MEA-AE。MEA-AE算法首先基于词汇共现网络在整个语料库上构建伪文档，然后在伪文档的基础上将主题嵌入与词嵌入联合训练来丰富词汇的潜在语义信息，最后在方面词汇聚类时通过注意力机制提高方面词汇的权重降低非方面词汇的权重来提升方面提取的性能。本发明将主题嵌入与词嵌入联合训练，丰富了词汇的潜在语义信息，并通过注意力机制提高方面词汇权重，降低非方面词汇的权重，从而极大的提高了短文本方面提取模型的性能。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于主题模型的短文本方面提取方法，其特征在于，包括以下步骤：

步骤2，主题嵌入阶段：将伪文档中相应词汇w_n-1，w_n，w_n+1作为输入，训练得出文档下面不同主题所占比重信息，并将其与词嵌入联合训练输出词汇的混合语义向量e_n-1，e_n，e_n+1，其中，主题嵌入总损失项L是SGNS损失项

与狄利克雷似然下的文档权重之和：

其中，L^d表示狄利克雷似然下的文档权重，

表示SGNS损失项

σ表示sigmoid激活函数，n表示词汇数目，

表示文档的上下文向量，

表示为目标词向量，

表示为负采样词向量；

2.根据权利要求1所述基于主题模型的短文本方面提取方法，其特征在于：步骤1中伪文档生成步骤为：

S102、用大小为5的滑动窗口扫描短文本数据集；

S103、将同窗口中共现词汇加入到词汇共现网络中；

S104、由词汇共现网络生成词汇列表；

S105、根据词汇列表和词汇共现网络生成相应伪文档。

3.根据权利要求1所述基于主题模型的短文本方面提取方法，其特征在于：步骤2中，基于主题嵌入训练词向量过程如下：

S201、基于Skip-gram得到词汇向量表示；

S202、引入上下文向量，上下文向量表示为：

其中，

表示为中心词汇的向量表示，

表示为对于词而言，上下文的向量表示，计算如下所示：

其中，

是主题对应的向量表示，文档向量

词汇向量

主题向量

表示语料库中所有词汇计数次数，

S204、最小化包含文档语义的中心词、目标词词对损失函数；

其中，α表示主题稀疏系数，当α＜1时，主题分布会趋向稀疏，当α＞1时，主题分布会由稀疏趋向同质化，λ表示损失函数

的调整系数，p_jk表示文档j中主题k的概率分布。

4.根据权利要求3所述基于主题模型的短文本方面提取方法，其特征在于：步骤3中在注意力机制阶段是通过模型学习得到一系列方面嵌入表示，其中一系列方面嵌入表示用各自嵌入空间中的代表性词汇表明该方面表达的内容；对于语料库中的词汇w，对每个词汇都生成对应的特征向量e_w∈R^d来表示它，通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点，其中词嵌入矩阵E中相应的行表示语料库中每个词汇的嵌入表示，E∈R^V×d，V代表语料库中词汇总数目。

5.根据权利要求4所述基于主题模型的短文本方面提取方法，其特征在于：步骤3中在注意力机制阶段步骤如下：

S301、计算语料库中句嵌入，计算公式如下所示：