CN110532378B - 一种基于主题模型的短文本方面提取方法 - Google Patents

一种基于主题模型的短文本方面提取方法 Download PDF

Info

Publication number
CN110532378B
CN110532378B CN201910395663.0A CN201910395663A CN110532378B CN 110532378 B CN110532378 B CN 110532378B CN 201910395663 A CN201910395663 A CN 201910395663A CN 110532378 B CN110532378 B CN 110532378B
Authority
CN
China
Prior art keywords
vocabulary
word
embedding
vector
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910395663.0A
Other languages
English (en)
Other versions
CN110532378A (zh
Inventor
张雷
叶康
罗向阳
谈志文
李宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910395663.0A priority Critical patent/CN110532378B/zh
Publication of CN110532378A publication Critical patent/CN110532378A/zh
Application granted granted Critical
Publication of CN110532378B publication Critical patent/CN110532378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主题模型的短文本方面提取方法,包括如下步骤:1)伪文档构建阶段:根据数据集构建词汇共现网络,生成词汇的伪文档;2)主题嵌入模块设置阶段:基于伪文档将词嵌入与主题嵌入联合训练,丰富词汇的潜在语义信息;3)注意力机制构建阶段:基于词向量信息重构句嵌入,最小化目标函数生成词汇权重参数;4)方面词汇聚类阶段:在词嵌入高维空间应用k‑means聚类算法,输出最终方面词汇簇。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。

Description

一种基于主题模型的短文本方面提取方法
技术领域
本发明涉及方面级情感分析和主题模型,具体涉及注意力机制和基于主题模型方面提取方法。
背景技术
随着互联网技术的飞速发展,21世纪已经进入了全新的数字时代,我们接收信息的方式发生了翻天覆地的变化。从原先单一的报纸、杂志、书籍等方式转变为智能手机、个人电脑、智能穿戴设备等各种终端,并且随着知乎、微信、微博、Facebook、Twitter等各种应用程序的驱动,用户生成的社交媒体数据量也在呈现爆炸式的增长,并且在可预见的未来这种指数级的增长会进一步发展下去。针对不同的实体,人们通常会发表他们对商品、服务、酒店、电影、餐馆、政治或者其他感兴趣实体的意见或情感。人们不断的在社交平台或者电商网络与他人分享着自己的意见与偏好,这导致了几乎任何实体都有相关的意见与评论。因此,如何将这些数据中蕴含的高价值信息提取出来成为近年来数据挖掘领域学者研究的一个热门话题。
情感分析(Sentiment Analysis)也被称为意见挖掘(Opinion Mining),是自然语言处理(Natural Language Processing,简称NLP)领域的一个分支,其被定义为对带有主观性情感色彩的文本数据进行收集、分析、处理、推理的过程\cite{赵妍妍2010文本情感分析}。得益于社交媒体以及电商的飞速发展,21世纪以来,情感分析日益成为自然语言处理领域中研究热点之一。在电商网站中,商家可以根据买家对商品的评论,快速而有效的获得产品的反馈,从而根据买家的情感倾向做出相应的调整以提高经济效益,买家亦可根据商品评论,筛选出自己需要的产品。此外,情感分析已经从计算机领域扩展到社会科学、金融、政治等领域,政府可以根据社交平台上的网民言论获取其对于热点事件的看法,从而分析出民众的情感变化或舆论趋势,避免恶性事件的发生。
情感分析从粒度上可以分为三种:文档级的情感分析、句子级的情感分析、方面级的情感分析。从文档级别到句子级别再到方面级别,粒度上逐渐细化,相应的实现难度上也逐渐提升。目前无论在学术界还是工业界,方面级别的情感分析都是当前的研究热点,而进行方面级别情感分析任务的第一步是完成方面抽取任务。因此如何准确地抽取出实体的方面信息对最终情感分析的性能有着至关重要的影响。
发明内容
发明目的:本发明所要解决的问题是情感分析中的短文本方面提取问题,提出了基于主题模型的短文本方面提取方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于主题模型的短文本方面提取方法,包括以下步骤:
步骤1,伪文档构建阶段:根据短文本数据集构建词汇共现网络,在词汇共现网络基础上生成词汇相应的伪文档;
步骤2,主题嵌入阶段:将伪文档中相应词汇wn-1,wn,wn+1作为输入,训练得出文档下面不同主题所占比重信息,并将其与词嵌入联合训练输出词汇的混合语义向量en-1,en,en+1,其中,主题嵌入总损失项L是SGNS损失项
Figure BDA0002058085950000021
与狄利克雷似然下的文档权重之和:
Figure BDA0002058085950000022
Figure BDA0002058085950000023
其中,Ld表示狄利克雷似然下的文档权重,
Figure BDA0002058085950000024
表示SGNS损失项
Figure BDA0002058085950000025
σ表示sigmoid激活函数,n表示词汇数目,
Figure BDA0002058085950000026
表示文档的上下文向量,
Figure BDA0002058085950000027
表示为目标词向量,
Figure BDA0002058085950000028
表示为中心词向量,中心词汇和目标词汇处于同一个滑动窗口之内,中心词汇起到预测目标词汇的作用,
Figure BDA0002058085950000029
表示为负采样词向量;
步骤3,注意力机制阶段:根据训练出的混合词向量,通过方面嵌入的线性组合重构句子嵌入表示,尽量降低方面嵌入表示中方面词汇的信息损失;最后根据最大边界相关目标函数随机抽样一定比例句子作为负样本,最小化目标函数得到相应权重参数;目标函数为:
Figure BDA00020580859500000210
其中,J(θ)表示最终目标函数,s表示语料库中的语句,m表示负采样数量大小,rs表示重构之后的嵌入表示,zs表示目标语句嵌入表示,D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同;
步骤4,方面词汇聚类阶段:利用k-means聚类算法将高维空间中相近的方面词汇聚类成簇,得到k个方面词汇聚簇。
优选的:步骤1中伪文档生成步骤为:
S101、短文本数据集进行预处理:过滤停用词、低频词,去除噪声;
S102、用大小为5的滑动窗口扫描短文本数据集;
S103、将同窗口中共现词汇加入到词汇共现网络中;
S104、由词汇共现网络生成词汇列表;
S105、根据词汇列表和词汇共现网络生成相应伪文档。
优选的:步骤2中,基于主题嵌入训练词向量过程如下:
S201、基于Skip-gram得到词汇向量表示;
S202、引入上下文向量,上下文向量表示为:
Figure BDA0002058085950000031
其中,
Figure BDA0002058085950000032
表示为中心词汇的向量表示,
Figure BDA0002058085950000033
表示为对于词而言,上下文的向量表示,计算如下所示:
Figure BDA0002058085950000034
其中,
Figure BDA0002058085950000035
是主题对应的向量表示,文档向量
Figure BDA0002058085950000036
词汇向量
Figure BDA0002058085950000037
主题向量
Figure BDA00020580859500000310
具有相同的维度K;pjk表示对于文档j属于主题k的概率,对于文档j属于主题k的概率pjk范围在0到1之间;
S203、基于负采样得到目标词汇向量表示,其中词汇是否被采样如下所示:
Figure BDA0002058085950000038
其中,len(w)表示采样函数,counter(w)表示词汇w计数次数,D表示语料库,
Figure BDA00020580859500000311
表示语料库中所有词汇计数次数。
S204、最小化包含文档语义的中心词、目标词词对损失函数;
S205、最小化包含文档语义的中心词、随机词词对损失函数,文档中具体的主题分布由pjk决定,获得
Figure BDA00020580859500000312
后,通过词向量与主题相似程度得到表示该主题的一系列词汇,S204和S205中损失函数如下所示:
Figure BDA0002058085950000039
其中,α表示主题稀疏系数,当α<1时,主题分布会趋向稀疏,当α>1时,主题分布会由稀疏趋向同质化。λ表示损失函数
Figure BDA00020580859500000313
的调整系数,pjk表示文档j中主题k的概率分布。
优选的:步骤3中在注意力机制阶段是通过模型学习得到一系列方面嵌入表示,其中一系列方面嵌入表示用各自嵌入空间中的代表性词汇表明该方面表达的内容;对于语料库中的词汇w,对每个词汇都生成对应的特征向量ew∈Rd来表示它,通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点,其中词嵌入矩阵E(E∈RV×d)中相应的行表示语料库中每个词汇的嵌入表示,V代表语料库中词汇总数目。
优选的:步骤3中在注意力机制阶段步骤如下:
S301、计算语料库中句嵌入,计算公式如下所示:
Figure BDA0002058085950000041
其中,ys表示句子向量的嵌入,n表示语句s中包含的词汇数量,
Figure BDA0002058085950000045
表示词汇wi的嵌入表示。
S302、将句向量与词汇向量进行映射:
Figure BDA0002058085950000042
其中,
Figure BDA0002058085950000046
表示词汇wi的嵌入转置矩阵,M表示过滤矩阵,ys表示句子向量的嵌入,上式将得到的句子向量与词汇向量做一个映射,过滤噪音信息,获得词汇与方面的相关性信息;
S303、根据词汇与方面相关信息得到权重参数:
Figure BDA0002058085950000043
其中,di表示得到的相关方面信息,n表示语句中词汇数量,ai表示得到的词汇权重参数;
S304、根据句子嵌入表示重构方面嵌入表示:
Figure BDA0002058085950000047
pt=softmax(W·zs+b)
其中,T表示方面嵌入矩阵,pt为K维的方面嵌入权重参数,zs表示目标语句嵌入表示,b表示偏移量,W表示权重矩阵;
S305、最小化目标函数:
Figure BDA0002058085950000044
其中,J(θ)表示最终目标函数,s表示语料库中的语句,m表示负采样数量大小,rs表示重构之后的嵌入表示,zs表示目标语句嵌入表示,D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同。
优选的:步骤4中方面词汇聚类阶段包括以下步骤:
S401、随机选取k个聚类质心点为
Figure BDA0002058085950000052
S402、对于每一个词汇w,计算其应该属于的类:
c(i):=arg minj||w(i)j||2
其中,μj表示第j个质心,w(i)表示第i个词汇。
S403、对于每一个类j,重新计算该类的质心:
Figure BDA0002058085950000051
其中,m表示第j个聚类中包含的词汇数目,x(i)表示距离参数。
S404、重复S402和S403步骤直到收敛;
S405、输出相应的方面词汇聚类。
优选的:取α=n-1,λ取200。
本发明相比现有技术,具有以下有益效果:
本发明使用主题嵌入和注意力机制来解决短文本方面提取问题,在短文本语料库上构建词汇共现网络,通过词汇共现网络生成词汇伪文档;然后将主题嵌入与词嵌入进行联合训练,丰富了词汇的潜在语义信息即相同的词汇在不同主题的文档中能表达出不同的语义。随后引入注意力机制,通过注意力机制提高方面词汇的权重降低非方面词汇的权重来对非方面词汇起到过滤作用。本发明通过上述一系列措施解决了社交评论等短文本数据方面提取时面临的稀疏性大、不平衡等问题,极大地提高了方面提取性能。
附图说明
图1是本发明的整体流程图。
图2是基于主题模型短文本方面提取算法的整体架构图。
图3是伪文档构建和主题嵌入模块的整体示例图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示为一种基于主题模型的短文本方面提取方法,如图1-3所示,包括如下步骤:
步骤1,伪文档构建阶段:根据社交评论等短文本数据集构建词汇共现网络(窗口设置为5),在词汇共现网络基础上生成词汇相应的伪文档;
步骤1中伪文档生成步骤为:
S101、对文档集进行预处理:过滤停用词、低频词,去除噪声;
S102、用大小为5的滑动窗口扫描文档集;
S103、将同窗口中共现词汇加入到词汇共现网络中;
S104、由词汇共现网络生成词汇列表;
S105、根据词汇列表和词汇共现网络生成相应伪文档。
步骤2,主题嵌入阶段:将伪文档中相应词汇wn-1,wn,wn+1作为输入,训练得出文档下面不同主题所占比重等信息,并将其与词嵌入联合训练输出词汇的混合语义向量en-1,en,en+1,其中主题嵌入总损失项L是SGNS(Skip-gram Negaative-Sampling,简称SGNS)损失项
Figure BDA0002058085950000061
与狄利克雷似然下的文档权重之和:
Figure BDA0002058085950000062
Figure BDA0002058085950000063
其中,
Figure BDA0002058085950000064
表示文档的上下文向量,
Figure BDA0002058085950000065
表示为目标词向量(Target Word),
Figure BDA0002058085950000066
表示为中心词向量(Pivot Word),中心词汇和目标词汇处于同一个滑动窗口之内,中心词汇起到预测目标词汇的作用,
Figure BDA0002058085950000067
表示为负采样词向量。
步骤2中,基于主题嵌入训练词向量过程如下:
S200、基于伪文档数据生成主题分布:
S200-1、针对潜在词群z,得到其有关词汇的多项式分布:Φz~Dir(β);
S200-2、针对词汇wi的邻近词汇表Li与潜在词群得出相应分布:Θi~Dir(α);
S200-3、对于词汇wi的邻近词表Li中的每个词汇wj
S200-3-1、选择一个词群zj~Θi
S200-3-2、选择邻近词汇
Figure BDA0002058085950000068
其中,Θ表示在每个词汇邻近词表中潜在词群出现的概率分布,Φ表示每个词汇属于潜在词群的概率分布。与LDA相似,Θ与Φ的值由Gibbs采样得到。
S201、基于Skip-gram得到词汇向量表示;
S202、引入上下文向量,上下文向量表示为:
Figure BDA0002058085950000071
其中,
Figure BDA0002058085950000077
表示为中心词汇的向量表示,
Figure BDA0002058085950000078
表示为对于词而言,上下文的向量表示,计算如下所示:
Figure BDA0002058085950000072
其中,
Figure BDA0002058085950000079
是主题对应的向量表示,通过主题模型得到主题矩阵之后由矩阵分解得到,文档向量
Figure BDA00020580859500000715
词汇向量
Figure BDA00020580859500000716
主题向量
Figure BDA00020580859500000712
具有相同的维度K。pjk表示对于文档j属于主题k的概率,范围在0到1之间。
S203、基于负采样得到目标词汇向量表示,其中词汇是否被采样如下所示:
Figure BDA0002058085950000073
其中,参数选择3/4是为了提高低频次词汇的作用,主题嵌入将词汇以及文档向量映射到同一空间中并同时训练两个维度上的向量表示。采样损失函数如下:
Figure BDA0002058085950000074
简化如下:
Figure BDA0002058085950000075
其中,
Figure BDA00020580859500000713
是逻辑函数,J(θ)中的第一项是与二分类相似的逻辑回归函数,第二项为负样本是对噪声的采样,pn(w)是噪声词汇的分布。
S204、最小化包含文档语义的中心词、目标词词对损失函数;
S205、最小化包含文档语义的中心词、随机词词对损失函数,文档中具体的主题分布由pjk决定,获得
Figure BDA00020580859500000714
后,可通过词向量与主题相似程度得到表示该主题的一系列词汇,S204和S205中损失函数如下所示:
Figure BDA0002058085950000076
其中,当α<1时,主题分布会趋向稀疏,当α>1时,主题分布会由稀疏趋向同质化。本模块中取α=n-1,n表示主题的数量。经过实验测试,λ取200时,模型性能效果最优,且随着迭代过程进行,文档主题由同质化趋向于稀疏。
步骤3,注意力机制阶段:根据训练出的混合词向量,通过方面嵌入的线性组合重构句子嵌入表示,尽量降低方面嵌入表示中方面词汇的信息损失。最后根据最大边界相关目标函数随机抽样一定比例句子作为负样本,最小化目标函数可得相应权重参数;目标函数为:
Figure BDA0002058085950000081
其中D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同。
在注意力机制模块训练权重参数中:
注意力机制模块是通过模型学习得到一系列方面嵌入表示(Aspect Embedding),其中这些方面可以用各自嵌入空间中的代表性词汇表明该方面表达的内容。对于语料库中的词汇w,本文对每个词汇都生成对应的特征向量ew∈Rd来表示它,这样就可以通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点。其中词嵌入矩阵E(E∈RV×d)中相应的行表示语料库中每个词汇的嵌入表示,V代表语料库中词汇总数目。具体步骤如下所示:
S301、计算语料库中句嵌入,计算公式如下所示:
Figure BDA0002058085950000082
其中,句子向量的嵌入表示ys由组成句子词汇的向量和求平均可得。
S302、将句向量与词汇向量进行映射:
Figure BDA0002058085950000083
其中,矩阵M(M∈Rd×d)由模型训练而得,将得到的句子向量与词汇向量做一个映射,过滤噪音信息,获得词汇与方面的相关性信息。
S303、根据词汇与方面相关信息得到权重参数:
Figure BDA0002058085950000084
S304、根据句子嵌入表示重构方面嵌入表示:
Figure BDA0002058085950000085
pt=softmax(W·zs+b)
其中,pt为K维的方面嵌入权重向量,表示句子属于某个方面的概率,由句嵌入向量zs从d维降到k维,最后通过softmax函数标准化得到,W和b由模型训练得到。
S305、最小化目标函数:
Figure BDA0002058085950000091
其中,为了减小训练中的重构误差,目标函数采用最大边界相关目标函数(Contrastive Max-margin Objective Function)即随机抽样一定比例句子作为负样本,然后通过最小化目标函数即可得到。
S306、通过正则化项确保方面多样性:
Figure BDA0002058085950000092
其中,I是单位矩阵,Tn是T矩阵中每行经过标准化后所得。
S307、得到添加正则项的目标函数:
L(θ)=J(θ)+λU(θ)
S308、最小化步骤306中的目标函数即可得权重参数。
步骤4,方面词汇聚类阶段:利用k-means聚类算法将高维空间中相近的方面词汇聚类成簇,得到k个方面词汇聚簇。
方面词汇聚类阶段包括以下步骤:
S401、随机选取k个聚类质心点为
Figure BDA0002058085950000094
S402、对于每一个词汇w,计算其应该属于的类:
c(i):=arg minj||w(i)j||2
S403、对于每一个类j,重新计算该类的质心:
Figure BDA0002058085950000093
S404、重复S402和S403步骤直到收敛;
S405、输出相应的方面词汇聚类,并结束。
终上所述,在主题模型和词嵌入的基础上,语义相似的词汇会在高维空间中相近的位置共现,基于此思想本发明提出了方面提取算法MEA-AE。MEA-AE算法首先基于词汇共现网络在整个语料库上构建伪文档,然后在伪文档的基础上将主题嵌入与词嵌入联合训练来丰富词汇的潜在语义信息,最后在方面词汇聚类时通过注意力机制提高方面词汇的权重降低非方面词汇的权重来提升方面提取的性能。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于主题模型的短文本方面提取方法,其特征在于,包括以下步骤:
步骤1,伪文档构建阶段:根据短文本数据集构建词汇共现网络,在词汇共现网络基础上生成词汇相应的伪文档;
步骤2,主题嵌入阶段:将伪文档中相应词汇wn-1,wn,wn+1作为输入,训练得出文档下面不同主题所占比重信息,并将其与词嵌入联合训练输出词汇的混合语义向量en-1,en,en+1,其中,主题嵌入总损失项L是SGNS损失项
Figure FDA0003247886620000011
与狄利克雷似然下的文档权重之和:
Figure FDA0003247886620000012
Figure FDA0003247886620000013
其中,Ld表示狄利克雷似然下的文档权重,
Figure FDA0003247886620000014
表示SGNS损失项
Figure FDA0003247886620000015
σ表示sigmoid激活函数,n表示词汇数目,
Figure FDA0003247886620000016
表示文档的上下文向量,
Figure FDA0003247886620000017
表示为目标词向量,
Figure FDA0003247886620000018
表示为中心词向量,中心词汇和目标词汇处于同一个滑动窗口之内,中心词汇起到预测目标词汇的作用,
Figure FDA00032478866200000110
表示为负采样词向量;
步骤3,注意力机制阶段:根据训练出的混合词向量,通过方面嵌入的线性组合重构句子嵌入表示,尽量降低方面嵌入表示中方面词汇的信息损失;最后根据最大边界相关目标函数随机抽样一定比例句子作为负样本,最小化目标函数得到相应权重参数;目标函数为:
Figure FDA0003247886620000019
其中,J(θ)表示最终目标函数,s表示语料库中的语句,m表示负采样数量大小,rs表示重构之后的嵌入表示,zs表示目标语句嵌入表示,D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同;
步骤4,方面词汇聚类阶段:利用k-means聚类算法将高维空间中相近的方面词汇聚类成簇,得到k个方面词汇聚簇。
2.根据权利要求1所述基于主题模型的短文本方面提取方法,其特征在于:步骤1中伪文档生成步骤为:
S101、短文本数据集进行预处理:过滤停用词、低频词,去除噪声;
S102、用大小为5的滑动窗口扫描短文本数据集;
S103、将同窗口中共现词汇加入到词汇共现网络中;
S104、由词汇共现网络生成词汇列表;
S105、根据词汇列表和词汇共现网络生成相应伪文档。
3.根据权利要求1所述基于主题模型的短文本方面提取方法,其特征在于:步骤2中,基于主题嵌入训练词向量过程如下:
S201、基于Skip-gram得到词汇向量表示;
S202、引入上下文向量,上下文向量表示为:
Figure FDA0003247886620000021
其中,
Figure FDA0003247886620000022
表示为中心词汇的向量表示,
Figure FDA0003247886620000023
表示为对于词而言,上下文的向量表示,计算如下所示:
Figure FDA0003247886620000024
其中,
Figure FDA0003247886620000025
是主题对应的向量表示,文档向量
Figure FDA0003247886620000026
词汇向量
Figure FDA0003247886620000027
主题向量
Figure FDA0003247886620000028
具有相同的维度K;pjk表示对于文档j属于主题k的概率,对于文档j属于主题k的概率pjk范围在0到1之间;
S203、基于负采样得到目标词汇向量表示,其中词汇是否被采样如下所示:
Figure FDA0003247886620000029
其中,len(w)表示采样函数,counter(w)表示词汇w计数次数,D表示语料库,
Figure FDA00032478866200000210
表示语料库中所有词汇计数次数,
S204、最小化包含文档语义的中心词、目标词词对损失函数;
S205、最小化包含文档语义的中心词、随机词词对损失函数,文档中具体的主题分布由pjk决定,获得
Figure FDA00032478866200000211
后,通过词向量与主题相似程度得到表示该主题的一系列词汇,S204和S205中损失函数如下所示:
Figure FDA00032478866200000212
其中,α表示主题稀疏系数,当α<1时,主题分布会趋向稀疏,当α>1时,主题分布会由稀疏趋向同质化,λ表示损失函数
Figure FDA00032478866200000213
的调整系数,pjk表示文档j中主题k的概率分布。
4.根据权利要求3所述基于主题模型的短文本方面提取方法,其特征在于:步骤3中在注意力机制阶段是通过模型学习得到一系列方面嵌入表示,其中一系列方面嵌入表示用各自嵌入空间中的代表性词汇表明该方面表达的内容;对于语料库中的词汇w,对每个词汇都生成对应的特征向量ew∈Rd来表示它,通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点,其中词嵌入矩阵E中相应的行表示语料库中每个词汇的嵌入表示,E∈RV×d,V代表语料库中词汇总数目。
5.根据权利要求4所述基于主题模型的短文本方面提取方法,其特征在于:步骤3中在注意力机制阶段步骤如下:
S301、计算语料库中句嵌入,计算公式如下所示:
Figure FDA0003247886620000031
其中,ys表示句子向量的嵌入,n表示语句s中包含的词汇数量,
Figure FDA0003247886620000032
表示词汇wi的嵌入表示,
S302、将句向量与词汇向量进行映射:
Figure FDA0003247886620000033
其中,
Figure FDA0003247886620000034
表示词汇wi的嵌入转置矩阵,M表示过滤矩阵,ys表示句子向量的嵌入,上式将得到的句子向量与词汇向量做一个映射,过滤噪音信息,获得词汇与方面的相关性信息;
S303、根据词汇与方面相关信息得到权重参数:
Figure FDA0003247886620000035
其中,di表示得到的相关方面信息,n表示语句中词汇数量,ai表示得到的词汇权重参数,
S304、根据句子嵌入表示重构方面嵌入表示:
rs=TT·pt
pt=softmax(W·zs+b)
其中,T表示方面嵌入矩阵,pt为K维的方面嵌入权重参数,zs表示目标语句嵌入表示,b表示偏移量,W表示权重矩阵,
S305、最小化目标函数:
Figure FDA0003247886620000036
其中,J(θ)表示最终目标函数,s表示语料库中的语句,m表示负采样数量大小,rs表示重构之后的嵌入表示,zs表示目标语句嵌入表示,D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同。
6.根据权利要求5所述基于主题模型的短文本方面提取方法,其特征在于:步骤4中方面词汇聚类阶段包括以下步骤:
S401、随机选取k个聚类质心点为
Figure FDA0003247886620000041
S402、对于每一个词汇w,计算其应该属于的类:
c(i):=arg minj||w(i)j||2
其中,μj表示第j个质心,w(i)表示第i个词汇,
S403、对于每一个类j,重新计算该类的质心:
Figure FDA0003247886620000042
其中,m表示第j个聚类中包含的词汇数目,x(i)表示距离参数,
S404、重复S402和S403步骤直到收敛;
S405、输出相应的方面词汇聚类。
7.根据权利要求6所述基于主题模型的短文本方面提取方法,其特征在于:取α=n-1,λ取200。
CN201910395663.0A 2019-05-13 2019-05-13 一种基于主题模型的短文本方面提取方法 Active CN110532378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910395663.0A CN110532378B (zh) 2019-05-13 2019-05-13 一种基于主题模型的短文本方面提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910395663.0A CN110532378B (zh) 2019-05-13 2019-05-13 一种基于主题模型的短文本方面提取方法

Publications (2)

Publication Number Publication Date
CN110532378A CN110532378A (zh) 2019-12-03
CN110532378B true CN110532378B (zh) 2021-10-26

Family

ID=68659818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910395663.0A Active CN110532378B (zh) 2019-05-13 2019-05-13 一种基于主题模型的短文本方面提取方法

Country Status (1)

Country Link
CN (1) CN110532378B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613032B (zh) * 2020-12-15 2024-03-26 中国科学院信息工程研究所 基于系统调用序列的主机入侵检测方法及装置
CN112926311B (zh) * 2021-02-03 2022-08-02 昆明理工大学 一种结合序列和主题信息的无监督方面词提取方法
CN114298011B (zh) * 2021-12-30 2024-06-25 重庆大学 神经网络、训练方法、方面级情感分析方法、装置及存储介质
CN117236330B (zh) * 2023-11-16 2024-01-26 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN108415901A (zh) * 2018-02-07 2018-08-17 大连理工大学 一种基于词向量和上下文信息的短文本主题模型
CN108710611A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于词网络和词向量的短文本主题模型生成方法
US10241995B2 (en) * 2014-10-21 2019-03-26 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10241995B2 (en) * 2014-10-21 2019-03-26 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
CN106055604A (zh) * 2016-05-25 2016-10-26 南京大学 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN108415901A (zh) * 2018-02-07 2018-08-17 大连理工大学 一种基于词向量和上下文信息的短文本主题模型
CN108710611A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于词网络和词向量的短文本主题模型生成方法
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mixing Dirichlet Topic Models and Word Embeddings to Make lda2vec;Christopher Moody;《Conference on Computational Natural Language Learning》;20160506;全文 *

Also Published As

Publication number Publication date
CN110532378A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
Tripto et al. Detecting multilabel sentiment and emotions from bangla youtube comments
Cyril et al. An automated learning model for sentiment analysis and data classification of Twitter data using balanced CA-SVM
Arulmurugan et al. RETRACTED ARTICLE: Classification of sentence level sentiment analysis using cloud machine learning techniques
CN110532378B (zh) 一种基于主题模型的短文本方面提取方法
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN109214454B (zh) 一种面向微博的情感社区分类方法
Dahllöf Automatic prediction of gender, political affiliation, and age in Swedish politicians from the wording of their speeches—A comparative study of classifiability
Rokade et al. Business intelligence analytics using sentiment analysis-a survey
Salem et al. Personality traits for egyptian twitter users dataset
Abd et al. Analyzing sentiment system to specify polarity by lexicon-based
Biradar et al. Machine learning tool for exploring sentiment analysis on twitter data
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
ElSayed et al. Gender identification for Egyptian Arabic dialect in twitter using deep learning models
CN112115712A (zh) 基于话题的群体情感分析方法
Idrees et al. A proposed model for detecting facebook news’ credibility
Yang et al. News text mining-based business sentiment analysis and its significance in economy
Gan et al. Microblog sentiment analysis via user representative relationship under multi-interaction hybrid neural networks
Baboo et al. Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers
Abdi et al. Using an auxiliary dataset to improve emotion estimation in users’ opinions
Biswas et al. A new ontology-based multimodal classification system for social media images of personality traits
Mishra et al. Evaluating Performance of Machine Leaming Techniques used in Opinion Mining
Mahalakshmi et al. Twitter sentiment analysis using conditional generative adversarial network
Gudakahriz et al. An experimental study on performance of text representation models for sentiment analysis
Vonitsanos et al. Decoding Gender on Social Networks: An In-depth Analysis of Language in Online Discussions Using Natural Language Processing and Machine Learning
Maurya et al. A use of social media for opinion mining: An overview (with the use of hybrid textual and visual sentiment ontology)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant