CN110532378B - 一种基于主题模型的短文本方面提取方法 - Google Patents
一种基于主题模型的短文本方面提取方法 Download PDFInfo
- Publication number
- CN110532378B CN110532378B CN201910395663.0A CN201910395663A CN110532378B CN 110532378 B CN110532378 B CN 110532378B CN 201910395663 A CN201910395663 A CN 201910395663A CN 110532378 B CN110532378 B CN 110532378B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- word
- embedding
- vector
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于主题模型的短文本方面提取方法,包括如下步骤:1)伪文档构建阶段:根据数据集构建词汇共现网络,生成词汇的伪文档;2)主题嵌入模块设置阶段:基于伪文档将词嵌入与主题嵌入联合训练,丰富词汇的潜在语义信息;3)注意力机制构建阶段:基于词向量信息重构句嵌入,最小化目标函数生成词汇权重参数;4)方面词汇聚类阶段:在词嵌入高维空间应用k‑means聚类算法,输出最终方面词汇簇。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。
Description
技术领域
本发明涉及方面级情感分析和主题模型,具体涉及注意力机制和基于主题模型方面提取方法。
背景技术
随着互联网技术的飞速发展,21世纪已经进入了全新的数字时代,我们接收信息的方式发生了翻天覆地的变化。从原先单一的报纸、杂志、书籍等方式转变为智能手机、个人电脑、智能穿戴设备等各种终端,并且随着知乎、微信、微博、Facebook、Twitter等各种应用程序的驱动,用户生成的社交媒体数据量也在呈现爆炸式的增长,并且在可预见的未来这种指数级的增长会进一步发展下去。针对不同的实体,人们通常会发表他们对商品、服务、酒店、电影、餐馆、政治或者其他感兴趣实体的意见或情感。人们不断的在社交平台或者电商网络与他人分享着自己的意见与偏好,这导致了几乎任何实体都有相关的意见与评论。因此,如何将这些数据中蕴含的高价值信息提取出来成为近年来数据挖掘领域学者研究的一个热门话题。
情感分析(Sentiment Analysis)也被称为意见挖掘(Opinion Mining),是自然语言处理(Natural Language Processing,简称NLP)领域的一个分支,其被定义为对带有主观性情感色彩的文本数据进行收集、分析、处理、推理的过程\cite{赵妍妍2010文本情感分析}。得益于社交媒体以及电商的飞速发展,21世纪以来,情感分析日益成为自然语言处理领域中研究热点之一。在电商网站中,商家可以根据买家对商品的评论,快速而有效的获得产品的反馈,从而根据买家的情感倾向做出相应的调整以提高经济效益,买家亦可根据商品评论,筛选出自己需要的产品。此外,情感分析已经从计算机领域扩展到社会科学、金融、政治等领域,政府可以根据社交平台上的网民言论获取其对于热点事件的看法,从而分析出民众的情感变化或舆论趋势,避免恶性事件的发生。
情感分析从粒度上可以分为三种:文档级的情感分析、句子级的情感分析、方面级的情感分析。从文档级别到句子级别再到方面级别,粒度上逐渐细化,相应的实现难度上也逐渐提升。目前无论在学术界还是工业界,方面级别的情感分析都是当前的研究热点,而进行方面级别情感分析任务的第一步是完成方面抽取任务。因此如何准确地抽取出实体的方面信息对最终情感分析的性能有着至关重要的影响。
发明内容
发明目的:本发明所要解决的问题是情感分析中的短文本方面提取问题,提出了基于主题模型的短文本方面提取方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于主题模型的短文本方面提取方法,包括以下步骤:
步骤1,伪文档构建阶段:根据短文本数据集构建词汇共现网络,在词汇共现网络基础上生成词汇相应的伪文档;
步骤2,主题嵌入阶段:将伪文档中相应词汇wn-1,wn,wn+1作为输入,训练得出文档下面不同主题所占比重信息,并将其与词嵌入联合训练输出词汇的混合语义向量en-1,en,en+1,其中,主题嵌入总损失项L是SGNS损失项与狄利克雷似然下的文档权重之和:
其中,Ld表示狄利克雷似然下的文档权重,表示SGNS损失项σ表示sigmoid激活函数,n表示词汇数目,表示文档的上下文向量,表示为目标词向量,表示为中心词向量,中心词汇和目标词汇处于同一个滑动窗口之内,中心词汇起到预测目标词汇的作用,表示为负采样词向量;
步骤3,注意力机制阶段:根据训练出的混合词向量,通过方面嵌入的线性组合重构句子嵌入表示,尽量降低方面嵌入表示中方面词汇的信息损失;最后根据最大边界相关目标函数随机抽样一定比例句子作为负样本,最小化目标函数得到相应权重参数;目标函数为:
其中,J(θ)表示最终目标函数,s表示语料库中的语句,m表示负采样数量大小,rs表示重构之后的嵌入表示,zs表示目标语句嵌入表示,D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同;
步骤4,方面词汇聚类阶段:利用k-means聚类算法将高维空间中相近的方面词汇聚类成簇,得到k个方面词汇聚簇。
优选的:步骤1中伪文档生成步骤为:
S101、短文本数据集进行预处理:过滤停用词、低频词,去除噪声;
S102、用大小为5的滑动窗口扫描短文本数据集;
S103、将同窗口中共现词汇加入到词汇共现网络中;
S104、由词汇共现网络生成词汇列表;
S105、根据词汇列表和词汇共现网络生成相应伪文档。
优选的:步骤2中,基于主题嵌入训练词向量过程如下:
S201、基于Skip-gram得到词汇向量表示;
S202、引入上下文向量,上下文向量表示为:
S203、基于负采样得到目标词汇向量表示,其中词汇是否被采样如下所示:
S204、最小化包含文档语义的中心词、目标词词对损失函数;
优选的:步骤3中在注意力机制阶段是通过模型学习得到一系列方面嵌入表示,其中一系列方面嵌入表示用各自嵌入空间中的代表性词汇表明该方面表达的内容;对于语料库中的词汇w,对每个词汇都生成对应的特征向量ew∈Rd来表示它,通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点,其中词嵌入矩阵E(E∈RV×d)中相应的行表示语料库中每个词汇的嵌入表示,V代表语料库中词汇总数目。
优选的:步骤3中在注意力机制阶段步骤如下:
S301、计算语料库中句嵌入,计算公式如下所示:
S302、将句向量与词汇向量进行映射:
S303、根据词汇与方面相关信息得到权重参数:
其中,di表示得到的相关方面信息,n表示语句中词汇数量,ai表示得到的词汇权重参数;
S304、根据句子嵌入表示重构方面嵌入表示:
pt=softmax(W·zs+b)
其中,T表示方面嵌入矩阵,pt为K维的方面嵌入权重参数,zs表示目标语句嵌入表示,b表示偏移量,W表示权重矩阵;
S305、最小化目标函数:
其中,J(θ)表示最终目标函数,s表示语料库中的语句,m表示负采样数量大小,rs表示重构之后的嵌入表示,zs表示目标语句嵌入表示,D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同。
优选的:步骤4中方面词汇聚类阶段包括以下步骤:
S402、对于每一个词汇w,计算其应该属于的类:
c(i):=arg minj||w(i)-μj||2
其中,μj表示第j个质心,w(i)表示第i个词汇。
S403、对于每一个类j,重新计算该类的质心:
其中,m表示第j个聚类中包含的词汇数目,x(i)表示距离参数。
S404、重复S402和S403步骤直到收敛;
S405、输出相应的方面词汇聚类。
优选的:取α=n-1,λ取200。
本发明相比现有技术,具有以下有益效果:
本发明使用主题嵌入和注意力机制来解决短文本方面提取问题,在短文本语料库上构建词汇共现网络,通过词汇共现网络生成词汇伪文档;然后将主题嵌入与词嵌入进行联合训练,丰富了词汇的潜在语义信息即相同的词汇在不同主题的文档中能表达出不同的语义。随后引入注意力机制,通过注意力机制提高方面词汇的权重降低非方面词汇的权重来对非方面词汇起到过滤作用。本发明通过上述一系列措施解决了社交评论等短文本数据方面提取时面临的稀疏性大、不平衡等问题,极大地提高了方面提取性能。
附图说明
图1是本发明的整体流程图。
图2是基于主题模型短文本方面提取算法的整体架构图。
图3是伪文档构建和主题嵌入模块的整体示例图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示为一种基于主题模型的短文本方面提取方法,如图1-3所示,包括如下步骤:
步骤1,伪文档构建阶段:根据社交评论等短文本数据集构建词汇共现网络(窗口设置为5),在词汇共现网络基础上生成词汇相应的伪文档;
步骤1中伪文档生成步骤为:
S101、对文档集进行预处理:过滤停用词、低频词,去除噪声;
S102、用大小为5的滑动窗口扫描文档集;
S103、将同窗口中共现词汇加入到词汇共现网络中;
S104、由词汇共现网络生成词汇列表;
S105、根据词汇列表和词汇共现网络生成相应伪文档。
步骤2,主题嵌入阶段:将伪文档中相应词汇wn-1,wn,wn+1作为输入,训练得出文档下面不同主题所占比重等信息,并将其与词嵌入联合训练输出词汇的混合语义向量en-1,en,en+1,其中主题嵌入总损失项L是SGNS(Skip-gram Negaative-Sampling,简称SGNS)损失项与狄利克雷似然下的文档权重之和:
其中,表示文档的上下文向量,表示为目标词向量(Target Word),表示为中心词向量(Pivot Word),中心词汇和目标词汇处于同一个滑动窗口之内,中心词汇起到预测目标词汇的作用,表示为负采样词向量。
步骤2中,基于主题嵌入训练词向量过程如下:
S200、基于伪文档数据生成主题分布:
S200-1、针对潜在词群z,得到其有关词汇的多项式分布:Φz~Dir(β);
S200-2、针对词汇wi的邻近词汇表Li与潜在词群得出相应分布:Θi~Dir(α);
S200-3、对于词汇wi的邻近词表Li中的每个词汇wj:
S200-3-1、选择一个词群zj~Θi;
其中,Θ表示在每个词汇邻近词表中潜在词群出现的概率分布,Φ表示每个词汇属于潜在词群的概率分布。与LDA相似,Θ与Φ的值由Gibbs采样得到。
S201、基于Skip-gram得到词汇向量表示;
S202、引入上下文向量,上下文向量表示为:
S203、基于负采样得到目标词汇向量表示,其中词汇是否被采样如下所示:
其中,参数选择3/4是为了提高低频次词汇的作用,主题嵌入将词汇以及文档向量映射到同一空间中并同时训练两个维度上的向量表示。采样损失函数如下:
简化如下:
S204、最小化包含文档语义的中心词、目标词词对损失函数;
其中,当α<1时,主题分布会趋向稀疏,当α>1时,主题分布会由稀疏趋向同质化。本模块中取α=n-1,n表示主题的数量。经过实验测试,λ取200时,模型性能效果最优,且随着迭代过程进行,文档主题由同质化趋向于稀疏。
步骤3,注意力机制阶段:根据训练出的混合词向量,通过方面嵌入的线性组合重构句子嵌入表示,尽量降低方面嵌入表示中方面词汇的信息损失。最后根据最大边界相关目标函数随机抽样一定比例句子作为负样本,最小化目标函数可得相应权重参数;目标函数为:
其中D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同。
在注意力机制模块训练权重参数中:
注意力机制模块是通过模型学习得到一系列方面嵌入表示(Aspect Embedding),其中这些方面可以用各自嵌入空间中的代表性词汇表明该方面表达的内容。对于语料库中的词汇w,本文对每个词汇都生成对应的特征向量ew∈Rd来表示它,这样就可以通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点。其中词嵌入矩阵E(E∈RV×d)中相应的行表示语料库中每个词汇的嵌入表示,V代表语料库中词汇总数目。具体步骤如下所示:
S301、计算语料库中句嵌入,计算公式如下所示:
其中,句子向量的嵌入表示ys由组成句子词汇的向量和求平均可得。
S302、将句向量与词汇向量进行映射:
其中,矩阵M(M∈Rd×d)由模型训练而得,将得到的句子向量与词汇向量做一个映射,过滤噪音信息,获得词汇与方面的相关性信息。
S303、根据词汇与方面相关信息得到权重参数:
S304、根据句子嵌入表示重构方面嵌入表示:
pt=softmax(W·zs+b)
其中,pt为K维的方面嵌入权重向量,表示句子属于某个方面的概率,由句嵌入向量zs从d维降到k维,最后通过softmax函数标准化得到,W和b由模型训练得到。
S305、最小化目标函数:
其中,为了减小训练中的重构误差,目标函数采用最大边界相关目标函数(Contrastive Max-margin Objective Function)即随机抽样一定比例句子作为负样本,然后通过最小化目标函数即可得到。
S306、通过正则化项确保方面多样性:
其中,I是单位矩阵,Tn是T矩阵中每行经过标准化后所得。
S307、得到添加正则项的目标函数:
L(θ)=J(θ)+λU(θ)
S308、最小化步骤306中的目标函数即可得权重参数。
步骤4,方面词汇聚类阶段:利用k-means聚类算法将高维空间中相近的方面词汇聚类成簇,得到k个方面词汇聚簇。
方面词汇聚类阶段包括以下步骤:
S402、对于每一个词汇w,计算其应该属于的类:
c(i):=arg minj||w(i)-μj||2
S403、对于每一个类j,重新计算该类的质心:
S404、重复S402和S403步骤直到收敛;
S405、输出相应的方面词汇聚类,并结束。
终上所述,在主题模型和词嵌入的基础上,语义相似的词汇会在高维空间中相近的位置共现,基于此思想本发明提出了方面提取算法MEA-AE。MEA-AE算法首先基于词汇共现网络在整个语料库上构建伪文档,然后在伪文档的基础上将主题嵌入与词嵌入联合训练来丰富词汇的潜在语义信息,最后在方面词汇聚类时通过注意力机制提高方面词汇的权重降低非方面词汇的权重来提升方面提取的性能。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于主题模型的短文本方面提取方法,其特征在于,包括以下步骤:
步骤1,伪文档构建阶段:根据短文本数据集构建词汇共现网络,在词汇共现网络基础上生成词汇相应的伪文档;
步骤2,主题嵌入阶段:将伪文档中相应词汇wn-1,wn,wn+1作为输入,训练得出文档下面不同主题所占比重信息,并将其与词嵌入联合训练输出词汇的混合语义向量en-1,en,en+1,其中,主题嵌入总损失项L是SGNS损失项与狄利克雷似然下的文档权重之和:
其中,Ld表示狄利克雷似然下的文档权重,表示SGNS损失项σ表示sigmoid激活函数,n表示词汇数目,表示文档的上下文向量,表示为目标词向量,表示为中心词向量,中心词汇和目标词汇处于同一个滑动窗口之内,中心词汇起到预测目标词汇的作用,表示为负采样词向量;
步骤3,注意力机制阶段:根据训练出的混合词向量,通过方面嵌入的线性组合重构句子嵌入表示,尽量降低方面嵌入表示中方面词汇的信息损失;最后根据最大边界相关目标函数随机抽样一定比例句子作为负样本,最小化目标函数得到相应权重参数;目标函数为:
其中,J(θ)表示最终目标函数,s表示语料库中的语句,m表示负采样数量大小,rs表示重构之后的嵌入表示,zs表示目标语句嵌入表示,D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同;
步骤4,方面词汇聚类阶段:利用k-means聚类算法将高维空间中相近的方面词汇聚类成簇,得到k个方面词汇聚簇。
2.根据权利要求1所述基于主题模型的短文本方面提取方法,其特征在于:步骤1中伪文档生成步骤为:
S101、短文本数据集进行预处理:过滤停用词、低频词,去除噪声;
S102、用大小为5的滑动窗口扫描短文本数据集;
S103、将同窗口中共现词汇加入到词汇共现网络中;
S104、由词汇共现网络生成词汇列表;
S105、根据词汇列表和词汇共现网络生成相应伪文档。
3.根据权利要求1所述基于主题模型的短文本方面提取方法,其特征在于:步骤2中,基于主题嵌入训练词向量过程如下:
S201、基于Skip-gram得到词汇向量表示;
S202、引入上下文向量,上下文向量表示为:
S203、基于负采样得到目标词汇向量表示,其中词汇是否被采样如下所示:
S204、最小化包含文档语义的中心词、目标词词对损失函数;
4.根据权利要求3所述基于主题模型的短文本方面提取方法,其特征在于:步骤3中在注意力机制阶段是通过模型学习得到一系列方面嵌入表示,其中一系列方面嵌入表示用各自嵌入空间中的代表性词汇表明该方面表达的内容;对于语料库中的词汇w,对每个词汇都生成对应的特征向量ew∈Rd来表示它,通过将文档中共现频率较高的词汇映射到嵌入空间中相近的点,其中词嵌入矩阵E中相应的行表示语料库中每个词汇的嵌入表示,E∈RV×d,V代表语料库中词汇总数目。
5.根据权利要求4所述基于主题模型的短文本方面提取方法,其特征在于:步骤3中在注意力机制阶段步骤如下:
S301、计算语料库中句嵌入,计算公式如下所示:
S302、将句向量与词汇向量进行映射:
S303、根据词汇与方面相关信息得到权重参数:
其中,di表示得到的相关方面信息,n表示语句中词汇数量,ai表示得到的词汇权重参数,
S304、根据句子嵌入表示重构方面嵌入表示:
rs=TT·pt
pt=softmax(W·zs+b)
其中,T表示方面嵌入矩阵,pt为K维的方面嵌入权重参数,zs表示目标语句嵌入表示,b表示偏移量,W表示权重矩阵,
S305、最小化目标函数:
其中,J(θ)表示最终目标函数,s表示语料库中的语句,m表示负采样数量大小,rs表示重构之后的嵌入表示,zs表示目标语句嵌入表示,D代表语料库,ni表示为负样本,训练使得rs尽量相似于zs,并且与ni最大限度不同。
7.根据权利要求6所述基于主题模型的短文本方面提取方法,其特征在于:取α=n-1,λ取200。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395663.0A CN110532378B (zh) | 2019-05-13 | 2019-05-13 | 一种基于主题模型的短文本方面提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395663.0A CN110532378B (zh) | 2019-05-13 | 2019-05-13 | 一种基于主题模型的短文本方面提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532378A CN110532378A (zh) | 2019-12-03 |
CN110532378B true CN110532378B (zh) | 2021-10-26 |
Family
ID=68659818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910395663.0A Active CN110532378B (zh) | 2019-05-13 | 2019-05-13 | 一种基于主题模型的短文本方面提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532378B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613032B (zh) * | 2020-12-15 | 2024-03-26 | 中国科学院信息工程研究所 | 基于系统调用序列的主机入侵检测方法及装置 |
CN112926311B (zh) * | 2021-02-03 | 2022-08-02 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN114298011B (zh) * | 2021-12-30 | 2024-06-25 | 重庆大学 | 神经网络、训练方法、方面级情感分析方法、装置及存储介质 |
CN117236330B (zh) * | 2023-11-16 | 2024-01-26 | 南京邮电大学 | 一种基于互信息和对抗神经网络的增强主题多样性方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN108415901A (zh) * | 2018-02-07 | 2018-08-17 | 大连理工大学 | 一种基于词向量和上下文信息的短文本主题模型 |
CN108710611A (zh) * | 2018-05-17 | 2018-10-26 | 南京大学 | 一种基于词网络和词向量的短文本主题模型生成方法 |
US10241995B2 (en) * | 2014-10-21 | 2019-03-26 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN109740148A (zh) * | 2018-12-16 | 2019-05-10 | 北京工业大学 | 一种BiLSTM结合Attention机制的文本情感分析方法 |
-
2019
- 2019-05-13 CN CN201910395663.0A patent/CN110532378B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10241995B2 (en) * | 2014-10-21 | 2019-03-26 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN108415901A (zh) * | 2018-02-07 | 2018-08-17 | 大连理工大学 | 一种基于词向量和上下文信息的短文本主题模型 |
CN108710611A (zh) * | 2018-05-17 | 2018-10-26 | 南京大学 | 一种基于词网络和词向量的短文本主题模型生成方法 |
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN109740148A (zh) * | 2018-12-16 | 2019-05-10 | 北京工业大学 | 一种BiLSTM结合Attention机制的文本情感分析方法 |
Non-Patent Citations (1)
Title |
---|
Mixing Dirichlet Topic Models and Word Embeddings to Make lda2vec;Christopher Moody;《Conference on Computational Natural Language Learning》;20160506;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110532378A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tripto et al. | Detecting multilabel sentiment and emotions from bangla youtube comments | |
Cyril et al. | An automated learning model for sentiment analysis and data classification of Twitter data using balanced CA-SVM | |
Arulmurugan et al. | RETRACTED ARTICLE: Classification of sentence level sentiment analysis using cloud machine learning techniques | |
CN110532378B (zh) | 一种基于主题模型的短文本方面提取方法 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN109214454B (zh) | 一种面向微博的情感社区分类方法 | |
Dahllöf | Automatic prediction of gender, political affiliation, and age in Swedish politicians from the wording of their speeches—A comparative study of classifiability | |
Rokade et al. | Business intelligence analytics using sentiment analysis-a survey | |
Salem et al. | Personality traits for egyptian twitter users dataset | |
Abd et al. | Analyzing sentiment system to specify polarity by lexicon-based | |
Biradar et al. | Machine learning tool for exploring sentiment analysis on twitter data | |
Liu et al. | Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm | |
ElSayed et al. | Gender identification for Egyptian Arabic dialect in twitter using deep learning models | |
CN112115712A (zh) | 基于话题的群体情感分析方法 | |
Idrees et al. | A proposed model for detecting facebook news’ credibility | |
Yang et al. | News text mining-based business sentiment analysis and its significance in economy | |
Gan et al. | Microblog sentiment analysis via user representative relationship under multi-interaction hybrid neural networks | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
Abdi et al. | Using an auxiliary dataset to improve emotion estimation in users’ opinions | |
Biswas et al. | A new ontology-based multimodal classification system for social media images of personality traits | |
Mishra et al. | Evaluating Performance of Machine Leaming Techniques used in Opinion Mining | |
Mahalakshmi et al. | Twitter sentiment analysis using conditional generative adversarial network | |
Gudakahriz et al. | An experimental study on performance of text representation models for sentiment analysis | |
Vonitsanos et al. | Decoding Gender on Social Networks: An In-depth Analysis of Language in Online Discussions Using Natural Language Processing and Machine Learning | |
Maurya et al. | A use of social media for opinion mining: An overview (with the use of hybrid textual and visual sentiment ontology) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |