CN108182176B - 增强btm主题模型主题词语义相关性和主题凝聚度方法 - Google Patents

增强btm主题模型主题词语义相关性和主题凝聚度方法 Download PDF

Info

Publication number
CN108182176B
CN108182176B CN201711487139.3A CN201711487139A CN108182176B CN 108182176 B CN108182176 B CN 108182176B CN 201711487139 A CN201711487139 A CN 201711487139A CN 108182176 B CN108182176 B CN 108182176B
Authority
CN
China
Prior art keywords
word
topic
words
semantic
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711487139.3A
Other languages
English (en)
Other versions
CN108182176A (zh
Inventor
谢珺
李思宇
谷兴龙
杨云云
续欣莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201711487139.3A priority Critical patent/CN108182176B/zh
Publication of CN108182176A publication Critical patent/CN108182176A/zh
Application granted granted Critical
Publication of CN108182176B publication Critical patent/CN108182176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

增强BTM主题模型主题词语义相关性和主题凝聚度方法,属于文本挖掘和机器学习的交叉领域,包括下述内容:(1)文本语料获取以及预处理;(2)词向量模型构建;(3)BTM主题模型的建模;(4)词语之间语义相关性计算;(5)结合双词语义相关的主题模型的建模。本发明的双词扩展的主题模型在主题凝聚度TC值以及Js距离值上都比传统的主题模型有明显的提高。

Description

增强BTM主题模型主题词语义相关性和主题凝聚度方法
技术领域
本发明属于文本挖掘和机器学习的交叉领域,具体涉及文本主题模型与词向量计算模型,尤其涉及到文本主题模型的主题词语义增强以及在短文本商品评论中的应用。
背景技术
现代社会购物是人们一种不可替代的生活方式,而通过电商进行购物更是其中一条极其重要的途径,大到家用电器,小到锅碗瓢盆,各种商品应有尽有。但是对于如何选择要购买的商品,消费者一般的步骤为,首先选择自己要购买的商品的种类,然后看具体某个商品的商品详情,最后查看商品评论,参考已买过的人的建议,选择自己是否要购买此商品。以上三个步骤就是购买商品的大体过程,但是对于某些商品来说,商品评论特别多,一一查看明显费时费力,并且得出的结果也不尽相同,并且针对商品的某个具体属性,无法做到有针对性的查找。
针对文本挖掘的算法主题模型来说,专家有很多的解决办法,但是对于将其应用到商品短文本评论这一关键问题上,这些方法仍存在一些问题,主要有:
1)虽然现在有很多学者利用BTM主题模型来处理短文本评论,但是该模型提取出的主题词主要是基于词共现的方式,缺乏深层的语义相关性。
2)在主题表征方面,传统BTM主题模型无法明显的看出究竟是什么主题,也就是主题内部的语义表达不是特别突出,造成最后的主题凝聚度偏低。
由此可见,现有的文本主题模型,在主题词语义相关性和主题凝聚度等方面存在问题,尚无法解决短文本主题挖掘这一问题。
发明内容
本发明提供主题词语义相关性以及主题凝聚度高的一种应用于短文本商品评论的主题模型的改进方法。
本发明的技术方案,一种用于增强BTM主题模型主题词语义相关性和主题凝聚度的方法:
(1)文本语料获取以及预处理:即从电商在线评论中,通过爬虫程序将手机商品里面的评论抓取下来,然后通过分词程序以及停用词词表,对语料进行预处理。
(2)词向量模型构建:利用大规模的语料,训练语义相关的词向量,确定词向量的维度,选择合适维度的词向量。
(3)BTM主题模型的建模,即用吉布斯采样算法,提取语料中的文档-主题矩阵A以及主题-主题词矩阵B。
(4)词语之间语义相关性计算,即用已经建立好的词向量模型,通过余弦距离,计算出每条短文本商品评论中,通过分词之后的,任意两个词语之间的语义相关性,并选取合适的语义距离值C,C的取值范围为0~1.
(5)结合双词语义相关的主题模型的建模,即将语义距离值C作为筛选条件,选择不同数量的相关词语融入到主题模型吉布斯采样的过程中,实现双词BTM主题模型的构建。
所述的BTM主题模型的建模是由晏小辉等人于2013年提出,方式如下:
步骤1:对每一个主题Z,描述确定主题Z下的词分布φ~Dir(β),φ为每个主题下的词分布,β狄利克雷分布,φ的超参数;
步骤2:对短文本语料库L,描述一个语料库级别的主题分布θ~Dir(α),θ为语料库级的主题多项分布;α为狄利克雷分布,是θ的超参数;
步骤3:对于词对|B|里的每一个词对按照以下步骤产生,假设一个词对用b来表示,则b=(bi,bj):
i.从语料库级别的主题分布θ中抽取一个主题Z,即Z~Muli(θ)
Ii.从这个被抽取到的主题Z中同时抽取两个词bi,bj,服从基本假设,每一个词对都是从一个独立主题中产生,即bi,bj~Muli(φ)。
所述的双词语义扩展的W-BTM主题模型的方法是:
步骤1:利用word2vec计算语义距离;
步骤2:所有词对主题初始化;
步骤3:Gibbs吉布斯采样过程;
步骤4:分别按照更新公式计算出θ,φ;
步骤5:选择主题凝聚度TC以及Js散度进行检验。
为了比较本方法可以对传统的主题模型的优点,在相同的语料库下进行实验,并用主题凝聚度TC值以及Js散度来进行结果验证,实验结果如说明书附图2和说明书附图3。
本发明的双词扩展的主题模型在主题凝聚度TC值以及Js距离值上都比传统的主题模型有明显的提高。
附图说明
图1本发明流程图。
图2是主题数目和主题凝聚度的关系图。
图3是主题数目与Js距离关系图。
图4是距离阈值C和词对数量关系图。
图5是主题词距离阈值C与主题凝聚度关系图。
具体实施方式
实验语料来自于网络爬虫,主要从各大电商网站进行了手机评论的抓取,集中于手机评论的原因,是为了测试主题模型的时候,主题可以有大概的范围,相比于不同的评论语料,更具有专一性,采集到的商品评论中一共有原始的单词数245221407个,一共4904600条评论,出现不同的汉字的个数为32757。训练语料和测试语料用十折交叉验证法,进行处理。
实施例:文本语料预处理
采用python的结巴分词工具和停用词表,对语料进行分词处理,以及去掉一些无实际意义的词,例如语气助词、副词、介词、连词等。最后处理的结果如表1.
表1 语料预处理结果
Figure BDA0001534971870000031
词向量训练
Word2vec训练数据,采用negative-sampling进行训练,词语维度为200维,为了适应短文本,窗口大小调整为10,初始学习效率为0.025,去除掉在语料中频率小于5的词语,语料库上的迭代次数为20次。词向量训练之后的部分结果如表2.
表2 词向量训练之后的部分结果
Figure BDA0001534971870000041
主题模型建模
表3 主题模型各个参数含义
Figure BDA0001534971870000042
利用word2vec可以得到词语之间的语义关联性,利用
Figure BDA0001534971870000043
计算出词语bi和bj之间在语义空间的距离。
将word2vec的结果与BTM主题模型结合,主要是在吉布斯采样的过程中,对双词特征进行扩展。在吉布斯采样初始化时,利用γ与给定的语义距离值C之间的距离关系,来确定词对扩展程度,如果满足距离要求,则
Nbz=Nbz+γ*10 (2)
Nbz表示的意思在主题Z下采样词对b的次数。如果不满足距离要求,则
Nbz=Nbz+1 (3)
利用上式对Nbz进行扩展。
上述过程完成语义距离阈值C计算以及词对数量扩展,接下来在吉布斯采样的过程中,依据利用γ与给定的语义距离值C之间的距离关系,每次采样过程中对主题的更新采用不同的方式,如果满足距离要求,
Figure BDA0001534971870000051
否则,
Figure BDA0001534971870000052
Figure BDA0001534971870000053
表示去除词对b之外的词对,K代表主题个数,M为语料库中不相同词语的个数,不考虑重复的词语,nz表示主题Z的个数,nω|z表示主题Z下词ω出现的次数,nb|z表示主题Z下词对b出现的次数。
进行完吉布斯采样之后,最后确定nz
Figure BDA0001534971870000057
Figure BDA0001534971870000058
利用
Figure BDA0001534971870000054
Figure BDA0001534971870000055
公式6中,l代表满足距离条件的所有扩展词对的数量。对语料中主题的多项分布参数θz和主题下词的多项分布参数
Figure BDA0001534971870000056
进行计算,从而确定文档-主题以及主题-词的概率分布。具体流程框图如说明书附图1。
本发明算法流程表如下:
表4 算法流程表
Figure BDA0001534971870000061
实验1,不同距离阈值C词对采样数量对比
基于词扩展方式对BTM主题模型进行改进,那么当选取不同阈值C的条件下,扩展的词对数量是不一致的。从经验上来说,语义距离越相关的词语,词对的数量就会越少。从下图可以看出,随着距离阈值的增大,不同阈值下的词对数量都在减少,符合经验习惯。同时刚开始的不加语义距离参数C时,语料中词对的数量在1345943,增加语义距离C之后,语料中词对的数量增加到3663470,也证明了基于语义距离C的词扩展方式的有效性。效果如说明书附图4。
实验2,不同距离阈值C的对比
基于词对扩展方式对主题模型BTM进行改进,最后主题的好坏,不仅与训练的过程有关,而且与语义阈值C也有一定的关系。不同的语义阈值C不仅可以扩充不同数量的词对,而且增强词对内部词语之间的语义相关性。因为比传统的主题模型多了一个参数语义阈值C,所以到底阈值C取多少最为合适,我们通过做实验,找出最适合的阈值C。本次实验中BTM主题模型以及改进的W-BTM主题模型都采用相同的狄利克雷分布参数,α=50/K,β=0.01,变量为语义阈值C,通过说明书附图5可以看出,在主题数量为5是不同的语义阈值C差别不多,随着主题数量的增加,不同语义阈值C下,不同主题数目的情况下取得的TC值,越来越有规律。可以看出在语义距离阈值C为0.4时,取得的效果比较好。因此以下对于BTM主题模型以及改进算法W-BTM的对比中,语义距离C取值为0.4。
本发明中BTM为词对主题模型的英文缩写。
为了验证方法的有效性,也将此方法应用于LDA主题模型中,改进之后的LDA算法为W-LDA,最后部分结果对比如表5。
表5 算法部分结果对比
Figure BDA0001534971870000071

Claims (2)

1.增强BTM主题模型主题词语义相关性和主题凝聚度方法,包括下述内容:
(1)文本语料获取以及预处理:即从电商在线评论中,通过爬虫程序将手机商品里面的评论抓取下来,然后通过分词程序以及停用词词表,对语料进行预处理;
(2)词向量模型构建:利用大规模的语料,训练语义相关的词向量,确定词向量的维度,选择合适维度的词向量;
(3)BTM主题模型的建模:即用吉布斯采样算法,提取语料中的文档-主题矩阵A以及主题-主题词矩阵B;
(4)词语之间语义相关性计算:即用已经建立好的词向量模型,通过余弦距离,计算出每条短文本商品评论中,通过分词之后的,任意两个词语之间的语义相关性,并选取合适的主题词语义距离阈值C,主题词语义距离阈值C的取值范围为0~1;然后在吉布斯采样中将不同语义距离的词语扩展不同的相关词语数量;
(5)结合双词语义相关的主题模型的建模:即将语义距离阈值C作为筛选条件,选择不同数量的相关词语融入到主题模型吉布斯采样的过程中,实现双词BTM主题模型的构建;其特征在于具体步骤是:
步骤1:利用word2vec计算语义距离;
Figure FDA0003077242700000011
步骤2:确定语义距离阈值C以及利用Nbz=Nbz+γ*10对词对数量进行扩展,Nbz表示的意思在主题Z下采样词对b的次数;
步骤3:利用下述公式进行Gibbs吉布斯采样主题更新;
Figure FDA0003077242700000012
β为狄利克雷分布,α为狄利克雷分布,是θ的超参数;如果不满足语义距离阈值C,则用
Figure FDA0003077242700000013
进行Gibbs采样主题更新,X-b表示去除词对b之外的词对,K代表主题个数,M为语料库中不相同词语的个数,不考虑重复的词语,nz表示主题Z的个数,nω|z表示主题Z下词ω出现的次数,nb|z表示主题Z下词对b出现的次数;
步骤4:计算语料库级的主题多项分布θz
Figure FDA0003077242700000021
计算每个主题下的词分布
Figure FDA0003077242700000022
Figure FDA0003077242700000023
步骤5:采用主题凝聚度TC(t;B(t))和js距离值进行检验,
主题凝聚度TC(t;B(t))值:
Figure FDA0003077242700000024
其中,N(b)表示包含词对b的文档的数目;N(a,b)表示存在词对a和b共现的文档数目;
Figure FDA0003077242700000025
表示主题t下概率最大的M个词对;
Figure FDA0003077242700000026
p和q分别表示不同主题下的主题-词分布,i表示主题-词分布的数量;
JS距离值:Js=1/2*KL(p||m)+1/2*KL(q||m),
m=(p+q)/2,
m表示平均分布的KL距离,Js表示根据平均距离算出的KL距离。
2.根据权利要求1所述的增强BTM主题模型主题词语义相关性和主题凝聚度方法,其特征在于步骤2中如果不满足语义距离阈值C,则用Nbz=Nbz+1对词对数量进行扩展。
CN201711487139.3A 2017-12-29 2017-12-29 增强btm主题模型主题词语义相关性和主题凝聚度方法 Active CN108182176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711487139.3A CN108182176B (zh) 2017-12-29 2017-12-29 增强btm主题模型主题词语义相关性和主题凝聚度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711487139.3A CN108182176B (zh) 2017-12-29 2017-12-29 增强btm主题模型主题词语义相关性和主题凝聚度方法

Publications (2)

Publication Number Publication Date
CN108182176A CN108182176A (zh) 2018-06-19
CN108182176B true CN108182176B (zh) 2021-08-10

Family

ID=62549542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711487139.3A Active CN108182176B (zh) 2017-12-29 2017-12-29 增强btm主题模型主题词语义相关性和主题凝聚度方法

Country Status (1)

Country Link
CN (1) CN108182176B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308352B (zh) * 2018-08-01 2021-10-22 昆明理工大学 一种基于最短路径的词语相关性判定方法
CN109388799A (zh) * 2018-09-14 2019-02-26 河海大学 一种基于词权重的有监督主题模型构造方法
CN109710759B (zh) * 2018-12-17 2021-06-08 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN110134958B (zh) * 2019-05-14 2021-05-18 南京大学 一种基于语义词网络的短文本主题挖掘方法
CN111339289B (zh) * 2020-03-06 2022-10-28 西安工程大学 一种基于商品评论的主题模型推断方法
CN116432639B (zh) * 2023-05-31 2023-08-25 华东交通大学 一种基于改进的btm主题模型的新闻要素词的挖掘方法
CN117473095B (zh) * 2023-12-27 2024-03-29 合肥工业大学 基于主题增强词表示的短文本分类方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608192A (zh) * 2015-12-23 2016-05-25 南京大学 一种基于用户双词主题模型的短文本推荐方法
CN106776579A (zh) * 2017-01-19 2017-05-31 清华大学 Biterm主题模型的采样加速方法
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9854098B2 (en) * 2015-11-24 2017-12-26 Avaya Inc. Electronic communication routing based data accuracy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608192A (zh) * 2015-12-23 2016-05-25 南京大学 一种基于用户双词主题模型的短文本推荐方法
CN106776579A (zh) * 2017-01-19 2017-05-31 清华大学 Biterm主题模型的采样加速方法
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Biterm Topic Model for Short Texts;Yan Xiaohui 等;《Proceedings of the 22nd international conference on World Wide Web》;20130531;1445-1456 *
Lu, Tingting 等.An intention-topic model based on verbs clustering and short texts topic mining.《2015 IEEE International Conference on Computer and Information Technology;Ubiquitous Computing and Communications;Dependable, Autonomic and Secure Computing;Pervasive Intelligence and Computing》.2015, *
Topic Modeling over Short Texts by Incorporating Word Embeddings;Qiang Jipeng 等;《Pacific-Asia Conference on Knowledge Discovery and Data Mining》;20170531;363-374 *
一种针对短文本的主题情感混合模型;谢珺 等;《中文信息学报》;20170115;第31卷(第1期);162-168 *
基于短文本的互联网用户意图识别方法及应用研究;卢婷婷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03期);I138-6165 *
融合词向量特征的双词主题模型;刘良选 等;《计算机应用研究》;20170731;第34卷(第7期);正文第2055-2057页摘要、第1节 *

Also Published As

Publication number Publication date
CN108182176A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN108182176B (zh) 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
Abualigah et al. Text feature selection with a robust weight scheme and dynamic dimension reduction to text document clustering
CN109960756B (zh) 新闻事件信息归纳方法
Liang et al. Unsupervised keyphrase extraction by jointly modeling local and global context
Anupriya et al. LDA based topic modeling of journal abstracts
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
Zvonarev et al. A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data.
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN106326210B (zh) 一种文本话题和情感的联合检测方法及装置
Yuan et al. Graph attention network with memory fusion for aspect-level sentiment analysis
CN111985215A (zh) 领域短语词典构建方法
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
CN111241271B (zh) 文本情感分类方法、装置及电子设备
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN110765762B (zh) 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN111581960A (zh) 一种获取医学文本语义相似度的方法
CN108932247A (zh) 一种优化文本搜索的方法及装置
CN103455638A (zh) 一种结合推理和半自动学习的行为知识提取方法和装置
Zhang et al. Semi-supervised constrained graph convolutional network for cross-modal retrieval
CN113722431A (zh) 命名实体关系识别方法、装置、电子设备及存储介质
Liu et al. Exploiting effective representations for chinese sentiment analysis using a multi-channel convolutional neural network
CN110096618B (zh) 一种基于分维度情感分析的电影推荐方法
Setiawan Topic Detection on Twitter using GloVe with Convolutional Neural Network and Gated Recurrent Unit

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant