CN110347824B - 一种基于词汇相似性的lda主题模型最优主题数确定方法 - Google Patents

一种基于词汇相似性的lda主题模型最优主题数确定方法 Download PDF

Info

Publication number
CN110347824B
CN110347824B CN201910506360.1A CN201910506360A CN110347824B CN 110347824 B CN110347824 B CN 110347824B CN 201910506360 A CN201910506360 A CN 201910506360A CN 110347824 B CN110347824 B CN 110347824B
Authority
CN
China
Prior art keywords
topic
similarity
word
topics
lda
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910506360.1A
Other languages
English (en)
Other versions
CN110347824A (zh
Inventor
王中元
许强
胡瑞敏
朱荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910506360.1A priority Critical patent/CN110347824B/zh
Publication of CN110347824A publication Critical patent/CN110347824A/zh
Application granted granted Critical
Publication of CN110347824B publication Critical patent/CN110347824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词汇相似性的LDA主题模型最优主题数确定方法,利用LDA模型抽取主题词,基于词向量间的相似性,寻找最优主题数目。首先对文本数据进行分词等预处理,应用LDA主题模型对文本进行主题建模,获得每个主题下对应的词分布;然后将词分布转化为词向量分布,利用向量间的相似性,基于LDA的语义关联,分析主题质量,确定最优主题数目。本发明提出的方法可以自动确定最优主题数目,避免人为设定的局限,更好地服务于微博文本数据的聚类分析。

Description

一种基于词汇相似性的LDA主题模型最优主题数确定方法
技术领域
本发明属于自然语言处理技术领域,涉及一种自然语言处理模型,具体涉及一种基于词汇相似性的LDA主题模型最优主题数确定方法。
背景技术
随着互联网的高速发展,微博作为开放的用户交流和信息传播平台,越来越受到人们的欢迎。挖掘用户兴趣偏好,分析用户偏好行为特征,对舆情监控和网络安全管理以及商业价值推广,具有十分重要作用。但每个用户每天浏览成千上百条微博,海量微博信息增加了用户获取自身需要信息的难度,影响了用户体验。精准获取用户偏好是微博平台主动推送用户感兴趣内容的关键。
在文本聚类方面,主题方法比传统方法更有效,这也使得隐含狄利克雷分布(LDA,Latent Dirichlet Allocation)在文本处理方面得到越来越多的应用。LDA主题模型是数据挖掘和文本信息处理方面不可或缺的模型。该主题模型是一种文本建模方法,能够以概率分布的形式表达出文本中隐藏的主题信息。LDA主题模型打破了传统文本表示的思维模式,提出“主题”的概念,用于在海量文本中抽取出重要信息。
基于LDA主题模型进行主题挖掘,最优主题数目直接影响用户兴趣偏好刻画精度。目前普遍认为Gibbs采样的LDA主题模型的最大问题是无法确定最优主题数目,在大多数情况下,都是通过经验人为设定主题数目,主题数目对迭代过程和结果非常重要,过多或者过少都会对模型产生很大的影响,导致最终的文档分布存在精度误差。
发明内容
为了解决上述技术问题,本发明提供了一种基于词汇相似性的LDA主题模型最优主题数确定方法。
本发明所采用的技术方案是:1.一种基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于,包括以下步骤:
步骤1:选取初始k值,作为LDA主题模型初始主题数目;
步骤2:进行文档主题分离,采样主题,直至收敛;
步骤3:生成主题-词分布,记为(T1,w11,w12,...,w1n)、(T2,w21,w22,...,w2n)、…、(Tn,wn1,wn2,...,wnn);其中,T1、T2、…、Tn为n个主题,wij为每个主题下的词分布;
步骤4:将主题-词分布转换为主题-词向量分布;
步骤5:计算主题质量,对每个主题下的词向量两两计算相似值,获取平均值;
步骤6:绘制
Figure BDA0002091965970000021
曲线,
Figure BDA0002091965970000022
为某个主题下的词语相似度平均值,Topic#为对应主题;平均相似度达到最小时,每个主题下的词分布倾向于表达一个主题,分类模型达到最优。
作为优选,步骤2中,根据Gibbs采样公式采样主题。
作为优选,步骤4中,基于维基百科通过word2vec训练词向量,将主题-词分布转换为主题-词向量分布。
作为优选,步骤5中,对每个主题下的词向量两两计算相似值,计算方法是,选取主题T,通过向量相加平均法得到每个主题下的主题词相似度之和的平均值,其公式如下所示:
Figure BDA0002091965970000023
其中,NT为主题数,w为主题T下的主题词数目,e(wi,wj)为两词语间的相似度,相似度通过余弦值得到,即:
Figure BDA0002091965970000024
wi和wj分别为词语的向量表示;主题词i与主题词j计算相似度值,然后取得主题T下所有分布词的相似度之和,计算得到平均值。
作为优选,步骤6中所述绘制
Figure BDA0002091965970000025
曲线方法为:
Figure BDA0002091965970000026
为某个主题下的词语相似度平均值,通过计算不同Topic#下的
Figure BDA0002091965970000027
值,绘制出横坐标为Topic#数,纵坐标为
Figure BDA0002091965970000028
的折线图,基于连续的Topic#数,找到最小值点,最小值点对应的Topic#数,即为最优主题数目。
本发明提供的LDA主题数目确定方法,可以有效的避免根据经验人为设定主题数目的局限,提供最优的LDA初始主题数目,从而有效地解决了主题个数的选择问题,得到更好的模型聚类效果。
附图说明
图1本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于词汇相似性的LDA主题模型最优主题数确定方法,包括以下步骤:
步骤1:选取初始k值,作为LDA主题模型初始主题数目;
步骤2:进行文档主题分离,采样主题,直至收敛;
本实施例中,首先对要分析的文本数据进行预处理,分词并去除停用词。然后应用LDA模型,根据Gibbs采样公式,采样至收敛,并生成主题-词分布。
步骤3:生成主题-词分布,记为(T1,w11,w12,...,w1n)、(T2,w21,w22,...,w2n)、…、(Tn,wn1,wn2,...,wnn);其中,T1、T2、…、Tn为n个主题,wij为每个主题下的词分布;
步骤4:将主题-词分布转换为主题-词向量分布;
本实施例中,为了获得词语的向量表示,可通过爬取维基百科等海量文本数据并基于word2vec训练词向量,然后将生成的主题-词分布转化为主题-词向量分布。
步骤5:计算主题质量,对每个主题下的词向量两两计算相似值,获取平均值;
本实施例中,对每个主题下对应的词向量分布相互计算相似值,通过向量相加平均法,得到每个主题下的主题词相似度之和的平均值,具体计算方法如下:
Figure BDA0002091965970000041
其中,NT为主题数,w为主题T下的主题词数目,e(wi,wj)为两词语间的相似度,相似度通过余弦值得到,即:
Figure BDA0002091965970000042
wi和wj分别为词语的向量表示。主题词i与主题词j计算相似度值,然后取得主题T下所有分布词的相似度之和,计算得到平均值。
步骤6:绘制
Figure BDA0002091965970000043
曲线,
Figure BDA0002091965970000044
为某个主题下的词语相似度平均值,Topic#为对应主题;平均相似度达到最小时,每个主题下的词分布倾向于表达一个主题,分类模型达到最优。
本实施例中,通过进一步的绘制
Figure BDA0002091965970000045
曲线,
Figure BDA0002091965970000046
为某个主题下的词语相似度平均值,Topic#为对应主题,可以更直观的获取均值最小点,均值最小点对应的主题数目即为最优主题数目。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.一种基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于,包括以下步骤:
步骤1:选取初始k值,作为LDA主题模型初始主题数目;
步骤2:进行文档主题分离,采样主题,直至收敛;
步骤3:生成主题-词分布,记为(T1,w11,w12,...,w1n)、(T2,w21,w22,...,w2n)、…、(Tn,wn1,wn2,...,wnn);其中,T1、T2、…、Tn为n个主题,wij为每个主题下的词分布;
步骤4:将主题-词分布转换为主题-词向量分布;
步骤5:计算主题质量,对每个主题下的词向量两两计算相似值,获取平均值;
步骤6:绘制
Figure FDA0002091965960000011
曲线,
Figure FDA0002091965960000012
为某个主题下的词语相似度平均值,Topic#为对应主题;平均相似度达到最小时,每个主题下的词分布倾向于表达一个主题,分类模型达到最优。
2.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于:步骤2中,根据Gibbs采样公式采样主题。
3.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于:步骤4中,基于维基百科通过word2vec训练词向量,将主题-词分布转换为主题-词向量分布。
4.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于:步骤5中,对每个主题下的词向量两两计算相似值,计算方法是,选取主题T,通过向量相加平均法得到每个主题下的主题词相似度之和的平均值,其公式如下所示:
Figure FDA0002091965960000013
其中,NT为主题数,w为主题T下的主题词数目,e(wi,wj)为两词语间的相似度,相似度通过余弦值得到,即:
Figure FDA0002091965960000021
wi和wj分别为词语的向量表示;主题词i与主题词j计算相似度值,然后取得主题T下所有分布词的相似度之和,计算得到平均值。
5.根据权利要求1-4任意一项所述的基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于,步骤6中所述绘制
Figure FDA0002091965960000022
曲线方法为:
Figure FDA0002091965960000023
为某个主题下的词语相似度平均值,通过计算不同Topic#下的
Figure FDA0002091965960000024
值,绘制出横坐标为Topic#数,纵坐标为
Figure FDA0002091965960000025
的折线图,基于连续的Topic#数,找到最小值点,最小值点对应的Topic#数,即为最优主题数目。
CN201910506360.1A 2019-06-12 2019-06-12 一种基于词汇相似性的lda主题模型最优主题数确定方法 Active CN110347824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910506360.1A CN110347824B (zh) 2019-06-12 2019-06-12 一种基于词汇相似性的lda主题模型最优主题数确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910506360.1A CN110347824B (zh) 2019-06-12 2019-06-12 一种基于词汇相似性的lda主题模型最优主题数确定方法

Publications (2)

Publication Number Publication Date
CN110347824A CN110347824A (zh) 2019-10-18
CN110347824B true CN110347824B (zh) 2022-12-02

Family

ID=68181904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910506360.1A Active CN110347824B (zh) 2019-06-12 2019-06-12 一种基于词汇相似性的lda主题模型最优主题数确定方法

Country Status (1)

Country Link
CN (1) CN110347824B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753084B (zh) * 2020-06-04 2024-04-30 江南大学 一种短文本特征提取与分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118435A1 (ja) * 2012-02-09 2013-08-15 日本電気株式会社 意味的類似度計算方法、システム及びプログラム
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统
CN109582785A (zh) * 2018-10-31 2019-04-05 天津大学 基于文本向量与机器学习的突发事件舆情演化分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118435A1 (ja) * 2012-02-09 2013-08-15 日本電気株式会社 意味的類似度計算方法、システム及びプログラム
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统
CN109582785A (zh) * 2018-10-31 2019-04-05 天津大学 基于文本向量与机器学习的突发事件舆情演化分析方法

Also Published As

Publication number Publication date
CN110347824A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN107203511B (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
CN107330049B (zh) 一种新闻热度预估方法及系统
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
CN107862087B (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
CN109858034B (zh) 一种基于注意力模型和情感词典的文本情感分类方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN111861596B (zh) 一种文本分类方法和装置
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN114997288A (zh) 一种设计资源关联方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
CN111368563A (zh) 一种融合聚类算法的维汉机器翻译系统
CN110347824B (zh) 一种基于词汇相似性的lda主题模型最优主题数确定方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN111400489B (zh) 对话文本摘要生成方法、装置、电子设备和存储介质
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN110110013B (zh) 一种基于时空属性的实体竞争关系数据挖掘方法
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN110728131A (zh) 一种分析文本属性的方法和装置
Wang Research on the art value and application of art creation based on the emotion analysis of art
CN114611625A (zh) 语言模型训练、数据处理方法、装置、设备、介质及产品
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant