CN110347824A - 一种基于词汇相似性的lda主题模型最优主题数确定方法 - Google Patents
一种基于词汇相似性的lda主题模型最优主题数确定方法 Download PDFInfo
- Publication number
- CN110347824A CN110347824A CN201910506360.1A CN201910506360A CN110347824A CN 110347824 A CN110347824 A CN 110347824A CN 201910506360 A CN201910506360 A CN 201910506360A CN 110347824 A CN110347824 A CN 110347824A
- Authority
- CN
- China
- Prior art keywords
- theme
- similarity
- under
- word
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词汇相似性的LDA主题模型最优主题数确定方法,利用LDA模型抽取主题词,基于词向量间的相似性,寻找最优主题数目。首先对文本数据进行分词等预处理,应用LDA主题模型对文本进行主题建模,获得每个主题下对应的词分布;然后将词分布转化为词向量分布,利用向量间的相似性,基于LDA的语义关联,分析主题质量,确定最优主题数目。本发明提出的方法可以自动确定最优主题数目,避免人为设定的局限,更好地服务于微博文本数据的聚类分析。
Description
技术领域
本发明属于自然语言处理技术领域,涉及一种自然语言处理模型,具体涉及一种基于词汇相似性的LDA主题模型最优主题数确定方法。
背景技术
随着互联网的高速发展,微博作为开放的用户交流和信息传播平台,越来越受到人们的欢迎。挖掘用户兴趣偏好,分析用户偏好行为特征,对舆情监控和网络安全管理以及商业价值推广,具有十分重要作用。但每个用户每天浏览成千上百条微博,海量微博信息增加了用户获取自身需要信息的难度,影响了用户体验。精准获取用户偏好是微博平台主动推送用户感兴趣内容的关键。
在文本聚类方面,主题方法比传统方法更有效,这也使得隐含狄利克雷分布(LDA,Latent Dirichlet Allocation)在文本处理方面得到越来越多的应用。LDA主题模型是数据挖掘和文本信息处理方面不可或缺的模型。该主题模型是一种文本建模方法,能够以概率分布的形式表达出文本中隐藏的主题信息。LDA主题模型打破了传统文本表示的思维模式,提出“主题”的概念,用于在海量文本中抽取出重要信息。
基于LDA主题模型进行主题挖掘,最优主题数目直接影响用户兴趣偏好刻画精度。目前普遍认为Gibbs采样的LDA主题模型的最大问题是无法确定最优主题数目,在大多数情况下,都是通过经验人为设定主题数目,主题数目对迭代过程和结果非常重要,过多或者过少都会对模型产生很大的影响,导致最终的文档分布存在精度误差。
发明内容
为了解决上述技术问题,本发明提供了一种基于词汇相似性的LDA主题模型最优主题数确定方法。
本发明所采用的技术方案是:1.一种基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于,包括以下步骤:
步骤1:选取初始k值,作为LDA主题模型初始主题数目;
步骤2:进行文档主题分离,采样主题,直至收敛;
步骤3:生成主题-词分布,记为(T1,w11,w12,...,w1n)、(T2,w21,w22,...,w2n)、…、(Tn,wn1,wn2,...,wnn);其中,T1、T2、…、Tn为n个主题,wij为每个主题下的词分布;
步骤4:将主题-词分布转换为主题-词向量分布;
步骤5:计算主题质量,对每个主题下的词向量两两计算相似值,获取平均值;
步骤6:绘制曲线,为某个主题下的词语相似度平均值,Topic#为对应主题;平均相似度达到最小时,每个主题下的词分布倾向于表达一个主题,分类模型达到最优。
作为优选,步骤2中,根据Gibbs采样公式采样主题。
作为优选,步骤4中,基于维基百科通过word2vec训练词向量,将主题-词分布转换为主题-词向量分布。
作为优选,步骤5中,对每个主题下的词向量两两计算相似值,计算方法是,选取主题T,通过向量相加平均法得到每个主题下的主题词相似度之和的平均值,其公式如下所示:
其中,NT为主题数,w为主题T下的主题词数目,e(wi,wj)为两词语间的相似度,相似度通过余弦值得到,即:
wi和wj分别为词语的向量表示;主题词i与主题词j计算相似度值,然后取得主题T下所有分布词的相似度之和,计算得到平均值。
作为优选,步骤6中所述绘制曲线方法为:为某个主题下的词语相似度平均值,通过计算不同Topic#下的值,绘制出横坐标为Topic#数,纵坐标为的折线图,基于连续的Topic#数,找到最小值点,最小值点对应的Topic#数,即为最优主题数目。
本发明提供的LDA主题数目确定方法,可以有效的避免根据经验人为设定主题数目的局限,提供最优的LDA初始主题数目,从而有效地解决了主题个数的选择问题,得到更好的模型聚类效果。
附图说明
图1本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于词汇相似性的LDA主题模型最优主题数确定方法,包括以下步骤:
步骤1:选取初始k值,作为LDA主题模型初始主题数目;
步骤2:进行文档主题分离,采样主题,直至收敛;
本实施例中,首先对要分析的文本数据进行预处理,分词并去除停用词。然后应用LDA模型,根据Gibbs采样公式,采样至收敛,并生成主题-词分布。
步骤3:生成主题-词分布,记为(T1,w11,w12,...,w1n)、(T2,w21,w22,...,w2n)、…、(Tn,wn1,wn2,...,wnn);其中,T1、T2、…、Tn为n个主题,wij为每个主题下的词分布;
步骤4:将主题-词分布转换为主题-词向量分布;
本实施例中,为了获得词语的向量表示,可通过爬取维基百科等海量文本数据并基于word2vec训练词向量,然后将生成的主题-词分布转化为主题-词向量分布。
步骤5:计算主题质量,对每个主题下的词向量两两计算相似值,获取平均值;
本实施例中,对每个主题下对应的词向量分布相互计算相似值,通过向量相加平均法,得到每个主题下的主题词相似度之和的平均值,具体计算方法如下:
其中,NT为主题数,w为主题T下的主题词数目,e(wi,wj)为两词语间的相似度,相似度通过余弦值得到,即:
wi和wj分别为词语的向量表示。主题词i与主题词j计算相似度值,然后取得主题T下所有分布词的相似度之和,计算得到平均值。
步骤6:绘制曲线,为某个主题下的词语相似度平均值,Topic#为对应主题;平均相似度达到最小时,每个主题下的词分布倾向于表达一个主题,分类模型达到最优。
本实施例中,通过进一步的绘制曲线,为某个主题下的词语相似度平均值,Topic#为对应主题,可以更直观的获取均值最小点,均值最小点对应的主题数目即为最优主题数目。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于,包括以下步骤:
步骤1:选取初始k值,作为LDA主题模型初始主题数目;
步骤2:进行文档主题分离,采样主题,直至收敛;
步骤3:生成主题-词分布,记为(T1,w11,w12,...,w1n)、(T2,w21,w22,...,w2n)、…、(Tn,wn1,wn2,...,wnn);其中,T1、T2、…、Tn为n个主题,wij为每个主题下的词分布;
步骤4:将主题-词分布转换为主题-词向量分布;
步骤5:计算主题质量,对每个主题下的词向量两两计算相似值,获取平均值;
步骤6:绘制曲线,为某个主题下的词语相似度平均值,Topic#为对应主题;平均相似度达到最小时,每个主题下的词分布倾向于表达一个主题,分类模型达到最优。
2.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于:步骤2中,根据Gibbs采样公式采样主题。
3.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于:步骤4中,基于维基百科通过word2vec训练词向量,将主题-词分布转换为主题-词向量分布。
4.根据权利要求1所述的基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于:步骤5中,对每个主题下的词向量两两计算相似值,计算方法是,选取主题T,通过向量相加平均法得到每个主题下的主题词相似度之和的平均值,其公式如下所示:
其中,NT为主题数,w为主题T下的主题词数目,e(wi,wj)为两词语间的相似度,相似度通过余弦值得到,即:
wi和wj分别为词语的向量表示;主题词i与主题词j计算相似度值,然后取得主题T下所有分布词的相似度之和,计算得到平均值。
5.根据权利要求1-4任意一项所述的基于词汇相似性的LDA主题模型最优主题数确定方法,其特征在于,步骤6中所述绘制曲线方法为:为某个主题下的词语相似度平均值,通过计算不同Topic#下的值,绘制出横坐标为Topic#数,纵坐标为的折线图,基于连续的Topic#数,找到最小值点,最小值点对应的Topic#数,即为最优主题数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910506360.1A CN110347824B (zh) | 2019-06-12 | 2019-06-12 | 一种基于词汇相似性的lda主题模型最优主题数确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910506360.1A CN110347824B (zh) | 2019-06-12 | 2019-06-12 | 一种基于词汇相似性的lda主题模型最优主题数确定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347824A true CN110347824A (zh) | 2019-10-18 |
CN110347824B CN110347824B (zh) | 2022-12-02 |
Family
ID=68181904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910506360.1A Active CN110347824B (zh) | 2019-06-12 | 2019-06-12 | 一种基于词汇相似性的lda主题模型最优主题数确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347824B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753084A (zh) * | 2020-06-04 | 2020-10-09 | 江南大学 | 一种短文本特征提取与分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
CN108829799A (zh) * | 2018-06-05 | 2018-11-16 | 中国人民公安大学 | 基于改进lda主题模型的文本相似度计算方法及系统 |
CN109582785A (zh) * | 2018-10-31 | 2019-04-05 | 天津大学 | 基于文本向量与机器学习的突发事件舆情演化分析方法 |
-
2019
- 2019-06-12 CN CN201910506360.1A patent/CN110347824B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
CN108829799A (zh) * | 2018-06-05 | 2018-11-16 | 中国人民公安大学 | 基于改进lda主题模型的文本相似度计算方法及系统 |
CN109582785A (zh) * | 2018-10-31 | 2019-04-05 | 天津大学 | 基于文本向量与机器学习的突发事件舆情演化分析方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753084A (zh) * | 2020-06-04 | 2020-10-09 | 江南大学 | 一种短文本特征提取与分类方法 |
CN111753084B (zh) * | 2020-06-04 | 2024-04-30 | 江南大学 | 一种短文本特征提取与分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110347824B (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
WO2020082560A1 (zh) | 文本关键词提取方法、装置、设备及计算机可读存储介质 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN106776713A (zh) | 一种基于词向量语义分析的海量短文本聚类方法 | |
CN106445915B (zh) | 一种新词发现方法及装置 | |
CN109815485B (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
CN108363725A (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN104111925B (zh) | 项目推荐方法和装置 | |
CN110457711B (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN109214454B (zh) | 一种面向微博的情感社区分类方法 | |
US20150212976A1 (en) | System and method for rule based classification of a text fragment | |
CN105488098B (zh) | 一种基于领域差异性的新词提取方法 | |
Gao et al. | Text classification research based on improved Word2vec and CNN | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
Kathuria et al. | Real time sentiment analysis on twitter data using deep learning (Keras) | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN111310467B (zh) | 一种在长文本中结合语义推断的主题提取方法及系统 | |
CN110728144A (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN111861596A (zh) | 一种文本分类方法和装置 | |
Liu et al. | Sentiment classification of micro‐blog comments based on Randomforest algorithm | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN114118062A (zh) | 客户特征提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |