CN107122349A - 一种基于word2vec‑LDA模型的文本主题词提取方法 - Google Patents
一种基于word2vec‑LDA模型的文本主题词提取方法 Download PDFInfo
- Publication number
- CN107122349A CN107122349A CN201710272622.3A CN201710272622A CN107122349A CN 107122349 A CN107122349 A CN 107122349A CN 201710272622 A CN201710272622 A CN 201710272622A CN 107122349 A CN107122349 A CN 107122349A
- Authority
- CN
- China
- Prior art keywords
- text
- word2vec
- models
- lda
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了一种基于word2vec‑LDA模型的文本主题词提取方法,涉及数据处理领域,所述方法包括如下步骤:利用语料库一训练LDA模型,同时利用语料库二训练word2vec模型;在线测试时对测试文本先进行预处理;将LDA模型和word2vec模型参数输入word2vec‑LDA模型,再将测试文本输入word2vec‑LDA模型,并计算文本主题中心向量;根据文本主题中心向量,在训练好的word2vec模型所构成的词向量空间中,寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。本发明利用word2vec改进LDA,依据word2vec可以将单词进行向量化表示,可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足,提出了一个word2vec‑LDA模型。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种基于word2vec-LDA模型的文本主题词提取方法。
背景技术
主题词提取的主要工作是提取出能够代表文档主题内容的词或短语。现有的主题词提取方法两种:有监督方法和无监督方法。
有监督的主题词提取方法包括基于SVM、决策树、朴素贝叶斯等有监督机器学习方法,有监督的主题词提取方法的优点是正确率比较高,模型相对简单,但缺点是需要大规模的已标注语料作为训练数据,对训练数据的依赖较高,且需要耗费大量的资源进行人工标注;
无监督的主题词提取方法主要是基于统计的方法,常用的统计特征有词频、TF-IDF、词共现等,而无监督的主题词提取方法主要就是基于这些统计特征进行分析的,其中具有代表性的是以LDA模型为代表的主题模型。LDA是一个三级分层贝叶斯模型,它把文本集合中的每一项都看成是潜在主题集合上的一个随机混合,是一个典型的生成式主题模型。由于其把文档-主题-词汇三者联系在一起,所以经常会被用于文本主题词的自动提取。
但是LDA存在的不足是,LDA在建模时利用的是基于词频的词袋模型,词袋模型的问题是不计词序,也就是说忽略了单词之间的联系以及句式结构,忽略了上下文信息。
发明内容
本发明针对LDA存在忽略了单词之间的联系以及句式结构等的问题,提供了一种基于word2vec-LDA模型的文本主题词提取方法,该方法利用word2vec改进LDA,依据word2vec可以将单词进行向量化表示,可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足,提出了一个word2vec-LDA模型。
本发明采用如下技术方案:
一种基于word2vec-LDA模型的文本主题词提取方法,包括如下步骤:
S1、利用语料库一训练LDA模型;
S2、利用语料库二训练word2vec模型,对语料库二中出现的单词的处理转化为对K维向量空间中向量的运算,利用向量之间的相似度来表示单词的相似度,进而来表示文本语义的相似度;
S3、在线测试时对测试文本先进行预处理,包括文本切分、对测试文本内容进行分词并去停用词等操作;
S4、将LDA模型和word2vec模型参数输入word2vec-LDA模型,再将测试文本输入word2vec-LDA模型,并计算文本主题中心向量;
S5、根据文本主题中心向量,在训练好的word2vec模型所构成的词向量空间中,寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。
本发明运用LDA模型和word2vec模型,下文对本发明进行具体描述:
模型输入:将语料库一的每篇文本表示成词袋模型,即由N个文本与M个唯一性词汇组成的N×M矩阵:
其中matrixd-w矩阵的行表示文本d1,d2,…,dn,matrixd-w矩阵的列表示唯一性词汇w1,w2,…,wM。
模型输出:输出两个矩阵,一个是由N个文本与K个主题组成的N×K矩阵(文本-潜在主题矩阵),一个是由K个主题与M个唯一性词汇组成的K×M矩阵(潜在主题-词汇矩阵):
其中matrixd-t表示N个文本在K个潜在主题上的概率分布,matrixt-w表示K个主题在M个唯一性词汇上的概率分布,测试时利用matrixt-w矩阵进行测试文本的主题判断。
语料库二训练word2vec模型的数据包含LDA模型中的词表中的词,将LDA中的词表中的词向量化后,得到一组代表词表的向量如式(4)所示,
根据式(3)可以得到代表不同主题的向量如式(5)所示,
测试文本通过LDA模型的判断,文本主题分布为文本主题中心向量为式(6)。
如式(6)得到的该测试文本的主题中心向量后,在已训练的word2vec模型所构成的词向量空间中,对于文本主题中心向量计算该向量到已知词向量空间中所有点的距离并排序,找到距离最小的n个词向量所对应的词,即为该测试文本提取出来的主题词。
本发明由于采用了上述技术方案,具有以下有益效果:本发明针对LDA存在忽略了单词之间的联系以及句式结构等的问题,利用word2vec改进LDA,依据word2vec可以将单词进行向量化表示,可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足,提出了一个word2vec-LDA模型,从而更加准确地进行文本主题词的自动化提取。
附图说明
附图用来提供对本发明的优选的理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的整体流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所述描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明运用LDA模型和word2vec模型,其中:
LDA模型:LDA实质上为一个三层贝叶斯框架;LDA相较于PLSA的一个优点是它采用了贝叶斯估计而不是最大似然估计,使得LDA更加适用于数据集规模不大的情况。
word2vec模型:word2vec是谷歌(Google)公司在2013年开源的一款高效工具,它能将自然语言中的单词表征为一个实数值的稠密向量。word2vec模型是能够进行词共现分析的一个三层神经网络,用大量语料库训练word2vec模型可以把对语料库中出现的单词的处理转化为对K维向量空间中向量的运算,可以利用向量之间的相似度来表示单词的相似度,进而来表示文本语义的相似度。因此,可以利用训练word2vec模型所得到的词向量来做很多自然语言处理相关的工作。
中文文本有着非常复杂的语义关系,语义相似的词汇也最可能同属于同一个主题。因此,本发明针对LDA存在忽略了单词之间的联系以及句式结构等的问题,利用word2vec改进LDA,依据word2vec可以将单词进行向量化表示,可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足,提出了一个word2vec-LDA模型,从而更加准确地进行文本主题词的自动化提取。
实施例:
本实施例利用中文维基百科数据训练word2vec模型,word2vec的实现利用python的第三方库gensim来完成的,其中窗口大小设置为5,向量维数设置为300,低频词过滤设置为10。
测试文本为搜狗新闻文本分类语料,分为财经、IT、健康、体育、旅游、教育、招聘、文化、军事九个类别,每个类别有1990个文本,通过人工判断从某个类别文本自动提取的主题词是否包含与该类别相关的词来判断主题提取是否正确,根据这个思想定义准确率:
其中ncorrect指正确提取主题词的文本数量,ntotal指测试文本的总数量。
本实施例设置两组实验,一组是本发明方法利用word2vec-LDA模型进行主题词提取,另一组是利用原始的LDA模型进行主题词提取,两个模型在九个类别文本中准确率的表现如表1所示。
表1主题词数为5的提取结果 (%)
本发明方法在九类文本上的表现均好于原始的LDA模型主题词提取方法,原因是本文将原始的LDA利用word2vec进行改进,把词向量化,从而寻找文本主题中心向量,并根据该向量在整个词空间寻找主题词,而并不局限于测试文本中的词汇,使得主题词的提取更具有概括性;另外word2vec模型可以改进LDA模型中忽略的上下文关系加入进来,使得主题词的提取更加准确。
在每一类文本中抽出一个典型文本进行测试,主题词提取示例如表2所示,由下表可从直观上看到word2vec-LDA模型相较于LDA模型提取出的关键词描述更加精确,概括性更强。
表2主题词提取示例
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于word2vec-LDA模型的文本主题词提取方法,包括如下步骤:
S1、利用语料库一训练LDA模型;
S2、利用语料库二训练word2vec模型,构成词向量空间;
S3、在线测试时对测试文本进行预处理,包括对测试文本内容进行分词并去停用词;
S4、将LDA模型和word2vec模型参数输入word2vec-LDA模型,再将测试文本输入word2vec-LDA模型,并计算文本主题中心向量;
S5、根据步骤S4中获取的文本主题中心向量,在训练好的word2vec模型所构成的词向量空间中,寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。
2.根据权利要求1所述的一种基于word2vec-LDA模型的文本主题词提取方法,其特征在于,所述步骤S1中训练LDA模型的具体步骤包括:
S11、模型输入:将语料库一的每篇文本表示成词袋模型,即由N个文本与M个唯一性词汇组成的N×M矩阵:
其中matrixd-w矩阵的行表示文本d1,d2,…,dn,matrixd-w矩阵的列表示唯一性词汇w1,w2,…,wM。
S12、模型输出:输出两个矩阵,分别为由N个文本与K个主题组成的N×K矩阵和由K个主题与M个唯一性词汇组成的K×M矩阵:
其中matrixd-t表示N个文本在K个潜在主题上的概率分布,matrixt-w表示K个主题在M个唯一性词汇上的概率分布,测试时利用matrixt-w矩阵进行测试文本的主题判断。
3.根据权利要求2所述的一种基于word2vec-LDA模型的文本主题词提取方法,其特征在于,所述步骤S4中计算文本主题中心向量的具体步骤包括:
语料库二训练word2vec模型的数据包含LDA模型中的词表中的词,将LDA中的词表中的词向量化后,得到一组代表词表的向量如式(4)所示,
根据式(3)得到代表不同主题的向量如式(5)所示,
测试文本通过LDA模型的判断,文本主题分布为文本主题中心向量为式(6)。
。
4.根据权利要求3所述的一种基于word2vec-LDA模型的文本主题词提取方法,其特征在于,所述步骤S5的具体步骤为:
根据式(6)得到的该测试文本的主题中心向量后,在已训练的word2vec模型所构成的词向量空间中寻找距离向量最近的n个词,即为该测试文本提取出来的主题词。
5.根据权利要求4所述的一种基于word2vec-LDA模型的文本主题词提取方法,其特征在于,所述寻找的具体步骤为:
在已训练的word2vec模型所构成的词向量空间中,对于文本主题中心向量计算该向量到已知词向量空间中所有点的距离并排序,找到距离最小的n个词向量所对应的词,即为该测试文本提取出来的主题词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710272622.3A CN107122349A (zh) | 2017-04-24 | 2017-04-24 | 一种基于word2vec‑LDA模型的文本主题词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710272622.3A CN107122349A (zh) | 2017-04-24 | 2017-04-24 | 一种基于word2vec‑LDA模型的文本主题词提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107122349A true CN107122349A (zh) | 2017-09-01 |
Family
ID=59724884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710272622.3A Pending CN107122349A (zh) | 2017-04-24 | 2017-04-24 | 一种基于word2vec‑LDA模型的文本主题词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122349A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526834A (zh) * | 2017-09-05 | 2017-12-29 | 北京工商大学 | 联合词性与词序的相关因子训练的word2vec改进方法 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN107832298A (zh) * | 2017-11-16 | 2018-03-23 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN109739951A (zh) * | 2018-12-25 | 2019-05-10 | 广东工业大学 | 一种基于lda主题模型的文本特征提取方法 |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110162769A (zh) * | 2018-07-05 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN110188352A (zh) * | 2019-05-28 | 2019-08-30 | 北京金山数字娱乐科技有限公司 | 一种文本主题确定方法、装置、计算设备及存储介质 |
CN110442733A (zh) * | 2019-08-08 | 2019-11-12 | 恒生电子股份有限公司 | 一种主题生成方法、装置和设备及介质 |
CN111506758A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 物品名称确定方法、装置、计算机设备及存储介质 |
TWI709927B (zh) * | 2017-12-06 | 2020-11-11 | 開曼群島商創新先進技術有限公司 | 目標用戶群體的確定方法及裝置 |
CN110209941B (zh) * | 2019-06-03 | 2021-01-15 | 北京卡路里信息技术有限公司 | 维护推送内容池的方法、推送方法、装置、介质及服务器 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN113761911A (zh) * | 2021-03-17 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于弱监督的领域文本标注方法 |
CN115618851A (zh) * | 2022-07-12 | 2023-01-17 | 广东坚美铝型材厂(集团)有限公司 | 改进的lda文本主题提取方法、系统、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013205864A (ja) * | 2012-03-27 | 2013-10-07 | Kddi Corp | 話題語抽出装置、話題語抽出方法、およびプログラム |
CN105677769A (zh) * | 2015-12-29 | 2016-06-15 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN105975499A (zh) * | 2016-04-27 | 2016-09-28 | 深圳大学 | 一种文本主题检测方法及系统 |
-
2017
- 2017-04-24 CN CN201710272622.3A patent/CN107122349A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013205864A (ja) * | 2012-03-27 | 2013-10-07 | Kddi Corp | 話題語抽出装置、話題語抽出方法、およびプログラム |
CN105677769A (zh) * | 2015-12-29 | 2016-06-15 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN105975499A (zh) * | 2016-04-27 | 2016-09-28 | 深圳大学 | 一种文本主题检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
ZHIBO WANG: "A Hybrid Document Feature Extraction Method Using Latent Dirichlet", 《2016 IEEE FIRST INTERNATIONAL CONFERENCE ON DATA SCIENCE IN CYBERSPACE》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526834B (zh) * | 2017-09-05 | 2020-10-23 | 北京工商大学 | 联合词性与词序的相关因子训练的word2vec改进方法 |
CN107526834A (zh) * | 2017-09-05 | 2017-12-29 | 北京工商大学 | 联合词性与词序的相关因子训练的word2vec改进方法 |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN107609121B (zh) * | 2017-09-14 | 2021-03-30 | 暨南大学 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN107832298A (zh) * | 2017-11-16 | 2018-03-23 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
TWI709927B (zh) * | 2017-12-06 | 2020-11-11 | 開曼群島商創新先進技術有限公司 | 目標用戶群體的確定方法及裝置 |
CN110162769A (zh) * | 2018-07-05 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN110162769B (zh) * | 2018-07-05 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN109739951A (zh) * | 2018-12-25 | 2019-05-10 | 广东工业大学 | 一种基于lda主题模型的文本特征提取方法 |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110046228B (zh) * | 2019-04-18 | 2021-06-11 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110188352A (zh) * | 2019-05-28 | 2019-08-30 | 北京金山数字娱乐科技有限公司 | 一种文本主题确定方法、装置、计算设备及存储介质 |
CN110209941B (zh) * | 2019-06-03 | 2021-01-15 | 北京卡路里信息技术有限公司 | 维护推送内容池的方法、推送方法、装置、介质及服务器 |
CN110442733A (zh) * | 2019-08-08 | 2019-11-12 | 恒生电子股份有限公司 | 一种主题生成方法、装置和设备及介质 |
CN111506758A (zh) * | 2020-04-16 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 物品名称确定方法、装置、计算机设备及存储介质 |
WO2021208633A1 (zh) * | 2020-04-16 | 2021-10-21 | 腾讯科技(深圳)有限公司 | 物品名称确定方法、装置、计算机设备及存储介质 |
CN111506758B (zh) * | 2020-04-16 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 物品名称确定方法、装置、计算机设备及存储介质 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN113761911A (zh) * | 2021-03-17 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于弱监督的领域文本标注方法 |
CN115618851A (zh) * | 2022-07-12 | 2023-01-17 | 广东坚美铝型材厂(集团)有限公司 | 改进的lda文本主题提取方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN107861939A (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
CN106445919A (zh) | 一种情感分类方法及装置 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN106776562A (zh) | 一种关键词提取方法和提取系统 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN108108354B (zh) | 一种基于深度学习的微博用户性别预测方法 | |
CN103034626A (zh) | 情感分析系统及方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
Psomakelis et al. | Comparing methods for twitter sentiment analysis | |
CN103473380B (zh) | 一种计算机文本情感分类方法 | |
CN105205124A (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170901 |