CN109558482B - 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 - Google Patents

一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 Download PDF

Info

Publication number
CN109558482B
CN109558482B CN201810843680.1A CN201810843680A CN109558482B CN 109558482 B CN109558482 B CN 109558482B CN 201810843680 A CN201810843680 A CN 201810843680A CN 109558482 B CN109558482 B CN 109558482B
Authority
CN
China
Prior art keywords
text
word
lda
vector
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810843680.1A
Other languages
English (en)
Other versions
CN109558482A (zh
Inventor
陆遥
夏中舟
吴峻峰
张勇瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810843680.1A priority Critical patent/CN109558482B/zh
Publication of CN109558482A publication Critical patent/CN109558482A/zh
Application granted granted Critical
Publication of CN109558482B publication Critical patent/CN109558482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本主题聚类领域,更具体地,涉及一种基于Spark框架的文本聚类模型PW‑LDA的并行化方法。本发明主要包括数据载入、对文本数据预处理、词向量训练、Partition提取目标段、LDA训练、计算主题向量以及文本聚类等步骤。本发明使用Spark框架,通过MapReduce以及GraphX技术对模型中各模块进行了并行化的设计与实现,大幅加速了程序运行,从而为其提供实时运行的可行性。

Description

一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
技术领域
本发明涉及文本主题聚类领域,更具体地,涉及一种基于Spark框架的文本聚类模型PW-LDA的并行化方法。
背景技术
PW-LDA模型是一种新的文本聚类模型,它是主题模型LDA(Latent DirichletAllocation)与词嵌入模型Word2Vec的结合。主题模型是一种概率模型,与传统的向量空间模型相比较,不再单纯地在词频空间对文档进行分析,而是引入了主题空间,实现了将文档的分析从词频空间降维至到主题空间。词嵌入模型也是一种概率模型,它通过计算词语的向量来使向量对应的词语序列概率符合实际文本。PW-LDA中还提出了partition算法,根据词嵌入模型的向量结果,分析出文本中的不同部分,并只对用户需要的部分进行聚类分析。PW-LDA模型作为一个聚类模型在短文本聚类上表现出了良好的效果,但是其中的LDA模型与Word2Vec模型作为一种机器学习算法极为耗时,尤其是在使用大数据的情况下,模型中如文本预处理等模块的运行时间也会急剧增加。市面上许多应用针对这一问题也进行了并行优化,并行技术大多基于Hadoop框架。Hadoop框架是基于MapReduce技术的并行方案。MapReduce技术包含map与reduce两个部分,map是对一些独立元素组成的概念上的列表的每一个元素进行指定的操作,reduce是对一个列表的元素进行适当的合并。MapReduce技术在许多程序的并行化上表现良好,但它在一些大的矩阵运算上表现欠佳,同时Hadoop框架将中间数据保存在硬盘中,在对数据进行反复读写的过程中硬盘I/O(Input/Output)耗时巨大。针对这些问题,本发明对PW-LDA框架使用了Spark框架作为并行方案,来加速程序的运行。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于Spark框架的文本聚类模型PW-LDA的并行化方法。
为解决上述技术问题,本发明采用的技术方案是:一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,包括以下步骤:
S1:载入科技文献的语料库数据并初始化为Spark的分布式数据类型对象。
S2:对导入的语料库中文本通过Map方法进行分词、去停用词等预处理得到训练样本。
S3:对训练样本使用Spark的Word2Vec接口进行词向量训练。
S4:根据Word2Vec的结果使用Partition算法从训练样本的文本中提取目标段并通过Map方法实现算法的并行。
S5:对Partition算法提取出的目标段使用Spark的基于GraphX实现的LDA接口训练得到主题-词语矩阵。
S6:根据LDA模型得到的主题-词语矩阵以及Word2Vec得到的词向量计算主题向量并通过Map方法实现计算过程并行化。
S7:根据Word2Vec结果对Partition得到的目标段中词语计算得到文本向量,将其比对与所有主题向量的余弦相似度,寻找与目标段最匹配的主题,并通过Map方法实现计算过程的并行化。
S8:使用Reduce技术从各计算节点汇总计算结果。
优选地,步骤S4主要包括如下几个步骤:
s1:根据Word2Vec获得的词向量累加取平均值计算出文本中每一句的句向量。
s2:计算同一篇文本中两两相邻句子向量的欧式距离,得到一个序列,寻找其中数值突变位置,看作文本语义转折处,分离文本各部分。
与现有技术相比,本发明的有益效果是:
本发明为一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,本发明以短文本聚类模型PW-LDA作为对象,使用Spark框架对模型进行了并行化实现,力求模型在实际应用的运行中能更快地训练出聚类结果;PW-LDA模型具有算法复杂度高,数据规模庞大等特性,其串行运行的时间过长,在互联网应用中不具备使用意义;使用Spark框架,通过MapReduce以及GraphX技术对模型中各模块进行了并行化的设计与实现,大幅加速了程序运行,从而为其提供实时运行的可行性。
附图说明
图1为本发明的流程图;
图2为本发明中MapReduce的示意图;
图3为本发明中LDA的GraphX的示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
图1至图3为本发明一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,主要包括以下步骤:
S1:载入科技文献的语料库数据并初始化为Spark的分布式数据类型对象。
S2:对导入的语料库中文本通过Map方法进行分词、去停用词预处理得到训练样本。
S3:对训练样本使用Spark的Word2Vec接口进行词向量训练。
S4:根据Word2Vec的结果使用Partition算法从训练样本的文本中提取目标段并通过Map方法实现算法的并行。
S5:对Partition算法提取出的目标段使用Spark的基于GraphX实现的LDA接口训练得到主题-词语矩阵。
S6:根据LDA模型得到的主题-词语矩阵以及Word2Vec得到的词向量计算主题向量并通过Map方法实现计算过程并行化。
S7:根据Word2Vec结果对Partition得到的目标段中词语计算得到文本向量,将其比对与所有主题向量的余弦相似度,寻找与目标段最匹配的主题,并通过Map方法实现计算过程的并行化。
S8:使用Reduce技术从各计算节点汇总计算结果。
其中,步骤S4主要包括如下几个步骤:
s1:根据Word2Vec获得的词向量累加取平均值计算出文本中每一句的句向量;
s2:计算同一篇文本中两两相邻句子向量的欧式距离,得到一个序列,寻找其中数值突变位置,看作文本语义转折处,分离文本各部分。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,其特征在于,包括以下步骤:
S1:载入科技文献的语料库数据并初始化为Spark的分布式数据类型对象;
S2:对导入的语料库中文本通过Map方法进行分词、去停用词预处理得到训练样本;
S3:对训练样本使用Spark的Word2Vec接口进行词向量训练;
S4:根据Word2Vec的结果使用Partition算法从训练样本的文本中提取目标段并通过Map方法实现算法的并行;
S5:对Partition算法提取出的目标段使用Spark的基于GraphX实现的LDA接口训练得到主题-词语矩阵;
S6:根据LDA模型得到的主题-词语矩阵以及Word2Vec得到的词向量计算主题向量并通过Map方法实现计算过程并行化;
S7:根据Word2Vec结果对Partition得到的目标段中词语计算得到文本向量,将其比对与所有主题向量的余弦相似度,寻找与目标段最匹配的主题,并通过Map方法实现计算过程的并行化;
S8:使用Reduce技术从各计算节点汇总计算结果。
2.根据权利要求1所述的一种基于Spark框架的文本聚类模型PW-LDA的并行化 方法,其特征在于,步骤S4主要包括如下几个步骤:
s1:根据Word2Vec获得的词向量累加取平均值计算出文本中每一句的句向量;
s2:计算同一篇文本中两两相邻句子向量的欧式距离,得到一个序列,寻找其中数值突变位置,看作文本语义转折处,分离文本各部分。
CN201810843680.1A 2018-07-27 2018-07-27 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 Active CN109558482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810843680.1A CN109558482B (zh) 2018-07-27 2018-07-27 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810843680.1A CN109558482B (zh) 2018-07-27 2018-07-27 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法

Publications (2)

Publication Number Publication Date
CN109558482A CN109558482A (zh) 2019-04-02
CN109558482B true CN109558482B (zh) 2023-01-06

Family

ID=65864555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810843680.1A Active CN109558482B (zh) 2018-07-27 2018-07-27 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法

Country Status (1)

Country Link
CN (1) CN109558482B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176800A (zh) * 2019-07-05 2020-05-19 腾讯科技(深圳)有限公司 文档主题生成模型的训练方法和装置
CN111061880A (zh) * 2019-12-24 2020-04-24 成都迪普曼林信息技术有限公司 海量文本数据快速聚类方法
CN112668758A (zh) * 2020-12-15 2021-04-16 山东鲁能软件技术有限公司 一种配电网网格化规划成果的校验方法
CN113159105B (zh) * 2021-02-26 2023-08-08 北京科技大学 一种驾驶行为无监督模式识别方法及数据采集监控系统
CN114492429B (zh) * 2022-01-12 2023-07-18 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及系统
CN105760499A (zh) * 2016-02-22 2016-07-13 浪潮软件股份有限公司 一种基于lda主题模型来分析和预测网络舆情的方法
CN107292323A (zh) * 2016-03-31 2017-10-24 日本电气株式会社 用于训练混合模型的方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314511B2 (en) * 1997-04-03 2001-11-06 University Of Washington Mechanism for freeing registers on processors that perform dynamic out-of-order execution of instructions using renaming registers
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及系统
CN105760499A (zh) * 2016-02-22 2016-07-13 浪潮软件股份有限公司 一种基于lda主题模型来分析和预测网络舆情的方法
CN107292323A (zh) * 2016-03-31 2017-10-24 日本电气株式会社 用于训练混合模型的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LDA Meets Word2Vec: A Novel Model for Academic Abstract Clustering;Changzhou Li et al.;《International World Wide Web Conference Committee》;20180427;第1-8页 *

Also Published As

Publication number Publication date
CN109558482A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109558482B (zh) 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
US20200143289A1 (en) Systems and method for performing contextual classification using supervised and unsupervised training
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN111428493A (zh) 实体关系获取方法、装置、设备及存储介质
US20190163737A1 (en) Method and apparatus for constructing binary feature dictionary
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
WO2017101541A1 (zh) 文本聚类方法、装置及计算设备
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN111666766A (zh) 数据处理方法、装置和设备
Sun et al. Probabilistic Chinese word segmentation with non-local information and stochastic training
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN112528653A (zh) 短文本实体识别方法和系统
Zhuang et al. An ensemble approach to conversation generation
CN117540023A (zh) 基于模态融合图卷积网络的图像联合文本情感分析方法
Nararatwong et al. Improving Thai word and sentence segmentation using linguistic knowledge
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN113408282A (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
Tang et al. A parallel conditional random fields model based on spark computing environment
CN113536790A (zh) 基于自然语言处理的模型训练方法及装置
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及系统
Aravindkumar et al. Generation of image caption using CNN-LSTM based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant