CN109558482A - 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 - Google Patents

一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 Download PDF

Info

Publication number
CN109558482A
CN109558482A CN201810843680.1A CN201810843680A CN109558482A CN 109558482 A CN109558482 A CN 109558482A CN 201810843680 A CN201810843680 A CN 201810843680A CN 109558482 A CN109558482 A CN 109558482A
Authority
CN
China
Prior art keywords
text
lda
spark
vector
word2vec
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810843680.1A
Other languages
English (en)
Other versions
CN109558482B (zh
Inventor
陆遥
夏中舟
吴峻峰
张勇瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201810843680.1A priority Critical patent/CN109558482B/zh
Publication of CN109558482A publication Critical patent/CN109558482A/zh
Application granted granted Critical
Publication of CN109558482B publication Critical patent/CN109558482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本主题聚类领域,更具体地,涉及一种基于Spark框架的文本聚类模型PW‑LDA的并行化方法。本发明主要包括数据载入、对文本数据预处理、词向量训练、Partition提取目标段、LDA训练、计算主题向量以及文本聚类等步骤。本发明使用Spark框架,通过MapReduce以及GraphX技术对模型中各模块进行了并行化的设计与实现,大幅加速了程序运行,从而为其提供实时运行的可行性。

Description

一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
技术领域
本发明涉及文本主题聚类领域,更具体地,涉及一种基于Spark框架的文本聚类模型PW-LDA的并行化方法。
背景技术
PW-LDA模型是一种新的文本聚类模型,它是主题模型LDA(Latent DirichletAllocation)与词嵌入模型Word2Vec的结合。主题模型是一种概率模型,与传统的向量空间模型相比较,不再单纯地在词频空间对文档进行分析,而是引入了主题空间,实现了将文档的分析从词频空间降维至到主题空间。词嵌入模型也是一种概率模型,它通过计算词语的向量来使向量对应的词语序列概率符合实际文本。PW-LDA中还提出了partition算法,根据词嵌入模型的向量结果,分析出文本中的不同部分,并只对用户需要的部分进行聚类分析。PW-LDA模型作为一个聚类模型在短文本聚类上表现出了良好的效果,但是其中的LDA模型与Word2Vec模型作为一种机器学习算法极为耗时,尤其是在使用大数据的情况下,模型中如文本预处理等模块的运行时间也会急剧增加。市面上许多应用针对这一问题也进行了并行优化,并行技术大多基于Hadoop框架。Hadoop框架是基于MapReduce技术的并行方案。MapReduce技术包含map与reduce两个部分,map是对一些独立元素组成的概念上的列表的每一个元素进行指定的操作,reduce是对一个列表的元素进行适当的合并。MapReduce技术在许多程序的并行化上表现良好,但它在一些大的矩阵运算上表现欠佳,同时Hadoop框架将中间数据保存在硬盘中,在对数据进行反复读写的过程中硬盘I/O(Input/Output)耗时巨大。针对这些问题,本发明对PW-LDA框架使用了Spark框架作为并行方案,来加速程序的运行。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于Spark框架的文本聚类模型PW-LDA的并行化方法。
为解决上述技术问题,本发明采用的技术方案是:一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,包括以下步骤:
S1:载入科技文献的语料库数据并初始化为Spark的分布式数据类型对象。
S2:对导入的语料库中文本通过Map方法进行分词、去停用词等预处理得到训练样本。
S3:对训练样本使用Spark的Word2Vec接口进行词向量训练。
S4:根据Word2Vec的结果使用Partition算法从训练样本的文本中提取目标段并通过Map方法实现算法的并行。
S5:对Partition算法提取出的目标段使用Spark的基于GraphX实现的LDA接口训练得到主题-词语矩阵。
S6:根据LDA模型得到的主题-词语矩阵以及Word2Vec得到的词向量计算主题向量并通过Map方法实现计算过程并行化。
S7:根据Word2Vec结果对Partition得到的目标段中词语计算得到文本向量,将其比对与所有主题向量的余弦相似度,寻找与目标段最匹配的主题,并通过Map方法实现计算过程的并行化。
S8:使用Reduce技术从各计算节点汇总计算结果。
优选地,步骤S4主要包括如下几个步骤:
s1:根据Word2Vec获得的词向量累加取平均值计算出文本中每一句的句向量。
s2:计算同一篇文本中两两相邻句子向量的欧式距离,得到一个序列,寻找其中数值突变位置,看作文本语义转折处,分离文本各部分。
与现有技术相比,本发明的有益效果是:
本发明为一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,本发明以短文本聚类模型PW-LDA作为对象,使用Spark框架对模型进行了并行化实现,力求模型在实际应用的运行中能更快地训练出聚类结果;PW-LDA模型具有算法复杂度高,数据规模庞大等特性,其串行运行的时间过长,在互联网应用中不具备使用意义;使用Spark框架,通过MapReduce以及GraphX技术对模型中各模块进行了并行化的设计与实现,大幅加速了程序运行,从而为其提供实时运行的可行性。
附图说明
图1为本发明的流程图;
图2为本发明中MapReduce的示意图;
图3为本发明中LDA的GraphX的示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
图1至图3为本发明一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,主要包括以下步骤:
S1:载入科技文献的语料库数据并初始化为Spark的分布式数据类型对象。
S2:对导入的语料库中文本通过Map方法进行分词、去停用词预处理得到训练样本。
S3:对训练样本使用Spark的Word2Vec接口进行词向量训练。
S4:根据Word2Vec的结果使用Partition算法从训练样本的文本中提取目标段并通过Map方法实现算法的并行。
S5:对Partition算法提取出的目标段使用Spark的基于GraphX实现的LDA接口训练得到主题-词语矩阵。
S6:根据LDA模型得到的主题-词语矩阵以及Word2Vec得到的词向量计算主题向量并通过Map方法实现计算过程并行化。
S7:根据Word2Vec结果对Partition得到的目标段中词语计算得到文本向量,将其比对与所有主题向量的余弦相似度,寻找与目标段最匹配的主题,并通过Map方法实现计算过程的并行化。
S8:使用Reduce技术从各计算节点汇总计算结果。
其中,步骤S4主要包括如下几个步骤:
s1:根据Word2Vec获得的词向量累加取平均值计算出文本中每一句的句向量;
s2:计算同一篇文本中两两相邻句子向量的欧式距离,得到一个序列,寻找其中数值突变位置,看作文本语义转折处,分离文本各部分。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,其特征在于,包括以下步骤:
S1:载入科技文献的语料库数据并初始化为Spark的分布式数据类型对象;
S2:对导入的语料库中文本通过Map方法进行分词、去停用词预处理得到训练样本;
S3:对训练样本使用Spark的Word2Vec接口进行词向量训练;
S4:根据Word2Vec的结果使用Partition算法从训练样本的文本中提取目标段并通过Map方法实现算法的并行;
S5:对Partition算法提取出的目标段使用Spark的基于GraphX实现的LDA接口训练得到主题-词语矩阵;
S6:根据LDA模型得到的主题-词语矩阵以及Word2Vec得到的词向量计算主题向量并通过Map方法实现计算过程并行化;
S7:根据Word2Vec结果对Partition得到的目标段中词语计算得到文本向量,将其比对与所有主题向量的余弦相似度,寻找与目标段最匹配的主题,并通过Map方法实现计算过程的并行化;
S8:使用Reduce技术从各计算节点汇总计算结果。
2.根据权利要求1所述的一种基于Spark框架的文本聚类模型PW-LDA的并行方法,其特征在于,步骤S4主要包括如下几个步骤:
s1:根据Word2Vec获得的词向量累加取平均值计算出文本中每一句的句向量;
s2:计算同一篇文本中两两相邻句子向量的欧式距离,得到一个序列,寻找其中数值突变位置,看作文本语义转折处,分离文本各部分。
CN201810843680.1A 2018-07-27 2018-07-27 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 Active CN109558482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810843680.1A CN109558482B (zh) 2018-07-27 2018-07-27 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810843680.1A CN109558482B (zh) 2018-07-27 2018-07-27 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法

Publications (2)

Publication Number Publication Date
CN109558482A true CN109558482A (zh) 2019-04-02
CN109558482B CN109558482B (zh) 2023-01-06

Family

ID=65864555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810843680.1A Active CN109558482B (zh) 2018-07-27 2018-07-27 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法

Country Status (1)

Country Link
CN (1) CN109558482B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061880A (zh) * 2019-12-24 2020-04-24 成都迪普曼林信息技术有限公司 海量文本数据快速聚类方法
CN111176800A (zh) * 2019-07-05 2020-05-19 腾讯科技(深圳)有限公司 文档主题生成模型的训练方法和装置
CN112668758A (zh) * 2020-12-15 2021-04-16 山东鲁能软件技术有限公司 一种配电网网格化规划成果的校验方法
CN113159105A (zh) * 2021-02-26 2021-07-23 北京科技大学 一种驾驶行为无监督模式识别方法及数据采集监控系统
WO2023134074A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010004755A1 (en) * 1997-04-03 2001-06-21 Henry M Levy Mechanism for freeing registers on processors that perform dynamic out-of-order execution of instructions using renaming registers
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及系统
CN105760499A (zh) * 2016-02-22 2016-07-13 浪潮软件股份有限公司 一种基于lda主题模型来分析和预测网络舆情的方法
CN107292323A (zh) * 2016-03-31 2017-10-24 日本电气株式会社 用于训练混合模型的方法和设备
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010004755A1 (en) * 1997-04-03 2001-06-21 Henry M Levy Mechanism for freeing registers on processors that perform dynamic out-of-order execution of instructions using renaming registers
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及系统
CN105760499A (zh) * 2016-02-22 2016-07-13 浪潮软件股份有限公司 一种基于lda主题模型来分析和预测网络舆情的方法
CN107292323A (zh) * 2016-03-31 2017-10-24 日本电气株式会社 用于训练混合模型的方法和设备
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHANGZHOU LI ET AL.: "LDA Meets Word2Vec: A Novel Model for Academic Abstract Clustering", 《INTERNATIONAL WORLD WIDE WEB CONFERENCE COMMITTEE》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176800A (zh) * 2019-07-05 2020-05-19 腾讯科技(深圳)有限公司 文档主题生成模型的训练方法和装置
CN111061880A (zh) * 2019-12-24 2020-04-24 成都迪普曼林信息技术有限公司 海量文本数据快速聚类方法
CN112668758A (zh) * 2020-12-15 2021-04-16 山东鲁能软件技术有限公司 一种配电网网格化规划成果的校验方法
CN113159105A (zh) * 2021-02-26 2021-07-23 北京科技大学 一种驾驶行为无监督模式识别方法及数据采集监控系统
CN113159105B (zh) * 2021-02-26 2023-08-08 北京科技大学 一种驾驶行为无监督模式识别方法及数据采集监控系统
WO2023134074A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109558482B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN109558482A (zh) 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
Guo et al. DeepACLSTM: deep asymmetric convolutional long short-term memory neural models for protein secondary structure prediction
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
Simianer et al. Joint feature selection in distributed stochastic learning for large-scale discriminative training in SMT
Chen et al. Feature embedding for dependency parsing
Niu et al. Exploiting privileged information from web data for action and event recognition
Kumar et al. Sentimentalizer: Docker container utility over Cloud
Yang et al. Five-stroke based CNN-BiRNN-CRF network for Chinese named entity recognition
Tang et al. CRFs based parallel biomedical named entity recognition algorithm employing MapReduce framework
CN111666766A (zh) 数据处理方法、装置和设备
Su et al. Hierarchical dynamic parsing and encoding for action recognition
Patel et al. Dynamic lexicon generation for natural scene images
US11514034B2 (en) Conversion of natural language query
Rafae et al. An unsupervised method for discovering lexical variations in Roman Urdu informal text
Alayrac et al. Learning from narrated instruction videos
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
Tian et al. Federated Chinese word segmentation with global character associations
Lin et al. Multi-view unit intact space learning
CN112380348B (zh) 元数据处理方法、装置、电子设备及计算机可读存储介质
Singh et al. PublishInCovid19 at WNUT 2020 shared task-1: Entity recognition in wet lab protocols using structured learning ensemble and contextualised embeddings
Hou et al. Distributed image retrieval base on LSH indexing on spark
Jiao et al. A multicriterion query-based batch mode active learning technique
CN112749256A (zh) 文本处理方法、装置、设备及存储介质
CN111507098A (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
Aravindkumar et al. Generation of image caption using CNN-LSTM based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant