CN110851592B - 一种基于聚类的新闻文本最优主题数计算方法 - Google Patents

一种基于聚类的新闻文本最优主题数计算方法 Download PDF

Info

Publication number
CN110851592B
CN110851592B CN201910884160.XA CN201910884160A CN110851592B CN 110851592 B CN110851592 B CN 110851592B CN 201910884160 A CN201910884160 A CN 201910884160A CN 110851592 B CN110851592 B CN 110851592B
Authority
CN
China
Prior art keywords
clustering
word
news
word vectors
news text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910884160.XA
Other languages
English (en)
Other versions
CN110851592A (zh
Inventor
王红斌
王健雄
余正涛
线岩团
张亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910884160.XA priority Critical patent/CN110851592B/zh
Publication of CN110851592A publication Critical patent/CN110851592A/zh
Application granted granted Critical
Publication of CN110851592B publication Critical patent/CN110851592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聚类的新闻文本最优主题数计算方法,步骤为:Step1、新闻文本语料获取和预处理;Step2、对经过预处理的语料库进行词嵌入处理,获得语料库中文本的词向量;Step3、将所有的词向量作为一个整体,利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类,获得词向量的聚类数目;Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数。本发明利用词嵌入Word2Vec模型来表达主题语料之间的隐含语义关系,可以避探索词义相关关系,同时算法整体不存在迭代,计算简单,模型复杂度不高,因此可以避免现有方法在确定LDA最优主题数目所使用的都要迭代及每一步都需要求解目标函数的不足。

Description

一种基于聚类的新闻文本最优主题数计算方法
技术领域
本发明涉及一种基于聚类的新闻文本最优主题数计算方法,属于机器学习技术领域。
背景技术
主题建模是机器学习的一个活跃的研究领域,主要以潜在主题的形式从非结构化数据(通常是一组文本文档)构建模型,提取文档集合的宏观内容结构(通常是术语的多项式分布形式)。给定一组非结构化文本文档,主题建模假定文档 (语料库)中存在一定数量的潜在主题,并且每个文档包含不同比例的多个主题。研究人员已经研究出多种主题模型,并在NLP中有大量应用,其中潜在Dirichlet 分配(LDA)是主题建模方法中最常用的技术,是一种用于建模语料库的无监督生成概率方法。LDA训练过程如下:通过已知的“词语-文档”矩阵进行训练,得到“词语-主题”矩阵和“主题-文档”矩阵,其中“词语-文档”矩阵表示每个文档中每个词语的词频(即出现的概率);“词语-主题”矩阵表示每个主题中每个词语的概率(即词语分布);“主题-文档”矩阵表示每个文档中每个主题出现的概率(即主题分布)。显然,上述LDA训练过程中,需要获取文本语料的最优主题数目,不同数量的主题可能会影响主题模型的准确性和复杂度。主题数量不足可能导致 LDA模型过于粗糙而无法准确区分主题。另一方面,过多的主题可能导致模型过于复杂,使主题的解释和主观验证变得困难。
发明内容
本发明提供了一种基于聚类的新闻文本最优主题数计算方法,以用于通过本方法获得新闻文本最优主题数用于LDA模型进行主题识别。
本发明的技术方案是:一种基于聚类的新闻文本最优主题数计算方法,所述方法的具体步骤如下:
Step1、新闻文本语料获取和预处理;
Step2、对经过预处理的语料库进行词嵌入处理,获得语料库中文本的词向量;其中,采用词嵌入处理时,选择的维度200~300之间;
Step3、将所有的词向量作为一个整体,利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类,获得词向量的聚类数目;
Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数。
所述步骤Step1的具体步骤为:
Step1.1、通过爬虫从新闻平台上搜索新闻作为新闻文本,将该新闻文本作为主题数目提取的语料库;其中单个新闻文本为单篇新闻的全文;
Step1.2、对获取的语料库中的文本依次进行分词、去除停用词的预处理。
所述新闻的平台能为腾讯新闻、新浪、今日头条。
所述步骤Step3的具体步骤为:
Step3.1、计算两点之间的距离;
Step3.2、计算点的局部密度ρi以及该点到任何比其密度大的点的距离的最小值δi
Step3.3、将满足ρi≥0.6*(max(ρu)—min(ρu))+min(ρu)且δi≥0.2* (max(δv)—min(δv))+min(δv)的点认定为是类簇的中心,根据确定的类簇的中心数目,作为词向量的聚类数目;其中,i表示第i个词向量,max(ρu)表示ρu中 u取1,2,...n时所得的最大值,min(ρu)表示ρu中u取1,2,...n时所得的最小值, max(δv)表示δv中v取1,2,...n时所得的最大值,min(δv)表示δv中v取1,2,...n时所得的最小值,n表示词向量的总数。
本发明的有益效果是:本发明利用词嵌入Word2Vec模型来表达主题语料之间的隐含语义关系,可以避探索词义相关关系,同时算法整体不存在迭代,计算简单,模型复杂度不高,因此可以避免现有方法在确定LDA最优主题数目所使用的都要迭代及每一步都需要求解目标函数的不足。
附图说明
图1为本发明的原理流程图;
图2为本发明的词嵌入点分布图;
图3为本发明利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类时的决策图。
具体实施方式
实施例1:如图1-3所示,一种基于聚类的新闻文本最优主题数计算方法,所述方法具体步骤如下:
Step1、新闻文本语料获取和预处理;
Step1.1、获取要进行LDA主题提取的语料:针对近期较为热门的新闻话题,从腾讯新闻网页上搜索热门新闻话题,共获得100,400,1000篇新闻文本(此处是获得了三个文本数据集),文本包括新闻的全文。
Step1.2、对语料进行分词:把获得的数目不同的三个文本数据集通过分词和去除停用词来进行预处理。
把获得的数目不同的三个文本数据集通过分词和去除停用词来进行预处理。并进行人工主题提取,提取出的主题以及相关主题的文本数目。三个文本数据集均分别执行步骤Step2-Step5进行处理,处理方式相同,此处以400篇新闻文本为例,说明主题数目识别的具体过程,所得到到的主题及主题文本数如表1:
表1语料主题以及主题文章数目
主题 数目 主题 数目 主题 数目
主题1 40 主题2 3 主题3 16
主题4 3 主题5 19 主题6 51
主题7 16 主题8 23 主题9 34
主题10 4 主题11 16 主题12 29
主题13 23 主题14 13 主题15 36
主题16 12 主题17 33 主题18 29
Step2、对经过预处理的语料库进行词嵌入处理,所采用的是作为Python第三方包的已经封装入gensim下的Word2Vec来进行word embedding,以获得文本的词向量;对经过预处理之后的语料集,进行词嵌入操作,语料word2vec的维度选择在200~300之间,得到了语料词嵌入,为了方便直观展示聚类的过程,把词嵌入降维,映射到二维向量上,图2展示了文本词嵌入之后映射到二维空间内的点,图2中可以大概看出密度最大的点,被定义为聚类中心。
Step3、将所有的词向量作为一个整体,利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类,获得词向量的聚类数目;
所述步骤Step3的具体步骤为:
Step3.1计算两点之间的距离dij
Step3.2计算点的局部密度ρi以及该点到任何比其密度大的点的距离的最小值δi,数据点i的局部密度ρi定义为式(1):
Figure RE-GDA0002341714500000041
其中,如果x<0,那么X(x)=1;如果x≧0,则X(x)=0,dc是一个截断距离。基本上,ρi等于与点i的距离小于dc的点的个数。算法只对不同点的ρi的相对大小敏感,这意味着对于大数据集,分析结果对于dc的选择有很好鲁棒性。
数据点i的δi是点到任何比其密度大的点的距离的最小值式(2):
Figure RE-GDA0002341714500000042
对于密度最大的点,设置δi=maxj(dij)。
Step3.3、将满足ρi≥0.6*(max(ρu)—min(ρu))+min(ρu)且δi≥0.2* (max(δv)—min(δv))+min(δv)的点认定为是类簇的中心,根据确定的类簇的中心数目,作为词向量的聚类数目;其中,i表示第i个词向量,max(ρu)表示ρu中u取1,2,...n时所得的最大值,min(ρu)表示ρu中u取1,2,...n时所得的最小值, max(δv)表示δv中v取1,2,...n时所得的最大值,min(δv)表示δv中v取1,2,...n时所得的最小值,n表示词向量的总数。
在确定了类簇中心之后,所有其他点属于距离其最近的类簇中心所代表的类簇。在确定了类簇中心之后,剩余的每个点被归属到它的具有更高密度的最近邻所属类簇,而且分配只需一步完成,不需对目标函数进行迭代优化。
图3是以ρi为横坐标,以δi为纵坐标,被称作决策图,图3中具有高δi和相对较高的ρi的点被视为聚类中心,作为类簇的中心。
Step4、将词向量聚类获得的数目确定为文本最优主题数。聚类中心确定之后,剩余点被分配给与其具有较高密度的最近邻居相同的类簇。与其他迭代优化的聚类算法不同,类簇分配在单个步骤中执行。此时,得到的聚类数目也就是 LDA中文本的主题目。
在已知的确定LDA最优主题数目的多种方法中,基于经验的方法需要大量的时间精力,基于贝叶斯统计标准方法和非参数的方法算法复杂度较高,因此,本申请选取基于困惑度计算的方法作为本申请方法的比较对象。实验设计从新闻文本主题抽取的准确性和全面性评价指标进行模型评价。
根据实验结果可得,基于困惑度的方法得到的最佳聚类数目是26,基于本发明的方法得到的最佳聚类数目是15。使用经过去分词和停用词的数据集,利用LDA进行主题抽取,为了便于展示与比较,选取每个主题的前5个词进行评测,抽取结果如表2和表3所示,然后对结果进行分析。
表2基于困惑度的LDA主题抽取结果
Figure RE-GDA0002341714500000051
表3本发明的LDA主题抽取结果
Figure RE-GDA0002341714500000052
LDA主题模型使用主题下词的分布的综合语义来解释抽象主题,将抽取结果与人工判定主题(见表1)比较,并计算不同主题数目优化方法下LDA主题抽取的查准率P,查全率R与F1度量,评估方法的准确性指标。公式如式(3):
Figure RE-GDA0002341714500000053
其中,N2为LDA抽取的有效主题的数目;N1为有效主题中正确抽取的主题数目,所谓正确抽取的主题指LDA所抽取的主题包含在专家评判的领域研究主题之中;N3为通过文献调研和专家评判的领域主题数目。
两种方法与人工判断的主题进行比较,基于困惑的方法得到最佳聚类数目中有10个主题是干扰项,本发明中得到的最佳数目中有2个主题是干扰项,比较结果如表4所示。
表4基于不同最优主题选择方法的LDA主题抽取效果比较
Figure RE-GDA0002341714500000061
由结果可知,基于困惑度选择主题数目的方法抽取的有效主题较多,查全率较高,但是主题之间相似性和交叉性较强,出现重复和同义词汇概率高,对主题的诠释力度较差,主题识别效果不太理想,单个主题内部的主题词语义相对分散,不够集中,很难主题词进行主题聚焦。而本发明的方法选择主题数目虽然查全率较低,但是查准率高,各个主题之间的区分度较为明显,并且各个主题内部的主题词交叉性较低,相比基于困惑度的方法,具有更强的凝聚性,因此,本发明的方法不但能够自主确定最优主题数,并且在主题识别方面较基于困惑度的方法具有一定的优势。
为了比较模型的适用性,针对不同数量的主题为三个数据集中的每一个运用基于困惑度和本发明的方法选择适当的主题数目,按照上述400篇文本方法进行最优主题数选择,并建立LDA主题模型,通过对不同文本数量的三个数据集的 LDA主题模型输出词进行比较来评估所提出方法的适用性,三个数据集的结果比较如表5。
表5基于不同数据集大小的LDA主题抽取效果比较
Figure RE-GDA0002341714500000071
由结果可知,本发明方法查准率始终优于基于困惑度的方法,且本发明方法的方法在不同大小的语料中皆有一定的实适用性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种基于聚类的新闻文本最优主题数计算方法,其特征在于:所述方法的具体步骤如下:
Step1、新闻文本语料获取和预处理;
Step2、对经过预处理的语料库进行词嵌入处理,获得语料库中文本的词向量;其中,采用词嵌入处理时,选择的维度200~300之间;
Step3、将所有的词向量作为一个整体,利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类,获得词向量的聚类数目;
Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数;
所述步骤Step3的具体步骤为:
Step3.1、计算两点之间的距离;
Step3.2、计算点的局部密度ρi以及该点到任何比其密度大的点的距离的最小值δi
Step3.3、将满足ρi≥0.6*(max(ρu)—min(ρu))+min(ρu)且δi≥0.2*(max(δv)—min(δv))+min(δv)的点认定为是类簇的中心,根据确定的类簇的中心数目,作为词向量的聚类数目;其中,i表示第i个词向量,max(ρu)表示ρu中u取1,2,...n时所得的最大值,min(ρu)表示ρu中u取1,2,...n时所得的最小值,max(δv)表示δv中v取1,2,...n时所得的最大值,min(δv)表示δv中v取1,2,...n时所得的最小值,n表示词向量的总数。
2.根据权利要求1所述的基于聚类的新闻文本最优主题数计算方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过爬虫从新闻平台上搜索新闻作为新闻文本,将该新闻文本作为主题数目提取的语料库;其中单个新闻文本为单篇新闻的全文;
Step1.2、对获取的语料库中的文本依次进行分词、去除停用词的预处理。
3.根据权利要求2所述的基于聚类的新闻文本最优主题数计算方法,其特征在于:所述新闻的平台能为腾讯新闻、新浪、今日头条。
CN201910884160.XA 2019-09-19 2019-09-19 一种基于聚类的新闻文本最优主题数计算方法 Active CN110851592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910884160.XA CN110851592B (zh) 2019-09-19 2019-09-19 一种基于聚类的新闻文本最优主题数计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910884160.XA CN110851592B (zh) 2019-09-19 2019-09-19 一种基于聚类的新闻文本最优主题数计算方法

Publications (2)

Publication Number Publication Date
CN110851592A CN110851592A (zh) 2020-02-28
CN110851592B true CN110851592B (zh) 2022-04-05

Family

ID=69595517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910884160.XA Active CN110851592B (zh) 2019-09-19 2019-09-19 一种基于聚类的新闻文本最优主题数计算方法

Country Status (1)

Country Link
CN (1) CN110851592B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN108763348A (zh) * 2018-05-15 2018-11-06 南京邮电大学 一种扩展短文本词特征向量的分类改进方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8832105B2 (en) * 2011-05-26 2014-09-09 Yahoo! Inc. System for incrementally clustering news stories
CN108304502B (zh) * 2018-01-17 2020-10-02 中国科学院自动化研究所 基于海量新闻数据的快速热点检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN108763348A (zh) * 2018-05-15 2018-11-06 南京邮电大学 一种扩展短文本词特征向量的分类改进方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于LDA的新闻话题子话题划分方法;赵爱华等;《小型微型计算机系统》;20131231;第34卷(第4期);732-737 *

Also Published As

Publication number Publication date
CN110851592A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN109241530B (zh) 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
US20220122615A1 (en) Speaker diarization with early-stop clustering
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
KR20190058935A (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
CN111191442B (zh) 相似问题生成方法、装置、设备及介质
US20140032207A1 (en) Information Classification Based on Product Recognition
CN109189892B (zh) 一种基于文章评论的推荐方法及装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN113378563B (zh) 一种基于遗传变异和半监督的案件特征提取方法及装置
CN112633011B (zh) 融合词语义与词共现信息的研究前沿识别方法及设备
CN113988053A (zh) 一种热词提取方法及装置
CN109934251A (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN108153899B (zh) 一种智能化文本分类方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN110765266B (zh) 一种裁判文书相似争议焦点合并方法及系统
CN110968693A (zh) 基于集成学习的多标签文本分类计算方法
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
CN110851592B (zh) 一种基于聚类的新闻文本最优主题数计算方法
CN112579783A (zh) 基于拉普拉斯图谱的短文本聚类方法
CN111930885B (zh) 文本话题的抽取方法、装置及计算机设备
CN114896398A (zh) 一种基于特征选择的文本分类系统及方法
CN110717015B (zh) 一种基于神经网络的多义词识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant