CN108153818B - 一种基于大数据的聚类方法 - Google Patents

一种基于大数据的聚类方法 Download PDF

Info

Publication number
CN108153818B
CN108153818B CN201711235863.7A CN201711235863A CN108153818B CN 108153818 B CN108153818 B CN 108153818B CN 201711235863 A CN201711235863 A CN 201711235863A CN 108153818 B CN108153818 B CN 108153818B
Authority
CN
China
Prior art keywords
news
similarity
category
topic
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711235863.7A
Other languages
English (en)
Other versions
CN108153818A (zh
Inventor
马萧萧
温大川
吴春才
冯良怀
文斌
杨树海
姚晴麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Dongfangshengxing Electronics Co ltd
Original Assignee
Chengdu Dongfangshengxing Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Dongfangshengxing Electronics Co ltd filed Critical Chengdu Dongfangshengxing Electronics Co ltd
Priority to CN201711235863.7A priority Critical patent/CN108153818B/zh
Publication of CN108153818A publication Critical patent/CN108153818A/zh
Application granted granted Critical
Publication of CN108153818B publication Critical patent/CN108153818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的聚类方法,包括以下步骤:对新闻D进行分词得到新闻S;判断新闻S是否为第一篇新闻,若是,基于新闻S建立新的类别,若不是,对新闻S建立VSM向量模型,计算新闻S与聚类中心所有类别的相似度;找出与新闻S具有最大相似度的类别C,若新闻S与类别C的相似度大于预设阈值,则将新闻S归类到类别C中,若小于预设阈值,则基于新闻S建立新的类别;计算新闻S与类别C中其他新闻的相似度平均值M1,计算类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新新闻S为新聚类中心,否则聚类中心不变;判断当前新闻是否处理完毕,若是,通过预设算法计算新闻热度,提取热点新闻,否则继续下一篇处理。

Description

一种基于大数据的聚类方法
技术领域
本发明涉及聚类分析技术领域,尤其涉及一种基于大数据的聚类方法。
背景技术
由于Internet在全球范围内快速发展,信息技术日新月异,人们使用的各种的数据正在以爆炸性速度不断增长。大量的数据存储在数据库中,可以应用于政府办公、商业智能、科学研究和项目开发等,但是要想真正地使用这些数据不是件容易的事情。理解数据库中海量数据已经不是人们能力范围之内的事情,如果我们不借助于自动分析手段,那么存储在数据中大量的数据就变成了“数据坟墓”——很难再次访问的数据存档。因为决策者无法从海量数据中人工发掘出有用的知识,其做出的重要决策也就并非基于数据库中的数据,而是基于直觉或者经验。此外,目前的专家系统主要是依靠领域专业人员或者用户将数据手工地输入到目标知识数据库中。令人遗憾的是,这一过程往往会出现误差,并且增加了时间及其他方面的投入成本。因此,人们迫切地需要强有力的数据挖掘技术来解决“数据丰富而知识贫乏”这一消极现象,用以帮助人们从海量的数据中挖掘出有用的知识,发现其中事先存在的关联规则,实现决策的自动化和智能化,并最终在经济、社会等多个层面获得巨大的价值。在此情况下,数据挖掘技术应运而生并且显示出强大的生命力。在分析数据的基础上,数据挖掘手段可以自动发现有趣的知识模式,在商业智能、政府办公、知识库和科学研究等领域中均有望做出巨大贡献。
聚类分析是数据挖掘领域最重要的研究方向之一,通过数据分析能够发现有用的信息,其广泛地应用于市场研究、数据分析、模式识别、图像处理、人工智能和web文档分类等领域。在商业智能应用中,聚类分析能够帮助数据挖掘人员分析顾客的购买模式,刻画不同顾客群体的特征,从顾客消费信息数据库发现特殊的顾客。在生物学应用中,聚类分析可以用于推测物种的类别信息,根据功能的相关性对基因进行分门别类,从而可以获得对种群原有结构的认识。聚类分析还有助于在识别卫星监测数据库中对使用相关的区域进行识别,根据房屋的价值、类型和具体地理位置对城市中存在的房屋分组识别。与使用其它数据挖掘方法不同,用户在运用聚类分析算法之前并不知道数据集的内容和类别等特征信息,也即聚类分析不需要基于先验知识,是一种无监督的机器学习。
目前,大部分数据是以标准文本的格式存储的,在海量但未知信息中如何挖掘出事先未知的有用的知识已经成为学术研究和人们关注的热点问题之一。文本聚类挖掘是在没有先验学习的条件下对文本文档集合进行组织或划分的过程,其基本思想是将相似度较近的文本文档划分到同一个簇中。文本聚类挖掘可以广泛应用于信息检索与文本挖掘等多个方面,在大数量文档集合的查看、组织和自动生成文档集的层次归类等都具有很重要的应用价值。文本聚类效果的好坏会大大影响检索用户目标信息的效率,如与对文档进行顺序组织的方法相比,对文档进行随机聚类的方法并不会提高查找效率而是降低了速度。所以,如何提高文本聚类的有效性成为当前研究的热点问题。
发明内容
为了解决上述问题,本发明提出一种基于大数据的聚类方法。
具体的,一种基于大数据的聚类方法,包括以下步骤:
S1.对新闻D进行分词得到新闻S;
S2.判断所述新闻S是否为第一篇新闻,若是,执行S5,若不是则执行S3;
S3.对所述新闻S建立VSM向量模型,计算所述新闻S与聚类中心所有类别的相似度;
S4.找出与所述新闻S具有最大相似度的类别C,若所述新闻S与所述类别C的相似度大于预设阈值,则将所述新闻S归类到所述类别C中,若小于预设阈值,则执行S5;
S5.基于所述新闻S建立新的类别;
S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1,计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新所述新闻S为新聚类中心,否则聚类中心不变;
S7.判断当前新闻是否处理完毕,若是,执行S8,否则执行S1;
S8.通过预设算法计算新闻热度,提取热点新闻。
进一步的,所述步骤S3还包括:将所述新闻S设置为一个由n维特征组成的向量,所述VSM空间向量模型中每一个特征均为一个词。
进一步的,所述步骤S3还包括:提取所述新闻S的特征词ti,通过预设算法得到S={ω12,…,ωn},其中ωi为特征词ti的权重。
进一步的,ωi计算公式如下:
Figure BDA0001487599480000031
其中,nti为出现词ti的新闻报道数,N为语料库中的总新闻数,tf(ti,D)为特征词ti在新闻S中出现的频率。
进一步的,相似度具体计算过程如下:
Figure BDA0001487599480000032
其中,di表示新文档的特征向量;dj表示某个话题的第j个种子话题的特征向量,其中,ω+λ=1,T(di,dj)为衰减函数,cosθ为余弦相似度。
进一步的,新闻热度具体算法为:
Figure BDA0001487599480000033
其中,n为该话题的新闻报道的数量,d为新闻初始得分,取值为1,t为当前时刻,单位为分钟,ti为新闻到达的时间,p为取一个新闻的有效期,α为话题冷却因子。
本发明的有益效果在于:采用优化算法对文本进行聚类,提高了聚类的准确率和有效性。
附图说明
图1是本发明的一种基于大数据的聚类方法流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
如图1所示,一种基于大数据的聚类方法,包括以下步骤:
S1.对新闻D进行分词得到新闻S;
S2.判断所述新闻S是否为第一篇新闻,若是,执行S5,若不是则执行S3;
S3.对所述新闻S建立VSM向量模型,计算所述新闻S与聚类中心所有类别的相似度;
S4.找出与所述新闻S具有最大相似度的类别C,若所述新闻S与所述类别C的相似度大于预设阈值,则将所述新闻S归类到所述类别C中,若小于预设阈值,则执行S5;
S5.基于所述新闻S建立新的类别;
S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1,计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新所述新闻S为新聚类中心,否则聚类中心不变;
S7.判断当前新闻是否处理完毕,若是,执行S8,否则执行S1;
S8.通过预设算法计算新闻热度,提取热点新闻。
进一步的,所述步骤S3还包括:将所述新闻S设置为一个由n维特征组成的向量,所述VSM空间向量模型中每一个特征均为一个词。
进一步的,所述步骤S3还包括:提取所述新闻S的特征词ti,通过预设算法得到S={ω12,…,ωn},其中ωi为特征词ti的权重。
进一步的,ωi计算公式如下:
Figure BDA0001487599480000041
其中,nti为出现词ti的新闻报道数,N为语料库中的总新闻数,tf(ti,D)为特征词ti在新闻S中出现的频率。
进一步的,相似度具体计算过程如下:
Figure BDA0001487599480000042
其中,di表示新文档的特征向量;dj表示某个话题的第j个种子话题的特征向量,其中,ω+λ=1,T(di,dj)为衰减函数,cosθ为余弦相似度,具体为
Figure BDA0001487599480000043
进一步的,新闻热度具体算法为:
Figure BDA0001487599480000044
其中,n为该话题的新闻报道的数量,d为新闻初始得分,取值为1,t为当前时刻,单位为分钟,ti为新闻到达的时间,p为取一个新闻的有效期,α为话题冷却因子,计算公式如下:
Figure BDA0001487599480000051
其中,tftopic为当前话题的报道数,tall为所有话题的新闻的报道总数,tuccheck为参与该话题的用户数,stcheck为参与所有话题的用户数。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (1)

1.一种基于大数据的聚类方法,其特征在于,包括以下步骤:
S1.对新闻D进行分词得到新闻S;
S2.判断所述新闻S是否为第一篇新闻,若是,执行S5,若不是则执行S3;
S3.对所述新闻S建立VSM向量空间模型,计算所述新闻S与聚类中心所有类别的相似度;将所述新闻S设置为一个由n维特征组成的向量,所述VSM向量空间模型中每一个特征均为一个词;提取所述新闻S的特征词ti,通过预设算法得到S={ω1,ω2,…,ωn},
其中ωi为特征词ti的权重;
ωi计算公式如下:
Figure FDA0003069237760000011
其中,nti为出现词ti的新闻报道数,N为语料库中的总新闻数,tf(ti,D)为特征词ti在新闻S中出现的频率;
相似度具体计算过程如下:
Figure FDA0003069237760000012
其中,di表示新文档的特征向量;dj表示某个话题的第j个种子话题的特征向量,其中,ω+λ=1,T(di,dj)为衰减函数,cosθ为余弦相似度;
S4.找出与所述新闻S具有最大相似度的类别C,若所述新闻S与所述类别C的相似度大于预设阈值,则将所述新闻S归类到所述类别C中,若小于预设阈值,则执行S5;
S5.基于所述新闻S建立新的类别;
S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1,计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2,若M1大于M2,则更新所述新闻S为新聚类中心,否则聚类中心不变;
S7.判断当前新闻是否处理完毕,若是,执行S8,否则执行S1;
S8.通过预设算法计算新闻热度,提取热点新闻;
新闻热度具体算法为:
Figure FDA0003069237760000013
其中,n为该话题的新闻报道的数量,d为新闻初始得分,取值为1,t为当前时刻,单位为分钟,ti为新闻到达的时间,p为取一个新闻的有效期,α为话题冷却因子
α的计算公式为:
Figure FDA0003069237760000021
其中,tftopic为当前话题的报道数,tall为所有话题的新闻的报道总数,tuccheck为参与该话题的用户数,stcheck为参与所有话题的用户数。
CN201711235863.7A 2017-11-29 2017-11-29 一种基于大数据的聚类方法 Active CN108153818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711235863.7A CN108153818B (zh) 2017-11-29 2017-11-29 一种基于大数据的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711235863.7A CN108153818B (zh) 2017-11-29 2017-11-29 一种基于大数据的聚类方法

Publications (2)

Publication Number Publication Date
CN108153818A CN108153818A (zh) 2018-06-12
CN108153818B true CN108153818B (zh) 2021-08-10

Family

ID=62469245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711235863.7A Active CN108153818B (zh) 2017-11-29 2017-11-29 一种基于大数据的聚类方法

Country Status (1)

Country Link
CN (1) CN108153818B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134847A (zh) * 2019-05-06 2019-08-16 北京科技大学 一种基于互联网金融信息的热点挖掘方法及系统
CN110245275B (zh) * 2019-06-18 2023-09-01 中电科大数据研究院有限公司 一种大规模相似新闻标题快速归一化方法
CN112699909B (zh) * 2019-10-23 2024-03-19 中移物联网有限公司 信息识别方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN103365902A (zh) * 2012-03-31 2013-10-23 北大方正集团有限公司 互联网新闻的评估方法和装置
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9602614B1 (en) * 2012-11-26 2017-03-21 Amazon Technologies, Inc. Distributed caching cluster client configuration

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365902A (zh) * 2012-03-31 2013-10-23 北大方正集团有限公司 互联网新闻的评估方法和装置
CN103077190A (zh) * 2012-12-20 2013-05-01 人民搜索网络股份公司 基于排序学习技术的热门事件排名方法
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种基于稀疏度和距离的初始类中心选择算法";曹付元 等;《山西大学学报(自然科学版)》;20151231;第73页第1段-第78页第3段 *
"基于密度与最小距离的K- means算法初始中心方法";戚后林 等;《计算机技术与发展》;20170930;第27卷(第9期);全文 *

Also Published As

Publication number Publication date
CN108153818A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN106951498A (zh) 文本聚类方法
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN111382276A (zh) 一种事件发展脉络图生成方法
CN108153818B (zh) 一种基于大数据的聚类方法
Doshi et al. Movie genre detection using topological data analysis
Noel et al. Applicability of Latent Dirichlet Allocation to multi-disk search
Islam et al. Review analysis of ride-sharing applications using machine learning approaches: Bangladesh perspective
Raza et al. Content Based Automated File Organization Using Machine Learning Approaches.
Zubiaga et al. Content-based clustering for tag cloud visualization
Vishwakarma et al. A comparative study of K-means and K-medoid clustering for social media text mining
Gao et al. Research on book personalized recommendation method based on collaborative filtering algorithm
CN114491071A (zh) 一种基于跨媒体数据的食品安全知识图谱构建方法及系统
CN114153965A (zh) 一种结合内容和图谱的舆情事件推荐方法、系统及终端
CN112819230A (zh) 一种基于打卡数据的用户打卡地点预测方法及装置
Pandey et al. A hierarchical clustering approach for image datasets
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
CN111767404A (zh) 一种事件挖掘方法和装置
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
CN112434126A (zh) 一种信息处理方法、装置、设备和存储介质
Hartanto et al. Classifying User Personality Based on Media Social Posts Using Support Vector Machine Algorithm Based on DISC Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant