CN108153818B

CN108153818B - 一种基于大数据的聚类方法

Info

Publication number: CN108153818B
Application number: CN201711235863.7A
Authority: CN
Inventors: 马萧萧; 温大川; 吴春才; 冯良怀; 文斌; 杨树海; 姚晴麟
Original assignee: Chengdu Dongfangshengxing Electronics Co ltd
Current assignee: Chengdu Dongfangshengxing Electronics Co ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2021-08-10
Anticipated expiration: 2037-11-29
Also published as: CN108153818A

Abstract

本发明公开了一种基于大数据的聚类方法，包括以下步骤：对新闻D进行分词得到新闻S；判断新闻S是否为第一篇新闻，若是，基于新闻S建立新的类别，若不是，对新闻S建立VSM向量模型，计算新闻S与聚类中心所有类别的相似度；找出与新闻S具有最大相似度的类别C，若新闻S与类别C的相似度大于预设阈值，则将新闻S归类到类别C中，若小于预设阈值，则基于新闻S建立新的类别；计算新闻S与类别C中其他新闻的相似度平均值M1，计算类别C中其他新闻与聚类中心其他新闻的相似度平均值M2，若M1大于M2，则更新新闻S为新聚类中心，否则聚类中心不变；判断当前新闻是否处理完毕，若是，通过预设算法计算新闻热度，提取热点新闻，否则继续下一篇处理。

Description

一种基于大数据的聚类方法

技术领域

本发明涉及聚类分析技术领域，尤其涉及一种基于大数据的聚类方法。

背景技术

由于Internet在全球范围内快速发展，信息技术日新月异，人们使用的各种的数据正在以爆炸性速度不断增长。大量的数据存储在数据库中，可以应用于政府办公、商业智能、科学研究和项目开发等，但是要想真正地使用这些数据不是件容易的事情。理解数据库中海量数据已经不是人们能力范围之内的事情，如果我们不借助于自动分析手段，那么存储在数据中大量的数据就变成了“数据坟墓”——很难再次访问的数据存档。因为决策者无法从海量数据中人工发掘出有用的知识，其做出的重要决策也就并非基于数据库中的数据，而是基于直觉或者经验。此外，目前的专家系统主要是依靠领域专业人员或者用户将数据手工地输入到目标知识数据库中。令人遗憾的是，这一过程往往会出现误差，并且增加了时间及其他方面的投入成本。因此，人们迫切地需要强有力的数据挖掘技术来解决“数据丰富而知识贫乏”这一消极现象，用以帮助人们从海量的数据中挖掘出有用的知识，发现其中事先存在的关联规则，实现决策的自动化和智能化，并最终在经济、社会等多个层面获得巨大的价值。在此情况下，数据挖掘技术应运而生并且显示出强大的生命力。在分析数据的基础上，数据挖掘手段可以自动发现有趣的知识模式，在商业智能、政府办公、知识库和科学研究等领域中均有望做出巨大贡献。

聚类分析是数据挖掘领域最重要的研究方向之一，通过数据分析能够发现有用的信息，其广泛地应用于市场研究、数据分析、模式识别、图像处理、人工智能和web文档分类等领域。在商业智能应用中，聚类分析能够帮助数据挖掘人员分析顾客的购买模式，刻画不同顾客群体的特征，从顾客消费信息数据库发现特殊的顾客。在生物学应用中，聚类分析可以用于推测物种的类别信息，根据功能的相关性对基因进行分门别类，从而可以获得对种群原有结构的认识。聚类分析还有助于在识别卫星监测数据库中对使用相关的区域进行识别，根据房屋的价值、类型和具体地理位置对城市中存在的房屋分组识别。与使用其它数据挖掘方法不同，用户在运用聚类分析算法之前并不知道数据集的内容和类别等特征信息，也即聚类分析不需要基于先验知识，是一种无监督的机器学习。

目前，大部分数据是以标准文本的格式存储的，在海量但未知信息中如何挖掘出事先未知的有用的知识已经成为学术研究和人们关注的热点问题之一。文本聚类挖掘是在没有先验学习的条件下对文本文档集合进行组织或划分的过程，其基本思想是将相似度较近的文本文档划分到同一个簇中。文本聚类挖掘可以广泛应用于信息检索与文本挖掘等多个方面，在大数量文档集合的查看、组织和自动生成文档集的层次归类等都具有很重要的应用价值。文本聚类效果的好坏会大大影响检索用户目标信息的效率，如与对文档进行顺序组织的方法相比，对文档进行随机聚类的方法并不会提高查找效率而是降低了速度。所以，如何提高文本聚类的有效性成为当前研究的热点问题。

发明内容

为了解决上述问题，本发明提出一种基于大数据的聚类方法。

具体的，一种基于大数据的聚类方法，包括以下步骤：

S1.对新闻D进行分词得到新闻S；

S2.判断所述新闻S是否为第一篇新闻，若是，执行S5，若不是则执行S3；

S3.对所述新闻S建立VSM向量模型，计算所述新闻S与聚类中心所有类别的相似度；

S4.找出与所述新闻S具有最大相似度的类别C，若所述新闻S与所述类别C的相似度大于预设阈值，则将所述新闻S归类到所述类别C中，若小于预设阈值，则执行S5；

S5.基于所述新闻S建立新的类别；

S6.计算所述新闻S与所述类别C中其他新闻的相似度平均值M1，计算所述类别C中其他新闻与聚类中心其他新闻的相似度平均值M2，若M1大于M2，则更新所述新闻S为新聚类中心，否则聚类中心不变；

S7.判断当前新闻是否处理完毕，若是，执行S8，否则执行S1；

S8.通过预设算法计算新闻热度，提取热点新闻。

进一步的，所述步骤S3还包括：将所述新闻S设置为一个由n维特征组成的向量，所述VSM空间向量模型中每一个特征均为一个词。

进一步的，所述步骤S3还包括：提取所述新闻S的特征词t_i，通过预设算法得到S＝{ω₁,ω₂,…,ω_n}，其中ω_i为特征词t_i的权重。

进一步的，ω_i计算公式如下：

其中，n_ti为出现词t_i的新闻报道数，N为语料库中的总新闻数，tf(t_i,D)为特征词t_i在新闻S中出现的频率。

进一步的，相似度具体计算过程如下：

其中，d_i表示新文档的特征向量；d_j表示某个话题的第j个种子话题的特征向量，其中，ω+λ＝1，T(d_i,d_j)为衰减函数，cosθ为余弦相似度。

进一步的，新闻热度具体算法为：

其中，n为该话题的新闻报道的数量，d为新闻初始得分，取值为1，t为当前时刻，单位为分钟，t_i为新闻到达的时间，p为取一个新闻的有效期，α为话题冷却因子。

本发明的有益效果在于：采用优化算法对文本进行聚类，提高了聚类的准确率和有效性。

附图说明

图1是本发明的一种基于大数据的聚类方法流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1所示，一种基于大数据的聚类方法，包括以下步骤：

S1.对新闻D进行分词得到新闻S；

S5.基于所述新闻S建立新的类别；

S7.判断当前新闻是否处理完毕，若是，执行S8，否则执行S1；

S8.通过预设算法计算新闻热度，提取热点新闻。

进一步的，ω_i计算公式如下：

进一步的，相似度具体计算过程如下：

其中，d_i表示新文档的特征向量；d_j表示某个话题的第j个种子话题的特征向量，其中，ω+λ＝1，T(d_i,d_j)为衰减函数，cosθ为余弦相似度，具体为

进一步的，新闻热度具体算法为：

其中，n为该话题的新闻报道的数量，d为新闻初始得分，取值为1，t为当前时刻，单位为分钟，t_i为新闻到达的时间，p为取一个新闻的有效期，α为话题冷却因子，计算公式如下：

其中，tf_topic为当前话题的报道数，t_all为所有话题的新闻的报道总数，tuc_check为参与该话题的用户数，st_check为参与所有话题的用户数。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。