CN111310843A

CN111310843A - 一种基于K-means的海量流式数据的聚类方法及系统

Info

Publication number: CN111310843A
Application number: CN202010115811.1A
Authority: CN
Inventors: 熊战磊
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-19

Abstract

本发明提供了一种基于K‑means的海量流式数据的聚类方法及系统，所述方法包括：获取互联网用户的行为数据，对所述行为数据进行预处理，转化成用于聚类分析的数据；调用Streamin K‑means算法对所述数据进行聚类分析，所述Streamin K‑means算法根据时间间隔将数据流拆分成小批次数据，基于更新规则，对所述小批次数据进行处理，持续更新聚类模型。本发明基于用于处理实时流式数据的计算引擎Spark Streaming，并对传统的基于Spark的K‑means算法进行流式改进，将要处理的数据看作流式数据，对海量实时数据进行聚类分析，不断更新聚类模型，对高速数据流进行实时处理与在线分析，从而能够基于分析结果发现商机与应对风险。

Description

一种基于K-means的海量流式数据的聚类方法及系统

技术领域

本发明涉及海量数据处理技术领域，尤其是一种基于K-means的海量流式数据的聚类方法及系统。

背景技术

用户每天在移动互联网上进行着各种各样的行为活动，如网络社交、购物等。用户的这些行为背后会产生大量数据，对这些数据进行挖掘与深入分析，能够发现其中隐藏的互联网用户行为规律，对我国互联网环境的发展与规划具有重要的指导意义。

Stream算法是一个扩展划分，基于分治思想实现的数据流聚类算法。Stream 算法使用分级聚类技术，进行数据的处理，在实际应用中有较好的性能。然而 Stream算法对高速数据流的变化不敏感，受历史数据影响较大，且无法即时响应数据请求结果。

如今，互联网上每时每刻都在产生着海量数据，对这些海量数据实时分析与处理将能够发现巨大商机或者避免财政损失。然而，当面对数据流的数据远远超出单台服务器的处理能力时，现有数据处理算法将无法使用。

发明内容

本发明提供了一种基于K-means的海量流式数据的聚类方法，用于解决现有算法无法实时处理海量数据的问题。

为实现上述目的，本发明采用下述技术方案：

本发明第一方面提供了一种基于K-means的海量流式数据的聚类方法，所述方法包括以下步骤：

获取互联网用户的行为数据，对所述行为数据进行预处理，转化成用于聚类分析的数据；

对所述数据进行聚类分析，根据时间间隔将数据流拆分成小批次数据，基于更新规则，对所述小批次数据进行处理，持续更新聚类模型。

进一步的，对所述行为数据进行预处理，转化成用于聚类分析的数据的具体过程为：

将行为数据中的干扰数据进行去除；

对用户某行为中包含的关键词数据进行连接，形成行为信息表；

将行为数据中包含的数据信息转化为数值形式。

进一步的，对所述数据进行聚类分析的具体过程为：

初始化聚类中心点；

计算每个新批次数据点与聚类中心点的距离；

根据最小距离，将新到的数据点分配到距离最近的聚类簇；

计算聚类簇的均值，得到新的聚类中心点；

根据更新规则，更新聚类模型中的聚类中心点及聚类簇对应的权重值；

检测权重值最小的聚类簇是否消失，若消失，则拆分权重值最大的聚类中心点为两个新的聚类中心点；

对新到来的数据，重复上述步骤的处理过程，持续更新聚类模型。

进一步的，所述预设的更新规则通过更新公式来实现，所述更新公式为：

W_t+1＝W_ta+m_t

n_t+1＝n_t+m_t

式中，c_t表示前一个聚类中心点，c_t+1表示更新后的聚类中心点，x_t表示根据新到数据计算出的聚类中心点，n_t表示更新之前聚类簇中数据点的个数，m_t表示新到来的数据点的个数，n_t+1表示更新之后聚类簇中数据点的个数，w_t表示更新之前聚类簇的权重值，w_t+1表示更新之后聚类簇的权重值，a为衰减因子。

进一步的，所述检测权重值最小的聚类簇是否消失的具体过程为：

判断更新后聚类簇的权重值是否满足下式，若满足，则认为当前聚类簇消失，

式中，∈为阈值参数。

进一步的，拆分后两个聚类簇的权重值是拆分前聚类模型中最小权重值与最大权重值的均值。

进一步的，所述方法还包括：

根据所述聚类模型，对用户行为进行分析评价。

本发明第二方面提供了一种基于K-means的海量流式数据的聚类系统，所述系统包括：

数据预处理模块，用于获取互联网用户的行为数据，对所述行为数据进行预处理，转化成用于聚类分析的数据；

聚类分析模块，对所述数据进行聚类分析，时间间隔将数据流拆分成小批次数据，基于更新规则，对所述小批次数据进行处理，持续更新聚类模型。

进一步的，所述数据预处理模块包括：

数据清洗单元，用于将行为数据中的干扰数据进行去除；

数据连接单元，用于对用户某行为中包含的关键词数据进行连接，形成行为信息表；

数据整理单元，用于将行为数据中包含的数据信息转化为数值形式。

本发明第二方面的所述基于K-means的海量流式数据的聚类系统能够实现第一方面及第一方面的各实现方式中的方法，并取得相同的效果。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

1、本发明基于用于处理实时流式数据的计算引擎Spark Streaming，并对传统的基于Spark的K-means算法进行流式改进，将要处理的数据看作流式数据，对海量实时数据进行聚类分析，不断更新聚类模型，对高速数据流进行实时处理与在线分析，从而能够基于分析结果发现商机与应对风险。

2、在进行算法的聚类分析之前，首先对获取的用户行为数据进行预处理，去除干扰信息，将某行为事件的关键信息进行连接以及将数据信息转化为计算机语言等，便于聚类分析的高效进行。

3、在聚类分析中引入衰减因子，用于衡量当前聚类中心点与前一个聚类中心点的贡献度，也就是可以调节新到来的数据和已经处理过的旧数据在更新聚类簇时所占的比重。引入衰减因子可以控制聚类模型的变化快慢，以适应高速数据流中不断变化的数据，跟进数据模型的变化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述方法的流程示意图；

图2是本发明利用Streamin K-means算法对数据进行聚类分析的流程示意图；

图3是本发明所述系统的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，本发明一种基于K-means的海量流式数据的聚类方法，方法包括以下步骤：

S1，获取互联网用户的行为数据，对所述行为数据进行预处理，转化成用于聚类分析的数据；

S2，调用Streamin K-means算法对所述数据进行聚类分析，所述Streamin K-means算法根据时间间隔将数据流拆分成小批次数据，基于更新规则，对所述小批次数据进行处理，持续更新聚类模型。

步骤S1中，对行为数据进行预处理，将从互联网接收的用户行为数据存储到HDFS中，然后Spark读取HDFS上的文件并对数据进行过滤和处理，转换成可以用于聚类分析的相应数据，具体包括：

数据清洗，原始数据中，存在一些信息差错或数据不全的问题，这类信息的存在将对后续数据分析造成一定的干扰，因此对这些干扰或不全的信息进行去除；

数据连接，对用户某行为中包含的关键词数据进行连接，形成行为信息表。例如对于获取到的用户购物信息方面的数据，以时间节点和订单编号为关键词数据信息进行连接，形成一个用户购买行为信息表，该表中包含用户订单下单时间、订单数量等；对于要进行风险规避时，比如生产商可以根据市场上该产品的销量情况、产品原料价格变化、市场行情、同类产品竞争等关键词数据信息进行综合考虑，并将这些信息进行连接，形成一个商品生产风险评估，决定是否增加或缩减生产量以及是否提高或者降低产品价格来达到促销的目的，避免供大于求或者出现受原料影响无法准时交付订单的情况，这将对企业的效益或者信誉产生重大影响对用户某行为中包含的关键词数据进行连接，形成行为信息表；

数据整理，将行为数据中包含的数据信息转化为数值形式。原始数据中，有部分数据的内容是不易于计算机识别的，而计算机在进行分析是一般需要将信息转化为数值形式。比如，在进行用户购物行为分析时，原始数据中，有部分数据的内容是不易于计算机识别的，如性别字段，原始数据中以“M”代表男性，“F”代表女性，而计算机在进行分析是一般需要将信息转化为数值形式，因此，对于性别字段的内容，统一将“M”映射为0，“F”映射为1。因此，在计算机进行读取数据进行分析前，可将数据先通过数据转换模块按需将数据转换为计算机能够读取的格式。

如图2所示，步骤S2中，调用Streamin K-means算法对所述数据进行聚类分析的具体过程为：

初始化聚类中心点；

计算每个新批次数据点与聚类中心点的距离；

根据最小距离，将新到的数据点分配到距离最近的聚类簇；

计算聚类簇的均值，得到新的聚类中心点；

聚类中心点的初始化即根据经验值或通过预处理或随机选择的方式确定聚类的中心点。

初始化聚类中心后，每当一批新的数据到来，首先计算新到来的数据点与各个聚类中心点的距离，根据最小距离，将新到来的数据点分配给距离它们最近的聚类簇，然后重新计算聚类簇的均值，以得到新的聚类簇簇中心点，利用更新规则更新聚类模型，

更新规则通过更新公式来实现，所述更新公式为：

W_t+1＝W_ta+m_t

n_t+1＝n_t+m_t

检测权重值最小的聚类簇是否消失的具体过程为：

式中，∈为阈值参数。

拆分后两个聚类簇的权重值是拆分前聚类模型中最小权重值与最大权重值的均值，如下式：

不断重复上述过程，即可实现流式数据的处理，并根据数据模型的变化，不断更新聚类模型，从而能够与不断变化的数据流相适应。

根据得到的聚类模型，对用户行为进行分析评价。创建API服务查询聚类分析结果。对于用户推荐方面，给出不同年龄段、不同性别的会员的购买行为和购买力分析，以及某段时间内更倾向于某类商品的分析。商场可根据这些信息，给具有消费共性的团体推送某些商品的打折促销消息，从而吸引客户，提高效益。当采用该发明用于规避风险时，会给出近阶段的产品销量评估、商品原材料价格变化、竞争商品价格变化等情况，给出是否增加/减少原材料的购买增加/减少产品的生产量或者是否稍微降低产品价格增加产品竞争力等建议。

如图3所示，本发明一种基于K-means的海量流式数据的聚类系统，在互联网用户行为数据经由TMS采集系统采集并存储到分布式文件系统HDFS上后，接下来将接入Streamin K-means算法系统对用户行为数据进行进一步分析与处理。由于原始的数据存在数据噪声高，某些行列内容重复或部分行列内容缺失，内容不规整等问题，在进入StreaminK-means系统分析前，需要先对原始数据进行数据预处理。系统首先将数据从HDFS读至分布式内存计算框架Spark中，通过Spark技术对数据进行过滤，转换并提取用于聚类分析的相对应数据，然后将数据发给分布式消息系统Kafka，最后由Kafka发送至Spark Streaming模块，调用Streamin K-means算法对用户行为进行聚类分析与评价，所述系统包括数据预处理模块1和聚类分析模块2。

数据预处理模块1用于获取互联网用户的行为数据，对所述行为数据进行预处理，转化成用于聚类分析的数据；聚类分析模块2调用Streamin K-means 算法对所述数据进行聚类分析，所述Streamin K-means算法根据时间间隔将数据流拆分成小批次数据，基于更新规则，对所述小批次数据进行处理，持续更新聚类模型。

数据预处理模块包括数据清洗单元11、数据连接单元12和数据整理单元 13。数据清洗单元11用于将行为数据中的干扰数据进行去除；数据连接单元 12用于对用户某行为中包含的关键词数据进行连接，形成行为信息表；数据整理单元13用于将行为数据中包含的数据信息转化为数值形式。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于K-means的海量流式数据的聚类方法，其特征是，所述方法包括以下步骤：

对所述数据进行聚类分析，根据时间间隔将数据流拆分成小批次数据，基于预设的更新规则，对所述小批次数据进行处理，持续更新聚类模型。

2.根据权利要求1所述基于K-means的海量流式数据的聚类方法，其特征是，对所述行为数据进行预处理，转化成用于聚类分析的数据的具体过程为：

将行为数据中的干扰数据进行去除；

将行为数据中包含的数据信息转化为数值形式。

3.根据权利要求1所述基于K-means的海量流式数据的聚类方法，其特征是，对所述数据进行聚类分析的具体过程为：

初始化聚类中心点；

计算每个新批次数据点与聚类中心点的距离；

根据最小距离，将新到的数据点分配到距离最近的聚类簇；

计算聚类簇的均值，得到新的聚类中心点；

4.根据权利要求3所述基于K-means的海量流式数据的聚类方法，其特征是，所述预设的更新规则通过更新公式来实现，所述更新公式为：

W_t+1＝W_ta+m_t

n_t+1＝n_t+m_t

5.根据权利要求3所述基于K-means的海量流式数据的聚类方法，其特征是，所述检测权重值最小的聚类簇是否消失的具体过程为：

式中，∈为阈值参数。

6.根据权利要求3所述基于K-means的海量流式数据的聚类方法，其特征是，拆分后两个聚类簇的权重值是拆分前聚类模型中最小权重值与最大权重值的均值。

7.根据权利要求1-6任一项所述基于K-means的海量流式数据的聚类方法，其特征是，所述方法还包括：

根据所述聚类模型，对用户行为进行分析评价。

8.一种基于K-means的海量流式数据的聚类系统，其特征是，所述系统包括：

聚类分析模块，对所述数据进行聚类分析，根据时间间隔将数据流拆分成小批次数据，基于更新规则，对所述小批次数据进行处理，持续更新聚类模型。

9.根据权利要求8所述基于K-means的海量流式数据的聚类系统，其特征是，所述数据预处理模块包括：

数据清洗单元，用于将行为数据中的干扰数据进行去除；