CN108564390A

CN108564390A - 大量个体的数据趋势分析方法、电子设备和计算机存储介质

Info

Publication number: CN108564390A
Application number: CN201711483421.4A
Authority: CN
Inventors: 叶梦晴; 杨帆; 刘丹
Original assignee: Guangdong Jin Fu Polytron Technologies Inc
Current assignee: Guangdong Jin Fu Polytron Technologies Inc
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-09-21

Abstract

本发明涉及一种大量个体的数据趋势分析方法、电子设备和计算机存储介质。该方法获取每个个体的多个有序数据；根据每个个体的多个有序数据，确定每个个体的斜率和确定系数；对每个个体的斜率和确定系数进行二维聚类；根据聚类结果分析每个个体的趋势。本发明的方法先根据每个个体的多个有序数据，确定每个个体的斜率和确定系数，再对每个个体的斜率和确定系数进行二维聚类，最后根据聚类结果分析每个个体的趋势，使得针对大量个体的数据趋势分析成为可能，有助于辅助政府，企业作出最佳决策。

Description

大量个体的数据趋势分析方法、电子设备和计算机存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种大量个体的数据趋势分析方法、电子设备和计算机存储介质。

背景技术

随着数据大爆炸时代的到来，数据量极具增多，使得对大量个体的动态变化的数据进行趋势分析的需求急剧增加。

例如，根据商场的顾客一年内的购买行为对不同购买行为的顾客进行分类，依据各类别的顾客采取不同的营销策略；需要对某个区域中所有企业3年内员工人数或者发放薪资总额变化情况进行分析，以获知哪些企业是处于发展壮大期，哪些企业是处于下滑期等，依据此政府对不同的企业采取不同的政策来辅助企业更好的生产经营或者预防企业发生不良事件等。

因此，急需一种针对大量个体的数据趋势分析方法。

发明内容

(一)要解决的技术问题

本发明提供一种大量个体的数据趋势分析方法、电子设备和计算机存储介质，该方法先根据每个个体的多个有序数据，确定每个个体的斜率和确定系数，再对每个个体的斜率和确定系数进行二维聚类，最后根据聚类结果分析每个个体的趋势，使得针对大量个体的数据趋势分析成为可能，有助于辅助政府，企业作出最佳决策。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种大量个体的数据趋势分析方法，所述方法，包括：

S101，获取每个个体的多个有序数据；

S102，根据每个个体的多个有序数据，确定每个个体的斜率和确定系数；

S103，对每个个体的斜率和确定系数进行二维聚类；

S104，根据聚类结果分析每个个体的趋势。

可选地，所述S101之后，S102之前，还包括：

将每个个体的多个有序数据案子相同的方式进行排序。

可选地，所述S102具体包括：

对每个个体排序后的有序数据进行线性拟合，得到每个个体的斜率和确定系数。

可选地，所述S103具体包括：

S103-1，对每个个体的斜率进行排序，选择位于排序中间的第一预设数量个个体；

S103-2，将选择的个体的斜率进行归一化操作；

S103-3，对选择的个体的归一化后的斜率和确定系数进行二维聚类。

可选地，所述S103-3具体包括：

S103-3-1，随机选取第二预设数量个初始中心点；

S103-3-2，遍历所有选择的个体，根据每个选择的个体的归一化后的斜率和确定系数，将每个选择的个体划分到最近的初始中心点所处的类别中；

S103-3-3，计算划分后的各类的平均值，将所述平均值作为各类的新中心点；

S103-3-4，若存在任一类的新中心点与初始中心点的偏差大于预设阈值，则将各类的新中心点作为初始中心点，重复执行S103-3-2和S103-3-3，直至各类新中心点与初始中心点的偏差均不大于预设阈值。

可选地，所述S103-3-4之后，还包括：

S103-3-5，计算每个类别的第一标准差；

S103-3-6，将所有未选择的个体的斜率进行归一化操作；

S103-3-7，遍历所有未选择的个体，根据每个未选择的个体的归一化后的斜率和确定系数，计算每个未选择的个体到各类别的新中心点的距离以及每个未选择的个体划分到各类别后，各类别的第二标准差；

S103-3-8，针对每个未选择的个体，计算各类别的第二标准差-第一标准差的值Δσ；

S103-3-9，对于任一未选择的个体，若存在一个最佳类别，则将所述任一未选择的个体划分到所述最佳类别中，所述最佳类别为：所述任一未选择的个体到该最佳类别的新中心点的距离最近，并且，所述任一未选择的个体划分到该最佳类别后的Δσ最小；

S103-3-10，对于任一未选择的个体，若不存在最佳类别，则按所述任一未选择的个体到该各类别的新中心点的距离从近到远依次选择一个类别，若所述任一未选择的个体划分到选择的类别后的Δσ＜所述任一未选择的个体划分到各类别后的Δσ均值，则将所述任一未选择的个体划分到选择的类别中。

可选地，所述第二预设数量为大于5的整数；

所述第一预设数量为S101中获取的个体数量*0.9的下取整。

可选地，所述S104具体包括：

将各类的趋势作为各类中每个个体的趋势。

为了达到上述目的，本发明采用的主要技术方案还包括：

一种计算机存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述方法任意一项的步骤。

可选地，所述计算机存储介质位于变电站端，或者，所述计算机存储介质位于调度端。

(三)有益效果

本发明的有益效果是：先根据每个个体的多个有序数据，确定每个个体的斜率和确定系数，再对每个个体的斜率和确定系数进行二维聚类，最后根据聚类结果分析每个个体的趋势，使得针对大量个体的数据趋势分析成为可能，有助于辅助政府，企业作出最佳决策。

附图说明

图1为本发明一个实施例提供的一种大量个体的数据趋势分析方法方法流程图；

图2为本发明一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

随着数据大爆炸时代的到来，数据量极具增多，使得对大量个体的动态变化的数据进行趋势分析的需求急剧增加。因此，急需一种针对大量个体的数据趋势分析方法。

基于此，本发明提供一种大量个体的数据趋势分析方法、电子设备和计算机存储介质，该方法先根据每个个体的多个有序数据，确定每个个体的斜率和确定系数，再对每个个体的斜率和确定系数进行二维聚类，最后根据聚类结果分析每个个体的趋势，使得针对大量个体的数据趋势分析成为可能，有助于辅助政府，企业作出最佳决策。

参见图1，本实施例提供的大量个体的数据趋势分析方法实现流程如下：

S101，获取每个个体的多个有序数据。

在获取到每个个体的多个有序数据之后，还会将每个个体的多个有序数据案子相同的方式进行排序。

S102，根据每个个体的多个有序数据，确定每个个体的斜率和确定系数。

具体的，对每个个体排序后的有序数据进行线性拟合，得到每个个体的斜率和确定系数。

S103，对每个个体的斜率和确定系数进行二维聚类。

本步骤可以通过如下方案实现：

S103-1，对每个个体的斜率进行排序，选择位于排序中间的第一预设数量个个体。

可选的，第一预设数量为S101中获取的个体数量*0.9的下取整。

由于斜率较易出现极端值，需要对极端值进行处理，因此，先对每个个体的斜率进行排序，选择位于排序中间的第一预设数量个个体，如取90％数据聚集区间的数据为分析对象，进入下一步操作，极端的数据在得到分类结果后与相应的分类结果进行合并。

例如，S101中获取的个体数量为6，则第一数量为此时，选取位于排序中间的5个个体。

S103-2，将选择的个体的斜率进行归一化操作。

归一化操作之后，选择的个体的斜率全部化为0-1之间。

本步骤的实现方式，包括但不限于：使用K-means方法对选择的个体的归一化后的斜率和确定系数进行二维聚类。

具体的，

S103-3-0，预先设定第二预设数量k。

k为需要聚类的类别数量。由于动态数据变化趋势较为复杂，k建议取值在5以上，具体数量可根据具体分析问题的需要决定。

S103-3-1，随机选取k个初始中心点。

S103-3-2，遍历所有选择的个体，根据每个选择的个体的归一化后的斜率和确定系数，将每个选择的个体划分到最近的初始中心点所处的类别中。

S103-3-3，计算划分后的各类的平均值，将平均值作为各类的新中心点。

执行至此，将S103-1中选择的个体进行聚类。此时，还需将S103-1中未选择的个体与相应的分类结果进行合并。合并流程如下：

S103-3-5，计算每个类别的第一标准差。

S103-3-6，将所有未选择的个体的斜率进行归一化操作。

S103-3-7，遍历所有未选择的个体，根据每个未选择的个体的归一化后的斜率和确定系数，计算每个未选择的个体到各类别的新中心点的距离以及每个未选择的个体划分到各类别后，各类别的第二标准差。

S103-3-8，针对每个未选择的个体，计算各类别的第二标准差-第一标准差的值Δσ。

S103-3-9，对于任一未选择的个体，若存在一个最佳类别，则将任一未选择的个体划分到最佳类别中，最佳类别为：任一未选择的个体到该最佳类别的新中心点的距离最近，并且，任一未选择的个体划分到该最佳类别后的Δσ最小。

S103-3-10，对于任一未选择的个体，若不存在最佳类别，则按任一未选择的个体到该各类别的新中心点的距离从近到远依次选择一个类别，若任一未选择的个体划分到选择的类别后的Δσ＜任一未选择的个体划分到各类别后的Δσ均值，则将任一未选择的个体划分到选择的类别中。

例如，S103-1未选择的个体有2个，个体1和个体2。执行S103-3-4后，分为6类，那么

1)计算6类的第一标准差，如第i类别的第一标准差σ_1i。

2)在对个体1和个体2的斜率均进行归一化操作之后，根据个体1的归一化后的斜率和确定系数，计算个体1到各类别的新中心点的距离，如个体1到第i类别的中心点的距离计算个体1划分到各类别后，各类别的第二标准差，如个体1划分到第i类别后第二标准差计算个体2到各类别的新中心点的距离，如个体2到第i类别的中心点的距离计算个体2划分到各类别后，各类别的第二标准差，如个体2划分到第i类别后第二标准差

3)针对个体1，计算各类别的第二标准差-第一标准差的值Δσ¹，如针对个体1，第i类别的第二标准差-第一标准差的值针对个体2，计算各类别的第二标准差-第一标准差的值Δσ²，如针对个体2，第i类别的第二标准差-第一标准差的值

4)若对于个体1，存在一个最佳类别，如类别j，个体1到类别j的新中心点的距离最近(即)，且，个体1划分到类别j后的Δσ最小(即)，则将个体1划分到类别j中。

5)若对于个体2，不存在最佳类别，则计算个体2划分到各类别后的Δσ均值如即将个体2的按近到远排列，按近到远的顺序一次选择一个，如选择如果，个体2划分到对应的类别t后的则将个体2划分到类别t中。

执行至此，会将S101中获取的每个个体均归入一类中，且在将S103-1未选择的个体归类时，由于未选择的个体可能是极端值，其归类相对容易出错，因此本发明的方法除了考虑该个体与各类之间的距离，还考虑该类归于各类后各类的离散程度，使得对于未选择的个体的归类更加准确。

S104，根据聚类结果分析每个个体的趋势。

将各类的趋势作为各类中每个个体的趋势。

具体的，可以在获得聚类结果后，对聚类结果进行可视化，每个类别的个体与该类别整体图像具备相同的趋势特征。

如，得到6类聚类可视化图像中，横轴代表斜率，纵轴代表确定系数，那么在图像的左上角的类别，图像的特征是持续下降；右上角的类别，图像的特征是持续上升；左下角的图像特征是有一小段急剧下降的阶段，但不是整个图像都持续下降；右下角的图像特征是有一小段急剧上升的阶段；处于图像中间上半部分图像的特征为较为平缓，没有急剧上升或下降；处于图像中间下半部分图像的特征为波动较为明显，但是整体未呈现出急剧上升或下降。

本发明提供的方法，先根据每个个体的多个有序数据，确定每个个体的斜率和确定系数，再对每个个体的斜率和确定系数进行二维聚类，最后根据聚类结果分析每个个体的趋势，使得针对大量个体的数据趋势分析成为可能，有助于辅助政府，企业作出最佳决策。

参见图2，本实施例提供了一种电子设备，该电子设备可位于变电站端，也可位于调度端。

该电子设备包括：存储器201、处理器202、总线203以及存储在存储器201上并可在处理器202上运行的计算机程序，所述处理器202执行所述程序时实现如下方法：

获取每个个体的多个有序数据；

根据每个个体的多个有序数据，确定每个个体的斜率和确定系数；

对每个个体的斜率和确定系数进行二维聚类；

根据聚类结果分析每个个体的趋势。

可选地，获取每个个体的多个有序数据之后，根据每个个体的多个有序数据，确定每个个体的斜率和确定系数之前，还包括：

将每个个体的多个有序数据案子相同的方式进行排序。

可选地，根据每个个体的多个有序数据，确定每个个体的斜率和确定系数，包括：

可选地，对每个个体的斜率和确定系数进行二维聚类，包括：

对每个个体的斜率进行排序，选择位于排序中间的第一预设数量个个体；

将选择的个体的斜率进行归一化操作；

对选择的个体的归一化后的斜率和确定系数进行二维聚类。

可选地，对选择的个体的归一化后的斜率和确定系数进行二维聚类，包括：

随机选取第二预设数量个初始中心点；

遍历所有选择的个体，根据每个选择的个体的归一化后的斜率和确定系数，将每个选择的个体划分到最近的初始中心点所处的类别中；

计算划分后的各类的平均值，将平均值作为各类的新中心点；

若存在任一类的新中心点与初始中心点的偏差大于预设阈值，则将各类的新中心点作为初始中心点，重复执行遍历所有选择的个体，根据每个选择的个体的归一化后的斜率和确定系数，将每个选择的个体划分到最近的初始中心点所处的类别中和计算划分后的各类的平均值，将平均值作为各类的新中心点，直至各类新中心点与初始中心点的偏差均不大于预设阈值。

可选地，若存在任一类的新中心点与初始中心点的偏差大于预设阈值，则将各类的新中心点作为初始中心点，重复执行遍历所有选择的个体，根据每个选择的个体的归一化后的斜率和确定系数，将每个选择的个体划分到最近的初始中心点所处的类别中和计算划分后的各类的平均值，将平均值作为各类的新中心点，直至各类新中心点与初始中心点的偏差均不大于预设阈值之后，还包括：

计算每个类别的第一标准差；

将所有未选择的个体的斜率进行归一化操作；

遍历所有未选择的个体，根据每个未选择的个体的归一化后的斜率和确定系数，计算每个未选择的个体到各类别的新中心点的距离以及每个未选择的个体划分到各类别后，各类别的第二标准差；

针对每个未选择的个体，计算各类别的第二标准差-第一标准差的值Δσ；

对于任一未选择的个体，若存在一个最佳类别，则将任一未选择的个体划分到最佳类别中，最佳类别为：任一未选择的个体到该最佳类别的新中心点的距离最近，并且，任一未选择的个体划分到该最佳类别后的Δσ最小；

对于任一未选择的个体，若不存在最佳类别，则按任一未选择的个体到该各类别的新中心点的距离从近到远依次选择一个类别，若任一未选择的个体划分到选择的类别后的Δσ＜任一未选择的个体划分到各类别后的Δσ均值，则将任一未选择的个体划分到选择的类别中。

可选地，第二预设数量为大于5的整数；

第一预设数量为S101中获取的个体数量*0.9的下取整。

可选地，根据聚类结果分析每个个体的趋势，包括：

将各类的趋势作为各类中每个个体的趋势。

本实施例提供的电子设备，先根据每个个体的多个有序数据，确定每个个体的斜率和确定系数，再对每个个体的斜率和确定系数进行二维聚类，最后根据聚类结果分析每个个体的趋势，使得针对大量个体的数据趋势分析成为可能，有助于辅助政府，企业作出最佳决策。

本实施例提供了一种计算机存储介质，该计算机存储介质可以位于变电站端，也可以位于调度端。

获取每个个体的多个有序数据；

对每个个体的斜率和确定系数进行二维聚类；

根据聚类结果分析每个个体的趋势。

将每个个体的多个有序数据案子相同的方式进行排序。

将选择的个体的斜率进行归一化操作；

对选择的个体的归一化后的斜率和确定系数进行二维聚类。

随机选取第二预设数量个初始中心点；

计算每个类别的第一标准差；

将所有未选择的个体的斜率进行归一化操作；

可选地，第二预设数量为大于5的整数；

第一预设数量为S101中获取的个体数量*0.9的下取整。

可选地，根据聚类结果分析每个个体的趋势，包括：

将各类的趋势作为各类中每个个体的趋势。

本实施例提供的计算机存储介质，先根据每个个体的多个有序数据，确定每个个体的斜率和确定系数，再对每个个体的斜率和确定系数进行二维聚类，最后根据聚类结果分析每个个体的趋势，使得针对大量个体的数据趋势分析成为可能，有助于辅助政府，企业作出最佳决策。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种大量个体的数据趋势分析方法，其特征在于，所述方法，包括：

S101，获取每个个体的多个有序数据；

S103，对每个个体的斜率和确定系数进行二维聚类；

S104，根据聚类结果分析每个个体的趋势。

2.根据权利要求1所述的方法，其特征在于，所述S101之后，S102之前，还包括：

将每个个体的多个有序数据案子相同的方式进行排序。

3.根据权利要求2所述的方法，其特征在于，所述S102具体包括：

4.根据权利要求3所述的方法，其特征在于，所述S103具体包括：

S103-2，将选择的个体的斜率进行归一化操作；

5.根据权利要求4所述的方法，其特征在于，所述S103-3具体包括：

S103-3-1，随机选取第二预设数量个初始中心点；

6.根据权利要求5所述的方法，其特征在于，所述S103-3-4之后，还包括：

S103-3-5，计算每个类别的第一标准差；

S103-3-6，将所有未选择的个体的斜率进行归一化操作；

7.根据权利要求6所述的方法，其特征在于，所述第二预设数量为大于5的整数；

所述第一预设数量为S101中获取的个体数量*0.9的下取整。

8.根据权利要求7所述的方法，其特征在于，所述S104具体包括：

将各类的趋势作为各类中每个个体的趋势。

9.一种电子设备，其特征在于，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-8任意一项的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1-8任意一项的步骤。