CN108564390A - 大量个体的数据趋势分析方法、电子设备和计算机存储介质 - Google Patents

大量个体的数据趋势分析方法、电子设备和计算机存储介质 Download PDF

Info

Publication number
CN108564390A
CN108564390A CN201711483421.4A CN201711483421A CN108564390A CN 108564390 A CN108564390 A CN 108564390A CN 201711483421 A CN201711483421 A CN 201711483421A CN 108564390 A CN108564390 A CN 108564390A
Authority
CN
China
Prior art keywords
individual
slope
classification
selection
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711483421.4A
Other languages
English (en)
Inventor
叶梦晴
杨帆
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Jin Fu Polytron Technologies Inc
Original Assignee
Guangdong Jin Fu Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Jin Fu Polytron Technologies Inc filed Critical Guangdong Jin Fu Polytron Technologies Inc
Priority to CN201711483421.4A priority Critical patent/CN108564390A/zh
Publication of CN108564390A publication Critical patent/CN108564390A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S50/00Market activities related to the operation of systems integrating technologies related to power network operation or related to communication or information technologies
    • Y04S50/14Marketing, i.e. market research and analysis, surveying, promotions, advertising, buyer profiling, customer management or rewards

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种大量个体的数据趋势分析方法、电子设备和计算机存储介质。该方法获取每个个体的多个有序数据;根据每个个体的多个有序数据,确定每个个体的斜率和确定系数;对每个个体的斜率和确定系数进行二维聚类;根据聚类结果分析每个个体的趋势。本发明的方法先根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,再对每个个体的斜率和确定系数进行二维聚类,最后根据聚类结果分析每个个体的趋势,使得针对大量个体的数据趋势分析成为可能,有助于辅助政府,企业作出最佳决策。

Description

大量个体的数据趋势分析方法、电子设备和计算机存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种大量个体的数据趋势分析方法、电子设备和计算机存储介质。
背景技术
随着数据大爆炸时代的到来,数据量极具增多,使得对大量个体的动态变化的数据进行趋势分析的需求急剧增加。
例如,根据商场的顾客一年内的购买行为对不同购买行为的顾客进行分类,依据各类别的顾客采取不同的营销策略;需要对某个区域中所有企业3年内员工人数或者发放薪资总额变化情况进行分析,以获知哪些企业是处于发展壮大期,哪些企业是处于下滑期等,依据此政府对不同的企业采取不同的政策来辅助企业更好的生产经营或者预防企业发生不良事件等。
因此,急需一种针对大量个体的数据趋势分析方法。
发明内容
(一)要解决的技术问题
本发明提供一种大量个体的数据趋势分析方法、电子设备和计算机存储介质,该方法先根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,再对每个个体的斜率和确定系数进行二维聚类,最后根据聚类结果分析每个个体的趋势,使得针对大量个体的数据趋势分析成为可能,有助于辅助政府,企业作出最佳决策。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种大量个体的数据趋势分析方法,所述方法,包括:
S101,获取每个个体的多个有序数据;
S102,根据每个个体的多个有序数据,确定每个个体的斜率和确定系数;
S103,对每个个体的斜率和确定系数进行二维聚类;
S104,根据聚类结果分析每个个体的趋势。
可选地,所述S101之后,S102之前,还包括:
将每个个体的多个有序数据案子相同的方式进行排序。
可选地,所述S102具体包括:
对每个个体排序后的有序数据进行线性拟合,得到每个个体的斜率和确定系数。
可选地,所述S103具体包括:
S103-1,对每个个体的斜率进行排序,选择位于排序中间的第一预设数量个个体;
S103-2,将选择的个体的斜率进行归一化操作;
S103-3,对选择的个体的归一化后的斜率和确定系数进行二维聚类。
可选地,所述S103-3具体包括:
S103-3-1,随机选取第二预设数量个初始中心点;
S103-3-2,遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中;
S103-3-3,计算划分后的各类的平均值,将所述平均值作为各类的新中心点;
S103-3-4,若存在任一类的新中心点与初始中心点的偏差大于预设阈值,则将各类的新中心点作为初始中心点,重复执行S103-3-2和S103-3-3,直至各类新中心点与初始中心点的偏差均不大于预设阈值。
可选地,所述S103-3-4之后,还包括:
S103-3-5,计算每个类别的第一标准差;
S103-3-6,将所有未选择的个体的斜率进行归一化操作;
S103-3-7,遍历所有未选择的个体,根据每个未选择的个体的归一化后的斜率和确定系数,计算每个未选择的个体到各类别的新中心点的距离以及每个未选择的个体划分到各类别后,各类别的第二标准差;
S103-3-8,针对每个未选择的个体,计算各类别的第二标准差-第一标准差的值Δσ;
S103-3-9,对于任一未选择的个体,若存在一个最佳类别,则将所述任一未选择的个体划分到所述最佳类别中,所述最佳类别为:所述任一未选择的个体到该最佳类别的新中心点的距离最近,并且,所述任一未选择的个体划分到该最佳类别后的Δσ最小;
S103-3-10,对于任一未选择的个体,若不存在最佳类别,则按所述任一未选择的个体到该各类别的新中心点的距离从近到远依次选择一个类别,若所述任一未选择的个体划分到选择的类别后的Δσ<所述任一未选择的个体划分到各类别后的Δσ均值,则将所述任一未选择的个体划分到选择的类别中。
可选地,所述第二预设数量为大于5的整数;
所述第一预设数量为S101中获取的个体数量*0.9的下取整。
可选地,所述S104具体包括:
将各类的趋势作为各类中每个个体的趋势。
为了达到上述目的,本发明采用的主要技术方案还包括:
一种计算机存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述方法任意一项的步骤。
可选地,所述计算机存储介质位于变电站端,或者,所述计算机存储介质位于调度端。
(三)有益效果
本发明的有益效果是:先根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,再对每个个体的斜率和确定系数进行二维聚类,最后根据聚类结果分析每个个体的趋势,使得针对大量个体的数据趋势分析成为可能,有助于辅助政府,企业作出最佳决策。
附图说明
图1为本发明一个实施例提供的一种大量个体的数据趋势分析方法方法流程图;
图2为本发明一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
随着数据大爆炸时代的到来,数据量极具增多,使得对大量个体的动态变化的数据进行趋势分析的需求急剧增加。因此,急需一种针对大量个体的数据趋势分析方法。
基于此,本发明提供一种大量个体的数据趋势分析方法、电子设备和计算机存储介质,该方法先根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,再对每个个体的斜率和确定系数进行二维聚类,最后根据聚类结果分析每个个体的趋势,使得针对大量个体的数据趋势分析成为可能,有助于辅助政府,企业作出最佳决策。
参见图1,本实施例提供的大量个体的数据趋势分析方法实现流程如下:
S101,获取每个个体的多个有序数据。
在获取到每个个体的多个有序数据之后,还会将每个个体的多个有序数据案子相同的方式进行排序。
S102,根据每个个体的多个有序数据,确定每个个体的斜率和确定系数。
具体的,对每个个体排序后的有序数据进行线性拟合,得到每个个体的斜率和确定系数。
S103,对每个个体的斜率和确定系数进行二维聚类。
本步骤可以通过如下方案实现:
S103-1,对每个个体的斜率进行排序,选择位于排序中间的第一预设数量个个体。
可选的,第一预设数量为S101中获取的个体数量*0.9的下取整。
由于斜率较易出现极端值,需要对极端值进行处理,因此,先对每个个体的斜率进行排序,选择位于排序中间的第一预设数量个个体,如取90%数据聚集区间的数据为分析对象,进入下一步操作,极端的数据在得到分类结果后与相应的分类结果进行合并。
例如,S101中获取的个体数量为6,则第一数量为此时,选取位于排序中间的5个个体。
S103-2,将选择的个体的斜率进行归一化操作。
归一化操作之后,选择的个体的斜率全部化为0-1之间。
S103-3,对选择的个体的归一化后的斜率和确定系数进行二维聚类。
本步骤的实现方式,包括但不限于:使用K-means方法对选择的个体的归一化后的斜率和确定系数进行二维聚类。
具体的,
S103-3-0,预先设定第二预设数量k。
k为需要聚类的类别数量。由于动态数据变化趋势较为复杂,k建议取值在5以上,具体数量可根据具体分析问题的需要决定。
S103-3-1,随机选取k个初始中心点。
S103-3-2,遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中。
S103-3-3,计算划分后的各类的平均值,将平均值作为各类的新中心点。
S103-3-4,若存在任一类的新中心点与初始中心点的偏差大于预设阈值,则将各类的新中心点作为初始中心点,重复执行S103-3-2和S103-3-3,直至各类新中心点与初始中心点的偏差均不大于预设阈值。
执行至此,将S103-1中选择的个体进行聚类。此时,还需将S103-1中未选择的个体与相应的分类结果进行合并。合并流程如下:
S103-3-5,计算每个类别的第一标准差。
S103-3-6,将所有未选择的个体的斜率进行归一化操作。
S103-3-7,遍历所有未选择的个体,根据每个未选择的个体的归一化后的斜率和确定系数,计算每个未选择的个体到各类别的新中心点的距离以及每个未选择的个体划分到各类别后,各类别的第二标准差。
S103-3-8,针对每个未选择的个体,计算各类别的第二标准差-第一标准差的值Δσ。
S103-3-9,对于任一未选择的个体,若存在一个最佳类别,则将任一未选择的个体划分到最佳类别中,最佳类别为:任一未选择的个体到该最佳类别的新中心点的距离最近,并且,任一未选择的个体划分到该最佳类别后的Δσ最小。
S103-3-10,对于任一未选择的个体,若不存在最佳类别,则按任一未选择的个体到该各类别的新中心点的距离从近到远依次选择一个类别,若任一未选择的个体划分到选择的类别后的Δσ<任一未选择的个体划分到各类别后的Δσ均值,则将任一未选择的个体划分到选择的类别中。
例如,S103-1未选择的个体有2个,个体1和个体2。执行S103-3-4后,分为6类,那么
1)计算6类的第一标准差,如第i类别的第一标准差σ1i
2)在对个体1和个体2的斜率均进行归一化操作之后,根据个体1的归一化后的斜率和确定系数,计算个体1到各类别的新中心点的距离,如个体1到第i类别的中心点的距离计算个体1划分到各类别后,各类别的第二标准差,如个体1划分到第i类别后第二标准差计算个体2到各类别的新中心点的距离,如个体2到第i类别的中心点的距离计算个体2划分到各类别后,各类别的第二标准差,如个体2划分到第i类别后第二标准差
3)针对个体1,计算各类别的第二标准差-第一标准差的值Δσ1,如针对个体1,第i类别的第二标准差-第一标准差的值针对个体2,计算各类别的第二标准差-第一标准差的值Δσ2,如针对个体2,第i类别的第二标准差-第一标准差的值
4)若对于个体1,存在一个最佳类别,如类别j,个体1到类别j的新中心点的距离最近(即),且,个体1划分到类别j后的Δσ最小(即),则将个体1划分到类别j中。
5)若对于个体2,不存在最佳类别,则计算个体2划分到各类别后的Δσ均值如即将个体2的按近到远排列,按近到远的顺序一次选择一个,如选择如果,个体2划分到对应的类别t后的则将个体2划分到类别t中。
执行至此,会将S101中获取的每个个体均归入一类中,且在将S103-1未选择的个体归类时,由于未选择的个体可能是极端值,其归类相对容易出错,因此本发明的方法除了考虑该个体与各类之间的距离,还考虑该类归于各类后各类的离散程度,使得对于未选择的个体的归类更加准确。
S104,根据聚类结果分析每个个体的趋势。
将各类的趋势作为各类中每个个体的趋势。
具体的,可以在获得聚类结果后,对聚类结果进行可视化,每个类别的个体与该类别整体图像具备相同的趋势特征。
如,得到6类聚类可视化图像中,横轴代表斜率,纵轴代表确定系数,那么在图像的左上角的类别,图像的特征是持续下降;右上角的类别,图像的特征是持续上升;左下角的图像特征是有一小段急剧下降的阶段,但不是整个图像都持续下降;右下角的图像特征是有一小段急剧上升的阶段;处于图像中间上半部分图像的特征为较为平缓,没有急剧上升或下降;处于图像中间下半部分图像的特征为波动较为明显,但是整体未呈现出急剧上升或下降。
本发明提供的方法,先根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,再对每个个体的斜率和确定系数进行二维聚类,最后根据聚类结果分析每个个体的趋势,使得针对大量个体的数据趋势分析成为可能,有助于辅助政府,企业作出最佳决策。
参见图2,本实施例提供了一种电子设备,该电子设备可位于变电站端,也可位于调度端。
该电子设备包括:存储器201、处理器202、总线203以及存储在存储器201上并可在处理器202上运行的计算机程序,所述处理器202执行所述程序时实现如下方法:
获取每个个体的多个有序数据;
根据每个个体的多个有序数据,确定每个个体的斜率和确定系数;
对每个个体的斜率和确定系数进行二维聚类;
根据聚类结果分析每个个体的趋势。
可选地,获取每个个体的多个有序数据之后,根据每个个体的多个有序数据,确定每个个体的斜率和确定系数之前,还包括:
将每个个体的多个有序数据案子相同的方式进行排序。
可选地,根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,包括:
对每个个体排序后的有序数据进行线性拟合,得到每个个体的斜率和确定系数。
可选地,对每个个体的斜率和确定系数进行二维聚类,包括:
对每个个体的斜率进行排序,选择位于排序中间的第一预设数量个个体;
将选择的个体的斜率进行归一化操作;
对选择的个体的归一化后的斜率和确定系数进行二维聚类。
可选地,对选择的个体的归一化后的斜率和确定系数进行二维聚类,包括:
随机选取第二预设数量个初始中心点;
遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中;
计算划分后的各类的平均值,将平均值作为各类的新中心点;
若存在任一类的新中心点与初始中心点的偏差大于预设阈值,则将各类的新中心点作为初始中心点,重复执行遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中和计算划分后的各类的平均值,将平均值作为各类的新中心点,直至各类新中心点与初始中心点的偏差均不大于预设阈值。
可选地,若存在任一类的新中心点与初始中心点的偏差大于预设阈值,则将各类的新中心点作为初始中心点,重复执行遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中和计算划分后的各类的平均值,将平均值作为各类的新中心点,直至各类新中心点与初始中心点的偏差均不大于预设阈值之后,还包括:
计算每个类别的第一标准差;
将所有未选择的个体的斜率进行归一化操作;
遍历所有未选择的个体,根据每个未选择的个体的归一化后的斜率和确定系数,计算每个未选择的个体到各类别的新中心点的距离以及每个未选择的个体划分到各类别后,各类别的第二标准差;
针对每个未选择的个体,计算各类别的第二标准差-第一标准差的值Δσ;
对于任一未选择的个体,若存在一个最佳类别,则将任一未选择的个体划分到最佳类别中,最佳类别为:任一未选择的个体到该最佳类别的新中心点的距离最近,并且,任一未选择的个体划分到该最佳类别后的Δσ最小;
对于任一未选择的个体,若不存在最佳类别,则按任一未选择的个体到该各类别的新中心点的距离从近到远依次选择一个类别,若任一未选择的个体划分到选择的类别后的Δσ<任一未选择的个体划分到各类别后的Δσ均值,则将任一未选择的个体划分到选择的类别中。
可选地,第二预设数量为大于5的整数;
第一预设数量为S101中获取的个体数量*0.9的下取整。
可选地,根据聚类结果分析每个个体的趋势,包括:
将各类的趋势作为各类中每个个体的趋势。
本实施例提供的电子设备,先根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,再对每个个体的斜率和确定系数进行二维聚类,最后根据聚类结果分析每个个体的趋势,使得针对大量个体的数据趋势分析成为可能,有助于辅助政府,企业作出最佳决策。
本实施例提供了一种计算机存储介质,该计算机存储介质可以位于变电站端,也可以位于调度端。
获取每个个体的多个有序数据;
根据每个个体的多个有序数据,确定每个个体的斜率和确定系数;
对每个个体的斜率和确定系数进行二维聚类;
根据聚类结果分析每个个体的趋势。
可选地,获取每个个体的多个有序数据之后,根据每个个体的多个有序数据,确定每个个体的斜率和确定系数之前,还包括:
将每个个体的多个有序数据案子相同的方式进行排序。
可选地,根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,包括:
对每个个体排序后的有序数据进行线性拟合,得到每个个体的斜率和确定系数。
可选地,对每个个体的斜率和确定系数进行二维聚类,包括:
对每个个体的斜率进行排序,选择位于排序中间的第一预设数量个个体;
将选择的个体的斜率进行归一化操作;
对选择的个体的归一化后的斜率和确定系数进行二维聚类。
可选地,对选择的个体的归一化后的斜率和确定系数进行二维聚类,包括:
随机选取第二预设数量个初始中心点;
遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中;
计算划分后的各类的平均值,将平均值作为各类的新中心点;
若存在任一类的新中心点与初始中心点的偏差大于预设阈值,则将各类的新中心点作为初始中心点,重复执行遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中和计算划分后的各类的平均值,将平均值作为各类的新中心点,直至各类新中心点与初始中心点的偏差均不大于预设阈值。
可选地,若存在任一类的新中心点与初始中心点的偏差大于预设阈值,则将各类的新中心点作为初始中心点,重复执行遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中和计算划分后的各类的平均值,将平均值作为各类的新中心点,直至各类新中心点与初始中心点的偏差均不大于预设阈值之后,还包括:
计算每个类别的第一标准差;
将所有未选择的个体的斜率进行归一化操作;
遍历所有未选择的个体,根据每个未选择的个体的归一化后的斜率和确定系数,计算每个未选择的个体到各类别的新中心点的距离以及每个未选择的个体划分到各类别后,各类别的第二标准差;
针对每个未选择的个体,计算各类别的第二标准差-第一标准差的值Δσ;
对于任一未选择的个体,若存在一个最佳类别,则将任一未选择的个体划分到最佳类别中,最佳类别为:任一未选择的个体到该最佳类别的新中心点的距离最近,并且,任一未选择的个体划分到该最佳类别后的Δσ最小;
对于任一未选择的个体,若不存在最佳类别,则按任一未选择的个体到该各类别的新中心点的距离从近到远依次选择一个类别,若任一未选择的个体划分到选择的类别后的Δσ<任一未选择的个体划分到各类别后的Δσ均值,则将任一未选择的个体划分到选择的类别中。
可选地,第二预设数量为大于5的整数;
第一预设数量为S101中获取的个体数量*0.9的下取整。
可选地,根据聚类结果分析每个个体的趋势,包括:
将各类的趋势作为各类中每个个体的趋势。
本实施例提供的计算机存储介质,先根据每个个体的多个有序数据,确定每个个体的斜率和确定系数,再对每个个体的斜率和确定系数进行二维聚类,最后根据聚类结果分析每个个体的趋势,使得针对大量个体的数据趋势分析成为可能,有助于辅助政府,企业作出最佳决策。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种大量个体的数据趋势分析方法,其特征在于,所述方法,包括:
S101,获取每个个体的多个有序数据;
S102,根据每个个体的多个有序数据,确定每个个体的斜率和确定系数;
S103,对每个个体的斜率和确定系数进行二维聚类;
S104,根据聚类结果分析每个个体的趋势。
2.根据权利要求1所述的方法,其特征在于,所述S101之后,S102之前,还包括:
将每个个体的多个有序数据案子相同的方式进行排序。
3.根据权利要求2所述的方法,其特征在于,所述S102具体包括:
对每个个体排序后的有序数据进行线性拟合,得到每个个体的斜率和确定系数。
4.根据权利要求3所述的方法,其特征在于,所述S103具体包括:
S103-1,对每个个体的斜率进行排序,选择位于排序中间的第一预设数量个个体;
S103-2,将选择的个体的斜率进行归一化操作;
S103-3,对选择的个体的归一化后的斜率和确定系数进行二维聚类。
5.根据权利要求4所述的方法,其特征在于,所述S103-3具体包括:
S103-3-1,随机选取第二预设数量个初始中心点;
S103-3-2,遍历所有选择的个体,根据每个选择的个体的归一化后的斜率和确定系数,将每个选择的个体划分到最近的初始中心点所处的类别中;
S103-3-3,计算划分后的各类的平均值,将所述平均值作为各类的新中心点;
S103-3-4,若存在任一类的新中心点与初始中心点的偏差大于预设阈值,则将各类的新中心点作为初始中心点,重复执行S103-3-2和S103-3-3,直至各类新中心点与初始中心点的偏差均不大于预设阈值。
6.根据权利要求5所述的方法,其特征在于,所述S103-3-4之后,还包括:
S103-3-5,计算每个类别的第一标准差;
S103-3-6,将所有未选择的个体的斜率进行归一化操作;
S103-3-7,遍历所有未选择的个体,根据每个未选择的个体的归一化后的斜率和确定系数,计算每个未选择的个体到各类别的新中心点的距离以及每个未选择的个体划分到各类别后,各类别的第二标准差;
S103-3-8,针对每个未选择的个体,计算各类别的第二标准差-第一标准差的值Δσ;
S103-3-9,对于任一未选择的个体,若存在一个最佳类别,则将所述任一未选择的个体划分到所述最佳类别中,所述最佳类别为:所述任一未选择的个体到该最佳类别的新中心点的距离最近,并且,所述任一未选择的个体划分到该最佳类别后的Δσ最小;
S103-3-10,对于任一未选择的个体,若不存在最佳类别,则按所述任一未选择的个体到该各类别的新中心点的距离从近到远依次选择一个类别,若所述任一未选择的个体划分到选择的类别后的Δσ<所述任一未选择的个体划分到各类别后的Δσ均值,则将所述任一未选择的个体划分到选择的类别中。
7.根据权利要求6所述的方法,其特征在于,所述第二预设数量为大于5的整数;
所述第一预设数量为S101中获取的个体数量*0.9的下取整。
8.根据权利要求7所述的方法,其特征在于,所述S104具体包括:
将各类的趋势作为各类中每个个体的趋势。
9.一种电子设备,其特征在于,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-8任意一项的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1-8任意一项的步骤。
CN201711483421.4A 2017-12-29 2017-12-29 大量个体的数据趋势分析方法、电子设备和计算机存储介质 Pending CN108564390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711483421.4A CN108564390A (zh) 2017-12-29 2017-12-29 大量个体的数据趋势分析方法、电子设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711483421.4A CN108564390A (zh) 2017-12-29 2017-12-29 大量个体的数据趋势分析方法、电子设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN108564390A true CN108564390A (zh) 2018-09-21

Family

ID=63529548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711483421.4A Pending CN108564390A (zh) 2017-12-29 2017-12-29 大量个体的数据趋势分析方法、电子设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN108564390A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228604A1 (en) * 2000-12-20 2010-09-09 Paritosh Desai System and Method for Generating Demand Groups
CN103942425A (zh) * 2014-04-14 2014-07-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置
CN104155638A (zh) * 2014-06-11 2014-11-19 南京林业大学 一种基于LiDAR伪垂直波形模型的树种分类方法
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN106022385A (zh) * 2016-05-26 2016-10-12 华南理工大学 基于动态规划和K-means聚类的特征选择算法
CN106610977A (zh) * 2015-10-22 2017-05-03 阿里巴巴集团控股有限公司 一种数据聚类方法和装置
CN107248086A (zh) * 2017-02-21 2017-10-13 国网江苏省电力公司南通供电公司 基于用户用电行为分析的广告投放辅助分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228604A1 (en) * 2000-12-20 2010-09-09 Paritosh Desai System and Method for Generating Demand Groups
CN103942425A (zh) * 2014-04-14 2014-07-23 中国人民解放军国防科学技术大学 一种数据处理方法和装置
CN104155638A (zh) * 2014-06-11 2014-11-19 南京林业大学 一种基于LiDAR伪垂直波形模型的树种分类方法
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN106610977A (zh) * 2015-10-22 2017-05-03 阿里巴巴集团控股有限公司 一种数据聚类方法和装置
CN106022385A (zh) * 2016-05-26 2016-10-12 华南理工大学 基于动态规划和K-means聚类的特征选择算法
CN107248086A (zh) * 2017-02-21 2017-10-13 国网江苏省电力公司南通供电公司 基于用户用电行为分析的广告投放辅助分析方法

Similar Documents

Publication Publication Date Title
CN104881706B (zh) 一种基于大数据技术的电力系统短期负荷预测方法
CN109960808B (zh) 一种文本识别方法、装置、设备及计算机可读存储介质
CN110659207B (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
Yang et al. Data mining for rapid prediction of facility fit and debottlenecking of biomanufacturing facilities
US20200293952A1 (en) Categorical feature enhancement mechanism for gradient boosting decision tree
Mahima et al. Wine quality analysis using machine learning algorithms
CN114298659A (zh) 评价对象指标的数据处理方法、装置、计算机设备
CN102141988B (zh) 一种数据挖掘系统中数据聚类的方法、系统及装置
Alharbi et al. A comparative study of student performance prediction using pre-course data
EP2541409B1 (en) Parallelization of large scale data clustering analytics
CN108564390A (zh) 大量个体的数据趋势分析方法、电子设备和计算机存储介质
CN115797044B (zh) 基于聚类分析的信贷风控预警方法及系统
CN115936184A (zh) 一种适应多用户类型的负荷预测匹配方法
CN107423759B (zh) 低维逐次投影寻踪聚类模型综合评价方法、装置及应用
CN112528762B (zh) 一种基于数据关联分析的谐波源识别方法
CN112884028A (zh) 一种系统资源调整方法、装置及设备
CN114429172A (zh) 基于变电站用户构成的负荷聚类方法、装置、设备及介质
US20060155394A1 (en) Method and apparatus for order-preserving clustering of multi-dimensional data
Maggino et al. New tools for the construction of ranking and evaluation indicators in multidimensional systems of ordinal variables
Singh et al. Feature selection using classifier in high dimensional data
Yao Feature selection based on SVM for credit scoring
CN104156418A (zh) 一种基于知识重用的演化聚类方法
CN113688229B (zh) 一种文本推荐方法、系统、存储介质和设备
Mathur et al. In object-oriented software framework improving maintenance exercises through k-means clustering approach
CN111738289B (zh) 计算机视觉cv模型训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921