CN104156403A

CN104156403A - 一种基于聚类的大数据常态模式提取方法及系统

Info

Publication number: CN104156403A
Application number: CN201410356957.XA
Authority: CN
Inventors: 王电; 魏毅; 黄煜可
Original assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Current assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority date: 2014-07-24
Filing date: 2014-07-24
Publication date: 2014-11-19
Anticipated expiration: 2034-07-24
Also published as: CN104156403B

Abstract

本发明公开了一种基于聚类的大数据常态模式提取方法。本方法为：1)服务器从各终端采集样本数据，得到一总样本数据集；2)从该总样本数据集中抽取若干样本，并对其聚类，将得到的簇作为样本的标签对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性四项指标；根据计算结果对属性进行排序，选取若干属性作为大数据降维后保留的属性；3)对属性降维后的全体样本数据聚类，将得到的簇作为样本的标签对样本进行标注；4)根据选取的属性划分指标计算已标注样本每一属性的四项指标，选取若干属性特征对该总样本数据集进行划分，将划分结果作为常态模式。

Description

一种基于聚类的大数据常态模式提取方法及系统

技术领域

本发明涉及一种常态模式提取系统，尤其涉及一种基于聚类的大数据常态模式提取方法及系统。

背景技术

在现实生活中，我们经常需要对一组样本数据进行分类。常用的处理方法有两种：

第一种分类方法，基于经验确定一些分类的指标(属性、属性值)并按照这些指标将样本数据分类，例如将一群人分为“青年”、“中年”、“老年”三类，就是基于属性“年龄层”做出的。这种分类方式强烈的依赖于分类人的经验，具有较强的主观色彩，使得不同人对同一组样本数据得到的分类结果可能有较大不同，而且难以确定究竟哪种分类更加科学。

第二种分类方法，基于数据挖掘聚类分析的聚类结果，将聚类结果直接作为分类结果，这种方法具有较好的客观性，但存在以下不足：

(1)主流的聚类算法没有给出确切的分类标准，基于距离得到的聚类簇中，不同样本的属性值混杂，没有确切的规律，可能某个簇的100个样本中99个都是“性别＝男性”，仅有1个是“性别＝女性”，使得分类结果的实践指导意义较差。

(2)对于一类复杂的趋势数据样本，例如某超市每天的顾客购物情况，使用聚类分析得到的簇，不能确定相邻两天得到的簇之间的关系，从而难以研究相关簇之间的时间序列关系。

(3)主流的聚类算法属于随机算法，基于随机的初值，聚类结果也随着初值变化，聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。

对样本数据进行分类(提取常态模式)时，还会遇到“大数据”的问题。随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大，形成了维数大、规模大、复杂性大的大数据形态，要挖掘其中有意义的知识和内容以指导实际生产和具体应用，需要首先进行降维处理，即维数约简，它一方面可以解决“维数灾难”，缓解大数据中“信息丰富但知识贫乏”的问题，降低计算的复杂度；另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多，例如：根据数据本身的特性，可以分为线性降维和非线性降维两种；根据是否考虑和利用数据的监督信息，可以分为无监督降维、有监督降维和半监督降维三种；根据是否需要保持数据的结构，可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。

在降维过程中，本专利旨在采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说，这些在降维中被保留下来的维度不是主观确定的，不依赖于经验模型。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于聚类的大数据常态模式提取方法及系统，本发明的常态模式划分方法是基于聚类分析的结果，具有较强的客观性，又有效的克服了主流聚类算法的不足。

本发明通过对样本数据进行聚类分析，将所得“簇”作为已知的分类标准(标签)，提取属性值辨识度、属性辨识度、属性值重要性、属性重要性等“属性对相似性的影响力”的四项指标，再使用全新的常态模式提取方法获取“常态模式”，并给出常态模式的命名方法。

本发明的技术方案为：

一种基于聚类的大数据常态模式提取方法，其步骤为：

1)中央服务器从各终端服务器采集样本数据，得到一总样本数据集；

2)从该总样本数据集中抽取若干样本，得到一抽样样本集合并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性；

3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序，选取若干属性作为大数据降维后保留的属性；

4)对属性降维后的全体样本数据进行聚类，将聚类得到的簇作为样本的标签，对样本进行标注；

5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分，将划分结果作为常态模式；

其中，属性值辨识度的计算方法为：选取样本一属性i的一属性值a，计算具有该属性值a的样本属于标签j的条件概率值，以及未增加该属性值条件时样本属于该标签j的概率值；将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度；将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度；

属性辨识度的计算方法为：根据属性i所有属性值辨识度计算该属性i的属性辨识度；

属性值重要性的计算方法为：将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度，得到该属性值a对于该标签j的属性值重要性；将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性；

属性重要性的计算方法为：根据属性i所有属性值重要性计算该属性i的属性重要性。

进一步的，对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。

进一步的，对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。

进一步的，分别选用属性重要性最高的属性、属性辨识度最高的属性对样本进行划分，得到所述常态模式；或者选取划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对样本进行划分，得到所述常态模式。

进一步的，根据所述常态模式划分所依据的属性和属性值，命名所述常态模式的名称。

进一步的，命名所述常态模式的名称的方法为：在得到所述常态模式的过程中，记录每一所述常态模式所用到的属性和属性值；将第一所用的属性和或属性值记录为根节点，最后一次所用的属性和或属性值记录为叶节点；然后沿着根节点向该叶节点发展，将涉及的全部属性值的集合作为该常态模式的名称。

本发明的系统主要如图5所示，包括：

(1)数据采集模块。

将待分析的样本数据从分布在各地的终端服务器数据库中传输汇总到中央服务器的数据库中。

(2)数据降维模块。

对采集的样本进行抽样和聚类分析，得到若干簇，将聚类得到的簇作为样本的标签，对样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性，提取由数据本身决定的“属性对相似性的影响力”指标；然后根据指标计算结果对属性排序；选取排序靠前的属性。

本发明公开了一种全新的常态模式划分方法，可以建立在任何一种公知的聚类分析算法结果之上，提取由数据本身决定的“属性对相似性的影响力”指标，这些指标包括：属性值辨识度、属性辨识度、属性值重要性、属性重要性。本发明将聚类分析获得的簇作为已知的分类标签，由此，“属性对相似性的影响力”指标等价于“属性对已知标签的影响力”指标。

这是因为，使用聚类分析方法让数据通过无监督学习生成若干“簇”，这些簇是基于距离或相似度来确定的，满足簇中的对象彼此相似，而与其他簇中的对象相异。粗略的看，聚类的结果与属性和属性值没有直接关联，即不是由某些属性来划分的。但是，考虑到距离或相似度的定义基于属性和属性值，因此属性和属性值对簇的形成具有实际的影响，而且不同的属性和属性值的影响力并不相同。因此，将聚类分析获得的簇作为已知的分类标签，进而提取属性对分类的影响力的四项指标具有实际意义。

(3)常态模式划分模块。

常态模式，可以理解为样本数据中的常见类型，每个常态模式都是一组属性值的集合，常态模式集合是对全体样本的一种划分。例如，图1中的一个常态模式可能是{颜色＝黑,形状＝方,尺寸＝小}，该类型包括了所有小的黑方块，它对应属性值{颜色＝黑}、{形状＝方}和{尺寸＝小}，是这三个属性值的集合。当然，某一个确实的常态模式中的属性值不一定是唯一的，因此，{颜色＝黑或灰,形状＝方,尺寸＝小}也可能是一个常态模式。另一方面，由于{颜色＝黑,形状＝方或圆,尺寸＝小}可以化简为{颜色＝黑,尺寸＝小}，因此，常态模式对应的属性值不一定包含所有的属性，也就是说，有的属性在常态模式的划分中并不重要。

常态模式的另一个重要特点是“划分”性，也就是“不重不漏”。两个常态模式不能拥有共同的样本，即不相交；同时，绝大部分样本都属于某一个常态模式，只有少部分“异常值”、“离群值”。

直观的讲，一个样本总体全体常态模式的集合对应一个分类树，如图2所示，就是一个可能的常态模式集合。

这些图型具体应该分成哪些常态模式难以划分。本发明使用“先聚类再分类”的技术，提取数据客观蕴含的属性重要程度，给出客观的分类标准，即常态模式。

常态模式覆盖了绝大部分样本，除了左下角灰底白点的大圆，这是异常值。

一个需要区别的概念是正常类型。事实上，常态模式并不等价于正常类型，常态模式只是从出现的频率上给出了出现频率高的划分方法，并不意味着它一定是正常的、正确的。例如，在道路上暂时没有机动车通过时行人闯红灯过马路，这是一种常见的行为，但却不是正确、合法的行为。当然，一般来说，常态模式是正常类型，不属于常态模式的异常值是不正常的样本。

本发明通过提取属性重要性和辨识度，获取属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项指标，也就是“属性对相似性的影响力”。再使用全新的常态模式提取方法获取分类结果，即“常态模式”。

与现有技术相比，积极效果为：

(1)常态模式获得的“类”比聚类分析获得的“簇”，具有更加确切的分类标准，排除了由于其他属性的干扰，使得个别样本点分类不准确的现象，如图3。例如，可能某个簇的100个样本中99个都是“性别＝男性”，仅有1个是“性别＝女性”，使得分类结果的实践指导意义较差。而本专利将选择“性别”属性作为分类标准，获得“性别＝男性”和“性别＝女性”两个类，分类结果的实践指导意义更好。进一步，这个特殊的、错误分类的个体，可以作为异常值研究对象。

(2)对于一类复杂的趋势数据样本，例如某超市每天的顾客购物情况，使用聚类分析得到的簇，不能确定相邻两天得到的簇之间的关系，从而难以研究相关簇之间的时间序列关系。而使用本专利方法可以获得常态模式并给出了常态模式的命名方法，则在不同时间点的各个簇之间建立了明确的时间序列关系，即可以研究相同名称的簇的变化情况，以及不同时间点簇的增加或减少情况。

(3)主流的聚类算法属于随机算法，基于随机的初值，聚类结果也随着初值变化，聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。而本发明由于使用了“先聚类再分类”的方法确定常态模式，降低了初值对计算结果的影响，使分析结果更加稳定可信。

本方法可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域，获取常见类型集合，从而促进资源合理配置，本方法具有较强的普适性。

附图说明

图1为常态模式示意图；

图2为常态模式实例图；

图3为常态模式划分方法结果对比图；

(a)聚类得到的簇，(b)先聚类再分类获得的类

图4为常态模式提取系统流程图；

图5为常态模式提取系统结构图；

图6为划分属性的选择图；

(a)根据重要性最高的属性(属性A)划分常态模式，

(b)根据辨识度最高的属性(属性B)划分常态模式，

图7为类与簇之间的差异图；

(a)由聚类分析获得的五个簇，

(b)根据属性的辨识度和重要性划分数据得到的四个类；

图8为应用实例发现与降维指标计算结果图；

图9为常态模式查看方法图；

图10为时间序列分析和拐点分析预警示意图。

具体实施方式

本发明公开了一种全新的基于聚类的常态模式提取方法和系统，如图4所示，包括以下主要步骤。

步骤1：数据采集。

数据采集模块是本专利系统的硬件基础。该模块将待分析的样本数据从分布在各地的终端数据库中传输汇总到中央数据库。

步骤2：数据清洗。

通过数据采集终端汇总得到的数据，难免存在不完整、错误、重复等现象。数据清洗步骤用于过滤这些不符合要求的数据，过滤的结果将提交给相关主管部门，确认是直接过滤掉还是作为异常值提取出来做进一步分析。

步骤3：数据降维。

经过清洗的样本数据汇总到中央数据库。由于样本量(N1)巨大，形成了维数大、规模大、复杂性大的大数据形态，要挖掘其中有意义的知识和内容以指导实际生产和具体应用，需要首先进行降维处理，即维数约简，它一方面可以解决“维数灾难”，缓解大数据中“信息丰富但知识贫乏”的问题，降低计算的复杂度；另一方面可以引导人们更好地认识和理解数据。

数据降维步骤包括以下子步骤：

步骤3.1：数据抽样。

对全体样本进行系统抽样(systematicsampling)。系统抽样，又称机械抽样、等距抽样。具体而言：

(1)由系统硬件运转能力确定适合的抽样样本量(N2)，定义压缩比(M)为：

M＝N1÷N2；

(2)将全体样本数据按某一顺序排列起来，标注唯一的序号；

(3)从前M个样本中随机的选出一个样本作为抽样样本，记其序号为k；

(4)将序号为k、k+M、k+2*M、…、k+(N2-1)*M的N2个样本作为抽样结果。

步骤3.2：数据聚类。

本步骤可以建立在任何一种公知的聚类分析算法结果之上，通过对抽样后的样本数据进行聚类分析，得到若干簇。

步骤3.3：降维指标选择。

针对抽样得到的N2个样本以及聚类获得的若干簇，可以通过后续的步骤计算降维指标(即“属性对相似性的影响力”)，并根据“影响力”的排序来确定降维后保留的属性。本系统提供降维指标的选择，可选择的降维指标有：

降维指标1：属性辨识度指标；

降维指标2：属性重要性指标。

降维指标选择主要看待分析的问题中“样本量”因素是否重要，建议如下：

(1)如果“样本量”因素不重要，应选择属性辨识度指标给出影响力排序；

(2)如果“样本量”因素重要，应选择属性重要性指标给出影响力排序；

(3)如果想综合考虑上述两种情况，应结合这两个指标给出综合性的排序。

步骤3.4：降维指标计算。

计算降维指标，也就是计算每个属性“对相似性的影响力”，具体包括：属性辨识度和属性重要性，同时还需要计算两个过渡性的指标：属性值辨识度和属性值重要性。我们以案例为基础，说明这四项指标的主要计算步骤。系统将根据用户在步骤3.2中的选择情况计算相应的指标。

四项指标计算案例：

一个包含100人的研究样本，其中包含50名女性和50名男性，其中20人有前科。通过聚类分析获得了两个“簇”，其中“簇1”包含10个样本，绝大部分是犯有盗窃罪的人，而“簇2”包含90个样本，绝大部分是未犯有盗窃罪的人。其他数据如表1。

表1：四项指标计算案例

序号	样本量	性别	前科	类型
					1	42	女	无	簇2
2	36	男	无	簇2
					3	8	男	有	簇2
4	5	男	有	簇1
					5	4	女	有	簇2
6	3	女	有	簇1
					7	1	男	无	簇1
8	1	女	无	簇1

1)计算属性值相对某个簇的辨识度。

计算属性值的辨识度，也就是基于条件概率和贝叶斯算法的理论，计算哪些属性值对已知的标签取值有较大影响(定性)以及影响值多大(定量)。具体而言，用增加属性条件后的概率变化值，即条件概率值与概率值的差，来表示每个簇中每个属性值的辨识度。

具体到本案例，我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力，从而实施有针对性的预防和干预工作。我们首先计算属性值相对某个簇的辨识度，以“簇1”为例。

对于这100人中的一个样本x，在属性未知的情况下，预测他(她)属于簇1的概率(可能性)是：P(x属于簇1)＝10/100＝10％。

情况1：对于“性别＝女”这个属性，如果知道这个人x是女性，则x属于簇1的条件概率是：P(x属于簇1|x是女性)＝4/50＝8％，因为50名女性中有4人属于簇1，概率变化值为8％-10％＝-2％。

情况2：对于“前科＝有”这个属性，如果知道这个人x有前科，则x属于簇1的条件概率是：P(x属于簇1|x有前科)＝8/20＝40％，因为20名有前科的人中有8人属于簇1，概率变化值为40％-10％＝30％。

比较情况1和情况2：“前科＝有”这个属性值相对簇1的辨识度大于0，也就是具有该属性值的样本(条件概率)，比无法判断是否具有该属性值的样本(无条件概率)属于簇1的可能性更大；“性别＝女”这个属性值相对簇1的辨识度小于0，也就是具有该属性值的样本，比无法判断是否具有该属性值的样本属于簇1的可能性更小。进一步，“前科＝有”这个属性值相对簇1的辨识度的绝对值要远远大于“性别＝女”这个属性值，可以认为前者对判断样本是否属于簇1的影响力更大。

同理，可以计算出“性别＝男”这个属性值相对簇1的辨识度为0.02，“前科＝无”这个属性值相对簇1的辨识度为-0.075。进一步考虑“簇2”，可以计算得到：“性别＝女”相对簇2的辨识度为0.02；“性别＝男”相对簇2的辨识度为-0.02；“前科＝有”相对簇2的辨识度为-0.3；“前科＝无”相对簇2的辨识度为0.075。

2)计算属性值的辨识度。

对于样本具有的每一个属性值，将它相对所有的簇，都按照步骤2计算一个概率差值，即该属性值相对该簇的辨识度，再将这些辨识度取平方平均数，得到该属性值针对整个空间的辨识度。可见，“性别＝女”和“性别＝男”的辨识度均为0.02；“前科＝有”的辨识度为0.3；“前科＝无”的辨识度为0.075。

这样计算的属性值辨识度没有考虑属性值对应的样本量大小，可以很好的识别样本量很少但辨别能力很强的属性。落实到实践中，针对“前科＝有”的群体开展预防和干预工作要比针对“性别＝男”的群体开展工作具有更好的效果。而“前科＝无”和“性别＝女”的群体，属于簇1的可能性(可以近似的看成犯盗窃罪的可能性)小于平均值，不需要进行预防干预工作。

3)计算属性的辨识度。

利用步骤3，我们得到了属性值“性别＝女”和“性别＝男”对于两类簇划分(相似性)的辨识度，将两者的平方平均数定义为“性别”这一属性的辨识度，计算得0.02。同样的，将属性值“前科＝有”和“前科＝无”的辨识度的平方平均数定义为“前科”这一属性对于“簇”的辨识度，计算得0.2187。

4)计算属性值的重要性。

为了平衡属性值的辨别能力和对应的样本量，在“辨识度”概念的基础上定义“重要性”概念。粗略的说，属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。

例如，属性值“性别＝女”和“性别＝男”的辨识度均为0.02，对应样本量均为50，重要性为1；属性值“前科＝有”的辨识度为0.3，对应样本量为20，重要性为6；属性值“前科＝无”的辨识度为0.075，对应样本量为80，重要性为6。更加细化的，我们还可以计算属性值相对于某个簇的重要性，例如，属性值“性别＝女”相对簇1的重要性为-1；属性值“性别＝男”相对簇1的重要性为1。

可见，由于对应样本量的差异，两着的辨识度差别较大但重要性差别较小，辨识度和重要性反映的信息存在不同。对于更复杂的情况，不同属性对应的的样本数量可能存在很大的差异，甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作，较好的平衡的针对性和覆盖面。落实到实践中，可以针对“前科＝有”的群体开展犯罪危害的教育工作。

进一步的，当一个属性只有两个属性值时，两者对“簇”的重要性绝对值相同，这符合我们对“重要性”概念的一般认识，因为两个取值知道其中一个也就知道了另一个。

5)计算属性的重要性。

属性的重要性可以有两种定义，一种是通过属性值的重要性来计算，即“属性的重要性等于属性值的重要性的平方平均数”；一种是通过属性的辨识度来计算，即“属性的重要性等于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量，如果采用后者的定义，那么属性的重要性和辨识度概念则本质上是相同的，不利于建立多层次的属性影响力排序。因此，我们采用前一种定义方式。粗略的说，属性的重要性等于属性值的重要性的平方平均数。

在本例中，属性“性别”的重要性为1，属性“前科”的重要性为6。这个结果也是与我们的直观非常一致的。

步骤3.5：降维指标排序。

降维指标计算，也就是给出属性“对相似性的影响力”排序。根据步骤3.3中用户的选择以及步骤3.4中的相关指标计算结果，获得属性“对相似性的影响力”排序。

步骤3.6：大数据降维(维度选择)。

根据步骤3.5中给出的属性“对相似性的影响力”排序，根据实际需求设定影响力阈值，选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性，即维度选择。

步骤4：常态模式划分及命名。

针对降维后的全体样本数据，提取低维全体数据的常态模式。相对于直接提取高维全体数据的常态模式，有利于降低本系统的计算复杂度、提高分析效率。

步骤4.1：数据聚类。

本步骤可以建立在任何一种公知的聚类分析算法结果之上，通过对降维后的低维样本数据进行聚类分析，得到若干簇。

步骤4.2：划分指标计算。

我们可以将步骤4.1得到的“簇”作为已知的分类情况，计算“属性对相似性的影响力”指标，包括：属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项具体指标，具体的计算方法参见步骤3.4。

步骤4.3：常态模式划分。

属性的辨识度和重要性都是基于聚类结果提取出来的，均可以用于分类步骤，针对不同领域和数据结构具有不同分类效果，需要针对实际情况选择。

具体而言，针对全体数据，将属性辨识度和属性重要性的两项指标从大到小进行排序，灵活选择“属性重要性”或“属性辨识度”最高的属性对样本进行划分，旨在使分类结果最好的逼近聚类分析得到的“簇”。根据这种方法获得的分类称为常态模式，常态模式可能合并或划分部分簇，但类与簇之间的差异应该尽量小。

例如：图6中的属性A表示重要性最高的属性、属性B表示辨识度最高的属性，三种不同的图案表示由聚类分析获得的三个簇“黑方”、“灰方”、“圆”。我们可以选择用属性A或者属性B的不同属性值将样本进行划分，但相对而言，使用属性A划分得到的两个类与簇的差异较小。事实上，使用属性A获得的类“A左”包含完整的簇“黑方”和“灰方”，而类“A右”包含完整的簇“圆”；使用属性B获得的类“B上”包含簇“黑方”和簇“圆”的一部分，而类“B下”包含簇“灰方”和簇“圆”的另一部分。前者划分结果与聚类分析的结果更为一致，采用前者的划分方法，即在本次划分中更适合于使用重要性最高的属性A来划分。

本发明采用的“先聚类再分类”的方法获得的结果与传统的“聚类”方法存在差异。如图7所示，图7(a)是由聚类分析获得的五个簇，图7(b)是将这五个簇作为已知分类，根据属性的辨识度和重要性划分数据得到的四个类，这五个簇与四个类之间的差异表现为A-E这五个样本。因此，本发明是传统的聚类分析算法不能代替的。

具体而言，将步骤4中计算得到的属性辨识度和重要性分别排序，优先选择属性重要性最高或者辨识度最高的属性对所有样本进行划分，选择的原则是使划分得到的类与簇之间的差异尽量小，也就是“类”很好的逼近了已知的“簇”。如前文所述。假设我们选择了属性1作为划分的标准，将数据分为A、B、C三个部分。例如，如果选择的属性为“形状”，数据将按照其属性值分为“形状＝方”和“形状＝圆”两个类。每个部分属性1的属性值可能唯一，也可能是几个相近属性值的集合，但不同部分属性1的属性值一定不同，这些都是由算法自动实现的。接下来，针对划分获得的每个部分，不考虑属性1，再选择其中重要性或者辨识度最高的属性，分别进行第二步划分(三个部分的下一步划分可能选取不同的属性)。例如，“形状＝方”的类，按照“尺寸”属性再划分。

当分类的精细程度满足实际需求时，划分结束(每个部分划分的次数也可能不同)，得到单纯基于属性重要性的分类，称为常态模式。实际操作时，需要针对情况选择重要性或辨识度作为下一步划分的标准。常态模式覆盖了绝大部分样本，基本做到“不重不漏”，具有很强的客观性。

分类的精细程度，又称为颗粒度，作为算法的停止规则，可以规定为每个“小块”的样本量小于N，或者划分次数等于K等等。

步骤4.4：常态模式命名。

通过步骤4.3构建的常态模式，比直接聚类分析的结果具有更强的可命名性。事实上，常态模式是由各个属性和属性值一步一步划分得到，因此这些属性值自然的成为了类型的“名称”，很自然的解决了聚类分析“簇”的命名问题。

常态模式的命名方式为：针对需要命名的常态模式(叶节点)，沿着根节点向该叶节点发展，将涉及的全部属性值的集合作为该常态模式的名称。也就是说，常态模式的名称是若干对分类影响较大的属性值的集合。

以图2为例，常态模式包括以下六个：

常态模式1：{形状＝方,尺寸＝大}；

常态模式2：{形状＝方,尺寸＝小,颜色＝黑}；

常态模式3：{形状＝方,尺寸＝小,颜色＝灰}；

常态模式4：{形状＝方,尺寸＝小,颜色＝白}；

常态模式5：{形状＝圆,颜色＝黑}；

常态模式6：{形状＝圆,颜色＝灰或白}。

步骤5：常态模式发布。

本系统最后一个环节是将上述计算获得的常态模式，通过常态模式发布器反馈给用户。

应用实例

本发明公开了一种基于聚类的大数据常态模式提取方法及系统，已经用以进行××地区治安风险防范的评估。它是基于数据仓库与数据挖掘技术，以本发明的基本分析方法为基础，从历史数据中获取指定时间区段的社会治安风险评估常态特征指标(属性及属性值)，进行大数据降维和常态模式提取，从而形成区域性社会安全态势综合评估与专项评估模型和评估指标(属性及属性值)体系，并对相应时间区段的全部常态指标(属性及属性值)进行标定。在所标定的常态指标(属性及属性值)体系中，依据降维后的属性辨识度及重要性对其进行排序处理，并给予相应的命名。

本发明已经支撑了某地区在指定时间区间全部案件的海量数据常态指标(属性与属性值)的发现与降维指标计算，计算结果如图8所示。

常态模式提取的重要意义不仅仅在于清晰的展示了数据的内在子结构。它也可以作为一系列重要分析的基础，例如：我们可以在提取的常态模式基础上对样本的属性值重要性进行排序。在本专利公开的系统中，我们可以通过第一行菜单选择需要查看的常态模式，如图9所示。

另一个重要的应用是：将常态模式的个数作为一个整体指标，通过时间序列分析和拐点分析，获得基于这个整体指标的预警信息。这种预警信息可以很好的表现出数据子结构的异常变动，如图10所示。

Claims

1.一种基于聚类的大数据常态模式提取方法，其步骤为：

2.如权利要求1所述的方法，其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。

3.如权利要求1所述的方法，其特征在于对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。

4.如权利要求1或2或3所述的方法，其特征在于分别选用属性重要性最高的属性、属性辨识度最高的属性对样本进行划分，得到所述常态模式；或者选取划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对样本进行划分，得到所述常态模式。

5.如权利要求1或2或3所述的方法，其特征在于根据所述常态模式划分所依据的属性和属性值，命名所述常态模式的名称。

6.如权利要求5所述的方法，其特征在于命名所述常态模式的名称的方法为：在得到所述常态模式的过程中，记录每一所述常态模式所用到的属性和属性值；将第一所用的属性和或属性值记录为根节点，最后一次所用的属性和或属性值记录为叶节点；然后沿着根节点向该叶节点发展，将涉及的全部属性值的集合作为该常态模式的名称。

7.一种基于聚类的大数据常态模式提取系统，其特征在于包括多个终端服务器和一中央服务器，所述终端服务器通过网络与所述中央服务器连接；其中，所述中央服务器包括数据采集模块、数据降维模块和常态模式划分模块；

所述数据采集模块，用于从各终端服务器采集样本数据，得到一总样本数据集；

所述数据降维模块，用于从该总样本数据集中抽取若干样本，得到一抽样样本集合并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，并根据计算结果对属性进行排序，选取若干属性作为大数据降维后保留的属性；

所述常态模式划分模块，用于对属性降维后的全体样本数据进行聚类，将聚类得到的簇作为样本的标签，对样本进行标注；然后根据选取的属性划分指标对标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分，将划分结果作为常态模式；

8.如权利要求7所述的系统，其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度；对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。

9.如权利要求7所述的系统，其特征在于根据所述常态模式划分所依据的属性和属性值，命名所述常态模式的名称；所述中央服务器通过一常态模式发布器发布所述常态模式。

10.如权利要求7或8或9所述的系统，其特征在于所述常态模式划分模块在得到所述常态模式的过程中，记录每一所述常态模式所用到的属性和属性值；将第一所用的属性和或属性值记录为根节点，最后一次所用的属性和或属性值记录为叶节点；然后沿着根节点向该叶节点发展，将涉及的全部属性值的集合作为该常态模式的名称。