CN104142986A

CN104142986A - 一种基于聚类的大数据态势分析预警方法及系统

Info

Publication number: CN104142986A
Application number: CN201410356031.0A
Authority: CN
Inventors: 王电; 魏毅; 黄煜可
Original assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Current assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority date: 2014-07-24
Filing date: 2014-07-24
Publication date: 2014-11-12
Anticipated expiration: 2034-07-24
Also published as: CN104142986B

Abstract

本发明公开了一种基于聚类的大数据态势分析预警方法及系统。本方法为：1)服务器从各终端采集样本，并按照时间段对样本划分；2)对于每一时间段的样本数据集聚类，得到的簇作为样本的标签进行标注，然后根据选取的属性降维指标计算已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，对属性进行排序，选取若干属性作为大数据降维后保留的属性；3)对每一属性降维后的样本数据集聚类，将得到的簇作为样本数据集的态势指数，建一态势指数时间序列，确定一常态区域；4)计算当前时刻所采集样本数据的态势指数，如果超出常态区域，则对其监控，并计算下一时刻所采集样本数据的态势指数，如果仍超出常态区域，则预警。

Description

一种基于聚类的大数据态势分析预警方法及系统

技术领域

本发明涉及一种预警方法，尤其涉及一种基于聚类的大数据态势分析预警方法及系统。

背景技术

在现实生活中，我们经常会面对具有一定周期性的复杂时间序列数据，在每个时间点对应的截面上，都对应一组样本数据，各个时间点之间的样本数据没有必然的联系，从而不是公知的面板数据，甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏足够了解的情况下，确定每个截面上数据之间的相似性，判断不同属性对这种相似性的影响程度，以及这些蕴含在数据中的关系在时间序列上如何传递和变化，并由此作出异常情况的预警。

由于我们对数据的了解非常缺乏，我们常常需要依据经验、主观地将属性进行分类，一般进行后续的研究。例如，对于消费者的购物篮数据，我们将消费者按照消费金额分为高、中、低三类，或者按照消费者年龄分为老、中、青三类，再比较各个分类的众多数据的均值、方差等指标随时间序列的变化，由此作出预警。这种分类方法存在两大缺陷：其一，严重依赖于主观的分类，使分析结果丧失客观性；其二，将众多数据压缩成均值、方差等指标，丧失了大量的信息，使分析结果不能充分反映情况，预警效果差强人意。

对具有一定周期性的复杂时间序列数据做出预警时，还会遇到“大数据”的问题。随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大，形成了维数大、规模大、复杂性大的大数据形态，要挖掘其中有意义的知识和内容以指导实际生产和具体应用，需要首先进行降维处理，即维数约简，它一方面可以解决“维数灾难”，缓解大数据中“信息丰富但知识贫乏”的问题，降低计算的复杂度；另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多，例如：根据数据本身的特性，可以分为线性降维和非线性降维两种；根据是否考虑和利用数据的监督信息，可以分为无监督降维、有监督降维和半监督降维三种；根据是否需要保持数据的结构，可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于聚类的大数据态势分析预警方法和系统。

我们首先根据实际需要选择时间段，根据时间段划分样本，以便进行比较。其次使用“抽样->聚类->计算降维指标”的流程进行大数据降维，将聚类获得的簇作为已知的标签，采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说，这些在降维中被保留下来的维度不是主观确定的，不依赖于经验模型。再次针对降维后的数据，使用聚类分析(clustering)算法将样本进行聚类，获得数据客观蕴含的相似性，再将聚类结果(簇，cluster)的个数定义为态势指数。最后，将各个时间段的态势指数形成时间序列，使用拐点分析方法进行异常值预警，预警方法简便、效果较好。

本发明公开的基于聚类的态势分析预警方法，其创新点在于定义了一种全新的宏观指标“态势指数”，即截面数据中聚类获得的簇的数量，它反映了数据内部蕴含的子结构的数量，由此可以对每个时间点的截面数据中蕴含的子结构的数量变化进行预警，是常用的截面数据样本量指标的有力补充。

本发明的技术方案为：

一种基于聚类的大数据态势分析预警方法，其步骤为：

1)中央服务器从各终端服务器采集样本数据，并按照时间段对样本数据进行划分，每个时间段对应一样本数据集；

2)对于每一时间段的样本数据集，从中抽取若干样本构建一抽样样本集合，并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性；

3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序，选取若干属性作为大数据降维后保留的属性；

4)对每一属性降维后的所述样本数据集进行聚类，将聚类得到的簇作为所述样本数据集的态势指数；

5)根据各个时间段的态势指数构建一态势指数时间序列；然后根据该态势指数时间序列确定一常态区域；

6)计算当前时刻所采集样本数据的态势指数，如果超出所述常态区域，则对其进行监控，并计算下一时刻所采集样本数据的态势指数，如果仍超出所述常态区域，则进行预警；

其中，属性值辨识度的计算方法为：选取样本一属性i的一属性值a，计算具有该属性值a的样本属于标签j的条件概率值，以及未增加该属性值条件时样本属于该标签j的概率值；将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度；将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度；

属性辨识度的计算方法为：根据属性i所有属性值辨识度计算该属性i的属性辨识度；

属性值重要性的计算方法为：将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度，得到该属性值a对于该标签j的属性值重要性；将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性；

属性重要性的计算方法为：根据属性i所有属性值重要性计算该属性i的属性重要性。

进一步的，对该属性i所有属性值的属性值辨识度平方平均数作为该属性i的属性辨识度。

进一步的，采用基于条件概率和贝叶斯算法计算所述辨识度。

进一步的，将属性i所有属性值的属性重要性的平方平均数作为该属性的属性重要性。

进一步的，对每一时间段的样本数据进行系统抽样得到所述抽样样本集合。

本发明的系统如图3所示，其主要包括：

1、数据降维模块

对采集的样本进行抽样和聚类分析，得到若干簇，将聚类得到的簇作为样本的标签，对样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性，提取由数据本身决定的“属性对相似性的影响力”指标；然后根据指标计算结果对属性排序；选取排序靠前的属性对样本数据进行降维。本发明定义了四个相互关联但又互不相同的影响力指标：属性值辨识度、属性辨识度、属性值重要性、属性重要性，从而更加全面准确的刻画“属性对分类的影响力”大小。下面简要介绍这四个指标的概念，具体计算方法详见下文“具体实施方式”部分。

(1)属性值辨识度和属性辨识度

我们常说的“辨识度”有两种理解：第一，拥有该属性的样本是被辨认出来的能力，一个歌声辨识度高的歌手只需要演唱一句就可以让大家认出他是谁，一个相貌辨识度高的演员即使穿着平常走在人群中也可以被大家发现。第二，是拥有该属性的样本被准确分类的能力，例如，某影视基地同时开拍一部清宫剧和一部现代剧，面对一个脑后垂着长辫子的男演员，即使他没有说明自己属于哪个剧组，也基本可以断定他属于清宫剧剧组，可见“性别＝男、发型＝长辫子”的属性值对“剧组”这一分类的辨识度很高。本专利定义的属性值辨识度和属性辨识度采用的是后一种概念。

(2)属性值重要性和属性重要性

属性辨识度概念没有考虑具有该属性的样本量，为了进一步平衡属性值的辨别能力和对应的样本量，在“辨识度”概念的基础上定义“重要性”概念。粗略的说，重要性等于辨识度乘以样本量。

(3)“辨识度”和“重要性”

我们选择“辨识度”和“重要性”两个指标作为“属性对分类的影响力”的判断指标，是因为这两个指标在实际操作中具有完全不同的意义。

考虑青少年犯罪影响因素案例，如果通过聚类分析获得两个簇，分别代表“暴力犯罪”和“非暴力犯罪”。其中，青少年“是否吸毒＝是”的属性值对“暴力犯罪”的簇具有极高的辨识度，也就是吸毒的青少年如果参与犯罪，这主要是暴力犯罪，可见应该注意重点排查、干预这部分青少年的行为，采取针对其个人的预防监控措施。然而，由于一万个青少年中吸毒的样本非常少，这个属性值的重要性并不大，重要性较高的属性值可能是“是否打架斗殴＝是”，该的属性值涉及的样本较多，更适合采用大面积宣传教育的方式进行预防干预，从而提高干预效率。

2.态势指数计算模块

本方法通过对属性降维后的样本数据集进行聚类，将聚类得到的簇作为对应样本数据集的态势指数。数据采集模块按照时间段对对采集的样本数据进行划分，每个时间段对应一样本数据集。

3、拐点分析模块

本发明使用全新的拐点分析技术，通过历史数据计算态势指数确定出一常态区域，并通过数据点及其发展趋势与常态区域的关系，将数据分为三种状态：可控状态、监控状态、预警状态。

如图1所示，以周期为18的时间序列数据为例。我们首先使用三个周期的数据围成常态区域，即图中的灰色区域，接下来根据常态区域对新的一个周期的数据(黑色实线)进行拐点分析和预警。

可以发现，黑线上的大多数数据点落在常态区域中，属于可控状态。图中A点和B点落在常态区域之外，且都是曲线从常态区域中突破出来的第一个点，进入监控状态。如果数据点进入监控状态，相关人员应该保持密切监控，并对接下来的数据点进行拐点分析，也就是用拐点分析技术判断数据的发展趋势是“进一步突破”还是“反转回归”。具体而言：

①案例中，A点的下一时刻，曲线斜率符号转变(由正变成零或负)，即向正常状态回归，因此该数据值仍然属于监控状态，直到数据点回归到常态区域内，监控解除，或者曲线斜率符号再度转变，远离常态区域，变成预警状态。

②案例中，B点的下一时刻，曲线斜率并未发生符号转变，认为进一步偏离常态区域，因此该数据值变成预警状态，做出预警。相关人员应该集中精力分析这些预警的“异常”数据点。

本发明的主要原理

本部分说明本发明采用的主要原理，也就是为什么聚类获得的簇可以反映截面数据内部组成结构，为什么态势指数(簇的个数，数据内部蕴含的子结构的数量)可以作为宏观指标，成为截面数据样本量指标的有力补充。

1.相关概念

本专利涉及两个概念：基于已知分类的属性辨识度和重要性提取方法、常态模式。

(1)基于已知分类的属性辨识度和重要性提取方法。

该方法基于数据中已知的分类情况，可以提取由数据本身决定的“属性对相似性的影响力”指标，这些指标包括：属性值辨识度、属性辨识度、属性值重要性、属性重要性。本专利将聚类分析获得的簇作为该专利的已知分类，由此提取基于聚类分析获得的簇的四项影响力指标。

使用聚类分析方法让数据通过无监督学习生成若干“簇”，这些簇是基于距离或相似度来确定的，满足簇中的对象彼此相似，而与其他簇中的对象相异。粗略的看，聚类的结果与属性和属性值没有直接关联，即不是由某些属性来划分的。但是，考虑到距离或相似度的定义基于属性和属性值，因此属性和属性值对簇的形成具有实际的影响，而且不同的属性和属性值的影响力并不相同。因此，将聚类分析获得的簇作为已知的分类，进而提取属性对分类的影响力的四项指标具有实际意义。

(2)常态模式。

常态模式，可以理解为样本数据中的常见类型，每个常态模式都是一组属性值的集合，常态模式集合是对全体样本的一种划分。

例如，图4中的一个常态模式可能是{颜色＝黑,形状＝方,尺寸＝小}，该类型包括了所有小的黑方块，它对应属性值{颜色＝黑}、{形状＝方}和{尺寸＝小}，是这三个属性值的集合。当然，某一个确实的常态模式中的属性值不一定是唯一的，因此，{颜色＝黑或灰,形状＝方,尺寸＝小}也可能是一个常态模式。另一方面，由于{颜色＝黑,形状＝方或圆,尺寸＝小}可以化简为{颜色＝黑,尺寸＝小}，因此，常态模式对应的属性值不一定包含所有的属性，也就是说，有的属性在常态模式的划分中并不重要。常态模式的另一个重要特点是“划分”性，也就是“不重不漏”。两个常态模式不能拥有共同的样本，即不相交；同时，绝大部分样本都属于某一个常态模式，只有少部分“异常值”、“离群值”。

直观的讲，一个样本总体全体常态模式的集合对应一个分类树，如图5所示，就是一个可能的常态模式集合。

常态模式覆盖了绝大部分样本，除了左下角灰底白点的大圆，这是异常值。

一个需要区别的概念是正常类型。事实上，常态模式并不等价于正常类型，常态模式只是从出现的频率上给出了出现频率高的分类方案，并不意味着它一定是正常的、正确的。例如，在道路上暂时没有机动车通过时行人闯红灯过马路，这是一种常见的行为，但却不是正确、合法的行为。当然，一般来说，常态模式是正常类型，不属于常态模式的异常值是不正常的样本。

2.常态模式的个数可以作为宏观指标

我们首先说明，前文定义的常态模式的个数，反映了数据内部蕴含的子结构的数量，可以作为宏观指标，而且是截面数据样本量指标的有力补充。

首先，使用聚类分析方法让数据通过无监督学习生成若干“簇”，这些簇是基于距离或相似度来确定的，满足簇中的对象彼此相似，而与其他簇中的对象相异。粗略的看，聚类的结果与属性和属性值没有直接关联，即不是由某些属性来划分的。但是，考虑到距离或相似度的定义基于属性和属性值，因此属性和属性值对簇的形成具有实际的影响，而且不同的属性和属性值的影响力并不相同。

其次，根据聚类分析的结果，也就是各个“簇”的区别联系，确定属性和属性值在形成“簇”时的影响力，也就是属性的重要程度。这里使用了类似决策树理论的思想，我们把“簇”作为训练的“类标记”，也就是将各属性分类与“簇”的契合程度作为属性重要程度的判断标准，我们希望选出将样本分类的结果最接近“簇”的那些属性和属性值。

再次，属性的辨识度和重要性都是基于聚类结果提取出来的，均可以用于分类步骤，针对不同领域和数据结构具有不同分类效果，需要针对实际情况选择。也就是将属性和属性值按照重要性和辨识度排序，灵活选择“重要性”或“辨识度”最高的属性和属性值，旨在使分类结果最好的逼近聚类分析得到的“簇”，可能合并或划分部分簇。这样得到的分类，称为常见类型。常见类型覆盖了绝大部分样本，基本做到“不重不漏”，具有很强的客观性。

因此，如果常态模式的个数发生变化，可以归结为以下几种情况：

(1)常态模式分类时，选择了不同的属性或属性值，也就是属性或属性值的重要程度发生了变化。直观的讲，随着时间的推移，某些属性变得相对更重要或不重要了。由于每个属性对应的属性值切分数量通常不同，因此属性重要程度的变化改变了“切割”的方式，从而改变了切割的份数(常见类型的个数)。

(2)某些重要属性增加或减少了属性值，这包括单个属性值的增加或减少，也包括属性值组合的合并或分拆，例如：{颜色＝灰或白}拆分成{颜色＝灰}和{颜色＝白}，这通常是因为两个属性对应的样本量(支持数)增加，从而增加了属性值的重要程度，当然也可能是因为两者对应的样本开始表现出不同的特性，不应该再合并处理。

(3)增加或减少了某些重要属性，这种情况比较罕见，例如样本数据过去没有考虑某属性，现在考虑了，而且它有较高的重要程度。

可见，当常态模式的个数发生变化，无论是上述哪一种原因，都是非常值得关注的。因此，常态模式的个数，反映了数据内部蕴含的子结构的数量，可以作为整体态势的指标。

3.聚类获得的簇的个数可以作为宏观指标

从前文中常态模式的挖掘方法可以看出，常态模式非常接近聚类获得的簇，尽管可能会出现常态模式与簇多对一或一对多的情况，但非常少见，常态模式的数量与簇的数量基本一致、差异很小。所以，既然上一小节已经论证了“常态模式的个数，反映了数据内部蕴含的子结构的数量，可以作为宏观指标”，那么聚类获得的簇的个数也应该具有类似的功能。

与现有技术相比，本发明的积极效果为：

本发明直接使用聚类获得的簇的个数作为宏观指标，其优点在于操作简单、计算复杂性低，有利于在实际操作中使用和推广。其缺点在于传统的聚类分析算法基于随机的初始值进行迭代，因此获得的簇的个数存在一定随机性，为了克服这一缺点，可以使用若干次聚类获得的簇的个数的平均值作为宏观指标。

本发明公开的态势分析预警方法，可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域，提取“属性对相似性的影响力”指标，具有较强的普适性。

附图说明

图1为拐点分析和预警的简单实例图；

图2为基于聚类的大数据属性重要性和辨识度的时间序列预警系统流程图；

图3为基于聚类的大数据属性重要性和辨识度的时间序列预警系统结构图；

图4为常态模式的概念图；

图5为常态模式实例图；

图6为根据态势指数历史数据绘制的常态区域图；

图7为根据新周期中态势指数的状态图；

图8为实例分析计算效果图；

图9为“簇的合并”环节的分类关联差异矩阵。

具体实施方式

本发明公开了一种基于聚类的大数据态势分析预警方法和系统，可以得到多层次的预警结果，方法流程如图2所示，具体操作步骤如下。

步骤1：数据采集。

数据采集模块是本系统的硬件基础。该模块将待分析的无标签样本数据从分布在各地的终端数据库中传输汇总到中央数据库。

步骤2：数据清洗。

通过数据采集终端汇总得到的数据，难免存在不完整、错误、重复等现象。数据清洗步骤用于过滤这些不符合要求的数据，过滤的结果将提交给相关主管部门，确认是直接过滤掉还是作为异常值提取出来做进一步分析。

步骤3：时间段选择及划分。

根据客户实际需求，将样本数据划分为若干时间段，针对每个时间段重复步骤4和步骤5。本系统提供客户时间段划分的选择功能。

步骤4：数据降维。

经过清洗和时间段划分的的样本数据汇总到中央数据库。由于样本量(N1)巨大，形成了维数大、规模大、复杂性大的大数据形态，要挖掘其中有意义的知识和内容以指导实际生产和具体应用，需要首先进行降维处理，即维数约简，它一方面可以解决“维数灾难”，缓解大数据中“信息丰富但知识贫乏”的问题，降低计算的复杂度；另一方面可以引导人们更好地认识和理解数据。

数据降维步骤包括以下子步骤：

步骤4.1：数据抽样。

对全体样本进行系统抽样(systematic sampling)。系统抽样，又称机械抽样、等距抽样。具体而言：

(1)由系统硬件运转能力确定适合的抽样样本量(N2)，定义压缩比(M)为：

M＝N1÷N2；

(2)将全体样本数据按某一顺序排列起来，标注唯一的序号；

(3)从前M个样本中随机的选出一个样本作为抽样样本，记其序号为k；

(4)将序号为k、k+M、k+2*M、…、k+(N2-1)*M的N2个样本作为抽样结果。

步骤4.2：数据聚类。

本步骤可以建立在任何一种公知的聚类分析算法结果之上，通过对抽样后的样本数据进行聚类分析，得到若干簇。

步骤4.3：降维指标选择。

针对抽样得到的N2个样本以及聚类获得的若干簇，可以通过后续的步骤计算降维指标(即“属性对相似性的影响力”)，并根据“影响力”的排序来确定降维后保留的属性。本系统提供降维指标的选择，可选择的降维指标有：

降维指标1：属性辨识度指标；

降维指标2：属性重要性指标。

降维指标选择主要看待分析的问题中“样本量”因素是否重要，建议如下：

(1)如果“样本量”因素不重要，应选择属性辨识度指标给出影响力排序；

(2)如果“样本量”因素重要，应选择属性重要性指标给出影响力排序；

(3)如果想综合考虑上述两种情况，应结合这两个指标给出综合性的排序。

步骤4.4：降维指标计算。

计算降维指标，也就是计算每个属性“对相似性的影响力”，具体包括：属性辨识度和属性重要性，同时还需要计算两个过渡性的指标：属性值辨识度和属性值重要性。我们以案例为基础，说明这四项指标的主要计算步骤。系统将根据用户在步骤3.2中的选择情况计算相应的指标。

四项指标计算案例：

一个包含100人的研究样本，其中包含50名女性和50名男性，其中20人有前科。通过聚类分析获得了两个“簇”，其中“簇1”包含10个样本，绝大部分是犯有盗窃罪的人，而“簇2”包含90个样本，绝大部分是未犯有盗窃罪的人。其他数据如表1。

表1：四项指标计算案例

序号	样本量	性别	前科	类型
					1	42	女	无	簇2
2	36	男	无	簇2
					3	8	男	有	簇2
4	5	男	有	簇1
					5	4	女	有	簇2
6	3	女	有	簇1
					7	1	男	无	簇1
8	1	女	无	簇1

1.计算属性值相对某个簇的辨识度。

计算属性值的辨识度，也就是基于条件概率和贝叶斯算法的理论，计算哪些属性值对已知的标签取值有较大影响(定性)以及影响值多大(定量)。具体而言，用增加属性条件后的概率变化值，即条件概率值与概率值的差，来表示每个簇中每个属性值的辨识度。

具体到本案例，我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力，从而实施有针对性的预防和干预工作。我们首先计算属性值相对某个簇的辨识度，以“簇1”为例。

对于这100人中的一个样本x，在属性未知的情况下，预测他(她)属于簇1的概率(可能性)是：P(x属于簇1)＝10/100＝10％。

情况1：对于“性别＝女”这个属性，如果知道这个人x是女性，则x属于簇1的条件概率是：P(x属于簇1|x是女性)＝4/50＝8％，因为50名女性中有4人属于簇1，概率变化值为8％-10％＝-2％。

情况2：对于“前科＝有”这个属性，如果知道这个人x有前科，则x属于簇1的条件概率是：P(x属于簇1|x有前科)＝8/20＝40％，因为20名有前科的人中有8人属于簇1，概率变化值为40％-10％＝30％。

比较情况1和情况2：“前科＝有”这个属性值相对簇1的辨识度大于0，也就是具有该属性值的样本(条件概率)，比无法判断是否具有该属性值的样本(无条件概率)属于簇1的可能性更大；“性别＝女”这个属性值相对簇1的辨识度小于0，也就是具有该属性值的样本，比无法判断是否具有该属性值的样本属于簇1的可能性更小。进一步，“前科＝有”这个属性值相对簇1的辨识度的绝对值要远远大于“性别＝女”这个属性值，可以认为前者对判断样本是否属于簇1的影响力更大。

同理，可以计算出“性别＝男”这个属性值相对簇1的辨识度为0.02，“前科＝无”这个属性值相对簇1的辨识度为-0.075。进一步考虑“簇2”，可以计算得到：“性别＝女”相对簇2的辨识度为0.02；“性别＝男”相对簇2的辨识度为-0.02；“前科＝有”相对簇2的辨识度为-0.3；“前科＝无”相对簇2的辨识度为0.075。

2.计算属性值的辨识度。

对于样本具有的每一个属性值，将它相对所有的簇，都按照步骤2计算一个概率差值，即该属性值相对该簇的辨识度，再将这些辨识度取平方平均数，得到该属性值针对整个空间的辨识度。可见，“性别＝女”和“性别＝男”的辨识度均为0.02；“前科＝有”的辨识度为0.3；“前科＝无”的辨识度为0.075。

这样计算的属性值辨识度没有考虑属性值对应的样本量大小，可以很好的识别样本量很少但辨别能力很强的属性。落实到实践中，针对“前科＝有”的群体开展预防和干预工作要比针对“性别＝男”的群体开展工作具有更好的效果。而“前科＝无”和“性别＝女”的群体，属于簇1的可能性(可以近似的看成犯盗窃罪的可能性)小于平均值，不需要进行预防干预工作。

3.计算属性的辨识度。

利用步骤3，我们得到了属性值“性别＝女”和“性别＝男”对于两类簇划分(相似性)的辨识度，将两者的平方平均数定义为“性别”这一属性的辨识度，计算得0.02。同样的，将属性值“前科＝有”和“前科＝无”的辨识度的平方平均数定义为“前科”这一属性对于“簇”的辨识度，计算得0.2187。

4.计算属性值的重要性。

为了平衡属性值的辨别能力和对应的样本量，在“辨识度”概念的基础上定义“重要性”概念。粗略的说，属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。

例如，属性值“性别＝女”和“性别＝男”的辨识度均为0.02，对应样本量均为50，重要性为1；属性值“前科＝有”的辨识度为0.3，对应样本量为20，重要性为6；属性值“前科＝无”的辨识度为0.075，对应样本量为80，重要性为6。更加细化的，我们还可以计算属性值相对于某个簇的重要性，例如，属性值“性别＝女”相对簇1的重要性为-1；属性值“性别＝男”相对簇1的重要性为1。

可见，由于对应样本量的差异，两着的辨识度差别较大但重要性差别较小，辨识度和重要性反映的信息存在不同。对于更复杂的情况，不同属性对应的的样本数量可能存在很大的差异，甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作，较好的平衡的针对性和覆盖面。落实到实践中，可以针对“前科＝有”的群体开展犯罪危害的教育工作。

进一步的，当一个属性只有两个属性值时，两者对“簇”的重要性绝对值相同，这符合我们对“重要性”概念的一般认识，因为两个取值知道其中一个也就知道了另一个。

5.计算属性的重要性。

属性的重要性可以有两种定义，一种是通过属性值的重要性来计算，即“属性的重要性等于属性值的重要性的平方平均数”；一种是通过属性的辨识度来计算，即“属性的重要性等于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量，如果采用后者的定义，那么属性的重要性和辨识度概念则本质上是相同的，不利于建立多层次的属性影响力排序。因此，我们采用前一种定义方式。粗略的说，属性的重要性等于属性值的重要性的平方平均数。

在本例中，属性“性别”的重要性为1，属性“前科”的重要性为6。这个结果也是与我们的直观非常一致的。

步骤4.5：降维指标排序。

降维指标计算，也就是给出属性“对相似性的影响力”排序。根据步骤3.3中用户的选择以及步骤3.4中的相关指标计算结果，获得属性“对相似性的影响力”排序。

步骤4.6：大数据降维(维度选择)。

根据步骤3.5中给出的属性“对相似性的影响力”排序，根据实际需求设定影响力阈值，选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性，即维度选择。

步骤5：态势指数计算。

针对降维后的全体样本数据，提取低维全体数据的“态势指数”，也就是聚类分析的簇的个数。相对于直接提取高维全体数据的态势指数而言，有利于降低本系统的计算复杂度、提高分析效率。

步骤5.1：数据聚类。

本步骤可以建立在任何一种公知的聚类分析算法结果之上，通过对降维后的低维样本数据进行聚类分析，得到若干簇。

步骤5.2：簇的合并

由于聚类分析本身是一种随机算法，因此每次聚类得到的个数存在差异。同时，有些簇之间的区别对于待分析的问题而已，并不明显。因此需要进行簇的合并。具体而言：首先，计算各个簇的属性值重要性，从大到小给出排序，计算方法参见步骤4.4；其次，对于所有的簇，两两之间比较排在前面的重要属性值完全一致的个数，获得分类关联差异矩阵(a_ij)，矩阵中的元素a_ij表示簇i与簇j之间重要属性值排序一致程度，数值越大差异越大；最后，将a_ij小于某一阈值的两个簇合并。

这个操作步骤有利于克服聚类结果随着聚类初始值随机选取而不稳定的现象。

步骤5.3：态势指数。

态势指数定义为该区间内，样本聚类分析后获得的簇的个数。为了克服聚类分析算法的随机性，针对同一组数据进行三次聚类分析操作，将三次聚类获得的簇的个数的平均值定义为态势指数。可见，本方法可以建立在任何一种公知的聚类分析算法结果之上。因此，本算法也没有改进任何一种聚类算法，而是在其基础上展开进一步的挖掘工作。

步骤6：态势指数拐点分析。

针对每个时间点上截面数据重复步骤4和5的操作，获得每个时间段上的态势指数，从而获得态势指数的时间序列数据。进而，对态势指数时间序列数据进行拐点分析，主要分析步骤如下：

1.绘制常态区域。

假设数据以4为周期，连续三个周期的态势指数如表2：

表2：常态区域绘制案例

年份	时刻1	时刻2	时刻3	时刻4
					第1周期	5	4	6	6

第2周期	6	7	6	5
					第3周期	4	5	7	4
最低排序	6	7	7	6
					最高排序	4	4	6	4

计算三个周期中每个时间点的最大值和最小值，将其范围确定为常态区域，则上面案例的数据可以绘制如图6所示的常态区域。

2.在新周期中发现第一次突破常态区域的数据值点。

基于常态区域对新的一个周期的数据进行时间序列预警，首先是要确定第一次突破常态区域的数值点。在案例中，假设在新的一个周期中，时刻1的数据为5，属于常态区域，即该数值点为“可控状态”。时刻2的数据为8，第一次突破了常态区域，从而该数值点为“监控状态”。相关人员应该密切关注数据在下个时间点的变动情况，是出现“回归”常态区域的趋势还是“更加远离”常态区域。

3.区分可控状态、监控状态和预警状态。

如前所述，在新的一个周期中，时刻2的数据突破常态区域，进入“监控状态”，考虑时刻3的数据的三种情况，它们分别对应可控状态(C点)、监控状态(B点)和预警状态(A点)，如图7所示。

步骤7：预警信息发布。

本系统最后一个环节是将上述计算获得的预警信息，通过预警信息发布器反馈给用户。本系统可供客户选择的预警信息发布模式有两种：(1)发布预警状态；(2)发布监控状态和预警状态。

应用实例

本发明公开了一种基于聚类的大数据态势分析预警方法及系统。本发明在装载进××地区的98.48万案件数据后，经过大数据降维和态势指数计算后，获取了指定时间段的态势指数和常态区间指数，计算结果如图8所示。

这些实际数据，验证了本发明公开的、具有普适性的拐点判定规则，即：

1.当前态势指数(簇的个数)超过历史态势指数围成的常态区间时，则会出现新型事件特征，导致事件特征分布趋于分散，因此需关注新发事件特征；

2.当前态势指数(簇的个数)低于历史态势指数围成的常态区间时，则会出现某类事件集中出现情况，导致事件特征分布趋于集中，因此需关注支持数升高的事件特征。

根据上述的拐点判定规则，依据图中时间序列为“第三月上旬”、特征值数值为“22”的监控区域最小值，准确地发现了在××地区发生的一个特大团伙系列电信诈骗案，有力的支撑了社会治安态势的管控。

在另一个应用实例中，××地区使用本专利的系统和方法，对近20万件“两抢一盗”案件进行分析。其中，“簇的合并”环节的分类关联差异矩阵如图9所示。

通过对差异矩阵中的聚簇数量、即所反映的“两抢一盗”案件数据内部蕴含的子结构的数量进行比较，采用吸收原理，由此确定相应的常态模式。

在这个差异矩阵中，矩阵节点值越大，则两簇所标识案件的差异越大，反之，则两簇所标识案件的差异越小。例如：“城区住宅盗窃案1”和“城区服务部门诈骗案”、“城区住宅盗窃案1”、“城区公路拦路抢劫案”等3簇所标识案件的常态子结构的构成差异值都小于50，则在侦查业务上可以认定，此4簇所标识案件的常态子结构可以吸收，也即经常讨论的“合并同类簇”，也实现了常态模式边界的基本收敛。

Claims

1.一种基于聚类的大数据态势分析预警方法，其步骤为：

2.如权利要求1所述的方法，其特征在于对该属性i所有属性值的属性值辨识度平方平均数作为该属性i的属性辨识度。

3.如权利要求1或2所述的方法，其特征在于采用基于条件概率和贝叶斯算法计算所述辨识度。

4.如权利要求1所述的方法，其特征在于将属性i所有属性值的属性重要性的平方平均数作为该属性的属性重要性。

5.如权利要求1所述的方法，其特征在于对每一时间段的样本数据进行系统抽样得到所述抽样样本集合。

6.一种基于聚类的大数据态势分析预警系统，其特征在于包括多个终端服务器和一中央服务器，所述终端服务器通过网络与所述中央服务器连接；其中，所述中央服务器包括数据采集模块、数据降维模块、态势指数计算模块和拐点分析模块；

所述数据采集模块，用于从各终端服务器采集样本数据，并按照时间段对样本数据进行划分，每个时间段对应一样本数据集；

所述数据降维模块，用于从每一时间段的样本数据集中抽取若干样本构建一抽样样本集合，并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，并根据计算结果对属性进行排序，选取若干属性作为大数据降维后保留的属性；

所述态势指数计算模块，用于对每一属性降维后的所述样本数据集进行聚类，将聚类得到的簇作为所述样本数据集的态势指数；

所述拐点分析模块，用于根据各个时间段的态势指数构建一态势指数时间序列；然后根据该态势指数时间序列确定一常态区域；以及计算当前时刻所采集样本数据的态势指数，如果超出所述常态区域，则对其进行监控，并计算下一时刻所采集样本数据的态势指数，如果仍超出所述常态区域，则进行预警；

7.如权利要求6所述的系统，其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度；对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。

8.如权利要求6或7所述的系统，其特征在于采用基于条件概率和贝叶斯算法计算所述辨识度。

9.如权利要求6或7所述的系统，其特征在于所述中央服务器通过一预警信息发布器发布预警信息。

10.如权利要求6所述的系统，其特征在于对每一时间段的样本数据进行系统抽样得到所述抽样样本集合。