CN104123465B

CN104123465B - 一种基于聚类的大数据交叉分析预警方法及系统

Info

Publication number: CN104123465B
Application number: CN201410356006.2A
Authority: CN
Inventors: 王电; 黄煜可; 陈庆彬; 王雷
Original assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Current assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority date: 2014-07-24
Filing date: 2014-07-24
Publication date: 2017-04-19
Anticipated expiration: 2034-07-24
Also published as: CN104123465A

Abstract

本发明公开了一种基于聚类的大数据交叉分析预警方法及系统。本方法为：1)服务器按照时间段划分从各终端采集的样本；2)对于每一时间段的样本集聚类，得到的簇作为样本的标签进行标注，然后根据所选降维指标计算已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，选取若干属性作为降维后保留的属性；3)对降维后的样本数据集聚类，将得到的簇作为态势指数，建一态势指数时间序列，确定一常态区域；并且根据各时间段的样本数据总量时间序列确定一样本总量常态区域；4)计算当前时刻所采集样本数据的态势指数和样本总量，然后根据常态区域、样本总量常态区域分别确定态势指数和样本总量的状态，反馈交叉预警信息。

Description

一种基于聚类的大数据交叉分析预警方法及系统

技术领域

本发明涉及一种预警方法，尤其涉及一种基于聚类的大数据交叉分析预警方法及系统。

背景技术

在现实生活中，我们经常会面对一类复杂的时间序列数据，在每个时间点对应的截面上，都对应一组样本数据，各个时间点之间的样本数据没有必然的联系，从而不是公知的面板数据，甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏足够了解的情况下，确定每个截面上数据之间的相似性，判断不同属性对这种相似性的影响程度，以及这些蕴含在数据中的关系在时间序列上如何传递和变化，并由此作出异常情况的预警。

由于我们对数据的了解非常缺乏，我们常常需要依据经验和主观判断将属性进行分类，再进行后续的研究。例如，对于消费者的购物篮数据，我们将消费者按照消费金额分为高、中、低三类，或者按照消费者年龄分为老、中、青三类，再比较各个分类中众多数据的均值、方差等指标随时间序列的变化，由此作出预警。这种分类方法存在两大缺陷：其一，严重依赖于主观的分类，使分析结果丧失客观性；其二，将众多数据压缩成均值、方差等指标，丧失了大量的信息，使分析结果不能充分反映情况，预警效果差强人意。

上述的分类情况可以看成是“样本数据内部子结构”的指标，而样本的另一种常见指标就是“样本总量”。将两类指标的增加或减少的异常情况进行交叉分析，可以获得更加丰富的预警信息。本专利就旨在挖掘这类预警信息。

对这类复杂的时间序列数据做出预警时，还会遇到“大数据”的问题。随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。经过清洗的样本数据汇总到中央数据库。由于样本量巨大，形成了维数大、规模大、复杂性大的大数据形态，要挖掘其中有意义的知识和内容以指导实际生产和具体应用，需要首先进行降维处理，即维数约简。它一方面可以解决“维数灾难”，缓解大数据中“信息丰富但知识贫乏”的问题，降低计算的复杂度；另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多，例如：根据数据本身的特性，可以分为线性降维和非线性降维两种；根据是否考虑和利用数据的监督信息，可以分为无监督降维、有监督降维和半监督降维三种；根据是否需要保持数据的结构，可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于聚类的大数据交叉分析预警方法及系统。

首先，根据实际需要选择时间段，根据时间段划分样本，以便进行比较。其次，使用“抽样->聚类->计算降维指标”的流程进行大数据降维，将聚类获得的簇作为已知的标签，采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说，这些在降维中被保留下来的维度不是主观确定的，不依赖于经验模型。再次，针对降维后的全体数据，使用聚类分析算法将样本进行聚类，获得数据客观蕴含的相似性，再将聚类结果(簇)的个数定义为态势指数。最后，将各个时间段的态势指数形成时间序列，使用拐点分析方法进行异常值预警。另一方面，我们对样本总量指标进行态势分析，也可以获得宏观预警。最后将两项指标的预警情况进行交叉分析，获得更加深刻的预警信息。

本发明公开的基于聚类的态势分析预警方法，其创新点在于定义了一种全新的宏观指标“态势指数”，即截面数据中聚类获得的簇的数量，它反映了数据内部蕴含的子结构的数量，由此可以对每个时间点的截面数据中蕴含的子结构的数量变化进行预警，是常用的截面数据样本量指标的有力补充。进一步的，将两项指标的预警情况进行交叉分析，获得更加深刻的预警信息。

本发明的技术方案为：

一种基于聚类的大数据交叉分析预警方法及系统，其步骤为：

1)中央服务器从各终端服务器采集样本数据，并按照时间段对样本数据进行划分，每个时间段对应一样本数据集；

2)对于每一时间段的样本数据集，从中抽取若干样本构建一抽样样本集合，并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标(辨识度和或重要性)计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性；

3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序，选取若干属性作为大数据降维后保留的属性；

4)对属性降维后的每一所述样本数据集进行聚类，将聚类得到的簇作为所述样本数据集的态势指数；

5)根据各个时间段的态势指数构建一态势指数时间序列；然后根据该态势指数时间序列确定一常态区域；并且根据各时间段的样本数据总量得到一样本数据总量时间序列，然后根据样本数据总量时间序列确定一样本总量常态区域；

6)计算当前时刻所采集样本数据的态势指数和样本总量，然后根据所述常态区域、样本总量常态区域分别确定态势指数和样本总量的状态，如果其中一项出现预警状态，则根据当前态势指数和样本总量的状态反馈交叉预警信息；

其中，属性值辨识度的计算方法为：选取样本一属性i的一属性值a，计算具有该属性值a的样本属于标签j的条件概率值，以及未增加该属性值条件时样本属于该标签j的概率值；将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度；将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度；

属性辨识度的计算方法为：根据属性i所有属性值辨识度计算该属性i的属性辨识度；

属性值重要性的计算方法为：将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度，得到该属性值a对于该标签j的属性值重要性；将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性；

属性重要性的计算方法为：根据属性i所有属性值重要性计算该属性i的属性重要性。

进一步的，根据所述常态区域、样本总量常态区域分别确定态势指数和样本总量的状态的方法为：如果当前时刻的态势指数超出所述常态区域，则对其进行监控，并计算下一时刻所采集样本数据的态势指数，如果仍超出所述常态区域，则进入预警状态；如果当前时刻的样本总量超出所述样本总量常态区域，则对其进行监控，并计算下一时刻所采集样本数据总量，如果仍超出所述样本总量常态区域，则进入预警状态。

进一步的，所述交叉预警信息包括：态势指数向上预警、样本总量向上预警，态势指数向下预警、样本总量向上预警，态势指数无预警、样本总量向上预警；态势指数向上预警、样本总量向下预警，态势指数向下预警、样本总量向下预警，态势指数无预警、样本总量向下预警；态势指数向上预警、样本总量无预警，态势指数向下预警、样本总量无预警。

进一步的，将属性i所有属性值的属性重要性的平方平均数作为该属性的属性重要性；对该属性i所有属性值的属性值辨识度平方平均数作为该属性i的属性辨识度。

进一步的，采用基于条件概率和贝叶斯算法计算所述辨识度。

本发明系统如图4所示，其主要包括：

1、数据降维模块

本系统提供降维指标的选择，可选择的降维指标有：属性辨识度和或属性重要性。通过计算选定的降维指标，并给出排序，可以确定降维后应该保留哪些属性。具体而言：首先，对采集的样本进行抽样和聚类分析，得到若干簇，将聚类得到的簇作为样本的标签，对样本进行标注。其次，计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性，提取由数据本身决定的“属性对相似性的影响力”指标。最后，根据选定的降维指标的计算结果对属性排序；选取排序靠前的属性对样本数据进行降维。本发明定义了四个相互关联但又互不相同的影响力指标：属性值辨识度、属性辨识度、属性值重要性、属性重要性，从而更加全面准确的刻画“属性对分类的影响力”大小。下面简要介绍这四个指标的概念，具体计算方法详见下文“具体实施方式”部分。

(1)属性值辨识度和属性辨识度

我们常说的“辨识度”有两种理解：第一，拥有该属性的样本被辨认出来的能力，一个歌声辨识度高的歌手只需要演唱一句就可以让大家认出他是谁，一个相貌辨识度高的演员即使穿着平常走在人群中也可以被大家发现。第二，是拥有该属性的样本被准确分类的能力，例如，某影视基地同时开拍一部清宫剧和一部现代剧，面对一个脑后垂着长辫子的男演员，即使他没有说明自己属于哪个剧组，也基本可以断定他属于清宫剧剧组，可见“性别＝男、发型＝长辫子”的属性值对“剧组”这一分类的辨识度很高。本专利定义的属性值辨识度和属性辨识度采用的是后一种概念。

(2)属性值重要性和属性重要性

属性辨识度概念没有考虑具有该属性的样本量，为了进一步平衡属性值的辨别能力和对应的样本量，在“辨识度”概念的基础上定义“重要性”概念。粗略的说，重要性等于辨识度乘以样本量。

(3)“辨识度”和“重要性”

我们选择“辨识度”和“重要性”两个指标作为“属性对分类的影响力”的判断指标，是因为这两个指标在实际操作中具有完全不同的意义。

考虑青少年犯罪影响因素案例，如果通过聚类分析获得两个簇，分别代表“暴力犯罪”和“非暴力犯罪”。其中，青少年“是否吸毒＝是”的属性值对“暴力犯罪”的簇具有极高的辨识度，也就是吸毒的青少年如果参与犯罪，这主要是暴力犯罪，可见应该注意重点排查、干预这部分青少年的行为，采取针对其个人的预防监控措施。然而，由于一万个青少年中吸毒的样本非常少，这个属性值的重要性并不大，重要性较高的属性值可能是“是否打架斗殴＝是”，该的属性值涉及的样本较多，更适合采用大面积宣传教育的方式进行预防干预，从而提高干预效率。

2.态势指数计算模块

本方法通过对属性降维后的样本数据集进行聚类，将聚类得到的簇作为对应样本数据集的态势指数。数据采集模块按照时间段对对采集的样本数据进行划分，每个时间段对应一样本数据集。

3.拐点分析模块

本发明使用全新的拐点分析技术，通过历史数据计算态势指数确定出一定义常态区域，并通过数据点及其发展趋势与常态区域的关系，将数据分为三种状态：可控状态、监控状态、预警状态。如图1所示，以周期为18的时间序列数据为例。我们首先使用三个周期的数据围成常态区域，即图中的灰色区域，接下来根据常态区域对新的一个周期的数据(黑色实线)进行拐点分析和预警。

可以发现，黑线上的大多数数据点落在常态区域中，属于可控状态。图中A点和B点落在常态区域之外，且都是曲线从常态区域中突破出来的第一个点，进入监控状态。如果数据点进入监控状态，相关人员应该保持密切监控，并对接下来的数据点进行拐点分析，也就是用拐点分析技术判断数据的发展趋势是“进一步突破”还是“反转回归”。具体而言：

①案例中，A点的下一时刻，曲线斜率符号转变(由正变成零或负)，即向正常状态回归，因此该数据值仍然属于监控状态，直到数据点回归到常态区域内，监控解除，或者曲线斜率符号再度转变，远离常态区域，变成预警状态。

②案例中，B点的下一时刻，曲线斜率并未发生符号转变，认为进一步偏离常态区域，因此该数据值变成预警状态，做出预警。相关人员应该集中精力分析这些预警的“异常”数据点。

4.交叉分析模块

本系统将“态势指数”和“样本总量”两项指标中至少一项进入预警状态的时间点，做出交叉分析，获得详细的预警信息。根据定义，“态势指数向上预警”表示数据蕴含的内部结构数量显著增加；“态势指数向下预警”表示数据蕴含的内部结构数量显著减少；“样本总量向上预警”表示样本总量显著增加；“样本总量向下预警”表示样本总量显著减少。交叉分析就是对这两项指标预警情况的各种组合进行深入分析，获取详细的预警信息。

交叉分析的基本原理可以用图2来表示，其中状态A为基本状态，其他八种状态对应的“态势指数”和“样本总量”两项指标变化情况如下：

状态B：态势指数向上预警、样本总量向下预警；

状态C：态势指数向上预警、样本总量无预警；

状态D：态势指数向上预警、样本总量向上预警；

状态E：态势指数无预警、样本总量向下预警；

状态F：态势指数无预警、样本总量向上预警；

状态G：态势指数向下预警、样本总量向下预警；

状态H：态势指数向下预警、样本总量无预警；

状态I：态势指数向下预警、样本总量向上预警。

由此，可以获得详细的预警信息。例如，案例1的数据处于状态I时，顾客的消费习惯逐渐集中到几种主流的常见的消费模式，可能是几种主流的商品(品牌、价位)占据绝大部分市场，其他商品失去竞争力等等，同时消费总量大大增加，说明市场繁荣。这种状态说明该超市中主流商品市场进入成熟阶段，主流商品市场影响力大，可能已经进入价格战状态，影响利润率。因此，尽管市场繁荣，但消费模式逐渐单一、缺乏有吸引力的新产品，该超市的经营状态可能蕴含大起大落的风险，一旦在影响力较大的主流商品销售中出现障碍或强有力的竞争、或者其他销售商针对超市主流消费者进行促销，则将大大影响经营现状。相比而言，现在的常见分析方法仅基于“营业额”，将得出经营状况良好的结论，不能给出潜在风险的预警，详见“具体实施方式”部分。

与现有技术相比，本发明的积极效果：

本发明直接使用聚类获得的簇的个数作为宏观指标，其优点在于操作简单、计算复杂性低，有利于在实际操作中使用和推广。其缺点在于传统的聚类分析算法基于随机的初始值进行迭代，因此获得的簇的个数存在一定随机性，为了克服这一缺点，可以使用若干次聚类获得的簇的个数的平均值作为宏观指标。

本发明公开的态势分析预警方法，可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域，提取“属性对相似性的影响力”指标，具有较强的普适性。

附图说明

图1：拐点分析和预警的简单实例图；

图2：交叉分析基本原理示意图；

图3：基于聚类的大数据交叉分析预警系统流程图；

图4：基于聚类的大数据交叉分析预警系统结构图；

图5：常态模式的概念图；

图6：常态模式实例图；

图7：根据态势指数历史数据绘制的常态区域图；

图8：根据新周期中态势指数的状态图；

图9：状态B变化示意图；

图10：状态C变化示意图；

图11：状态D变化示意图；

图12：状态E变化示意图；

图13：状态F变化示意图；

图14：状态G变化示意图；

图15：状态H变化示意图；

图16：状态I变化示意图。

具体实施方式

本发明公开了一种基于聚类的大数据态势分析预警方法和系统，可以得到多层次的预警结果，具体操作步骤如下。

步骤1：数据采集。

数据采集模块是本专利系统的硬件基础。该模块将待分析的无标签样本数据从分布在各地的终端数据库中传输汇总到中央数据库。

步骤2：数据清洗。

通过数据采集终端汇总得到的数据，难免存在不完整、错误、重复等现象。数据清洗步骤用于过滤这些不符合要求的数据，过滤的结果将提交给相关主管部门，确认是直接过滤掉还是作为异常值提取出来做进一步分析。

步骤3：时间段选择及划分。

根据客户实际需求，将样本数据划分为若干时间段，针对每个时间段重复步骤4和步骤5。本系统提供客户时间段划分的选择功能。

步骤4：数据降维。

经过清洗和时间段划分的样本数据汇总到中央数据库。由于样本量(N1)巨大，形成了维数大、规模大、复杂性大的大数据形态，要挖掘其中有意义的知识和内容以指导实际生产和具体应用，需要首先进行降维处理，即维数约简。它一方面可以解决“维数灾难”，缓解大数据中“信息丰富但知识贫乏”的问题，降低计算的复杂度；另一方面可以引导人们更好地认识和理解数据。

数据降维步骤包括以下子步骤：

步骤4.1：数据抽样。

对全体样本进行系统抽样(systematic sampling)。系统抽样，又称机械抽样、等距抽样。具体而言：

(1)由系统硬件运转能力确定适合的抽样样本量(N2)，定义压缩比(M)为：

M＝N1÷N2；

(2)将全体样本数据按某一顺序排列起来，标注唯一的序号；

(3)从前M个样本中随机的选出一个样本作为抽样样本，记其序号为k；

(4)将序号为k、k+M、k+2*M、…、k+(N2-1)*M的N2个样本作为抽样结果。

步骤4.2：数据聚类。

本步骤可以建立在任何一种公知的聚类分析算法结果之上，通过对抽样后的样本数据进行聚类分析，得到若干簇。

步骤4.3：降维指标选择。

针对抽样得到的N2个样本以及聚类获得的若干簇，可以通过后续的步骤计算降维指标(即“属性对相似性的影响力”)，并根据“影响力”的排序来确定降维后保留的属性。本系统提供降维指标的选择，可选择的降维指标有：

降维指标1：属性辨识度指标；

降维指标2：属性重要性指标。

降维指标选择主要看待分析的问题中“样本量”因素是否重要，建议如下：

(1)如果“样本量”因素不重要，应选择属性辨识度指标给出影响力排序；

(2)如果“样本量”因素重要，应选择属性重要性指标给出影响力排序；

(3)如果想综合考虑上述两种情况，应结合这两个指标给出综合性的排序。

步骤4.4：降维指标计算。

计算降维指标，也就是计算每个属性“对相似性的影响力”，具体包括：属性辨识度和属性重要性，同时还需要计算两个过渡性的指标：属性值辨识度和属性值重要性。我们以案例为基础，说明这四项指标的主要计算步骤。系统将根据用户在步骤3.2中的选择情况计算相应的指标。

四项指标计算案例：

一个包含100人的研究样本，其中包含50名女性和50名男性，其中20人有前科。通过聚类分析获得了两个“簇”，其中“簇1”包含10个样本，绝大部分是犯有盗窃罪的人，而“簇2”包含90个样本，绝大部分是未犯有盗窃罪的人。其他数据如表1。

表1：四项指标计算案例

序号	样本量	性别	前科	类型
					1	42	女	无	簇2
2	36	男	无	簇2
					3	8	男	有	簇2
4	5	男	有	簇1
					5	4	女	有	簇2
6	3	女	有	簇1

7	1	男	无	簇1
					8	1	女	无	簇1

1.计算属性值相对某个簇的辨识度。

计算属性值的辨识度，也就是基于条件概率和贝叶斯算法的理论，计算哪些属性值对已知的标签取值有较大影响(定性)以及影响值多大(定量)。具体而言，用增加属性条件后的概率变化值，即条件概率值与概率值的差，来表示每个簇中每个属性值的辨识度。

具体到本案例，我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力，从而实施有针对性的预防和干预工作。我们首先计算属性值相对某个簇的辨识度，以“簇1”为例。

对于这100人中的一个样本x，在属性未知的情况下，预测他(她)属于簇1的概率(可能性)是：P(x属于簇1)＝10/100＝10％。

情况1：对于“性别＝女”这个属性，如果知道这个人x是女性，则x属于簇1的条件概率是：P(x属于簇1|x是女性)＝4/50＝8％，因为50名女性中有4人属于簇1，概率变化值为8％-10％＝-2％。

情况2：对于“前科＝有”这个属性，如果知道这个人x有前科，则x属于簇1的条件概率是：P(x属于簇1|x有前科)＝8/20＝40％，因为20名有前科的人中有8人属于簇1，概率变化值为40％-10％＝30％。

比较情况1和情况2：“前科＝有”这个属性值相对簇1的辨识度大于0，也就是具有该属性值的样本(条件概率)，比无法判断是否具有该属性值的样本(无条件概率)属于簇1的可能性更大；“性别＝女”这个属性值相对簇1的辨识度小于0，也就是具有该属性值的样本，比无法判断是否具有该属性值的样本属于簇1的可能性更小。进一步，“前科＝有”这个属性值相对簇1的辨识度的绝对值要远远大于“性别＝女”这个属性值，可以认为前者对判断样本是否属于簇1的影响力更大。

同理，可以计算出“性别＝男”这个属性值相对簇1的辨识度为0.02，“前科＝无”这个属性值相对簇1的辨识度为-0.075。进一步考虑“簇2”，可以计算得到：“性别＝女”相对簇2的辨识度为0.02；“性别＝男”相对簇2的辨识度为-0.02；“前科＝有”相对簇2的辨识度为-0.3；“前科＝无”相对簇2的辨识度为0.075。

2.计算属性值的辨识度。

对于样本具有的每一个属性值，将它相对所有的簇，都按照步骤2计算一个概率差值，即该属性值相对该簇的辨识度，再将这些辨识度取平方平均数，得到该属性值针对整个空间的辨识度。可见，“性别＝女”和“性别＝男”的辨识度均为0.02；“前科＝有”的辨识度为0.3；“前科＝无”的辨识度为0.075。

这样计算的属性值辨识度没有考虑属性值对应的样本量大小，可以很好的识别样本量很少但辨别能力很强的属性。落实到实践中，针对“前科＝有”的群体开展预防和干预工作要比针对“性别＝男”的群体开展工作具有更好的效果。而“前科＝无”和“性别＝女”的群体，属于簇1的可能性(可以近似的看成犯盗窃罪的可能性)小于平均值，不需要进行预防干预工作。

3.计算属性的辨识度。

利用步骤3，我们得到了属性值“性别＝女”和“性别＝男”对于两类簇划分(相似性)的辨识度，将两者的平方平均数定义为“性别”这一属性的辨识度，计算得0.02。同样的，将属性值“前科＝有”和“前科＝无”的辨识度的平方平均数定义为“前科”这一属性对于“簇”的辨识度，计算得0.2187。

4.计算属性值的重要性。

为了平衡属性值的辨别能力和对应的样本量，在“辨识度”概念的基础上定义“重要性”概念。粗略的说，属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。

例如，属性值“性别＝女”和“性别＝男”的辨识度均为0.02，对应样本量均为50，重要性为1；属性值“前科＝有”的辨识度为0.3，对应样本量为20，重要性为6；属性值“前科＝无”的辨识度为0.075，对应样本量为80，重要性为6。更加细化的，我们还可以计算属性值相对于某个簇的重要性，例如，属性值“性别＝女”相对簇1的重要性为-1；属性值“性别＝男”相对簇1的重要性为1。

可见，由于对应样本量的差异，两着的辨识度差别较大但重要性差别较小，辨识度和重要性反映的信息存在不同。对于更复杂的情况，不同属性对应的的样本数量可能存在很大的差异，甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作，较好的平衡的针对性和覆盖面。落实到实践中，可以针对“前科＝有”的群体开展犯罪危害的教育工作。

进一步的，当一个属性只有两个属性值时，两者对“簇”的重要性绝对值相同，这符合我们对“重要性”概念的一般认识，因为两个取值知道其中一个也就知道了另一个。

5.计算属性的重要性。

属性的重要性可以有两种定义，一种是通过属性值的重要性来计算，即“属性的重要性等于属性值的重要性的平方平均数”；一种是通过属性的辨识度来计算，即“属性的重要性等于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量，如果采用后者的定义，那么属性的重要性和辨识度概念则本质上是相同的，不利于建立多层次的属性影响力排序。因此，我们采用前一种定义方式。粗略的说，属性的重要性等于属性值的重要性的平方平均数。

在本例中，属性“性别”的重要性为1，属性“前科”的重要性为6。这个结果也是与我们的直观非常一致的。

步骤4.5：降维指标排序。

降维指标计算，也就是给出属性“对相似性的影响力”排序。根据步骤3.3中用户的选择以及步骤3.4中的相关指标计算结果，获得属性“对相似性的影响力”排序。

步骤4.6：大数据降维(维度选择)。

根据步骤3.5中给出的属性“对相似性的影响力”排序，根据实际需求设定影响力阈值，选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性，即维度选择。

步骤5：态势指数计算。

针对降维后的全体样本数据，提取低维全体数据的“态势指数”，也就是聚类分析的簇的个数。相对于直接提取高维全体数据的态势指数而言，有利于降低本系统的计算复杂度、提高分析效率。

步骤5.1：数据聚类。

本步骤可以建立在任何一种公知的聚类分析算法结果之上，通过对降维后的低维样本数据进行聚类分析，得到若干簇。

步骤5.2：态势指数。

态势指数定义为该区间内，样本聚类分析后获得的簇的个数。为了克服聚类分析算法的随机性，针对同一组数据进行三次聚类分析操作，将三次聚类获得的簇的个数的平均值定义为态势指数。可见，本方法可以建立在任何一种公知的聚类分析算法结果之上。因此，本算法也没有改进任何一种聚类算法，而是在其基础上展开进一步的挖掘工作。

步骤6：态势指数拐点分析。

针对每个时间点上截面数据重复步骤4和5的操作，获得每个时间段上的态势指数，从而获得态势指数的时间序列数据。进而，对态势指数时间序列数据进行拐点分析，主要分析步骤如下：

1.绘制常态区域。

假设数据以4为周期，连续三个周期的态势指数如表2：

表2：常态区域绘制案例

年份	时刻1	时刻2	时刻3	时刻4
					第1周期	5	4	6	6
第2周期	6	7	6	5
					第3周期	4	5	7	4

最低排序	6	7	7	6
					最高排序	4	4	6	4

计算三个周期中每个时间点的最大值和最小值，将其范围确定为常态区域，则上面案例的数据可以绘制如图7的常态区域。

2.在新周期中发现第一次突破常态区域的数据值点。

基于常态区域对新的一个周期的数据进行时间序列预警，首先是要确定第一次突破常态区域的数值点。在案例中，假设在新的一个周期中，时刻1的数据为5，属于常态区域，即该数值点为“可控状态”。时刻2的数据为8，第一次突破了常态区域，从而该数值点为“监控状态”。相关人员应该密切关注数据在下个时间点的变动情况，是出现“回归”常态区域的趋势还是“更加远离”常态区域。

3.区分可控状态、监控状态和预警状态。

如前所述，在新的一个周期中，时刻2的数据突破常态区域，进入“监控状态”，考虑时刻3的数据的三种情况，它们分别对应可控状态(C点)、监控状态(B点)和预警状态(A点)，如图8所示。

步骤7：样本总量提取及拐点分析。

针对“样本总量”指标的时间序列，重复步骤6的拐点分析技术，可以获得“样本总量”指标在当前时间点取值所处的状态及监控状态对应的发展趋势。

步骤8：两项指标交叉分析。

对于“态势指数”和“样本总量”两项指标中至少一项进入预警状态的时间点，做出交叉分析，获得详细的预警信息。根据定义，“态势指数向上预警”表示数据蕴含的内部结构数量显著增加；“态势指数向下预警”表示数据蕴含的内部结构数量显著减少；“样本总量向上预警”表示样本总量显著增加；“样本总量向下预警”表示样本总量显著减少。交叉分析就是对这两项指标预警情况的各种组合进行深入分析，获取详细的预警信息。

交叉分析的基本原理可以用图2来表示，其中状态A为基本状态，其他八种状态对应“态势指数”和“样本总量”两项指标的不同变化情况。

下面结合所给出的两项案例，说明交叉分析技术获得的预警信息，以及建议采取的风险控制策略。其中，案例1(每天每单交易的购物详单)反映对“正面样本”的分析效果，案例2(每月犯罪案件的发案情况)反映对“负面样本”的分析效果。

(1)状态B：态势指数向上预警、样本总量向下预警。

状态B中，对于每个时间点的截面数据，相对基本状态A而言，其内部组成结构数量显著增加、样本总量显著减少，如图9所示。

正面样本：预警

当案例1中的数据处于状态B时，顾客的消费类型显著增加、销售总次数显著减少。“销售总次数”指标的“向下预警”信息说明经营业绩下滑、超市经营出现不利局面；但“顾客消费类型”指标的“向上预警”信息说明顾客的消费习惯产生分化或者产生了的新兴的消费类型，这提供了经营业绩下滑的可能原因，也为超市的经营者扭转销售颓势提供指导。

负面样本：预警

当案例2中的数据处于状态B时，犯罪类型显著增加、案件总量显著减少。“案件总量”指标的“向下预警”信息说明治安水平出现良好局面；但“犯罪类型”指标的“向上预警”信息说明常见的犯罪类型产生分化或者产生了的新兴的犯罪类型，这预示着潜在的风险，也为进一步改善治安水平指出方向。

(2)状态C：态势指数向上预警、样本总量无预警。

状态C中，对于每个时间点的截面数据，相对基本状态A而言，其内部组成结构数量显著增加、样本总量变化不明显，如图10所示。

正面样本：预警

具体而言：当案例1中的数据处于状态C时，顾客的消费类型显著增加、销售总次数不变。“顾客消费类型”指标的“向上预警”信息说明顾客的消费习惯产生分化或者产生了的新兴的消费类型，但是，多元化的消费模式和稳定不变的销售总次数结合起来，意味着，平均而言每种消费类型的销售次数显著减少，这预示者整体经营水平下降的潜在风险。

负面样本：预警

当案例2中的数据处于状态C时，犯罪类型显著增加、案件总量不变。“案件总量”指标的“无预警”信息说明治安水平总体稳定；但“犯罪类型”指标的“向上预警”信息说明常见的犯罪类型产生分化或者产生了的新兴的犯罪类型，意味着，平均而言每种犯罪类型的案件数量显著减少。可见，该预警信息在预示着潜在的风险的同时，也为改善治安水平指出方向。

(3)状态D：态势指数向上预警、样本总量向上预警。

状态D中，对于每个时间点的截面数据，相对基本状态A而言，其内部组成结构数量显著增加、样本总量也显著增加，如图11所示。

正面样本：无预警

当案例1中的数据处于状态D时，顾客的消费类型显著增加、销售总次数也显著增加。“顾客消费类型”指标的“向上预警”信息说明顾客的消费习惯产生分化或者产生了的新兴的消费类型，多元化的消费模式和显著增加的销售总次数结合起来，说明超市的经营繁荣。

负面样本：预警

当案例2中的数据处于状态D时，犯罪类型显著增加、案件也显著增加。“犯罪类型”指标的“向上预警”信息说明常见的犯罪类型产生分化或者产生了的新兴的犯罪类型，这种现象和显著增加的案件数量结合起来，说明治安现状十分危机。

(4)状态E：态势指数无预警、样本总量向下预警。

状态E中，对于每个时间点的截面数据，相对基本状态A而言，其内部组成结构数量变化不明显、样本总量显著减少，如图12所示。

正面样本：预警

当案例1中的数据处于状态E时，顾客的消费类型不变、销售总次数显著减少。“销售总次数”指标的“向下预警”信息说明经营业绩下滑、超市经营出现不利局面；同时“顾客消费类型”指标的“无预警”说明消费者类型稳定不变，平均而言每种消费类型的销售次数显著减少。交叉分析技术在提出预警的同时，给出了克服不利现状、扭转销售颓势的两种方法：①增加每种消费类型的销售总次数；②挖掘新兴的消费类型。

负面样本：无预警

当案例2中的数据处于状态E时，犯罪类型显著不变、案件总量显著减少。“案件总量”指标的“向下预警”信息说明治安水平出现良好局面；但“犯罪类型”指标的“向上预警”信息说明常见的犯罪类型产生分化或者产生了的新兴的犯罪类型，这预示着潜在的风险，也为进一步改善治安水平指出方向。

(5)状态F：态势指数无预警、样本总量向上预警。

状态F中，对于每个时间点的截面数据，相对基本状态A而言，其内部组成结构数量变化不明显、样本总量显著增加，如图13所示。

正面样本：无预警

当案例1中的数据处于状态F时，顾客的消费类型不变、销售总次数显著增加。“顾客消费类型”指标的“无预警”信息说明顾客的消费类型稳定，这种状态显著增加的销售总次数结合起来，说明每种消费类型的平均销售次数增加，可见超市现阶段的经营比较繁荣。

负面样本：预警

当案例2中的数据处于状态F时，犯罪类型不变、案件显著增加。“犯罪类型”指标的“无预警”信息说明常见的犯罪类型稳定，这种现象和显著增加的案件数量结合起来，说明平均而言，每种犯罪类型的案件数量显著增加，可见治安现状十分危机。

(6)状态G：态势指数向下预警、样本总量向下预警。

状态G中，对于每个时间点的截面数据，相对基本状态A而言，其内部组成结构数量显著减少、样本总量也显著减少，如图14所示。

正面样本：预警

当案例1中的数据处于状态G时，顾客的消费类型显著减少、销售总次数显著减少。“销售总次数”指标的“向下预警”信息说明经营业绩下滑、超市经营出现不利局面；同时“顾客消费类型”指标的“向下预警”说明消费者类型也显著减少。交叉分析技术在提出预警的同时，给出了出现这种局面的重要可能原因：超市供应的产品或服务不能吸引某些消费类型，或者竞争者针对该消费类型促销，使得某种消费类型顾客的丧失。

负面样本：无预警

当案例2中的数据处于状态G时，犯罪类型显著减少、案件总量也显著减少。“案件总量”指标的“向下预警”信息说明治安水平出现良好局面。出现这种局面的重要可能原因：针对某种类型犯罪的严打行动使该种犯罪类型长期或者暂时的消亡。

(7)状态H：态势指数向下预警、样本总量无预警。

状态H中，对于每个时间点的截面数据，相对基本状态A而言，其内部组成结构数量显著减少、样本总量变化不明显，如图15所示。

正面样本：预警

当案例1中的数据处于状态H时，顾客的消费类型显著减少、销售总次数变化不明显。可见，平均而言，每种消费类型的销售总次数显著增加。出现这种现象很可能是由于集中消费类型的合并，从销售总量上看，对销售没有影响。然而，消费类型的集中使得超市必须针对这些集中的消费类型加强促销，以免在竞争对手或其他因素的影响下造成集中流失，对销售水平产生巨大冲击。

负面样本：预警

当案例2中的数据处于状态H时，犯罪类型显著减少、案件总量变化不明显。可见，平均而言，每种犯罪类型的案件总量显著增加。这可能是由于严打行动、宏观形势等影响，使得若干犯罪类型集中化，可能预示着群体性犯罪行为或团伙犯罪的形成。同时，针对这些集中犯罪类型的重点打击，有望进一步改善治安水平。

(8)状态I：态势指数向下预警、样本总量向上预警。

状态I中，对于每个时间点的截面数据，相对基本状态A而言，其内部组成结构数量显著减少、样本总量显著增加，如图16所示。

正面样本：预警

当案例1中的数据处于状态I时，顾客的消费类型显著增加、销售总次数显著减少。“销售总次数”指标的“向上预警”信息说明经营业绩上升、超市经营出现利好局面；同时“顾客消费类型”指标的“向下预警”说明消费者类型也显著减少。平均而言，每种消费类型的销售总次数显著增加。交叉分析技术在提出预警的同时，给出了出现这种局面的重要可能原因：①超市供应的产品、服务或采取的促销方式，强烈的吸引了某种类型的消费者，当使得一些类型的消费者流失，吸引量大于流失量；②几种消费类型合并，出现集中趋势。从销售总量上看，销售现状是利好的。然而，消费类型的集中使得超市必须针对这些集中的消费类型加强促销，以免在竞争对手或其他因素的影响下造成集中流失，对销售水平产生巨大冲击。

负面样本：预警

当案例2中的数据处于状态I时，犯罪类型显著减少、案件总量显著增加。可见，平均而言，每种犯罪类型的案件总量显著增加。出现这种局面的可能原因有：①通过严打行动等，某些犯罪类型长久或暂时的消亡，但相应的犯罪分子并没有改邪归正，而是继续从事其他类型的犯罪，使得这些犯罪类型的案件总量增加，且增加量大于消亡类型的原有案件总量；②几种犯罪类型合并，并发展壮大，犯罪类型的集中化可能预示着群体性犯罪行为或团伙犯罪的形成。同时，针对这些集中犯罪类型的重点打击，有望进一步改善治安水平。

步骤9：预警信息发布。

本系统最后一个环节是将上述计算获得的预警信息，通过预警信息发布器反馈给用户。

效果对比

通常的预警只关注“总量”指标，不关注结构指标，而本专利将“总量”和“结构”指标进行交叉分析，获取的预警信息更加充分(发现潜在的风险)。分别针对“正面样本”和“负面样本”，比较八种变化类型，使用本专利的方法和传统方法是否预警，来说明本专利方法获得的预警更加充分，同时，还能给出解决问题的方案。

(1)正面样本

对于“正面样本”，只关注“总量”指标的传统预警方法，仅针对总量显著下降的情况作出预警，包括：状态B、状态E、状态G。而本专利提供的将“总量”和“结构”指标进行交叉分析的方法，针对总量显著下降或者结构显著下降的状态均作出预警，包括：状态B、状态E、状态G、状态H、状态I。

(2)负面样本

对于“负面样本”，只关注“总量”指标的传统预警方法，仅针对总量显著上升的情况作出预警，包括：状态D、状态F、状态I。而本专利提供的将“总量”和“结构”指标进行交叉分析的方法，针对总量显著上升或者结构显著上升的状态均作出预警，包括：状态D、状态F、状态I、状态B、状态C。

应用实例

本发明公开了一种基于聚类的大数据交叉分析预警方法及系统。在实际预警过程中，通过对拐点的业务化映射，很好地解决了态势指数预警后的业务化描述问题，使得单纯的态势指数拐点不但具有了宏观的预警指导，还形成了普适性的案件拐点预警描述规则，并已在××地区的实际侦查过程中应用。即：

1、特征指数上升+案发数上升＝作案手段多样化增多；

2、特征指数上升+案发数下降＝出现了新型犯罪特征；

3、特征指数下降+案发数上升＝形成团伙串并作案概率高；

4、特征指数下降+案发数下降＝案件特征集中；

5、特征指数下降+案发数急剧上升＝恶性事件概率高；

6、特征指数下降+案发数急剧下降＝作案手段单一，同类案件高发。

Claims

1.一种基于聚类的大数据交叉分析预警方法，其步骤为：

2)对于每一时间段的样本数据集，从中抽取若干样本构建一抽样样本集合，并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性；其中，所述属性降维指标包括属性辨识度和或属性重要性；

3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序，选取排序靠前的若干属性作为大数据降维后保留的属性；

4)对属性降维后的每一所述样本数据集进行聚类，将聚类得到的簇的个数作为所述样本数据集的态势指数；

属性辨识度的计算方法为：对属性i所有属性值的属性值辨识度平方平均数作为该属性i的属性辨识度；

属性重要性的计算方法为：

将属性i所有属性值的属性重要性的平方平均数作为该属性i的属性重要性。

2.如权利要求1所述的方法，其特征在于根据所述常态区域、样本总量常态区域分别确定态势指数和样本总量的状态的方法为：如果当前时刻的态势指数超出所述常态区域，则对其进行监控，并计算下一时刻所采集样本数据的态势指数，如果仍超出所述常态区域，则进入预警状态；如果当前时刻的样本总量超出所述样本总量常态区域，则对其进行监控，并计算下一时刻所采集样本数据总量，如果仍超出所述样本总量常态区域，则进入预警状态。

3.如权利要求1或2所述的方法，其特征在于所述交叉预警信息包括：态势指数向上预警、样本总量向上预警，态势指数向下预警、样本总量向上预警，态势指数无预警、样本总量向上预警；态势指数向上预警、样本总量向下预警，态势指数向下预警、样本总量向下预警，态势指数无预警、样本总量向下预警；态势指数向上预警、样本总量无预警，态势指数向下预警、样本总量无预警。

4.如权利要求1所述的方法，其特征在于采用基于条件概率和贝叶斯算法计算所述辨识度。

5.一种基于聚类的大数据交叉分析预警系统，其特征在于包括多个终端服务器和一中央服务器，所述终端服务器通过网络与所述中央服务器连接；其中，所述中央服务器包括数据采集模块、数据降维模块、态势指数计算模块、拐点分析模块和交叉分析模块；

所述数据采集模块，用于从各终端服务器采集样本数据，并按照时间段对样本数据进行划分，每个时间段对应一样本数据集；

所述数据降维模块，用于从每一时间段的样本数据集中抽取若干样本构建一抽样样本集合，并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，并根据计算结果对属性进行排序，选取若干属性作为大数据降维后保留的属性；其中，所述属性降维指标包括属性辨识度和或属性重要性；

所述态势指数计算模块，用于对每一属性降维后的所述样本数据集进行聚类，将聚类得到的簇的个数作为所述样本数据集的态势指数；

所述拐点分析模块，用于根据各个时间段的态势指数构建一态势指数时间序列；然后根据该态势指数时间序列确定一常态区域；并且根据各时间段的样本数据总量得到一样本数据总量时间序列，然后根据样本数据总量时间序列确定一样本总量常态区域；计算当前时刻所采集样本数据的态势指数和样本总量，然后根据所述常态区域、样本总量常态区域分别确定态势指数和样本总量的状态；

所述交叉分析模块，用于根据态势指数和样本总量的状态进行交叉预警分析，如果其中一项出现预警状态，则根据当前态势指数和样本总量的状态反馈交叉预警信息；

属性辨识度的计算方法为：将属性i所有属性值的属性值辨识度平方平均数作为该属性i的属性辨识度；

属性重要性的计算方法为：将属性i所有属性值的属性重要性的平方平均数作为该属性i的属性重要性。

6.如权利要求5所述的系统，其特征在于所述拐点分析模块计算当前时刻的态势指数和样本总量，如果当前时刻的态势指数超出所述常态区域，则对其进行监控，并计算下一时刻所采集样本数据的态势指数，如果仍超出所述常态区域，则态势指数进入预警状态；如果当前时刻的样本总量超出所述样本总量常态区域，则对其进行监控，并计算下一时刻所采集样本数据总量，如果仍超出所述样本总量常态区域，则样本总量进入预警状态。

7.如权利要求5或6所述的系统，其特征在于所述交叉预警信息包括：态势指数向上预警、样本总量向上预警，态势指数向下预警、样本总量向上预警，态势指数无预警、样本总量向上预警；态势指数向上预警、样本总量向下预警，态势指数向下预警、样本总量向下预警，态势指数无预警、样本总量向下预警；态势指数向上预警、样本总量无预警，态势指数向下预警、样本总量无预警。

8.如权利要求5所述的系统，其特征在于采用基于条件概率和贝叶斯算法计算所述辨识度。