CN104123466B - 一种基于常态模式的大数据态势分析预警方法及系统 - Google Patents

一种基于常态模式的大数据态势分析预警方法及系统 Download PDF

Info

Publication number
CN104123466B
CN104123466B CN201410356588.4A CN201410356588A CN104123466B CN 104123466 B CN104123466 B CN 104123466B CN 201410356588 A CN201410356588 A CN 201410356588A CN 104123466 B CN104123466 B CN 104123466B
Authority
CN
China
Prior art keywords
attribute
value
sample
importance
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410356588.4A
Other languages
English (en)
Other versions
CN104123466A (zh
Inventor
王电
黄煜可
陈庆彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Original Assignee
CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd filed Critical CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority to CN201410356588.4A priority Critical patent/CN104123466B/zh
Publication of CN104123466A publication Critical patent/CN104123466A/zh
Application granted granted Critical
Publication of CN104123466B publication Critical patent/CN104123466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于常态模式的大数据态势分析预警方法及系统。本方法为:服务器从各终端采集样本,并按照时间段对样本划分;对于每一时间段的样本数据集聚类,得到的簇作为样本的标签进行标注,计算降维指标进行大数据降维,再次针对降维后的数据进行聚类,获得数据客观蕴含的相似性,继而将所得簇作为已知的分类标准,提取属性值辨识度、属性辨识度、属性值重要性、属性重要性,使用全新的常态模式提取方法获取常态模式,然后将常态模式的个数定义为态势指数;最后将各个时间段的态势指数形成时间序列,使用拐点分析方法进行异常值预警,预警方法简便、效果较好。

Description

一种基于常态模式的大数据态势分析预警方法及系统
技术领域
本发明涉及一种预警方法,尤其涉及一种基于常态模式的态势分析预警方法及系统。
背景技术
在现实生活中,我们经常会面对具有一定周期性的复杂时间序列数据,在每个时间点对应的截面上,都对应一组样本数据,各个时间点之间的样本数据没有必然的联系,从而不是公知的面板数据,甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏足够了解的情况下,确定每个截面上数据之间的相似性,判断不同属性对这种相似性的影响程度,以及这些蕴含在数据中的关系在时间序列上如何传递和变化,并由此作出异常情况的预警。
由于我们对数据的了解非常缺乏,我们常常需要依据经验、主观地将属性进行分类,一般进行后续的研究。例如,对于消费者的购物篮数据,我们将消费者按照消费金额分为高、中、低三类,或者按照消费者年龄分为老、中、青三类,再比较各个分类的众多数据的均值、方差等指标随时间序列的变化,由此作出预警。这种分类方法存在两大缺陷:其一,严重依赖于主观的分类,使分析结果丧失客观性;其二,将众多数据压缩成均值、方差等指标,丧失了大量的信息,使分析结果不能充分反映情况,预警效果差强人意。
对具有一定周期性的复杂时间序列数据做出预警时,还会遇到“大数据”的问题。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于态势分析的大数据态势分析预警方法和系统。
我们首先根据实际需要选择时间段,根据时间段划分样本,以便进行比较。其次使用“抽样->聚类->计算降维指标”的流程进行大数据降维,将聚类获得的簇作为已知的标签,采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说,这些在降维中被保留下来的维度不是主观确定的,不依赖于经验模型。再次针对降维后的数据,使用聚类分析(clustering)算法将样本进行聚类,获得数据客观蕴含的相似性,继而将所得“簇”作为已知的分类标准(标签),提取属性值辨识度、属性辨识度、属性值重要性、属性重要性等“属性对相似性的影响力”的四项指标,进一步,使用全新的常态模式提取方法获取“常态模式”,并给出常态模式的命名方法。接下来,将常态模式的个数定义为态势指数。最后,将各个时间段的态势指数形成时间序列,使用拐点分析方法进行异常值预警,预警方法简便、效果较好。
本发明公开的基于聚类的态势分析预警方法,其创新点在于定义了一种全新的宏观指标“态势指数”,即截面数据中常态模式的数量,它反映了数据内部蕴含的子结构的数量,由此可以对每个时间点的截面数据中蕴含的子结构的数量变化进行预警,是常用的截面数据样本量指标的有力补充。
本发明的技术方案为:
一种基于常态模式的大数据态势分析预警方法,其步骤为:
1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;
2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;
4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;
5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对所述样本数据集进行划分,将划分结果作为常态模式;
6)将各个时间段的常态模式个数作为态势指数,得到一态势指数时间序列;然后根据该态势指数时间序列确定一常态区域;
7)计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进行监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预警;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
进一步的,确定所述常态区域的方法为:首先根据所述样本数据的采样周期确定态势指数的变化周期;根据多个变化周期的态势指数绘制一常态区域图,然后根据该常态区域图的最大值和最小值确定出所述常态区域。
进一步的,对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度;对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
进一步的,分别选用属性重要性最高的属性、属性辨识度最高的属性对样本进行划分,得到所述常态模式;或者选取划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对样本进行划分,得到所述常态模式。
进一步的,根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。
进一步的,命名所述常态模式的名称的方法为:在得到所述常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属性和或属性值记录为根节点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。
本发明的系统如图6所示,其包括:
1.数据降维模块
对采集的样本进行抽样和聚类分析,得到若干簇,将聚类得到的簇作为样本的标签,对样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性,提取由数据本身决定的“属性对相似性的影响力”指标;然后根据指标计算结果对属性排序;选取排序靠前的属性对样本数据进行降维。本发明可以建立在任何一种公知的聚类分析算法结果之上,提取由数据本身决定的“属性对相似性的影响力”指标,这些指标包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性。本发明将聚类分析获得的簇作为已知的分类标签,由此,“属性对相似性的影响力”指标等价于“属性对已知标签的影响力”指标。
这是因为,使用聚类分析方法让数据通过无监督学习生成若干“簇”,这些簇是基于距离或相似度来确定的,满足簇中的对象彼此相似,而与其他簇中的对象相异。粗略的看,聚类的结果与属性和属性值没有直接关联,即不是由某些属性来划分的。但是,考虑到距离或相似度的定义基于属性和属性值,因此属性和属性值对簇的形成具有实际的影响,而且不同的属性和属性值的影响力并不相同。因此,将聚类分析获得的簇作为已知的分类标签,进而提取属性对分类的影响力的四项指标具有实际意义。
2.常态模式划分模块。
常态模式,可以理解为样本数据中的常见类型,每个常态模式都是一组属性值的集合,常态模式集合是对全体样本的一种划分。
例如,图1中的一个常态模式可能是{颜色=黑,形状=方,尺寸=小},该类型包括了所有小的黑方块,它对应属性值{颜色=黑}、{形状=方}和{尺寸=小},是这三个属性值的集合。当然,某一个确实的常态模式中的属性值不一定是唯一的,因此,{颜色=黑或灰,形状=方,尺寸=小}也可能是一个常态模式。另一方面,由于{颜色=黑,形状=方或圆,尺寸=小}可以化简为{颜色=黑,尺寸=小},因此,常态模式对应的属性值不一定包含所有的属性,也就是说,有的属性在常态模式的划分中并不重要。
常态模式的另一个重要特点是“划分”性,也就是“不重不漏”。两个常态模式不能拥有共同的样本,即不相交;同时,绝大部分样本都属于某一个常态模式,只有少部分“异常值”、“离群值”。
直观的讲,一个样本总体全体常态模式的集合对应一个分类树,如图2所示,就是一个可能的常态模式集合。
这些图型具体应该分成哪些常态模式难以划分。本发明使用“先聚类再分类”的技术,提取数据客观蕴含的属性重要程度,给出客观的分类标准,即常态模式。
常态模式覆盖了绝大部分样本,除了左下角灰底白点的大圆,这是异常值。
一个需要区别的概念是正常类型。事实上,常态模式并不等价于正常类型,常态模式只是从出现的频率上给出了出现频率高的划分方法,并不意味着它一定是正常的、正确的。例如,在道路上暂时没有机动车通过时行人闯红灯过马路,这是一种常见的行为,但却不是正确、合法的行为。当然,一般来说,常态模式是正常类型,不属于常态模式的异常值是不正常的样本。
本发明通过提取属性重要性和辨识度,获取属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项指标,也就是“属性对相似性的影响力”。再使用全新的常态模式提取方法获取分类结果,即“常态模式”。
3.拐点分析模块
本发明中使用的全新的拐点分析技术,通过历史数据定义常态区域,并通过数据点及其发展趋势与常态区域的关系,将数据分为三种状态:可控状态、监控状态、预警状态。将拐点分析技术分别应用于属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项指标,得出层次丰富的预警结论。
如图1所示,以周期为18的时间序列数据为例。我们首先使用三个周期的数据围成常态区域,即图中的灰色区域,接下来根据常态区域对对新的一个周期的数据(黑色实线)进行拐点分析和预警。
可以发现,黑线上的大多数数据点落在常态区域中,属于可控状态。图中A点和B点落在常态区域之外,且都是曲线从常态区域中突破出来的第一个点,进入监控状态。如果数据点进入监控状态,相关人员应该保持密切监控,并对接下来的数据点进行拐点分析,也就是用拐点分析技术判断数据的发展趋势是“进一步突破”还是“反转回归”。具体而言:
①案例中,A点的下一时刻,曲线斜率符号转变(由正变成零或负),即向正常状态回归,因此该数据值仍然属于监控状态,直到数据点回归到常态区域内,监控解除,或者曲线斜率符号再度转变,远离常态区域,变成预警状态。
②案例中,B点的下一时刻,曲线斜率并未发生符号转变,认为进一步偏离常态区域,因此该数据值变成预警状态,做出预警。相关人员应该集中精力分析这些预警的“异常”数据点。
与现有技术相比,积极效果为:
(1)常态模式获得的“类”比聚类分析获得的“簇”,具有更加确切的分类标准,排除了由于其他属性的干扰,使得个别样本点分类不准确的现象,如图3。
例如,可能某个簇的100个样本中99个都是“性别=男性”,仅有1个是“性别=女性”,使得分类结果的实践指导意义较差。而本专利将选择“性别”属性作为分类标准,获得“性别=男性”和“性别=女性”两个类,分类结果的实践指导意义更好。进一步,这个特殊的、错误分类的个体,可以作为异常值研究对象。
(2)对于一类复杂的趋势数据样本,例如某超市每天的顾客购物情况,使用聚类分析得到的簇,不能确定相邻两天得到的簇之间的关系,从而难以研究相关簇之间的时间序列关系。而使用本专利方法可以获得常态模式并给出了常态模式的命名方法,则在不同时间点的各个簇之间建立了明确的时间序列关系,即可以研究相同名称的簇的变化情况,以及不同时间点簇的增加或减少情况。
(3)主流的聚类算法属于随机算法,基于随机的初值,聚类结果也随着初值变化,聚类结果的不确定性在一定程度上影响了聚类结果在实际应用中的可信度。而本发明由于使用了“先聚类再分类”的方法确定常态模式,降低了初值对计算结果的影响,使分析结果更加稳定可信。
如前所述,本发明公开的态势分析预警方法,可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域,提取“属性对相似性的影响力”指标,具有较强的普适性。
附图说明
图1为常态模式示意图;
图2为常态模式实例图;
图3为拐点分析和预警的简单实例;
图4为常态模式划分方法结果对比图;
(a)聚类得到的簇,(b)先聚类再分类获得的类
图5为基于常态模式的大数据态势分析预警系统流程图;
图6为基于常态模式的大数据态势分析预警系统结构图;
图7为划分属性的选择图;
(a)根据重要性最高的属性(属性A)划分常态模式,
(b)根据辨识度最高的属性(属性B)划分常态模式,
图8为类与簇之间的差异图;
(a)由聚类分析获得的五个簇,
(b)根据属性的辨识度和重要性划分数据得到的四个类;
图9为根据态势指数历史数据绘制的常态区域;
图10为根据新周期中态势指数的状态图;
图11为应用实例的模型形态图;
图12为应用实例分析计算结果图。
具体实施方式
本发明公开了一种基于聚类的大数据态势分析预警方法和系统,可以得到多层次的预警结果,具体操作步骤如下。
步骤1:数据采集。
数据采集模块是本系统的硬件基础。该模块将待分析的无标签样本数据从分布在各地的终端数据库中传输汇总到中央数据库。
步骤2:数据清洗。
通过数据采集终端汇总得到的数据,难免存在不完整、错误、重复等现象。数据清洗步骤用于过滤这些不符合要求的数据,过滤的结果将提交给相关主管部门,确认是直接过滤掉还是作为异常值提取出来做进一步分析。
步骤3:时间段选择及划分。
根据客户实际需求,将样本数据划分为若干时间段,针对每个时间段重复步骤4和步骤5。本系统提供客户时间段划分的选择功能。
步骤4:数据降维。
经过清洗和时间段划分的的样本数据汇总到中央数据库。由于样本量(N1)巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。
数据降维步骤包括以下子步骤:
步骤4.1:数据抽样。
对全体样本进行系统抽样(systematic sampling)。系统抽样,又称机械抽样、等距抽样。具体而言:
(1)由系统硬件运转能力确定适合的抽样样本量(N2),定义压缩比(M)为:
M=N1÷N2;
(2)将全体样本数据按某一顺序排列起来,标注唯一的序号;
(3)从前M个样本中随机的选出一个样本作为抽样样本,记其序号为k;
(4)将序号为k、k+M、k+2*M、…、k+(N2-1)*M的N2个样本作为抽样结果。
步骤4.2:数据聚类。
本步骤可以建立在任何一种公知的聚类分析算法结果之上,通过对抽样后的样本数据进行聚类分析,得到若干簇。
步骤4.3:降维指标选择。
针对抽样得到的N2个样本以及聚类获得的若干簇,可以通过后续的步骤计算降维指标(即“属性对相似性的影响力”),并根据“影响力”的排序来确定降维后保留的属性。本系统提供降维指标的选择,可选择的降维指标有:
降维指标1:属性辨识度指标;
降维指标2:属性重要性指标。
降维指标选择主要看待分析的问题中“样本量”因素是否重要,建议如下:
(1)如果“样本量”因素不重要,应选择属性辨识度指标给出影响力排序;
(2)如果“样本量”因素重要,应选择属性重要性指标给出影响力排序;
(3)如果想综合考虑上述两种情况,应结合这两个指标给出综合性的排序。
步骤4.4:降维指标计算。
计算降维指标,也就是计算每个属性“对相似性的影响力”,具体包括:属性辨识度和属性重要性,同时还需要计算两个过渡性的指标:属性值辨识度和属性值重要性。我们以案例为基础,说明这四项指标的主要计算步骤。系统将根据用户在步骤3.2中的选择情况计算相应的指标。
四项指标计算案例:
一个包含100人的研究样本,其中包含50名女性和50名男性,其中20人有前科。通过聚类分析获得了两个“簇”,其中“簇1”包含10个样本,绝大部分是犯有盗窃罪的人,而“簇2”包含90个样本,绝大部分是未犯有盗窃罪的人。其他数据如表1。
表1:四项指标计算案例
序号 样本量 性别 前科 类型
1 42 簇2
2 36 簇2
3 8 簇2
4 5 簇1
5 4 簇2
6 3 簇1
7 1 簇1
8 1 簇1
1.计算属性值相对某个簇的辨识度。
计算属性值的辨识度,也就是基于条件概率和贝叶斯算法的理论,计算哪些属性值对已知的标签取值有较大影响(定性)以及影响值多大(定量)。具体而言,用增加属性条件后的概率变化值,即条件概率值与概率值的差,来表示每个簇中每个属性值的辨识度。
具体到本案例,我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力,从而实施有针对性的预防和干预工作。我们首先计算属性值相对某个簇的辨识度,以“簇1”为例。
对于这100人中的一个样本x,在属性未知的情况下,预测他(她)属于簇1的概率(可能性)是:P(x属于簇1)=10/100=10%。
情况1:对于“性别=女”这个属性,如果知道这个人x是女性,则x属于簇1的条件概率是:P(x属于簇1|x是女性)=4/50=8%,因为50名女性中有4人属于簇1,概率变化值为8%-10%=-2%。
情况2:对于“前科=有”这个属性,如果知道这个人x有前科,则x属于簇1的条件概率是:P(x属于簇1|x有前科)=8/20=40%,因为20名有前科的人中有8人属于簇1,概率变化值为40%-10%=30%。
比较情况1和情况2:“前科=有”这个属性值相对簇1的辨识度大于0,也就是具有该属性值的样本(条件概率),比无法判断是否具有该属性值的样本(无条件概率)属于簇1的可能性更大;“性别=女”这个属性值相对簇1的辨识度小于0,也就是具有该属性值的样本,比无法判断是否具有该属性值的样本属于簇1的可能性更小。进一步,“前科=有”这个属性值相对簇1的辨识度的绝对值要远远大于“性别=女”这个属性值,可以认为前者对判断样本是否属于簇1的影响力更大。
同理,可以计算出“性别=男”这个属性值相对簇1的辨识度为0.02,“前科=无”这个属性值相对簇1的辨识度为-0.075。进一步考虑“簇2”,可以计算得到:“性别=女”相对簇2的辨识度为0.02;“性别=男”相对簇2的辨识度为-0.02;“前科=有”相对簇2的辨识度为-0.3;“前科=无”相对簇2的辨识度为0.075。
2.计算属性值的辨识度。
对于样本具有的每一个属性值,将它相对所有的簇,都按照步骤2计算一个概率差值,即该属性值相对该簇的辨识度,再将这些辨识度取平方平均数,得到该属性值针对整个空间的辨识度。可见,“性别=女”和“性别=男”的辨识度均为0.02;“前科=有”的辨识度为0.3;“前科=无”的辨识度为0.075。
这样计算的属性值辨识度没有考虑属性值对应的样本量大小,可以很好的识别样本量很少但辨别能力很强的属性。落实到实践中,针对“前科=有”的群体开展预防和干预工作要比针对“性别=男”的群体开展工作具有更好的效果。而“前科=无”和“性别=女”的群体,属于簇1的可能性(可以近似的看成犯盗窃罪的可能性)小于平均值,不需要进行预防干预工作。
3.计算属性的辨识度。
利用步骤3,我们得到了属性值“性别=女”和“性别=男”对于两类簇划分(相似性)的辨识度,将两者的平方平均数定义为“性别”这一属性的辨识度,计算得0.02。同样的,将属性值“前科=有”和“前科=无”的辨识度的平方平均数定义为“前科”这一属性对于“簇”的辨识度,计算得0.2187。
4.计算属性值的重要性。
为了平衡属性值的辨别能力和对应的样本量,在“辨识度”概念的基础上定义“重要性”概念。粗略的说,属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。
例如,属性值“性别=女”和“性别=男”的辨识度均为0.02,对应样本量均为50,重要性为1;属性值“前科=有”的辨识度为0.3,对应样本量为20,重要性为6;属性值“前科=无”的辨识度为0.075,对应样本量为80,重要性为6。更加细化的,我们还可以计算属性值相对于某个簇的重要性,例如,属性值“性别=女”相对簇1的重要性为-1;属性值“性别=男”相对簇1的重要性为1。
可见,由于对应样本量的差异,两着的辨识度差别较大但重要性差别较小,辨识度和重要性反映的信息存在不同。对于更复杂的情况,不同属性对应的的样本数量可能存在很大的差异,甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作,较好的平衡的针对性和覆盖面。落实到实践中,可以针对“前科=有”的群体开展犯罪危害的教育工作。
进一步的,当一个属性只有两个属性值时,两者对“簇”的重要性绝对值相同,这符合我们对“重要性”概念的一般认识,因为两个取值知道其中一个也就知道了另一个。
5.计算属性的重要性。
属性的重要性可以有两种定义,一种是通过属性值的重要性来计算,即“属性的重要性等于属性值的重要性的平方平均数”;一种是通过属性的辨识度来计算,即“属性的重要性等于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量,如果采用后者的定义,那么属性的重要性和辨识度概念则本质上是相同的,不利于建立多层次的属性影响力排序。因此,我们采用前一种定义方式。粗略的说,属性的重要性等于属性值的重要性的平方平均数。
在本例中,属性“性别”的重要性为1,属性“前科”的重要性为6。这个结果也是与我们的直观非常一致的。
步骤4.5:降维指标排序。
降维指标计算,也就是给出属性“对相似性的影响力”排序。根据步骤3.3中用户的选择以及步骤3.4中的相关指标计算结果,获得属性“对相似性的影响力”排序。
步骤4.6:大数据降维(维度选择)。
根据步骤3.5中给出的属性“对相似性的影响力”排序,根据实际需求设定影响力阈值,选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性,即维度选择。
步骤5:常态模式划分及命名。
针对降维后的全体样本数据,提取低维全体数据的常态模式。相对于直接提取高维全体数据的常态模式,有利于降低本系统的计算复杂度、提高分析效率。
步骤5.1:数据聚类。
本步骤可以建立在任何一种公知的聚类分析算法结果之上,通过对降维后的低维样本数据进行聚类分析,得到若干簇。
步骤5.2:划分指标计算。
我们可以将步骤5.1得到的“簇”作为已知的分类情况,计算“属性对相似性的影响力”指标,包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项具体指标,具体的计算方法参见步骤3.4。
步骤5.3:常态模式划分。
属性的辨识度和重要性都是基于聚类结果提取出来的,均可以用于分类步骤,针对不同领域和数据结构具有不同分类效果,需要针对实际情况选择。
具体而言,针对全体数据,将属性辨识度和属性重要性的两项指标从大到小进行排序,灵活选择“属性重要性”或“属性辨识度”最高的属性对样本进行划分,旨在使分类结果最好的逼近聚类分析得到的“簇”。根据这种方法获得的分类称为常态模式,常态模式可能合并或划分部分簇,但类与簇之间的差异应该尽量小。
例如:图7中的属性A表示重要性最高的属性、属性B表示辨识度最高的属性,三种不同的图案表示由聚类分析获得的三个簇“黑方”、“灰方”、“圆”。我们可以选择用属性A或者属性B的不同属性值将样本进行划分,但相对而言,使用属性A划分得到的两个类与簇的差异较小。事实上,使用属性A获得的类“A左”包含完整的簇“黑方”和“灰方”,而类“A右”包含完整的簇“圆”;使用属性B获得的类“B上”包含簇“黑方”和簇“圆”的一部分,而类“B下”包含簇“灰方”和簇“圆”的另一部分。前者划分结果与聚类分析的结果更为一致,采用前者的划分方法,即在本次划分中更适合于使用重要性最高的属性A来划分。
本发明采用的“先聚类再分类”的方法获得的结果与传统的“聚类”方法存在差异。如图8所示,图8(a)是由聚类分析获得的五个簇,图8(b)是将这五个簇作为已知分类,根据属性的辨识度和重要性划分数据得到的四个类,这五个簇与四个类之间的差异表现为A-E这五个样本。因此,本发明是传统的聚类分析算法不能代替的。
具体而言,将步骤4中计算得到的属性辨识度和重要性分别排序,优先选择属性重要性最高或者辨识度最高的属性对所有样本进行划分,选择的原则是使划分得到的类与簇之间的差异尽量小,也就是“类”很好的逼近了已知的“簇”。如前文所述。假设我们选择了属性1作为划分的标准,将数据分为A、B、C三个部分。例如,如果选择的属性为“形状”,数据将按照其属性值分为“形状=方”和“形状=圆”两个类。每个部分属性1的属性值可能唯一,也可能是几个相近属性值的集合,但不同部分属性1的属性值一定不同,这些都是由算法自动实现的。接下来,针对划分获得的每个部分,不考虑属性1,再选择其中重要性或者辨识度最高的属性,分别进行第二步划分(三个部分的下一步划分可能选取不同的属性)。例如,“形状=方”的类,按照“尺寸”属性再划分。
当分类的精细程度满足实际需求时,划分结束(每个部分划分的次数也可能不同),得到单纯基于属性重要性的分类,称为常态模式。实际操作时,需要针对情况选择重要性或辨识度作为下一步划分的标准。常态模式覆盖了绝大部分样本,基本做到“不重不漏”,具有很强的客观性。
分类的精细程度,又称为颗粒度,作为算法的停止规则,可以规定为每个“小块”的样本量小于N,或者划分次数等于K等等。
步骤5.4:常态模式命名。
通过步骤5.3构建的常态模式,比直接聚类分析的结果具有更强的可命名性。事实上,常态模式是由各个属性和属性值一步一步划分得到,因此这些属性值自然的成为了类型的“名称”,很自然的解决了聚类分析“簇”的命名问题。
常态模式的命名方式为:针对需要命名的常态模式(叶节点),沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。也就是说,常态模式的名称是若干对分类影响较大的属性值的集合。
以图2为例,常态模式包括以下六个:
常态模式1:{形状=方,尺寸=大};
常态模式2:{形状=方,尺寸=小,颜色=黑};
常态模式3:{形状=方,尺寸=小,颜色=灰};
常态模式4:{形状=方,尺寸=小,颜色=白};
常态模式5:{形状=圆,颜色=黑};
常态模式6:{形状=圆,颜色=灰或白}。
步骤6:态势指数拐点分析。
本系统将每个时间段样本数据的常态模式个数定义为态势指数,可以表现样本数据内在子结构的个数。针对每个时间点上截面数据重复步骤4和5的操作,获得每个时间段上的态势指数,从而获得态势指数的时间序列数据。进而,对态势指数时间序列数据进行拐点分析,主要分析步骤如下:
1.绘制常态区域。
假设数据以4为周期,连续三个周期的态势指数如下表:
表2:常态区域绘制案例
年份 时刻1 时刻2 时刻3 时刻4
第1周期 5 4 6 6
第2周期 6 7 6 5
第3周期 4 5 7 4
最低排序 6 7 7 6
最高排序 4 4 6 4
计算三个周期中每个时间点的最大值和最小值,将其范围确定为常态区域,则上面案例的数据可以绘制如图9所示的常态区域。
2.在新周期中发现第一次突破常态区域的数据值点。
基于常态区域对新的一个周期的数据进行时间序列预警,首先是要确定第一次突破常态区域的数值点。在案例中,假设在新的一个周期中,时刻1的数据为5,属于常态区域,即该数值点为“可控状态”。时刻2的数据为8,第一次突破了常态区域,从而该数值点为“监控状态”。相关人员应该密切关注数据在下个时间点的变动情况,是出现“回归”常态区域的趋势还是“更加远离”常态区域。
3.区分可控状态、监控状态和预警状态。
如前所述,在新的一个周期中,时刻2的数据突破常态区域,进入“监控状态”,考虑时刻3的数据的三种情况,它们分别对应可控状态(C点)、监控状态(B点)和预警状态(A点),如图10所示。
步骤7:预警信息发布。
本系统最后一个环节是将上述计算获得的预警信息,通过预警信息发布器反馈给用户。本系统可供客户选择的预警信息发布模式有两种:(1)发布预警状态;(2)发布监控状态和预警状态。
应用实例
本发明公开了基于常态模式的大数据态势分析预警方法。本发明通过计算“属性对相似性的影响力”四项指标:属性值辨识度、属性辨识度、属性值重要性、属性重要性等,实现了大数据的降维,继而获取了表现数据内部子结构的常态模式。本专利将常态模式的个数称为“态势指数”,它是反映数据内部子结构的整体指标,通过对这个指标进行基于时间序列的拐点分析,本系统可以识别不同时间段的数据处于可控状态、监控状态还是预警状态。基本的模型形态如图11所示。
本发明已经运用于某地区的旅店住宿人员的态势分析中,以下是对指定时间段中23,147,419人的常态、异态计算和分析的相关结果,如图12所示,其中的较深色区域所表示的态势及实际数值完整地验证了真实的预警指标及对应的数据实体。
经过实际的旅店住宿人员态势核查,在图12中较深色区域表示的管控数据确实与真实的特定人群的迁移状态相吻合,有力的支撑了相关的管控行为。

Claims (7)

1.一种基于常态模式的大数据态势分析预警方法,其步骤为:
1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;
2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;其中,所述属性降维指标包括属性辨识度和或属性重要性;
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取排序靠前的若干属性作为大数据降维后保留的属性;
4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;
5)根据选取的属性划分指标计算步骤4)中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序,分别选用属性重要性最高的属性、属性辨识度最高的属性对所述样本数据集进行划分,得到所述常态模式;或者选取划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对所述样本数据集进行划分,得到所述常态模式;
6)将各个时间段的常态模式个数作为态势指数,得到一态势指数时间序列;然后根据该态势指数时间序列确定一常态区域;
7)计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进行监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预警;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;即对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性;即对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
2.如权利要求1所述的方法,其特征在于确定所述常态区域的方法为:首先根据所述样本数据的采样周期确定态势指数的变化周期;根据多个变化周期的态势指数绘制一常态区域图,然后根据该常态区域图的最大值和最小值确定出所述常态区域。
3.如权利要求1或2所述的方法,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称。
4.如权利要求3所述的方法,其特征在于命名所述常态模式的名称的方法为:在得到所述常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属性和或属性值记录为根节点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。
5.一种基于常态模式的大数据态势分析预警系统,其特征在于包括多个终端服务器和一中央服务器,所述终端服务器通过网络与所述中央服务器连接;其中,所述中央服务器包括数据采集模块、数据降维模块、常态模式划分模块和拐点分析模块;
所述数据采集模块,用于从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;
所述数据降维模块,用于从每一时间段的样本数据集中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,并根据计算结果对属性进行排序,选取排序靠前的若干属性作为大数据降维后保留的属性;其中,所述属性降维指标包括属性辨识度和或属性重要性;
所述常态模式划分模块,用于对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;然后根据选取的属性划分指标对标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性进行计算,并对计算结果进行排序,分别选用属性重要性最高的属性、属性辨识度最高的属性对所述样本数据集进行划分,得到所述常态模式;或者选取划分结果与聚类结果的差异量小的原则选择属性重要性最高的属性或属性辨识度最高的属性对所述样本数据集进行划分,得到所述常态模式;
所述拐点分析模块,用于将各个时间段的常态模式个数作为态势指数,得到一态势指数时间序列,然后根据该态势指数时间序列确定一常态区域;以及计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进行监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预警;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;即对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性;即对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
6.如权利要求5所述的系统,其特征在于根据所述常态模式划分所依据的属性和属性值,命名所述常态模式的名称;所述中央服务器通过一预警信息发布器发布预警信息。
7.如权利要求5或6所述的系统,其特征在于所述常态模式划分模块在得到所述常态模式的过程中,记录每一所述常态模式所用到的属性和属性值;将第一所用的属性和或属性值记录为根节点,最后一次所用的属性和或属性值记录为叶节点;然后沿着根节点向该叶节点发展,将涉及的全部属性值的集合作为该常态模式的名称。
CN201410356588.4A 2014-07-24 2014-07-24 一种基于常态模式的大数据态势分析预警方法及系统 Active CN104123466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410356588.4A CN104123466B (zh) 2014-07-24 2014-07-24 一种基于常态模式的大数据态势分析预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410356588.4A CN104123466B (zh) 2014-07-24 2014-07-24 一种基于常态模式的大数据态势分析预警方法及系统

Publications (2)

Publication Number Publication Date
CN104123466A CN104123466A (zh) 2014-10-29
CN104123466B true CN104123466B (zh) 2017-07-07

Family

ID=51768875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410356588.4A Active CN104123466B (zh) 2014-07-24 2014-07-24 一种基于常态模式的大数据态势分析预警方法及系统

Country Status (1)

Country Link
CN (1) CN104123466B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245981B (zh) * 2019-05-31 2021-10-01 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN110414591B (zh) * 2019-07-24 2022-07-12 腾讯科技(武汉)有限公司 一种数据处理方法以及设备
CN113468424B (zh) * 2021-06-30 2023-10-31 北京达佳互联信息技术有限公司 异常属性标签的监控方法、装置、电子设备及存储介质
CN114676796B (zh) * 2022-05-27 2022-09-06 浙江清大科技有限公司 一种基于大数据的聚类采集与识别的系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134555A (en) * 1997-03-10 2000-10-17 International Business Machines Corporation Dimension reduction using association rules for data mining application
CN102231231A (zh) * 2011-06-16 2011-11-02 同济大学 区域公路网交通安全态势预警系统及其方法
CN102314519A (zh) * 2011-10-11 2012-01-11 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法
CN102457411A (zh) * 2011-10-14 2012-05-16 中国人民解放军国防科学技术大学 基于不确定数据的网络安全态势模糊评估方法
CN102457412A (zh) * 2011-10-14 2012-05-16 中国人民解放军国防科学技术大学 基于指标体系的大规模网络安全态势评估方法
WO2012152315A1 (en) * 2011-05-10 2012-11-15 Telefonaktiebolaget L M Ericsson (Publ) Optimised data stream management system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639692B2 (en) * 2010-06-28 2014-01-28 Alcatel Lucent High-dimensional stratified sampling

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134555A (en) * 1997-03-10 2000-10-17 International Business Machines Corporation Dimension reduction using association rules for data mining application
WO2012152315A1 (en) * 2011-05-10 2012-11-15 Telefonaktiebolaget L M Ericsson (Publ) Optimised data stream management system
CN102231231A (zh) * 2011-06-16 2011-11-02 同济大学 区域公路网交通安全态势预警系统及其方法
CN102314519A (zh) * 2011-10-11 2012-01-11 中国软件与技术服务股份有限公司 一种基于公安领域知识本体模型的信息搜索方法
CN102457411A (zh) * 2011-10-14 2012-05-16 中国人民解放军国防科学技术大学 基于不确定数据的网络安全态势模糊评估方法
CN102457412A (zh) * 2011-10-14 2012-05-16 中国人民解放军国防科学技术大学 基于指标体系的大规模网络安全态势评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
网络态势感知系统的告警阈值确定方法研究;张羽等;《世界科技研究与发展》;20080831;第30卷(第4期);第443-445页 *
聚类分析和孤立点技术在网络安全态势中的应用;刘鹏等;《网络安全技术与应用》;20130331(第3期);第13-16页 *

Also Published As

Publication number Publication date
CN104123466A (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN104156403B (zh) 一种基于聚类的大数据常态模式提取方法及系统
CN104142986B (zh) 一种基于聚类的大数据态势分析预警方法及系统
CN110097297B (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
CN104123368B (zh) 基于聚类的大数据属性重要性和辨识度的预警方法及系统
Cook et al. Anomaly detection for IoT time-series data: A survey
CN104123465B (zh) 一种基于聚类的大数据交叉分析预警方法及系统
Lin et al. Clustering algorithms based on correlation coefficients for probabilistic linguistic term sets
Kwac et al. Household energy consumption segmentation using hourly data
JP5075009B2 (ja) 類似度分析評価システム
CN110084326B (zh) 一种基于模糊集的工业设备异常检测方法
CN104123466B (zh) 一种基于常态模式的大数据态势分析预警方法及系统
Sun et al. Outlier data treatment methods toward smart grid applications
CN109615004A (zh) 一种多源数据融合的防窃电预警方法
CN106570778A (zh) 一种基于大数据的数据集成与线损分析计算的方法
CN105378714A (zh) 时间序列的快速分组
CN104050361A (zh) 一种监狱服刑人员危险性倾向的智能分析预警方法
Jain et al. Rule‐based classification of energy theft and anomalies in consumers load demand profile
Mao et al. Anomaly detection for power consumption data based on isolated forest
CN104102730B (zh) 一种基于已知标签的大数据常态模式提取方法及系统
Zhao et al. Analysis of users’ electricity consumption behavior based on ensemble clustering
CN116662577A (zh) 基于知识图谱的大型语言模型训练方法及装置
CN113762703A (zh) 确定企业画像的方法和装置、计算设备和存储介质
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
JP2015032173A (ja) 行動推定システム
Lin et al. Data-driven situation awareness of electricity-gas integrated energy system considering time series features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant