CN104123368B - 基于聚类的大数据属性重要性和辨识度的预警方法及系统 - Google Patents
基于聚类的大数据属性重要性和辨识度的预警方法及系统 Download PDFInfo
- Publication number
- CN104123368B CN104123368B CN201410356010.9A CN201410356010A CN104123368B CN 104123368 B CN104123368 B CN 104123368B CN 201410356010 A CN201410356010 A CN 201410356010A CN 104123368 B CN104123368 B CN 104123368B
- Authority
- CN
- China
- Prior art keywords
- attribute
- importance
- value
- identification
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于聚类的大数据属性重要性和辨识度的预警方法及系统。本方法为:首先根据时间段划分样本,其次使用抽样‑>聚类‑>计算降维指标进行大数据降维,将聚类获得的簇作为已知的标签,再次针对降维后的数据,使用聚类算法对样本聚类,将聚类结果作为分类标签,使用属性重要性和辨识度提取方法,提取由数据本身决定的属性对分类的影响力”标,包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性;最后,将各个时间段的四项指标分别形成时间序列,使用拐点分析方法进行时间序列的研究,可以做出不同层面的异常值预警,预警效果好。
Description
技术领域
本发明涉及一种时间序列预警方法,尤其涉及一种基于聚类的大数据属性重要性和辨识度的时间序列预警系统。
背景技术
在现实生活中,我们经常会面对具有一定周期性的复杂时间序列数据,在每个时间点对应的截面上,都对应一组样本数据,各个时间点之间的样本数据没有必然的联系,从而不是公知的面板数据,甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏足够了解的情况下,确定每个截面上数据之间的相似性,判断不同属性对这种相似性的影响程度,以及这些蕴含在数据中的关系在时间序列上如何传递和变化,并由此作出异常情况的预警。
这样的周期时间序列数据十分复杂,但在现实生活中却非常常见。案例1:某超市在近一年的时间里,持续记录了每天中每个消费者的购物篮数据,每天的消费者数量显然不固定。但由于会员卡数据缺失,我们不能针对每个消费者建立时间序列模型,再分析其消费习惯的时间序列性质并作出异常预警,我们只能并希望从整体上获知消费习惯的变化,特别是购物篮中产品对超市营利能力的重要程度的变化,并对产品采购等经营活动作出异常预警和管理建议。案例2:某城市统计了近五年来所有高三学生参加高考的各科成绩,显然每年参加高考的学生人数不固定,且绝大部分学生只参加一次高考,我们不能针对每个学生建立时间序列模型,再分析其各科成绩的时间序列性质并作出异常预警,我们只能并希望从整体上获知学生高考情况的变化,提供预警并对高考改革提供参考意见,这里不存在明显的周期,我们可以按照历史数据的数量确定一个合适的周期,或者以一为周期做拐点分析。
由于我们对数据的了解非常缺乏,我们常常需要依据经验、主观地将属性进行分类,一般进行后续的研究。例如,在案例1中,我们将消费者按照消费金额分为高、中、低三类,或者按照消费者年龄分为老、中、青三类,再比较各个分类的众多数据的均值、方差等指标随时间序列的变化,由此作出预警。这种分类方法存在两大缺陷:其一,严重依赖于主观的分类,使分析结果丧失客观性;其二,将众多数据压缩成均值、方差等指标,丧失了大量的信息,使分析结果不能充分反映情况,预警效果差强人意。
对具有一定周期性的复杂时间序列数据做出预警时,还会遇到“大数据”的问题。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于聚类的大数据属性重要性和辨识度的时间序列预警方法和系统。
我们首先根据实际需要选择时间段,根据时间段划分样本,以便进行比较。其次使用“抽样->聚类->计算降维指标”的流程进行大数据降维,将聚类获得的簇作为已知的标签,采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说,这些在降维中被保留下来的维度不是主观确定的,不依赖于经验模型。再次针对降维后的数据,使用聚类分析(clustering)算法将样本进行聚类,获得数据客观蕴含的相似性,再将聚类结果(簇,cluster)作为分类标签,使用属性重要性和辨识度提取方法,提取由数据本身决定的“属性对分类的影响力”指标,这些指标包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性。相比而言,在数据挖掘(Data Mining)的决策树(Decision Tree)算法中,我们主要使用信息增益、增益率、Gini指标来衡量属性对分类的影响力,它们分别应用于三种最常见的决策树算法:ID3、C4.5、CART。本发明可以获得比上述传统算法更加全面的属性重要程度信息。最后,将各个时间段的四项指标分别形成时间序列,使用拐点分析方法进行时间序列的研究,可以做出不同层面的异常值预警,预警效果好。
本发明的技术方案为:
一种基于聚类的大数据属性重要性和辨识度的预警方法,其步骤为:
1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;
2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和/或属性值重要性、属性重要性;其中,所述属性降维指标包括属性辨识度和/或属性重要性;
3)分别根据属性值辨识度、属性辨识度和/或属性值重要性、属性重要性对属性进行排序,选取排序靠前的若干属性作为大数据降维后保留的属性;
4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;
5)计算步骤4)中已标注样本每一属性i的设定监控指标,然后根据属性i的每一设定监控指标在各个时间段的取值构建该属性i的各设定监控指标常态区域;所述设定监控指标为属性值辨识度和或属性辨识度和或属性值重要性和或属性重要性;
6)计算该属性i当前时刻的设定监控指标的指标值,如果某一项设定监控指标值超出相应的常态区域,则对其进行监控并计算该项设定监控指标下一时刻的指标值,如果继续超出相应的常态区域,则对该属性i的该项设定监控指标进行预警;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
进一步的,对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。
进一步的,对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
进一步的,采用基于条件概率和贝叶斯算法计算所述辨识度。
本发明的系统如图2所示,其包括:
1.数据降维模块
对采集的样本进行抽样和聚类分析,得到若干簇,将聚类得到的簇作为样本的标签,对样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性,提取由数据本身决定的“属性对相似性的影响力”指标;然后根据指标计算结果对属性排序;选取排序靠前的属性对样本数据进行降维。
本发明定义了四个相互关联但又互不相同的影响力指标:属性值辨识度、属性辨识度、属性值重要性、属性重要性,从而更加全面准确的刻画“属性对分类的影响力”大小。下面简要介绍这四个指标的概念,具体计算方法详见下文“具体实施方式”部分。
(1)属性值辨识度和属性辨识度
我们常说的“辨识度”有两种理解:第一,拥有该属性的样本是被辨认出来的能力,一个歌声辨识度高的歌手只需要演唱一句就可以让大家认出他是谁,一个相貌辨识度高的演员即使穿着平常走在人群中也可以被大家发现。第二,是拥有该属性的样本被准确分类的能力,例如,某影视基地同时开拍一部清宫剧和一部现代剧,面对一个脑后垂着长辫子的男演员,即使他没有说明自己属于哪个剧组,也基本可以断定他属于清宫剧剧组,可见“性别=男、发型=长辫子”的属性值对“剧组”这一分类的辨识度很高。本专利定义的属性值辨识度和属性辨识度采用的是后一种概念。
(2)属性值重要性和属性重要性
属性辨识度概念没有考虑具有该属性的样本量,为了进一步平衡属性值的辨别能力和对应的样本量,在“辨识度”概念的基础上定义“重要性”概念。粗略的说,重要性等于辨识度乘以样本量。
(3)“辨识度”和“重要性”
我们选择“辨识度”和“重要性”两个指标作为“属性对分类的影响力”的判断指标,是因为这两个指标在实际操作中具有完全不同的意义。
考虑青少年犯罪影响因素案例,如果通过聚类分析获得两个簇,分别代表“暴力犯罪”和“非暴力犯罪”。其中,青少年“是否吸毒=是”的属性值对“暴力犯罪”的簇具有极高的辨识度,也就是吸毒的青少年如果参与犯罪,这主要是暴力犯罪,可见应该注意重点排查、干预这部分青少年的行为,采取针对其个人的预防监控措施。然而,由于一万个青少年中吸毒的样本非常少,这个属性值的重要性并不大,重要性较高的属性值可能是“是否打架斗殴=是”,该的属性值涉及的样本较多,更适合采用大面积宣传教育的方式进行预防干预,从而提高干预效率。
本发明可以建立在任何一种公知的聚类分析算法结果之上,提取由数据本身决定的“属性对相似性的影响力”指标,这些指标包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性。本发明将聚类分析获得的簇作为已知的分类标签,由此,“属性对相似性的影响力”指标等价于“属性对已知标签的影响力”指标。
这是因为,使用聚类分析方法让数据通过无监督学习生成若干“簇”,这些簇是基于距离或相似度来确定的,满足簇中的对象彼此相似,而与其他簇中的对象相异。粗略的看,聚类的结果与属性和属性值没有直接关联,即不是由某些属性来划分的。但是,考虑到距离或相似度的定义基于属性和属性值,因此属性和属性值对簇的形成具有实际的影响,而且不同的属性和属性值的影响力并不相同。因此,将聚类分析获得的簇作为已知的分类标签,进而提取属性对分类的影响力的四项指标具有实际意义。
2.指标计算模块。
计算已标注样本每一属性的所选监控指标,所选监控指标可以是属性值辨识度、属性辨识度以及属性值重要性、属性重要性的一项或多项。
3.预警分析模块
使用的全新的拐点分析技术,通过历史数据定义常态区域,并通过数据点及其发展趋势与常态区域的关系,将数据分为三种状态:可控状态、监控状态、预警状态。将拐点分析技术分别应用于属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项指标,得出层次丰富的预警结论。
与现有技术相比,本发明的积极效果为:
本发明公开的基于属性重要性和辨识度的时间序列预警方法可以获得更加全面的属性重要程度信息。本发明将各个时间段的四项指标分别形成时间序列,使用拐点分析方法进行时间序列的研究,可以做出不同层面的异常值预警,预警效果好。
本发明可应用于公安情报数据分析、反腐败数据分析、居民家庭用电情况分析、交通出行模式分析、疾病特征数据分析、医疗数据分析、客户市场细分等多种领域,提取“属性对相似性的影响力”指标,具有较强的普适性。
附图说明
图1为基于聚类的大数据属性重要性和辨识度的时间序列预警系统流程图;
图2为基于聚类的大数据属性重要性和辨识度的时间序列预警系统结构图;
图3为根据案例数据绘制的常态区域图;
图4为根据案例数据判断数值点的状态图;
图5为应用实例的模型形态图;
图6为应用实例异态计算和分析的相关结果图。
具体实施方式
本发明公开了一种基于聚类的大数据属性重要性和辨识度的时间序列预警方法和系统,可以得到多层次的预警结果,如图1所示,本发明的具体操作步骤如下。
步骤1:数据采集。
数据采集模块是本系统的硬件基础。该模块将待分析的样本数据从分布在各地的终端数据库中传输汇总到中央数据库。
步骤2:数据清洗。
通过数据采集终端汇总得到的数据,难免存在不完整、错误、重复等现象。数据清洗步骤用于过滤这些不符合要求的数据,过滤的结果将提交给相关主管部门,确认是直接过滤掉还是作为异常值提取出来做进一步分析。
步骤3:时间段选择及划分。
根据客户实际需求,将样本数据划分为若干时间段,针对每个时间段重复步骤4和步骤5。本系统提供客户时间段划分的选择功能。
步骤4:数据降维。
经过清洗和时间段划分的的样本数据汇总到中央数据库。由于样本量(N1)巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维步骤包括以下子步骤:
步骤4.1:数据抽样。
对全体样本进行系统抽样(systematic sampling)。系统抽样,又称机械抽样、等距抽样。具体而言:
(1)由系统硬件运转能力确定适合的抽样样本量(N2),定义压缩比(M)为:
M=N1÷N2;
(2)将全体样本数据按某一顺序排列起来,标注唯一的序号;
(3)从前M个样本中随机的选出一个样本作为抽样样本,记其序号为k;
(4)将序号为k、k+M、k+2*M、…、k+(N2-1)*M的N2个样本作为抽样结果。
步骤4.2:数据聚类。
本步骤可以建立在任何一种公知的聚类分析算法结果之上,通过对抽样后的样本数据进行聚类分析,得到若干簇。
步骤4.3:降维指标选择。
针对抽样得到的N2个样本以及聚类获得的若干簇,可以通过后续的步骤计算降维指标(即“属性对相似性的影响力”),并根据“影响力”的排序来确定降维后保留的属性。本系统提供降维指标的选择,可选择的降维指标有:
降维指标1:属性辨识度指标;
降维指标2:属性重要性指标。
降维指标选择主要看待分析的问题中“样本量”因素是否重要,建议如下:
(1)如果“样本量”因素不重要,应选择属性辨识度指标给出影响力排序;
(2)如果“样本量”因素重要,应选择属性重要性指标给出影响力排序;
(3)如果想综合考虑上述两种情况,应结合这两个指标给出综合性的排序。
步骤4.4:降维指标计算。
计算降维指标,也就是计算每个属性“对相似性的影响力”,具体包括:属性辨识度和属性重要性,同时还需要计算两个过渡性的指标:属性值辨识度和属性值重要性。我们以案例为基础,说明这四项指标的主要计算步骤。系统将根据用户在步骤4.3中的选择情况计算相应的指标。
四项指标计算案例:
一个包含100人的研究样本,其中包含50名女性和50名男性,其中20人有前科。通过聚类分析获得了两个“簇”,其中“簇1”包含10个样本,绝大部分是犯有盗窃罪的人,而“簇2”包含90个样本,绝大部分是未犯有盗窃罪的人。其他数据如表1。
表1:四项指标计算案例
序号 | 样本量 | 性别 | 前科 | 类型 |
1 | 42 | 女 | 无 | 簇2 |
2 | 36 | 男 | 无 | 簇2 |
3 | 8 | 男 | 有 | 簇2 |
4 | 5 | 男 | 有 | 簇1 |
5 | 4 | 女 | 有 | 簇2 |
6 | 3 | 女 | 有 | 簇1 |
7 | 1 | 男 | 无 | 簇1 |
8 | 1 | 女 | 无 | 簇1 |
1.计算属性值相对某个簇的辨识度。
计算属性值的辨识度,也就是基于条件概率和贝叶斯算法的理论,计算哪些属性值对已知的标签取值有较大影响(定性)以及影响值多大(定量)。具体而言,用增加属性条件后的概率变化值,即条件概率值与概率值的差,来表示每个簇中每个属性值的辨识度。
具体到本案例,我们想研究哪些属性对样本是否犯有盗窃罪具有较大的影响力,从而实施有针对性的预防和干预工作。我们首先计算属性值相对某个簇的辨识度,以“簇1”为例。
对于这100人中的一个样本x,在属性未知的情况下,预测他(她)属于簇1的概率(可能性)是:P(x属于簇1)=10/100=10%。
情况1:对于“性别=女”这个属性,如果知道这个人x是女性,则x属于簇1的条件概率是:P(x属于簇1|x是女性)=4/50=8%,因为50名女性中有4人属于簇1,概率变化值为8%-10%=-2%。
情况2:对于“前科=有”这个属性,如果知道这个人x有前科,则x属于簇1的条件概率是:P(x属于簇1|x有前科)=8/20=40%,因为20名有前科的人中有8人属于簇1,概率变化值为40%-10%=30%。
比较情况1和情况2:“前科=有”这个属性值相对簇1的辨识度大于0,也就是具有该属性值的样本(条件概率),比无法判断是否具有该属性值的样本(无条件概率)属于簇1的可能性更大;“性别=女”这个属性值相对簇1的辨识度小于0,也就是具有该属性值的样本,比无法判断是否具有该属性值的样本属于簇1的可能性更小。进一步,“前科=有”这个属性值相对簇1的辨识度的绝对值要远远大于“性别=女”这个属性值,可以认为前者对判断样本是否属于簇1的影响力更大。
同理,可以计算出“性别=男”这个属性值相对簇1的辨识度为0.02,“前科=无”这个属性值相对簇1的辨识度为-0.075。进一步考虑“簇2”,可以计算得到:“性别=女”相对簇2的辨识度为0.02;“性别=男”相对簇2的辨识度为-0.02;“前科=有”相对簇2的辨识度为-0.3;“前科=无”相对簇2的辨识度为0.075。
2.计算属性值的辨识度。
对于样本具有的每一个属性值,将它相对所有的簇,都按照步骤2计算一个概率差值,即该属性值相对该簇的辨识度,再将这些辨识度取平方平均数,得到该属性值针对整个空间的辨识度。可见,“性别=女”和“性别=男”的辨识度均为0.02;“前科=有”的辨识度为0.3;“前科=无”的辨识度为0.075。
这样计算的属性值辨识度没有考虑属性值对应的样本量大小,可以很好的识别样本量很少但辨别能力很强的属性。落实到实践中,针对“前科=有”的群体开展预防和干预工作要比针对“性别=男”的群体开展工作具有更好的效果。而“前科=无”和“性别=女”的群体,属于簇1的可能性(可以近似的看成犯盗窃罪的可能性)小于平均值,不需要进行预防干预。
3.计算属性的辨识度。
利用步骤3,我们得到了属性值“性别=女”和“性别=男”对于两类簇划分(相似性)的辨识度,将两者的平方平均数定义为“性别”这一属性的辨识度,计算得0.02。同样的,将属性值“前科=有”和“前科=无”的辨识度的平方平均数定义为“前科”这一属性对于“簇”的辨识度,计算得0.2187。
4.计算属性值的重要性。
为了平衡属性值的辨别能力和对应的样本量,在“辨识度”概念的基础上定义“重要性”概念。粗略的说,属性值的重要性等于属性值的辨识度乘上属性值对应的样本量。
例如,属性值“性别=女”和“性别=男”的辨识度均为0.02,对应样本量均为50,重要性为1;属性值“前科=有”的辨识度为0.3,对应样本量为20,重要性为6;属性值“前科=无”的辨识度为0.075,对应样本量为80,重要性为6。更加细化的,我们还可以计算属性值相对于某个簇的重要性,例如,属性值“性别=女”相对簇1的重要性为-1;属性值“性别=男”相对簇1的重要性为1。
可见,由于对应样本量的差异,两着的辨识度差别较大但重要性差别较小,辨识度和重要性反映的信息存在不同。对于更复杂的情况,不同属性对应的的样本数量可能存在很大的差异,甚至常常造成辨识度较高但对应样本量较少的属性值的重要性低于辨识度较低但对应样本量较多的属性值。重要性指标可以用于较大范围的宣传教育工作,较好的平衡的针对性和覆盖面。落实到实践中,可以针对“前科=有”的群体开展犯罪危害的教育工作。
进一步的,当一个属性只有两个属性值时,两者对“簇”的重要性绝对值相同,这符合我们对“重要性”概念的一般认识,因为两个取值知道其中一个也就知道了另一个。
5.计算属性的重要性。
属性的重要性可以有两种定义,一种是通过属性值的重要性来计算,即“属性的重要性等于属性值的重要性的平方平均数”;一种是通过属性的辨识度来计算,即“属性的重要性等于属性的辨识度乘上属性对应的样本量”。由于每个属性对应的样本量都是样本总量,如果采用后者的定义,那么属性的重要性和辨识度概念则本质上是相同的,不利于建立多层次的属性影响力排序。因此,我们采用前一种定义方式。粗略的说,属性的重要性等于属性值的重要性的平方平均数。
在本例中,属性“性别”的重要性为1,属性“前科”的重要性为6。这个结果也是与我们的直观非常一致的。
步骤4.5:降维指标排序。
降维指标计算,也就是给出属性“对相似性的影响力”排序。根据步骤4.3中用户的选择以及步骤4.4中的相关指标计算结果,获得属性“对相似性的影响力”排序。
步骤4.6:大数据降维(维度选择)。
根据步骤4.5中给出的属性“对相似性的影响力”排序,根据实际需求设定影响力阈值,选择前D个属性或影响力大于该阈值的若干属性作为大数据降维后保留的属性,即维度选择。
步骤5:属性影响力指标计算。
针对降维后的全体样本数据,提取低维全体数据的“属性对相似性的影响力”四项指标。相对于直接提取高维全体数据的四项指标,有利于降低本系统的计算复杂度、提高分析效率。
步骤5.1:数据聚类。
本步骤可以建立在任何一种公知的聚类分析算法结果之上,通过对降维后的低维样本数据进行聚类分析,得到若干簇。
步骤5.2:划分指标计算。
我们可以将步骤5.1得到的“簇”作为已知的分类情况,计算“属性对相似性的影响力”指标,包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性等四项具体指标,具体的计算方法参见步骤4.4。
步骤6:属性影响力指标时间序列异常预警。
在每个时间段上对“属性对相似性的影响力”的四项指标分别排序,再对排序情况在时间序列上进行拐点分析。以属性值的辨识度为例,主要分析步骤如下:
1.绘制常态区域。
假设数据以4为周期,待研究的属性值连续三个周期的排序数据如表2:
表2:常态区域绘制案例
年份 | 时刻1 | 时刻2 | 时刻3 | 时刻4 |
第1周期 | 2 | 1 | 3 | 3 |
第2周期 | 3 | 4 | 3 | 2 |
第3周期 | 1 | 2 | 4 | 1 |
最低排序 | 3 | 4 | 4 | 3 |
最高排序 | 1 | 1 | 3 | 1 |
计算三个周期中每个时间点的最大值和最小值,将其范围确定为常态区域,则上面案例的数据可以绘制如图3所示的常态区域。
2.在新周期中发现第一次突破常态区域的数据值点。
基于常态区域对新的一个周期的数据进行时间序列预警,首先是要确定第一次突破常态区域的数值点。在案例中,假设在新的一个周期中,时刻1的数据为2,属于常态区域,即该数值点为“可控状态”。时刻2的数据为5,第一次突破了常态区域,从而该数值点为“监控状态”。相关人员应该密切关注数据在下个时间点的变动情况,是出现“回归”常态区域的趋势还是“更加远离”常态区域。
3.区分可控状态、监控状态和预警状态。
在新的一个周期中,时刻2的数据突破常态区域,进入“监控状态”,时刻3的数据的三种情况,分别对应可控状态(C点)、监控状态(B点)和预警状态(A点),如图4所示。
步骤7:预警信息发布。
本系统最后一个环节是将上述计算获得的预警信息,通过预警信息发布器反馈给用户。本系统可供客户选择的预警信息发布模式有两种:(1)发布预警状态;(2)发布监控状态和预警状态。
应用实例
本发明公开了一种基于聚类的大数据属性重要性和辨识度的时间序列预警方法及系统。本发明以降维处理后的四项指标分别排序,包括:属性值辨识度、属性辨识度、属性值重要性、属性重要性等,再将排序情况在时间序列上进行拐点分析。也就是根据各项指标在相应的时间段的数值绘制出常态区间和监控与预警区域,基本的模型形态如图5所示。
本发明已经运用于某地区的旅店住宿人员的态势分析中,以下是对指定时间段中23,147,419人的常态、异态计算和分析的相关结果,如图6所示,其中的较深色区域所表示的态势及实际数值完整地验证了真实的预警指标及对应的数据实体,经过实际的旅店住宿人员态势核查,在图中较深色区域表示的管控数据确实与真实的特定人群的迁移状态相吻合,有力的支撑了相关的管控行为。
Claims (7)
1.一种基于聚类的大数据属性重要性和辨识度的预警方法,其步骤为:
1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;
2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度和属性辨识度,和/或,属性值重要性和属性重要性;其中,所述属性降维指标包括属性辨识度和/或属性重要性;当选择属性辨识度作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值辨识度和属性辨识度;当选择属性重要性作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值重要性和属性重要性;当选择属性辨识度和属性重要性共同作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度、属性值重要性和属性重要性;
3)当选择属性辨识度作为属性降维指标时,根据属性值辨识度和属性辨识度对属性进行排序;当选择属性重要性作为属性降维指标时,根据属性值重要性和属性重要性对属性进行排序,当选择属性辨识度和属性重要性共同作为属性降维指标时,根据属性值辨识度、属性辨识度、属性值重要性和属性重要性对属性进行排序;然后选取排序靠前的若干属性作为大数据降维后保留的属性;
4)对属性降维后的全体样本数据进行聚类,将聚类得到的簇作为样本的标签,对样本进行标注;
5)计算步骤4)中已标注样本每一属性i的设定监控指标,然后根据属性i的每一设定监控指标在各个时间段的取值构建该属性i的各设定监控指标常态区域;所述设定监控指标为属性值辨识度和/或属性辨识度和/或属性值重要性和/或属性重要性;
6)计算该属性i当前时刻的设定监控指标的指标值,如果某一项设定监控指标值超出相应的常态区域,则对其进行监控并计算该项设定监控指标下一时刻的指标值,如果继续超出相应的常态区域,则对该属性i的该项设定监控指标进行预警;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
2.如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度。
3.如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
4.如权利要求1或2或3所述的方法,其特征在于采用基于条件概率和贝叶斯算法计算所述属性值辨识度。
5.一种基于聚类的大数据属性重要性和辨识度的预警系统,其特征在于包括多个终端服务器和一中央服务器,所述终端服务器通过网络与所述中央服务器连接;其中,所述中央服务器包括数据采集模块、数据降维模块、指标计算模块和预警分析模块;
所述数据采集模块,用于从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;
所述数据降维模块,用于从每一时间段的样本数据集中抽取若干样本构建一抽样样本集合并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度和属性辨识度,和/或,属性值重要性和属性重要性,并根据计算结果对属性进行排序,选取排序靠前的若干属性作为大数据降维后保留的属性;其中,所述属性降维指标包括属性辨识度和/或属性重要性;当选择属性辨识度作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值辨识度和属性辨识度;当选择属性重要性作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值重要性和属性重要性;当选择属性辨识度和属性重要性共同作为属性降维指标时,计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度、属性值重要性和属性重要性;当选择属性辨识度作为属性降维指标时,根据属性值辨识度和属性辨识度对属性进行排序;当选择属性重要性作为属性降维指标时,根据属性值重要性和属性重要性对属性进行排序,当选择属性辨识度和属性重要性共同作为属性降维指标时,根据属性值辨识度、属性辨识度、属性值重要性和属性重要性对属性进行排序;
所述指标计算模块,用于计算标注样本每一属性i的每一设定监控指标在各个时间段的取值;所述设定监控指标为属性值辨识度和/或属性辨识度和/或属性值重要性和/或属性重要性;
所述预警分析模块,用于根据属性i的每一设定监控指标在各个时间段的取值构建该属性i的各设定监控指标常态区域;如果属性i当前时刻的某一设定监控指标的指标值超出相应的常态区域,则对其进行监控并计算该项设定监控指标下一时刻的指标值,如果继续超出相应的常态区域,则对该属性i的该项设定监控指标进行预警;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
6.如权利要求5所述的系统,其特征在于对该属性i所有属性值的属性值辨识度的平方平均数作为该属性i的属性辨识度;对该属性i所有属性值的属性值重要性的平方平均数作为该属性i的属性重要性。
7.如权利要求5或6所述的系统,其特征在于采用基于条件概率和贝叶斯算法计算所述属性值辨识度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410356010.9A CN104123368B (zh) | 2014-07-24 | 2014-07-24 | 基于聚类的大数据属性重要性和辨识度的预警方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410356010.9A CN104123368B (zh) | 2014-07-24 | 2014-07-24 | 基于聚类的大数据属性重要性和辨识度的预警方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104123368A CN104123368A (zh) | 2014-10-29 |
CN104123368B true CN104123368B (zh) | 2017-06-13 |
Family
ID=51768779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410356010.9A Active CN104123368B (zh) | 2014-07-24 | 2014-07-24 | 基于聚类的大数据属性重要性和辨识度的预警方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123368B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915434B (zh) * | 2015-06-24 | 2018-03-27 | 哈尔滨工业大学 | 一种基于马氏距离dtw的多维时间序列分类方法 |
CN105427138A (zh) * | 2015-12-30 | 2016-03-23 | 芜湖乐锐思信息咨询有限公司 | 基于神经网络模型的产品市场占有率分析方法及系统 |
CN105654346A (zh) * | 2015-12-30 | 2016-06-08 | 芜湖乐锐思信息咨询有限公司 | 基于产品精细化运营的分析系统 |
CN106302522B (zh) * | 2016-09-20 | 2019-08-06 | 华侨大学 | 一种基于神经网络和大数据的网络安全态势分析方法和系统 |
US10528403B2 (en) * | 2017-10-30 | 2020-01-07 | MuleSoft, Inc. | Adaptive event aggregation |
CN110334721B (zh) * | 2018-03-30 | 2021-08-24 | 中国石油化工股份有限公司 | 一种基于大数据的油品质量分析系统 |
CN110322963B (zh) * | 2019-07-04 | 2024-01-30 | 成都新基因格生物科技有限公司 | 一种新生儿遗传代谢病检测分析方法、装置及系统 |
CN112988501B (zh) * | 2019-12-17 | 2023-02-03 | 深信服科技股份有限公司 | 一种告警信息生成方法、装置、电子设备及存储介质 |
CN111367777B (zh) * | 2020-03-03 | 2022-07-05 | 腾讯科技(深圳)有限公司 | 告警处理的方法、装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314519A (zh) * | 2011-10-11 | 2012-01-11 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
CN103854063A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种基于互联网开放信息的事件发生风险预测并预警方法 |
CN103888526A (zh) * | 2014-03-13 | 2014-06-25 | 无锡香象生物科技有限公司 | 基于物联网的稳频激光检测药品食品基因图谱管理系统 |
-
2014
- 2014-07-24 CN CN201410356010.9A patent/CN104123368B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314519A (zh) * | 2011-10-11 | 2012-01-11 | 中国软件与技术服务股份有限公司 | 一种基于公安领域知识本体模型的信息搜索方法 |
CN103854063A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种基于互联网开放信息的事件发生风险预测并预警方法 |
CN103888526A (zh) * | 2014-03-13 | 2014-06-25 | 无锡香象生物科技有限公司 | 基于物联网的稳频激光检测药品食品基因图谱管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104123368A (zh) | 2014-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123368B (zh) | 基于聚类的大数据属性重要性和辨识度的预警方法及系统 | |
CN104156403B (zh) | 一种基于聚类的大数据常态模式提取方法及系统 | |
CN104142986B (zh) | 一种基于聚类的大数据态势分析预警方法及系统 | |
CN104123465B (zh) | 一种基于聚类的大数据交叉分析预警方法及系统 | |
Yang et al. | CrimeTelescope: crime hotspot prediction based on urban and social media data fusion | |
CN108090800B (zh) | 一种基于玩家消费潜力的游戏道具推送方法和装置 | |
Lin et al. | Voices of victory: A computational focus group framework for tracking opinion shift in real time | |
CN109977132B (zh) | 一种基于无监督聚类模式的学生异常行为模式分析方法 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
CN112116464B (zh) | 基于事件序列频繁项集的异常交易行为分析方法和系统 | |
Zhao et al. | Analysis of users’ electricity consumption behavior based on ensemble clustering | |
CN104123466B (zh) | 一种基于常态模式的大数据态势分析预警方法及系统 | |
CN109086794A (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
Das et al. | Behavioural analysis of crime against women using a graph based clustering approach | |
CN101853428A (zh) | 远程特征咨询系统及方法 | |
Aviad et al. | A decision support method, based on bounded rationality concepts, to reveal feature saliency in clustering problems | |
CN111476438A (zh) | 一种用户用电量预测方法、系统以及设备 | |
CN109597944B (zh) | 一种基于深度信念网络的单分类微博谣言检测模型 | |
Sánchez-Pozo et al. | Predicting High School Students' Academic Performance: A Comparative Study of Supervised Machine Learning Techniques | |
Hartama et al. | Analysis of Silhouette Coefficient Evaluation with Euclidean Distance in the Clustering Method (Case Study: Number of Public Schools in Indonesia) | |
Park et al. | Exploring promising technology in ICT sector using patent network and promising index based on patent information | |
Saranya et al. | ENHANCED PREDICTION OF STUDENT DROPOUTS USING FUZZY INFERENCE SYSTEM AND LOGISTIC REGRESSION. | |
TW201640383A (zh) | 網路事件自動蒐集分析方法及系統 | |
KR102000663B1 (ko) | 빅데이터 및 인공지능을 활용한 이벤트 예측 시스템 및 그 방법 | |
CN103678709A (zh) | 一种基于时序数据的推荐系统攻击检测算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |