CN111008238B - 基于关联演化大数据的关键模式自动定位与预警方法 - Google Patents
基于关联演化大数据的关键模式自动定位与预警方法 Download PDFInfo
- Publication number
- CN111008238B CN111008238B CN201911118742.3A CN201911118742A CN111008238B CN 111008238 B CN111008238 B CN 111008238B CN 201911118742 A CN201911118742 A CN 201911118742A CN 111008238 B CN111008238 B CN 111008238B
- Authority
- CN
- China
- Prior art keywords
- data
- state
- probability
- patrol
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000002159 abnormal effect Effects 0.000 claims abstract description 27
- 238000007689 inspection Methods 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 230000007704 transition Effects 0.000 claims description 125
- 239000011159 matrix material Substances 0.000 claims description 74
- 239000013598 vector Substances 0.000 claims description 9
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000012550 audit Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 7
- 238000011835 investigation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于关联演化大数据的关键模式自动定位与预警方法,整体分为四个步骤,包括:S1,搭建多源异构巡视数据的三维扩展张量框架;S2,异构数据的动态因子概率化统一;S3,状态关联演化预估技术;S4,异常巡视数据的预警与定位。本发明分析与利用多源异构的纪检巡视巡查大数据对异常情况进行早期预警与定位,将巡视巡查收集到的多源异构数据施行动态因子概率化统一,将多源异构转变为多源同构;再基于离散随机过程原理对数据进行关联演化计算,得到数据演化的趋势;最后通过对张量化的演化概率进行阈值超限映射与三个层级的计算锁定可能发生异常的数据。
Description
技术领域
本发明涉及一种基于关联演化大数据的关键模式自动定位与预警方法。
背景技术
巡视数据是一类典型的多源异构大数据,其数据属性通常包含异常事件等级,组织单位分类,人员类别,权利类别,政策影响分类,物资量及流向,资金量及流向等。这些数据来自不同的数据源,且具有各种不同的数据结构,按传统大数据技术处理则具有较大的预处理难度。
关联数据分析一直是大数据技术的研究重点,按大数据类型主要分为简单关联分析,序列关联分析,因果关联分析等,相应的算法包括:
Apriori算法[Agrawal R,Imielinski T,Swami A.Database Mining:APerformance Perspective[J].IEEE Transactions on Knowledge&Data Engineering,2002,5(6):914-925.];
FP-tree算法[SongY Q,ZhuY Q,SunZ H,et al.AnAlgorithm and Its UpdatingAlgorithm Based on FP-Tree for Mining Maximum Frequent Itemsets[J].Journal ofSoftware,2003,14(9)];
CHARM算法[Nataraj R V,Selvan S.[ACM Press the 2nd Bangalore AnnualCompute Conference-Bangalore,India(2009.01.09-2009.01.10)]Proceedings ofthe2nd Bangalore Annual Compute Conference on 2nd Bangalore Annual ComputeConference-COMPUTE\"09-A framework for mining top-k frequent closed itemsetsusing orderpreserving generators[J].2009:1];
DIC算法等[熊伟.不完整关系数据库中关联规则挖掘问题的研究[D].华中师范大学,2000]。
这些算法相对成熟但是不具有演化能力,即他们能够分析出当前已存在数据中隐含的关联模式,但无法通过当前数据预测未来的关联模式,而巡视任务不仅需要对当前的海量数据进行关联分析,还需要对这些数据进行关联预测,提前对潜在出现风险的隐含关联模式进行定位与预警。
巡视巡查数据蕴含发现腐败的关键线索,由于数据源不同,在过去办案人员搜集到的巡视数据属性之间往往是独立的、割裂的。数据属性之间的隐含关联并不能较好提取,同时巡视工作除了发现问题,更有预防问题的需求,这就要求对数据的分析不仅是停留在分析已存在的隐含关联模式中,更要求通过已有数据,预测未来可能发生的案件,起到预防与震慑效果。
具体来看,巡视工作对巡视大数据的需求主要包含三个方面:1.发现数据中已存在的异常模式。2.预测将来可能发生的异常模式。3.异常模式自动定位。
发明内容
针对上述需求,本发明提出一种基于关联演化大数据的关键模式自动定位与预警方法,旨在建立一种利用巡视大数据对巡视对象进行数据结构统一、异常模式识别、预测、定位的快速且动实现方法。通过异构数据的动态因子概率化技术,将巡视数据的动态变化统一成概率估计,形成一个对整个调查对象多源数据状态转移的概率分布,再通过基于离散随机过程的状态转移趋势预估技术对调查对象的状态转移趋势进行预测,得到调查对象未来时间点上的状态概率分布,从而提前对对象的异常属性值进行定位与预警,最后通过阈值化映射技术,能够计算出预测到的异常模式及其发生位置。
本发明的技术方案是这样实现的:
一种基于关联演化大数据的关键模式自动定位与预警方法,包括以下步骤:
S1,搭建多源异构巡视数据的三维扩展张量框架;
S2,异构数据的动态因子概率化统一;
S3,状态关联演化预估技术;
S4,异常巡视数据的预警与定位。
优选地,步骤S1具体包括:
步骤1.1设置数据源集合
定义巡视源集
Wk={w1,w2,...,wk} (1)
其中,Wk表示一个包含k个数据源的巡视数据集合,wi,(1≤i≤k)表示其中第i,(1≤i≤k)个数据源的数据,它作为数据源的符号对巡视数据集合进行按源划分;步骤1.2生成同源数据矩阵
定义同源数据矩阵
其中,w1i,w2i,...表示第i个源的数据的不同属性,将其不同属性的值按列记录在矩阵中,这个矩阵被称为同源数据矩阵,矩阵的每一行代表一个元组;该矩阵的行数由属性值最多的属性决定,其行数等于该属性的值的个数;其余长度小于行数的列向量,对剩余位置补上空值元素。即m=max{m1,m2,...,mn},其中m1,m2,...,mn分别表示每个属性包含的元组数量;
步骤1.3将多源数据组成扩展张量
定义巡视数据的三维扩展张量
其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,其三个维度的值分别表示每个属性的元组个数,属性的个数,数据源的个数;张量中前两个维度定义了张量中每个数据源的规模,即一个切片矩阵的大小;最后一个维度定义了整个数据源的规模。
优选地,步骤S2具体包括:
步骤2.1划分属性值的状态
数据的属性值可以分为离散或连续两种类型,对于离散数据,其值域可划分为有限或无限个互不相容的子集,并根据具体问题定义子集为离散数据属性值的状态。同理对于连续数据,规定对值域划分后形成的子集为连续数据属性的状态。数据状态的划分方式可根据具体巡视对象来具体设置;
步骤2.2数据的状态转移
当属性值的状态发生变化时,即值从当前状态转移到下一个状态,称属性值发生了一次状态转移;需要注意的是,规定整个巡视工作经历单位时间段后,状态未发生变化也需要定义为数据发生了状态转移,只是数据转移到初始状态;
充分统计下的数据动态因子转移概率
其中,表示数据经历t次转移从状态S1转移到状态S2的概率,/>表示进行充分统计后数据转移到状态S2的次数占所有转移次数的频率,根据大数定理,该频率依概率P收敛于状态转移概率/>步骤2.3构建数据状态转移张量
按式(4)充分统计同一个数据源不同时间生成的每2个巡视数据扩展张量都可以被一一映射为一个数据状态转移张量,张量中的元素由概率值描述,每一个概率值代表巡视数据的扩展张量相应位置上的元素变化到一种新状态的概率;即
其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,TSm×n×k表示Tm×n×k在两个时间段内依概率P映射出的数据状态转移张量;其任意一个元素xijk代表第k数据源的对应位置元素的转移概率,且有0≤xijk<1;
需要注意的是其转移概率可发生在任意长度为t的时段上,t的时长可根据具体巡视审计问题设置,其三个维度的值分别表示每个属性的元组的个数、属性的个数、数据源的个数。
优选地,步骤S3具体包括:
步骤3.1构建状态转移矩阵
状态转移概率的状态s1与s2为任意给定,因此需要构造一种状态转移矩阵来描述这种概率在所有状态中转移时产生的概率分布,
定义状态转移矩阵
其中P代表状态转移概率矩阵,矩阵P第i行j列元素pij代表数据从状态i转移到状态j的概率;
步骤3.2状态关联演化计算
借助步骤3.1构建的状态转移概率矩阵,可以计算张量中每一元素的状态演化趋势,由切普曼-科尔莫戈诺夫方程可知一旦确定一步状态转移矩阵,就能计算出数据任意步演化后的状态转移矩阵;
定义步骤3.2对任意n+m步转移概率矩阵
其中,表示巡视数据从状态i经历m+n步后达到状态j的概率(即数据变化m+n次后到达新状态的概率),/>和/>表示巡视数据状态分别为i和k经历n和m步好分别转移达到状态k和j的概率;只要确定了初次巡视时刻为止之前的历史巡视数据的转移概率,就可以在不实际进行巡视的前提下直接估算出未来n+m步后的巡视数据的状态转移概率分布,
由式(8)可以发现,切普曼-科尔莫戈诺夫方程定义的多步巡查数据状态概率在数学形式上恰好等价于一步状态转移矩阵的幂,即估算经历n+m步巡查后的概率转移矩阵只需计算式(9):
由此可得在初始时刻
其中,表示初始0时刻的状态转移概率,其值等于状态转移矩阵P(0)在0时刻的i行j列元素;
由于在状态转移矩阵在构造时行数与列数恰好与状态编号一一对应,所以有i=s1,j=s2;同理,当进行m+n步巡查后,状态的估计值为
其中,表示m+n时刻的状态转移概率,其值等于状态转移矩阵P(m+n)在0时刻的i行j列元素;
可以发现,状态转移m+n步后得到矩阵是对巡视数据的转移概率演化趋势的估计,它用概率分布定量描述了这种演化结果的所有可能性。
优选地,步骤S4具体包括:
步骤4.1单属性巡视数据的状态预警模式
对单个属性而言,状态转移矩阵完整反映了其值的演化趋势,基于此可通过设定概率阈值的方式开启预警模式。对初始时刻处在第i状态的数据wi∈Tm×n×k,可计算出t步演化后其最有可能处在的数据状态和达到该状态的概率;
其中,xi表示数据wi对应的转移最大概率,它被定义成所有状态转移概率中最大的概率,此概率包含如下信息:第一,指明了在规定时长后最有可能达到的状态;第二,转移到这状态的概率值;
状态定位通过最大值在max()函数取出元素的向量位置索引确定,xs′→s″(t)表示属性值经历t步演化后,状态从s′变化到s″的概率;
步骤4.2巡视源集全局的阈值超限映射
对巡视数据扩展张量中每一个元素作阈值超限映射:
设定警戒阈值对TSm×n×k中属性列向量中任何属于阈值Rij的进行原值赋值,且令其他数据为0,即得到一个关于TSm×n×k的阈值映射张量TRm×n×k,即
其中,TSm×n×k为数据状态转移张量,TRm×n×k为其对应的阈值超限映射张量;R为阈值超限映射,此步骤中的阈值映射方式可根据实际巡视或审计问题来定义,但需要保证的共性原则是,不满足阈值限定范围的数据需要赋0值;
步骤4.3三层级的异常预警与定位方法
进行三步操作得到不同层级的预警信息:
第一步,对张量全体元素求和判断巡视的多源数据整体是否开启全局预警,
当H1>h1时开启异常预警,其中,h1>0表示全局预警阈值;其异常模式发生位置定位在整个数据源的全集上;
第二步,对张量中第α数据源所有元素求和判断第α数据源是否开启数据源局部预警,
当H2>h2时开启预警,其中,h2>0表示数据源局部预警阈值;其异常模式定位在巡视源集第α数据源上,异常状态发生在第α数据源内;
第三步,对源集第α数据源第β属性元素求和,判断该属性是否开启属性预警
当H3>h3时开启预警,其中,h3>0表示属性预警阈值;其异常模式定位在巡视源集第α数据第β属性上,异常发生位置为第α数据第β属性非0元素对应的转移最大概率所在位置索引上。
本发明属于多源异构纪检巡视数据和大数据模式识别技术的融合研究,通过动态因子概率化技术将多源异构的巡视数据统一成概率估计,形成一个对整个巡视多元数据对象的状态转移概率描述,再通过离散随机过程中的切普曼-科尔莫戈诺夫方程原理对调查对象进行状态转移趋势预算,得到调查对象未来时间点上的状态估计,从而提前对对象的异常属性进行三个层次的预警与定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为巡视数据的三维扩展张量示意图。
具体实施方式
下面将结合本发明实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示一种基于关联演化大数据的关键模式自动定位与预警方法,包括四个步骤。具体如下:
步骤1搭建多源异构巡视数据的三维扩展张量框架
步骤1.1设置数据源集合
定义1.1:巡视源集
Wk={w1,w2,...,wk} (1)
其中,Wk表示一个包含k个数据源的巡视数据集合,wi,(1≤i≤k)表示其中第i,(1≤i≤k)个数据源的数据,它作为数据源的符号对巡视数据集合进行按源划分。
步骤1.2生成同源数据矩阵
定义同源数据矩阵
其中,w1i,w2i,...表示第i个源的数据的不同属性,将其不同属性的值按列记录在矩阵中,这个矩阵被称为同源数据矩阵,矩阵的每一行代表一个元组。该矩阵的行数由属性值最多的属性决定,其行数等于该属性的值的个数。其余长度小于行数的列向量,对剩余位置补上空值元素。即m=max{m1,m2,...,mn},其中m1,m2,...,mn分别表示每个属性包含的元组数量。
步骤1.3将多源数据组成扩展张量
定义巡视数据的三维扩展张量
其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,其三个维度的值分别表示每个属性的元组个数,属性的个数,数据源的个数。张量中前两个维度定义了张量中每个数据源的规模,即一个切片矩阵的大小。最后一个维度定义了整个数据源的规模。张量示意图如图2所示.
通过步骤一,一组巡视源集被映射为一个三维扩展张量。一个巡视数据的三维扩展张量完整包含了该组巡视工作所采集到的多源数据信息。
步骤2异构数据的动态因子概率化统一
巡视数据来源于多种数据源,包含多种数据结构与单位,为了实现步骤1中数据的三维张量化,必须对数据结构与单位进行统一。异构数据的动态因子概率化技术主要思想是不再关注属性静态的值,转而考察属性的动态变化,并将这种动态变化用状态转移概率这种因子加以描述,当数据源中所有数据的变化被转化为动态因子的概率形式时,数据格式自然也被统一成概率。
步骤2.1划分属性值的状态
数据属性的值可以分为离散或连续两种类型,对于离散数据,其值域可划分为有限或无限个互不相容的子集,并根据具体问题定义子集为离散数据属性值的状态。同理对于连续数据,规定对值域划分后形成的子集为连续数据属性的状态。数据状态的划分方式可根据具体巡视对象来具体设置。
步骤2.2数据的状态转移
当属性值的状态发生变化时,即值从当前状态转移到下一个状态,称属性值发生了一次状态转移。需要注意的是,规定整个巡视工作经历单位时间段后,状态未发生变化也需要定义为数据发生了状态转移,只是数据转移到初始状态。
定义充分统计下的数据动态因子转移概率
其中,表示数据经历t次转移从状态S1转移到状态S2的概率,/>表示进行充分统计后数据转移到状态S2的次数占所有转移次数的频率,根据大数定理,该频率依概率P收敛于状态转移概率/>
步骤2.3构建数据状态转移张量
按式(4)充分统计同一个数据源不同时间生成的每2个巡视数据扩展张量都可以被一一映射为一个数据状态转移张量,张量中的元素由概率值描述,每一个概率值代表巡视数据的扩展张量相应位置上的元素变化到一种新状态的概率。即
其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,TSm×n×k表示Tm×n×k在两个时间段内依概率P映射出的数据状态转移张量。其任意一个元素xijk代表第k数据源的对应位置元素的转移概率,且有0≤xijk<1。需要注意的是其转移概率可发生在任意长度为t的时段上,t的时长可根据具体巡视审计问题设置。其三个维度的值分别表示每个属性的元组的个数,属性的个数,数据源的个数。
步骤3状态关联演化预估技术
步骤3.1构建状态转移矩阵
状态转移概率的状态s1与s2为任意给定,因此需要构造一种状态转移矩阵来描述这种概率在所有状态中转移时产生的概率分布。
定义3.1:状态转移矩阵
其中P代表状态转移概率矩阵,矩阵P第i行j列元素pij代表数据从状态i转移到状态j的概率。
步骤3.2状态关联演化计算
借助步骤3.1构建的状态转移概率矩阵,可以计算张量中每一元素的状态演化趋势。由切普曼-科尔莫戈诺夫方程(C-K方程)可知一旦确定一步状态转移矩阵,就能计算出数据任意步演化后的状态转移矩阵。
定义任意n+m步转移概率矩阵有(切普曼-科尔莫戈诺夫方程)
其中,表示巡视数据从状态i经历m+n步后达到状态j的概率(即数据变化m+n次后到达新状态的概率),/>和/>表示巡视数据状态分别为i和k经历n和m步好分别转移达到状态k和j的概率。只要确定了初次巡视时刻为止之前的历史巡视数据的转移概率,就可以在不实际进行巡视的前提下直接估算出未来n+m步后的巡视数据的状态转移概率分布。由式(8)可以发现,切普曼-科尔莫戈诺夫方程定义的多步巡查数据状态概率在数学形式上恰好等价于一步状态转移矩阵的幂,即估算经历n+m步巡查后的概率转移矩阵只需计算式(9)
由此可得在初始时刻
其中,表示初始0时刻的状态转移概率,其值等于状态转移矩阵P(0)在0时刻的i行j列元素。由于在状态转移矩阵在构造时行数与列数恰好与状态编号一一对应,所以有i=s1,j=s2。
同理,当进行m+n步巡查后,状态的估计值为
其中,表示m+n时刻的状态转移概率,其值等于状态转移矩阵P(m+n)在0时刻的i行j列元素。可以发现,状态转移m+n步后得到矩阵是对巡视数据的转移概率演化趋势的估计,它用概率分布定量描述了这种演化结果的所有可能性。对这种演化进行估计有两种作用:
第一,它是巡视巡查数据的隐含关联模式,能定量反映现阶段数据在任意状态下达到其它状态的趋势。
第二,它是对巡查数据演化趋势的定量预测,其多步演化后的概率分布能估计任意远时间后的状态转移情况。
步骤4异常巡视数据的预警与定位
步骤4.1单属性巡视数据的状态预警模式
对单个属性而言,状态转移矩阵完整反映了其值的演化趋势,基于此可通过设定概率阈值的方式开启预警模式。对初始时刻处在第i状态的数据wi∈Tm×n×k,可计算出t步演化后其最有可能处在的数据状态和达到该状态的概率
其中,xi表示数据wi对应的转移最大概率,它被定义成所有状态转移概率中最大的概率。此概率包含如下信息:
第一,指明了在规定时长后最有可能达到的状态。
第二,转移到这状态的概率值。
状态定位可通过最大值在max()函数取出元素的向量位置索引确定。xs′→s″(t)表示属性值经历t步演化后,状态从s′变化到s″的概率。
步骤4.2巡视源集全局的阈值超限映射
对巡视数据扩展张量中每一个元素作阈值超限映射:
设定警戒阈值对TSm×n×k中属性列向量中任何属于阈值Rij的进行原值赋值,且令其他数据为0,即得到一个关于TSm×n×k的阈值映射张量TRm×n×k,即
其中,TSm×n×k为数据状态转移张量,TRm×n×k为其对应的阈值超限映射张量。R为阈值超限映射,此步骤中的阈值映射方式可根据实际巡视或审计问题来定义,但需要保证的共性原则是,不满足阈值限定范围的数据需要赋0值.
步骤4.3三层级的异常预警与定位方法
可进行三步操作得到不同层级的预警信息。
第一步,对张量全体元素求和判断巡视的多源数据整体是否开启全局预警。
当H1>h1时开启异常预警,其中,h1>0表示全局预警阈值。其异常模式发生位置定位在整个数据源的全集上。
第二步,对张量中第α数据源所有元素求和判断第α数据源是否开启数据源局部预警
当H2>h2时开启预警,其中,h2>0表示数据源局部预警阈值。其异常模式定位在巡视源集第α数据源上。异常状态发生在第α数据源内。
第三步,对源集第α数据源第β属性元素求和,判断该属性是否开启属性预警
当H3>h3时开启预警,其中,h3>0表示属性预警阈值。其异常模式定位在巡视源集第α数据第β属性上。异常发生位置为第α数据第β属性非0元素对应的转移最大概率所在位置索引上。
由此,在巡视源集中任何位置所关联的实体的状态变化模式都将被计算出来,超过阈值规则的异常值能够快速被提前定位出来,这是由于这种模式提取方式是一种基于离散随机过程对未来的估计。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于关联演化大数据的关键模式自动定位与预警方法,其特征在于,包括以下步骤:
S1,搭建多源异构巡视数据的三维扩展张量框架;
S2,异构数据的动态因子概率化统一;
S3,状态关联演化预估技术;
S4,异常巡视数据的预警与定位;
步骤S1具体包括:
步骤1.1:设置数据源集合;
定义巡视源集
Wk={w1,w2,...,wk} (1)
其中,Wk表示一个包含k个数据源的巡视数据集合,wi,(1≤i≤k)表示其中第i,(1≤i≤k)个数据源的数据,它作为数据源的符号对巡视数据集合进行按源划分;步骤1.2:生成同源数据矩阵;
定义同源数据矩阵
其中,w1i,w2i,...表示第i个源的数据的不同属性,将其不同属性的值按列记录在矩阵中,这个矩阵被称为同源数据矩阵,矩阵的每一行代表一个元组;该矩阵的行数由属性值最多的属性决定,其行数等于该属性的值的个数;其余长度小于行数的列向量,对剩余位置补上空值元素;即m=max{m1,m2,...,mn},其中m1,m2,...,mn分别表示每个属性包含的元组数量;
步骤1.3:将多源数据组成扩展张量;
定义巡视数据的三维扩展张量
其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,其三个维度的值分别表示每个属性的元组个数,属性的个数,数据源的个数;张量中前两个维度定义了张量中每个数据源的规模,即一个切片矩阵的大小;最后一个维度定义了整个数据源的规模;
步骤S2具体包括:
步骤2.1:划分属性值的状态;
数据的属性值可以分为离散或连续两种类型,对于离散数据,其值域可划分为有限或无限个互不相容的子集,并根据具体问题定义子集为离散数据属性值的状态;同理对于连续数据,规定对值域划分后形成的子集为连续数据属性的状态;数据状态的划分方式可根据具体巡视对象来具体设置;
步骤2.2:数据的状态转移;
当属性值的状态发生变化时,即值从当前状态转移到下一个状态,称属性值发生了一次状态转移;需要注意的是,规定整个巡视工作经历单位时间段后,状态未发生变化也需要定义为数据发生了状态转移,只是数据转移到初始状态;
充分统计下的数据动态因子转移概率
其中,表示数据经历t次转移从状态S1转移到状态S2的概率,/>表示进行充分统计后数据转移到状态S2的次数占所有转移次数的频率,根据大数定理,该频率依概率P收敛于状态转移概率/>
步骤2.3:构建数据状态转移张量;
按式(4)充分统计同一个数据源不同时间生成的每2个巡视数据扩展张量都可以被一一映射为一个数据状态转移张量,张量中的元素由概率值描述,每一个概率值代表巡视数据的扩展张量相应位置上的元素变化到一种新状态的概率;即
其中,Tm×n×k表示一个维度为m×n×k的多源巡视数据三维扩展张量,TSm×n×k表示Tm×n×k在两个时间段内依概率P映射出的数据状态转移张量;其任意一个元素xijk代表第k数据源的对应位置元素的转移概率,且有0≤xijk<1;
需要注意的是其转移概率可发生在任意长度为t的时段上,t的时长可根据具体巡视审计问题设置,其三个维度的值分别表示每个属性的元组的个数、属性的个数、数据源的个数;
步骤S3具体包括:
步骤3.1:构建状态转移矩阵;
状态转移概率的状态s1与s2为任意给定,因此需要构造一种状态转移矩阵来描述这种概率在所有状态中转移时产生的概率分布,
定义状态转移矩阵
其中P代表状态转移概率矩阵,矩阵P第i行j列元素pij代表数据从状态i转移到状态j的概率;
步骤3.2:状态关联演化计算;
借助步骤3.1构建的状态转移概率矩阵,可以计算张量中每一元素的状态演化趋势,由切普曼-科尔莫戈诺夫方程可知一旦确定一步状态转移矩阵,就能计算出数据任意步演化后的状态转移矩阵;
定义步骤3.2对任意n+m步转移概率矩阵
其中,表示巡视数据从状态i经历m+n步后达到状态j的概率,即数据变化m+n次后到达新状态的概率,/>和/>表示巡视数据状态分别为i和k经历n和m步好分别转移达到状态k和j的概率;只要确定了初次巡视时刻为止之前的历史巡视数据的转移概率,就可以在不实际进行巡视的前提下直接估算出未来n+m步后的巡视数据的状态转移概率分布,
由式(8)可以发现,切普曼-科尔莫戈诺夫方程定义的多步巡查数据状态概率在数学形式上恰好等价于一步状态转移矩阵的幂,即估算经历n+m步巡查后的概率转移矩阵只需计算式(9):
由此可得在初始时刻
其中,表示初始0时刻的状态转移概率,其值等于状态转移矩阵P(0)在0时刻的i行j列元素;
由于在状态转移矩阵在构造时行数与列数恰好与状态编号一一对应,所以有i=s1,j=s2;同理,当进行m+n步巡查后,状态的估计值为
其中,表示m+n时刻的状态转移概率,其值等于状态转移矩阵P(m+n)在0时刻的i行j列元素;
可以发现,状态转移m+n步后得到矩阵是对巡视数据的转移概率演化趋势的估计,它用概率分布定量描述了这种演化结果的所有可能性;
步骤S4具体包括:
步骤4.1:单属性巡视数据的状态预警模式;
对单个属性而言,状态转移矩阵完整反映了其值的演化趋势,基于此可通过设定概率阈值的方式开启预警模式;对初始时刻处在第i状态的数据wi∈Tm×n×k,可计算出t步演化后其最有可能处在的数据状态和达到该状态的概率;
其中,xi表示数据wi对应的转移最大概率,它被定义成所有状态转移概率中最大的概率,此概率包含如下信息:第一,指明了在规定时长后最有可能达到的状态;第二,转移到这状态的概率值;
状态定位通过最大值在max()函数取出元素的向量位置索引确定,xs′→s″(t)表示属性值经历t步演化后,状态从s′变化到s″的概率;
步骤4.2:巡视源集全局的阈值超限映射;
对巡视数据扩展张量中每一个元素作阈值超限映射:
设定警戒阈值对TSm×n×k中属性列向量中任何属于阈值Rij的进行原值赋值,且令其他数据为0,即得到一个关于TSm×n×k的阈值映射张量TRm×n×k,即
其中,TSm×n×k为数据状态转移张量,TRm×n×k为其对应的阈值超限映射张量;R为阈值超限映射,此步骤中的阈值映射方式可根据实际巡视或审计问题来定义,但需要保证的共性原则是,不满足阈值限定范围的数据需要赋0值;
步骤4.3:三层级的异常预警与定位方法;
进行三步操作得到不同层级的预警信息:
第一步,对张量全体元素求和判断巡视的多源数据整体是否开启全局预警,
当H1>h1时开启异常预警,其中,h1>0表示全局预警阈值;其异常模式发生位置定位在整个数据源的全集上;
第二步,对张量中第α数据源所有元素求和判断第α数据源是否开启数据源局部预警,
当H2>h2时开启预警,其中,h2>0表示数据源局部预警阈值;其异常模式定位在巡视源集第α数据源上,异常状态发生在第α数据源内;
第三步,对源集第α数据源第β属性元素求和,判断该属性是否开启属性预警
当H3>h3时开启预警,其中,h3>0表示属性预警阈值;其异常模式定位在巡视源集第α数据第β属性上,异常发生位置为第α数据第β属性非0元素对应的转移最大概率所在位置索引上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911118742.3A CN111008238B (zh) | 2019-11-15 | 2019-11-15 | 基于关联演化大数据的关键模式自动定位与预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911118742.3A CN111008238B (zh) | 2019-11-15 | 2019-11-15 | 基于关联演化大数据的关键模式自动定位与预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111008238A CN111008238A (zh) | 2020-04-14 |
CN111008238B true CN111008238B (zh) | 2023-10-10 |
Family
ID=70112638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911118742.3A Active CN111008238B (zh) | 2019-11-15 | 2019-11-15 | 基于关联演化大数据的关键模式自动定位与预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008238B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012008184A1 (ja) * | 2010-07-14 | 2012-01-19 | 学校法人早稲田大学 | 隠れマルコフモデルの推定方法,推定装置および推定プログラム |
JP2015187773A (ja) * | 2014-03-26 | 2015-10-29 | 公立大学法人大阪市立大学 | データ解析装置、データ解析プログラム及びデータ解析方法 |
CN107085544A (zh) * | 2017-04-19 | 2017-08-22 | 国家电网公司 | 一种系统错误定位方法及装置 |
CN107742193A (zh) * | 2017-11-28 | 2018-02-27 | 江苏大学 | 一种基于时变状态转移概率马尔可夫链的行车风险预测方法 |
CN107807860A (zh) * | 2017-10-12 | 2018-03-16 | 国网湖南节能服务有限公司 | 一种基于矩阵分解的电力故障分析方法及系统 |
CN107958269A (zh) * | 2017-11-28 | 2018-04-24 | 江苏大学 | 一种基于隐马尔可夫模型的行车危险度预测方法 |
CN108132423A (zh) * | 2017-12-14 | 2018-06-08 | 武汉大学 | 一种基于状态转移概率电力系统监测数据失真的快速定位方法 |
CN109376877A (zh) * | 2018-10-11 | 2019-02-22 | 华自科技股份有限公司 | 设备运维预警方法、装置、计算机设备和存储介质 |
CN110290120A (zh) * | 2019-06-12 | 2019-09-27 | 西安邮电大学 | 一种云平台的时序演化网络安全预警方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6975962B2 (en) * | 2001-06-11 | 2005-12-13 | Smartsignal Corporation | Residual signal alert generation for condition monitoring using approximated SPRT distribution |
US7881868B2 (en) * | 2007-06-12 | 2011-02-01 | Palo Alto Research Center Incorporated | Dual assessment for early collision warning |
US8412649B2 (en) * | 2009-12-29 | 2013-04-02 | Mitsubishi Electric Research Laboratories, Inc. | Method for converting dynamical systems with continuous states into Markov decision processes with discrete states |
US10270642B2 (en) * | 2012-12-05 | 2019-04-23 | Origin Wireless, Inc. | Method, apparatus, and system for object tracking and navigation |
CN106897505B (zh) * | 2017-02-13 | 2020-10-13 | 大连理工大学 | 一种考虑时-空相关性的结构监测数据异常识别方法 |
EP3686840A4 (en) * | 2017-09-21 | 2020-10-28 | Adacotech Incorporated | ANOMALY DETECTION APPARATUS AND ANOMALY DETECTION METHOD |
-
2019
- 2019-11-15 CN CN201911118742.3A patent/CN111008238B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012008184A1 (ja) * | 2010-07-14 | 2012-01-19 | 学校法人早稲田大学 | 隠れマルコフモデルの推定方法,推定装置および推定プログラム |
JP2015187773A (ja) * | 2014-03-26 | 2015-10-29 | 公立大学法人大阪市立大学 | データ解析装置、データ解析プログラム及びデータ解析方法 |
CN107085544A (zh) * | 2017-04-19 | 2017-08-22 | 国家电网公司 | 一种系统错误定位方法及装置 |
CN107807860A (zh) * | 2017-10-12 | 2018-03-16 | 国网湖南节能服务有限公司 | 一种基于矩阵分解的电力故障分析方法及系统 |
CN107742193A (zh) * | 2017-11-28 | 2018-02-27 | 江苏大学 | 一种基于时变状态转移概率马尔可夫链的行车风险预测方法 |
CN107958269A (zh) * | 2017-11-28 | 2018-04-24 | 江苏大学 | 一种基于隐马尔可夫模型的行车危险度预测方法 |
CN108132423A (zh) * | 2017-12-14 | 2018-06-08 | 武汉大学 | 一种基于状态转移概率电力系统监测数据失真的快速定位方法 |
CN109376877A (zh) * | 2018-10-11 | 2019-02-22 | 华自科技股份有限公司 | 设备运维预警方法、装置、计算机设备和存储介质 |
CN110290120A (zh) * | 2019-06-12 | 2019-09-27 | 西安邮电大学 | 一种云平台的时序演化网络安全预警方法 |
Non-Patent Citations (1)
Title |
---|
王前领.马尔可夫链理论在滑坡预警中的应用研究.中国优秀硕士学位论文全文数据库_基础科学辑.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111008238A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10025813B1 (en) | Distributed data transformation system | |
Abdelhamid et al. | Incremental frequent subgraph mining on large evolving graphs | |
CN100412871C (zh) | 生成用于自动化系统管理的领域知识的系统和方法 | |
US20190079965A1 (en) | Apparatus and method for real time analysis, predicting and reporting of anomalous database transaction log activity | |
Cai et al. | Arm-net: Adaptive relation modeling network for structured data | |
Raza et al. | Autonomic performance prediction framework for data warehouse queries using lazy learning approach | |
Yan et al. | Big-data-driven based intelligent prognostics scheme in industry 4.0 environment | |
Jaribion et al. | [WiP] a novel method for big data analytics and summarization based on fuzzy similarity measure | |
Hartmann et al. | Model-driven analytics: Connecting data, domain knowledge, and learning | |
Seol et al. | Reduction of association rules for big data sets in socially-aware computing | |
Mayer et al. | Streamlearner: Distributed incremental machine learning on event streams: Grand challenge | |
Song et al. | Memto: Memory-guided transformer for multivariate time series anomaly detection | |
CN115965160B (zh) | 一种数据中心能耗预测方法、装置、存储介质及电子设备 | |
CN111008238B (zh) | 基于关联演化大数据的关键模式自动定位与预警方法 | |
Tang et al. | Bayesian network structure learning from big data: A reservoir sampling based ensemble method | |
Aljibawi et al. | A survey on clustering density based data stream algorithms | |
Ansarifar et al. | A novel algorithm for adaptive data stream clustering | |
Mirzaie et al. | State of the art on quality control for data streams: A systematic literature review | |
Cuzzocrea et al. | Machine-Learning-Based Multidimensional Big Data Analytics over Clouds via Multi-Columnar Big OLAP Data Cube Compression | |
Song et al. | Anomaly detection in spacecraft telemetry data using graph convolution networks | |
Liu et al. | Earthquake prediction based on spatial-temporal data mining | |
Sun et al. | An artificial intelligence-based real-time monitoring framework for time series | |
Yeh et al. | RPMixer: Shaking Up Time Series Forecasting with Random Projections for Large Spatial-Temporal Data | |
Wu et al. | A contextual information-augmented probabilistic case-based reasoning model for knowledge graph reasoning | |
Cuzzocrea | Advanced Machine Learning Structures over Big Data Repositories: Definitions, Models, Properties, Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |