CN105719006A - 基于流特征的因果结构学习方法 - Google Patents

基于流特征的因果结构学习方法 Download PDF

Info

Publication number
CN105719006A
CN105719006A CN201610032838.8A CN201610032838A CN105719006A CN 105719006 A CN105719006 A CN 105719006A CN 201610032838 A CN201610032838 A CN 201610032838A CN 105719006 A CN105719006 A CN 105719006A
Authority
CN
China
Prior art keywords
feature
kth
assigned
perform
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610032838.8A
Other languages
English (en)
Other versions
CN105719006B (zh
Inventor
杨静
安宁
郭晓雪
丁会通
李廉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201610032838.8A priority Critical patent/CN105719006B/zh
Publication of CN105719006A publication Critical patent/CN105719006A/zh
Application granted granted Critical
Publication of CN105719006B publication Critical patent/CN105719006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于流特征的因果结构学习方法,其特征是按如下步骤进行:1、以流的方式产生分布任意的新特征;2、对每个新产生的特征,进行相关性分析;3、对特征集进行冗余校验分析;4、基于每个特征进行搜索定向。重复1,2,3,4步骤,直至产生的特征数超过极限值,最终可以获得对应的因果结构。本发明能够从具有流特征的线性任意分布的数据中发现蕴含的因果结构关系,同时降低学习的时间复杂度,从而满足在线学习的时效性要求。

Description

基于流特征的因果结构学习方法
技术领域
本发明属于数据挖掘领域,具体地说是面向线性任意分布数据的基于流特征的因果结构学习方法。
背景技术
随着社会进步和科技发展,人们需要认识的事物变得越来越复杂,系统内部的因果关系是客观存在的,因果结构学习就是从数据中挖掘蕴含的因果结构关系,可以帮助人们认清复杂事物的本质与规律。因果结构学习渗入到生物、医学、经济、自动控制、信息处理等各个学科,涉及到日常生活、工业生产、军事国防等各个方面。
现实生活中很多变量的分布往往是非高斯的。例如:脑磁图(MEG,magnetoencephalographic)源的值并不一定符合标准的高斯分布,不同的脑磁图源间的因果关系使用非高斯的因果模型分析更为适合;铜陵矿区土壤元素样品数据有些不符合高斯分布;股票指数并不一定符合高斯分布,使用非高斯的因果模型更能揭示不同区域股票指数间的因果关系;在证券投资中,投资收益率的分布也很多情况下是符合非高斯分布的;社会学中,研究变量的分布也并非一定符合高斯分布等等。
在很多情况下,数据还具有高维或流的特征。在图像处理领域,图像的特征维数非常高从而无法一次载入内存;在火星的弹坑(Crater)检测中,纹理特征也是非常庞大并且以流的方式顺序产生;在统计关系学习领域,一个SQL查询可能导致产生上百万的特征,并且这些特征以流的方式顺序产生;在生物学领域,基因表达数据也具有高维特性等等。并且,这些数据往往也是非线性非高斯的。
国内外的学者也提出了一系列的因果结构学习算法,典型的贝叶斯网络结构学习方法包括基于搜索打分(Search-And-Score)的方法、基于依赖分析(ConstrainedBased)的方法和两者混合的方法,如SGS算法、PC算法、TPDA算法、K2算法]、OR算法、SC算法]、MMHC算法等等。然而,大多数的结构学习算法是基于离散数据进行研究的,不能有效地处理连续数据。近年来,对连续数据进行因果发现研究已成为一个新的研究热点,也涌现了很多方法。如L1MB算法,TC算法,ICA-LiNGAM算法,PClingam算法,HP算法,Two-Phase算法,DirectLiNGAM算法,PCB算法等。
目前经典的因果结构学习方法都不能有效的处理具有流特征的线性任意分布的连续数据,这些方法的主要局限包括:
(1)面向线性任意分布的结构学习算法多数属于基于依赖分析的方法,该方法为了判断两特征间是否相关,需要在大量的子集上进行独立性测试,导致需要较多的独立性测试,从而需要耗费很多的时间,计算复杂度比较大;
(2)面向线性任意分布的结构学习算法一般假设可以事先获得所有的数据,不能处理具有流特征的数据,即特征逐个流入,从而不能有效的处理动态、未知的特征空间下的因果结构学习问题。
发明内容
本发明为克服现有技术存在的不足之处,提出了一种基于流特征的因果结构学习方法,以期能够从具有流特征的线性任意分布的数据中发现蕴含的因果结构关系,同时降低学习的时间复杂度,从而满足在线学习的时效性要求。
本发明为解决技术问题采用如下技术方案:
本发明一种基于流特征的因果结构学习方法的特点是按如下步骤进行:
步骤1、定义时刻t;并初始化t=0;定义特征个数极限值为max;
步骤2、定义特征集为EF,并初始化第t时刻的特征集为
步骤3、定义变量j;并初始化j=1;
步骤4、判断j≤max是否成立,若成立,随机产生第j个特征Xj,第j个特征Xj具有m个取值;并初始化第j个特征Xj的马尔科夫毯MB(Xj)为空、初始化第j个特征Xj的新增特征集FA(Xj)为空、初始化第j个特征Xj的冗余特征集FD(Xj)为空;并执行步骤5;若不成立,结束算法并退出;
步骤5、判断j=1是否成立,若成立,则将所述第j个特征Xj加入所述第t时刻的特征集EFt中,从而获得第t+1时刻的特征集EFt+1;并将t+1赋值给t、将j+1赋值给j后,返回步骤4;若不成立,则执行步骤6;
步骤6、对所述第j个特征Xj进行相关性分析;
步骤7、判断所述第j个特征Xj的马尔科夫毯MB(Xj)是否为空集,若为空集,则返回步骤4;若不为空集,将第j个特征Xj加入所述第t时刻的特征集EFt中,获得第t+1时刻的特征集EFt+1=EFt∪Xj;并将t+1赋值给t后,执行步骤8;
步骤8、定义变量k;并初始化k=1;
步骤9、对所述第t时刻的特征集EFt的第k个特征Xk进行冗余校验分析;
步骤10、将k+1赋值给k;并判断k>j是否成立,若成立,则执行11;若不成立,则返回步骤9执行;
步骤11、定义变量count;并初始化count=0;初始化k=1;
步骤12、判断所述第k个特征Xk的马尔科夫毯MB(Xk)是否为空集,若为空集,则从所述第t时刻的特征集EFt中删除所述第k个特征Xk后,将count+1赋值给count后,执行步骤13;若不为空集,则直接执行步骤13;
步骤13、将k+1赋值给k后;判断k>j是否成立,若成立,则将j-count赋值给j后,获得更新的第t时刻的特征集EFt′,记为EFt'={X1,X2,...,Xi,...Xj};Xi表示更新的第t时刻的特征集EFt′中第i个特征向量;1≤i≤j,并有,表示第i个特征向量Xi具有m个取值;表示第i个特征向量Xi中第v个取值;1≤v≤m;由构成第v个实例;从而获得由m个实例组成的数据集D,记为D={sam1,sam2,...,samv,...,samm};并执行步骤14;若不成立,则返回步骤12执行;
步骤14、初始化i=1;
步骤15、对于第t时刻的特征集EFt′中第i个特征Xi,如果第i个特征Xi的新增特征集FA(Xi)不为空或第i个特征Xi的冗余特征集FD(Xi)不为空,则基于第i个特征Xi进行搜索定向,得到第i个特征Xi家族的MDL评分和对应的局部因果结构;
步骤16、将i+1赋值给i;并判断i>j是否成立,若成立,则执行步骤17;若不成立,则返回步骤15执行;
步骤17、获得网络G中所有j个特征的总评分MDL(G)和对应的全局因果结构;
M D L ( G ) = Σ i = 1 j ( R S S ( X i , P a ( X i ) , θ ^ i m l e ) + | θ ^ i m l e | 2 log m ) - - - ( 1 )
式(1)中,Pa(Xi)表示第i个特征Xi的父特征集,表示与i个特征Xi的父特征集Pa(Xi)一一对应的权值向量;表示第i个特征Xi在具有父特征集Pa(Xi)和参数时的家族MDL评分;
步骤18、将j+1赋值给j,返回步骤4。
本发明所述的基于流特征的因果结构学习方法的特点也在于,
所述步骤6中在线的相关性分析是按如下步骤进行:
步骤6.1、设置依赖度阈值α;
步骤6.2、设置V=EFt∪Xj,求出V的相关系数矩阵R;所述相关系数矩阵R中的任一元素记为Rpq,表示第p个特征Xp和第q个特征Xq的相关系数,1≤p≤j,1≤q≤j;
步骤6.3、求出相关系数矩阵R的逆矩阵W;
步骤6.4、定义变量k;并初始化k=1;定义变量θ;
步骤6.5、计算第j个特征Xj和第k个特征Xk的依赖程度,并用偏相关系数ρjk表示;
步骤6.6、计算偏相关系数ρjk的标准误:
步骤6.7、计算第j个特征Xj和第k个特征Xk的t统计量:
步骤6.8、计算第j个特征Xj和第k个特征Xk的p-value值:Φ是t分布的累积分布函数,将p-value(Xj,Xk)赋值给θ;
步骤6.9、判断θ≤α是否成立,若成立,说明第j个特征Xj与第k个特征Xk相关,则执行步骤6.10;若不成立;说明第j个特征Xj与第k个特征Xk不相关,则执行步骤6.11;
步骤6.10、把第j个特征Xj加到第k个特征Xk的马尔科夫毯MB(Xk),即MB(Xk)=MB(Xk)∪Xj,将第j个特征Xj加入所述新增特征集FA(Xk)中,即FA(Xk)={Xj},从而更新第k个特征Xk的马尔科夫毯MB(Xk)和新增特征集FA(Xk);同时把第k个特征Xk加到第j个特征Xj的马尔科夫毯MB(Xj),即MB(Xj)=MB(Xj)∪Xk,将第k个特征Xk加入所述新增特征集FA(Xj)中,即FA(Xj)={Xk},从而更新第j个特征Xj的马尔科夫毯MB(Xj)和新增特征集FA(Xj);并执行步骤6.11;
步骤6.11、将k+1赋值给k,并判断k>j-1是否成立,若成立,则执行步骤7;若不成立,则返回步骤6.5执行;
步骤9在线的冗余校验分析是按如下步骤进行:
步骤9.1、设置冗余度阈值β;计算第k个特征Xk的马尔科夫毯MB(Xk)中的特征个数,记为Sk
步骤9.2、定义变量s;并初始化s=1;定义变量σ;
步骤9.3、获取所述马尔科夫毯MB(Xk)第s个特征的下标记为τs
步骤9.4、计算第τs个特征和第k个特征Xk的冗余程度,并用偏相关系数表示
步骤9.5、计算偏相关系数标准误:
步骤9.6、计算第τs个特征和第k个特征Xk的t统计量:
步骤9.7、计算第τs个特征和第k个特征Xk的p-value值:赋值给σ;
步骤9.8、判断σ>β是否成立,若成立,说明第τs个特征和第k个特征Xk冗余,则执行步骤9.9;若不成立;说明第τs个特征和第k个特征Xk不冗余,则执行步骤9.10;
步骤9.9、从所述第k个特征Xk的马尔科夫毯MB(Xk)中删除所述第τs个特征并将第τs个特征加入所述第k个特征Xk的冗余特征集FD(Xk)中,即从所述第τs个特征的马尔科夫毯中删除所述第k个特征Xk并将第k个特征Xk加入所述第τs个特征的冗余特征集 F D ( X τ s ) = F D ( X τ s ) ∪ { X k } ;
步骤9.10、将s+1赋值给s;并判断s>Sk是否成立,若成立,则执行步骤10;若不成立,则返回步骤9.3执行。
所述步骤15的搜索定向是按如下步骤进行:
步骤15.1、设置家族评分LminScore=inf,inf表示无穷大的值;
步骤15.2、从第i个特征Xi的马尔科夫毯的集合MB(Xi)任选一个特征Xg,令Xg作为第i个特征Xi的父特征:Pa(Xi)={Xg};并将Xg从MB(Xi)中删除;
步骤15.3、利用式(2)计算第i个特征Xi家族的MDL评分
R S S ( X i , P a ( X i ) , θ ^ i m l e ) = Σ k = 1 m ( x k i - ( θ ^ i m l e ) T p a ( x k i ) ) 2 - - - ( 2 )
式(2)中,权值向量用最小二乘法估计获得;xki表示第i个特征Xi在第k个实例的实际取值,pa(xki)表示第i个特征Xi的父特征集Pa(Xi)在第k个实例的实际取值向量,的转置向量;表示第i个特征Xi在其父特征集Pa(Xi)取值为pa(xki)和权值为时所得出的预测值;
步骤15.4、计算第i个特征Xi的马尔科夫毯的集合MB(Xi)的特征个数,并赋值给countMB;计算第i个特征Xi的父特征集Pa(Xi)的特征个数,并赋值给countPA;
步骤15.5、定义变量p;并初始化p=1;定义数组AddMDL(countMB);
步骤15.6、假设选择马尔科夫毯的集合MB(Xi)的第p个特征作为第i个特征Xi的父特征,并利用式(2)计算第i个特征Xi的家族的MDL评分;并赋值给AddMDL(p);
步骤15.7、将p+1赋值给p;并判断p>countMB是否成立,若成立,则执行步骤15.8;若不成立,则返回步骤15.6执行;
步骤15.8、初始化p=1;定义数组DelMDL(countPA);
步骤15.9、假设从父特征集Pa(Xi)删除第p个特征得到新的父特征集合Pa(Xi)',使用式(2)计算第i个特征Xi的家族的MDL评分;并赋值给DelMDL(p);
步骤15.10、将p+1赋值给p;并判断p>countPA是否成立,若成立,则执行步骤15.11;若不成立,则返回步骤15.9执行;
步骤15.11、从数组AddMDL(countMB)和数组DelMDL(countPA)中选择最小值,并赋给变量TempMin;
步骤15.12、判断TempMin<LminScore是否成立,如果成立,将TempMin赋值给LminScore后,以最小值所对应的添加或删除操作来更新MB(Xi)和Pa(Xi),并返回步骤15.4;如果不成立,则说明评分收敛即LminScore不再发生变化,则结束基于该特征Xi的搜索定向,执行步骤16。
与已有技术相比,本发明的有益效果体现在:
1、本发明是针对线性任意分布的数据,采用偏相关系数作为独立性测试的标准,偏相关标准可以对线性任意分布的数据进行有效的独立性测试,从而可以从任意分布数据中发现潜在的因果结构。
2、本发明所提出的方法实质上是一种基于局部学习的因果结构学习方法,局部学习方法无需事先学习出一个全局网络,仅发现目标特征的马尔科夫毯。通过局部学习方法,可以获得所有特征的马尔科夫毯,从而可以获得贝叶斯网络的骨架(无向图),然后再利用在线的贪婪搜索对无向图中的边进行定向,从而降低了学习的复杂度。
3、本发明所提出的方法采用马尔科夫毯方法进行在线的相关性分析和冗余测试,该方法可以有效的识别出与目标特征高相关的特征,获得对于目标变量相关的特征集,提高了学习的准确度,同时通过移除冗余特征,达到了数据降维的目的,从而可以适用于高维数据。
4、本发明所提出的方法应用广泛,可用于各类数据分析任务中;例如将方法应用于脑磁图数据分析、股票数据分析、功能性磁共振成像、基因表达数据分析、图像处理等领域有助于研究人员发现系统蕴涵的因果结构,从而更好地研究对象。
具体实施方式
本实施例中,面向线性任意分布数据的基于流特征的因果结构学习方法是按如下步骤进行:
步骤1、定义时刻t;并初始化t=0;定义特征个数极限值为max;用于记录最终特征个数的最大值;
步骤2、定义特征集为EF,并初始化第t时刻的特征集为用于记录当前选择的特征集合;
步骤3、定义变量j;并初始化j=1;
步骤4、判断j≤max是否成立,若成立,随机产生第j个特征Xj,表示新产生的特征,第j个特征Xj具有m个取值;并初始化第j个特征Xj的马尔科夫毯MB(Xj)为空、初始化第j个特征Xj的新增特征集FA(Xj)为空、初始化第j个特征Xj的冗余特征集FD(Xj)为空;并执行步骤5;若不成立,结束算法并退出;
步骤5、判断j=1是否成立,若成立,则将所述第j个特征Xj加入所述第t时刻的特征集EFt中,从而获得第t+1时刻的特征集EFt+1;并将t+1赋值给t、将j+1赋值给j后,返回步骤4;若不成立,则执行步骤6;
步骤6、对所述第j个特征Xj进行相关性分析;测试第j个特征Xj与每个特征T∈EFt的相关性。如果Xj,T相关,则更新T和Xj的马尔科夫毯,具体地,把Xj加到T的马尔科夫毯MB(T)=MB(T)∪Xj,同时把T加到Xj的马尔科夫毯MB(Xj)=MB(Xj)∪T;并更新新增特征集FA(T)和FA(Xj),具体地,FA(T)={Xj}和FA(Xj)={T};
步骤6.1、设置依赖度阈值α;用于衡量特征间依赖程度的量;对应统计测试的显著性水平;
步骤6.2、设置V=EFt∪Xj,求出V的相关系数矩阵R;所述相关系数矩阵R中的任一元素记为Rpq,表示第p个特征Xp和第q个特征Xq的相关系数,1≤p≤j,1≤q≤j;按如下式(1)计算:
R p q = Σ r = 1 n ( x r p - x ‾ p ) ( x r q - x ‾ q ) Σ r = 1 m ( x r p - x ‾ p ) 2 Σ r = 1 m ( x r q - x ‾ q ) 2 - - - ( 1 )
式(1)中,m为实例数,xrp表示特征Xp在第r个实例的取值,表示特征Xp的取值的算术平均值,xrq表示特征Xq在第r个实例的取值,表示特征Xq的取值的算术平均值;
步骤6.3、求出相关系数矩阵R的逆矩阵W;
步骤6.4、定义变量k;并初始化k=1;定义变量θ;
步骤6.5、计算第j个特征Xj和第k个特征Xk的依赖程度,并用偏相关系数ρjk表示;采用偏相关系数衡量特征间的依赖程度原因在于,如ZhenxingWang所著的文献《AnEfficientCausalDiscoveryAlgorithmforLinearModels》所述,对于线性任意分布数据,偏相关可以去除其他特征的影响,衡量特征间的相关程度;偏相关系数ρjk按如下式(2)计算:
ρ j k = - w j k / w j j w k k - - - ( 2 )
式(2)中,wjk指的是逆矩阵W的第j行第k列的元素,wjj和wkk分别表示逆矩阵W的对角线上的第j行行和第k行元素;
步骤6.6、计算偏相关系数ρjk的标准误:
步骤6.7、计算第j个特征Xj和第k个特征Xk的t统计量:
步骤6.8、计算第j个特征Xj和第k个特征Xk的p-value值:Φ是t分布的累积分布函数,将p-value(Xj,Xk)赋值给θ;
步骤6.9、判断θ≤α是否成立,若成立,θ是偏相关测试返回的P值,P值越小,依赖度越大,说明第j个特征Xj与第k个特征Xk相关,则执行步骤6.10;若不成立;说明第j个特征Xj与第k个特征Xk不相关,则执行步骤6.11;
步骤6.10、把第j个特征Xj加到第k个特征Xk的马尔科夫毯MB(Xk),即MB(Xk)=MB(Xk)∪Xj,将第j个特征Xj加入所述新增特征集FA(Xk)中,即FA(Xk)={Xj},从而更新第k个特征Xk的马尔科夫毯MB(Xk)和新增特征集FA(Xk);根据相关性的对称性,如果第j个特征Xj属于第k个特征Xk的马尔科夫毯,Xk必定也属于Xj的马尔科夫毯;同时把第k个特征Xk加到第j个特征Xj的马尔科夫毯MB(Xj),即MB(Xj)=MB(Xj)∪Xk,将第k个特征Xk加入所述新增特征集FA(Xj)中,即FA(Xj)={Xk},从而更新第j个特征Xj的马尔科夫毯MB(Xj)和新增特征集FA(Xj);FA(Xj)和FA(Xk)是用于记录第j个特征Xj和第k个特征Xk的新增特征变化,从而决定在步骤15中是否进行搜索定向;并执行步骤6.11;
步骤6.11、将k+1赋值给k,并判断k>j-1是否成立,若成立,则执行步骤7;若不成立,则返回步骤6.5执行;
步骤7、判断所述第j个特征Xj的马尔科夫毯MB(Xj)是否为空集,若为空集,则说明第j个特征Xj与第t时刻的特征集EFt中的所有特征都不相关,则丢弃该特征,重新产生新特征,则返回步骤4;若不为空集,将第j个特征Xj加入所述第t时刻的特征集EFt中,获得第t+1时刻的特征集EFt+1=EFt∪Xj;并将t+1赋值给t后,执行步骤8;
步骤8、定义变量k;并初始化k=1;
步骤9、对所述第t时刻的特征集EFt的第k个特征Xk进行冗余校验分析;由于第j个特征Xj的加入,可能导致有些特征是冗余特征,所以进行冗余校验分析;
步骤9.1、设置冗余度阈值β;用于衡量特征间冗余程度的量;对应统计测试的显著性水平;计算第k个特征Xk的马尔科夫毯MB(Xk)中的特征个数,记为Sk
步骤9.2、定义变量s;并初始化s=1;定义变量σ;
步骤9.3、获取所述马尔科夫毯MB(Xk)第s个特征的下标记为τs
步骤9.4、计算第τs个特征和第k个特征Xk的冗余程度,并用偏相关系数表示
步骤9.5、计算偏相关系数标准误:
步骤9.6、计算第τs个特征和第k个特征Xk的t统计量:
步骤9.7、计算第τs个特征和第k个特征Xk的p-value值: p - value ′ ( X τ s , X k ) = 2 Φ ( - | t τ s k ′ a c t | ) , p - value ′ ( X τ s , X k ) 赋值给σ;
步骤9.8、判断σ>β是否成立,σ是偏相关测试返回的P值,P值越大,相关度越小,若成立,说明第τs个特征和第k个特征Xk冗余,则执行步骤9.9;若不成立;说明第τs个特征和第k个特征Xk不冗余,则执行步骤9.10;
步骤9.9、从所述第k个特征Xk的马尔科夫毯MB(Xk)中删除所述第τs个特征并将第τs个特征加入所述第k个特征Xk的冗余特征集FD(Xk)中,即根据冗余的对称性,如果第τs个特征不属于第k个特征Xk的马尔科夫毯,第k个特征Xk必定也不属于第τs个特征的马尔科夫毯;从所述第τs个特征的马尔科夫毯中删除所述第k个特征Xk并将第k个特征Xk加入所述第τs个特征的冗余特征集
步骤9.10、将s+1赋值给s;并判断s>Sk是否成立,若成立,则执行步骤10;若不成立,则返回步骤9.3执行。
步骤10、将k+1赋值给k;并判断k>j是否成立,若成立,则执行11;若不成立,则返回步骤9执行;
步骤11、定义变量count;并初始化count=0;用于记录该系统冗余特征的个数,初始化k=1;
步骤12、判断所述第k个特征Xk的马尔科夫毯MB(Xk)是否为空集,若为空集,则从所述第t时刻的特征集EFt中删除所述第k个特征Xk后,说明第k个特征Xk与所有的特征都不相关,第k个特征Xk对于该系统就是冗余特征,从而从当前特征集EFt移除;count+1赋值给count后,执行步骤13;若不为空集,则直接执行步骤13;
步骤13、将k+1赋值给k后;判断k>j是否成立,若成立,则将j-count赋值给j后,获得更新的第t时刻的特征集EFt′,记为EFt'={X1,X2,...,Xi,...Xj};Xi表示更新的第t时刻的特征集EFt′中第i个特征向量;1≤i≤j,并有,表示第i个特征向量Xi具有m个取值;例如微阵列基因表达数据的在某基因的基因表达值,表示第i个特征向量Xi中第v个取值;1≤v≤m;由构成第v个实例;例如微阵列数据中某个实例的的基因表达水平值,从而获得由m个实例组成的数据集D,记为D={sam1,sam2,...,samv,...,samm};例如微阵列基因表达数据;并执行步骤14;若不成立,则返回步骤12执行;
步骤14、初始化i=1;
步骤15、对于第t时刻的特征集EFt′中第i个特征Xi,如果第i个特征Xi的新增特征集FA(Xi)不为空或第i个特征Xi的冗余特征集FD(Xi)不为空,则基于第i个特征Xi进行搜索定向,得到第i个特征Xi家族的MDL评分和对应的局部因果结构;此处仅对马尔科夫毯发生变化的特征进行搜索定向,可以降低计算复杂度;
步骤15.1、设置家族评分LminScore=inf,inf表示无穷大的值;因为家族评分是逐渐趋小的,这里设置成无穷大的值是为了有效地更新;
步骤15.2、从第i个特征Xi的马尔科夫毯的集合MB(Xi)任选一个特征Xg,令Xg作为第i个特征Xi的父特征:Pa(Xi)={Xg};并将Xg从MB(Xi)中删除;添加父特征的时候只能从从第i个特征Xi的马尔科夫毯的集合MB(Xi)进行选择,不是任意的节点,这是局部学习的策略,这样做可以有效地降低搜索时间;
步骤15.3、利用式(3)计算第i个特征Xi家族的MDL评分
N L L ( X i , P a ( X i ) , θ ^ i m l e ) = Σ k = 1 m ( x k i - ( θ ^ i m l e ) T p a ( x k i ) ) 2 - - - ( 3 )
式(3)中,权值向量用最小二乘法估计获得;计算方法如下式(4)所示:
θ ^ i m l e = ( Y ′ Y ) - 1 Y ′ x i - - - ( 4 )
式(4)中,xi表示Xi上的取值向量,Y表示Pa(Xi)的取值向量,Y'表示Y的转置矩阵;
xki表示第i个特征Xi在第k个实例的实际取值,pa(xki)表示第i个特征Xi的父特征集Pa(Xi)在第k个实例的实际取值向量,的转置向量;转置目的是为了执行向量的乘法运算。表示第i个特征Xi在其父特征集Pa(Xi)取值为pa(xki)和权值为时所得出的预测值;显然实际取值xki和预测值之差就是残差,式(2)的等号右边就是残差平方和。残差平方和RSS是统计学中的概念,表示的是预测值与实际值间的误差平方和,是一种拟合优度的统计量,可以衡量数据和预测模型的偏差。残差平方和的值越小就意味着模型与真实数据拟合的越好。
步骤15.4、计算第i个特征Xi的马尔科夫毯的集合MB(Xi)的特征个数,并赋值给countMB;计算第i个特征Xi的父特征集Pa(Xi)的特征个数,并赋值给countPA;
步骤15.5、定义变量p;并初始化p=1;定义数组AddMDL(countMB);用于记录添加第i个特征Xi的马尔科夫毯的集合MB(Xi)中的每个特征到父特征集时的家族评分;
步骤15.6、假设添加马尔科夫毯的集合MB(Xi)的第p个特征到第i个特征Xi的父特征集,并利用式(2)计算第i个特征Xi的家族的MDL评分;并赋值给AddMDL(p);目的是为了对马尔科夫毯的集合MB(Xi)中的每个特征都进行测试,看哪一个特征添加到父特征集最合适;
步骤15.7、将p+1赋值给p;并判断p>countMB是否成立,若成立,则执行步骤15.8;若不成立,则返回步骤15.6执行;
步骤15.8、初始化p=1;定义数组DelMDL(countPA);用于记录删除第i个特征Xi的父特征集Pa(Xi)中的每个特征时的家族评分;
步骤15.9、假设从父特征集Pa(Xi)删除第p个特征得到新的父特征集合Pa(Xi)',使用式(4)计算第i个特征Xi的家族的MDL评分;并赋值给DelMDL(p);
步骤15.10、将p+1赋值给p;并判断p>countPA是否成立,若成立,则执行步骤15.11;若不成立,则返回步骤15.9执行;
步骤15.11、从数组AddMDL(countMB)和数组DelMDL(countPA)中选择最小值,并赋给变量TempMin;值越小意味着预测值与实际值拟合得越好,所以选择该值;
步骤15.12、判断TempMin<LminScore是否成立,如果成立,将TempMin赋值给LminScore后,以最小值所对应的添加或删除操作来更新MB(Xi)和Pa(Xi),并返回步骤15.4;如果不成立,则说明评分收敛即LminScore不再发生变化,则结束基于该特征Xi的搜索定向,执行步骤16;评分收敛说明当前的网络结构是目前方法搜索到的最好的局部网络结构;
步骤16、将i+1赋值给i;并判断i>j是否成立,若成立,则执行步骤17;若不成立,则返回步骤15执行;
步骤17、利用式(5)获得网络G中所有j个特征的总评分MDL(G)和对应的全局因果结构:
M D L ( G ) = Σ i = 1 j ( R S S ( X i , P a ( X i ) , θ ^ i m l e ) + | θ ^ i m l e | 2 log m ) - - - ( 5 )
式(5)中,Pa(Xi)表示第i个特征Xi的父特征集,表示与i个特征Xi的父特征集Pa(Xi)一一对应的权值向量;表示第i个特征Xi在具有父特征集Pa(Xi)和参数时的家族MDL评分;总评分MDL(G)综合考虑了网络结构的复杂性与网络结构的准确性,选择模型简洁度和准确度综合性能最优的网络;
步骤18、将j+1赋值给j,返回步骤4。目的是为了一直重复的产生特征直至特征个数超过极限值。

Claims (4)

1.一种基于流特征的因果结构学习方法,其特征是按如下步骤进行:
步骤1、定义时刻t;并初始化t=0;定义特征个数极限值为max;
步骤2、定义特征集为EF,并初始化第t时刻的特征集为
步骤3、定义变量j;并初始化j=1;
步骤4、判断j≤max是否成立,若成立,随机产生第j个特征Xj,第j个特征Xj具有m个取值;并初始化第j个特征Xj的马尔科夫毯MB(Xj)为空、初始化第j个特征Xj的新增特征集FA(Xj)为空、初始化第j个特征Xj的冗余特征集FD(Xj)为空;并执行步骤5;若不成立,结束算法并退出;
步骤5、判断j=1是否成立,若成立,则将所述第j个特征Xj加入所述第t时刻的特征集EFt中,从而获得第t+1时刻的特征集EFt+1;并将t+1赋值给t、将j+1赋值给j后,返回步骤4;若不成立,则执行步骤6;
步骤6、对所述第j个特征Xj进行相关性分析;
步骤7、判断所述第j个特征Xj的马尔科夫毯MB(Xj)是否为空集,若为空集,则返回步骤4;若不为空集,将第j个特征Xj加入所述第t时刻的特征集EFt中,获得第t+1时刻的特征集EFt+1=EFt∪Xj;并将t+1赋值给t后,执行步骤8;
步骤8、定义变量k;并初始化k=1;
步骤9、对所述第t时刻的特征集EFt的第k个特征Xk进行冗余校验分析;
步骤10、将k+1赋值给k;并判断k>j是否成立,若成立,则执行11;若不成立,则返回步骤9执行;
步骤11、定义变量count;并初始化count=0;初始化k=1;
步骤12、判断所述第k个特征Xk的马尔科夫毯MB(Xk)是否为空集,若为空集,则从所述第t时刻的特征集EFt中删除所述第k个特征Xk后,将count+1赋值给count后,执行步骤13;若不为空集,则直接执行步骤13;
步骤13、将k+1赋值给k后;判断k>j是否成立,若成立,则将j-count赋值给j后,获得更新的第t时刻的特征集EF′t,记为EF′t={X1,X2,...,Xi,...Xj};Xi表示更新的第t时刻的特征集EF′t中第i个特征向量;1≤i≤j,并有,表示第i个特征向量Xi具有m个取值;表示第i个特征向量Xi中第v个取值;1≤v≤m;由构成第v个实例;从而获得由m个实例组成的数据集D,记为D={sam1,sam2,...,samv,...,samm};并执行步骤14;若不成立,则返回步骤12执行;
步骤14、初始化i=1;
步骤15、对于第t时刻的特征集EF′t中第i个特征Xi,如果第i个特征Xi的新增特征集FA(Xi)不为空或第i个特征Xi的冗余特征集FD(Xi)不为空,则基于第i个特征Xi进行搜索定向,得到第i个特征Xi家族的MDL评分和对应的局部因果结构;
步骤16、将i+1赋值给i;并判断i>j是否成立,若成立,则执行步骤17;若不成立,则返回步骤15执行;
步骤17、获得网络G中所有j个特征的总评分MDL(G)和对应的全局因果结构;
M D L ( G ) = Σ i = 1 j ( R S S ( X i , P a ( X i ) , θ ^ i m l e ) + | θ ^ i m l e | 2 l o g m ) - - - ( 1 )
式(1)中,Pa(Xi)表示第i个特征Xi的父特征集,表示与i个特征Xi的父特征集Pa(Xi)一一对应的权值向量;表示第i个特征Xi在具有父特征集Pa(Xi)和参数时的家族MDL评分;
步骤18、将j+1赋值给j,返回步骤4。
2.根据权利要求1所述的基于流特征的因果结构学习方法,其特征是,所述步骤6中在线的相关性分析是按如下步骤进行:
步骤6.1、设置依赖度阈值α;
步骤6.2、设置V=EFt∪Xj,求出V的相关系数矩阵R;所述相关系数矩阵R中的任一元素记为Rpq,表示第p个特征Xp和第q个特征Xq的相关系数,1≤p≤j,1≤q≤j;
步骤6.3、求出相关系数矩阵R的逆矩阵W;
步骤6.4、定义变量k;并初始化k=1;定义变量θ;
步骤6.5、计算第j个特征Xj和第k个特征Xk的依赖程度,并用偏相关系数ρjk表示;
步骤6.6、计算偏相关系数ρjk的标准误:
步骤6.7、计算第j个特征Xj和第k个特征Xk的t统计量:
步骤6.8、计算第j个特征Xj和第k个特征Xk的p-value值:Φ是t分布的累积分布函数,将p-value(Xj,Xk)赋值给θ;
步骤6.9、判断θ≤α是否成立,若成立,说明第j个特征Xj与第k个特征Xk相关,则执行步骤6.10;若不成立;说明第j个特征Xj与第k个特征Xk不相关,则执行步骤6.11;
步骤6.10、把第j个特征Xj加到第k个特征Xk的马尔科夫毯MB(Xk),即MB(Xk)=MB(Xk)∪Xj,将第j个特征Xj加入所述新增特征集FA(Xk)中,即FA(Xk)={Xj},从而更新第k个特征Xk的马尔科夫毯MB(Xk)和新增特征集FA(Xk);同时把第k个特征Xk加到第j个特征Xj的马尔科夫毯MB(Xj),即MB(Xj)=MB(Xj)∪Xk,将第k个特征Xk加入所述新增特征集FA(Xj)中,即FA(Xj)={Xk},从而更新第j个特征Xj的马尔科夫毯MB(Xj)和新增特征集FA(Xj);并执行步骤6.11;
步骤6.11、将k+1赋值给k,并判断k>j-1是否成立,若成立,则执行步骤7;若不成立,则返回步骤6.5执行。
3.根据权利要求1所述的基于流特征的因果结构学习方法,其特征是,步骤9在线的冗余校验分析是按如下步骤进行:
步骤9.1、设置冗余度阈值β;计算第k个特征Xk的马尔科夫毯MB(Xk)中的特征个数,记为Sk
步骤9.2、定义变量s;并初始化s=1;定义变量σ;
步骤9.3、获取所述马尔科夫毯MB(Xk)第s个特征的下标记为τs
步骤9.4、计算第τs个特征和第k个特征Xk的冗余程度,并用偏相关系数表示
步骤9.5、计算偏相关系数标准误:
步骤9.6、计算第τs个特征和第k个特征Xk的t统计量:
步骤9.7、计算第τs个特征和第k个特征Xk的p-value值: p - value ′ ( X τ s , X k ) = 2 Φ ( - | t τ s k ′ a c t | ) , 赋值给σ;
步骤9.8、判断σ>β是否成立,若成立,说明第τs个特征和第k个特征Xk冗余,则执行步骤9.9;若不成立;说明第τs个特征和第k个特征Xk不冗余,则执行步骤9.10;
步骤9.9、从所述第k个特征Xk的马尔科夫毯MB(Xk)中删除所述第τs个特征并将第τs个特征加入所述第k个特征Xk的冗余特征集FD(Xk)中,即从所述第τs个特征的马尔科夫毯中删除所述第k个特征Xk并将第k个特征Xk加入所述第τs个特征的冗余特征集 F D ( X τ s ) = F D ( X τ s ) ∪ { X k } ;
步骤9.10、将s+1赋值给s;并判断s>Sk是否成立,若成立,则执行步骤10;若不成立,则返回步骤9.3执行。
4.根据权利要求1所述的基于流特征的因果结构学习方法,其特征是,所述步骤15的搜索定向是按如下步骤进行:
步骤15.1、设置家族评分LminScore=inf,inf表示无穷大的值;
步骤15.2、从第i个特征Xi的马尔科夫毯的集合MB(Xi)任选一个特征Xg,令Xg作为第i个特征Xi的父特征:Pa(Xi)={Xg};并将Xg从MB(Xi)中删除;
步骤15.3、利用式(2)计算第i个特征Xi家族的MDL评分
R S S ( X i , P a ( X i ) , θ ^ i m l e ) = Σ k = 1 m ( x k i - ( θ ^ i m l e ) T p a ( x k i ) ) 2 - - - ( 2 )
式(2)中,权值向量用最小二乘法估计获得;xki表示第i个特征Xi在第k个实例的实际取值,pa(xki)表示第i个特征Xi的父特征集Pa(Xi)在第k个实例的实际取值向量,的转置向量;表示第i个特征Xi在其父特征集Pa(Xi)取值为pa(xki)和权值为时所得出的预测值;
步骤15.4、计算第i个特征Xi的马尔科夫毯的集合MB(Xi)的特征个数,并赋值给countMB;计算第i个特征Xi的父特征集Pa(Xi)的特征个数,并赋值给countPA;
步骤15.5、定义变量p;并初始化p=1;定义数组AddMDL(countMB);
步骤15.6、假设选择马尔科夫毯的集合MB(Xi)的第p个特征作为第i个特征Xi的父特征,并利用式(2)计算第i个特征Xi的家族的MDL评分;并赋值给AddMDL(p);
步骤15.7、将p+1赋值给p;并判断p>countMB是否成立,若成立,则执行步骤15.8;若不成立,则返回步骤15.6执行;
步骤15.8、初始化p=1;定义数组DelMDL(countPA);
步骤15.9、假设从父特征集Pa(Xi)删除第p个特征得到新的父特征集合Pa(Xi)',使用式(2)计算第i个特征Xi的家族的MDL评分;并赋值给DelMDL(p);
步骤15.10、将p+1赋值给p;并判断p>countPA是否成立,若成立,则执行步骤15.11;若不成立,则返回步骤15.9执行;
步骤15.11、从数组AddMDL(countMB)和数组DelMDL(countPA)中选择最小值,并赋给变量TempMin;
步骤15.12、判断TempMin<LminScore是否成立,如果成立,将TempMin赋值给LminScore后,以最小值所对应的添加或删除操作来更新MB(Xi)和Pa(Xi),并返回步骤15.4;如果不成立,则说明评分收敛即LminScore不再发生变化,则结束基于该特征Xi的搜索定向,执行步骤16。
CN201610032838.8A 2016-01-18 2016-01-18 基于流特征的因果结构学习方法 Active CN105719006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610032838.8A CN105719006B (zh) 2016-01-18 2016-01-18 基于流特征的因果结构学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610032838.8A CN105719006B (zh) 2016-01-18 2016-01-18 基于流特征的因果结构学习方法

Publications (2)

Publication Number Publication Date
CN105719006A true CN105719006A (zh) 2016-06-29
CN105719006B CN105719006B (zh) 2019-07-19

Family

ID=56147723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610032838.8A Active CN105719006B (zh) 2016-01-18 2016-01-18 基于流特征的因果结构学习方法

Country Status (1)

Country Link
CN (1) CN105719006B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202486A (zh) * 2016-07-19 2016-12-07 福建师范大学 异构数据集基于mic的字段值优先连接方法
CN110866162A (zh) * 2019-10-10 2020-03-06 西安交通大学 一种基于mooc数据中辍学行为的因果关系挖掘方法
CN111016914A (zh) * 2019-11-22 2020-04-17 华东交通大学 基于便携终端信息的险态驾驶场景辨识系统及其辨识方法
CN115130048A (zh) * 2022-08-30 2022-09-30 成都千嘉科技股份有限公司 一种管道腐蚀检测数据的降维采集方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050031688A1 (en) * 2003-08-04 2005-02-10 Ayala William J. Positive wakeup pharmaceutical sleep system with compatible pre-bedtime administration
CN102999615A (zh) * 2012-11-29 2013-03-27 合肥工业大学 基于径向基函数神经网络的多样化图像标注和检索方法
CN104537418A (zh) * 2014-12-11 2015-04-22 广东工业大学 一种自底向上的高维数据因果网络学习方法
CN105205349A (zh) * 2015-08-25 2015-12-30 合肥工业大学 马尔科夫毯嵌入式的基于封装的特征选择方法
CN105204490A (zh) * 2015-08-06 2015-12-30 重庆大学 基于集成特征选择分类的待机功耗智能诊断系统及其诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050031688A1 (en) * 2003-08-04 2005-02-10 Ayala William J. Positive wakeup pharmaceutical sleep system with compatible pre-bedtime administration
CN102999615A (zh) * 2012-11-29 2013-03-27 合肥工业大学 基于径向基函数神经网络的多样化图像标注和检索方法
CN104537418A (zh) * 2014-12-11 2015-04-22 广东工业大学 一种自底向上的高维数据因果网络学习方法
CN105204490A (zh) * 2015-08-06 2015-12-30 重庆大学 基于集成特征选择分类的待机功耗智能诊断系统及其诊断方法
CN105205349A (zh) * 2015-08-25 2015-12-30 合肥工业大学 马尔科夫毯嵌入式的基于封装的特征选择方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202486A (zh) * 2016-07-19 2016-12-07 福建师范大学 异构数据集基于mic的字段值优先连接方法
CN106202486B (zh) * 2016-07-19 2019-07-09 福建师范大学 异构数据集基于mic的字段值优先连接方法
CN110866162A (zh) * 2019-10-10 2020-03-06 西安交通大学 一种基于mooc数据中辍学行为的因果关系挖掘方法
CN110866162B (zh) * 2019-10-10 2021-11-19 西安交通大学 一种基于mooc数据中辍学行为的因果关系挖掘方法
CN111016914A (zh) * 2019-11-22 2020-04-17 华东交通大学 基于便携终端信息的险态驾驶场景辨识系统及其辨识方法
CN111016914B (zh) * 2019-11-22 2021-04-06 华东交通大学 基于便携终端信息的险态驾驶场景辨识系统及其辨识方法
CN115130048A (zh) * 2022-08-30 2022-09-30 成都千嘉科技股份有限公司 一种管道腐蚀检测数据的降维采集方法

Also Published As

Publication number Publication date
CN105719006B (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
Sun et al. Feature selection using rough entropy-based uncertainty measures in incomplete decision systems
Erisoglu et al. A new algorithm for initial cluster centers in k-means algorithm
Peng et al. An extension of ELECTRE to multi-criteria decision-making problems with multi-hesitant fuzzy sets
He et al. Optimal multiaxial sensor placement for modal identification of large structures
CN105719006A (zh) 基于流特征的因果结构学习方法
CN110232434A (zh) 一种基于属性图优化的神经网络架构评估方法
Pratesi et al. Small area estimation in the presence of correlated random area effects
CN116363423A (zh) 面向小样本学习的知识蒸馏方法、装置及存储介质
CN106529393A (zh) 一种esmd样本熵结合fcm的电磁信号频谱数据分类方法
CN114499957A (zh) 一种网络信息安全动态评价系统及其方法
Izsák Some practical aspects of fitting and testing the Zipf-Mandelbrot model: A short essay
Liu et al. Learning distributed representations for community search using node embedding
da Rocha Vicente et al. SFFS-SW: a feature selection algorithm exploring the small-world properties of GNs
Saini et al. New approach for clustering of big data: DisK-means
ABBASI et al. The rk class estimator in generalized linear models applicable with simulation and empirical study using a Poisson and Gamma responses
Chen et al. Selecting a weapon system using zero-one goal programming and analytic network process
Amgalan et al. Fast spatial autocorrelation
CN101425157A (zh) 针对铁路应急预案进行综合评价的方法
Rodríguez-Casado et al. A priori groups based on Bhattacharyya distance and partitioning around medoids algorithm (PAM) with applications to metagenomics
Ma et al. Alteration Detection of Tensor Dependence Structure via Sparsity-Exploited Reranking Algorithm
Bhat et al. OTU clustering: A window to analyse uncultured microbial world
LOBO et al. Suitable domains for using ordered attribute trees to impute missing values
Jauhari et al. Decision Support System for Determination of Development of Small and Medium Industries Using VIKOR
CN109840643B (zh) 一种复合导航融合算法的性能评估方法
CN109657963B (zh) 一种基于全球城市三维坐标的交通综合竞争力分析方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant