CN105719006A

CN105719006A - 基于流特征的因果结构学习方法

Info

Publication number: CN105719006A
Application number: CN201610032838.8A
Authority: CN
Inventors: 杨静; 安宁; 郭晓雪; 丁会通; 李廉
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-01-18
Filing date: 2016-01-18
Publication date: 2016-06-29
Anticipated expiration: 2036-01-18
Also published as: CN105719006B

Abstract

本发明公开了一种基于流特征的因果结构学习方法，其特征是按如下步骤进行：1、以流的方式产生分布任意的新特征；2、对每个新产生的特征，进行相关性分析；3、对特征集进行冗余校验分析；4、基于每个特征进行搜索定向。重复1，2，3，4步骤，直至产生的特征数超过极限值，最终可以获得对应的因果结构。本发明能够从具有流特征的线性任意分布的数据中发现蕴含的因果结构关系，同时降低学习的时间复杂度，从而满足在线学习的时效性要求。

Description

基于流特征的因果结构学习方法

技术领域

本发明属于数据挖掘领域，具体地说是面向线性任意分布数据的基于流特征的因果结构学习方法。

背景技术

随着社会进步和科技发展，人们需要认识的事物变得越来越复杂，系统内部的因果关系是客观存在的，因果结构学习就是从数据中挖掘蕴含的因果结构关系，可以帮助人们认清复杂事物的本质与规律。因果结构学习渗入到生物、医学、经济、自动控制、信息处理等各个学科，涉及到日常生活、工业生产、军事国防等各个方面。

现实生活中很多变量的分布往往是非高斯的。例如：脑磁图(MEG，magnetoencephalographic)源的值并不一定符合标准的高斯分布，不同的脑磁图源间的因果关系使用非高斯的因果模型分析更为适合；铜陵矿区土壤元素样品数据有些不符合高斯分布；股票指数并不一定符合高斯分布，使用非高斯的因果模型更能揭示不同区域股票指数间的因果关系；在证券投资中，投资收益率的分布也很多情况下是符合非高斯分布的；社会学中，研究变量的分布也并非一定符合高斯分布等等。

在很多情况下，数据还具有高维或流的特征。在图像处理领域，图像的特征维数非常高从而无法一次载入内存；在火星的弹坑(Crater)检测中，纹理特征也是非常庞大并且以流的方式顺序产生；在统计关系学习领域，一个SQL查询可能导致产生上百万的特征，并且这些特征以流的方式顺序产生；在生物学领域，基因表达数据也具有高维特性等等。并且，这些数据往往也是非线性非高斯的。

国内外的学者也提出了一系列的因果结构学习算法，典型的贝叶斯网络结构学习方法包括基于搜索打分(Search-And-Score)的方法、基于依赖分析(ConstrainedBased)的方法和两者混合的方法，如SGS算法、PC算法、TPDA算法、K2算法^]、OR算法、SC算法^]、MMHC算法等等。然而，大多数的结构学习算法是基于离散数据进行研究的，不能有效地处理连续数据。近年来，对连续数据进行因果发现研究已成为一个新的研究热点，也涌现了很多方法。如L1MB算法，TC算法，ICA-LiNGAM算法，PClingam算法，HP算法，Two-Phase算法，DirectLiNGAM算法，PCB算法等。

目前经典的因果结构学习方法都不能有效的处理具有流特征的线性任意分布的连续数据，这些方法的主要局限包括：

(1)面向线性任意分布的结构学习算法多数属于基于依赖分析的方法，该方法为了判断两特征间是否相关，需要在大量的子集上进行独立性测试，导致需要较多的独立性测试，从而需要耗费很多的时间，计算复杂度比较大；

(2)面向线性任意分布的结构学习算法一般假设可以事先获得所有的数据，不能处理具有流特征的数据，即特征逐个流入，从而不能有效的处理动态、未知的特征空间下的因果结构学习问题。

发明内容

本发明为克服现有技术存在的不足之处，提出了一种基于流特征的因果结构学习方法，以期能够从具有流特征的线性任意分布的数据中发现蕴含的因果结构关系，同时降低学习的时间复杂度，从而满足在线学习的时效性要求。

本发明为解决技术问题采用如下技术方案：

本发明一种基于流特征的因果结构学习方法的特点是按如下步骤进行：

步骤1、定义时刻t；并初始化t＝0；定义特征个数极限值为max；

步骤2、定义特征集为EF，并初始化第t时刻的特征集为

步骤3、定义变量j；并初始化j＝1；

步骤4、判断j≤max是否成立，若成立，随机产生第j个特征X_j，第j个特征X_j具有m个取值；并初始化第j个特征X_j的马尔科夫毯MB(X_j)为空、初始化第j个特征X_j的新增特征集FA(X_j)为空、初始化第j个特征X_j的冗余特征集FD(X_j)为空；并执行步骤5；若不成立，结束算法并退出；

步骤5、判断j＝1是否成立，若成立，则将所述第j个特征X_j加入所述第t时刻的特征集EF_t中，从而获得第t+1时刻的特征集EF_t+1；并将t+1赋值给t、将j+1赋值给j后，返回步骤4；若不成立，则执行步骤6；

步骤6、对所述第j个特征X_j进行相关性分析；

步骤7、判断所述第j个特征X_j的马尔科夫毯MB(X_j)是否为空集，若为空集，则返回步骤4；若不为空集，将第j个特征X_j加入所述第t时刻的特征集EF_t中，获得第t+1时刻的特征集EF_t+1＝EF_t∪X_j；并将t+1赋值给t后，执行步骤8；

步骤8、定义变量k；并初始化k＝1；

步骤9、对所述第t时刻的特征集EF_t的第k个特征X_k进行冗余校验分析；

步骤10、将k+1赋值给k；并判断k＞j是否成立，若成立，则执行11；若不成立，则返回步骤9执行；

步骤11、定义变量count；并初始化count＝0；初始化k＝1；

步骤12、判断所述第k个特征X_k的马尔科夫毯MB(X_k)是否为空集，若为空集，则从所述第t时刻的特征集EF_t中删除所述第k个特征X_k后，将count+1赋值给count后，执行步骤13；若不为空集，则直接执行步骤13；

步骤13、将k+1赋值给k后；判断k＞j是否成立，若成立，则将j-count赋值给j后，获得更新的第t时刻的特征集EF_t′，记为EF_t'＝{X₁,X₂,...,X_i,...X_j}；X_i表示更新的第t时刻的特征集EF_t′中第i个特征向量；1≤i≤j，并有，表示第i个特征向量X_i具有m个取值；表示第i个特征向量X_i中第v个取值；1≤v≤m；由构成第v个实例；从而获得由m个实例组成的数据集D，记为D＝{sam₁,sam₂,...,sam_v,...,sam_m}；并执行步骤14；若不成立，则返回步骤12执行；

步骤14、初始化i＝1；

步骤15、对于第t时刻的特征集EF_t′中第i个特征X_i，如果第i个特征X_i的新增特征集FA(X_i)不为空或第i个特征X_i的冗余特征集FD(X_i)不为空，则基于第i个特征X_i进行搜索定向，得到第i个特征X_i家族的MDL评分和对应的局部因果结构；

步骤16、将i+1赋值给i；并判断i＞j是否成立，若成立，则执行步骤17；若不成立，则返回步骤15执行；

步骤17、获得网络G中所有j个特征的总评分MDL(G)和对应的全局因果结构；

M D L (G) = Σ_{i = 1}^{j} (R S S (X_{i}, P a (X_{i}), {\hat{θ}}_{i}^{m l e}) + \frac{| {\hat{θ}}_{i}^{m l e} |}{2} \log m) - - - (1)

式(1)中，Pa(X_i)表示第i个特征X_i的父特征集，表示与i个特征X_i的父特征集Pa(X_i)一一对应的权值向量；表示第i个特征X_i在具有父特征集Pa(X_i)和参数时的家族MDL评分；

步骤18、将j+1赋值给j，返回步骤4。

本发明所述的基于流特征的因果结构学习方法的特点也在于，

所述步骤6中在线的相关性分析是按如下步骤进行：

步骤6.1、设置依赖度阈值α；

步骤6.2、设置V＝EF_t∪X_j，求出V的相关系数矩阵R；所述相关系数矩阵R中的任一元素记为R_pq，表示第p个特征X_p和第q个特征X_q的相关系数，1≤p≤j,1≤q≤j；

步骤6.3、求出相关系数矩阵R的逆矩阵W；

步骤6.4、定义变量k；并初始化k＝1；定义变量θ；

步骤6.5、计算第j个特征X_j和第k个特征X_k的依赖程度，并用偏相关系数ρ_jk表示；

步骤6.6、计算偏相关系数ρ_jk的标准误：

步骤6.7、计算第j个特征X_j和第k个特征X_k的t统计量：

步骤6.8、计算第j个特征X_j和第k个特征X_k的p-value值：Φ是t分布的累积分布函数，将p-value(X_j,X_k)赋值给θ；

步骤6.9、判断θ≤α是否成立，若成立，说明第j个特征X_j与第k个特征X_k相关，则执行步骤6.10；若不成立；说明第j个特征X_j与第k个特征X_k不相关，则执行步骤6.11；

步骤6.10、把第j个特征X_j加到第k个特征X_k的马尔科夫毯MB(X_k)，即MB(X_k)＝MB(X_k)∪X_j，将第j个特征X_j加入所述新增特征集FA(X_k)中，即FA(X_k)＝{X_j}，从而更新第k个特征X_k的马尔科夫毯MB(X_k)和新增特征集FA(X_k)；同时把第k个特征X_k加到第j个特征X_j的马尔科夫毯MB(X_j)，即MB(X_j)＝MB(X_j)∪X_k，将第k个特征X_k加入所述新增特征集FA(X_j)中，即FA(X_j)＝{X_k}，从而更新第j个特征X_j的马尔科夫毯MB(X_j)和新增特征集FA(X_j)；并执行步骤6.11；

步骤6.11、将k+1赋值给k，并判断k＞j-1是否成立，若成立，则执行步骤7；若不成立，则返回步骤6.5执行；

步骤9在线的冗余校验分析是按如下步骤进行：

步骤9.1、设置冗余度阈值β；计算第k个特征X_k的马尔科夫毯MB(X_k)中的特征个数，记为S_k；

步骤9.2、定义变量s；并初始化s＝1；定义变量σ；

步骤9.3、获取所述马尔科夫毯MB(X_k)第s个特征的下标记为τ_s；

步骤9.4、计算第τ_s个特征和第k个特征X_k的冗余程度，并用偏相关系数表示

步骤9.5、计算偏相关系数标准误：

步骤9.6、计算第τ_s个特征和第k个特征X_k的t统计量：

步骤9.7、计算第τ_s个特征和第k个特征X_k的p-value值：将赋值给σ；

步骤9.8、判断σ＞β是否成立，若成立，说明第τ_s个特征和第k个特征X_k冗余，则执行步骤9.9；若不成立；说明第τ_s个特征和第k个特征X_k不冗余，则执行步骤9.10；

步骤9.9、从所述第k个特征X_k的马尔科夫毯MB(X_k)中删除所述第τ_s个特征即并将第τ_s个特征加入所述第k个特征X_k的冗余特征集FD(X_k)中，即从所述第τ_s个特征的马尔科夫毯中删除所述第k个特征X_k，并将第k个特征X_k加入所述第τ_s个特征的冗余特征集

F D (X_{τ_{s}}) = F D (X_{τ_{s}}) \cup {X_{k}};

步骤9.10、将s+1赋值给s；并判断s＞S_k是否成立，若成立，则执行步骤10；若不成立，则返回步骤9.3执行。

所述步骤15的搜索定向是按如下步骤进行：

步骤15.1、设置家族评分LminScore＝inf，inf表示无穷大的值；

步骤15.2、从第i个特征X_i的马尔科夫毯的集合MB(X_i)任选一个特征X_g，令X_g作为第i个特征X_i的父特征：Pa(X_i)＝{X_g}；并将X_g从MB(X_i)中删除；

步骤15.3、利用式(2)计算第i个特征X_i家族的MDL评分

R S S (X_{i}, P a (X_{i}), {\hat{θ}}_{i}^{m l e}) = Σ_{k = 1}^{m} {(x_{k i} - {({\hat{θ}}_{i}^{m l e})}^{T} p a (x_{k i}))}^{2} - - - (2)

式(2)中，权值向量用最小二乘法估计获得；x_ki表示第i个特征X_i在第k个实例的实际取值，pa(x_ki)表示第i个特征X_i的父特征集Pa(X_i)在第k个实例的实际取值向量，为的转置向量；表示第i个特征X_i在其父特征集Pa(X_i)取值为pa(x_ki)和权值为时所得出的预测值；

步骤15.4、计算第i个特征X_i的马尔科夫毯的集合MB(X_i)的特征个数，并赋值给countMB；计算第i个特征X_i的父特征集Pa(X_i)的特征个数，并赋值给countPA；

步骤15.5、定义变量p；并初始化p＝1；定义数组AddMDL(countMB)；

步骤15.6、假设选择马尔科夫毯的集合MB(X_i)的第p个特征作为第i个特征X_i的父特征，并利用式(2)计算第i个特征X_i的家族的MDL评分；并赋值给AddMDL(p)；

步骤15.7、将p+1赋值给p；并判断p＞countMB是否成立，若成立，则执行步骤15.8；若不成立，则返回步骤15.6执行；

步骤15.8、初始化p＝1；定义数组DelMDL(countPA)；

步骤15.9、假设从父特征集Pa(X_i)删除第p个特征得到新的父特征集合Pa(X_i)'，使用式(2)计算第i个特征X_i的家族的MDL评分；并赋值给DelMDL(p)；

步骤15.10、将p+1赋值给p；并判断p＞countPA是否成立，若成立，则执行步骤15.11；若不成立，则返回步骤15.9执行；

步骤15.11、从数组AddMDL(countMB)和数组DelMDL(countPA)中选择最小值，并赋给变量TempMin；

步骤15.12、判断TempMin＜LminScore是否成立，如果成立，将TempMin赋值给LminScore后，以最小值所对应的添加或删除操作来更新MB(X_i)和Pa(X_i)，并返回步骤15.4；如果不成立，则说明评分收敛即LminScore不再发生变化，则结束基于该特征X_i的搜索定向，执行步骤16。

与已有技术相比，本发明的有益效果体现在：

1、本发明是针对线性任意分布的数据，采用偏相关系数作为独立性测试的标准，偏相关标准可以对线性任意分布的数据进行有效的独立性测试，从而可以从任意分布数据中发现潜在的因果结构。

2、本发明所提出的方法实质上是一种基于局部学习的因果结构学习方法，局部学习方法无需事先学习出一个全局网络，仅发现目标特征的马尔科夫毯。通过局部学习方法，可以获得所有特征的马尔科夫毯，从而可以获得贝叶斯网络的骨架(无向图)，然后再利用在线的贪婪搜索对无向图中的边进行定向，从而降低了学习的复杂度。

3、本发明所提出的方法采用马尔科夫毯方法进行在线的相关性分析和冗余测试，该方法可以有效的识别出与目标特征高相关的特征，获得对于目标变量相关的特征集，提高了学习的准确度，同时通过移除冗余特征，达到了数据降维的目的，从而可以适用于高维数据。

4、本发明所提出的方法应用广泛，可用于各类数据分析任务中；例如将方法应用于脑磁图数据分析、股票数据分析、功能性磁共振成像、基因表达数据分析、图像处理等领域有助于研究人员发现系统蕴涵的因果结构，从而更好地研究对象。

具体实施方式

本实施例中，面向线性任意分布数据的基于流特征的因果结构学习方法是按如下步骤进行：

步骤1、定义时刻t；并初始化t＝0；定义特征个数极限值为max；用于记录最终特征个数的最大值；

步骤2、定义特征集为EF，并初始化第t时刻的特征集为用于记录当前选择的特征集合；

步骤3、定义变量j；并初始化j＝1；

步骤4、判断j≤max是否成立，若成立，随机产生第j个特征X_j，表示新产生的特征，第j个特征X_j具有m个取值；并初始化第j个特征X_j的马尔科夫毯MB(X_j)为空、初始化第j个特征X_j的新增特征集FA(X_j)为空、初始化第j个特征X_j的冗余特征集FD(X_j)为空；并执行步骤5；若不成立，结束算法并退出；

步骤6、对所述第j个特征X_j进行相关性分析；测试第j个特征X_j与每个特征T∈EF_t的相关性。如果X_j，T相关，则更新T和X_j的马尔科夫毯，具体地，把X_j加到T的马尔科夫毯MB(T)＝MB(T)∪X_j，同时把T加到X_j的马尔科夫毯MB(X_j)＝MB(X_j)∪T；并更新新增特征集FA(T)和FA(X_j)，具体地，FA(T)＝{X_j}和FA(X_j)＝{T}；

步骤6.1、设置依赖度阈值α；用于衡量特征间依赖程度的量；对应统计测试的显著性水平；

步骤6.2、设置V＝EF_t∪X_j，求出V的相关系数矩阵R；所述相关系数矩阵R中的任一元素记为R_pq，表示第p个特征X_p和第q个特征X_q的相关系数，1≤p≤j,1≤q≤j；按如下式(1)计算：

R_{p q} = \frac{Σ_{r = 1}^{n} (x_{r p} - {\overset{&OverBar;}{x}}_{p}) (x_{r q} - {\overset{&OverBar;}{x}}_{q})}{\sqrt{Σ_{r = 1}^{m} {(x_{r p} - {\overset{&OverBar;}{x}}_{p})}^{2}} \sqrt{Σ_{r = 1}^{m} {(x_{r q} - {\overset{&OverBar;}{x}}_{q})}^{2}}} - - - (1)

式(1)中，m为实例数，x_rp表示特征X_p在第r个实例的取值，表示特征X_p的取值的算术平均值，x_rq表示特征X_q在第r个实例的取值，表示特征X_q的取值的算术平均值；

步骤6.3、求出相关系数矩阵R的逆矩阵W；

步骤6.4、定义变量k；并初始化k＝1；定义变量θ；

步骤6.5、计算第j个特征X_j和第k个特征X_k的依赖程度，并用偏相关系数ρ_jk表示；采用偏相关系数衡量特征间的依赖程度原因在于，如ZhenxingWang所著的文献《AnEfficientCausalDiscoveryAlgorithmforLinearModels》所述，对于线性任意分布数据，偏相关可以去除其他特征的影响，衡量特征间的相关程度；偏相关系数ρ_jk按如下式(2)计算：

ρ_{j k} = - w_{j k} / \sqrt{w_{j j} w_{k k}} - - - (2)

式(2)中，w_jk指的是逆矩阵W的第j行第k列的元素，w_jj和w_kk分别表示逆矩阵W的对角线上的第j行行和第k行元素；

步骤6.6、计算偏相关系数ρ_jk的标准误：

步骤6.7、计算第j个特征X_j和第k个特征X_k的t统计量：

步骤6.9、判断θ≤α是否成立，若成立，θ是偏相关测试返回的P值，P值越小，依赖度越大，说明第j个特征X_j与第k个特征X_k相关，则执行步骤6.10；若不成立；说明第j个特征X_j与第k个特征X_k不相关，则执行步骤6.11；

步骤6.10、把第j个特征X_j加到第k个特征X_k的马尔科夫毯MB(X_k)，即MB(X_k)＝MB(X_k)∪X_j，将第j个特征X_j加入所述新增特征集FA(X_k)中，即FA(X_k)＝{X_j}，从而更新第k个特征X_k的马尔科夫毯MB(X_k)和新增特征集FA(X_k)；根据相关性的对称性，如果第j个特征X_j属于第k个特征X_k的马尔科夫毯，X_k必定也属于X_j的马尔科夫毯；同时把第k个特征X_k加到第j个特征X_j的马尔科夫毯MB(X_j)，即MB(X_j)＝MB(X_j)∪X_k，将第k个特征X_k加入所述新增特征集FA(X_j)中，即FA(X_j)＝{X_k}，从而更新第j个特征X_j的马尔科夫毯MB(X_j)和新增特征集FA(X_j)；FA(X_j)和FA(X_k)是用于记录第j个特征X_j和第k个特征X_k的新增特征变化，从而决定在步骤15中是否进行搜索定向；并执行步骤6.11；

步骤7、判断所述第j个特征X_j的马尔科夫毯MB(X_j)是否为空集，若为空集，则说明第j个特征X_j与第t时刻的特征集EF_t中的所有特征都不相关，则丢弃该特征，重新产生新特征，则返回步骤4；若不为空集，将第j个特征X_j加入所述第t时刻的特征集EF_t中，获得第t+1时刻的特征集EF_t+1＝EF_t∪X_j；并将t+1赋值给t后，执行步骤8；

步骤8、定义变量k；并初始化k＝1；

步骤9、对所述第t时刻的特征集EF_t的第k个特征X_k进行冗余校验分析；由于第j个特征X_j的加入，可能导致有些特征是冗余特征，所以进行冗余校验分析；

步骤9.1、设置冗余度阈值β；用于衡量特征间冗余程度的量；对应统计测试的显著性水平；计算第k个特征X_k的马尔科夫毯MB(X_k)中的特征个数，记为S_k；

步骤9.2、定义变量s；并初始化s＝1；定义变量σ；

步骤9.5、计算偏相关系数标准误：

步骤9.6、计算第τ_s个特征和第k个特征X_k的t统计量：

步骤9.7、计算第τ_s个特征和第k个特征X_k的p-value值：

p - {value}^{'} (X_{τ_{s}}, X_{k}) = 2 Φ (- | t_{τ_{s} k}^{'^{a c t}} |),

将

p - {value}^{'} (X_{τ_{s}}, X_{k})

赋值给σ；

步骤9.8、判断σ＞β是否成立，σ是偏相关测试返回的P值，P值越大，相关度越小，若成立，说明第τ_s个特征和第k个特征X_k冗余，则执行步骤9.9；若不成立；说明第τ_s个特征和第k个特征X_k不冗余，则执行步骤9.10；

步骤9.9、从所述第k个特征X_k的马尔科夫毯MB(X_k)中删除所述第τ_s个特征即并将第τ_s个特征加入所述第k个特征X_k的冗余特征集FD(X_k)中，即根据冗余的对称性，如果第τ_s个特征不属于第k个特征X_k的马尔科夫毯，第k个特征X_k必定也不属于第τ_s个特征的马尔科夫毯；从所述第τ_s个特征的马尔科夫毯中删除所述第k个特征X_k，并将第k个特征X_k加入所述第τ_s个特征的冗余特征集

步骤11、定义变量count；并初始化count＝0；用于记录该系统冗余特征的个数,初始化k＝1；

步骤12、判断所述第k个特征X_k的马尔科夫毯MB(X_k)是否为空集，若为空集，则从所述第t时刻的特征集EF_t中删除所述第k个特征X_k后，说明第k个特征X_k与所有的特征都不相关，第k个特征X_k对于该系统就是冗余特征，从而从当前特征集EF_t移除；count+1赋值给count后，执行步骤13；若不为空集，则直接执行步骤13；

步骤13、将k+1赋值给k后；判断k＞j是否成立，若成立，则将j-count赋值给j后，获得更新的第t时刻的特征集EF_t′，记为EF_t'＝{X₁,X₂,...,X_i,...X_j}；X_i表示更新的第t时刻的特征集EF_t′中第i个特征向量；1≤i≤j，并有，表示第i个特征向量X_i具有m个取值；例如微阵列基因表达数据的在某基因的基因表达值，表示第i个特征向量X_i中第v个取值；1≤v≤m；由构成第v个实例；例如微阵列数据中某个实例的的基因表达水平值，从而获得由m个实例组成的数据集D，记为D＝{sam₁,sam₂,...,sam_v,...,sam_m}；例如微阵列基因表达数据；并执行步骤14；若不成立，则返回步骤12执行；

步骤14、初始化i＝1；

步骤15、对于第t时刻的特征集EF_t′中第i个特征X_i，如果第i个特征X_i的新增特征集FA(X_i)不为空或第i个特征X_i的冗余特征集FD(X_i)不为空，则基于第i个特征X_i进行搜索定向，得到第i个特征X_i家族的MDL评分和对应的局部因果结构；此处仅对马尔科夫毯发生变化的特征进行搜索定向，可以降低计算复杂度；

步骤15.1、设置家族评分LminScore＝inf，inf表示无穷大的值；因为家族评分是逐渐趋小的，这里设置成无穷大的值是为了有效地更新；

步骤15.2、从第i个特征X_i的马尔科夫毯的集合MB(X_i)任选一个特征X_g，令X_g作为第i个特征X_i的父特征：Pa(X_i)＝{X_g}；并将X_g从MB(X_i)中删除；添加父特征的时候只能从从第i个特征X_i的马尔科夫毯的集合MB(X_i)进行选择，不是任意的节点，这是局部学习的策略，这样做可以有效地降低搜索时间；

步骤15.3、利用式(3)计算第i个特征X_i家族的MDL评分

N L L (X_{i}, P a (X_{i}), {\hat{θ}}_{i}^{m l e}) = Σ_{k = 1}^{m} {(x_{k i} - {({\hat{θ}}_{i}^{m l e})}^{T} p a (x_{k i}))}^{2} - - - (3)

式(3)中，权值向量用最小二乘法估计获得；计算方法如下式(4)所示：

{\hat{θ}}_{i}^{m l e} = {(Y^{'} Y)}^{- 1} Y^{'} x_{i} - - - (4)

式(4)中，x_i表示X_i上的取值向量，Y表示Pa(X_i)的取值向量，Y'表示Y的转置矩阵；

x_ki表示第i个特征X_i在第k个实例的实际取值，pa(x_ki)表示第i个特征X_i的父特征集Pa(X_i)在第k个实例的实际取值向量，为的转置向量；转置目的是为了执行向量的乘法运算。表示第i个特征X_i在其父特征集Pa(X_i)取值为pa(x_ki)和权值为时所得出的预测值；显然实际取值x_ki和预测值之差就是残差，式(2)的等号右边就是残差平方和。残差平方和RSS是统计学中的概念，表示的是预测值与实际值间的误差平方和，是一种拟合优度的统计量，可以衡量数据和预测模型的偏差。残差平方和的值越小就意味着模型与真实数据拟合的越好。

步骤15.5、定义变量p；并初始化p＝1；定义数组AddMDL(countMB)；用于记录添加第i个特征X_i的马尔科夫毯的集合MB(X_i)中的每个特征到父特征集时的家族评分；

步骤15.6、假设添加马尔科夫毯的集合MB(X_i)的第p个特征到第i个特征X_i的父特征集，并利用式(2)计算第i个特征X_i的家族的MDL评分；并赋值给AddMDL(p)；目的是为了对马尔科夫毯的集合MB(X_i)中的每个特征都进行测试，看哪一个特征添加到父特征集最合适；

步骤15.8、初始化p＝1；定义数组DelMDL(countPA)；用于记录删除第i个特征X_i的父特征集Pa(X_i)中的每个特征时的家族评分；

步骤15.9、假设从父特征集Pa(X_i)删除第p个特征得到新的父特征集合Pa(X_i)'，使用式(4)计算第i个特征X_i的家族的MDL评分；并赋值给DelMDL(p)；

步骤15.11、从数组AddMDL(countMB)和数组DelMDL(countPA)中选择最小值，并赋给变量TempMin；值越小意味着预测值与实际值拟合得越好，所以选择该值；

步骤15.12、判断TempMin＜LminScore是否成立，如果成立，将TempMin赋值给LminScore后，以最小值所对应的添加或删除操作来更新MB(X_i)和Pa(X_i)，并返回步骤15.4；如果不成立，则说明评分收敛即LminScore不再发生变化，则结束基于该特征X_i的搜索定向，执行步骤16；评分收敛说明当前的网络结构是目前方法搜索到的最好的局部网络结构；

步骤17、利用式(5)获得网络G中所有j个特征的总评分MDL(G)和对应的全局因果结构：

M D L (G) = Σ_{i = 1}^{j} (R S S (X_{i}, P a (X_{i}), {\hat{θ}}_{i}^{m l e}) + \frac{| {\hat{θ}}_{i}^{m l e} |}{2} \log m) - - - (5)

式(5)中，Pa(X_i)表示第i个特征X_i的父特征集，表示与i个特征X_i的父特征集Pa(X_i)一一对应的权值向量；表示第i个特征X_i在具有父特征集Pa(X_i)和参数时的家族MDL评分；总评分MDL(G)综合考虑了网络结构的复杂性与网络结构的准确性，选择模型简洁度和准确度综合性能最优的网络；

步骤18、将j+1赋值给j，返回步骤4。目的是为了一直重复的产生特征直至特征个数超过极限值。

Claims

1.一种基于流特征的因果结构学习方法，其特征是按如下步骤进行：

步骤2、定义特征集为EF，并初始化第t时刻的特征集为

步骤3、定义变量j；并初始化j＝1；

步骤6、对所述第j个特征X_j进行相关性分析；

步骤8、定义变量k；并初始化k＝1；

步骤11、定义变量count；并初始化count＝0；初始化k＝1；

步骤13、将k+1赋值给k后；判断k＞j是否成立，若成立，则将j-count赋值给j后，获得更新的第t时刻的特征集EF′_t，记为EF′_t＝{X₁,X₂,...,X_i,...X_j}；X_i表示更新的第t时刻的特征集EF′_t中第i个特征向量；1≤i≤j，并有，表示第i个特征向量X_i具有m个取值；表示第i个特征向量X_i中第v个取值；1≤v≤m；由构成第v个实例；从而获得由m个实例组成的数据集D，记为D＝{sam₁,sam₂,...,sam_v,...,sam_m}；并执行步骤14；若不成立，则返回步骤12执行；

步骤14、初始化i＝1；

步骤15、对于第t时刻的特征集EF′_t中第i个特征X_i，如果第i个特征X_i的新增特征集FA(X_i)不为空或第i个特征X_i的冗余特征集FD(X_i)不为空，则基于第i个特征X_i进行搜索定向，得到第i个特征X_i家族的MDL评分和对应的局部因果结构；

M D L (G) = Σ_{i = 1}^{j} (R S S (X_{i}, P a (X_{i}), {\hat{θ}}_{i}^{m l e}) + \frac{| {\hat{θ}}_{i}^{m l e} |}{2} l o g m) - - - (1)

步骤18、将j+1赋值给j，返回步骤4。

2.根据权利要求1所述的基于流特征的因果结构学习方法，其特征是，所述步骤6中在线的相关性分析是按如下步骤进行：

步骤6.1、设置依赖度阈值α；

步骤6.3、求出相关系数矩阵R的逆矩阵W；

步骤6.4、定义变量k；并初始化k＝1；定义变量θ；

步骤6.6、计算偏相关系数ρ_jk的标准误：

步骤6.7、计算第j个特征X_j和第k个特征X_k的t统计量：

步骤6.11、将k+1赋值给k，并判断k＞j-1是否成立，若成立，则执行步骤7；若不成立，则返回步骤6.5执行。

3.根据权利要求1所述的基于流特征的因果结构学习方法，其特征是，步骤9在线的冗余校验分析是按如下步骤进行：

步骤9.2、定义变量s；并初始化s＝1；定义变量σ；

步骤9.5、计算偏相关系数标准误：

步骤9.6、计算第τ_s个特征和第k个特征X_k的t统计量：

步骤9.7、计算第τ_s个特征和第k个特征X_k的p-value值：

p - {value}^{'} (X_{τ_{s}}, X_{k}) = 2 Φ (- | t_{τ_{s} k}^{' a c t} |),

将赋值给σ；

F D (X_{τ_{s}}) = F D (X_{τ_{s}}) \cup {X_{k}};

4.根据权利要求1所述的基于流特征的因果结构学习方法，其特征是，所述步骤15的搜索定向是按如下步骤进行：

步骤15.1、设置家族评分LminScore＝inf，inf表示无穷大的值；

步骤15.3、利用式(2)计算第i个特征X_i家族的MDL评分

R S S (X_{i}, P a (X_{i}), {\hat{θ}}_{i}^{m l e}) = Σ_{k = 1}^{m} {(x_{k i} - {({\hat{θ}}_{i}^{m l e})}^{T} p a (x_{k i}))}^{2} - - - (2)

步骤15.5、定义变量p；并初始化p＝1；定义数组AddMDL(countMB)；

步骤15.8、初始化p＝1；定义数组DelMDL(countPA)；