CN115132280A

CN115132280A - 基于弱先验知识的因果网络局部结构发现系统

Info

Publication number: CN115132280A
Application number: CN202210824966.1A
Authority: CN
Inventors: 王峻; 梁嘉旋; 余国先; 郭伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-09-30

Abstract

本发明提供了一种基于弱先验知识的因果网络局部结构发现系统，首先通过PNU学习，对先验因果图进行可靠扩展，得到一个更大的先验因果图，对之后的因果图搜索起到指导作用；接下来使用PNS算法搜索目标变量的可能邻居，减小问题的规模；紧接着通过对每一个变量构建一个MLP进行数据拟合搜寻父变量，结合L1范数特征选择、局部预测损失、先验因果图约束以及局部有向无环约束，梯度下降搜寻因果图，能够有效逼近真实准确的局部因果图；最后提取出权重邻接矩阵并进行剪枝，得到最终的局部因果关系；本发明仅以变量观测样本和先验专家知识因果图作为输入，无需繁琐的操作步骤即可获得最终的包含目标变量及与目标变量存在直接因果关系的变量的局部因果图，具备良好的可用性。

Description

基于弱先验知识的因果网络局部结构发现系统

技术领域

本发明涉及数据挖掘及数据处理技术领域，特别涉及一种基于弱先验知识的因果网络局部结构发现系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术，并不必然构成现有技术。

与传统机器学习研究的相关性不同，因果关系揭示了变量之间最本质的关系，因此从一系列变量中学习到因果结构在很多科学领域(如经济学、流行病学和生物信息学等)都是一个关键任务。随机试验是进行因果推断的黄金标准，但是由于道德问题和过高的代价在现实中往往不可行，所以通过观测样本进行因果发现显得尤为重要。因果发现在以基因调控网络为例的实际应用中，基因就是变量，相比于学习整个因果调控网络，针对某个目标基因的局部因果调控关系进行学习可减低时间消耗也更为可行。但由于研究对象较多、部分样本获取的高成本以及伦理约束等因素，得到的观测数据经常不足并存在噪声。在现实应用中面对高维、少量且存在噪声的样本的情况下，如何提高局部因果发现的准确度，是当前局部因果发现技术仍待提升的难点。

发明人发现，目前局部因果结构学习的方法，都是通过条件独立测试发现局部因果骨架后，再根据特殊结构进一步进行边的定向，然而少量且存在噪声的样本会导致错误的条件独立测试结果进而导致得出错误的因果关系；这些依赖于条件独立测试的方法严重限制了它们在实际中的应用，并且在现实应用中，往往会有先验专家知识存在，使得局部因果发现在机器学习技术中还存在较多的改进空间。

发明内容

为了解决现有技术的不足，本发明提供了一种基于弱先验知识的因果网络局部结构发现系统，在以基因调控网络为例的实际应用中，仅以基因表达量观测样本和先验专家知识因果图作为输入，无需繁琐的操作步骤即可获得最终的包含目标基因及与目标基因存在直接因果调控关系的基因的局部因果图，具备良好的可用性。

为了实现上述目的，本发明采用如下技术方案：

本发明第一方面提供了一种基于弱先验知识的因果网络局部结构发现系统。

一种基于弱先验知识的因果网络局部结构发现系统，包括：

数据获取与预处理模块，其被配置为：获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理，其中，先验专家知识因果图以权重邻接矩阵的形式呈现；

先验知识扩展模块，其被配置为：根据先验专家知识因果图和标准化处理后的观测样本，通过PNU学习发现可靠正例和可靠负例，得到扩展后的先验专家知识因果图；

局部因果发现模块，其被配置为：在给定目标基因的情况下，使用PNS算法搜索目标基因的可能邻居，为每个基因构建MLP进行数据拟合，结合扩展后的先验专家知识因果图，根据预设的目标函数进行梯度下降，得到学习了扩展后的先验专家知识因果图的权重邻接矩阵；

局部因果关系提取模块，其配置为：提取最终的权重邻接矩阵，进行权重剪枝后转换为局部因果图，根据局部因果图得到目标基因的直接原因和直接结果基因。

本发明第二方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如下步骤：

获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理，其中，先验专家知识因果图以权重邻接矩阵的形式呈现；

根据先验专家知识因果图和标准化处理后的观测样本，通过PNU学习发现可靠正例和可靠负例，得到扩展后的先验专家知识因果图；

在给定目标基因的情况下，使用PNS算法搜索目标基因的可能邻居，为每个基因构建MLP进行数据拟合，结合扩展后的先验专家知识因果图，根据预设的目标函数进行梯度下降，得到学习了扩展后的先验专家知识因果图的权重邻接矩阵；

提取最终的权重邻接矩阵，进行权重剪枝后转换为局部因果图，根据局部因果图得到目标基因的直接原因和直接结果基因。

本发明第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如下步骤：

与现有技术相比，本发明的有益效果是：

本发明首先通过PNU学习，对先验因果图进行可靠扩展，得到一个更大的先验因果图，对之后的因果图搜索起到指导作用；接下来使用PNS算法搜索目标变量的可能邻居，减小问题的规模；紧接着通过对每一个变量构建一个MLP进行数据拟合搜寻父变量，结合l1范数特征选择、局部预测损失、先验因果图约束以及局部有向无环约束，梯度下降搜寻因果图，能够有效逼近真实准确的局部因果图；最后提取出权重邻接矩阵并进行剪枝，得到最终的局部因果关系；本发明仅以变量观测样本和先验专家知识因果图作为输入，无需繁琐的操作步骤即可获得最终的包含目标变量及与目标变量存在直接因果关系的变量的局部因果图，具备良好的可用性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于弱先验知识的因果网络局部结构发现系统的结构示意图。

图2为本发明实施例1提供的基于弱先验知识的因果网络局部结构发现系统的工作方法示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本发明实施例1提供了一种基于弱先验知识的因果网络局部结构发现系统，包括：

具体的，如图2所示，所述系统的工作方法，包括以下过程：

S1011，获取先验专家知识因果图和基因组的所有表达量观测样本。

具体的，先验专家知识因果图以权重邻接矩阵的形式呈现，其中确定存在的边以权重1表示，确定不存在的边以权重0表示，其余边以权重-1表示。

S1012，对所有观测样本进行标准化处理。

具体的，通过计算出原始数据的平均值μ和方差σ，对原始数据X进行标准化得到

S1021，在先验专家知识因果图的基础上发现可靠正例。

具体的，将专家标记的正例和无标签例，进行PU学习，分别训练二分类器并对无标签例进行可靠性高的分类，识别出可靠的正例，损失函数如下：

其中x^p、x^u分别表示正例和无标签例，n_p、n_u分别表示正例和无标签例的个数，π_p是一个超参数，表示正例的估计百分比，l(·)表示交叉熵损失函数。

S1022，在先验专家知识因果图的基础上发现可靠负例。

具体的，将专家标记的负例和无标签例，进行NU学习，分别训练二分类器并对无标签例进行可靠性高的分类，识别出可靠的负例，损失函数如下：

其中xⁿ表示负例，n_n表示负例的个数，π_n是一个超参数，表示负例的估计百分比。

S1023，迭代优化二分类器，用发现的可靠正、负例对先验专家知识因果图进行可靠扩展。

具体的，迭代优化二分类器，将最终的可靠正、负例作为对先验因果图的扩展，得到先验权重邻接矩阵

其中新增的存在边与不存在边的权重以二分类器的预测结果p_jk表示，若存在边预测结果p_jk>0.7，则权重为p_jk，否则为-1；同理，若不存在边预测结果p_jk<0.3，则权重为p_jk，否则为-1。

S1031，在给定目标基因的情况下，首先使用PNS算法搜索目标基因的可能邻居，减小问题规模到q个基因。

具体的，将所有其他基因为一个基因拟合一个极限随机森林，并计算基于纯度的特征重要性得分。只有特征重要性得分高于threshold·mean的基因被保留为候选邻居，其中mean是所有基因特征重要性得分的均值。

S1032，为每个基因构建MLP进行数据拟合，结合先验专家知识因果图的指导，计算目标函数。

具体的，对于MLPs中的第一个参数矩阵W⁽¹⁾，运用L₁范数进行矩阵稀疏化如下：

其中，k是当前MLP的拟合基因，当W⁽¹⁾趋于稀疏时，权重接近0的元素抑制了对应位置输入基因的作用，从而起到特征选择的作用。然后对于MLPs，通过如下的方式得到权重邻接矩阵：

其中，j是当前MLP的一个输入基因，H₁是第一层隐藏层的神经元数量，

是W⁽¹⁾第i行j列对应的元素。将构建得到的权重邻接矩阵C，通过与

的相似度进行约束，公式如下：

其中

是C和

之间的相似度函数，数值上越小相似度越高，

表示将

中为0的数返回1，其余数返回0；

表示将

中大于0的数返回1，其余的数返回0。通过这一函数使得C将

中的先验知识也能学习进来。

然后将C应用有向无环约束如下：

其中A是掩蔽矩阵，

是哈达玛乘。由于研究对象是局部因果关系，因此目标基因附近的无环性是重点关注的部分。在矩阵C中，对于某一基因j及目标基因T，如果j在C中既不是T的父、子基因也不是T的配偶基因，则C(j,T)＝0，否则C(j,T)＝1，通过

的操作就可以得到T附近的权重邻接矩阵，再通过有向无环约束h(·)来确保无环性，其中有向无环约束h(·)的定义如下：

其中tr(·)代表矩阵的迹，U是输入的权重邻接矩阵，d是U中的基因数。

公式(7)的等式约束，可以通过增广拉格朗日算法化入到包含公式(3)和公式(5)的目标函数中，转换成无约束优化问题，进而求解，因此目标函数可写成：

其中α、β、γ是预定义的超参数，q是S1031中经过降维得到的基因数量，

是对第k个基因进行数据拟合的MLP的第一个参数矩阵，

是目标基因的局部预测损失，此处使用的是最小二乘损失，μ是惩罚系数，λ是拉格朗日乘数，C(W)是通过公式(4)从W提取得到的加权邻接矩阵C。

S1033，通过迭代求解公式(8)中

最小值，得到最终的加权邻接矩阵C。

具体的，使用L-BFGS-B优化算法进行求解，公式如下：

其中，W＝W⁺-W^-，|W|＝W⁺+W^-。

S1041，提取出最终的权重邻接矩阵，进行权重剪枝。

具体的，将权重邻接矩阵中小于设定阈值的权重置为0，若此时图中仍存在有向环，则依次将最小的权重置0，直至不再存在有向环。

S1042，将经过剪枝的权重邻接矩阵转换成局部因果关系。

具体的，权重邻接矩阵中取目标基因所在行中权值不为0的作为子基因，目标基因所在列中权值不为0的作为父基因，得到最终的局部因果图。

综上所述，本发明首先通过PNU学习，对先验因果图进行可靠扩展，得到一个更大的先验因果图，对之后的因果图搜索起到指导作用；接下来使用PNS算法搜索目标变量的可能邻居，减小问题的规模；紧接着通过对每一个变量构建一个MLP进行数据拟合搜寻父变量，结合l1范数特征选择、局部预测损失、先验因果图约束以及局部有向无环约束，梯度下降搜寻因果图，能够有效逼近真实准确的局部因果图；最后提取出权重邻接矩阵并进行剪枝，得到最终的局部因果关系；本发明仅以变量观测样本和先验专家知识因果图作为输入，无需繁琐的操作步骤即可获得最终的包含目标变量及与目标变量存在直接因果调控关系的变量的局部因果图，具备良好的可用性。

实施例2：

本发明实施例2提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如下步骤：

具体的步骤与实施例1所述系统的工作方法相同，这里不再赘述。

实施例3：

本发明实施例3提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。