CN115132280A - 基于弱先验知识的因果网络局部结构发现系统 - Google Patents

基于弱先验知识的因果网络局部结构发现系统 Download PDF

Info

Publication number
CN115132280A
CN115132280A CN202210824966.1A CN202210824966A CN115132280A CN 115132280 A CN115132280 A CN 115132280A CN 202210824966 A CN202210824966 A CN 202210824966A CN 115132280 A CN115132280 A CN 115132280A
Authority
CN
China
Prior art keywords
cause
weight
priori
adjacency matrix
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210824966.1A
Other languages
English (en)
Inventor
王峻
梁嘉旋
余国先
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210824966.1A priority Critical patent/CN115132280A/zh
Publication of CN115132280A publication Critical patent/CN115132280A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于弱先验知识的因果网络局部结构发现系统,首先通过PNU学习,对先验因果图进行可靠扩展,得到一个更大的先验因果图,对之后的因果图搜索起到指导作用;接下来使用PNS算法搜索目标变量的可能邻居,减小问题的规模;紧接着通过对每一个变量构建一个MLP进行数据拟合搜寻父变量,结合L1范数特征选择、局部预测损失、先验因果图约束以及局部有向无环约束,梯度下降搜寻因果图,能够有效逼近真实准确的局部因果图;最后提取出权重邻接矩阵并进行剪枝,得到最终的局部因果关系;本发明仅以变量观测样本和先验专家知识因果图作为输入,无需繁琐的操作步骤即可获得最终的包含目标变量及与目标变量存在直接因果关系的变量的局部因果图,具备良好的可用性。

Description

基于弱先验知识的因果网络局部结构发现系统
技术领域
本发明涉及数据挖掘及数据处理技术领域,特别涉及一种基于弱先验知识的因果网络局部结构发现系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术,并不必然构成现有技术。
与传统机器学习研究的相关性不同,因果关系揭示了变量之间最本质的关系,因此从一系列变量中学习到因果结构在很多科学领域(如经济学、流行病学和生物信息学等)都是一个关键任务。随机试验是进行因果推断的黄金标准,但是由于道德问题和过高的代价在现实中往往不可行,所以通过观测样本进行因果发现显得尤为重要。因果发现在以基因调控网络为例的实际应用中,基因就是变量,相比于学习整个因果调控网络,针对某个目标基因的局部因果调控关系进行学习可减低时间消耗也更为可行。但由于研究对象较多、部分样本获取的高成本以及伦理约束等因素,得到的观测数据经常不足并存在噪声。在现实应用中面对高维、少量且存在噪声的样本的情况下,如何提高局部因果发现的准确度,是当前局部因果发现技术仍待提升的难点。
发明人发现,目前局部因果结构学习的方法,都是通过条件独立测试发现局部因果骨架后,再根据特殊结构进一步进行边的定向,然而少量且存在噪声的样本会导致错误的条件独立测试结果进而导致得出错误的因果关系;这些依赖于条件独立测试的方法严重限制了它们在实际中的应用,并且在现实应用中,往往会有先验专家知识存在,使得局部因果发现在机器学习技术中还存在较多的改进空间。
发明内容
为了解决现有技术的不足,本发明提供了一种基于弱先验知识的因果网络局部结构发现系统,在以基因调控网络为例的实际应用中,仅以基因表达量观测样本和先验专家知识因果图作为输入,无需繁琐的操作步骤即可获得最终的包含目标基因及与目标基因存在直接因果调控关系的基因的局部因果图,具备良好的可用性。
为了实现上述目的,本发明采用如下技术方案:
本发明第一方面提供了一种基于弱先验知识的因果网络局部结构发现系统。
一种基于弱先验知识的因果网络局部结构发现系统,包括:
数据获取与预处理模块,其被配置为:获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
先验知识扩展模块,其被配置为:根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
局部因果发现模块,其被配置为:在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
局部因果关系提取模块,其配置为:提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
本发明第二方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
与现有技术相比,本发明的有益效果是:
本发明首先通过PNU学习,对先验因果图进行可靠扩展,得到一个更大的先验因果图,对之后的因果图搜索起到指导作用;接下来使用PNS算法搜索目标变量的可能邻居,减小问题的规模;紧接着通过对每一个变量构建一个MLP进行数据拟合搜寻父变量,结合l1范数特征选择、局部预测损失、先验因果图约束以及局部有向无环约束,梯度下降搜寻因果图,能够有效逼近真实准确的局部因果图;最后提取出权重邻接矩阵并进行剪枝,得到最终的局部因果关系;本发明仅以变量观测样本和先验专家知识因果图作为输入,无需繁琐的操作步骤即可获得最终的包含目标变量及与目标变量存在直接因果关系的变量的局部因果图,具备良好的可用性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的基于弱先验知识的因果网络局部结构发现系统的结构示意图。
图2为本发明实施例1提供的基于弱先验知识的因果网络局部结构发现系统的工作方法示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本发明实施例1提供了一种基于弱先验知识的因果网络局部结构发现系统,包括:
数据获取与预处理模块,其被配置为:获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
先验知识扩展模块,其被配置为:根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
局部因果发现模块,其被配置为:在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
局部因果关系提取模块,其配置为:提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
具体的,如图2所示,所述系统的工作方法,包括以下过程:
S1011,获取先验专家知识因果图和基因组的所有表达量观测样本。
具体的,先验专家知识因果图以权重邻接矩阵的形式呈现,其中确定存在的边以权重1表示,确定不存在的边以权重0表示,其余边以权重-1表示。
S1012,对所有观测样本进行标准化处理。
具体的,通过计算出原始数据的平均值μ和方差σ,对原始数据X进行标准化得到
Figure BDA0003746106010000061
S1021,在先验专家知识因果图的基础上发现可靠正例。
具体的,将专家标记的正例和无标签例,进行PU学习,分别训练二分类器并对无标签例进行可靠性高的分类,识别出可靠的正例,损失函数如下:
Figure BDA0003746106010000062
其中xp、xu分别表示正例和无标签例,np、nu分别表示正例和无标签例的个数,πp是一个超参数,表示正例的估计百分比,l(·)表示交叉熵损失函数。
S1022,在先验专家知识因果图的基础上发现可靠负例。
具体的,将专家标记的负例和无标签例,进行NU学习,分别训练二分类器并对无标签例进行可靠性高的分类,识别出可靠的负例,损失函数如下:
Figure BDA0003746106010000071
其中xn表示负例,nn表示负例的个数,πn是一个超参数,表示负例的估计百分比。
S1023,迭代优化二分类器,用发现的可靠正、负例对先验专家知识因果图进行可靠扩展。
具体的,迭代优化二分类器,将最终的可靠正、负例作为对先验因果图的扩展,得到先验权重邻接矩阵
Figure BDA0003746106010000072
其中新增的存在边与不存在边的权重以二分类器的预测结果pjk表示,若存在边预测结果pjk>0.7,则权重为pjk,否则为-1;同理,若不存在边预测结果pjk<0.3,则权重为pjk,否则为-1。
S1031,在给定目标基因的情况下,首先使用PNS算法搜索目标基因的可能邻居,减小问题规模到q个基因。
具体的,将所有其他基因为一个基因拟合一个极限随机森林,并计算基于纯度的特征重要性得分。只有特征重要性得分高于threshold·mean的基因被保留为候选邻居,其中mean是所有基因特征重要性得分的均值。
S1032,为每个基因构建MLP进行数据拟合,结合先验专家知识因果图的指导,计算目标函数。
具体的,对于MLPs中的第一个参数矩阵W(1),运用L1范数进行矩阵稀疏化如下:
Figure BDA0003746106010000081
其中,k是当前MLP的拟合基因,当W(1)趋于稀疏时,权重接近0的元素抑制了对应位置输入基因的作用,从而起到特征选择的作用。然后对于MLPs,通过如下的方式得到权重邻接矩阵:
Figure BDA0003746106010000082
其中,j是当前MLP的一个输入基因,H1是第一层隐藏层的神经元数量,
Figure BDA0003746106010000083
是W(1)第i行j列对应的元素。将构建得到的权重邻接矩阵C,通过与
Figure BDA0003746106010000084
的相似度进行约束,公式如下:
Figure BDA0003746106010000085
其中
Figure BDA0003746106010000086
是C和
Figure BDA0003746106010000087
之间的相似度函数,数值上越小相似度越高,
Figure BDA0003746106010000088
表示将
Figure BDA0003746106010000089
中为0的数返回1,其余数返回0;
Figure BDA00037461060100000810
表示将
Figure BDA00037461060100000811
中大于0的数返回1,其余的数返回0。通过这一函数使得C将
Figure BDA00037461060100000812
中的先验知识也能学习进来。
然后将C应用有向无环约束如下:
Figure BDA00037461060100000813
其中A是掩蔽矩阵,
Figure BDA00037461060100000814
是哈达玛乘。由于研究对象是局部因果关系,因此目标基因附近的无环性是重点关注的部分。在矩阵C中,对于某一基因j及目标基因T,如果j在C中既不是T的父、子基因也不是T的配偶基因,则C(j,T)=0,否则C(j,T)=1,通过
Figure BDA00037461060100000815
的操作就可以得到T附近的权重邻接矩阵,再通过有向无环约束h(·)来确保无环性,其中有向无环约束h(·)的定义如下:
Figure BDA0003746106010000091
其中tr(·)代表矩阵的迹,U是输入的权重邻接矩阵,d是U中的基因数。
公式(7)的等式约束,可以通过增广拉格朗日算法化入到包含公式(3)和公式(5)的目标函数中,转换成无约束优化问题,进而求解,因此目标函数可写成:
Figure BDA0003746106010000092
其中α、β、γ是预定义的超参数,q是S1031中经过降维得到的基因数量,
Figure BDA0003746106010000093
是对第k个基因进行数据拟合的MLP的第一个参数矩阵,
Figure BDA0003746106010000094
是目标基因的局部预测损失,此处使用的是最小二乘损失,μ是惩罚系数,λ是拉格朗日乘数,C(W)是通过公式(4)从W提取得到的加权邻接矩阵C。
S1033,通过迭代求解公式(8)中
Figure BDA0003746106010000095
最小值,得到最终的加权邻接矩阵C。
具体的,使用L-BFGS-B优化算法进行求解,公式如下:
Figure BDA0003746106010000096
其中,W=W+-W-,|W|=W++W-
S1041,提取出最终的权重邻接矩阵,进行权重剪枝。
具体的,将权重邻接矩阵中小于设定阈值的权重置为0,若此时图中仍存在有向环,则依次将最小的权重置0,直至不再存在有向环。
S1042,将经过剪枝的权重邻接矩阵转换成局部因果关系。
具体的,权重邻接矩阵中取目标基因所在行中权值不为0的作为子基因,目标基因所在列中权值不为0的作为父基因,得到最终的局部因果图。
综上所述,本发明首先通过PNU学习,对先验因果图进行可靠扩展,得到一个更大的先验因果图,对之后的因果图搜索起到指导作用;接下来使用PNS算法搜索目标变量的可能邻居,减小问题的规模;紧接着通过对每一个变量构建一个MLP进行数据拟合搜寻父变量,结合l1范数特征选择、局部预测损失、先验因果图约束以及局部有向无环约束,梯度下降搜寻因果图,能够有效逼近真实准确的局部因果图;最后提取出权重邻接矩阵并进行剪枝,得到最终的局部因果关系;本发明仅以变量观测样本和先验专家知识因果图作为输入,无需繁琐的操作步骤即可获得最终的包含目标变量及与目标变量存在直接因果调控关系的变量的局部因果图,具备良好的可用性。
实施例2:
本发明实施例2提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
具体的步骤与实施例1所述系统的工作方法相同,这里不再赘述。
实施例3:
本发明实施例3提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
具体的步骤与实施例1所述系统的工作方法相同,这里不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于弱先验知识的因果网络局部结构发现系统,其特征在于:
包括:
数据获取与预处理模块,其被配置为:获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
先验知识扩展模块,其被配置为:根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
局部因果发现模块,其被配置为:在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
局部因果关系提取模块,其配置为:提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
2.如权利要求1所述的基于弱先验知识的因果网络局部结构发现系统,其特征在于:
权重邻接矩阵中,确定存在的边以权重1表示,确定不存在的边以权重0表示,其余边以权重-1表示。
3.如权利要求1所述的基于弱先验知识的因果网络局部结构发现系统,其特征在于:
在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,包括:
将所有其他基因为目标基因拟合一个极限随机森林,并计算基于纯度的特征重要性得分,只有特征重要性得分高于阈值均值的基因被保留为候选邻居,其中,均值为所有基因特征重要性得分的均值。
4.如权利要求1所述的基于弱先验知识的因果网络局部结构发现系统,其特征在于:
为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵,包括:
对于MLPs中的第一个参数矩阵W(1),运用L1范数进行矩阵稀疏化如下:
Figure FDA0003746106000000021
其中,k是当前MLP的拟合基因,对于MLPs,通过如下的方式得到新的权重邻接矩阵:
Figure FDA0003746106000000022
其中,j是当前MLP的一个输入基因,H1是第一层隐藏层的神经元数量。
5.如权利要求4所述的基于弱先验知识的因果网络局部结构发现系统,其特征在于:
将构建得到的新的权重邻接矩阵,通过与扩展后的先验专家知识因果图对应的原权重邻接矩阵的相似度进行约束,使得新的权重邻接矩阵学习原权重邻接矩阵中的先验知识。
6.如权利要求4所述的基于弱先验知识的因果网络局部结构发现系统,其特征在于:
新的权重邻接矩阵的有向无环约束,包括:
Figure FDA0003746106000000023
其中,A是掩蔽矩阵,
Figure FDA0003746106000000024
是哈达玛乘;
在新的权重邻接矩阵中,对于某一基因j及目标基因T,如果j在C中既不是T的父基因和子基因也不是T的配偶基因,则C(j,T)=0,否则C(j,T)=1;
通过
Figure FDA0003746106000000034
的操作得到T附近的权重邻接矩阵,再通过有向无环约束来确保无环性,其中,有向无环约束,包括:
Figure FDA0003746106000000031
7.如权利要求4所述的基于弱先验知识的因果网络局部结构发现系统,其特征在于:
目标函数为:
Figure FDA0003746106000000032
其中,
Figure FDA0003746106000000033
为目标基因的局部预测损失。
8.如权利要求1所述的基于弱先验知识的因果网络局部结构发现系统,其特征在于:
提取出最终的权重邻接矩阵,进行权重剪枝,将经过剪枝的权重邻接矩阵转换成局部因果关系,包括:
将权重邻接矩阵中小于设定阈值的权重置为0,若此时图中仍存在有向环,则依次将最小的权重置0,直至不再存在有向环;
权重邻接矩阵中取目标基因所在行中权值不为0的作为子基因,目标基因所在列中权值不为0的作为父基因,得到最终的局部因果图。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如下步骤:
获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如下步骤:
获取先验专家知识因果图以及基因组的所有表达量观测样本并进行标准化处理,其中,先验专家知识因果图以权重邻接矩阵的形式呈现;
根据先验专家知识因果图和标准化处理后的观测样本,通过PNU学习发现可靠正例和可靠负例,得到扩展后的先验专家知识因果图;
在给定目标基因的情况下,使用PNS算法搜索目标基因的可能邻居,为每个基因构建MLP进行数据拟合,结合扩展后的先验专家知识因果图,根据预设的目标函数进行梯度下降,得到学习了扩展后的先验专家知识因果图的权重邻接矩阵;
提取最终的权重邻接矩阵,进行权重剪枝后转换为局部因果图,根据局部因果图得到目标基因的直接原因和直接结果基因。
CN202210824966.1A 2022-07-14 2022-07-14 基于弱先验知识的因果网络局部结构发现系统 Pending CN115132280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210824966.1A CN115132280A (zh) 2022-07-14 2022-07-14 基于弱先验知识的因果网络局部结构发现系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210824966.1A CN115132280A (zh) 2022-07-14 2022-07-14 基于弱先验知识的因果网络局部结构发现系统

Publications (1)

Publication Number Publication Date
CN115132280A true CN115132280A (zh) 2022-09-30

Family

ID=83384422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210824966.1A Pending CN115132280A (zh) 2022-07-14 2022-07-14 基于弱先验知识的因果网络局部结构发现系统

Country Status (1)

Country Link
CN (1) CN115132280A (zh)

Similar Documents

Publication Publication Date Title
Hara et al. Making tree ensembles interpretable: A bayesian model selection approach
CN111639710A (zh) 图像识别模型训练方法、装置、设备以及存储介质
JP5250076B2 (ja) 構造予測モデル学習装置、方法、プログラム、及び記録媒体
Rae et al. Fast parametric learning with activation memorization
CN110659742A (zh) 获取用户行为序列的序列表示向量的方法和装置
CN111542841A (zh) 一种内容识别的系统和方法
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
CN109871891B (zh) 一种物体识别方法、装置和存储介质
JP2022530447A (ja) ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
CN113377909B (zh) 释义分析模型训练方法、装置、终端设备及存储介质
US9292801B2 (en) Sparse variable optimization device, sparse variable optimization method, and sparse variable optimization program
Wang et al. Learning interpretable shapelets for time series classification through adversarial regularization
CN114120063A (zh) 基于聚类的无监督细粒度图像分类模型训练方法及分类方法
Schneider et al. Detecting anomalies within time series using local neural transformations
CN117270082A (zh) 基于多传感器数据融合的降水量预测系统及其方法
CN115357720B (zh) 基于bert的多任务新闻分类方法及装置
CN115132280A (zh) 基于弱先验知识的因果网络局部结构发现系统
CN116415990A (zh) 一种基于云计算的自助数据分析方法、系统及存储介质
Manikandan et al. Feature Selection and Machine Learning Models for High‐Dimensional Data: State‐of‐the‐Art
JP2017538226A (ja) スケーラブルなウェブデータの抽出
CN114067155A (zh) 基于元学习的图像分类方法、装置、产品及存储介质
Azmer et al. Comparative analysis of classification techniques for leaves and land cover texture.
Lourentzou et al. AdaReNet: Adaptive Reweighted Semi-supervised Active Learning to Accelerate Label Acquisition
Za’in et al. Scalable teacher-forcing networks under spark environments for large-scale streaming problems
Mansouri et al. A new algorithm for hidden Markov models learning problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination