CN102859528A - 使用生物网络识别药物靶点的系统和方法 - Google Patents
使用生物网络识别药物靶点的系统和方法 Download PDFInfo
- Publication number
- CN102859528A CN102859528A CN2011800209793A CN201180020979A CN102859528A CN 102859528 A CN102859528 A CN 102859528A CN 2011800209793 A CN2011800209793 A CN 2011800209793A CN 201180020979 A CN201180020979 A CN 201180020979A CN 102859528 A CN102859528 A CN 102859528A
- Authority
- CN
- China
- Prior art keywords
- bayesian network
- parameter
- network
- probability
- father
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Probability & Statistics with Applications (AREA)
- Physiology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Complex Calculations (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明的某些实施方案可以包括使用生物网络识别药物靶点的系统和方法。根据本发明的示例性实施方案,提供了一种用于预测治疗疾病的药物靶点效果的方法。所述方法可能包括至少部分地基于对疾病的药物抑制效果的知识构建贝叶斯网络结构;将一组参数与构建的贝叶斯网络相关;通过自动过程确定贝叶斯网络的联合概率分布的值;至少部分地基于这些联合概率值导出具有一个或多个平均参数的平均贝叶斯网络;和至少部分地基于所述平均贝叶斯网络计算定量预测。
Description
政府支持的陈述
在美国国立卫生研究院颁发的批准号GM072856的政府支持下做出本发明。美国政府具有对本发明的某些权利。
技术领域
本发明涉及系统生物学。更具体地,本发明提供了一种基于生物网络的系统化方法,用于评估抑制对治疗疾病的多种药物靶点的效果。
背景技术
贝叶斯网络(BN)是一种由贝叶斯定理促进的普通类型的图形化概率模型。逐渐地已经将这样的网络应用于各种计算应用中,如计算生物学和计算机视觉。可能将当前贝叶斯网络参数学习方式分类为两个种类:采用最大似然(ML)估计的频率统计方法,采用最大后验(MAP)估计的贝叶斯方式。ML仅仅使用来自所述数据的统计计数以估计在贝叶斯网络中的参数,而MAP使用某些类型的先验统计信用以进一步调节来自所述数据的统计计数。因此,MAP参数估计是自数据和先前知识二者所计算的组合结果。
可能将先前知识粗略地定义为涉及网络的结构和参数属性的任何陈述。例如,领域的专家可能提供与局部结构相关的信息,通过指定在变量子集之间的条件独立性或甚至在完全指定变量之间的因果关系,因而这个边缘的方向。领域的专家也可能提供与网络参数相关的知识,所述网络参数的范围通过直接将值分配给条件概率表(CRT)中的入口以引入在一个分布中或跨越多个条件分布的不等式和等式约束。另外,域的知识也可能定义了在这些参数上的先验分布。而且,一些知识规定了在先验分布函数中超参数上的等式和不等式约束。
在各种域知识之间,定性的陈述也许是域中最通用和最直观的信息。这些陈述说明了域变量之间的(独立性)依赖性和因果关系。根据定义,“(独立性)依赖性”链接了联合表示中的多个实体,“因果关系”规定了在这个联合设置内的条件和方向。在贝叶斯框架中,在定性域知识中的(独立性)依赖性和因果关系定义了在给出其父节点的所有可能配置的子节点的概率之间的一组不等式关系。由于接近每一个BN承认了给定结构的(独立性)依赖性和因果关系,这种类型的约束提供了最通用和最有用的先验约束给参数学习任务。而且,其对于领域的专家,比较在独立入口上给出指定值或定义Dirichlet之前的超参数,去指定在CRT中入口上不等式约束要求更少。
研究者已经提出了多个算法去学习贝叶斯网络参数,通过利用各种形式的先前知识,如Dirichlet函数[2]、[3]。在某些参考文献[4]、[5]、[6]中,提出了结合参数共享约束的用于各种图形模型的参数学习方案。例如,在一个多元条件分布中的参数等式。将这些约束的形式限制为或参数共享或在一个条件分布内的不等式约束,如P(A|B)>P(A|~B)。更通用和重要的不等式约束,如P(A|B)>P(A|~B)不被他们的方法所解决。在其他参考文献[10]和[11]中,提出了方法用于处理在参数学习中的不等式约束。
因而,不等式约束已经被提出并用于定性概率参考文献[18]、[19]。而且,由于缺少在这些约束中的定性测量,他们在结合任意BN学习过程中的定性训练数据中已经长期被忽略。
当前药物发展策略主要集中在研发用于单一目标的紧抑制剂,其可能不是治疗疾病的最有效方法。系统生物学的最近发展清楚地验证了基因/蛋白质紧密互连。毫无疑问,在基因网络中药物靶点的作用是用于抑制剂疗效的决定因素。另外,考虑到基因网络的冗余度和鲁棒性,疾病的有效的治疗可能需要同时抑制多种蛋白质。研发靶向在路径中的一组蛋白质的制药将开创在药物探索中新的领域并在不久的将来将是一个趋势。
给定基因网络的复杂度,困难的是,如果不是不可能的,去手动选择蛋白质的组合作为药物靶点并预测抑制这些蛋白质的效果。因此,正在不断寻找新的药物靶点的制药公司需要一种以系统和公正方法可能解决这个问题的计算方式。
发明概述
本发明的某些实施方案可以解决上述需要的一些或全部。本发明的某些实施方案可以包括使用生物网络识别药物靶点的系统和方法。
根据本发明的示例性实施方案,提供了一种被提供用于预测治疗疾病的药物靶点效果的方法。所述方法可能包括至少部分地基于对疾病的药物抑制效果的知识构建贝叶斯网络结构;将一组参数与构建的贝叶斯网络相关;通过自动过程确定贝叶斯网络的联合概率分布的值;至少部分地基于这些联合概率值导出具有一个或多个平均参数的平均贝叶斯网络;和至少部分地基于所述平均贝叶斯网络计算定量预测。
根据本发明的另一示例性实施方案,提供了一种自动确定贝叶斯网络中的多项分布的方法。所述方法包括使用与构建的贝叶斯网络结构相关的一组联合概率参数构建贝叶斯网络的图形结构;设计自动过程以确定与所述联合概率参数相关的值;同时导出等效平均贝叶斯网络或贝叶斯网络的类;和使用等效平均贝叶斯网络或贝叶斯网络的类实施定量预测和推理模拟。
根据本发明的示例性实施方案,提供了一种确定贝叶斯网络的参数的系统。所述系统可以包括存储可执行指令的至少一个存储器;与所述至少一个存储器通信的至少一个处理器,其中所述至少一个处理器可操作用来执行已存储的指令以接收多个不等式参数约束,所述不等式约束至少部分地基于定性领域知识;基于所述多个不等式参数约束构建参数分布;使用定量数据统计,整合所述参数分布以使用定量领域知识确定贝叶斯参数计分函数,其中所述贝叶斯参数计分函数同时反映了所述定量领域知识和定性领域知识。
本发明的示例性实施方案提供了一种通过将定性导出陈述的不等式限制与数据整合来实施在给定结构的贝叶斯网络中的参数学习的算法或过程。由本发明的实施方案所提供的示例性算法可能处理许多其他类型的先前知识和限制,如未定向关系,逻辑和高阶非线性约束。即使使用最通用的约束,本发明的示例性实施方案可能显著地提高学习精度,即使使用非常稀少的数据(几个样本)。
相比较而言,本发明的方法可以直接通过采样和获得dirichlet超参数来直接作用于参数空间。因而,本发明的方法可能比一些传统方法更有效和可行[13]。除了使用先前知识基于数据的学习方式,提供了一种新的算法用于通过仅仅使用先前知识(没有任何定量训练数据)实施在(动态)贝叶斯网络中的定量概率推理[7]。使用本发明的示例性实施方案,可能的是,表示具有线性回归的条件概率之间的各种不等式关系[7]。可以使用参数约束用于定义在其中每一个模型与先前知识的主体一致的模型空间中的分布。不一致的知识可能被转化为在知识空间上的分布[8]。
本发明的示例性实施方案提供了一种使用系统生物学方式识别药物靶点的计算方法。给定一种调节疾病的网络,本发明的方法可能预测抑制在所述疾病的标记基因上的一组基因的效果。例如,如果在疾病中高度上调两个标记基因,本发明的方法可能发现哪些基因可能减少所述两个标记基因返回到正常水平的出现的抑制。因此,本发明的方法提供了一种识别药物靶点的系统方式。更具体地,本发明的示例性实施方案提供了一种基于生物网络的系统方法,用于评估治疗疾病的多个药物靶点的抑制效果。这样的效果经常不能轻易地通过使用传统分子生物学方式来识别。
不同于使用普通或偏微分方程(ODE或PDE)的网络行为建模的常用方式,示例性实施方案不需要任意类似于用在ODE或PDE中的速率常数的自由参数。这种特征使得建模大的网络(数百个节点)并分析多个基因的同时扰动的后果成为可能。相反,ODE或PDE经常被限制为分析相对较小的网络(10-20个节点)。
在药物靶点探索中分析大的网络的能力是重要的,因为调节疾病的基因网络经常涉及大量的基因。因此,ODE或PDE方式仅仅可能考虑在网络中的局部效果。然而,本发明的实施方案可能考虑到抑制在网络中蛋白质的全局效果并因此可能用于药物靶点探索中。
在某些实施方案中,本发明提供了一种自动确定在给定网络结构的贝叶斯网络中的数值参数的计算机辅助过程。这是预测抑制在疾病的标记基因上的蛋白质的效果的重要步骤。在科学和工业领域中,经常需要定量仿真用于获得对系统的更好理解和用于预测在某些环境下的系统行为。例如,在与基因有关的疾病中,基因和蛋白质相互调节以控制疾病的进展。抑制特定基因/蛋白质可能为疾病过程中引入显著变化。在这样的情况中,期望使用计算机辅助仿真算法以定量的水平来预测这样的变化。
根据本发明的示例性实施方案,提供了一种利用贝叶斯网络的算法,所述贝叶斯网络由表示在所述数据中变量之间的依赖性的结构和指示某些事件发生概率的参数所构成。在示例性实施方案中,所述贝叶斯网络可能被学习自其中通过最大化某些统计分数确定结构和参数的一组数据。在自所述数据建立了贝叶斯网络之后,可能调查基于特定环境下网络行为的定量预测。用于这样定量推断的先决条件可能包括(i)所述网络结构已知,和(ii)在这种结构下已配置所述数值参数。
在药物靶点探索的实践中,定量数据组基本上是不可用的和/或与所述网络的维度比较是稀疏的。在这种情况下,很难从这些数据足以学习到贝叶斯网络,即学习的贝叶斯网络对于定量预测在统计学上不显着。或者,仍旧可能的是,通过利用领域专家的知识与域中其他知识资源,如科学出版物,构建贝叶斯网络结构。因而,剩下的问题最终退为在构建的网络中的参数配置。没有量化的数据,对于领域的专家几乎不可能的是,确定在复杂贝叶斯网络中给定大量局部结构的多项分布中的每一个单个概率。本发明的示例性实施方案解决了这样的问题,通过提供一种方法和/或计算机辅助仿真过程,以自动地确定在给定其结构的贝叶斯网络中的多项分布。根据示例性实施方案,所述方法可能包括通过增加在根据领域专家和其他知识资源的变量之间的定向边或通过在所述过程开始之前给定或获得的图形结构来构建贝叶斯网络的图形结构的第一步骤。根据示例性实施方案,可能将一组参数关联于构建的贝叶斯网络结构,这些参数可能包括联合概率。在所述组中的每一个参数指示结合其他变量的值的一个变量的值的概率。
在示例性实施方案中,本发明可以包括指定仅仅基于在贝叶斯网络中的(局部)结构确定所述联合概率分布的值的自动过程的第二步骤,即激活父母的(局部)数据和抑制父母的(局部)数量。根据示例性实施方案,所述激活父母,被定义为父节点,当出现时,可能增加子节点的信用;抑制父母,被定义为父节点,当出现时,减少子节点的信用。使用所述参数组的确定,本发明的示例性实施方案可以包括同时导出等效平均贝叶斯网络或贝叶斯网络的类的第三步骤。这种等效单个贝叶斯网络可以是具有来自所述贝叶斯网络的类的平均参数的贝叶斯网络。等效平均贝叶斯网络或贝叶斯网络的类可能被用于实施定量预测和推理模拟。
本发明的示例性实施方案使得自动参数配置能够在给定其结构的贝叶斯网络中。特别地,根据示例性实施方案,局部结构,即局部激活的父母和抑制父母的数量是用于这样参数配置的唯一必要条件。随后,可能自等效平均贝叶斯网络或自贝叶斯网络的类导出定量预测。已经批准了这些定量预测以与实际实验的生物学数据一致。
在某些示例性实施方案中,自动联合分布配置可基于三个逻辑观察:(A)排除父母之间的交互,更多数量的子节点已经变为出现/激活的激活父节点,子节点的较大信用可能变成在抑制父母的相同数量的激活/出现之下。(B)排除父母之间的交互,更多数量的子节点已经变为出现/激活的抑制父节点,子节点的较小信用可能变成在激活父母的相同数量的激活/出现之下。(C)考虑特定父母之间的交互,可能根据满足所述交互提供的逻辑来调节陈述(A)和(B)。
在本发明的其他示例性实施方案中,在正出现的特定数量的激活和/或抑制父节点的环境下的子节点的信用/概率可以由子节点和其父节点的联合分布来表示和计算。在本发明的又一其他示例性实施方案中,在陈述(A),(B)和(C)中的基本逻辑,即所述数量的正出现的激活和抑制父节点的逻辑导致较大或较小的子节点信用。图1描绘了被编码为矩阵的这样的逻辑。所述行指示了子节点的激活父母的数量,所述列指示了子节点的抑制父母的数量。在所述矩阵中的每一个元件为在由矩阵行/列索引指定的激活和抑制父节点的组合下的子节点的概率。激活和抑制父节点的各种组合给出了在联合分布中的父节点和子节点的例示。换句话说,基于在例示中的激活父母的数量和抑制父母的数量将联合概率的所有例示分类为数个种类(每一个种类是在图1中参数排序矩阵中的元件)。
根据上述陈述(A),(B)和(C),在矩阵中的每一个元件,即概率值,如图1所示被设置为从左到右升序和从上到下降序。父节点和子节点的联合概率可以取决于按照这些顺序的参数空间中的采样。优选地,所示升序和降序覆盖了一个或多个大的关系和/或小的关系和/或大/相等关系和/或小/相等关系。
在本发明的其他示范性实施方案中,每一个联合概率样本指定了一个贝叶斯网络,这些样本一起定义了贝叶斯网络的类。在这些联合概率样本上的平均值可以被确定并导出具有平均参数的平均贝叶斯网络。根据本发明的示例性实施方案,通过在一组贝叶斯网络上的整合计算定量预测,通过在所述第二步骤(如上提供的一样)中的升序/降序矩阵给出所述整合的限制。所述整合也被乘以与所述参数相关的组中的贝叶斯网络的先验概率。可通过Monte Carlo仿真和/或Markov链估算所述整合使得被给予有序矩阵的每一个联合概率参数被接收于相同的先验概率。如果必要,可能的是,在领域专家和/或其他知识资源的指导下选择所述联合参数空间的不同领域中的不同先验概率。
在示例性实施方案中,可以给出具有循环的图形结构。这样的图形结构与上述的DAG(有向非循环图)和贝叶斯网络的定义不一致。因此,循环图形结构被转化为非循环图形结构的时间发展。
可以将本发明的示例性实施方案用于众多的应用,如分子生物学,基因工程,金融。优选的应用领域是生物和/或生物医学领域。在这些领域中,图形结构由与从蛋白质到基因的交互和/或来自疾病发生的生物分子的影响相关的专家和其他知识资源给出。可以根据所述第二步骤的局部结构导出所述参数配置。
本发明的示例性实施方案包括一种具有被存储在由计算机执行的机器可读载体上的程序代码的计算机程序产品。
图2示出了在贝叶斯网络中发生的非循环图形结构的实施例。根据所述第一步骤的执行,给出结构G1-G5,他们的相关联合概率可被写为:Θ1:P(A,B,C,D);Θ2:P(A,B,D);Θ3:P(A,B,D);Θ4:P(A,D);Θ5:P(A,D)Eq.(a1)
由这些结构和他们参数所定义的贝叶斯网络可被写为:B1=(G1,Θ1);B2=(G2,Θ2);B3=(G3,Θ3);B4=(G4,Θ4);B5=(G5,Θ5);Eq.(a2)
通过所述第二步骤的执行,构建了放置在激活和抑制父节点的组合下的子节点概率上的相对顺序的矩阵,如图3a-3e中所示。
根据示例性实施方案,在所述矩阵中的值Pi,j指示了在激活父节点j和抑制父节点i的出现中的子节点概率。可以通过联合概率表示这个值。例如,在图3d中,P0,0和P0,1被计算为:
根据所述矩阵,在Eq.(3),(4)中的所述四个联合概率之间的顺序为:
同样众所周知的是,根据概率理论,所述四个联合概率总计为1:
根据本发明过程的第三步骤,与结构G4一起的每一个联合概率样本唯一地定义了贝叶斯网络B4。这些网络形成了生成定量预测的贝叶斯网络的类,最终定量结果是这些预测的数值平均值。另外,这些联合概率样本结果的平均值形成了等效平均贝叶斯网络中。这种等效贝叶斯网络用于生成定量预测。
附图简要说明
图1描述了基于局部结构的参数排序矩阵。
图2描述了图形结构样本。
图3a描述了Θ1的排序矩阵。图3b描述了Θ2的排序矩阵。图3c描述了Θ3的排序矩阵。图3d描述了Θ4的排序矩阵。图3e描述了Θ5的排序矩阵。
图4a描述了联合概率样本。图4b描述了条件概率样本。
图5描述了人胚胎干细胞中的Oct3/4标记基因的预测和实验基因表示的变化之间的相关性,图5b描述了用于Nanog标记基因的相同内容。
图6a-6l描述了在玩具网络中的参数学习实施例:所述网络包含两个二元节点。A是B的激活剂专利。X,Y轴分别表示条件概率P(B/A)和P(B/A);Z轴等于在使用ML,MAP和QMAP估计的Eq.8中的后验统计计数[-(Nijk+M1 ijk)]的负值。
图7a描述了在酵母细胞循环网络中的参数学习,图7b描述了KL收敛。
图8a-8d分别描述了来自ML和QMAP的AU识别网络参数学习结果的对比。
图9表示了动态贝叶斯网络。
图10表示了与乳腺细胞的增殖网络相关的2时间片的贝叶斯网络。
图11示出和示例了在MCF-7细胞中的细胞增殖上的预测。
图12示出了在预测和实验之间的相关性。
图13示出了在三个乳腺正常和癌症细胞中的细胞增殖上的预测。
图14示出了在预测和实验之间的相关性。
图15是方法的流程图,根据本发明的示例性实施方案。
图16是另一方法的流程图,根据本发明的示例性实施方案。
发明详述
学习的贝叶斯网络的一般化性能较大地依靠于先前提供给学习机器的质量。事实上,先验分布被设计用于将添加剂领域专家的知识提供给容忍围绕这些初始计数的一些变化的贝叶斯网络中的参数。学习任务是在这个数据统计的初始计数的组合调节。先验分布的使用在稀疏数据的情况中甚至变为更加重要。
在指定Dirichlet优先(通常用于最大一个后验估计)中的一个基本问题是,对于领域专家经常不可能的是,精确地指定Dirichlet分布的参数,因为他们对于领域专家不直观。因此,在实践中,Dirichlet优先的参数是或随机分配或等同地设置哪一个导致或非信息优先或统计上的不精确优先。当数据是稀疏时,这种不精确优先诱导了在选择单个最佳模型时的添加剂偏见。
另一方面,通常存在来自领域中许多资源的可获得的定量信息,如领域专家,文献,数据库等。这样的知识通常包含说明某些定性关系的有效信息,如不等式或逻辑,在所述领域的实体之间。在贝叶斯网络学习中已经忽略了这种类型的定性知识,由于他们的缺乏期望用于学习机器的定量信息的特性。
本发明的示例性实施方案包括一种通过将通用定性领域知识整合于定量数据来学习贝叶斯网络中的参数的框架。首先,定性信息被转化为数学公式,如约束。随后招募Monte Carlo采样用于重建在定性领域知识之外的定量优先分布,涉及新的分数用于组合先验分布和数据统计。在计算生物学中的基因调节网络和在计算机视觉中的面部动作单元识别网络中都测试这些算法(QMAP)。这些结果示出了(i)使用甚至很通用的定性领域知识,QMAP显著地胜过ML和MAP估计;(ii)QMAP获得令人惊讶的良好估计,即使使用非常稀疏数据,并显著地降低了对训练数据集的数量的依赖性。
方法
提供了一种使用通用先验知识用于贝叶斯网络参数学习的框架。在这种研究中,使用知识模型[9,10]用于将定性领域知识转化成一组不等式参数约束。自这些约束处重建所述参数先验分布(即,先验伪计数)。提高了一种将这种优先分布整合于定量数据统计的新的贝叶斯参数计分函数。以这种方式,通过定量数据和先验知识二者组合性地调节所述参数后验分布。
A.定性约束
一般地,定性领域知识可能定义在贝叶斯网络中条件概率上的各种约束。如之前所述,可能通过线性回归函数f(θijk)≤c,i,j,k(c是标量)表示这些约束的大多数,其中θijk是为k的第i个节点的状态的条件概率,给定其第j个父母配置。特别地,可能自这个函数导出四种类型的约束。
范围约束定义了在贝叶斯网络中任意参数的上界和下界:
0≤αi TGFβk≤θijk≤βijk≤1(1)
交叉分布约束定义了在不同环境下一对参数之间的相对关系。如果在约束中的两个参数共享相同节点索引i和值k,但是不同父母配置j,所述约束被称为交叉分布约束。这些约束可能通常被导致于在定性知识中的因果关系。
内部分布约束定义了在相同环境下一对参数之间的相对关系。如果在约束中的两个参数共享相同节点索引i和父母配置j,但是不同值k,所述约束被称为内部分布约束。共享约束[6,7,8]的参数是这种类型的实施例。
间分布约束定义了在相同环境下一对参数之间的相对关系。如果在约束中的两个参数不共享节点索引i,父母配置j和值k的任意一个,所述约束被称为间分布约束。
B.定性贝叶斯参数计分(QBPS)
在本部分,提供了同时并有定量数据和这些先验约束的参数的后验概率,将这种计分函数命名为定性贝叶斯参数计分(QBPS)。这种给定贝叶斯网络结构和一组定性约束的对数形式的参数后验概率可被写为
log P r(θ|G,D,Ω)=log Pr(D|θ,G)+log Pr(θ|G,Ω)_c(5)其中θ指示了在贝叶斯网络中的参数,G是所述网络的结构。Ω表示如部分III-A中所述的定性先验知识中的一组约束。在与[1]相同的假设下,即i)iid和完整的样本;ii)按照多项分布的数据;iii)参数模块化和独立性;iv)先验参数分布是指数族,Eq.5可能分解为数据可能性和参数先验分布。所述数据对数可能性采用传统的参数学习方法。
其中Nijk是对于第i个节点具有k的值和对于其父母具有j的值的训练日期中发生的数量。
通过定性约束说明所述参数先验分布。基于这些约束,可能采样一组独立的先验参数实例,在所述组中的每一个参数按照在指数族中的离散分布,如多项分布。因此,可能将所述先验参数分布定义为
给出Ω和G,这组先验参数θijk定义了独立的先验网络的类,即在所述组中每一个参数定义了一个先验网络。现在,如果在先验网络A中采样A次(A是任意数),存在于A样本中的(Xi=k,∏i=j)的“成功”命中等于Mijk=A×Pr(Xi=k,∏i=j|G,Ω)。一起,可以将所述QBPS写作为
以这种方式,每一个先验网络确定了伪先验统计计数Mijk并提供了联合所述数据统计的软调节。Mijk是功能上等于在传统参数学习方法中的dirichlet分布的超参数,可能轻松地导出封闭形式的估计。因此,基于定性先验知识Ω的这组先验网络增加了数据的统计并定义了后验概率的类。通过将所述数据统计投影到由来自定性先验知识Ω的不等式约束所定义的先验参数空间,可以获得一组后验概率(QBPS计分)。
C.QBPS计分的最大化
在本部分中,示出了QBPS计分的类可被导出给定数据和定性先验知识。每一个QBPS计分与由这些约束所定义的模型空间中的单个先验网络相关。因而,通过计算其导数和设置所述导数为零作为传统学习方法,可能获得每一个QBPS计分的局部最大值。因而,QBPS计分的局部最大估计等于
其中Mijk=A×Pr(Xi=k,∏i=j|Ω)。现在,假定A和N0具有比率γ,即A=γ×N0,Eq.9可被扩展为
根据Eq.10,其示出了比率γ实际指定了在数据统计和先验知识统计之间的信用比率。如γ=0,其忽略了来自先验知识的统计并仅仅信任在所述数据中的统计,因而,在Eq.10中的估计收敛到ML结果;如果γ=+∞,在数据中的统计被忽略并仅仅信任先验知识,这些结果收敛到具有先验知识的贝叶斯推理[9,10]。由于Eq.8中的估计是来自在定性先验知识和数据观察中的不等式约束二者的联合效果,其被命名为定性最大后验(QMAP)估计。
D.QMAP估计
1.使用全贝叶斯方式的QMAP估计
所述贝叶斯网络模型的后验概率分布仅仅由给定网络结构(G)的其参数分布来定义。如先前所示的一样,所述定性约束Ω可能定义了在所述先验参数空间中的一组约束。通过招募Monte Carlo样本,来自这组约束的先验参数分布可被重建,可获得一组先验网络/模型(m),其与所述定性知识的主体一致。因而,贝叶斯网络模型的最终后验概率由这个类型的先验网络根据一组QBPS计分(Eq.8)所定义。为了进一步预测来自所述训练数据(D)和先验约束Ω的变量X上的未来观察,跟定贝叶斯网络结构(G),这种预测可能被计算为在由其自己后验概率所加权的参数空间上的整合。
Pr(X G,D,Ω)=∫θPr(Xθ,G)Pr(θG,Ω,D)dθ(11)
给定数据和定性先验知识,即Pr(θ|G,Ω,D),的模型参数的后验概率轮流是在由Ω所定义的类中所有可能先验模型(m)上的整合,因而,扩展Eq.11可能被扩展为
在Eq.12中的Pr(mΩ)等于1,由于所有有效的先验模型(m)与这些先验约束Ω一致。
可通过其局部最大值估算外部整合,如果假设用于每一个模型的QBPS曲线是多峰的,则所述推理可以被写作为Pr(XG)。使用整个贝叶斯方式,所述参数的最终QMAP估计可以被优化,通过整合在所述先验网络空间上的局部QBPS最大值组,即选择最大化所述被整合的QBPS计分的QMAP估计。
注意,每一个先验网络m唯一关联于伪先验统计计数Mijk。所述整合可被估算于使用Monte Carlo采样的Eq.13中并将所述估计简化为其中Pr(mΩ)等于一,如果是在由定性先验知识所定义的先验网络的类中,否则,其等于零。通过采用根据θijk的Eq.13的导数,使用整个贝叶斯方式获得的被约束QMAP估计为
2.使用频率论最大化方式的QMAP
另一方面,给出定性先验知识和训练数据,从通过实施Eq.10的多个先验参数样本所导出的一组QMAP最大值。实际上,使用Monte Carlo样本,这组先验网络可被提取给定定性约束。每一个先验网络与唯一相关。通过频率论最大化方式可获得最终QMAP估计以从所述参数后验概率空间处选择一个单个最佳估计。以这种方式,可以获得来自一组局部最大值的最大值。
图6a-6l描述了在玩具网络中的参数学习实施例:所述网络包含了两个二元节点。A是B的激活剂专利。X,Y轴分别表示条件概率P(B/A)和P(B/A);Z轴等于在使用ML,MAP和QMAP估计的Eq.8中的后验统计计数[-(Nijk+M1 ijk)]的负值。图6示出了在Eq.8中的后验统计计数的实施例绘图。在ML学习的情况中,对于所有i,j,k,等于零。在MAP学习的情况中,仿真了典型的场景,其中将dirichlet参数等同地设置为标量。在这种情况中,所述dirichlet参数趋于平滑所述后验计分,通过为所有i,j,k增加相等数量的伪计数。被平滑的后验有益于此情况中的均匀分布。通过将这些先验伪计数设置为1,传统MAP方法试图最小化这种偏见平滑效果。然而,当所述训练数据相对小时,所述偏见仍然显著。在图6k和6l中,示出了QMAP方法增加所述后验分布,通过从所述定性知识重构所述先验,每一个先验分布样本被合并于所述数据统计以调节在相等机会上的后验计数。以这种方式,位于所述后验空间中的多个局部最大值可以被探讨使得确保选择全局最大值。
在本申请中,引用了各种出版物。所有这些出版物和被引证在这些出版物内的这些参考文献的公开内容在此通过引用一体并入本申请中为了更完整地说明本公开内容涉及的领域现状。此处任何信息不被解释为本发明者是无权凭借之前发明先期进行这些内容公开的许可。
在一定程度上,此处通过引用并入的任意文献所提供的任意定义或使用与此处提供的定义或使用冲突,此处提供的定义或使用进行控制。
在美国专利和商标局之前的任意申请中,提供了本申请的摘要以满足37C.F.R.§1.72的要求的目的和在37C.F.R.§1.72(b)中陈述的目的“为了使得美国专利和商标局和公众能够一般地快速地自本技术公开内容的本质和要点的粗略检查来确定”。因此,本申请的摘要不打算用来解释这些权利要求的范围或用来限制此处公开的主题的范围。而且,此处可以使用的任意标题也不打算用来解释这些权利要求的范围或用来限制此处公开的主题的范围。说明实施例或者被指示为建设性或先知的过去时态的任意使用不打算反映出所述建设性或先知的实施例实际上已经被执行。
通过下列实施例进一步描述本发明,其不被以任意方式解释为将限制强加到权利要求的范围上。相反,应当清楚地理解到,这样手段可能具有各种不同方面,实施方案,修改和其等同体,在阅读此处说明书之后,其可能将自身提示给本领域一个普通技术人员而不背离本发明的精神。
实施例
实施例1
酵母细胞周期网络
在本研究中,测试了在现实生物网络中的算法。酵母细胞周期的转录调节网络最近被划定和证明为鲁棒性[17]。在图7a中的这个网络中(采用了在[17]中的网络),转录因子和他们的靶基因形成了具有自动调节和反馈调节的复杂循环图。所述动态贝叶斯网络用于建模这个生物网络。在生物网络中,可能基于转录调节的本质特性制定这些约束。如图7a中所示,在两个基因之间的每一个链路的颜色(灰度等级)指示了或激活或抑制调节。“绿”颜色指出激活,即父基因激活子基因。而“红”颜色指出抑制。如果通过多个父节点调节基因,GP指示了所有激活父基因,GN指示了所有抑制父基因。则获得了P(Gi=1|GP=0,GN=1)≤P(Gi=1|GP=1,GN=0)。“黄”链路表示负的自反馈调节,其意思为这个基因的表示等级将由自身抑制的。
由于未揭露这个网络的真正参数,将随机概率分配给这个网络的链路。对于每个参数分配的一轮,合成时间的数据集被独立地生成于代表性的样本大小,即(10,20,30,50,100,150,200)。这个时间的数据集用于学习最初参数分配。在每一个学习任务中,三个学习方案,即ML,MAP(具有dirichlet参数Mijk=1)和QMAP被实施。对于每一个方案,通过将学习到的参数(在指定样本大小之下)的Kullback-Leibler收敛平均到实际参数分配来计算学习结果。所述学习过程重复于各种参数分配。在图7b中示出了用于具有各种训练样本的每一个学习方案的这些最终结果(平均KL收敛)。在10个训练样本处,QMAP改善了学习精度,通过超过3次到ML估计和2次到MAP估计。示出了在动态网络中在所有样本大小之下QMAP算法不断地胜过ML和MAP方式。特别地,在稀疏数据(数据样本少于50)的情况中,这些结合定性领域知识的QMAP方法,比ML和MAP显著地改善了估计精度。为了达到良好的学习结果,(如KL≤0.1),QMAP需要30到50个样本。为了获得可比较的结果,ML和MAP需要100到200个样本。实际上,可以做出结论,对于类似酵母细胞周期的转录调节网络的动态系统中的参数学习任务,i)QMAP可能彻底地改善学习精度,与ML和MAP相比较。在稀疏数据的情况中,QMAP改善了估计精度(根据KL收敛)2到3倍;ii)为了达到良好的预测性能(根据KL收敛),QMAP减少所需的时间数据样本大概3到4倍。这对于难于且昂贵地去获得时间数据集的动态系统中的参数学习任务来说特别有价值。
图8描述了分别来自ML和QMAP的AU识别网络参数学习结果的比较。(a)具有AU节点和测量节点的AU识别网络;(b)基于具有各种样本大小的训练数据集的AU网络中参数学习的K-L收敛测量。使用BN的AU识别技术的比较分别学习自ML和QMAP。QMAP到标准ML技术被比较;(c)AU识别网络;和(d)在AU节点上的200训练样本AU处的识别技术计分。
图9表示了动态贝叶斯网络,图10表示了与乳腺细胞的增殖网络相关的2时间片的贝叶斯网络。在图9中的行表示了激活,平头表示抑制。细胞因子TGFβ抑制了细胞生长促进剂,c-MYC。另外,c-MYC促进了细胞增殖,通过抑制多种细胞的生长抑制蛋白,p15,p21。TGFβ提升了三个细胞周期蛋白依赖性激酶的抑制剂的活性:p15,p21和p27。p15,p21和p27抑制了在cyclinD和CDK4,6之间的复合物形成,p21,p27进一步组织了细胞周期蛋白E-CDK2的活性。TGFβ提升了CDK4/6特定抑制剂p15的表达。p27绑定CDK4,6以形成复合物,同时,在p15的出现下,自这个蛋白质复合物处释放p27。p15间接地刺激了p27的激增。细胞周期蛋白D1和CDK4,6导致了结合由细胞周期蛋白E和CDK2形成复合物的细胞增殖的复合物。除了TGFβ路径,多动Ras信号调节细胞的发展并促进细胞生长。
图11-14表示了在乳腺癌细胞中具有干扰的TGFβ和细胞周期蛋白D1的细胞增殖效果的预测。图11示出和实施例了在MCF-7细胞中细胞增殖上的预测。图12示出了在预测和实验之间的相关性。图13示出了在三个乳腺正常和癌症细胞中的细胞增殖上的预测。图14示出了在预测和实验之间的相关性。
现在将参照图15的流程图说明对治疗疾病的药物靶点的效果预测的示例性方法1500。所述方法开始于块1502中,根据示例性实施方案,包括至少部分地基于对疾病的药物抑制效果的知识构建贝叶斯网络结构。在块1504中,所述方法1500包括将一组参数与构建的贝叶斯网络相关。在块1506中,所述方法1500包括通过自动过程确定贝叶斯网络的联合概率分布的值。在块1508中,所述方法1500包括至少部分地基于这些联合概率值导出具有一个或多个平均参数的平均贝叶斯网络。在块1510中,所述方法1500包括至少部分地基于所述平均贝叶斯网络计算定量预测。所述方法1500在块1510后结束。
现在将参照图16的流程图说明自动确定在贝叶斯网络中的多项分布的另一示例性方法1600。所述方法开始于块1602中,根据示例性实施方案,包括使用与已构建贝叶斯网络结构相关的联合概率参数组构建贝叶斯网络的图形结构。在块1604中,所述方法1600包括设计自动过程以确定与所述联合概率参数相关的值。在块1606中,所述方法1600包括同时导出等效平均贝叶斯网络或贝叶斯网络的类。在块1608中,所述方法1600包括使用等效平均贝叶斯网络或贝叶斯网络的类实施定量预测和推理模拟。所述方法1600在块1610后结束。
实施例2
面部动作单元识别
在本研究中,将本发明方法应用于面部动作单元(AU)识别。所述面部动作编码系统(FACS)[14]是用于面部行为分析的最普遍使用的系统。基于FACS,面部行为可被分解为一组AU,其每一个与特定的面部肌肉组的收缩相关。由于下面的生理和面部解剖学,AU经常以协同和同步方式移动以产生有意义的表情。为了表示在AU之间的依赖性,Tong等[16]提出了使用贝叶斯网络捕获在AU之间的关系。按照Tong等的工作,使用了相同的贝叶斯网络模型用来捕获在图8a中所示的14个最普通AU之间的关系,其中在所述模型中的最大圆形节点表示AU而较小节点表示他们的图像测量。已经验证的是,所述贝叶斯网络模型优于AU识别领域方法的状态。但是为了使用所述模型,需要大量经常难于获得的训练数据。本发明的方法示出了仅仅使用Tong等的训练数据的片段可获得有比较性的结果。与在生物网络中的研究类似,基于由领域专家所提供的下列规则提取约束。
1.边际约束:在自然情况中,一些AU极少出现。这种情况的一个实施例是AU27,所述规则是P(AU27=1)≤P(AU27=0),其中1表示出现,0表示缺席。
2.导出因果关系的交叉分布约束:如图8a中所示,在两个AU节点之间的每一个链路具有由领域专家所提供的符号。+符号指示正的影响,其表示两个具有共生关系的AU节点,而负符号指示负的影响,其表示两个具有相互排斥关系的AU节点。考虑到AU节点AUi仅仅具有一个父节点AUj,如果所述链路的符号是正的,可生成P(AUi=1|AUj=0)≤P(AUi=1|AUj=1)。如果所述链路的符号是负的,则可生成P(AUi=1|AUj=1)≤P(AUi=1|AUj=0)。如果AU节点AUi具有超过一个AU父节点,AUP表示具有正链路的所有父节点,AUN表示具有负链路的所有父节点。随后可获得P(AUi=1|AUP=0,AUN=1)≤P(AUi=1|AUP=1,AUN=0)。
3.范围约束:如果AU节点AUi具有超过一个父节点AUP,他们所有具有正的影响,随后P(AUi=1|AUP=1)≥0.8。如果AU节点AUi具有超过一个父节点AUN,他们所有具有负的影响,随后P(AUi=1|AUN=1)≤0.2。
请注意上述约束归因于面部解刨或归因于某些面部图案。他们足够通用以被用于不同数据库并用于不同个人。
A.AU识别网络学习
从Cohn和Kanades DFAT-504处采集用于实验的8000个图像。在每一个仿真运行时,0到5000个样本被随机选自8000个样本中用于训练和学习任务重复达20次。训练数据用于学习在所述AU贝叶斯网络(图8a)中的参数。在所述学习之,1000个未触摸样本被选择用于测试。测试数据用于实施AU识别,通过给定已学习的贝叶斯网络的推理。所述训练数据是完整的。
在第一部分中,示出了所述学习导致在图8a中AU子网络上的K-L收敛。在第二部分中,示出了真正分类结果。ML和QMAP估计被用于上述定义的定性领域知识以学习在AU子网络中的参数。在图8b中示出了所述K-L收敛。所述x轴和所述y轴分别指示了训练样本大小和K-L收敛。所述K-L结果实际上是通过在每一个特定样本大小下平均在所有随机选择训练样本上的参数学习结果所计算的平均K-L收敛。应当看出:i)具有γ=1的QMAP实施显著好于ML估计,在每一个序列数据大小下。更具体地,具有3个训练样本的ML估计的K-L收敛为具有γ=1的QMAP自2.21减少到0.24。即使在5000个训练样本处,所述ML估计的K-L收敛为QMPA估计从0.04减少到接近于0;另一方面,也可通过计算需要多少训练样本用来分别获得ML,MAP和QMAP方法的特定所选K-L收敛等级来评估这些结果。在3个训练样本处,用于QMAP估计的K-L收敛是0.24。为了获得等同的或更好的K-L收敛等级,ML估计需要200个样本。在5000训练样本处,用于ML估计的K-L收敛是0.04,其可通过具有10个样本的QMAP来达到。这些结果验证了具有特定领域仍旧通用的定性约束并具有少量手动标记的数据(10)的本发明的方法,提供了类似学习精度给所述ML估计,当与具有完整训练数据集(5000)相比较时。
当前QMAP方法的学习结果照亮了在学习任务中通用定性领域知识的使用。因此,在本部分中,参数学习的极端情况被探讨,通过忽略所有训练数据样本除了使用定性约束组(以上定义的相同约束组)以学习所述AU子网络参数。在此情况中,由于缺少训练数据,在Eq.10中的数据统计计数是零。所述参数估计仅仅取决于给定定性知识的先验伪计数。在此情况中的K-L收敛是0.0308,其小于具有完整训练数据(5000个训练样本)的ML学习的K-L收敛。同时,所述K-L收敛等级对应于具有在25个数据样本处的γ=1的QMAP学习的那个。
B.分类
在本部分中,通过使用AU分类的已学习贝叶斯网络模型,研究所述学习方法的性能。对于AU分类,所述BN模型需要被输入自Gabor Waveletjet所计算的AU测量。给定所述AU测量,使用具有本发明方法学习的模型参数,推测出每一个AU的真正状态。特别地,所述AU识别性能被研究在不同数量的训练数据下,包括根本不使用任何训练数据的极端情况,并将所述分类结果与[16]中的那些比较。
自上述部分中的ML和QMAP方式处基于已学习的AU网络实施分类。为了验证,在具有代表性样本大小的训练数据集下选择已学习到的AU网络参数:0,20,100,200,300和500。在学习之后,1000个未接触数据样本被随机选择用于分类测试。图8c示出了所述AU识别结果。所述x轴和y轴分别表示用于学习AU网络参数的训练数据大小(在0个训练大小的情况中,没有任何训练数据仅仅定性先验知识被用于AU网络参数估计),和真正技术计分(在真的正比率和假的正比率之间的差)。通过平均所有AU节点的技术计分来计算所述真正的技术。其从图8c指示了,用于具有各种信用比率(γ)的QMAP的真的技术计分明显好于用于ML估计的技术计分,在接近所有训练数据样本大小之下除了具有γ=0.01的QMAP。根据上述结果,其得出结论,i)通过将指定领域仍旧非常通用的定性先验约束整合于定量训练数据的QMAP估计显著改善了AU识别结果,与在从稀疏数据到丰富数据分布的所有样本大小处的ML估计相比较。这个结论特别真实于γ=1;ii)所述QMAP估计(具有不同的γ)需要非常少的用于AU网络的训练样本以达到比ML估计等同和甚至更好的AU识别结果;iii)将QMAP估计的真正技术计分与具有完整训练数据集的ML估计的计分相比较,其指示出,使用非常少量的手动标记数据(大约35个样本),具有γ=1的QMAP可能已经达到比具有完整训练数据集(7000个样本)的ML估计非常好的AU识别结果。
特别地,甚至在稀疏训练数据(20个样本)处,用于所有AU节点的平均的真正技术计分从用于ML估计的0.6229增加到用于具有γ=1的QMAP的0.6866,到用于具有γ=0.1的QMAP的0.6655,到用于具有γ=0.01的QMAP的0.6512和到用于具有γ=0.001的QMAP的0.6322;在100个训练样本处,真正技术计分进一步从用于ML估计的0.6644增强到用于具有γ=1的QMAP的0.6940,到用于具有γ=0.1的QMAP的0.6928,到用于具有γ=0.01的QMAP的0.6688,到用于具有γ=0.001的QMAP的0.6677。当训练样本大小增长到200,300和500样本时,来自具有γ=1.0的QMAP的真正技术计分分别等于0.6916,0.6957和0.6942,并趋于收敛。在相同情况中,ML估计示出了比QMAP始终较低的分类能力。请注意这个,使用完整的训练数据集(用于训练的7000个样本和用于测试的1000个样本),用于ML估计的真正技术计分收敛于0.6883(如在图8c中的黑色虚线所示)。
当将在先验知识上的加权降低到γ=0.1时,QMAP需要从80到250个训练样本以达到比具有完整训练数据集的ML估计更好的AU分类结果。当γ减少到0.01时,QMAP需要大约300个样本以胜过具有完整训练数据集的ML估计。这个数量当γ减少时保持增长。当γ=0.001时,所述QMAP的真正技术计分趋于收敛于ML估计。因此,在实践中,只要所述知识在领域中有效,就需要在定性先验知识上的较大加权。上述结论也与在图8b中的K-L测量一致。
图4a描述了联合概率样本。在图4a中,通过执行在本发明过程中的第二步骤,示出所述联合概率参数样本。图4b描述了条件概率样本。
总之,通过本发明的方法验证了,可将定性先验约束整合入标准贝叶斯网络参数学习中以达到显著的改善预测结果。而且,当将这些结果与在AU识别[9]中研发良好的方法比较时,通过将在200个训练样本处的QMAP方法的真正技术计分比较于在300个训练样本处的被约束的ML(CML)估计([9]中的图4b)的技术计分,而在图8d中示出了绘制有优化γ的QMAP的每一个AU节点真正技术,其首先验证了,所述QMAP方式显著改善了在AU节点数量5,9,15,23和24上的真正技术,并轻微地改善了在AU节点1,7,17上的技术。剩余技术等价于ML估计。相比较而言,本发明的方法提升了在其技术计分差于[9]中ML估计的AU节点(6,23,12,25,17,24,9,4)上的技术。
因此,本发明介绍了一种用于将定性先验知识合并于用于有效贝叶斯网络参数学习的训练数据的新方法。首先,可从领域知识提取不同类型的约束。随后,一种数值采样方法用于捕获这些约束作为在这些模型参数上的先验。基于MAP方法,研发了一种新的贝叶斯参数计分用于将具有训练数据的先验合并以估计所述贝叶斯参数。本发明的方法解决了当前可获得方法的一些主要缺点:i)交叉分布不等式约束,即合并了在不同环境下的分布;ii)替换在补偿函数中使用硬约束,研发了软参数计分;iii)通过在参数空间上的直接采样,本发明的算法可能更有效。
在生物学(动态网络)和计算机视觉领域(静态网络)都对本发明的方法的性能进行了评估。这些结果示出了本发明的方法在显著减少对训练数据的依赖性而保留学习精度并使用相同数量数据改善所述学习精度中的有效性。对于面部动作识别的真正数据的结果示出了达到了使用非常有限或甚至没有任何训练数据的可比较分类性能。这实际上是重要的,因为获得训练数据已经被证明困难和昂贵的。本发明的方法对于其中获取训练数据难于达到但定性领域知识在手边的许多其他领域来说是重要的。
实施例3
到人类胚胎干细胞的应用
将本发明的方法应用于人类胚胎干细胞(hESC)。在Stemnet数据库(wanglab.ucsd.edu/stemnet)处可发现示范。一种通用网络,目前仅仅转录网络,其调节自我更新和分化,已经通过采集来自文献的知识而被建立。所述网络包含大约100个基因,包括23个转录因子如公知的“主”调节器Oct4,Sox2和Nanog。也存在8,6,4和4个标记基因分别用于滋养外胚层,内胚层、中胚层和外胚层分化。即使这种网络不完整,基于网络扰动和将这些结果与RANi实验(图5a和5b)相比较,处理计算性的预测。
整体上,所述预测很好地与实验测量相关。由于针对在hES细胞中的基因的RNAi研发的困难,不存在许多可获得用于比较的数据。随着与针对hESC基因的小分子筛选一起的技术的快速前进,更多扰动网络自我更新和分化的实验数据现在是轻松可得到的。本发明的方法非常有用于设计实验并搜索重组细胞命运的试剂。
参考文献
[1]D.Heckerman.A tutorial on learning with Bayesian networks.In M.Jordan,editor,Learning in Graphical Models.MIT Press,Cambridge,MA,1999.
[2]D.Heckerman.Learning Bayesian Networks:The Combination ofKnowledge and Statistical Data.Proc.KDD Workshop,1994.
[3]D.Geiger and D.Heckerman.A characterization of thedirichlet distribution through global and local parameter independence.TheAnnals of Statistics,25:1344-1369,1997.
[4]R.S.Niculescu.Exploiting parameter domain knowledge for learning inBayesian networks.Technical Report CMU-TR-05-147,Carnegie MellonUniversity,2005.
[5]R.S.Niculescu,T.Mitchell,and R.B.Rao.Parameter related domainknowledge for learning in graphical models.In Proceedings of SIAM DataMining conference,2005.
[6]R.S.Niculescu,T.Mitchell,and R.B.Rao.BayesianNetwork Learning with Parameter Constraints.Journal of Machine LearningResearch,7:1357-1383,2006.
[7]R.Chang,M.Stetter,and W.Brauer.Quantitative B ayesian Inference byQualitative Knowledge Modeling.The20th IEEE International JointConference on Neural Networks,IJCNN2007.
[8]R.Chang,W.Brauer,and M.Stetter.Modeling semantics ofinconsistent qualitative knowledge for quantitative Bayesian networkinference.Neural Networks,21(2-3):182-192,2008.
[9]Yan Tong and Qiang Ji,Learning Bayesian Networks with QualitativeConstraints,IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2008.
[10]F.Wittig and A.Jameson,Exploiting Qualitative Knowledge in theLearning of Conditional Probabilities of Bayesian Networks.The 16thConference on Uncertainty in Artificial Intelligence,USA,2000.
[11]E.Altendorf,A.C.Restificar and T.G.Dietterich:Learning from SparseData by Exploiting Monotonicity Constraints.The 21st Conference onUncertainty in Artificial Intelligence,USA,2005:18-26.
[12]Linda van der Gaag,B.Hans and Ad Feelders,Monotonicity inBayesian Networks.The 20th Conference on Uncertainty inArtificialIntelligence,USA,2004.
[13]Y.Mao and G.Lebanon,Domain Knowledge Uncertainty andProbabilistic Parameter Constraints.The 25th Conference on Uncertainty inArtificial Intelligence,USA,2009.
[14]P.Ekman and W.Friesen.Facial Action Coding S ystem:A Techniquefor the Measurement of Facial Movement.Consulting Psychologists Ptess,1978.
[15]Wenhui Liao and Qiang Ji,Learning Bayesian Network Parameters UnderIncomplete Data with Qualitative Domain Knowledge,Pattern Recognition,Volume42,Issue 11,Pages3046-3056,2009.
[16]Yan Tong,Wenhui Liao,Zheng Xue and Qiang Ji,A Unified ProbabilisticFramework for Spontaneous Facial Activity Modeling and Understanding,IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2007.
[17]Fangting Li,Tao Long,Ying Lu,Qi Ouyang and Chao Tang,The yeastcell-cycle network is robustly designed,PNAS,2004.
[18]S.Renooij,S.Parsons,L.C.van der Gaag:Context-specific Sign-propagation in Qualitative ProbabilisticNetworks.IJCAI2001:667-672.
[19]Michael.P.Wellman.Fundamental Concept of Qualitative ProbabilisticNetworks.Artificial Intelligence,1990.
Claims (20)
1.一种方法,包括由一个或多个处理器执行计算机可执行指令用于预测治疗疾病的药物靶点效果的方法,所述方法进一步包括:
至少部分地基于对疾病的药物抑制效果的知识构建贝叶斯网络的结构;
将一组参数与构建的贝叶斯网络相关;
通过自动过程确定贝叶斯网络的联合概率分布的值;
至少部分地基于这些联合概率值导出具有一个或多个平均参数的平均贝叶斯网络;和
至少部分地基于平均贝叶斯网络计算定量预测。
2.如权利要求1所述的方法,其中构建贝叶斯网络的结构包括根据领域专家知识增加变量之间的定向边。
3.如权利要求1所述的方法,其中将一组参数与构建的贝叶斯网络相关包括联合在贝叶斯网络中其他变量的值指示一个或多个变量的值的联合概率。
4.如权利要求1所述的方法,其中确定联合概率分布的值是基于包括多个激活父母和多个与贝叶斯网络相关的抑制父母的局部结构。
5.如权利要求1所述的方法,其中导出平均贝叶斯网络包括平均与网络相关的联合概率值。
6.如权利要求1所述的方法,其中计算定量预测包括整合一组贝叶斯网络并通过贝叶斯网络组的先验概率乘以结果。
7.如权利要求6所述的方法,其中整合一组贝叶斯网络包括在激活和抑制父节点的组合下至少部分地基于子节点概率以相对顺序应用整合限制。
8.一种方法,包括由一个或多个处理器执行计算机可执行指令用于自动确定在贝叶斯网络中的多项分布的方法,所述方法进一步包括:
使用相关于已构建贝叶斯网络结构的一组联合概率参数构建贝叶斯网络的图形结构;
设计自动过程以确定与所述联合概率参数相关的值;
同时导出等效平均贝叶斯网络或贝叶斯网络的类;和
使用等效平均贝叶斯网络或贝叶斯网络的类实施定量预测和推理模拟。
9.如权利要求8所述的方法,其中构建贝叶斯网络的图形结构至少部分地通过根据领域专家或知识资源增加变量之间的定向边。
10.如权利要求8所述的方法,其中联合概率的值至少部分基于在贝叶斯网络中局部结构来确定,其中局部结构包括一个或多个激活父母,其在出现时,增大与相应子节点相关的概率。
11.如权利要求8所述的方法,其中联合概率的值至少部分基于在贝叶斯网络中局部结构来确定,其中局部结构包括一个或多个抑制父母,其在出现时,减小与相应子节点相关的概率。
12.如权利要求8所述的方法,其中等效平均贝叶斯网络包括具有来自贝叶斯网络的类的平均参数的贝叶斯网络。
13.如权利要求8所述的方法,其中定义构建的贝叶斯网络通过结构和参数:B1=(G1,Θ1);B2=(G2,Θ2);B3=(G3,Θ3);B4=(G4,Θ4);B5=(G5,Θ5),其中联合概率包括:Θ1=P(A,B,C,D);Θ2=P(A,B,D);Θ3=P(A,B,D);Θ4=P(A,D);Θ5=P(A,D),给定结构G1-G5。
14.如权利要求8所述的方法,其中构建了放置在激活和抑制父节点的组合下的子节点概率上的相对顺序的矩阵。
15.如权利要求14所述的方法,其中将矩阵值Pi,j计算为 和 其中Pi,j指示了在激活父节点j和抑制父节点i的出现中的子节点概率;P0,0指示了在激活父节点0和抑制父节点0的出现中的子节点概率,P0,1指示了在激活父节点1和抑制父节点0的出现中的子节点概率;其中通过联合概率表示值Pi,j。
16.如权利要求14所述的方法,其中在联合概率之间的顺序包括
18.一种确定贝叶斯网络的参数的系统,包括:
至少一个存储器,存储可执行指令;
至少一个处理器,与至少一个存储器通信,其中至少一个处理器可操作用来执行已存储的指令以:
接收多个不等式参数约束,不等式约束至少部分地基于定性领域知识;
基于所述多个不等式参数约束构建参数分布;和
使用定量数据统计,整合所述参数分布以使用定量领域知识确定贝叶斯参数计分函数,其中贝叶斯参数计分函数同时反映了定量领域知识和定性领域知识。
19.如权利要求18所述的系统,其中不等式参数约束可能包括一个或多个范围约束,交叉分布约束,内部分布约束或间分布约束。
20.如权利要求18所述的系统,其中定量和定性领域知识与生物网络相关,其中贝叶斯参数计分函数可操作用来提供生物网络的参数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US34618210P | 2010-05-19 | 2010-05-19 | |
US61/346,182 | 2010-05-19 | ||
PCT/US2011/037001 WO2011146619A2 (en) | 2010-05-19 | 2011-05-18 | Systems and methods for identifying drug targets using biological networks |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102859528A true CN102859528A (zh) | 2013-01-02 |
Family
ID=44992318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011800209793A Pending CN102859528A (zh) | 2010-05-19 | 2011-05-18 | 使用生物网络识别药物靶点的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US9076104B2 (zh) |
CN (1) | CN102859528A (zh) |
WO (1) | WO2011146619A2 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108461151A (zh) * | 2017-12-15 | 2018-08-28 | 北京大学深圳研究生院 | 一种知识图谱的逻辑增强方法及装置 |
CN108573282A (zh) * | 2018-04-16 | 2018-09-25 | 陕西科技大学 | 基于小数据集下的bn参数学习的目标识别方法 |
CN109145352A (zh) * | 2017-06-16 | 2019-01-04 | 达索系统公司 | 用于学习取图像作为输入的函数的数据集 |
CN110019973A (zh) * | 2017-09-30 | 2019-07-16 | 日本电气株式会社 | 用于估计观测变量之间的因果关系的方法、装置和系统 |
CN113780348A (zh) * | 2021-08-09 | 2021-12-10 | 浙江工业大学 | 一种基于专家知识约束的高压开关柜状态评估贝叶斯网络模型参数学习方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3021776A1 (fr) * | 2014-05-28 | 2015-12-04 | Vaiomer | Procede d'identification d'une relation entre des elements physiques |
WO2016036958A1 (en) * | 2014-09-05 | 2016-03-10 | Icahn School Of Medicine At Mount Sinai | Systems and methods for causal inference in network structures using belief propagation |
JP7065609B6 (ja) | 2014-10-24 | 2022-06-06 | コーニンクレッカ フィリップス エヌ ヴェ | 複数の細胞シグナル伝達経路活性を用いる治療応答の医学的予後及び予測 |
BR112017007962A2 (pt) | 2014-10-24 | 2018-01-23 | Koninklijke Philips Nv | método implementado por computador, aparelho, mídia de armazenamento, programa de computador, kit, e, uso do kit |
KR101721528B1 (ko) * | 2015-05-28 | 2017-03-31 | 아주대학교산학협력단 | 질병 네트워크로부터 동반 발병 확률을 제공하는 방법 |
WO2017017411A1 (en) | 2015-07-24 | 2017-02-02 | Bae Systems Plc | Lighter than air vehicle |
US11450409B2 (en) | 2015-08-14 | 2022-09-20 | Innosign B.V. | Determination of NFkB pathway activity using unique combination of target genes |
EP3461915A1 (en) | 2017-10-02 | 2019-04-03 | Koninklijke Philips N.V. | Assessment of jak-stat1/2 cellular signaling pathway activity using mathematical modelling of target gene expression |
EP3502279A1 (en) | 2017-12-20 | 2019-06-26 | Koninklijke Philips N.V. | Assessment of mapk-ap 1 cellular signaling pathway activity using mathematical modelling of target gene expression |
CN110046376B (zh) * | 2019-02-26 | 2022-11-22 | 中国西安卫星测控中心 | 一种基于贝叶斯网络的卫星姿控系统多工况健康评估方法 |
CN112580673B (zh) * | 2019-09-27 | 2024-04-12 | 中国石油化工股份有限公司 | 基于空间概率分布的地震储层样本扩展方法和装置 |
CN112783951A (zh) * | 2021-02-23 | 2021-05-11 | 合肥工业大学 | 一种基于抽样的大数据交易系统及方法 |
CN115798602A (zh) * | 2023-02-03 | 2023-03-14 | 北京灵迅医药科技有限公司 | 基因调控网络构建方法、装置、设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1436611A4 (en) * | 2001-09-26 | 2007-04-11 | Gni Kk | BIOLOGICAL IDENTIFICATION USING GENREGULATION NETWORKS GENERATED FROM MULTIPLE INTERRUPTED EXTRESSION LIBRARIES |
US7184993B2 (en) * | 2003-06-10 | 2007-02-27 | Microsoft Corporation | Systems and methods for tractable variational approximation for interference in decision-graph Bayesian networks |
US20050021237A1 (en) * | 2003-07-03 | 2005-01-27 | Schachter Asher Daniel | Method and apparatus for evaluating new chemical entities |
US20050119534A1 (en) * | 2003-10-23 | 2005-06-02 | Pfizer, Inc. | Method for predicting the onset or change of a medical condition |
US7433853B2 (en) * | 2004-07-12 | 2008-10-07 | Cardiac Pacemakers, Inc. | Expert system for patient medical information analysis |
US20060212279A1 (en) * | 2005-01-31 | 2006-09-21 | The Board of Trustees of the University of Illinois and | Methods for efficient solution set optimization |
WO2007002895A1 (en) * | 2005-06-29 | 2007-01-04 | Board Of Trustees Of Michigan State University | Integrative framework for three-stage integrative pathway search |
WO2007110707A2 (en) * | 2005-10-12 | 2007-10-04 | Gni, Ltd. | Methods and systems for modeling gene networks |
US8078566B2 (en) * | 2007-01-30 | 2011-12-13 | Charles River Analytics, Inc. | Methods and systems for constructing Bayesian belief networks |
EP3493216A1 (en) * | 2007-11-13 | 2019-06-05 | Oridion Medical 1987 Ltd. | Medical system, apparatus and method |
US8190550B2 (en) * | 2009-06-10 | 2012-05-29 | Xerox Corporation | Split variational inference |
US8543445B2 (en) * | 2009-12-21 | 2013-09-24 | Hartford Fire Insurance Company | System and method for direct mailing insurance solicitations utilizing hierarchical bayesian inference for prospect selection |
JP5398518B2 (ja) * | 2009-12-25 | 2014-01-29 | キヤノン株式会社 | 医療診断支援装置 |
-
2011
- 2011-05-18 WO PCT/US2011/037001 patent/WO2011146619A2/en active Application Filing
- 2011-05-18 CN CN2011800209793A patent/CN102859528A/zh active Pending
-
2012
- 2012-11-19 US US13/680,297 patent/US9076104B2/en not_active Expired - Fee Related
-
2015
- 2015-03-16 US US14/658,341 patent/US9372962B2/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145352A (zh) * | 2017-06-16 | 2019-01-04 | 达索系统公司 | 用于学习取图像作为输入的函数的数据集 |
CN109145352B (zh) * | 2017-06-16 | 2024-04-26 | 达索系统公司 | 用于学习取图像作为输入的函数的数据集 |
CN110019973A (zh) * | 2017-09-30 | 2019-07-16 | 日本电气株式会社 | 用于估计观测变量之间的因果关系的方法、装置和系统 |
CN108461151A (zh) * | 2017-12-15 | 2018-08-28 | 北京大学深圳研究生院 | 一种知识图谱的逻辑增强方法及装置 |
CN108461151B (zh) * | 2017-12-15 | 2021-06-15 | 北京大学深圳研究生院 | 一种知识图谱的逻辑增强方法及装置 |
CN108573282A (zh) * | 2018-04-16 | 2018-09-25 | 陕西科技大学 | 基于小数据集下的bn参数学习的目标识别方法 |
CN113780348A (zh) * | 2021-08-09 | 2021-12-10 | 浙江工业大学 | 一种基于专家知识约束的高压开关柜状态评估贝叶斯网络模型参数学习方法 |
Also Published As
Publication number | Publication date |
---|---|
US20150254434A1 (en) | 2015-09-10 |
WO2011146619A2 (en) | 2011-11-24 |
US9076104B2 (en) | 2015-07-07 |
US9372962B2 (en) | 2016-06-21 |
WO2011146619A3 (en) | 2012-04-19 |
WO2011146619A9 (en) | 2012-02-16 |
US20130151452A1 (en) | 2013-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102859528A (zh) | 使用生物网络识别药物靶点的系统和方法 | |
Siroky | Navigating random forests and related advances in algorithmic modeling | |
Alloghani et al. | Implementation of machine learning algorithms to create diabetic patient re-admission profiles | |
Heron et al. | A comparison of approaches for assessing covariate effects in latent class analysis | |
Charpentier et al. | Econometrics and machine learning | |
Bianchini et al. | Deep learning in science | |
Soria et al. | A quantifier-based fuzzy classification system for breast cancer patients | |
Hanczar | Performance visualization spaces for classification with rejection option | |
Zhang et al. | Triplet attention and dual-pool contrastive learning for clinic-driven multi-label medical image classification | |
Fonseca et al. | Boost: Boosting smooth trees for partial effect estimation in nonlinear regressions | |
Zhou et al. | Personal credit default prediction model based on convolution neural network | |
Roslan | Prediction of student dropout in Malaysian’s private higher education institute using data mining application | |
Sudharson et al. | Enhancing the Efficiency of Lung Disease Prediction using CatBoost and Expectation Maximization Algorithms | |
Jaiswal et al. | GLSTM: a novel approach for prediction of real & synthetic PID diabetes data using GANs and LSTM classification model | |
Chowdhury et al. | UICPC: centrality-based clustering for scRNA-seq data analysis without user input | |
Wu et al. | Improved saddle point prediction in stochastic two-player zero-sum games with a deep learning approach | |
CN114722217A (zh) | 一种基于链接预测和协同过滤的内容推送方法 | |
Srinivasan et al. | BOWL: Bayesian optimization for weight learning in probabilistic soft logic | |
Corekcioglu et al. | Estimation of success of entrepreneurship projects with data mining | |
Glasson | Censored regression techniques for credit scoring | |
Fernandez et al. | Intelligent techniques for R&D project selection in large social organizations | |
US20240274286A1 (en) | Clinical Outcome Prediction By Application Of Machine Learning Models To Clinical Data | |
Natarajan et al. | Job Prediction for Students and Program Approval in Universities | |
Chen | Evaluating Conditional Cash Transfer Policies with Machine Learning Methods | |
WO2024167497A1 (en) | Clinical outcome prediction by application of machine learning models to clinical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130102 |