CN112885404B - 一种多层布尔网络的模型辨识方法及系统 - Google Patents

一种多层布尔网络的模型辨识方法及系统 Download PDF

Info

Publication number
CN112885404B
CN112885404B CN202110330286.XA CN202110330286A CN112885404B CN 112885404 B CN112885404 B CN 112885404B CN 202110330286 A CN202110330286 A CN 202110330286A CN 112885404 B CN112885404 B CN 112885404B
Authority
CN
China
Prior art keywords
layer
matrix
boolean network
model
columns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110330286.XA
Other languages
English (en)
Other versions
CN112885404A (zh
Inventor
李丽丽
崔禹欣
李鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202110330286.XA priority Critical patent/CN112885404B/zh
Publication of CN112885404A publication Critical patent/CN112885404A/zh
Application granted granted Critical
Publication of CN112885404B publication Critical patent/CN112885404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/10Boolean models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种多层布尔网络的模型辨识方法及系统,属于模型辨识技术领域,用以解决现有单层或多层布尔网络并不能详细地描述生物模型之间的逻辑关系和对多层布尔网络模型的辨识问题。本发明的技术要点包括:首先获取观测数据;然后对观测数据进行预处理;然后建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;最后辨识获得一个或多个多层布尔网络的模型结构;进一步,根据矛盾列的数据,给出系统选择的概率,从而根据概率确定最终的多层布尔网络的模型结构。本发明可以准确地辨识模型结构,从而可以详细地描述生物模型中的逻辑关系。本发明可以广泛地应用于基因调控网络的研究中。

Description

一种多层布尔网络的模型辨识方法及系统
技术领域
本发明涉及模型辨识技术领域,具体涉及一种多层布尔网络的模型辨识方法及系统。
背景技术
基因表达是一个复杂的过程。许多生物过程都需要通过基因调控网络实现基因表达。近年来,人们对研究遗传调控网络有着非常大的兴趣,在理解生物过程及有效控制干预方面发挥着非常重要的作用。布尔网络是一种以有向图为基础的离散系统,是一种较为简单的逻辑动力系统。布尔网络能够模拟一些复杂的生物系统网络,考夫曼在1969年提出可以用布尔网络描述基因调控网络,首次将逻辑运算中的“0”和“1”表示基因被抑制和被表达两种状态。由于布尔网络模型在状态表达上较为简单,而又能够可以简洁有效的描述作用在有限集上的动态离散模型。因此,布尔网络已成为基因调控网络的重要模型之一。
生物调节系统的分析是要研究基因在整体水平上的相互作用,而不是生物体孤立部分的某一特征。为了理解生物系统的复杂性与变异性,考虑到许多层级的相互作用,需要新的描述水平。因此,有必要引入一个新的网络—多层网络。布尔网络的辨识帮助我们了解到更多的生物模型,其并不是直接构造布尔网络的逻辑动态方程,而是基于观测数据和半张量积先构造它的代数形式,然后再返回逻辑形式,进而给出辨识的方法。近年来,遗传网络模型和网络辨识问题的研究与开发取得了显著进展,但是这些问题的研究均是基于单层布尔网络的研究开展的。例如,研究者希望通过少量基因来辨识基因模式的方法[1],还有通过数据可能来自癌细胞扩散过程的观察和诊断。考虑模型结构的复杂性和随机因素的干扰性,研究多层布尔网络的辨识,为具有复杂结构的布尔网络模型的辨识提供理论依据和应用探索研究具有十分重要的意义。
发明内容
鉴于以上问题,本发明提出一种多层布尔网络的模型辨识方法及系统,用以解决现有单层或多层布尔网络并不能详细地描述生物模型之间的逻辑关系和不能对多层布尔网络模型进行有效辨识的问题。
根据本发明一方面,提出一种多层布尔网络的模型辨识方法,该辨识方法包括以下步骤:
步骤一、获取观测数据;其中,所述观测数据不包含所有状态;
步骤二、对所述观测数据进行预处理;
步骤三、建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;
步骤四、辨识获得一个或多个多层布尔网络的模型结构,过程包括:
根据所述观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据所述观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得所述单个结点结构矩阵的部分已知列:
其中,l表示布尔网络层数;i表示结点;表示第l层第i个结点的结构矩阵;t表示时刻;x(*)表示结点状态;
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应所述单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将所述单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留所述单列结构矩阵,作为所述单个结点结构矩阵的部分列;当两个子块不相等时,不保留所述单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
进一步地,步骤一中所述观测数据表示为:
其中,N表示每层布尔网络的结点数;Xl(0),…,Xl(N)表示第l层布尔网络的观测数据;表示全局状态层的观测数据。
进一步地,步骤二中所述预处理为数据集合的统计和向量化处理。
进一步地,步骤三中所述多层布尔网络模型表示为:
其中,表示全局状态层的结点状态;Ml和/>表示结构矩阵。
进一步地,步骤四中当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
进一步地,步骤四中当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据所述概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致所述单个结点结构矩阵的每一列结果不唯一。
根据本发明另一方面,提出一种多层布尔网络的模型辨识系统,该辨识系统包括:
数据获取模块,用于获取观测数据;其中,所述观测数据不包含所有状态;所述观测数据表示为:
其中,N表示每层布尔网络的结点数;Xl(0),…,Xl(N)表示第l层布尔网络的观测数据;表示全局状态层的观测数据;
预处理模块,用于对所述观测数据进行预处理;所述预处理为数据集合的统计和向量化处理;
模型建立模块,用于建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;
结构辨识模块,用于辨识获得一个或多个多层布尔网络的模型结构,辨识过程包括根据所述观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据所述观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得所述单个结点结构矩阵的部分已知列:
其中,l表示布尔网络层数;i表示结点;表示第l层第i个结点的结构矩阵;t表示时刻;x(*)表示结点状态;
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应所述单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将所述单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留所述单列结构矩阵,作为所述单个结点结构矩阵的部分列;当两个子块不相等时,不保留所述单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
进一步地,所述模型建立模块中建立的多层布尔网络模型表示为:
其中,表示全局状态层的结点状态;Ml和/>表示结构矩阵。
进一步地,系统还包括第一结构选择模块,所述第一结构选择模块用于当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
进一步地,系统还包括第二结构选择模块,所述第二结构选择模块用于当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据所述概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致所述单个结点结构矩阵的每一列结果不唯一。
本发明的有益技术效果是:
实际领域中,人们希望通过少量基因来辨识基因模式,或者通过采集的数据来进行诊断,但是并不知道逻辑动态系统或布尔网络,这就需要对布尔网络进行辨识与重构。本发明提出一种多层布尔网络的模型辨识方法及系统,考虑到实际生物系统的随机性,当观测数据不包含所有状态或观测数据较少时,可能会引起对立的辨识结果,本发明在多层布尔网络辨识的基础上提出了多层概率布尔网络的辨识,多层概率布尔网络的辨识分为两个部分,首先根据观测数据,给出多层布尔网络的结构辨识,然后根据矛盾列的数据,用极大似然估计法,给出系统选择的概率,从而根据概率确定最终的多层布尔网络的模型结构。本发明可以准确地辨识模型结构,从而可以详细地描述生物模型中的逻辑关系,因此,本发明可以广泛地应用于基因调控网络的研究中。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
图1是多层布尔网络模型示例图;
图2是本发明方法的示意性流程图;
图3是布尔网络简单的结构示例图;
图4是本发明实施例中不同癌症与microRNA的关系示意图;
图5是本发明实施例中前列腺癌、胆管和不同microRNA的模型结构示意图;
图6是本发明系统的示意性结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
近年来,越来越多的学者开始关注和研究多层布尔网络,但是目前对于多层布尔网络的辨识问题并没有相应的处理方案,因为多层布尔网络与单层布尔网络之间存在着很多不同之处。对于多层布尔网络来说,辨识结果不同于简单的单层布尔网络的辨识问题,因为即使模型中的布尔网络的层数为一,系统中仍然有全局状态存在,而全局状态与处在每一层的基本状态之间存在逻辑关系,布尔网络的辨识就是将其代数状态空间方程转化为逻辑动态系统。
对于多层布尔网络来说,并不是指简单的单层布尔网络叠加的,而是存在一个全局状态层,全局状态层上的结点状态取决于渠道函数,有一定的更新规律。一些状态点同时存在于不同的层中,在演化及发展的过程中彼此互相影响,并不独立。假设多层布尔网络有K层,每层有N个结点。在整个网络中,彼此不同的结点一共有n个(这里N≤n≤NK)。本发明所建立的多层布尔网络模型如图1所示,多层布尔网络的逻辑动态系统可表示为:
该模型的具体描述如下:
如图1中所示,这里K=2表示有两层,N=2表示每层上有两个状态结点,n=3表示一共有3个不同的状态结点;表示第l层的第i个结点。那么第一层有两个结点,分别表示为/>第二层有两个结点,分别为/>
在多层布尔网络模型中,有ai,l∈D,如果状态点i在l层上,则有ai,l=1,那么结点i所在层的集合记为如果结点j是结点i在第l层的邻域,则有γi,j,l=1,其中γi,j,l∈D,否则为0。结点i在l层的领域j的集合表示为结点i的所有邻域j的集合表示为/>邻域即为决定入度的结点的集合,每个结点的入度就是指向它的边的个数。
在图1中,可以得到第一个结点所在的层的集合是有a1,1=1,a1,2=1,第二个结点所在的层的集合是/>那么有a2,1=1,a2,2=0。当l=1时,点1的邻域集合为Γin(1)(1)={2},当l=2时,点1的邻域集合为Γin(1)(2)={3},那么Γin(1)=Γin(1)(1)∪Γin(1)(2)={1}∪{3}={1,3}。用/>表示t时刻结点i在l层的状态,于是/>的更新的动态方程可以表示为:
其中,f为结点i在第l层的更新函数。
对于全局状态层,用表示结点i在t时刻的全局状态。也就是的全局状态。那么全局状态/>的函数方程为:
其中,为渠道函数。/>是结点/>和/>的全局状态,渠道函数/>受/>和/>的影响。
因此,可以得到多层布尔网络的代数形式为:
这里,Ll分别可以用结构矩阵/>和/>的Khatri-Rao乘积表示。
对于多层布尔网络不同于简单的单层布尔网络模型之处在于,一些状态点同时存在不同的层中,这些存在于不同层的状态点在其演化及发展的过程中彼此相互影响,并不独立。因此,系统中有全局状态层存在,而全局状态与处在每一层的基本状态之间存在逻辑关系。
但是考虑到实际生物系统的随机性,当观测数据不包含所有状态或观测数据较少时,本发明提出一种多层布尔网络的模型辨识方法。目标是找到一个逻辑动态系统,从而辨识出网络模型。如图2所示,该辨识方法包括下述步骤:
第一步,对观测数据进行集合的统计和向量化处理;
假设多层布尔网络有l层、n个结点,令下述公式成立:
假设一组观测数据可表示为:
这里,∝表示矩阵的半张量积。那么第i个结点的逻辑表达方程为:
最终将观测数据表示为向量形式。
第二步,结构矩阵的辨识;
把公式(3)中的结构矩阵的每一列辨识出来,当其数据较少时考虑最小入度建模来辨识。入度在布尔网络网络图上体现,每个结点的入度是指向它的边的个数,其初度就是从它出发的边的个数,而布尔网络的网络图通常只画出了邻域关系,这时某一结点邻域取决于指向它的边的结点。
例如,如图3所示,x1的邻域为{x1,x2},记作U(x1)={x1,x2};x2的邻域为U(x2)={x1,x3};x1的邻域为U(x3)={x1}。考察一个n结点布尔网络,记第k个结点的入度为di(k),它表明直接指向结点k的边数为di(k)。回忆邻接矩阵[2],可知:
其中,k=1,2,…,n。在一个有序的网络中,入度远小于结点数。
定义1:n结点布尔网络,一个入度为的实现称为最小入度实现,如果对任何一个实现,其入度为di(k),k=1,2,…,n,均有:
显然,最小入度实现需要的数据少得多。数据较少时考虑最小入度建模。
下面找到逻辑动态系统,使得给定的数据可以确定下述逻辑表达式:
这里,和/>“∝”表示半张量积。之后再对参数进行学习,最终得到多层概率布尔网络模型。如果只有较少的观测数据时,可以采取最小入度建模算法来实现多层概率布尔网络的辨识。
由于数据相互矛盾导致Coli(Ll)即矩阵Ll的第i列的结果不唯一,因此考虑每一个变量的方程,得到结构矩阵/>的每一列,对错误数据进行处理,不妨假设:
这里,表示已被辨识的列,“*”表示无法确定的列。根据公式(3)将的已知列通过观测数据辨识出来,如果/>有矛盾列,则用“#”表示,根据矛盾列的取值不同,得到的结构矩阵和逻辑表达式不同。
定义2[3]:换位矩阵定义为:
W[m,n]=δmn[1,m+1,2m+1,…,(n-1)m+1,2,m+2,2m+2,…,(n-1)m+2,…m,2m,3m,…,nm]
那么矩阵被称为换位矩阵,并且它的列由(11,12,…,1n,…,m1,m2,…,mn)标记,它的行由(11,21,…,n1,…,1n,2n,…,mn)标记,在((I,J),(i,j))位置的元素为:
当m=n时,将W[n×n]写成W[n]
因此,由定义2自定义一组矩阵:
得到的每个矩阵分为左右相等的两个列数相等的子块:
根据公式(4),当j=1时,有于是:
如果根据下述命题1,这个实现与x1无关。
命题1[3]:设x=△m,y=△n,z=△r,定义:
那么,
F[m,n,r]xyz=x
M[m,n,r]xyz=y
R[m,n,r]xyz=z
注:如果只有两个因子x∈△m,y∈△n,则有定义使得F[m,n]xy=x,R[m,n]xy=y。
则用解代替待定元,得到:
考虑xj,将改写成:
然后,对3≤j≤n重复这一步,检验是否有解。如果有,用解代替待定元;反之,则依赖xj,得到:
类似的,将其用到其他几个方程,最后得到整个模型的逻辑动态方程。
进一步地,由于观测数据可能互相矛盾或者重复,从而导致多层布尔网络的代数形式即公式(2)中的Ll的某列不唯一,数据可能引起对立的辨识结果,因此,考虑多层布尔网络的概率辨识。
由于多层概率布尔网络是多层布尔网络的一种延伸,多层概率布尔网络的结点更新的动态方程表示如下:
其中,i=1,2,…,n,fi l表示第i个结点在第l层的更新函数。在此令/>表示第i个结点在l层可能选择的逻辑函数fi l的个数。第i个结点选择的逻辑函数的概率表示如下:
其中,l=1,2,…,K,i=1,2,…,n,
此时,多层布尔网络即公式(1)就转变成了多层概率布尔网络。设且有/>且/>则在多层概率布尔网络的模型在进行一次更新后就有/>种选择,且
因此,多层概率布尔网络可以被描述如下:
其中, 表示结点i的渠道函数。/>表示结点i的逻辑函数fi l选择/>的概率。得到多层概率布尔网络的代数形式:
由此得到,目标是找到一个逻辑动态系统,使得给定的数据可以确定下述动态方程:
下面介绍利用极大似然估计法根据概率进一步对模型进行辨识的步骤。
首先针对观测数据给出一些标记:
1)观测数据的系统状态为λω
其中,ω≤2n注:/>表示单位阵In的第i列。
2)针对观测数据,令
Sl={(Xl(0),Xl(1)),(Xl(1),Xl(2)),…,(Xl(N-1),Xl(N))}
其中,(Xl(N-1),Xl(N))表示从前一个时刻的状态到下一个时刻的状态的转换。
令Sl,i={(Xl(0),Xl,i(1)),(Xl(1),Xl,i(2)),…,(Xl(N-1),Xl,i(N))}表示含有结点的观测数据,其中,(Xl(N-1),Xl,i(N))表示第i个结点从前一个时刻的状态到下一个时刻的状态的转换的集合。
3)表示结点/>的下一个状态的观测值是0的集合:
表示结点/>的下一个状态的观测值是1的集合:
表示结点/>的下一个状态的观测值0和1的集合:
下面对参数pl,i进行学习,可以使用容斥原理来计算求事件至少有一个发生的概率,则
其中,表示系统状态λj在下一状态将结点/>切换为0的概率;/>表示系统在下一状态将结点/>切换为0时的系统状态λj个数。系统状态/>ψ表示系统状态λj的个数,并且系统状态λj将结点/>驱动到低状态和高状态的次数/>和/>即:
时间序列Sl,i的可能性定义为:
对其取自然对数,得到对数似然:
对于所定义的优化问题的可行解很有可能是空集,所以重新定义一个有误差的约束:
其中,
利用多层布尔网络的结构辨识以及概率辨识相结合,最终得到辨识结果如下:
具体实施例一
基于本发明方法研究致病microRNA和不同癌症间是否共享发病机制的模型辨识。MicroRNA是一类重要的非编码RNA,它的异常能导致人类疾病的发生、发展。通过癌症组织芯片的测定,许多microRNA在癌症组织与正常组织中的表达情况迥异,从而证实了microRNA与癌症的产生是密切相关的。
为了研究不同疾病之间是否共享发病机制,利用miR2Disease数据库中那些已知的microRNA失调能导致疾病的信息描述致病microRNA和癌症之间的相互关系。首先建立致病microRNA和不同癌症间是否共享发病机制的模型。
如图4所示,图中矩形与圆形图案分别代表各种不同的癌症与microRNA,它们之间的连线表示它们之间具有因果关系。实心圆表示那些能引起3种以上癌症的microRNA。从microRNA方面来说,hsa-let-7a失调是导致9种癌症的罪魁祸首,hsa-miR-124a、hsa-let-7c、hsa-miR-145和hsa-miR-221这4种microRNA每一种都至少与5种癌症有关(网络中的实心圆图案)。从图中发现,多种癌症连着部分相同的致病microRNA,暗示着这些疾病共享一些发病机制。
利用上述模型提取癌症前列腺癌(Prostate carcinoma)和胆管癌(Cholangiocarcinoma),相关癌症的microRNA为hsa-let-7a、hsa-miR-221、hsa-let-7c、hsa-miR-145和hsa-miR-124a,具体模型如图5。为了便于计算,将上述模型中的第一层的致病microRNA用和/>表示,第二层用/>和/>表示,则全局状态层为/> 和/>
第一层观测数据为:
X1(0)=[101],X1(1)=[010],X1(2)=[110],X1(3)=[101],
X1(4)=[111],X1(5)=[101],X1(6)=[010],X1(7)=[110]。
第二层观测数据为:
X2(0)=[100],X2(1)=[011],X2(2)=[100],X2(3)=[110],
X2(4)=[100],X2(5)=[010],X2(6)=[100],X2(7)=[011]。
全局状态层观测数据为:
根据上述观测数据X1(0)=δ2[121],于是数据的向量形式为:
模型的观察数据的向量结构为:
第一层:
第二层:
根据观测数据,以结点为例,将其逻辑表达式表示出来,并求得其逻辑函数f1 1的选择概率。
(1)模型结构辨识
Step 1:将根据公式(3)辨识出来,未知列用“*”表示,矛盾列用“#”表示,则有:
根据第一层观测数据已知:
/>
则有:
同理可求:
得到:
同理可求:
则:
/>
其中矛盾列的值有和/>首先求出取值为/>时/>的逻辑表达式,求出取值为/>时/>的逻辑表达式,再根据矛盾列的取值的不同,算出其逻辑函数fi l的概率。
Step 2:当矛盾列选择时,结构矩阵为:
可以得到部分解如下:
对不确定元素有解,则不依赖于是系统可简化为:
分为两部分可以得到以下方程:
δ2[11]=δ2[2*]
这方程无解,即方程依赖于考虑:
那么:δ2[12]=δ2[1*],有解δ2[12],则不依赖于所以,原方程为:
最后得到逻辑表达式为:
Step 3:当矛盾列选择时,结构矩阵为:
可以得到部分解如下:
对不确定元素有解,则不依赖于是系统可简化为:
分为两部分可以得到以下方程:
δ2[11]=δ2[1*]
这方程无解,即方程依赖于则:
那么:δ2[11]=δ2[1*],方程无解,则依赖于则原方程δ2[111*]中未确定的列为“2”,即符合/>与/>之间的关系。所以,原方程为:/>
最后得到逻辑表达式为:
(2)概率学习
将系统状态λi在观测数据中体现,所以令
X1(0)=[101]=λ0X1(1)=[010]=λ1X1(2)=[110]=λ2X1(3)=[101]=λ0
X1(4)=[111]=λ3X1(5)=[101]=λ0X1(6)=[010]=λ4X1(7)=[110]=λ5
首先处理观测数据,针对结点可以表示成:
S1,1=(X(0),0)(X(1),1)(X(2),1)(X(3),1)(X(4),1)(X(5),0)(X(6),1)
λ0的转换是冲突的,因为在时刻1和6时,结点的系统状态λ0为0,而在第5时刻时,结点的系统状态λ0为1,系统状态λ0将结点驱动到低状态和高状态的次数/>和/>为:
所以根据
可以得到则有:
取对数似然为:
有:
最终:则/>
因此结点的最终逻辑空间方程可以表示为:
同样的,可以求出整个系统的代数状态空间方程为:
第二层的状态空间方程为:
全局状态层的状态空间方程为:
通过观测数据可以辨识出前列腺癌和胆管癌和致病microRNA的关系,并且通过辨识知道了和/>以及/>和/>的选择概率,分别为致病microRNA中的hsa-let-7a、hsa-miR-221、hsa-let-7c、hsa-miR-124a和hsa-miR-145。前列腺癌和胆管癌连着部分相同的致病microRNA,针对hsa-let-7a失调,对于前列腺癌和胆管癌都有较大的影响,在前列腺癌中hsa-let-7a有66.7%的概率可能失调,在胆管癌中hsa-let-7a有75%的概率可能失调。hsa-let-7a是前列腺癌和胆管癌的共享发病机制。由此得出本发明方法对于模型辨识的有效性。
根据本发明另一方面,如图6所示,提出一种多层布尔网络的模型辨识系统,该辨识系统包括:
数据获取模块110,用于获取观测数据;其中,观测数据不包含所有状态;观测数据表示为:
其中,N表示每层布尔网络的结点数;Xl(0),…,Xl(N)表示第l层布尔网络的观测数据;表示全局状态层的观测数据;
预处理模块210,用于对观测数据进行预处理;预处理为数据集合的统计和向量化处理;
模型建立模块310,用于建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;
结构辨识模块410,用于辨识获得一个或多个多层布尔网络的模型结构,辨识过程包括根据观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得单个结点结构矩阵的部分已知列:
其中,l表示布尔网络层数;i表示结点;表示第l层第i个结点的结构矩阵;t表示时刻;x(*)表示结点状态;
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留单列结构矩阵,作为单个结点结构矩阵的部分列;当两个子块不相等时,不保留单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
进一步地,模型建立模块310中建立的多层布尔网络模型表示为:
其中,表示全局状态层的结点状态;Ml和/>表示结构矩阵。
进一步地,系统还包括第一结构选择模块510,第一结构选择模块510用于当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
进一步地,系统还包括第二结构选择模块520,第二结构选择模块520用于当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致单个结点结构矩阵的每一列结果不唯一。
附:对本发明中用到的主要符号说明如下:
m×n矩阵集合
m×n逻辑矩阵集合
矩阵的张量积
∝ 矩阵的半张量积
W[m,n] mn×mn换位矩阵
In n阶单位阵
1n
n
单位阵In的第i列。
Col{A} 矩阵A的列集合
Coli(A) 矩阵A的第i列
Dk {0,1,2,…,k}
D2 {0,1}
∨ 析取(或)
∧ 合取(与)
→ 蕴含
等价
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
本发明援引的文献如下:
[1]AKUTSU T,KUHARA S,MARUYAMA O,et al.Identification of geneticnetworks by strategic genedisruptions and gene overexpressions under aBoolean model[J].TheoreticalComputer Science,2003,298(1):235–251.
[2]CHENG D,QI H,LIZ.Model construction of Boolean network viaobserved data[J].IEEE Transactions on Neural Networks,2011,22(4):525-536.
[3]陈增强,王晶晶,韩晓光.基于矩阵半张量积方法的带有敌对输入的异步时序机控制[J].中国科学:信息科学,2019,49(11):1488-1501.

Claims (6)

1.一种多层布尔网络的模型辨识方法,其特征在于,包括以下步骤:
步骤一、获取观测数据;其中,所述观测数据不包含所有状态;所述观测数据表示为:
其中,N表示每层布尔网络的结点数;Xl(0),…,Xl(N)表示第l层布尔网络的观测数据;表示全局状态层的观测数据;
步骤二、对所述观测数据进行预处理;所述预处理为数据集合的统计和向量化处理;
步骤三、建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;所述多层布尔网络模型表示为:
其中,表示第l个全局状态层的结点状态;Ml和/>表示结构矩阵;xl(*)表示第l层的结点状态;t表示时刻;
步骤四、辨识获得一个或多个多层布尔网络的模型结构,过程包括:
根据所述观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据所述观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得所述单个结点结构矩阵的部分已知列:
其中,l表示布尔网络层数;i表示结点;表示第l层第i个结点的结构矩阵;
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应所述单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将所述单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留所述单列结构矩阵,作为所述单个结点结构矩阵的部分列;当两个子块不相等时,不保留所述单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
2.根据权利要求1所述的一种多层布尔网络的模型辨识方法,其特征在于,步骤四中当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
3.根据权利要求1所述的一种多层布尔网络的模型辨识方法,其特征在于,步骤四中当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据所述概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致所述单个结点结构矩阵的每一列结果不唯一。
4.一种多层布尔网络的模型辨识系统,其特征在于,包括:
数据获取模块,用于获取观测数据;其中,所述观测数据不包含所有状态;所述观测数据表示为:
其中,N表示每层布尔网络的结点数;Xl(0),…,Xl(N)表示第l层布尔网络的观测数据;表示全局状态层的观测数据;
预处理模块,用于对所述观测数据进行预处理;所述预处理为数据集合的统计和向量化处理;
模型建立模块,用于建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;建立的多层布尔网络模型表示为:
其中,表示第l个全局状态层的结点状态;Ml和/>表示结构矩阵;xl(*)表示第l层的结点状态;t表示时刻;
结构辨识模块,用于辨识获得一个或多个多层布尔网络的模型结构,辨识过程包括根据所述观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据所述观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得所述单个结点结构矩阵的部分已知列:
其中,l表示布尔网络层数;i表示结点;表示第l层第i个结点的结构矩阵;
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应所述单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将所述单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留所述单列结构矩阵,作为所述单个结点结构矩阵的部分列;当两个子块不相等时,不保留所述单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
5.根据权利要求4所述的一种多层布尔网络的模型辨识系统,其特征在于,系统还包括第一结构选择模块,所述第一结构选择模块用于当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
6.根据权利要求4所述的一种多层布尔网络的模型辨识系统,其特征在于,系统还包括第二结构选择模块,所述第二结构选择模块用于当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据所述概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致所述单个结点结构矩阵的每一列结果不唯一。
CN202110330286.XA 2021-03-29 2021-03-29 一种多层布尔网络的模型辨识方法及系统 Active CN112885404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110330286.XA CN112885404B (zh) 2021-03-29 2021-03-29 一种多层布尔网络的模型辨识方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110330286.XA CN112885404B (zh) 2021-03-29 2021-03-29 一种多层布尔网络的模型辨识方法及系统

Publications (2)

Publication Number Publication Date
CN112885404A CN112885404A (zh) 2021-06-01
CN112885404B true CN112885404B (zh) 2023-11-21

Family

ID=76040890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110330286.XA Active CN112885404B (zh) 2021-03-29 2021-03-29 一种多层布尔网络的模型辨识方法及系统

Country Status (1)

Country Link
CN (1) CN112885404B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149037A (ja) * 2003-11-14 2005-06-09 Mitsubishi Space Software Kk 遺伝子発現作用推定方法、遺伝子発現作用推定装置及び遺伝子発現作用推定プログラム
US8065089B1 (en) * 2004-03-30 2011-11-22 University Of North Carolina At Charlotte Methods and systems for analysis of dynamic biological pathways
JP2016048251A (ja) * 2010-07-05 2016-04-07 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
CN106021975A (zh) * 2016-05-28 2016-10-12 温州商学院 通过布尔网络模拟肿瘤细胞状态的方法
CN106021991A (zh) * 2016-08-08 2016-10-12 温州大学 一种基于布尔网络模拟干预肿瘤细胞状态的方法
CN106295150A (zh) * 2016-08-02 2017-01-04 南京航空航天大学 一种基因调控网络的优化控制方法
CN106970532A (zh) * 2017-05-09 2017-07-21 山东建筑大学 一种模糊动态布尔网络控制系统及其构建方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法
CN110555530A (zh) * 2019-09-02 2019-12-10 东北大学 一种基于分布式的大规模基因调控网络构建方法
CN111381498A (zh) * 2020-03-09 2020-07-07 常熟理工学院 多传感器基于多率变时滞状态空间模型的期望最大化辨识方法
CN112564965A (zh) * 2020-12-03 2021-03-26 南京邮电大学 多层复杂动态网络的拓扑辨识方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110131539A1 (en) * 2009-11-27 2011-06-02 National Tsing Hua University Rewiring using irredundancy removal and addition

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149037A (ja) * 2003-11-14 2005-06-09 Mitsubishi Space Software Kk 遺伝子発現作用推定方法、遺伝子発現作用推定装置及び遺伝子発現作用推定プログラム
US8065089B1 (en) * 2004-03-30 2011-11-22 University Of North Carolina At Charlotte Methods and systems for analysis of dynamic biological pathways
JP2016048251A (ja) * 2010-07-05 2016-04-07 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
CN106021975A (zh) * 2016-05-28 2016-10-12 温州商学院 通过布尔网络模拟肿瘤细胞状态的方法
CN106295150A (zh) * 2016-08-02 2017-01-04 南京航空航天大学 一种基因调控网络的优化控制方法
CN106021991A (zh) * 2016-08-08 2016-10-12 温州大学 一种基于布尔网络模拟干预肿瘤细胞状态的方法
CN106970532A (zh) * 2017-05-09 2017-07-21 山东建筑大学 一种模糊动态布尔网络控制系统及其构建方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法
CN110555530A (zh) * 2019-09-02 2019-12-10 东北大学 一种基于分布式的大规模基因调控网络构建方法
CN111381498A (zh) * 2020-03-09 2020-07-07 常熟理工学院 多传感器基于多率变时滞状态空间模型的期望最大化辨识方法
CN112564965A (zh) * 2020-12-03 2021-03-26 南京邮电大学 多层复杂动态网络的拓扑辨识方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Identification of a Boolean multiplex network via data containing all possible states;F. Liu et al.;《2020 IEEE 16th International Conference on Control & Automation (ICCA)》;824-829 *
Observability of Boolean multiplex control networks;Yuhu Wu et al.;《SCIENTIFIC REPORTS》(第7期);46495 *
Observability of probabilistic Boolean multiplex networks;Fengqiu Liu et al.;《Asian J. Control》;1-8 *
多层布尔网络可观测性的研究;徐境雪;《中国优秀硕士学位论文全文数据库 基础科学辑》(第4期);A002-312 *

Also Published As

Publication number Publication date
CN112885404A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
Cheng et al. Model construction of Boolean network via observed data
CN109242223B (zh) 城市公共建筑火灾风险的量子支持向量机评估与预测方法
CN104523268B (zh) 一种具备迁移学习能力的脑电信号识别模糊系统方法
CN111612125B (zh) 一种面向在线学习的新型htm时间池方法及其系统
CN102222313B (zh) 基于核主成分分析的城市演化模拟元胞模型处理方法
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN107918725B (zh) 一种基于机器学习选择最优特征的dna甲基化预测方法
Zhang et al. Reconstructing heterogeneous networks via compressive sensing and clustering
CN112885404B (zh) 一种多层布尔网络的模型辨识方法及系统
CN112327165B (zh) 一种基于无监督迁移学习的电池soh预测方法
CN116720743A (zh) 基于数据聚类和机器学习的碳排放测算方法
CN115936926A (zh) 一种基于smote-gbdt的不平衡窃电数据分类方法、装置、计算机设备和存储介质
CN114093426B (zh) 基于基因调控网络构建的标志物筛选方法
Gorzalczany et al. A neuro-fuzzy-genetic classifier for technical applications
Lopes et al. AGN simulation and validation model
CN114595884A (zh) 一种遗传智能优化的神经网络风力发电设备温度预测方法
CN115271221A (zh) 一种城市扩展预测方法、装置、介质及设备
CN109918659B (zh) 一种基于不保留最优个体遗传算法优化词向量的方法
CN110504004A (zh) 一种基于复杂网络结构可控性基因的识别方法
Yang et al. Predicting PPI based on quantum-inspired neural networks
Durand et al. Probabilistic analysis of a genealogical model of animal group patterns
Wu et al. Multiple sequence alignment using ga and nn
Starzyk et al. Software simulation of a self-organizing learning array system
CN108647490B (zh) 基于多目标进化算法的大规模蛋白质功能模块识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant