CN112885404A - 一种多层布尔网络的模型辨识方法及系统 - Google Patents
一种多层布尔网络的模型辨识方法及系统 Download PDFInfo
- Publication number
- CN112885404A CN112885404A CN202110330286.XA CN202110330286A CN112885404A CN 112885404 A CN112885404 A CN 112885404A CN 202110330286 A CN202110330286 A CN 202110330286A CN 112885404 A CN112885404 A CN 112885404A
- Authority
- CN
- China
- Prior art keywords
- boolean network
- layer
- matrix
- model
- multilayer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000010410 layer Substances 0.000 claims abstract description 118
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 239000002356 single layer Substances 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 111
- 230000008094 contradictory effect Effects 0.000 claims description 16
- 230000017105 transposition Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 abstract description 12
- 238000011160 research Methods 0.000 abstract description 7
- 230000033228 biological regulation Effects 0.000 abstract description 3
- 108700011259 MicroRNAs Proteins 0.000 description 22
- 206010028980 Neoplasm Diseases 0.000 description 15
- 230000014509 gene expression Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000001717 pathogenic effect Effects 0.000 description 10
- 206010060862 Prostate cancer Diseases 0.000 description 8
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 8
- 208000006990 cholangiocarcinoma Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000002679 microRNA Substances 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 5
- 230000008506 pathogenesis Effects 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 108091070511 Homo sapiens let-7c stem-loop Proteins 0.000 description 3
- 108091069002 Homo sapiens miR-145 stem-loop Proteins 0.000 description 3
- 108091067572 Homo sapiens miR-221 stem-loop Proteins 0.000 description 3
- 108091007772 MIRLET7C Proteins 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000008482 dysregulation Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 206010004593 Bile duct cancer Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 208000026900 bile duct neoplasm Diseases 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000013 bile duct Anatomy 0.000 description 1
- 201000009036 biliary tract cancer Diseases 0.000 description 1
- 208000020790 biliary tract neoplasm Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003208 gene overexpression Methods 0.000 description 1
- -1 hsa-miR-124a Proteins 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/10—Boolean models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种多层布尔网络的模型辨识方法及系统,属于模型辨识技术领域,用以解决现有单层或多层布尔网络并不能详细地描述生物模型之间的逻辑关系和对多层布尔网络模型的辨识问题。本发明的技术要点包括:首先获取观测数据;然后对观测数据进行预处理;然后建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;最后辨识获得一个或多个多层布尔网络的模型结构;进一步,根据矛盾列的数据,给出系统选择的概率,从而根据概率确定最终的多层布尔网络的模型结构。本发明可以准确地辨识模型结构,从而可以详细地描述生物模型中的逻辑关系。本发明可以广泛地应用于基因调控网络的研究中。
Description
技术领域
本发明涉及模型辨识技术领域,具体涉及一种多层布尔网络的模型辨识方法及系统。
背景技术
基因表达是一个复杂的过程。许多生物过程都需要通过基因调控网络实现基因表达。近年来,人们对研究遗传调控网络有着非常大的兴趣,在理解生物过程及有效控制干预方面发挥着非常重要的作用。布尔网络是一种以有向图为基础的离散系统,是一种较为简单的逻辑动力系统。布尔网络能够模拟一些复杂的生物系统网络,考夫曼在1969年提出可以用布尔网络描述基因调控网络,首次将逻辑运算中的“0”和“1”表示基因被抑制和被表达两种状态。由于布尔网络模型在状态表达上较为简单,而又能够可以简洁有效的描述作用在有限集上的动态离散模型。因此,布尔网络已成为基因调控网络的重要模型之一。
生物调节系统的分析是要研究基因在整体水平上的相互作用,而不是生物体孤立部分的某一特征。为了理解生物系统的复杂性与变异性,考虑到许多层级的相互作用,需要新的描述水平。因此,有必要引入一个新的网络—多层网络。布尔网络的辨识帮助我们了解到更多的生物模型,其并不是直接构造布尔网络的逻辑动态方程,而是基于观测数据和半张量积先构造它的代数形式,然后再返回逻辑形式,进而给出辨识的方法。近年来,遗传网络模型和网络辨识问题的研究与开发取得了显著进展,但是这些问题的研究均是基于单层布尔网络的研究开展的。例如,研究者希望通过少量基因来辨识基因模式的方法[1],还有通过数据可能来自癌细胞扩散过程的观察和诊断。考虑模型结构的复杂性和随机因素的干扰性,研究多层布尔网络的辨识,为具有复杂结构的布尔网络模型的辨识提供理论依据和应用探索研究具有十分重要的意义。
发明内容
鉴于以上问题,本发明提出一种多层布尔网络的模型辨识方法及系统,用以解决现有单层或多层布尔网络并不能详细地描述生物模型之间的逻辑关系和不能对多层布尔网络模型进行有效辨识的问题。
根据本发明一方面,提出一种多层布尔网络的模型辨识方法,该辨识方法包括以下步骤:
步骤一、获取观测数据;其中,所述观测数据不包含所有状态;
步骤二、对所述观测数据进行预处理;
步骤三、建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;
步骤四、辨识获得一个或多个多层布尔网络的模型结构,过程包括:
根据所述观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据所述观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得所述单个结点结构矩阵的部分已知列:
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应所述单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将所述单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留所述单列结构矩阵,作为所述单个结点结构矩阵的部分列;当两个子块不相等时,不保留所述单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
进一步地,步骤一中所述观测数据表示为:
进一步地,步骤二中所述预处理为数据集合的统计和向量化处理。
进一步地,步骤三中所述多层布尔网络模型表示为:
进一步地,步骤四中当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
进一步地,步骤四中当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据所述概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致所述单个结点结构矩阵的每一列结果不唯一。
根据本发明另一方面,提出一种多层布尔网络的模型辨识系统,该辨识系统包括:
数据获取模块,用于获取观测数据;其中,所述观测数据不包含所有状态;所述观测数据表示为:
预处理模块,用于对所述观测数据进行预处理;所述预处理为数据集合的统计和向量化处理;
模型建立模块,用于建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;
结构辨识模块,用于辨识获得一个或多个多层布尔网络的模型结构,辨识过程包括根据所述观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据所述观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得所述单个结点结构矩阵的部分已知列:
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应所述单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将所述单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留所述单列结构矩阵,作为所述单个结点结构矩阵的部分列;当两个子块不相等时,不保留所述单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
进一步地,所述模型建立模块中建立的多层布尔网络模型表示为:
进一步地,系统还包括第一结构选择模块,所述第一结构选择模块用于当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
进一步地,系统还包括第二结构选择模块,所述第二结构选择模块用于当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据所述概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致所述单个结点结构矩阵的每一列结果不唯一。
本发明的有益技术效果是:
实际领域中,人们希望通过少量基因来辨识基因模式,或者通过采集的数据来进行诊断,但是并不知道逻辑动态系统或布尔网络,这就需要对布尔网络进行辨识与重构。本发明提出一种多层布尔网络的模型辨识方法及系统,考虑到实际生物系统的随机性,当观测数据不包含所有状态或观测数据较少时,可能会引起对立的辨识结果,本发明在多层布尔网络辨识的基础上提出了多层概率布尔网络的辨识,多层概率布尔网络的辨识分为两个部分,首先根据观测数据,给出多层布尔网络的结构辨识,然后根据矛盾列的数据,用极大似然估计法,给出系统选择的概率,从而根据概率确定最终的多层布尔网络的模型结构。本发明可以准确地辨识模型结构,从而可以详细地描述生物模型中的逻辑关系,因此,本发明可以广泛地应用于基因调控网络的研究中。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
图1是多层布尔网络模型示例图;
图2是本发明方法的示意性流程图;
图3是布尔网络简单的结构示例图;
图4是本发明实施例中不同癌症与microRNA的关系示意图;
图5是本发明实施例中前列腺癌、胆管和不同microRNA的模型结构示意图;
图6是本发明系统的示意性结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
近年来,越来越多的学者开始关注和研究多层布尔网络,但是目前对于多层布尔网络的辨识问题并没有相应的处理方案,因为多层布尔网络与单层布尔网络之间存在着很多不同之处。对于多层布尔网络来说,辨识结果不同于简单的单层布尔网络的辨识问题,因为即使模型中的布尔网络的层数为一,系统中仍然有全局状态存在,而全局状态与处在每一层的基本状态之间存在逻辑关系,布尔网络的辨识就是将其代数状态空间方程转化为逻辑动态系统。
对于多层布尔网络来说,并不是指简单的单层布尔网络叠加的,而是存在一个全局状态层,全局状态层上的结点状态取决于渠道函数,有一定的更新规律。一些状态点同时存在于不同的层中,在演化及发展的过程中彼此互相影响,并不独立。假设多层布尔网络有K层,每层有N个结点。在整个网络中,彼此不同的结点一共有n个(这里N≤n≤NK)。本发明所建立的多层布尔网络模型如图1所示,多层布尔网络的逻辑动态系统可表示为:
该模型的具体描述如下:
在多层布尔网络模型中,有ai,l∈D,如果状态点i在l层上,则有ai,l=1,那么结点i所在层的集合记为如果结点j是结点i在第l层的邻域,则有γi,j,l=1,其中γi,j,l∈D,否则为0。结点i在l层的领域j的集合表示为结点i的所有邻域j的集合表示为邻域即为决定入度的结点的集合,每个结点的入度就是指向它的边的个数。
在图1中,可以得到第一个结点所在的层的集合是有a1,1=1,a1,2=1,第二个结点所在的层的集合是那么有a2,1=1,a2,2=0。当l=1时,点1的邻域集合为Γin(1)(1)={2},当l=2时,点1的邻域集合为Γin(1)(2)={3},那么Γin(1)=Γin(1)(1)∪Γin(1)(2)={1}∪{3}={1,3}。用表示t时刻结点i在l层的状态,于是的更新的动态方程可以表示为:
其中,f为结点i在第l层的更新函数。
因此,可以得到多层布尔网络的代数形式为:
对于多层布尔网络不同于简单的单层布尔网络模型之处在于,一些状态点同时存在不同的层中,这些存在于不同层的状态点在其演化及发展的过程中彼此相互影响,并不独立。因此,系统中有全局状态层存在,而全局状态与处在每一层的基本状态之间存在逻辑关系。
但是考虑到实际生物系统的随机性,当观测数据不包含所有状态或观测数据较少时,本发明提出一种多层布尔网络的模型辨识方法。目标是找到一个逻辑动态系统,从而辨识出网络模型。如图2所示,该辨识方法包括下述步骤:
第一步,对观测数据进行集合的统计和向量化处理;
假设多层布尔网络有l层、n个结点,令下述公式成立:
假设一组观测数据可表示为:
最终将观测数据表示为向量形式。
第二步,结构矩阵的辨识;
把公式(3)中的结构矩阵的每一列辨识出来,当其数据较少时考虑最小入度建模来辨识。入度在布尔网络网络图上体现,每个结点的入度是指向它的边的个数,其初度就是从它出发的边的个数,而布尔网络的网络图通常只画出了邻域关系,这时某一结点邻域取决于指向它的边的结点。
例如,如图3所示,x1的邻域为{x1,x2},记作U(x1)={x1,x2};x2的邻域为U(x2)={x1,x3};x1的邻域为U(x3)={x1}。考察一个n结点布尔网络,记第k个结点的入度为di(k),它表明直接指向结点k的边数为di(k)。回忆邻接矩阵[2],可知:
其中,k=1,2,…,n。在一个有序的网络中,入度远小于结点数。
显然,最小入度实现需要的数据少得多。数据较少时考虑最小入度建模。
下面找到逻辑动态系统,使得给定的数据可以确定下述逻辑表达式:
W[m,n]=δmn[1,m+1,2m+1,…,(n-1)m+1,2,m+2,2m+2,…,(n-1)m+2,…m,2m,3m,…,nm]
当m=n时,将W[n×n]写成W[n]。
因此,由定义2自定义一组矩阵:
得到的每个矩阵分为左右相等的两个列数相等的子块:
命题1[3]:设x=△m,y=△n,z=△r,定义:
那么,
F[m,n,r]xyz=x
M[m,n,r]xyz=y
R[m,n,r]xyz=z
则用解代替待定元,得到:
类似的,将其用到其他几个方程,最后得到整个模型的逻辑动态方程。
进一步地,由于观测数据可能互相矛盾或者重复,从而导致多层布尔网络的代数形式即公式(2)中的Ll的某列不唯一,数据可能引起对立的辨识结果,因此,考虑多层布尔网络的概率辨识。
因此,多层概率布尔网络可以被描述如下:
由此得到,目标是找到一个逻辑动态系统,使得给定的数据可以确定下述动态方程:
下面介绍利用极大似然估计法根据概率进一步对模型进行辨识的步骤。
首先针对观测数据给出一些标记:
1)观测数据的系统状态为λω:
2)针对观测数据,令
Sl={(Xl(0),Xl(1)),(Xl(1),Xl(2)),…,(Xl(N-1),Xl(N))}
其中,(Xl(N-1),Xl(N))表示从前一个时刻的状态到下一个时刻的状态的转换。
令Sl,i={(Xl(0),Xl,i(1)),(Xl(1),Xl,i(2)),…,(Xl(N-1),Xl,i(N))}表示含有结点的观测数据,其中,(Xl(N-1),Xl,i(N))表示第i个结点从前一个时刻的状态到下一个时刻的状态的转换的集合。
时间序列Sl,i的可能性定义为:
对其取自然对数,得到对数似然:
对于所定义的优化问题的可行解很有可能是空集,所以重新定义一个有误差的约束:
其中,
利用多层布尔网络的结构辨识以及概率辨识相结合,最终得到辨识结果如下:
具体实施例一
基于本发明方法研究致病microRNA和不同癌症间是否共享发病机制的模型辨识。MicroRNA是一类重要的非编码RNA,它的异常能导致人类疾病的发生、发展。通过癌症组织芯片的测定,许多microRNA在癌症组织与正常组织中的表达情况迥异,从而证实了microRNA与癌症的产生是密切相关的。
为了研究不同疾病之间是否共享发病机制,利用miR2Disease数据库中那些已知的microRNA失调能导致疾病的信息描述致病microRNA和癌症之间的相互关系。首先建立致病microRNA和不同癌症间是否共享发病机制的模型。
如图4所示,图中矩形与圆形图案分别代表各种不同的癌症与microRNA,它们之间的连线表示它们之间具有因果关系。实心圆表示那些能引起3种以上癌症的microRNA。从microRNA方面来说,hsa-let-7a失调是导致9种癌症的罪魁祸首,hsa-miR-124a、hsa-let-7c、hsa-miR-145和hsa-miR-221这4种microRNA每一种都至少与5种癌症有关(网络中的实心圆图案)。从图中发现,多种癌症连着部分相同的致病microRNA,暗示着这些疾病共享一些发病机制。
利用上述模型提取癌症前列腺癌(Prostate carcinoma)和胆管癌(Cholangiocarcinoma),相关癌症的microRNA为hsa-let-7a、hsa-miR-221、hsa-let-7c、hsa-miR-145和hsa-miR-124a,具体模型如图5。为了便于计算,将上述模型中的第一层的致病microRNA用和表示,第二层用和表示,则全局状态层为 和
第一层观测数据为:
X1(0)=[101],X1(1)=[010],X1(2)=[110],X1(3)=[101],
X1(4)=[111],X1(5)=[101],X1(6)=[010],X1(7)=[110]。
第二层观测数据为:
X2(0)=[100],X2(1)=[011],X2(2)=[100],X2(3)=[110],
X2(4)=[100],X2(5)=[010],X2(6)=[100],X2(7)=[011]。
全局状态层观测数据为:
根据上述观测数据X1(0)=δ2[121],于是数据的向量形式为:
模型的观察数据的向量结构为:
第一层:
第二层:
(1)模型结构辨识
根据第一层观测数据已知:
则有:
同理可求:
得到:
同理可求:
则:
δ2[11]=δ2[2*]
最后得到逻辑表达式为:
δ2[11]=δ2[1*]
最后得到逻辑表达式为:
(2)概率学习
将系统状态λi在观测数据中体现,所以令
X1(0)=[101]=λ0X1(1)=[010]=λ1X1(2)=[110]=λ2X1(3)=[101]=λ0
X1(4)=[111]=λ3X1(5)=[101]=λ0X1(6)=[010]=λ4X1(7)=[110]=λ5
S1,1=(X(0),0)(X(1),1)(X(2),1)(X(3),1)(X(4),1)(X(5),0)(X(6),1)
取对数似然为:
同样的,可以求出整个系统的代数状态空间方程为:
第二层的状态空间方程为:
全局状态层的状态空间方程为:
通过观测数据可以辨识出前列腺癌和胆管癌和致病microRNA的关系,并且通过辨识知道了和以及和的选择概率,分别为致病microRNA中的hsa-let-7a、hsa-miR-221、hsa-let-7c、hsa-miR-124a和hsa-miR-145。前列腺癌和胆管癌连着部分相同的致病microRNA,针对hsa-let-7a失调,对于前列腺癌和胆管癌都有较大的影响,在前列腺癌中hsa-let-7a有66.7%的概率可能失调,在胆管癌中hsa-let-7a有75%的概率可能失调。hsa-let-7a是前列腺癌和胆管癌的共享发病机制。由此得出本发明方法对于模型辨识的有效性。
根据本发明另一方面,如图6所示,提出一种多层布尔网络的模型辨识系统,该辨识系统包括:
数据获取模块110,用于获取观测数据;其中,观测数据不包含所有状态;观测数据表示为:
预处理模块210,用于对观测数据进行预处理;预处理为数据集合的统计和向量化处理;
模型建立模块310,用于建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;
结构辨识模块410,用于辨识获得一个或多个多层布尔网络的模型结构,辨识过程包括根据观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得单个结点结构矩阵的部分已知列:
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留单列结构矩阵,作为单个结点结构矩阵的部分列;当两个子块不相等时,不保留单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
进一步地,模型建立模块310中建立的多层布尔网络模型表示为:
进一步地,系统还包括第一结构选择模块510,第一结构选择模块510用于当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
进一步地,系统还包括第二结构选择模块520,第二结构选择模块520用于当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致单个结点结构矩阵的每一列结果不唯一。
附:对本发明中用到的主要符号说明如下:
∝ 矩阵的半张量积
W[m,n] mn×mn换位矩阵
In n阶单位阵
Col{A} 矩阵A的列集合
Coli(A) 矩阵A的第i列
Dk {0,1,2,…,k}
D2 {0,1}
∨ 析取(或)
∧ 合取(与)
→ 蕴含
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
本发明援引的文献如下:
[1]AKUTSU T,KUHARA S,MARUYAMA O,et al.Identification of geneticnetworks by strategic gene disruptions and gene overexpressions under aBoolean model[J].Theoretical Computer Science,2003,298(1):235–251.
[2]CHENG D,QI H,LI Z.Model construction of Boolean network viaobserved data[J].IEEE Transactions on Neural Networks,2011,22(4):525-536.
[3]陈增强,王晶晶,韩晓光.基于矩阵半张量积方法的带有敌对输入的异步时序机控制[J].中国科学:信息科学,2019,49(11):1488-1501.
Claims (10)
1.一种多层布尔网络的模型辨识方法,其特征在于,包括以下步骤:
步骤一、获取观测数据;其中,所述观测数据不包含所有状态;
步骤二、对所述观测数据进行预处理;
步骤三、建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;
步骤四、辨识获得一个或多个多层布尔网络的模型结构,过程包括:
根据所述观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据所述观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得所述单个结点结构矩阵的部分已知列:
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应所述单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将所述单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留所述单列结构矩阵,作为所述单个结点结构矩阵的部分列;当两个子块不相等时,不保留所述单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
3.根据权利要求2所述的一种多层布尔网络的模型辨识方法,其特征在于,步骤二中所述预处理为数据集合的统计和向量化处理。
5.根据权利要求4所述的一种多层布尔网络的模型辨识方法,其特征在于,步骤四中当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
6.根据权利要求4所述的一种多层布尔网络的模型辨识方法,其特征在于,步骤四中当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据所述概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致所述单个结点结构矩阵的每一列结果不唯一。
7.一种多层布尔网络的模型辨识系统,其特征在于,包括:
数据获取模块,用于获取观测数据;其中,所述观测数据不包含所有状态;所述观测数据表示为:
预处理模块,用于对所述观测数据进行预处理;所述预处理为数据集合的统计和向量化处理;
模型建立模块,用于建立多层布尔网络模型;其中,多层布尔网络包括多个单层布尔网络和各层之间的全局状态层;
结构辨识模块,用于辨识获得一个或多个多层布尔网络的模型结构,辨识过程包括根据所述观测数据对每个结点的结构进行辨识,获得单个结点的结构,从而获得多层布尔网络模型的结构,其中单个结点的结构辨识具体步骤为:
步骤四一、根据所述观测数据和下述公式对单个结点结构矩阵的部分已知列进行辨识,获得所述单个结点结构矩阵的部分已知列:
步骤四二、按照下述公式将已获得部分已知列的单个结点结构矩阵与换位矩阵相乘,获得对应所述单个结点结构矩阵每一列的单列结构矩阵:
其中,W表示换位矩阵;n表示结构矩阵的总列数;
步骤四三、将所述单列结构矩阵分为左右相等的两个列数相等的子块,当两个子块相等时,保留所述单列结构矩阵,作为所述单个结点结构矩阵的部分列;当两个子块不相等时,不保留所述单列结构矩阵;将获得的多个部分列与步骤四一中获得的部分已知列相结合,获得最终的单个结点结构矩阵;
步骤四四、重复步骤四二至步骤四三,直至单个结点结构矩阵的所有列均被辨识出来,获得单个结点结构矩阵,从而辨识获得单个结点的结构。
9.根据权利要求7所述的一种多层布尔网络的模型辨识系统,其特征在于,系统还包括第一结构选择模块,所述第一结构选择模块用于当辨识获得多个多层布尔网络的模型结构时,利用最小入度建模算法,在多个多层布尔网络模型结构中选择一个作为最终的多层布尔网络模型结构。
10.根据权利要求7所述的一种多层布尔网络的模型辨识系统,其特征在于,系统还包括第二结构选择模块,所述第二结构选择模块用于当辨识获得多个多层布尔网络的模型结构时,根据矛盾列的数据,利用极大似然估计法,获得多个多层布尔网络模型结构被选择的概率,从而根据所述概率,确定最终的多层布尔网络模型结构;其中,矛盾列的定义是由于观测数据各状态相互矛盾而导致所述单个结点结构矩阵的每一列结果不唯一。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110330286.XA CN112885404B (zh) | 2021-03-29 | 2021-03-29 | 一种多层布尔网络的模型辨识方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110330286.XA CN112885404B (zh) | 2021-03-29 | 2021-03-29 | 一种多层布尔网络的模型辨识方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112885404A true CN112885404A (zh) | 2021-06-01 |
CN112885404B CN112885404B (zh) | 2023-11-21 |
Family
ID=76040890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110330286.XA Active CN112885404B (zh) | 2021-03-29 | 2021-03-29 | 一种多层布尔网络的模型辨识方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885404B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005149037A (ja) * | 2003-11-14 | 2005-06-09 | Mitsubishi Space Software Kk | 遺伝子発現作用推定方法、遺伝子発現作用推定装置及び遺伝子発現作用推定プログラム |
US20110131539A1 (en) * | 2009-11-27 | 2011-06-02 | National Tsing Hua University | Rewiring using irredundancy removal and addition |
US8065089B1 (en) * | 2004-03-30 | 2011-11-22 | University Of North Carolina At Charlotte | Methods and systems for analysis of dynamic biological pathways |
JP2016048251A (ja) * | 2010-07-05 | 2016-04-07 | ソニー株式会社 | 生体情報処理方法および装置、並びに記録媒体 |
CN106021975A (zh) * | 2016-05-28 | 2016-10-12 | 温州商学院 | 通过布尔网络模拟肿瘤细胞状态的方法 |
CN106021991A (zh) * | 2016-08-08 | 2016-10-12 | 温州大学 | 一种基于布尔网络模拟干预肿瘤细胞状态的方法 |
CN106295150A (zh) * | 2016-08-02 | 2017-01-04 | 南京航空航天大学 | 一种基因调控网络的优化控制方法 |
CN106970532A (zh) * | 2017-05-09 | 2017-07-21 | 山东建筑大学 | 一种模糊动态布尔网络控制系统及其构建方法 |
CN107220525A (zh) * | 2017-05-19 | 2017-09-29 | 浙江工业大学 | 基于rnn的基因调控网络构建与动态差异性分析方法 |
CN110555530A (zh) * | 2019-09-02 | 2019-12-10 | 东北大学 | 一种基于分布式的大规模基因调控网络构建方法 |
CN111381498A (zh) * | 2020-03-09 | 2020-07-07 | 常熟理工学院 | 多传感器基于多率变时滞状态空间模型的期望最大化辨识方法 |
CN112564965A (zh) * | 2020-12-03 | 2021-03-26 | 南京邮电大学 | 多层复杂动态网络的拓扑辨识方法 |
-
2021
- 2021-03-29 CN CN202110330286.XA patent/CN112885404B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005149037A (ja) * | 2003-11-14 | 2005-06-09 | Mitsubishi Space Software Kk | 遺伝子発現作用推定方法、遺伝子発現作用推定装置及び遺伝子発現作用推定プログラム |
US8065089B1 (en) * | 2004-03-30 | 2011-11-22 | University Of North Carolina At Charlotte | Methods and systems for analysis of dynamic biological pathways |
US20110131539A1 (en) * | 2009-11-27 | 2011-06-02 | National Tsing Hua University | Rewiring using irredundancy removal and addition |
JP2016048251A (ja) * | 2010-07-05 | 2016-04-07 | ソニー株式会社 | 生体情報処理方法および装置、並びに記録媒体 |
CN106021975A (zh) * | 2016-05-28 | 2016-10-12 | 温州商学院 | 通过布尔网络模拟肿瘤细胞状态的方法 |
CN106295150A (zh) * | 2016-08-02 | 2017-01-04 | 南京航空航天大学 | 一种基因调控网络的优化控制方法 |
CN106021991A (zh) * | 2016-08-08 | 2016-10-12 | 温州大学 | 一种基于布尔网络模拟干预肿瘤细胞状态的方法 |
CN106970532A (zh) * | 2017-05-09 | 2017-07-21 | 山东建筑大学 | 一种模糊动态布尔网络控制系统及其构建方法 |
CN107220525A (zh) * | 2017-05-19 | 2017-09-29 | 浙江工业大学 | 基于rnn的基因调控网络构建与动态差异性分析方法 |
CN110555530A (zh) * | 2019-09-02 | 2019-12-10 | 东北大学 | 一种基于分布式的大规模基因调控网络构建方法 |
CN111381498A (zh) * | 2020-03-09 | 2020-07-07 | 常熟理工学院 | 多传感器基于多率变时滞状态空间模型的期望最大化辨识方法 |
CN112564965A (zh) * | 2020-12-03 | 2021-03-26 | 南京邮电大学 | 多层复杂动态网络的拓扑辨识方法 |
Non-Patent Citations (4)
Title |
---|
F. LIU ET AL.: "Identification of a Boolean multiplex network via data containing all possible states", 《2020 IEEE 16TH INTERNATIONAL CONFERENCE ON CONTROL & AUTOMATION (ICCA)》, pages 824 - 829 * |
FENGQIU LIU ET AL.: "Observability of probabilistic Boolean multiplex networks", 《ASIAN J. CONTROL》, pages 1 - 8 * |
YUHU WU ET AL.: "Observability of Boolean multiplex control networks", 《SCIENTIFIC REPORTS》, no. 7, pages 46495 * |
徐境雪: "多层布尔网络可观测性的研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》, no. 4, pages 002 - 312 * |
Also Published As
Publication number | Publication date |
---|---|
CN112885404B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Model construction of Boolean network via observed data | |
Jeong et al. | Efficient global optimization (EGO) for multi-objective problem and data mining | |
CN109242223B (zh) | 城市公共建筑火灾风险的量子支持向量机评估与预测方法 | |
CN110957002B (zh) | 一种基于协同矩阵分解的药物靶点相互作用关系预测方法 | |
CN114927162B (zh) | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 | |
Waller et al. | A comparison of the classification capabilities of the 1-dimensional kohonen neural network with two pratitioning and three hierarchical cluster analysis algorithms | |
Pappa et al. | Attribute selection with a multi-objective genetic algorithm | |
Aladag et al. | Fuzzy lagged variable selection in fuzzy time series with genetic algorithms | |
JP2024524795A (ja) | グラフニューラルネットワークに基づく遺伝子表現型予測 | |
CN105117326A (zh) | 一种基于组合混沌序列的测试用例集生成方法 | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
Zhang et al. | Reconstructing heterogeneous networks via compressive sensing and clustering | |
US20040243962A1 (en) | Performance modeling for circuit design | |
Sun et al. | A fuzzy brain emotional learning classifier design and application in medical diagnosis | |
CN112885404A (zh) | 一种多层布尔网络的模型辨识方法及系统 | |
Alok et al. | Simultaneous feature selection and clustering of micro-array and RNA-sequence gene expression data using multiobjective optimization | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
Bielza et al. | Explaining clinical decisions by extracting regularity patterns | |
CN114141306A (zh) | 基于基因相互作用模式优化图表示的远处转移识别方法 | |
CN110504004B (zh) | 一种基于复杂网络结构可控性基因的识别方法 | |
Liu et al. | Multi-objective evolutionary algorithm for mining 3D clusters in gene-sample-time microarray data | |
CN104866588A (zh) | 一种针对单个不确定图的频繁子图挖掘方法 | |
CN118196600B (zh) | 基于差分进化算法的神经架构搜索方法和系统 | |
Starzyk et al. | Software simulation of a self-organizing learning array system | |
Cordón et al. | Computing the Spanish medium electrical line maintenance costs by means of evolution-based learning processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |