CN104794321B - 用于对前疾病状态进行检测的检测装置 - Google Patents

用于对前疾病状态进行检测的检测装置 Download PDF

Info

Publication number
CN104794321B
CN104794321B CN201410027769.2A CN201410027769A CN104794321B CN 104794321 B CN104794321 B CN 104794321B CN 201410027769 A CN201410027769 A CN 201410027769A CN 104794321 B CN104794321 B CN 104794321B
Authority
CN
China
Prior art keywords
dnb
index
sample data
unit
morbid state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410027769.2A
Other languages
English (en)
Other versions
CN104794321A (zh
Inventor
陈洛南
刘锐
合原幸
合原一幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Center for Excellence in Molecular Cell Science of CAS
Original Assignee
Shanghai Institutes for Biological Sciences SIBS of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institutes for Biological Sciences SIBS of CAS filed Critical Shanghai Institutes for Biological Sciences SIBS of CAS
Priority to CN201410027769.2A priority Critical patent/CN104794321B/zh
Priority to PCT/CN2015/071237 priority patent/WO2015110018A1/zh
Publication of CN104794321A publication Critical patent/CN104794321A/zh
Application granted granted Critical
Publication of CN104794321B publication Critical patent/CN104794321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种用于对前疾病状态进行检测的检测装置及检测方法。该装置包括:样本获取单元,该样本获取单元获取检测对象的对照样本数据和单样本数据;DNB设定单元,该DNB设定单元设定DNB成员;指标计算单元,该指标计算单元通过计算对照样本数据和单样本数据的分布的概率之间的距离来得到复合指标;以及状态判别单元,该状态判别单元当所述复合指标超过阈值时,判断检测对象处于前疾病状态。由此,有效地将DNB理论应用在单样本情形上,能简单又准确地检测出前疾病状态。

Description

用于对前疾病状态进行检测的检测装置
技术领域
本发明涉及一种用于对前疾病状态进行检测的检测装置及检测方法。
背景技术
现代社会随着环境污染、人口的增加及生活节奏的不断加快,人们的压力日渐增大,许多人在压力下形成了不良的饮食习惯及生活习惯。在这种情况下,患上各种复杂疾病(癌症、糖尿病、心脑血管疾病等)的人数增多,例如患肝部恶性肿瘤和患糖尿病等疾病的人数不断上升。在这些复杂疾病中,有一部分疾病的病情发展相对平缓,如慢性炎症,这类疾病通常可以通过药物干涉和保健手段得到一定地控制;但很多疾病却具有突然恶化的现象,例如肝癌,其病情恶化很快,发病之前一般没有什么不适,而一旦出现了症状去医院就诊,往往患者已属于中晚期,发病后生存时间也已不多。这一类具有病情突然恶化现象的疾病都有一个很相似的特点,即在病程变化中存在一个“临界点”(critical point)或关键节点。(参照非专利文献1-5)在该临界点到来之前,病情不是特别的明显,这往往使得患者忽视了病情,耽误了治疗的最佳时机;而在临界点之后,病情就不是平缓地发展,而是在很短的时间内从稳定期突然恶化而成为重病期。正是由于这个原因,对这类疾病的确诊常常不及时,使得在重病期的治疗难度大、疗效差,发病后生存时间短,因此具有很大的危害性。如何及时地在早期诊断这类复杂疾病,关键在于找到疾病突然恶化前的预警特征或信号,预测“临界点”和突然恶化现象发生的条件,这已经成为了生物理论和临床医学研究上的一个热点问题。
如图3中的(a)所示,一般来说,“前疾病状态”(pre-disease state)是疾病恶化的“临界点”到达之前一个临界状态。在该阶段适当的治疗可以使疾病重新恢复到“正常状态”(normal state),故称为可逆阶段。但当疾病的进展一旦越过临界点迅速到达“疾病状态”(disease state)时,治疗的难度非常大,很难再使病情回到相对正常状态,故称为非可逆阶段。因此,前疾病状态的期间是关键时间节点,驱动前疾病状态的分子是关键因子,它们的调控网络也是导致疾病快速恶化的关键网络。显然,在疾病发生发展中,前疾病状态的早期预测和诊断尤为重要,这是很多疾病患者病情得到有效控制的最后机会。然而,与疾病状态不同,正常状态与前疾病状态并无明显不同,所以,对很多复杂疾病来说,早期预测或诊断前疾病状态是一个非常困难的问题,现在还无有效的方法。但日趋成熟的高通量生物大数据为全面了解生物过程及其异常机制提供了一个宝贵的契机。我们可以更广泛地开展对复杂疾病的病理过程的研究,特别是通过开发基于生物大数据的新理论和新方法,识别复杂疾病病变过程的预警信号(即关键时间节点或前疾病状态),确定表征疾病发展的关键因子,提取关键网络。这不仅可以阐明复杂疾病发生发展的分子机理,还将有助于抗击复杂疾病,并为预防、诊断、治疗复杂疾病提供新方法和潜在药靶。
事实上,不仅仅是复杂疾病过程,在许多生物过程中,如细胞分化、细胞增殖和疾病的进展等过程都涉及“跳跃式的”状态转化,即系统状态的急剧改变或定性变化。脂肪细胞分化就是这样一个过程。一个多能干细胞在成为“前脂肪细胞”以前都保持着分化为多种细胞的潜力,一旦成为前脂肪细胞后就进行急剧的克隆扩增及随后的终端分化,从而产生成熟的脂肪细胞。疾病进展过程也是如此,系统逐渐从一个正常状态转化到前疾病状态,然后病情进一步恶化,急剧发展为疾病早期状态或疾病状态。一般来说,这种急剧的变化从数学的观点来看可以被描述为分叉现象。因此,如何由小样本检测到关键节点及其关键因子在生物和医学领域具有非常重要的科学意义。
现代医学和生物学的研究成果表明,在生物体的各个器官内,是各个功能模块或生物分子的动态协同作用共同决定了器官的功能和状态,因此,我们把复杂疾病的发展和恶性转化过程可看作是一个复杂动力系统的时间演化动态过程,把影响疾病的外在因素视为动力系统中的参数,把参与疾病演变的分子浓度当作系统中的状态变量,于是疾病的突然恶化现象就对应了系统的突变现象。病程中的关键节点对应着动力系统中参数的临界点,特别是疾病恶性转化的前期可看作动力系统的临界状态。要获得恶性转化的早期预警信号就成为如何界定“临界点”、如何探测和识别恶性转化早期的生物信号、如何确定复杂动态动力系统是否处于临界状态的问题。
如图1和图3所示,疾病的发展可划分为以下3个状态。
正常状态,该状态描述正常阶段或病情较疾病期轻微的缓慢变化阶段,包括疾病的潜伏阶段、癌变前的慢性炎症阶段或病情得到有效控制而处于相对健康的阶段,这是一个较为稳定的状态(图1,图3)。
前疾病状态,当系统处于正常状态时,如果持续受到外界刺激或内部某些因素的驱动,那么系统就进入前疾病状态,该状态是疾病恶化的突变点到达之前一个临界阶段(实际上是正常状态的一个极限)。处于该阶段的系统对外界的扰动非常敏感,适当的治疗可以使疾病重新回到相对正常期,但如果没有及时的治疗,疾病就很容易越过突变点到达疾病阶段(图1,图3)。
疾病状态,该状态代表病情已经恶化成为重病期,或慢性炎症已经恶性转化成为癌症。系统再次处于一个稳定状态。一般来说,当疾病到达这一阶段时,治疗的难度非常大,很难再使病情回到相对正常状态(图1,图3)。
在图1中,(a)示出了复杂疾病发展的三个阶段分别经历了正常状态,前疾病状态和疾病状态,(b)是正常状态,这是系统处于一个势能局部最低的状态,在此期间,系统是在一个稳定的状态,并逐渐或平稳地改变,处于该状态的系统有较强抵抗外界干扰的能力,(c)是前疾病状态,这是一个临界状态,是相对正常状态的极限,即,是临近即将到来的激烈转变之前的一个状态。此状态仍是可逆的,在适当的系统参数扰动下可以转回正常状态。该状态下的系统具有较高的势能,因此系统处于该状态时对外界干扰很敏感,外界扰动可以驱使系统越过临界点进入疾病状态,(d)是疾病状态,这是另一个稳定状态,系统处于疾病状态时候具有较低的势能,(e)示出了正常状态时候的网络,其中节点的颜色代表基因表达偏离均值的程度,边代表两个基因之间的相关性,(f)示出了前疾病状态下的网络,该状态下的网络中有一组基因(Z1、Z2、Z3)的表达偏离均值很大,并且这组基因之间有很强的相关性,同时与其他基因的相关性变得很弱,(g)示出了疾病状态下的网络,处于这个状态时,基因表达偏离均值程度又回落为较小,基因两两之间的相关性也变得和正常状态差不多,从(h)中可以看出,在前疾病状态,Z1,Z2,Z3表达震动很剧烈,但是相关性非常高。
因此,前疾病状态的早期预测和诊断尤为重要,这是很多患者病情得到有效控制的重要机会。然而,对前疾病状态的预测有很多的困难。第一方面的困难是,前疾病状态对应着系统参数接近而未到达临界点的状态,这个时候,系统并没有发生相变,因此与正常状态相比,系统的状态并没有明显的改变。所以,要准确预测恶性转化的前期是一个很困难的非线性问题。第二方面的困难来自于复杂疾病的本身,因为很多复杂疾病都是基因水平、转录水平、蛋白质水平等的众多因素综合作用的结果,因此,尽管人们对这些复杂疾病的研究已经取得了一些进展,但至今还没有对复杂疾病构建起准确可靠的动态模型来刻画和研究恶性转化的现象。第三方面的困难是来自数据的采集方面,对生态系统、金融系统等的研究可以长时间、高密度地采样,但是这种数据采集方式对研究复杂疾病是做不到的,因为人们不会在身体感到真正不适之前频繁地去医院检查。正是基于这几方面的问题,对复杂疾病恶性转化的早期预测或“前疾病状态”的诊断是一个只能基于小样本数据甚至单样本数据来实现的复杂非线性问题。这样的问题十分难以解决,因此以往的绝大部分理论和实验工作都集中在针对“疾病状态”或“疾病早期状态”的研究上。对疾病状态的诊断主要是基于分子生物标志物,例如基因、蛋白质和代谢分子等能够标识疾病表型的因子,并可以通过观测其基因表达或蛋白质表达等区分开正常状态和疾病状态。然而,基于分子生物标志物的预测和诊断方法在处理疾病恶化早期或前疾病状态时无能为力,这是由于前疾病状态仅仅是相对正常状态的一个极限阶段,在表达量等水平上都无法区分出前疾病状态和正常状态。
对此,本发明的发明人们已经提出了一种对成为示出从正常状态向疾病状态转移之前的前疾病状态的预警信号的生物标志物的候选标志物进行检测的方法(非专利文献6)。根据该方法,通过对马上就要转移到疾病状态时才会出现的动态网络标志物(DNB)进行检测,能实现疾病的早期预测。
可是,非专利文献6中记载的这种检测方法只能够针对多样本数据来进行疾病的早期预测。对于复杂疾病的早期预测,常常面对来自数据的采集方面的困难,即,研究复杂疾病特别是对大多数复杂疾病的临床应用方面,做不到长时间、高密度地采样,因为人们不会在身体感到真正不适之前频繁地去医院检查。因此,对复杂疾病恶性转化的早期预测或“前疾病状态”的诊断是一个只能基于小样本数据甚至单样本数据来实现的复杂非线性问题。在这种情况下,由于只有一个样本,无法使用上述传统的基于DNB的预测方法。
因此,为了有效地将基于DNB进行检测的方法应用在单样本情形上,需要提供一种新的基于DNB对单样本进行测试的方法。
现有技术
【非专利文献1】Venegas,J.G.等著,“如同灾变的前奏般的哮喘中的自组织斑块”,英国,《自然》,自然出版集团,2005年,第434卷,第777-782页
【非专利文献2】McSharry,P.E.、Smith,L.A.、Tarassenko,L著,“癫痫发作的预测:用非线性方法是否恰当”,英国,《自然医学》,自然出版集团,2003年,第9卷,第241-242页
【非专利文献3】Roberto,P.B.、Eliseo,G.、Josef,C.著,“用于对逻辑回归的变点进行评定的转换模型”,美国,《医学统计学》,威立布莱克威尔出版社,2003年,第22卷,第1141-1162页
【非专利文献4】Paek,S.等著,“对前庭神经鞘瘤进行伽玛刀手术后的听力保存”,美国,《癌症》,威立布莱克威尔出版社,2005年,第1040卷,第580-590页
【非专利文献5】Liu,J.K.、Rovit,R.L.、Couldwell,W.T.著,“垂体卒中”,美国,《神经外科论文集》,Thieme出版社,2001年,第12卷,第315-320页
【非专利文献6】陈洛南、刘锐、刘治平、李美仪、合原一幸著,“通过动态网络标志物对复杂疾病的突然恶化进行早期预警信号的检测”,《科学陈诉》,2012年3月29日,互联网(网址:http://www.natureasia.com/ja-jp/srep/abstracts/35129)
发明内容
本发明鉴于上述难题而完成,基于DNB理论,开发出了基于单样本(高通量数据)预测复杂疾病恶性突变的检测装置和检测方法,可以有效地将DNB理论应用在单样本情形上,这是传统的预测方法所做不到的。
本发明的第一方面提供了一种用于对前疾病状态进行检测的检测装置,包括:样本获取单元,该样本获取单元获取检测对象的对照样本数据和单样本数据;DNB设定单元,该DNB设定单元设定DNB成员;指标计算单元,该指标计算单元通过计算对照样本数据和单样本数据的分布的概率之间的距离来得到复合指标;以及状态判别单元,该状态判别单元当所述复合指标超过阈值时,判断检测对象处于前疾病状态。
在另一优选例中,所述指标计算单元包括:第1指数计算单元,该第1指数计算单元将对照样本数据和单样本数据中DNB成员的分布的概率之间的距离作为第1指数;第2指数计算单元,该第2指数计算单元将对照样本数据中DNB成员和非DNB成员的分布的概率之间的距离作为第2指数;第3指数计算单元,该第3指数计算单元将对照样本数据和单样本数据中非DNB成员的分布的概率之间的距离作为第3指数;以及校正值设定单元,该校正值设定单元对校正值进行设定,该指标计算单元基于第1指数、第2指数、第3指数、及校正值得到复合指标。
在另一优选例中,所述指标计算单元将所述第1指数、所述第2指数、及所述第3指数与所述校正值之和的倒数的乘积作为复合指标。
在另一优选例中,所述分布的概率之间的距离是KL距离。
在另一优选例中,所述校正值是小于等于1的正数。
在另一优选例中,所述校正值是0.01。
在另一优选例中,还包括输出单元,该输出单元以模拟显示的方式输出DNB成员的概率分布。
本发明的第一方面提供了一种用于对前疾病状态进行检测的检测方法,包括以下步骤:样本获取步骤,获取检测对象的对照样本数据和单样本数据;DNB设定步骤,设定DNB成员;指标计算步骤,通过计算对照样本数据和单样本数据的分布的概率之间的距离来得到复合指标;以及状态判别步骤,当所述复合指标超过阈值时判断检测对象处于前疾病状态。
本发明针对现有技术中的不足,提供了基于单样本(高通量数据)预测复杂疾病恶性突变的检测装置和检测方法,可以有效地将DNB理论应用在单样本情形上,能简单又准确地检测出前疾病状态。
附图说明
图1是示出复杂疾病发展的三个阶段的示意图。
图2是示出本发明的检测装置的结构的框图。
图3是示出根据本发明的实施方式基于单样本数据预测复杂疾病的突变的示意图。
图4是示出对本发明的实施方式的正确性和可靠性进行验证的数值模拟结果的示意图。
图5是示出根据本发明的实施方式进行检测的例子的示意图。
图6是示出根据本发明的实施方式进行检测的另一个例子的示意图。
具体实施方式
下面结合附图进一步阐明本发明的内容,但下述的例子并不是对本发明的保护范围的限制。
本发明的第一方面是一种用于对前疾病状态进行检测的检测装置。图3是示出本发明的检测装置的结构的框图。不同于现有技术中的多样本,在本实施方式中利用单样本(高通量数据)来预测复杂疾病的突变。如图2所示,检测装置1包括:样本获取单元10,获取检测对象的对照样本数据和单样本数据;DNB设定单元11,设定DNB成员;指标计算单元,通过计算对照样本数据和单样本数据的分布的概率之间的距离来得到复合指标;以及状态判别单元12,当所述复合指标超过阈值时,判断检测对象处于前疾病状态。对照样本数据和单样本数据是指control和case这两组样本,其中control组(对照组)中含有大量样本,case组中仅含有一个样本(单样本)。DNB成员的设定方法是公知的,可以使用非专利文献6中记载的设定方法,在此不再赘述。
更具体地,指标计算单元包括:第1指数计算单元13,将对照样本数据和单样本数据中DNB成员的分布的概率之间的距离作为第1指数;第2指数计算单元14,将对照样本数据中DNB成员和非DNB成员的分布的概率之间的距离作为第2指数;第3指数计算单元15,将对照样本数据和单样本数据中非DNB成员的分布的概率之间的距离作为第3指数;以及校正值设定单元16,对校正值进行设定,指标计算单元基于第1指数、第2指数、第3指数、及校正值得到复合指标。应当理解的是,即使用一个单独的指标计算单元来计算对照样本数据和单样本数据的分布的概率之间的距离也是可以的,细分为上述4个单元只是一种可选的方式。
在一个优选的方式中,复合指标可以是所述第1指数、所述第2指数、及所述第3指数与所述校正值之和的倒数的乘积。
以下参照图3对复合指标的计算进行详细说明。图3是示出根据本发明的实施方式基于单样本数据预测复杂疾病的突变的示意图。由于需要对这两组样本的分布的相似程度进行估测,也就是说,要计算这两组样本的分布的概率距离,因此在本发明中,不管用哪种计算概率距离的方法,都可以实现本发明,例如直方图相交距离、卡方检验、二次型距离、匹配距离、柯尔莫哥洛夫-斯米尔诺夫检验(K-S距离)、地球移动距离、K-L距离等等。优选为使用K-L距离来进行计算,因为使用K-L距离计算的话,计算量最小,应用最广泛,精度也最高。K-L距离又称为相对熵、KL散度、信息散度、信息增益,是两个概率分布的差别的非对称性的度量。其意义是:在相同事件空间里,概率分布P(k)的事件空间,若用概率分布Q(k)编码时,平均每个基本事件(符号)编码长度增加了多少比特。
Kullback-Leibler距离(K-L距离)的定义为:
其中P和Q分别是两个离散的概率分布,P(k)=ProbP(x=xk),Q(k)=ProbQ(y=yk),并且
Kullback-Leibler距离也可以写作
DKL(P,Q)=H(P,Q)-H(P)
即K-L距离是一种条件熵,主要用于判断两个概率分布的距离,也被用于计算两个样本A和B之间的相似性(similarity)的大小。如果DKL(PA,PB)=0,那么样本A和B所含有的信息相同,两个样本的相似性达到最大。
利用K-L距离设计如下的复合指标I:
这个复合指标I被称为DNB-S score,其中,Case数据和control数据中DNB成员之间的K-L距离(DKL(caseDNB,controlDNB))对应于上述第1指数、Case数据中DNB成员和非DNB成员之间的K-L距离(DKL(caseDNB,casenon-DNB))对应于上述第2指数、Case数据和control数据中非DNB成员之间的K-L距离(DKL(casenon-DNB, controlnon-DNB))对应于上述第3指数,ε是一个小的正数,是为了避免出现零分母的校正值,取为0~1,优选为0.01。在上述设计的复合指标中,复合指标是第1指数、第2指数、及第3指数与校正值之和的倒数的乘积,但这种设计仅是一个示例,只要是基于第1指数、第2指数、及第3指数与校正值,也可以设计为其他方式。
如图3所示,(a)示出了复杂疾病的发展分为三个状态,(b)示出了对疾病系统的单样本预测的依据,即基于一个case样本,很多control样本(对照组样本,如健康人的样本),已有的DNB网络。这些样本例如可以是基因表达式,基于DNB理论可以判断该case样本是否处于前疾病状态,(c)示出了利用K-L距离得到的分布,可以看到当系统处于前疾病状态时候,case数据中的DNB生物分子具有双峰分布,而control数据中的DNB生物分子具有单峰分布,同时,case数据中的non-DNB分子具有单峰分布,这个性质使得当单case样本取自前疾病状态时候,DNB与non-DNB分布的区别、DNB分别在case数据与control数据中的分布可以提供显著的信号,(d)示出了利用新的复合指标I即DNB-S score进行预测,当复合指标超过阈值时,判断检测对象处于前疾病状态,该指标仅需要单case样本就可以计算。当系统处于正常状态或疾病状态时候,DNB-S score具有较低值,而当系统处于前疾病状态时候,DNB-Sscore处于较高值,从而可以为系统突变的早期预警提供可靠的信号。
根据DNB的性质,当系统接近前疾病状态时候,DNB-S score有如下的特征::
Case数据和control数据中DNB成员之间的K-L距离(DKL(caseDNB,controlDNB))增大,因为DNB中生物分子在case数据和control数据中的分布显著不同,即,case数据中的DNB分子呈现双峰分布,而control数据中的DNB分子呈现单峰分布(见图3)。
Case数据中DNB成员和非DNB成员之间的K-L距离(DKL(caseDNB,casenon-DNB))增大,因为即使同在case数据中,DNB中生物分子在case呈现双峰分布,而non-DNB分子呈现单峰分布(见图3)。
这两条性质使得DNB-S score可以准确地指示前疾病状态。另一方面,当系统越过临界点,进入疾病状态以后,DNB-S score中的第三项有如下的性质:
当系统处于正常状态或前疾病状态时候,Case数据和control数据中非DNB 成员之间的K-L距离(DKL(casenon-DNB,controlnon-DNB))没有明显的变化;然而,当系统越过临界点,进入疾病状态以后,non-DNB中生物分子在case数据和control数据中的分布显著不同,即non-DNB分子在疾病状态下(即在case数据中)的表达量具有更高(或低)的均值,因而分布的均值更大(或小)。
根据上面的DNB-S score的特征,我们可以看到前两项可以用来区分单样本是处于正常状态还是处于前疾病状态,第三项可以用来区分单样本是处于前疾病状态还是处于疾病状态。
因此,当判断检测对象处于前疾病状态时,可以由状态判别单元12发出预警信号。
另外,检测装置还可以包括一个输出单元(在图2中未示出),以模拟显示的方式输出DNB成员的概率分布(参照图3中的(c))。
本发明的第二方面是一种用于对前疾病状态进行检测的检测方法,该检测方法包括以下步骤。
首先,获取检测对象的对照样本数据和单样本数据。在本发明第一方面的检测装置中,样本获取单元10执行该步骤。
接着,设定DNB成员。在本发明第一方面的检测装置中,DNB设定单元11执行该步骤。
然后,通过计算对照样本数据和单样本数据的分布的概率之间的距离来得到复合指标。在本发明第一方面的检测装置中,指标计算单元执行该步骤。
最后,当所述复合指标超过阈值时判断检测对象处于前疾病状态。在本发明第一方面的检测装置中,状态判别单元12执行该步骤。
其中,在执行指标计算步骤时,也可以和本发明第一方面的检测装置得到复合指标相类似,在指标计算步骤中还包括:第1指数计算步骤,将对照样本数据和单样本数据中DNB成员的分布的概率之间的距离作为第1指数;第2指数计算步骤,将对照样本数据中DNB成员和非DNB成员的分布的概率之间的距离作为第2指数;第3指数计算步骤,将对照样本数据和单样本数据中非DNB成员的分布的概率之间的距离作为第3指数;以及校正值设定步骤,对校正值进行设定。
在进行了上述细分之后的指标计算步骤中,基于第1指数、第2指数、第3指数、及校正值得到复合指标。
优选为在指标计算步骤中将所述第1指数、所述第2指数、及所述第3指数与所述校正值之和的倒数的乘积作为复合指标。
同样地,在复合指标的计算中,不管用哪种计算概率距离的方法,都可以实现本发明,但优选为使用K-L距离来进行计算。通过K-L距离来设计的复合指标I也与上述的本发明的第一方面中的检测装置一样,在此不再赘述。
以下参照图4对本发明的实施方式的正确性和可靠性进行验证。图4是示出对本发明的实施方式的正确性和可靠性进行验证的数值模拟结果的示意图。
利用一个16-维的网络进行数值模拟,该网络是如下的米氏(Michaelis-Menten)模型:
其中参数P的范围是-0.1到0.32,ζi(t)是白噪声。我们利用欧拉(Euler)方法模拟了系统从正常状态(P>0)到达临界点(P=0),并进入疾病状态(P<0)的过程,如图4所示。该数值模拟证明了在本发明的上述实施方式中设定的复合指标I即DNB-S score的正确性与可靠性。
图4的(a)示出了16-维的米氏网络,该网络中节点1-7属于DNB成员,节点9-16属于非DNB成员,(b)示处了5组单样本数据的预测结果,当系统接近临界点时(参数P=0),利用DNB-S score,能发现准确的预警信号,即,五组B-S score均显著上升,超过了阈值,(c)示出了模拟显示case数据中的DNB成员(节点1-7)具有显著不同的分布,即,case数据中的DNB呈现双峰分布(两侧),而control数据中的DNB呈现单峰分布(中央),(d)示出了模拟显示即使同处于case数据中,DNB成员(节点1-7)与非DNB成员(节点8-16)具有显著不同的分布,即,DNB成员呈现双峰分布(两侧),而非DNB成员呈现单峰分布(中央)。
以下利用真实的临床数据或试验数据对本发明的检测装置和检测方法,也就是对复合指标I即DNB-S score的有效性、准确性进行检验。对DNB-S score的具体运用基于公开数据:(1)个体注射H3N2病毒后感冒(influenza)是否发病的临床试验数据(GSE30550);(2)小鼠暴露在毒气中对肺部的急性伤害的基因数据(GSE2565)。
检测例1:感冒疾病(influenza)
图5是示出根据本发明的实施方式进行检测的例子的示意图。在图5中,显示了DNB成功应用在一个特定的疾病的单样本早期检测中,即注射感冒病毒后个体发病的临床试验(高通量试验数据GSE30550)。通过应用DNB-S score,对17个个体的数据进行了检验(每个个体在一个采样时间点处只有一个样本),其中有9个个体在注射感冒病毒以后出现了感冒症状(symptomatic subjects),有8个个体在注射感冒病毒以后没有出现感冒症状(asymptomatic subjects)。如图5所示,在(a)中,检验了9个发病的个体,在每个个体发病之前就通过DNB-S score探测到其处于前疾病状态(超过阈值),并发出了早期预警的信号;在(b)中,检验了8个不发病的个体,发现DNB-S score没有明显的改变(未超过阈值)。因此,证明了DNB-S score对该临床实验数据是有效的、准确的。具体来说,检验的9个发病的个体都在第7个采样时间点之前(36小时),而在试验中,所有发病的个体,都是在第8个采样时间点(45小时)或之后才检出症状的(见图5)。而对于8个不发病的个体,通过DNB-S score没有检测到处于前疾病状态,因此也没有发出预警信号。这进一步在临床试验数据上的应用证明了DNB-S score的有效性和准确性。另外,(c)是整个生物分子网络的动态变化图,这个动态变化图描绘了整个网络结构从0小时到45小时的变化。(d)详细记录了对每个个体的发病与否、发病时间,已经通过DNB-S score检测到前疾病状态的时间点,也可以看到对发病的个体,这种检测是及时的。
更具体地,在图5中,利用DNB-S score对17个个体的感冒的数据进行了发病的预测,(a)和(b)显示了17个个体利用DNB-S score进行检验的曲线,其中9个个体在注射感冒病毒(H3N2virus)以后发生了病变(symptomatic),利用DNB-S score在其病变早期就能检测出前疾病状态(超过阈值)((a)),8个个体在注射感冒病毒(H3N2virus)以后没有发生病变(asymptomatic),他们的数据对DNB-S score不敏感(未超过阈值)((b)),(c)是对第一个个体(1st subject)绘制的动态网络发展图,利用已有的PPI网络,把数据映射到网络上,其中节点的颜色代表该生物分子表达量的波动程度(fluctuation),其中属于DNB成员的分子被特别安排在左下角,可以看到,在正常状态下(0-12小时),系统的网络结构没有大的变化,但是在病前状态下(36小时),系统的网络结构(特别是左下角的DNB成员)发生很大的变化,提供了清晰的疾病预警信号,(d)是基于临床数据绘制的17个个体的发病与否、发病时间及利用DNB-S score检出发病的时间点等信息表,可以看到,DNB-S score的确在个体发病之前就准确检测出前疾病状态而发出预警信号,而对不发病的个体没有反应。
检测例2:肺部急性伤害疾病(acute lung injury)
图6是示出根据本发明的实施方式进行检测的另一个例子的示意图。在图6中,显示了DNB-S score成功应用在另一个特定的疾病的单样本早期检测中,即光气吸入性急性肺损伤(高通量试验数据GSE2565)。该数据是采自对六个个体(鼠)进行了暴露光气之中的肺部急性伤害实验,一共有9个采样时间点,在每个采样时间点,每个个体有一个case样本和一个control(对照组)样本。利用DNB-S score对该数据进行了疾病的早期检测(图6)。如图6所示,(a)显示了6个个体利用DNB-S score进行检验的曲线,从该图可以看到,6个暴露在光气中的试验个体,都在第四个时间点(4小时)处检测到了明显的可以判断为处于前疾病状态的信号(超过阈值),而根据试验观测,这6个个体是在第五、六个时间点(8小时–12小时)时候发现肺部损伤的症状。因此,利用DNB-S score,准确判断了前疾病状态,成功预警了系统的急性突变,(b)显示了对6个对照组的个体利用DNB-S score进行检验的曲线,可以看到,DNB-S score对这6个没有暴露在光气中的试验个体没有反应,检测不到任何的预警信号(未超过阈值)。DNB-S score在该疾病上的成功应用也证明了本发明的实施方式的有效性和准确性。
更具体地,在图6中,利用DNB-S score对6个个体的肺部急性伤害的数据进行了发病的预测,(a)显示了6个个体利用DNB-S score进行检验的曲线,可以看到,6个暴露在光气中的试验个体,都在第四个时间点(4小时)处检测到了处于前疾病状态而发出了明显的信号(超过阈值),而根据试验观测,这6个个体是在第五、六个时间点(8小时–12小时)时候发现肺部损伤的症状,因此,利用DNB-S score准确判断了前疾病状态,成功预警了系统的急性突变,(b)显示了对6个对照组的个体利用DNB-S score进行检验的曲线,可以看到,DNB-Sscore对这6个没有暴露在光气中的试验个体没有反应,检测不到任何的预警信号(未超过阈值),DNB-S score在该疾病上的成功应用证明了本发明的实施方式的有效性和准确性。
如上所述,本发明有效地将DNB理论应用在单样本情形上,不但结构和方法简单而且既有效又准确。
以上所说明的仅是本发明较佳可行的实施例而已,不能因此即局限本发明的权利范围,对熟悉本领域的普通技术人员来说,举凡运用本发明的技术方案和技术构思做出其它种相应的改变和变形,而所有这些改变和变形都应属在本发明权利要求的保护范围之内。
附图标记说明
1 检测装置
10 样本获取单元
11 DNB设定单元
12 状态判别单元
13 第1指数计算单元
14 第2指数计算单元
15 第3指数计算单元
16 校正值设定单元。

Claims (7)

1.一种用于对前疾病状态进行检测的检测装置,其特征在于,包括:
样本获取单元,该样本获取单元获取检测对象的对照样本数据和单样本数据;
DNB选择单元,该DNB选择单元根据从样本获取单元获取的数据选择DNB成员,其中,DNB是指动态网络标志物;
指标计算单元,该指标计算单元通过计算对照样本数据和单样本数据的分布的概率之间的距离来得到复合指标;以及
状态判别单元,该状态判别单元当所述复合指标超过阈值时,判断检测对象处于前疾病状态;
所述指标计算单元包括:
第1指数计算单元,该第1指数计算单元将对照样本数据和单样本数据中DNB成员的分布的概率之间的距离作为第1指数;
第2指数计算单元,该第2指数计算单元将对照样本数据中DNB成员和非DNB成员的分布的概率之间的距离作为第2指数;
第3指数计算单元,该第3指数计算单元将对照样本数据和单样本数据中非DNB成员的分布的概率之间的距离作为第3指数;以及
校正值设定单元,该校正值设定单元对校正值进行设定,
该指标计算单元基于第1指数、第2指数、第3指数、及校正值得到复合指标。
2.如权利要求1所述的检测装置,其特征在于,
所述指标计算单元将所述第1指数、所述第2指数、及所述第3指数与所述校正值之和的倒数的乘积作为复合指标。
3.如权利要求1或2所述的检测装置,其特征在于,
所述分布的概率之间的距离是KL距离。
4.如权利要求1所述的检测装置,其特征在于,
所述校正值是小于等于1的正数。
5.如权利要求4所述的检测装置,其特征在于,
所述校正值是0.01。
6.如权利要求1所述的检测装置,其特征在于,
当判断检测对象处于前疾病状态时,所述状态判别单元发出预警信号。
7.如权利要求1所述的检测装置,其特征在于,
还包括输出单元,该输出单元以模拟显示的方式输出DNB成员的概率分布。
CN201410027769.2A 2014-01-21 2014-01-21 用于对前疾病状态进行检测的检测装置 Active CN104794321B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410027769.2A CN104794321B (zh) 2014-01-21 2014-01-21 用于对前疾病状态进行检测的检测装置
PCT/CN2015/071237 WO2015110018A1 (zh) 2014-01-21 2015-01-21 用于对前疾病状态进行检测的检测装置及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410027769.2A CN104794321B (zh) 2014-01-21 2014-01-21 用于对前疾病状态进行检测的检测装置

Publications (2)

Publication Number Publication Date
CN104794321A CN104794321A (zh) 2015-07-22
CN104794321B true CN104794321B (zh) 2018-11-09

Family

ID=53559112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410027769.2A Active CN104794321B (zh) 2014-01-21 2014-01-21 用于对前疾病状态进行检测的检测装置

Country Status (2)

Country Link
CN (1) CN104794321B (zh)
WO (1) WO2015110018A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909767B (zh) * 2015-12-21 2021-11-05 北京旷博生物技术股份有限公司 乙肝相关肝硬化分类的系统
CN106096276B (zh) * 2016-06-13 2018-12-04 江南大学 一种基于动态网络标志物的甲流疫情早期预警模型
CN109147939A (zh) * 2018-09-21 2019-01-04 宜昌市疾病预防控制中心 一种用于疾病控制的抽样装置及抽样方法
CN109979591B (zh) * 2019-03-12 2021-01-01 众安信息技术服务有限公司 一种基于图神经网络分析斑块进展因子的方法及装置
CN116884598B (zh) * 2023-06-28 2024-05-28 曜立科技(北京)有限公司 一种基于元数据的心脑血管疾病筛查辅助系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101828188A (zh) * 2007-10-16 2010-09-08 皇家飞利浦电子股份有限公司 诊断标志物的估计
CN101921759A (zh) * 2010-09-08 2010-12-22 南京医科大学 一种与宫颈癌及其癌前病变相关的血清/血浆miRNA标志物及其应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6025128A (en) * 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
US8000949B2 (en) * 2001-06-18 2011-08-16 Genego, Inc. Methods for identification of novel protein drug targets and biomarkers utilizing functional networks
CN1803085B (zh) * 2005-01-14 2011-11-09 费兆馥 一种人体亚健康状态的检测装置
CN103268431B (zh) * 2013-05-21 2016-07-06 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101828188A (zh) * 2007-10-16 2010-09-08 皇家飞利浦电子股份有限公司 诊断标志物的估计
CN101921759A (zh) * 2010-09-08 2010-12-22 南京医科大学 一种与宫颈癌及其癌前病变相关的血清/血浆miRNA标志物及其应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Detecting early-warning signals for sudden deterioration of complex diseases by dynamical network biomarkers";Luonan Chen et al;《SCIENTIFIC REPORTS》;20120329;1-8 *
"Detecting early-warning signals of type 1 diabetes and its leading biomolecular networks by dynamical network biomarkers";Xiaoping Liu et al;《BMC Medical Genomics》;20130531;第6卷(第S2期);1-10 *
"Identifying critical transitions and their leading biomolecular networks in complex diseases";Rui Liu;《SCIENTIFIC REPORTS》;20121210;1-9 *

Also Published As

Publication number Publication date
CN104794321A (zh) 2015-07-22
WO2015110018A1 (zh) 2015-07-30

Similar Documents

Publication Publication Date Title
Serón-Arbeloa et al. Malnutrition screening and assessment
Van Calster et al. A calibration hierarchy for risk models was defined: from utopia to empirical data
CN104794321B (zh) 用于对前疾病状态进行检测的检测装置
Warren et al. Critical window variable selection: estimating the impact of air pollution on very preterm birth
Colicino et al. Validation of childhood asthma predictive tools: a systematic review
Brown et al. Predictive utility of weekly post-traumatic amnesia assessments after brain injury: A multicentre analysis
Bermudez et al. The relationship between SCHIP enrollment and hospitalizations for ambulatory care sensitive conditions in California
Alegana et al. Malaria prevalence metrics in low-and middle-income countries: an assessment of precision in nationally-representative surveys
Niggli et al. Validation of a visual-based analytics tool for outcome prediction in polytrauma patients (WATSON trauma pathway explorer) and comparison with the predictive values of TRISS
Bulut et al. Knowledge, attitudes and behaviors of primary health care nurses and midwives in breast cancer early diagnosis applications
Więckowska et al. Cohen’s kappa coefficient as a measure to assess classification improvement following the addition of a new marker to a regression model
de Leeuw et al. Modeling match performance in elite volleyball players: importance of jump load and strength training characteristics
Sharples The role of statistics in the era of big data: electronic health records for healthcare research
Graham et al. Prediction of risk of death using 30-day outcome: a practical end point for quality auditing in intensive care
Heyvaert et al. Comparing the percentage of non-overlapping data approach and the hierarchical linear modeling approach for synthesizing single-case studies in autism research
Narayan et al. A strategic research framework for defeating diabetes in India: A 21st-century agenda
Baik et al. Application and utility of boosting machine learning model based on laboratory test in the differential diagnosis of non-COVID-19 pneumonia and COVID-19
Wang et al. Predicting cumulative lead (Pb) exposure using the Super Learner algorithm
Al-Araimi et al. A hypothetical model to predict nursing students’ perceptions of the usefulness of pre-service integrated management of Childhood Illness Training
Chen et al. A novel strategy for predicting 72-h mortality after admission in patients with polytrauma: a study on the development and validation of a web-based calculator
Jones et al. Identifying and attributing regime shifts in Australian fire climates
Saulière et al. Z-scores-based methods and their application to biological monitoring: an example in professional soccer players
Șoitu et al. Health Security, Quality of Life and Democracy during the COVID-19 Pandemic: Comparative Approach in the EU-27 Countries
Budianto et al. The Relationship between Ethnicity and Health Seeking Behavior for Colorectal Cancer in East Java, Indonesia: A Case Study of Arek, Mataraman, and Pendalungan Ethnic Groups
Dalton et al. Recent advances in evaluating the prognostic value of a marker

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200520

Address after: 200031 building 35, No. 320, Yueyang Road, Xuhui District, Shanghai

Patentee after: Center for excellence and innovation of molecular cell science, Chinese Academy of Sciences

Address before: 200031 Yueyang Road, Shanghai, No. 319, No.

Patentee before: SHANGHAI INSTITUTES FOR BIOLOGICAL SCIENCES, CHINESE ACADEMY OF SCIENCES