CN107710206B - 用于根据生物学数据的亚群检测的方法、系统和装置 - Google Patents

用于根据生物学数据的亚群检测的方法、系统和装置 Download PDF

Info

Publication number
CN107710206B
CN107710206B CN201680032052.4A CN201680032052A CN107710206B CN 107710206 B CN107710206 B CN 107710206B CN 201680032052 A CN201680032052 A CN 201680032052A CN 107710206 B CN107710206 B CN 107710206B
Authority
CN
China
Prior art keywords
data
biological
subpopulations
genomic
vector signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680032052.4A
Other languages
English (en)
Other versions
CN107710206A (zh
Inventor
K·沃良斯基
N·迪米特罗娃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN107710206A publication Critical patent/CN107710206A/zh
Application granted granted Critical
Publication of CN107710206B publication Critical patent/CN107710206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

公开了用于检测至少一个生物学有机体的组成的亚群的方法、系统和装置。根据示范性实施例,将从至少一个生物学有机体的组成的群组编译的生物学数据形式化(112)为离散时间实值向量信号的集合。此外,对生物学数据的向量信号执行(114)频域分析以编译向量信号的谱性质。所述谱性质能够被用于有效地检测群组的亚群,同时维持高度的准确性。

Description

用于根据生物学数据的亚群检测的方法、系统和装置
技术领域
本发明总体涉及生物信息学技术。更具体地,在本文中所公开的各种创造性的方法、系统和装置涉及基于生物学数据对亚群的检测。
背景技术
生物信息学技术提供了用于分析生物学有机体的有效手段,并且是若干生物学领域的重要方面。具体地,生物信息学技术过程已经在基因组学以及对包括癌症的疾病的研究和处置方面取得了重大进展。癌症以及其他基因组疾病的特征在于基因组结构变异和基因表达的异种模式,其支持从正常细胞向肿瘤细胞的演变。出于临床研究的目的,并且特别是在肿瘤发展和增殖中的驾驶员和乘客事件的识别,根据可用基因组数据来解读和表征独特模式的能力获得高度重视。用于推断肿瘤中的克隆群体结构的一种方法采用贝叶斯假设测试。该方法应用聚类流程,所述聚类流程将多组测序的体细胞突变分组成克隆聚类。
发明内容
基因简档的复杂性和容量使得非常难以出于检测各种亚群的目的而对其进行有效且准确地分析,所述亚群例如包括反映肿瘤细胞谱系和演变的克隆群体,以及异常、正常和疾病特异性细胞系的群体。本公开涉及用于检测至少一个生物学有机体的组成的亚群的发明方法、系统和装置。为了在维持高度准确性的同时提高对亚群的检测效率,根据本发明的一方面,将生物学数据形式化(formulate)为离散时间实值向量信号,并且使用一个或多个频域分析流程进行评估。在此,所述信号能够由基因组的特性来定义,其中,基因组的沿着基因组长度的区域能够被表示为时间值。此外,能够通过(一种或多种)频域分析流程来获得信号的谱性质,并且将其用作用于区分亚群的特征。因此,通过将生物学数据形式化为离散时间实值信号并且分析所述信号,能够以高效且准确的方式来检测亚群。
此外,根据示范性方面,能够形成相异性指数以确定亚群。在此,能够识别包括群组成员的群体树的亲本-子本(parent-child)对,并且能够评估其相似性以构建相异性指数。所述相异性指数能够提供显著的优势,因为其能够通过亲本-子本对之间的高度可检测的显著差异来传达亚群,使得系统、方法和装置能够准确地检测亚群。
一般而言,在一个方面中,一种示范性系统被配置为检测至少一个生物学有机体的组成的亚群。在此,所述系统由至少一个硬件处理器来实施,并且所述系统包括向量信号形式化模块、频域分析器、以及亚群检测模块。所述向量信号形式化模块被配置为将根据组成的群组而编译的生物学数据形式化为存储介质的至少一个数据结构内的离散时间实值向量信号的集合。此外,所述频域分析器被配置为对生物学数据的向量信号执行频域分析以编译向量信号的谱性质,并且被配置为将谱性质与群组的组成相关联。另外,所述亚群检测模块被配置为通过对所述谱性质应用相似性度量来识别一个或多个生物学有机体的亚群。所述亚群检测模块还被配置为引导对所识别的亚群的表示的显示。
类似地,在另一方面中,一种示范性方法涉及检测至少一个生物学有机体的组成的亚群。所述方法能够由至少一个硬件处理器来实施。根据所述方法,根据组成的群组而编译的生物学数据被形式化为存储介质的至少一个数据结构内的离散时间实值向量信号的集合。此外,对所述生物学数据的向量信号执行频域分析以编译向量信号的谱性质。此外,使所述谱性质与群组的组成相关联。另外,通过对所述谱性质应用相似性度量来识别一个或多个生物学有机体的组成的亚群。
根据示范性实施例,所述生物学数据包括基因组数据或蛋白质组数据中的至少一个。由于数据的复杂性和大小,系统、方法和装置实施例当被应用于基因组数据或蛋白质组数据时是尤其有利的。如上文所指出的,实施例能够本质上提高从数据中识别亚群的效率,同时维持高度的准确性。
在示范性实施例的一个版本中,所述谱性质包括功率谱密度或总谱能量中的至少一个。所述功率谱密度和所述总谱能量提供了用于量化生物学数据中的方差的极好的手段,其能够被用于准确地检测不同性质以及亚群之间的差异。
此外,在示范性实施例的一个版本中,所述生物学数据包括基因组数据,并且所述形式化还包括将基因组数据的基因组的区域形式化为时间值。将基因组的区域解释为时间值是分析基因组数据的完全不同的方法。此外,将基因组的区域形式化为时间值是配置数据的有效方式,从而能够采用频域分析技术来准确并且有效地识别亚群以及亚群之间的相异性程度。
根据一个任选特征,所述基因组数据的至少一部分被形式化为不同基因组事件的至少一个线性组合。在此,将基因组事件形式化为线性组合提供了用于分析每个特定事件的方差的有效手段。例如,所述事件能够包括以下中的至少一项:拷贝数改变事件、突变、基因表达数据事件、或者甲基化数据事件。任选地,所述频域分析能够包括确定针对不同基因组事件的每个基因组事件的功率谱密度或总谱能量中的至少一个。分析特定基因组事件的方差能够用于评估克隆演变的特定模式以及识别患者可能遭受的侵袭和疾病类型。
根据示范性实施例,对亚群体的所述识别能够包括构建群体树,所述群体树包括亲本-子本对,并且基于相似性度量来形成表示在所述对中的每个对的亲本(parent)与子本(child)之间的相异性的群体相异性指数。如上文所指出的,以这种方式形成相异性矩阵能够通过容易地检测亲本-子本对之间的显著差异来传达亚群。例如,对亚群的所述识别能够包括通过检测群体相异性指数的不同峰值的总数来确定亚群的总数。
根据一个任选特征,对生物学数据的所述形式化包括对所述数据执行主成分分析以获得主成分。根据一个示范性特征,对其执行频域分析的所述向量信号能够包括主成分。所述主成分分析能够显著减少所分析的数据的量以确定亚群,从而能够提高方法、系统和装置实施例的效率。在生物学数据包括基因组数据的情况下,所述主成分能够表示基因组区域的线性组合,其继而识别展示亚群之间的最显著差异的基因组区域的组合。
在另一任选特征中,对亚群的所述识别包括对向量信号和谱性质的组合执行聚类流程。在此,能够采用不同峰值的总数作为针对与亚群总数相对应的流程的高度截止。因此,所述聚类流程能够通过相异性指数所传达的不同差异来引导,由此提供用于检测亚群的准确且有效的手段。
根据示范性实施例,能够显示所识别的亚群的表示。例如,所述表示能够包括所识别的亚群以及亚群内相似性和亚群间相异性的描述性特性。
此外,在一个方面中,一种计算机可读介质包括计算机可读程序,所述计算机可读程序当在计算机上执行时使得所述计算机能够执行在本文中所描述的方法中的任何一种或多种方法。例如,所述计算机可读程序能够被配置为检测至少一个生物学有机体的组成的亚群,使得当所述程序在计算机上执行时,所述程序使计算机执行在本文中所描述的方法实施例中的任何一个或多个方法实施例的步骤。所述计算机可读介质能够是计算机可读存储介质或计算机可读信号介质。备选地或额外的,所述计算机可读介质能够包括计算机可读程序的更新或其他部分。
如在本文中出于本公开的目的而使用的,术语“至少一个生物学有机体的组成”应当理解为包括但不限于:细胞、细胞系、细菌培养物、其他微生物或患者。
术语生物学数据应当被理解为包括但不限于基因组数据,例如包括以下中的一个或多个:突变,全基因组拷贝数改变,基因和/或非编码RNA表达数据,DNA甲基化数据,组蛋白修饰,DNA绑定数据(例如,ChIPseq)和/或RNA绑定数据,和/或其他类型的基因组数据,蛋白质组数据,例如包括蛋白质表达数据,磷酸化数据,生物样本的泛素化数据和/或乙酰化数据,葡萄糖水平数据,血压数据,体重数据,体质指数(BMI)数据,饮食数据,和/或每日卡路里摄入量,以及其他类型的生物学数据。
在本文中一般使用术语“控制器”来描述涉及计算设备的操作的各种装置。控制器能够以多种方式(例如,诸如利用专用硬件)来实施以执行在本文中所讨论的各种功能。“处理器”是采用一个或多个微处理器的控制器的一个范例,所述微处理器可以使用软件(例如,微代码)来编程以执行在本文中所讨论的各种功能,或者采用专用硬件。控制器可以在采用或者不采用处理器的情况下来实施控制器,并且也可以被实施为执行一些功能的专用硬件和微处理器(例如,一个或多个编程的微处理器和相关联的电路)的组合以执行其他功能。可以在本公开的各种实施例中采用的控制器部件的范例包括但不限于:常规微处理器、专用集成电路(ASIC)、以及现场可编程门阵列(FPGA)。
在各种实施方案中,处理器或控制器可以与一个或多个计算机可读存储介质(在本文中统称为“存储器”,例如,易失性和非易失性计算机存储器,诸如RAM、PROM、EPROM和EEPROM、软盘、压缩盘、光盘、磁带等)相关联。在一些实施方案中,所述存储介质可以用一个或多个程序来编码,所述程序当在一个或多个处理器和/或控制器上运行时执行在本文中所讨论的至少一些功能。各种存储介质可以被固定在处理器或控制器内,或者可以是可移动的,使得在其上存储的一个或多个程序能够被加载到处理器或控制器中,以实施在本文中所讨论的本发明的各个方面。术语“程序”或“计算机程序”在本文中一般意义上用于指代能够被用于对一个或多个处理器或控制器进行编程的任何类型的计算机代码(例如,软件或微代码)。在一些实施方案中,计算机可读信号介质可以利用一个或多个程序来编码,所述程序当在一个或多个处理器和/或控制器上运行时执行在本文中所讨论的至少一些功能。例如,信号介质能够是通过其传播数据信号的电磁介质,诸如射频介质和/或光学介质。
术语“可寻址的”在本文中被用于指代被配置为接收意图用于包括其自身的多个设备的信息(例如,数据)并且选择性地响应于意图用于其的特定信息的设备(例如,控制器或处理器)。术语“可寻址”常常与网络化环境(或者下文进一步讨论的“网络”)结合使用,其中,多个设备经由一些通信介质被耦合在一起。
在一个网络实施方案中,被耦合到网络的一个或多个设备可以用作针对被耦合到网络(例如,以主/从关系)的一个或多个其他设备的控制器。在另一实施方案中,网络化环境可以包括一个或多个专用控制器,其被配置为控制被耦合到网络的设备中的一个或多个。通常,被耦合到网络的多个设备中的每个都可以访问存在于一个或多个通信介质上的数据;然而,给定的设备可以是“可寻址的”,因为其被配置为例如基于向其分配的一个或多个特定标识符(例如,“地址”)来选择性地与网络交换数据(即,从网络接收数据和/将数据发送到网络)。
如在本文中所使用的术语“网络”指代促进在任意两个或更多个设备之间和/或在被耦合到网络的多个设备间进行信息传输(例如,用于设备控制、数据存储、数据交换等)的两个或更多个设备(包括控制器或处理器)的任何互连。应当容易理解,适用于互连多个设备的网络的各种实施方案可以包括各种网络拓扑中的任何网络拓扑,并且采用各种通信协议中的任何通信协议。另外,在根据本公开的各种网络中,在两个设备之间的任何一个连接可以表示在两个系统之间的专用连接,或者备选为非专用连接。除了承载意图用于两个设备的信息之外,这样的非专用连接可以承载不一定意图用于两个设备中的任一个设备的信息(例如,开放网络连接)。此外,应当容易领会到,如在本文中所讨论的,设备的各种网络可以采用一个或多个无线、有线/线缆和/或光纤链路来促进在整个网络上的信息传输。
如在本文中所使用的术语“用户接口”指代在人类用户或操作者与一个或多个设备之间的接口,其实现在用户与(一个或多个)设备之间的通信。可以在本公开的各种实施方案中采用的用户接口的范例包括但不限于:开关、电位计、按钮、转盘、滑块、鼠标、键盘、小键盘、各种类型的游戏控制器(例如操纵杆)、跟踪球、显示屏、各种类型的图形用户界面(GUI)、触摸屏、麦克风和其他类型的传感器,其可以接收某种形式的人类生成的刺激并且作为响应而生成信号。
应当领会到,下文更详细讨论的前述概念和附加概念的所有组合(假设这样的概念不相互不一致)被认为是在本文中所公开的发明主题的一部分。具体地,要求保护的主题的所有组合都被认为是在本文中所公开的发明主题的一部分。也应当领会到,在本文中明确采用的术语也可以出现在通过引用并入的任何公开中,其应当被赋予与本文公开的特定概念最一致的含义。
附图说明
在附图中,贯穿不同视图,相似的附图标记通常指代相同的部分。同样地,附图不一定按比例绘制,而是通常将重点放在说明本发明的原理上。
图1是根据示范性实施例的用于检测至少一个生物学有机体的组成的亚群的系统的高级框图/流程图。
图2是根据示范性实施例的用于检测至少一个生物学有机体的组成的亚群的方法的高级框图/流程图。
图3是图示了根据示范性实施例的用于检测亚群的基因组数据的范例的图。
图4是根据示范性实施例的用于将生物学数据形式化为离散时间值向量信号的方法的高级框图/流程图。
图5是根据示范性实施例的用于对生物学数据的向量信号执行频域分析以获得所述信号的谱性质的方法的高级框图/流程图。
图6是根据示范性实施例的通过向谱性质应用相似性度量来识别亚群的方法的高级框图/流程图。
图7是示出根据示范性实施例的群体相异性指数的范例的图。
图8是图示了根据示范性实施例的能够被形成并显示的亚群的表示的范例的图。
图9是能够实施一个或多个示范性实施例的示范性计算机系统的高级框图/流程图。
具体实施方式
由于数据的复杂性和大小,基因组数据的生物信息学分析通常是非常困难的。当所述分析被应用于非常大的患者群体、细胞系和/或细胞以用于检测亚群时,所述分析是尤其困难的,所述亚群例如能够包括疾病细胞的克隆群体或者与疾病相关联的不同细胞系。为了提高检测亚群的准确性和效率,发明人已经认识到并理解,将生物学数据形式化为一个或多个离散时间实值向量信号将是有益的。例如,所述信号可以由基因组的特性定义,其中,基因组沿着其长度的区域可被指定为时间值。因此,使用一个或多个频域分析流程,可以对信号进行评估以获得能够被用作特征向量以区分亚群的谱性质。此外,为了确定亚群,能够基于包括群组成员的群体树的亲本-子本对的顺序识别来形成相异性指数。所述相异性指数通过在亲本-子本对之间的高度可检测和可见的显著差异来传达亚群,从而提供用于识别亚群的有效并且简洁的手段。
如在本文中所描述的,对亚群的识别能够被用作诊断工具。例如,对对亚群的识别能够被用于临床应用,以辨别在评估肿瘤样本的侵袭性时的克隆演变模式和肿瘤异质性。具体地,当被应用于检测克隆细胞群体时,在亚群之间的高度相异性指数指示与多个克隆和亚克隆群体的高度异质性。该认识在处置癌症以及其他疾病方面提供了显著的优点。因此,能够采用实施例来辅助对疾病的处置。例如,所述实施例能够被用于治疗设计。在此,对亚群的识别是特别有利的,因为医师能够为每个亚群调整药物和抑制剂,而非在平均目标上使用一种抑制剂。因此,以这种方式,由实施例示出为特别有侵袭性的特定亚群能够专门针对处置患者。在本文中所描述的实施例也能够被用于揭示细菌感染中的新群体生长,并且能够被用于在医院获取的感染与社区获取的感染之间进行区分。
鉴于上述内容,本发明的各种实施例和实施方案涉及用于检测至少一个生物学有机体的组成的亚群的方法、系统和装置。所述实施例例如能够被用于:对基因组和/或转录组事件进行分类,表征克隆细胞群体,并且提取有价值的临床信息,诸如肿瘤进展模式、处置计划功效的预后、以及患者风险。此外,实施例能够包括模式识别工具,所述模式识别工具能够基于基因组数据来检测克隆群体,所述基因组数据例如包括:突变,全基因组拷贝数改变,基因和/或非编码RNA表达数据,DNA甲基化数据,组蛋白修饰,DNA绑定数据(例如,ChIPseq)和/或RNA绑定数据,以及其他类型的基因组数据。备选地或额外的,能够根据蛋白质组数据来检测克隆群体,这能够根据质谱方法来提取,并且能够被并入到整合分析中。Mertins等人在Nature Methods 10,634-637(2013)上的“Integrated proteomicanalysis of post-translational modifications by serial enrichment”一文中描述了质谱法的范例,该文通过引用被并入本文。蛋白质组学数据能够包括生物学样本的蛋白质表达数据、磷酸化数据、泛素化数据和乙酰化数据。此外,示范性实施例能够构建系统发生树以描绘来自该分析的结果。如在本文下文中所讨论的,示范性实施例能够应用数据量化、主成分分析、谱频率方法、系统发生范式以及聚类方法学的组合来识别和表征克隆演变。因此,能够将各种分析工具组合在一起,以使群体检测的性能最大化。根据示范性实施例,能够以自动方式来表征细胞内和细胞间异质性以用于基因组疾病研究和患者临床评估的目的。另外,所述实施例也能够检测细菌演变中的亚群以用于传染病管理。
参考图1,例示性描绘了根据示范性实施例的用于检测至少一个生物学有机体的组成的亚群的示范性系统100。系统100能够包括向量信号形式化模块(VS Form.Mod.)112、频域分析器(FD Anlzr)114、以及亚群检测模块(Subpop.Det.Mod.)118。系统部件112、114和118中的每个能够由控制器(Cntrlr)110来实施,所述控制器能够是作为硬件计算系统106的一部分的一个或多个硬件处理器。计算系统106也能包括存储介质108,并且系统100能够包括用户界面(UI)102以及显示设备(Dsply Dev.)104。
在继续参考图1的情况下参考图2,例示性描绘了用于检测至少一个生物学有机体的组成的亚群的示范性方法200。在此,所述组成能够是:细胞(例如,克隆细胞),或者一个或多个有机体的细胞系。备选地或额外地,所述组成能够是生物学有机体自身,例如包括患者或者甚至细菌培养物。方法200能够被应用于基于生物学数据(例如,包括根据组成而编译的基因组数据和/或蛋白质组学数据)来检测这些组成中的任何一个或多个组成的亚群。应当注意,方法200能够由系统100或106来执行。例如,方法200的步骤能够是能够被存储在存储介质108上并且由控制器110执行的程序的指令,如例如在下文所讨论的。
方法200能够在步骤202处开始,在步骤202处,系统106能够通过用户接口102接收根据一个或多个生物学有机体的组成群组而编译的生物学数据。所述生物学数据能够包括基因组数据或蛋白质组学数据中的至少一个。针对群组的每个成员,如上文所讨论的,所述基因组数据能够包括以下中的一个或多个:全基因组拷贝数改变、基因表达数据、甲基化数据、和/或其他类型的基因组数据。备选地或额外地,如上文所指出的,蛋白质组学数据能够包括:生物样本的蛋白质表达数据、磷酸化数据、泛素化数据和乙酰化数据。蛋白质组学数据是基因组架构和许多基因生物过程的功能读出。基因组数据和/或蛋白质组数据可以包括上述类型数据之一或者不同类型数据的任意组合。如在本文下文所讨论的,所述拷贝数改变能够表示针对群组中的每个成员的基因组的不同区域的删除和扩增。依据在给定生物学有机体中的基因的过度/不足表达以及基因沉默或激活的程度,基因表达数据和甲基化数据表示基因组特征的额外类型。提供这些数据作为从测量流程导出的定量变量,并且其能够是在步骤202处所接收的输入的一部分。还应当注意,尽管基因组数据和蛋白质组数据在本文中作为范例被描述,但是生物学数据能够额外地或备选地包括表征群体的任何类型的数据。例如,所述生物学数据能够包括对糖尿病患者的测量,其继而能够包括葡萄糖水平数据、血压数据、体重数据、体质指数(BMI)数据、饮食数据、和/或每日卡路里摄入量。如本领域技术人员基于本说明书所理解的,能够以与在本文中下文关于基因组数据所述的范例相似的方式来形式化和分析数据。方法200能够采用所述数据来确定具有特定临床特性的亚群,包括具有额外的小血管并发症的群体。
在步骤204处,向量信号形式化模块112能够将根据(一个或多个)生物学有机体的组成的群组而编译的生物学数据形式化为存储介质108的至少一个数据结构内的一组离散时间实值向量信号。例如,根据群组编译的基因组数据能够如下地形式化:
Figure GDA0003567774340000101
在该具体范例中,所述基因组数据包括全基因组拷贝数改变(CNA)、基因表达数据(GE)、甲基化数据(M)。然而,应当理解,所述矩阵能够包括这些类型的数据之一或者上文所讨论的这些类型的数据或其他类型的数据的任何子组合。此外,每组列都表示群组的特定成员,其例如能够是特定的细胞。例如,如果群组成员是细胞,则细胞由矩阵(1)的元素中的第一下标表示,其中,CNA1,m、GE1,m和M1,m表示细胞1的拷贝数改变数据、基因组表达数据和甲基化数据,CNA2,m、GE2,m和M2,m表示细胞2的拷贝数改变数据、基因表达数据和甲基化数据,等等。在此,m表示基因组的任意染色体区域,其中,在群组中每个细胞的基因组被沿着基因组长度由1、2、3…N区域划定。所划定的区域由矩阵(1)中的行表示。例如,CNA1,1、GE1,1和M1,1分别表示细胞1的区域1的拷贝数改变数据、基因组表达数据和甲基化数据,CNA1,2、GE1,2和M1,2分别表示细胞1的区域2的拷贝数改变数据、基因组表达数据和甲基化数据,CNA2,2、GE2,2和M2,2分别表示细胞2的区域2的拷贝数改变数据、基因组表达数据和甲基化数据,等等。因此,CNAn,m能够表示细胞n的基因组的区域m中的正常交替、删除或扩增,而Gen,m能够表示在细胞n的基因组的区域m处表达的基因的值。图3图示了针对基因组的55个染色体(Chrom.)区域的32个细胞的群组的拷贝数改变数据的范例的图300,其中,删除、扩增和正常特性在图例302中指定。也能够在步骤202处接收基因组的区域划定,并且随后,将其布置为列向量,其能够被存储在存储介质108内的存储结构中,并且能够是控制器110用来将矩阵(1)的元素映射到特定基因组区域的参考。在矩阵(1)中,每列被形式化为离散时间实值信号,其中,列元素表示信号的值并且每个区域1、2、3…N被表示为时间值或时间间隔。如在本文中下文所讨论的,以这种方式形式化生物学数据能够实质上提高检测群组内亚群的效率和准确性。能够根据需要通过采用直方图和适当的百分数来执行对连续信号的量化。例如,拷贝数改变可以表示为被称为拷贝数状态的四舍五入整数,其中,“0”表示区域删除,“1”表示基因组区域的单个拷贝,“2”表示基因组区域的两个拷贝,等等。针对基因表达或甲基化,可以应用基于百分数的阈值在基因的过表达或欠表达以及给定群组的静默和活动区域之间进行区分。
根据一个实施例,矩阵(1)能够是在步骤206和后续步骤中分析的向量信号。备选地,矩阵(1)能够被进一步处理以获得在步骤206和后续步骤中被分析的向量信号。例如,在继续参考图1和图2的同时参考图4,例示性描绘了用于将生物学数据形式化为离散时间值向量信号的方法400。能够执行方法400以实施方法200的步骤204。方法400任选能够在步骤402处开始,在步骤402处,向量信号形式化模块112能够识别在步骤202处所接收的生物学数据中的离群值,并且能够将离群值与生物学数据相分离。例如,信号形式化模块112能够应用多种方法中的一种或多种,包括以下中的至少一种:Mahalanobis距离方法、主成分分析(PCA)方法、或者基于频率的方法。在此,信号形式化模块112能够应用这些方法之一、所有方法或者所述方法的任何子组合来识别和分离离群值。针对这些方法中的每种方法,能够在数据矩阵中包括在步骤202处接收到的生物学数据。
在Mahalanobis距离方法中,信号形式化模块112能够将通常具有高维度的数据矩阵分成区域。在此,每个数据类别能够被分组在矩阵中,例如作为相邻的列。例如,全基因组拷贝数改变数据能够被分组在一组相邻列中,基因表达数据能够被分组在一组相邻列中,甲基化数据能够被分组在一组相邻列中等。信号形式化模块112分割矩阵,使得每个类别集合被分成多个区域,从而任何给定区域包括来自仅一个类别的数据。针对每个区域和数据类别,信号形式化模块112能够如下计算平均值估计M(X)和协方差估计C(X):
M(X)=平均(X) (2)
Figure GDA0003567774340000111
其中,X表示数据类别,所述数据类别例如能够是拷贝数改变类别、基因表达数据类别、或甲基化数据类别,x表示该区域中的值或元素,并且在此n表示该区域中的元素的数量。信号形式化模块112能够如下为二次形式的每个元素x来计算Mahalanobis距离MD(x,X):
MD(x,X)=(x-M(X))C-1(X)(x-M(X)) (4)
此外,信号形式化模块112能够检测离群值作为具有大于阈值的大Mahalanobis距离的点。信号形式化模块112也能够使用从区域维度(n-1)中所识别的自由度的卡方(χ2)分布来评估Mahalanobis距离。
在PCA分析方法中,信号形式化模块112能够对原始数据矩阵进行线性变换(旋转),使得相关矩阵在变换后的空间中被对角化。在此,信号形式化模块112能够将相关矩阵分成区域,如例如上文关于Mahalanobis距离方法所讨论的,并且能够基于由这些成分所捕获的方差的阈值来选择主要成分的数量。例如,所述阈值能够被选取为90%。如上文关于等式2-4所讨论的,信号形式化模块112能够计算所获得的主成分上的Mahalanobis距离,并且能够应用卡方测试以将异常高值识别为离群值,如上文所讨论的。
在基于频率的方法中,信号形式化模块112通过功率谱估计将离群值检测为具有归因于高频率的高功率值的点。在这种方法中,信号形式化模块112计算每个样本的离散快速傅立叶变换(DFFT)。在此,样本能够包括针对群组成员的生物学数据的类别。例如,所述样本能够包括矩阵(1)的列。信号形式化模块112然后能够估计功率谱分布,并且能够将估计出的功率谱量化成低、中和高区域。此外,信号形式化模块112能够对量化的功率谱区域执行对数据点的聚类,并且能够将离群值识别为高频区域中的不同聚类的成员。
在方法400的步骤404处,向量信号形式化模块112能够将生物学数据形式化为离散时间实值向量信号。例如,信号形式化模块112能够如上文关于步骤204和矩阵(1)所讨论的那样来形式化在步骤202处所接收的原始数据。备选地,信号形式化模块112能够形式化经处理的生物学数据,其中,在步骤402处移除离群值,如上文关于步骤204和矩阵(1)所讨论的。
任选地,在步骤406处,向量信号形式化模块112能够将生物学数据分成多组相邻区域。例如,向量信号形式化模块112能够将全基因组数据(例如,在步骤404中形式化的矩阵(1))分成每个数据类别的相邻染色体区域或行的集合,以简化任何后续的PCA分析。控制集合的大小以使得集合中的染色体区域的数量小于该群组的成员的总数M。此外,每个集合包括一个数据类别的生物学数据。例如,一个集合能够包括全基因组拷贝数改变数据、基因表达数据、甲基化数据或另一类数据。
任选地,在步骤408处,向量信号形式化模块112能够对每个集合执行主成分分析流程,并且能够识别捕获或超过方差阈值T的预设值的主成分。例如,T能够被设置为T≥90%。在此,为了实施PCA流程,向量信号形式化模块112能够线性变换(旋转)每个区域集合,使得对应集合的相关矩阵在变换后的空间中被对角化。此外,向量信号形式化模块112能够识别其中数据分布具有最高方差(例如,高于阈值T)的独立轴,并且由此将染色体/基因组区域的线性组合识别为在生物学数据包括基因组数据情况下的主成分。所述PCA分析能够显著减少所考虑的染色体区域的数量。
任选地,在步骤410处,向量信号形式化模块112能够将主成分形式化为特征向量信号。例如,向量信号形式化模块112能够将在步骤408处确定的主成分形式化为离散时间实值向量信号。例如,针对基因组数据,如上文关于步骤204和矩阵(1)所讨论的,染色体的区域能够被形式化为时间值。因此,所述特征向量信号能够包括主成分。此外,从区域集合确定的特征向量信号能够在其各自的类别下被分组在矩阵中。例如,根据全基因组拷贝数改变数据而确定的所有特征向量信号能够被分组在特征向量信号矩阵中,根据基因表达数据确定的特征向量信号能够被分组在特征向量信号矩阵中,等等,类似于上文在矩阵(1)所图示的分组。
在方法200的步骤206处,频域分析器114能够对生物学数据的向量信号中的每个向量信号执行频域分析,以编译向量信号的谱性质。在此,频域分析器114能够从存储介质108的一个或多个存储结构访问向量信号形式化。此外,从存储介质108访问的向量信号能够是原始数据,诸如,例如上文所讨论的基因组数据的矩阵(1),在步骤404处形式化的向量信号,和/或能够是包括在步骤410处形式化的主成分的向量信号。所述谱性质能够是功率谱密度或总谱能量中的至少一个。例如,图5图示了根据示范性实施例的用于执行能够被运行以实施步骤206的频域分析的一个示范性方法500。
方法500能够在步骤502处开始,在步骤502处,频域分析器114能够将向量信号中的每个向量信号转换到频域中。例如,频域分析器114能够执行离散时间快速傅立叶变换(DT FFT)以将所述向量信号中的每个向量信号变换到频域中。为了例示说明能够如何实施方法500,在本文中下文提供了分析全基因组拷贝数数据的范例。然而,应当理解,所述方法能够以相似的方式被应用于其他类型的生物学数据。根据示范性方面,拷贝数简档被表示为数字阵列,其中,每个数字描述特定区域拷贝数值。在该范例中,考虑描述每个区域的状态的三个主要事件:正常(N)、删除(D)和扩增(A)。删除事件能够包括被表示为部分删除(PD)和完全删除(CD)的子类别。另外,扩增事件能够包括以下子类别:小扩增(SA)、中等扩增(MA)和大扩增(LA),其中,这些子类别能够是用户定义的。在此,基因组数据的至少一部分能够被形式化为不同基因组事件的至少一个线性组合。如上文所指示的,所述基因组事件能够包括以下中的至少一项:拷贝数改变事件、基因表达数据事件、或甲基化数据事件。在该范例中,作为针对群组的成员(例如,细胞)的拷贝数数据的拷贝数简档以(N)、(D)和(A)事件的组合来表征。因此,通过对拷贝数简档数据的向量信号中的每个向量信号应用DFFFT,能够如下针对每个向量信号而获得结果线性组合:
CN(t)=αNXN(t)+αPDXPD(t)+αCDXCD(t)+αSAXSA(t)+αMAXMA(t)+αLAXLA(t) (5)
其中,CN(t)是拷贝数简档的DF FFT,t是描述拷贝数简档中的染色体区域位置的离散时间变量,αi∈{0,1}是表示特定事件的发生的布尔系数,i∈{N,PD,CD,SA,MA,LA},Xi(t)∈{0,1}是描述事件i在区域t处发生('1')或缺少('0')的离散时间函数。
在步骤504处,频域分析器114能够确定每个向量信号的谱性质。根据示范性实施例,所述谱性质包括功率谱密度或总谱能量中的至少一个。然而,可以通过方法200/500来确定和应用其他谱性质。根据一个示范性实施例,频域分析器114能够通过执行步骤506-512来确定谱性质。
在步骤506处,频域分析器114能够从每个频域向量信号中提取生物学事件。例如,频域分析器114能够从每个频域向量信号中提取基因组事件。继续上文所描述的拷贝数范例,频域分析器114能够从CNj中提取(αi,Xi),i∈{N,PD,CD,SA,MA,LA},其中,j表示拷贝数简档或群组成员,j=1,2,...,M,其中,M是在此评估的拷贝数简档或群组成员(其可以是细胞)的总数。每个事件都由阈值参数的集合{imin,imax}来定义,并且每次都被检测到CNj(t)∈{imin,imax}。
在步骤508处,频域分析器114能够针对对应向量信号的生物学事件中的每个生物学事件来确定功率谱密度(PSD)或总谱能量(TSE)中的至少一个。换言之,继续上文所描述的拷贝数的范例,频域分析器114能够针对每个Xij,i∈{N,PD,CD,SA,MA,LA},j=1,2,...,M来获得PSD和TSE。PSD和TSE计算能够使用数字信号处理(DSP)的方法来执行,并且例如能够基于DT FFT、信号周期图、Bartlett方法或Welch方法。
在步骤510处,频域分析器114任选地能够拆分频率范围。例如,关于基因组数据,因为在染色体长度的短范围内可能有大量事件,所以对频率区域进行拆分能够提供用于识别亚群的目的的向量信号的更精细的特征特性,由此改善亚群检测的准确性。在此,频域分析器114能够将频率范围拆分成低、中或高频段。然而,应当理解,所述频率范围能够被拆分成更大数量的分段和/或能够被等分地和/或不等分地拆分。
在步骤512处,频域分析器114能够确定频率分段的每个频率分段中的每个向量信号的平均功率谱密度(APSD)和平均总谱能量(ATSE)。例如,频域分析器114能够针对频率分段中的每个频率分段来确定群组j=1,2,...,M的每个成员的每个基因组事件Xij,i∈{N,PD,CD,SA,MA,LA}的APSD和ATSE。因此,上述拷贝数范例中的基因组事件中的每个基因组事件能够分别具有低、中和高频分段中的APSD的三个值,并且分别具有低、中和高频分段中的ATSE的三个值。
再次参考图2,方法200能够进行到步骤208,在步骤208处,频域分析器114能够将谱特性与群组的组成相关联。具体地,频域分析器114能够将谱性质中的每个谱性质与从其获得谱性质的相应群组成员相关联。例如,频域分析器114能够将从给定群组成员j获得的所有APSD和ATSE数据布置在与特征向量矩阵中的该给定群组成员/组成j相关联的一个或多个列中。另外,频域分析器114能够以相同的方式将针对其他群组成员/组成中的每个群组成员/组成的APSD和ATSE数据布置在特征向量矩阵中。在此,来自不同数据类别(例如,甲基化数据、拷贝数数据和基因表达数据)的APSD和ATSE数据能够在矩阵中被分组到一起,或者分离,只要布置在群组成员之间是一致的,并且谱性质数据与相应的群组成员相关联。应当注意,根据示范性方面,频域分析器114能够通过使用具有计算的功率谱密度特性的低通、高通和带通陷波滤波器的序列来模拟拷贝数简档并且比较在富集中的拷贝数简档的聚类分布来验证谱性质数据。
如在本文中下文所讨论的,所述特征向量矩阵能够被用于识别一个或多个生物学有机体的组成的亚群。在此,所述特征向量矩阵例如能够包括以下项:单独的谱性质数据,与例如在步骤410处形式化的特征向量信号矩阵中的PCA特征向量组合的谱性质数据,作为特征向量信号矩阵的额外列,或者与初步生物学数据矩阵相组合的谱性质数据,例如,上文所讨论的在移除或未移除离群值的情况下的基因组数据矩阵(1),作为初步生物学数据矩阵中的额外列。在这些情况的每种情况中,频域分析器114能够构造特征向量矩阵并且将其存储在存储介质108的一个或多个存储结构中和/或将特征向量矩阵直接提供给亚群检测模块118以用于进一步分析。
在步骤210处,亚群检测模块118能够通过向谱性质应用相似性度量来识别一个或多个生物学有机体的组成的亚群。根据一个示范性实施例,亚群检测模块118能够通过执行图6的方法600来识别亚群。方法600能够在步骤602处开始,在步骤602处,亚群检测模块118能够构建或识别包括所述组成的群体树的根。换言之,亚群检测模块118能够构建/识别相关候选作为群组成员的共同的亲本。该候选能够是群组成员。备选地,亚群检测模块118能够定量构建例如表示特性亲本基因组简档的数据点,其能够是平均简档或理想的正常模式,作为群体树中的根。例如,针对拷贝数基因组数据类别,能够将针对组成的最正常的拷贝数识别或选择为根。另外,针对细胞的组成的基因表达基因组数据类别,能够采用正常细胞组织的平均值作为群体树的根。
在步骤604处,亚群检测模块118能够构建群体树,所述群体树包括一个或多个生物学有机体的组成的亲本-子本对。例如,亚群检测模块118能够通过以下操作来构建群体树:首先识别最接近根的群组成员,并且通过使用相似性度量来识别亲本-子本对而迭代地将未分配的群组成员分配给树。在此,与给定群组成员/组成相关联的特征向量矩阵的部分能够与根的对应特征向量进行比较,或者如果已经识别了根的一个或多个子本,则能够与在迭代期间最新近添加到树的(一个或多个)亲本相关联的特征向量矩阵的部分进行比较。如上文所指出的,与群组成员相关联并且被包含在特征向量矩阵中的特征向量例如能够包括以下项:单独的谱性质数据,与例如在步骤410处形式化的特征向量信号矩阵中的PCA特征向量相组合的谱性质数据,作为特征向量信号矩阵的额外列,或者与初步生物学数据矩阵相组合的谱性质数据,例如,上文所讨论的在移除或未移除离群值情况下的基因组数据矩阵(1),作为初步生物学数据矩阵中的额外列。另外,亚群检测模块118能够从频域分析器114接收特征向量矩阵,或者能够从存储介质108取回特征向量矩阵。此外,为了确定亲本-子本对,亚群检测模块118能够应用相似性度量,例如包括一个或多个距离量度,诸如Euclidean距离量度、Manhattan距离量度等。
因此,在步骤604处,亚群检测模块118能够向群组成员中的每个群组成员的特征向量应用距离量度以确定其各自距根的距离。此外,亚群检测模块118能够选择具有与根的特征向量最接近/最短距离量度的特征向量的一个或多个群组成员作为根的一个或多个子本。为了构建群体树的下一级,亚群检测模块118重复该过程。例如,所识别的根的一个或多个子本被表示为群体树的下一级中的一个或多个亲本。亚群检测模块118能够再次向剩余的未分配群组成员中的每个的特征向量应用距离量度,以确定其各自到所考虑的亲本的距离。另外,亚群检测模块118能够选择具有与亲本的特征向量最近/最短距离量度的特征向量的一个或多个群组成员作为所考虑的亲本的一个或多个子本。亚群检测模块118能够重复该过程,直到所有群组成员已经被分配给至少一个亲本-子本对。结果,亚群检测模块118能够获得群体树,其中,每个群组成员与其亲本相关联。
在步骤606处,亚群检测模块118能够基于相似性度量来形成群体相异性指数。具体地,亚群检测模块118能够基于相似性度量来形成表示在所述对中的每对的亲本和子本之间的相异性的相异性指数。因此,所述群体相异性指数能够是群体树相异性测量。图7是图示了群体相异性指数(Dis.Index)700的范例的图。在图7中,所述群组成员被布置在水平轴上,而所述相异性指数值则在垂直轴上提供。在此,所述群组成员按照群体树的构造建立的次序来布置。例如,相邻群组成员是亲本-子本对,其中,成员1是成员2的亲本,成员2是成员3的亲本,等等。因此,所述相异性指数曲线表示在亲本-子本对中亲本与子本之间的相异性。根据一个示范性实施例,所述相异性指数值能够表示上文所讨论的相似性度量。例如,所述相异性指数能够是在亲本-子本对中的每个亲本-子本对的子本与亲本之间的Euclidean距离或Manhattan距离。
根据另一实施例,能够基于一个或多个生物学事件来形成相异性指数。例如,能够基于一个或多个基因组事件来形成相异性指数。例如,针对每个亲本-子本对,亚群检测模块118能够识别受特定基因组事件影响的基因组的百分比(例如,针对拷贝数数据类别、扩增、删除),并且能够计算跨所有事件类别的基因组事件发生的(加权)平均值。例如,亚群检测模块118能够评估在给定的亲本-子本对的亲本的基因组中不存在的、在子本中发生的基因组事件。例如,针对拷贝数数据,如果子本表现出在亲本中未显现的PD、SA等事件,那么亚群检测模块118确定受这些新的PD事件影响的基因组的百分比、受新的SA事件影响的基因组的百分比等。此外,亚群检测模块118能够取针对不同基因组事件中的每个的百分比的平均值,并且能够将该平均值表示为相异性指数。所述平均值能够包括来自一个生物学数据类别或多个生物学数据类别的事件,例如包括拷贝数数据、基因表达数据、甲基化数据等。任选地,根据示范性方面,平均值可以被加权。例如,如果特定生物学事件被认为对于应用该方法的特定研究或目的而言更重要,那么这些事件的权重能够高于在平均值中的其他事件。出于该目的,亚群检测模块118能够将事件的类别链接到量化水平。例如,在拷贝数变化的情况下,类别可以是轻度、中度、大或异常扩增或删除。在基因表达的情况下,所述类别能够包括下调、正常或过度表达。在图7中所图示的相异性指数是基于基因组事件发生的加权平均来确定的。应当注意,该相异性指数也基于上文所讨论的相似性度量,因为被评估以确定基因组事件发生的平均值的亲本-子本对是基于相似性度量来识别的。
在步骤608处,亚群检测模块118能够通过分析相异性指数来确定亚群的总数。例如,亚群检测模块118能够通过检测亲本-子本对中的子本与亲本之间的显著或实质性差异的数量来确定亚群的总数。例如,当如在图7中所图示地构建群体相异性指数时,亚群检测模块118能够通过检测群体相异性指数的不同峰值的总数来确定亚群的总数。在此,每个峰值表示不同的亚群。例如,峰值702表示亚群(Sub.Pop)704,峰值706表示亚群708,峰值710表示亚群712,并且峰值714表示亚群716。
在步骤610处,亚群检测模块118能够识别一个或多个生物学有机体的组成的群组的亚群,并且能够将所识别的亚群存储在存储介质108的一个或多个存储结构中。例如,在一个示范性实施例中,亚群检测模块118能够将亚群识别为由相异性指数的亲本-子本对中的子本与亲本之间的显著或实质差异所表示的亚群。例如,亚群能够被识别为由相异性指数的不同峰值表示的群组成员的集合。如在图7中所图示的,所述亚群能够被识别为亚群704、708、712和716。在此,在峰值处的群组成员是新亚群的第一群组。如上文所指出的,根据在步骤604处构建的群体树,沿着水平轴的群组成员被排序为亲本-子本对。根据其他实施例,能够基于聚类方案来检测亚群。
例如,为了实施步骤610,任选地,在步骤612处,亚群检测模块118能够通过使用所确定的亚群的总数作为高度截止来执行分层聚类流程。在此,亚群检测模块118能够对特征向量矩阵执行聚类流程。如上文所指出的,所述特征向量矩阵例如能够是谱性质,谱性质与PCA分量的组合,或者谱性质与原始生物学数据的组合,诸如在移除或未移除离群值的情况下的矩阵(1)。另外,亚群检测模块118能够执行各种聚类流程中的任何一种聚类流程,例如包括分层聚类、模糊聚类、具有噪声的应用的基于密度的空间聚类(DBSCAN)、k均值聚类等。根据一个优选实施例,亚群检测模块118能够对根据所述数据的特征向量矩阵运行分层聚类例程。如上文所指出的,所述矩阵能够包括从实验值/测量值提取以及在步骤202处输入的实值,或者能够是在应用多维度减少方法以提取PCA分量和/或谱性质之后获得的值。此外,亚群检测模块118能够采用与在步骤608处确定的亚群的数量相对应的高度截止。因此,亚群检测模块118能够构建分层聚类树,并且能够选择与所确定的聚类数量(在图7中所图示的范例中将是四个聚类)对应的树的级别。此外,亚群检测模块118能够将亚群识别为在所选定的高度截止处的聚类。
任选地,在步骤614处,亚群检测模块118能够通过分析亚群内/聚类距离分量来识别不同的特征。例如,这样的特征能够是由上文所讨论的基因组事件中的任何基因组事件所指示的基因组改变。所述识别能够通过表征子组代表来完成,例如,使用跨子组成员的平均,并且然后,在代表之间就其相似性和相异性进行比较。在此,亚群检测模块118能够分析在所识别的亚群之间的距离或差异,并且由此确定在每个亚群内发生的特定生物学事件,并且将这些事件/不同的特征映射到原始生物学数据以允许生物学解释和可视化。
再次参考图1和图2,在步骤212处,亚群检测模块118能够输出或引导对所识别的亚群的显示。例如,亚群检测模块118能够引导在显示设备104上对所识别的亚群的显示。在此,所识别的亚群能够是所识别的组成的亚群的简单列表。备选地,所识别的亚群的输出还能够包括统计学特征。例如,图8图示了指示在步骤212处显示的所识别的亚群的图800的范例。所述显示或图能够包括亚群间相似性和/或群体间相异性的描述性特性。例如,图8图示了能够通过应用步骤610而获得的聚类树810。另外,图8也图示了在步骤210处所识别的群组成员的四个亚群802、804、806和808。具体地,图8图示了图3的群组的亚群。类似于图3,在所述图的水平轴上标识所述群组成员。如在图8中所图示的,图800识别每个亚群的特性,指示亚群的基因组的特定区域处的扩增、删除或正常特征。在该范例中,所识别的亚群是克隆群体。尽管仅示出了三个特性,但是应当注意,能够显示更多不同的特性,例如包括部分删除、完全删除以及扩增的程度。尽管为了便于例示说明,此处仅示出了拷贝数数据,但是应当理解,除了上文所描述的其他类型的生物学数据之外,能够根据方法200分析并且在步骤212处显示其他类别的生物学数据的特性,例如包括突变,基因或非编码RNA表达数据,DNA甲基化数据,组蛋白修饰,DNA绑定数据(例如,ChIPseq),RNA绑定数据,其他类型的基因组数据,蛋白质表达数据,磷酸化数据,泛素化数据,乙酰化数据、和/或其他类型的蛋白质组数据。所述数据能够被组合成一个图或者能够被分离成数据类别特异性图,每个图示出了来自一个类别的特性。此外,亚群间相似性和/或群体间相异性的描述性特性能够包括相异性指数的值,例如,划分亚群的亲本-子本对之间的值或差异,以传达亚群关于一个或多个类别的生物学数据不同的程度。如上文所指出的,亚群之间的高相异性指数能够指示与多个克隆和亚克隆群体的高异质性。
现在参考图9,图示了示范性计算系统900,通过示范性计算系统900能够实施上文所描述的本原理的方法实施例。计算系统900包括硬件处理器或控制器912以及存储介质908。处理器912能够通过中央处理单元(CPU)总线916来访问随机存取存储器(RAM)918和只读存储器(ROM)920。另外,处理器912也能够通过输入/输出控制器910、输入/输出总线904和存储接口906来访问计算机可读存储介质908,如在图9中所图示的。系统900也能够包括输入/输出接口902,其能够是用户接口102,并且能够被耦合到显示设备104、键盘、鼠标、触摸屏、外部驱动器或存储介质等,用于将数据输入到系统900和从系统900输出数据。根据一个示范性实施例,处理器912能够访问被存储在存储介质908中的软件指令,并且能够访问存储器918和920以运行被存储在存储介质908上的软件指令。具体地,所述软件指令能够实施方法200、400、500和/或600或者其步骤。备选地,实施方法200、400、500和/或600的软件指令能够被编码在计算机可读信号介质中,诸如射频信号、电信号或光信号。
如上文所指出的,在本文中所描述的生物信息学方法和系统通过将基因组数据变换为离散时间实值向量信号并且应用合适的频域分析来提供用于识别亚群的有效且准确的手段。在本文中所描述的实施例能够被用于利用生物信息学技术的任何适当的领域中。例如,如上文所指出的,出于检测克隆演变模式和肿瘤异质性以确定肿瘤的侵袭性的目的,能够在临床应用中采用实施例。另外,如上文所指出的,实施例能够被用于发现细菌感染中的新的群体生长以及其他应用。此外,所述实施例能够被用在处置设计中。例如,如上文所指出的,对亚群和相异性指数的识别能够使健康护理专业人员为每个亚群定制药物,由此显著提高处置成功的机会。
尽管在本文中已经描述和图示了若干发明实施例,但是本领域普通技术人员将容易想到用于执行功能和/或获得在本文中所描述的结果和/或一个或多个优点的各种其他手段和/或结构,并且这样的变型和/或修改中的每个被认为在本文中所描述的发明实施例的范围内。更一般地,本领域技术人员将容易领会到,在本文中所描述的所有参数、维度、材料和配置都是示范性的,并且实际参数、维度、材料和/或配置将取决于特定应用或使用本发明教导的应用。本领域技术人员将认识到,或者仅使用常规实验能够确定在本文中所描述的具体发明实施例的许多等同物。因此,应当理解,前述实施例仅通过范例的方式呈现,并且在随附权利要求及其等同物的范围内,能够以与具体描述和要求保护的方式不同的方式来实践发明实施例。本公开的发明实施例涉及在本文中所描述的每个个体特征、系统、物品、材料、套件和/或方法。另外,如果这样的特征、系统、物品、材料、套件和/或方法不相互不一致,则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合都包括在本公开的发明范围内。
如在本文中所定义和使用的,所有定义应当被理解为控制字典定义、通过引用并入的文献中的定义、和/或所定义的术语的普通含义。
如在本文中在说明书和权利要求书中所使用的不定冠词“一”和“一个”,除非明确相反地指示,否则应当理解为意指“至少一个”。
如在本文中在说明书和权利要求书中所使用的短语“和/或”应当被理解为表示如此接合的元件的“一个或两个”,即,在一些情况下联合存在和在其他情况下分离存在的元件。利用“和/或”列出的多个元件应当以相同的方式来解释,即,如此接合的元件中的“一个或多个”。其他元件任选地可以存在,而不是由“和/或”子句特别标识的元件,不管与具体标识的那些元件相关还是不相关。因此,作为非限制性范例,当与诸如“包括”的开放式语言结合使用时,对“A和/或B”的引用在一个实施例中可以仅指A(任选地包括除了B之外的元件);在另一实施例中,仅指B(任选地包括除了A之外的元件);在又一实施例中,指A和B(任选地包括其他元件);等等。
如在本文中在说明书和权利要求书中所使用的,“或”应当理解为具有与如上定义的“和/或”相同的含义。例如,当在列表中分离项目时,“或”或“和/或”应当被解释为是包含性的,即,包含多个元件或元件列表的至少一个,但也包括多于一个元件,以及任选的额外未列出的项目。只有清楚地表明相反的术语,例如“仅一个”或“恰好一个”,或者当在权利要求中使用时,“由...组成”将指包括多个元件或元件列表中的恰好一个元件。一般而言,在此使用的术语“或”当在排他术语前使用时仅应解释为表示排他性替代(即,“一个或另一个但不是两者”),例如,当在权利要求中使用时的“任一”、“之一”、“仅一个”或“恰好一个”、“基本包括”,应当具有在专利法领域中使用的普通含义。
如在本文中在说明书和权利要求书中所使用的,关于一个或多个元件的列表的短语“至少一个”应当被理解为表示选自在元件的列表中的任意一个或多个元件中的至少一个元件,但是不必包括在元件列表内具体列出的每个元件中的至少一个,并且不排除元件列表中的元件的任何组合。该定义也允许元件任选地可以存在,而不是在短语“至少一个”所指的元件列表内具体所识别的元件,不管与具体所识别的那些元件相关还是不相关。因此,作为非限制性示例,“A和B中的至少一个”(或者等同地,“A或B中的至少一个”,或者等同地“A和/或B中的至少一个”)在一个实施例中可以指的是至少一个,任选地包括多于一个,A,而不存在B(并且任选地包括除了B之外的元件);在另一实施例中,指的是至少一个,任选地包括多于一个,B,而不存在A(并且任选地包括除了A之外的元件);在又一实施例中,指的是至少一个,任选地包括多于一个A和至少一个,任选地包括多于一个B(并且任选地包括其他元件);等等。
还应当理解,除非明确相反地指示,否则在本文要求保护的包括多于一个步骤或动作的任何方法中,该方法的步骤或动作的次序不一定限于所记载的该方法的步骤或动作的次序。
在权利要求以及上面的说明书中,所有的过渡性短语,例如“包含”、“包括”、“承载”、“具有”、“含有”、“涉及”、“保留”、“构成”等都被理解为是开放式的,即,表示包括但不限于。只有过渡性短语“由...组成”和“基本由...组成”应分别是封闭式或半封闭式过渡短语,如美国专利局专利审查程序手册第2111.03节所阐述的。

Claims (11)

1.一种用于检测至少一个生物学有机体的组成的亚群的系统(100),所述系统由至少一个硬件处理器来实施,并且所述系统包括:
向量信号形式化模块(112),其被配置为将根据所述至少一个生物学有机体的所述组成的群组而编译的生物学数据形式化为存储介质(108)的至少一个数据结构内的离散时间实值向量信号的集合,所述生物学数据包括基因组数据,其中,所述形式化包括通过基因组的特性来定义所述向量信号并将所述基因组的区域表示为时间值;
频域分析器(114),其被配置为对所述生物学数据的所述向量信号执行频域分析以编译所述向量信号的谱性质,并将所述谱性质与所述群组的所述组成相关联;以及
亚群检测模块(118),其被配置为通过向所述谱性质应用相似性度量来识别所述至少一个生物学有机体的所述亚群,并引导对所述识别的亚群的表示的显示,其中,所述识别包括:构建(604)群体树,所述群体树包括所述组成的亲本-子本对,并且基于所述相似性度量来形成(606)表示每个所述对的亲本与子本之间的相异性的群体相异性指数。
2.一种用于检测至少一个生物学有机体的组成的亚群的方法(200),所述方法由至少一个硬件处理器来实施,并且所述方法包括:
将根据所述至少一个生物学有机体的所述组成的群组而编译的生物学数据形式化(204)为存储介质的至少一个数据结构内的离散时间实值向量信号的集合,所述生物学数据包括基因组数据,其中,所述形式化包括通过基因组的特性来定义所述向量信号并将所述基因组的区域表示为时间值;
对所述生物学数据的所述向量信号执行(206)频域分析以编译所述向量信号的谱性质;
将所述谱性质与所述群组的所述组成相关联(208);并且
通过向所述谱性质应用相似性度量来识别(210)所述至少一个生物学有机体的所述组成的所述亚群,其中,所述识别包括:构建(604)群体树,所述群体树包括所述组成的亲本-子本对,并且基于所述相似性度量来形成(606)表示每个所述对的亲本与子本之间的相异性的群体相异性指数。
3.根据权利要求2所述的方法,其中,所述谱性质包括功率谱密度或总谱能量中的至少一个。
4.根据权利要求2所述的方法,其中,所述执行包括将所述基因组数据的至少一部分形式化为不同基因组事件的至少一个线性组合。
5.根据权利要求4所述的方法,其中,所述基因组事件包括以下中的至少一项:拷贝数改变事件、突变、基因表达数据事件、或甲基化数据事件。
6.根据权利要求4所述的方法,其中,所述执行包括确定(508)针对所述不同基因组事件中的每个基因组事件的功率谱密度或总谱能量中的至少一个。
7.根据权利要求2所述的方法,其中,所述识别还包括通过检测所述群体相异性指数的不同峰值的总数来确定(608)所述亚群的总数。
8.根据权利要求7所述的方法,其中,所述生物学数据包括基因组数据,其中,所述形式化包括对所述基因组数据执行(408)主成分分析,以获得表示基因组区域的线性组合的主成分,并且其中,所述向量信号包括所述主成分。
9.根据权利要求8所述的方法,其中,所述识别包括通过采用不同峰值的所述总数作为与所述亚群的所述总数相对应的聚类流程的高度截止来对所述向量信号和所述谱性质的组合执行(612)所述聚类流程。
10.根据权利要求2所述的方法,还包括:
显示(212)所述识别的亚群的表示。
11.一种包括计算机可读程序的计算机可读介质(908),所述计算机可读程序当在计算机上运行时使得所述计算机能够执行根据权利要求2所述的方法。
CN201680032052.4A 2015-06-02 2016-05-24 用于根据生物学数据的亚群检测的方法、系统和装置 Active CN107710206B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562169902P 2015-06-02 2015-06-02
US62/169,902 2015-06-02
PCT/EP2016/061727 WO2016193075A1 (en) 2015-06-02 2016-05-24 Methods, systems and apparatus for subpopulation detection from biological data

Publications (2)

Publication Number Publication Date
CN107710206A CN107710206A (zh) 2018-02-16
CN107710206B true CN107710206B (zh) 2022-08-02

Family

ID=56116402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680032052.4A Active CN107710206B (zh) 2015-06-02 2016-05-24 用于根据生物学数据的亚群检测的方法、系统和装置

Country Status (4)

Country Link
US (1) US20180089368A1 (zh)
EP (1) EP3304384B1 (zh)
CN (1) CN107710206B (zh)
WO (1) WO2016193075A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200357484A1 (en) * 2017-11-08 2020-11-12 Koninklijke Philips N.V. Method for simultaneous multivariate feature selection, feature generation, and sample clustering

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101680872A (zh) * 2007-04-13 2010-03-24 塞昆纳姆股份有限公司 序列比较分析方法和系统
CN104541276A (zh) * 2012-08-07 2015-04-22 皇家飞利浦有限公司 使用基于树的空间数据结构对基因数据集的群体分类

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4447801A (en) * 2000-03-28 2001-10-08 Starlab Nv/Sa Clustering and examining large data sets
US6728642B2 (en) * 2001-03-29 2004-04-27 E. I. Du Pont De Nemours And Company Method of non-linear analysis of biological sequence data
EP1999663A2 (en) * 2006-03-10 2008-12-10 Koninklijke Philips Electronics N.V. Methods and systems for identification of dna patterns through spectral analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101680872A (zh) * 2007-04-13 2010-03-24 塞昆纳姆股份有限公司 序列比较分析方法和系统
CN104541276A (zh) * 2012-08-07 2015-04-22 皇家飞利浦有限公司 使用基于树的空间数据结构对基因数据集的群体分类

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A measure of DNA sequence similarity by Fourier transform with applications on hierarchical clustering;Changchuan Yin等;《Journal of theoretical biology》;20140606;第18-28页 *
Changchuan Yin等.A measure of DNA sequence similarity by Fourier transform with applications on hierarchical clustering.《Journal of theoretical biology》.2014, *
finding the number of clusters in ordered dissimilarities;Isaac J. Sledge 等;《2009 soft comput》;20090324;第1125-1142页 *

Also Published As

Publication number Publication date
CN107710206A (zh) 2018-02-16
US20180089368A1 (en) 2018-03-29
WO2016193075A1 (en) 2016-12-08
EP3304384B1 (en) 2020-04-29
EP3304384A1 (en) 2018-04-11

Similar Documents

Publication Publication Date Title
Lazar et al. A survey on filter techniques for feature selection in gene expression microarray analysis
Ai-Jun et al. Bayesian variable selection for disease classification using gene expression data
Al-Rajab et al. Examining applying high performance genetic data feature selection and classification algorithms for colon cancer diagnosis
US20230222311A1 (en) Generating machine learning models using genetic data
JP7041614B6 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
Ruan et al. Differential analysis of biological networks
Larsson et al. Comparative microarray analysis
Planet et al. Systematic analysis of DNA microarray data: ordering and interpreting patterns of gene expression
CN115274136A (zh) 整合多组学与必需基因的肿瘤细胞系药物响应预测方法
Pham et al. Analysis of microarray gene expression data
Babu et al. A comparative study of gene selection methods for cancer classification using microarray data
Hong et al. Gene boosting for cancer classification based on gene expression profiles
Kalna et al. Clustering coefficients for weighted networks
Vilo et al. Regulatory sequence analysis: application to the interpretation of gene expression
CN107710206B (zh) 用于根据生物学数据的亚群检测的方法、系统和装置
WO2017198519A1 (en) Methods, systems and apparatus for subpopulation detection from biological data based on an inconsistency measure
Acharya et al. Multi-factored gene-gene proximity measures exploiting biological knowledge extracted from gene ontology: application in gene clustering
Bhonde et al. Deep Learning Techniques in Cancer Prediction Using Genomic Profiles
Mallik et al. TrapRM: transcriptomic and proteomic rule mining using weighted shortest distance based multiple minimum supports for multi-omics dataset
McArdle et al. PRESTO, a new tool for integrating large-scale-omics data and discovering disease-specific signatures
Lin et al. Bayesian mixture models for cytometry data analysis
AU2016100563A4 (en) System and method for determining an association of at least one biological feature with a medical condition
Hong et al. Cancer classification with incremental gene selection based on dna microarray data
Fleury et al. Gene discovery using Pareto depth sampling distributions
Zhang et al. A multimodal framework for detecting direct and indirect gene-gene interactions from large expression compendium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant