CN112771618B - 疾病治疗管理因素特征自动预测方法及电子设备 - Google Patents

疾病治疗管理因素特征自动预测方法及电子设备 Download PDF

Info

Publication number
CN112771618B
CN112771618B CN201980001872.0A CN201980001872A CN112771618B CN 112771618 B CN112771618 B CN 112771618B CN 201980001872 A CN201980001872 A CN 201980001872A CN 112771618 B CN112771618 B CN 112771618B
Authority
CN
China
Prior art keywords
burden
disease
data
gene
consistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980001872.0A
Other languages
English (en)
Other versions
CN112771618A (zh
Inventor
牛钢
范彦辉
冯震东
张强祖
张春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Phil Rivers Technology Ltd
Original Assignee
Phil Rivers Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Phil Rivers Technology Ltd filed Critical Phil Rivers Technology Ltd
Publication of CN112771618A publication Critical patent/CN112771618A/zh
Application granted granted Critical
Publication of CN112771618B publication Critical patent/CN112771618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请公开疾病治疗管理因素特征自动预测方法及电子设备,所述方法包括:电子设备获得目标对象的被测样本的若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数数据,其中所述预定基因组与所述疾病对应;以及所述电子设备基于所述一致性负担参数数据,输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据。

Description

疾病治疗管理因素特征自动预测方法及电子设备
技术领域
本申请涉及生物医疗技术,尤其涉及疾病治疗管理因素特征自动预测方法及电子设备。
背景技术
恶性肿瘤是由具有异常生长、增殖与生存,并伴有侵袭和转移倾向的细胞造成的复杂疾病的统称,但不同类型的恶性肿瘤在病理及生物学特征(例如侵袭和转移风险、进展速度与预后等)存在显著差异,对治疗的响应也明显差别。因此,依据肿瘤特征,明确恶性肿瘤的归类是有效决策疾病管理及治疗方案的必要条件。
传统肿瘤的分型按照疾病的表型、细胞和组织学特征进行,一般整合了肿瘤发生的器官和细胞特征,例如胃腺癌、非小细胞肺癌、急性淋巴细胞白血病等,相应的,现行的干预治疗方法(包括手术、药物等)仍主要以这些分类进行。然而,这类分类方法无法解决恶性肿瘤治疗管理中的一些重要问题,例如,同样分型的患者对相同的干预方法的响应差异巨大,生存期、疾病稳定期等临床预后指标显著差异,“同病异治”和“异病同治”循证缺乏参照标准。
技术问题
本申请旨在提供疾病治疗管理因素特征自动预测方法,以为决策疾病管理提供有效信息。
技术解决方案
本申请一方面提供一种疾病治疗管理因素特征自动预测方法,由电子设备执行,包括:
所述电子设备获得目标对象的被测样本的若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数数据,其中所述预定基因组与所述疾病对应;以及
所述电子设备基于所述一致性负担参数数据,输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据。
在一个实施方式中,所述目标对象相对于所述疾病的至少一个治疗管理因素特征包括所述目标对象患所述疾病的生存特征、病理生理特征、和/或临床干预效果。
在一个实施方式中,所述基于所述一致性负担参数数据,输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据包括:
将所述目标对象的一致性负担数据与预置的所述疾病的一致性负担-生存模式模型进行对比,输出所述目标对象相对于所述疾病的生存模式标签。
在一个实施方式中,所述一致性负担-生存模式模型至少包括第一生存模式标签、第二生存模式标签及预设阈值;
所述将所述目标对象的一致性负担数据与预置的所述疾病的一致性负担-生存模式模型进行对比,获得并输出所述目标对象相对于所述疾病的生存模式标签包括:
将所述目标对象的一致性负担数据与所述疾病的一致性负担-生存模式模型的所述预设阈值进行比较,若所述目标对象的一致性负担数据达到所述预设阈值,则输出所述第一生存模式标签,若所述目标对象的一致性负担数据低于所述预设阈值,则输出所述第二生存模式标签。
在一个实施方式中,所述疾病的一致性负担-生存模式模型的所述预设阈值基于若干建模样本的一致性负担数据所确定,所述若干建模样本来自若干患有所述疾病的患者。
在一个实施方式中,所述若干建模样本来自若干患有所述疾病且处于所述疾病的指定进化阶段的患者。
在一个实施方式中,所述基于所述一致性负担参数数据,输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据包括:
基于所述目标对象的一致性负担数据和预先获得的若干建模样本的一致性负担数据及预定治疗管理因素特征的实测数据,输出所述目标对象相对于所述预定治疗管理因素特征的预测数据,其中,所述若干建模样本来自若干患有所述疾病的患者。
在一个实施方式中,所述目标对象的被测样本的若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数包括:
所述预定基因组的基因中,表达活性受所述若干突变基因的影响符合预设条件的基因个数;和/或
所述综合影响参数数据中各数值的绝对值之和、中位数、最大值、和/或方差;和/或
获得用于描述所述综合影响参数数据的至少两个简单统计特征参数数据;以及基于所述至少两个简单统计特征参数数据获得复合统计特征参数数据。
在一个实施方式中,所述获得所述若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数数据包括:
对于预定基因组中每个基因,获得所述若干突变基因对所述每个基因的表达活性的一致性参数数据;
对所述若干突变基因对所述每个基因的表达活性的一致性参数数据进行降噪处理;以及
基于进行所述降噪处理的结果获得所述若干突变基因对所述预定基因组中的各个基因的表达活性的一致性负担参数数据。
本申请另一方面提供一种电子设备,包括:存储器、处理器以及存储在存储器中的程序,所述程序被配置成由处理器执行,所述处理器执行所述程序时实现如前所述的疾病治疗管理因素特征自动预测方法。
本申请再一方面提供一种存储介质,所述存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如前所述的疾病治疗管理因素特征自动预测方法。
有益效果
本申请的一些实施例中,通过有效整合全局突变信息,从基因组突变的角度建立综合定量指标,描述具有基因组异质性的复杂疾病或病理生理状态(例如肿瘤微进化过程)中与基因表达活性相关的细胞内确定性事件特征。
依据本申请的一些实施例,使用了标准化的统计计算方法,定义了标准化、适用于不同肿瘤类型的“一致性”、“一致性负担”等参数,将复杂、多元的表达活性特征信息简化为单一值,降低了在具有基因组异质性的复杂疾病或病理生理状态(例如肿瘤微进化)相关特征分析应用时的复杂程度,并且实现效果良好的预后评估、混合肿瘤类型区分等应用。
依据本申请的一些实施例,通过建立全局突变与基因表达活性的多元相关模型,将离散、高维、多元相关、非标准化的全局突变特征投射到值域连续、相对低维、相关性逐渐收敛的基因预测表达量特征上,构建了将离散定性数据转化为连续空间上的定量模型,再通过统计算法得到具有唯一值的一致性负担参数,一方面保留了数据的全局特征,另一方面可以利用一个简单值对具有基因组异质性的复杂疾病或病理生理状态(例如肿瘤微进化)相关的特征进行分析,降低了实际应用的复杂程度。
依据本申请的一些实施例,由于一致性及一致性负担是通过整合与肿瘤微进化特定阶段相关的全局突变信息得到的参数,全面描述了肿瘤特定进化阶段的异质性与基因组不稳定性,因而克服了单个或数个分子标志物组合分析时覆盖率与外显率不高的问题,可以覆盖不同类型的肿瘤并根据不同类型肿瘤的进化特征差异,实现对肿瘤类型的识别,并因对预后等与肿瘤微进化相关的特征进行预测,为“同病异治”“异病同治”提供判断依据。
依据本申请的一些实施例,由于一致性及一致性负担参数整合了全局突变信息,解决了单个或少数分子标记物组合特异性不高,无法辨别混合肿瘤的问题,能够对不同种肿瘤实现效果良好的区分。
依据本申请的一些实施例,明确了具体的计算方法和定义,使用一致性、一致性负担参数作为全局指标评估肿瘤特征,避免了TMB等指标标准不统一、定性模糊的缺点,为肿瘤微进化相关特征的分析应用提供了标准化的工具。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是依据本申请一实施例的获得细胞内确定性事件方法的流程示意图;
图2是依据本申请另一实施例的获得细胞内确定性事件方法的流程示意图;
图3是依据本申请另一实施例的获得一致性CE参数数据的流程示意图;
图4是依据本申请另一实施例的获得细胞内确定性事件的方法的流程示意图;
图5是依据本申请一实施例的疾病治疗管理因素特征自动预测方法的流程示意图;
图6是依据本申请另一实施例的疾病治疗管理因素特征自动预测方法的流程示意图;
图7是依据一致性负担将建模样本分为两组所生成的一致性负担-生存曲线图;
图8是依据本申请一实施例的疾病类型自动确定方法的流程示意图;
图9是本申请另一实施例的疾病类型自动确定方法的流程示意图;
图10是依据本申请一实施例的电子设备的结构示意图。
本发明的实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。术语“多个”表示两个或多于两个的情形。
本申请中,细胞内确定性事件指生物体内各类分子依照已知或未知的机制相互作用,最终产生可以被各类方法检测定性或定量的事件特征,包括但不限于基因表达活性的改变、信号通路(Signaling Pathways)的激活或抑制、新陈代谢产物(Metabolites)的种类及含量变化、生物分子(包括蛋白/核酸等大分子,脂质/小分子药物/代谢产物/无机金属离子等小分子)之间的相互作用模式、状态及其变更(Interactome)、多聚物/细胞/组织器官的结构形态及其变更等。在本申请中,细胞内确定性事件包括由全局突变信息决定的基因表达活性、疾病的治疗管理因素、以及疾病的类别特征标签等。疾病的治疗管理因素例如可以包括疾病的发展预后、病理生理特征(如肿瘤转移部位、转移风险等)、临床干预效果(药物治疗、非药物治疗、环境暴露管理等)等。
本申请中,疾病指在特定时间点或时间段内,对生物个体存活或细胞、组织行使正常生理功能造成负面影响的病理或特殊生理状态。
本申请中,肿瘤微进化指肿瘤的发展由单个变异细胞(单克隆)开始,在发展中通过基因组的演化、选择出具有恶性增殖、远端转移及定植能力的子代的过程,从临床上表现为肿瘤生理、病理状态的进展的不同程度。
图1示出本申请一实施例的获得细胞内确定性事件的方法的流程示意图,该方法可由电子设备执行,包括:
S11、所述电子设备获得取自目标对象的被测样本的若干突变基因信息;
S12、所述电子设备依据所述若干突变基因信息,获得所述若干突变基因对预定基因组中的各个基因的表达活性的综合影响参数数据。
在一个实施方式中,在获得若干突变基因对预定基因组中的各个基因的表达活性的综合影响参数数据后还包括:获得用于描述所述综合影响参数总体分布的统计特征参数数据。
在一个实施方式中,用于描述所述综合影响参数总体分布的统计特征参数数据包括但不限于:所述预定基因组的基因中,表达活性受所述若干突变基因的影响符合预设条件的基因个数、和/或所述综合影响参数数据中各数值的绝对值之和、中位数、最大值、和/或方差等(不限于这些)。
在一个实施方式中,获得用于描述所述综合影响参数总体分布的统计特征参数数据包括:获得用于描述所述综合影响参数数据的至少两个简单统计特征参数数据;以及基于所述至少两个简单统计特征参数数据获得复合统计特征参数数据。其中,简单统计特征参数数据包括前述的预定基因组的基因中表达活性受所述若干突变基因的影响符合预设条件的基因个数、和/或所述综合影响参数数据中各数值的绝对值之和、中位数、最大值、和/或方差等。
本申请中,目标对象可以是活体生物,例如可以属于但不仅限于人类。被测样本可以是取自目标对象的、以病变组织为主的生物样本(还包括但不限于血样、其他体液、剥落细胞、组织附生物等)。
以人为例,预定基因组例如可以是已知人类基因组中的部分或全部基因。
目标对象的若干突变基因可以是全局突变信息,例如可以是全外显子测序数据,视实际情况而定。
全局突变信息可以指携带于个体基因组中、能够以选定标准识别到所有与参考基因组(例如可以是前述的预定基因组)不同的突变信息集合。可以通过对目标对象的个体样本进行检测确定。受测的个体样本可以是目标对象的某一种细胞或不同种细胞的组合(例如组织、毛发指甲等附生物等),检测到的突变类型包括但不限于点突变、单个碱基或DNA片段的缺失或插入、拷贝数变异、染色体重排等。
其中,参考基因组(Reference Genome)可以是权威公认机构从某物种(如人类)的范式样本集中获取并组装得到、代表该物种的全部基因遗传信息的核酸序列数据库。
可以理解,在其他实施方式中,也可以使用其它高通全局数据替代全外显子测序数据,所述的高通全局数据例如包括但不限于全外显子组测序、全基因组测序、基因芯片、表达芯片、基因分型数据等。
本实施例中,通过有效整合全局突变信息,从基因组突变的角度建立综合定量指标,描述例如肿瘤微进化过程中与基因表达活性相关的细胞内确定性事件特征。
图2示出本申请另一实施例的获得细胞内确定性事件的方法的流程示意图,该方法可由电子设备执行。本实施例中,可获得所述目标对象相对于预定病理或生理状态的至少一个评价特征。本实施例的方法包括:
S21、所述电子设备获得取自目标对象的被测样本的若干突变基因信息,其中,所述若干突变基因属于第一预定基因组。
可以理解的,不同目标对象携带的突变基因是不同的。
S22、所述电子设备依据所述若干突变基因信息,获得所述若干突变基因对第二预定基因组中的各个基因的表达活性的综合影响参数数据,其中,第二预定基因组与预定病理或生理状态相对应。
S23、所述电子设备基于所述若干突变基因对第二预定基因组中的各个基因的表达活性的综合影响参数数据,获得所述目标对象相对于所述预定病理或生理状态的至少一个评价特征。
本申请中,上述的评价特征例如可以包括但不限于预定病理状态(例如肿瘤等疾病)进化或生理状态改变(例如细胞分化)中的至少一个治疗管理因素特征、和/或病理或生理状态类型标签等。
本申请中,肿瘤微进化指由于肿瘤细胞的遗传不稳定性和肿瘤的异质性(指肿瘤组织为具有不同基因组的细胞的集合)与环境筛选的相互作用,肿瘤的整体遗传背景随时间变化,使其适应性发生定向改变的过程。
生理状态改变指细胞行使的特定功能或生物学结构发生特定改变的过程,例如干细胞向不同功能和形态的特化细胞分化,或某些高度特化的细胞脱分化的过程。
本申请中,上述的评价特征例如也可以包括目标对象相对于所述预定病理或生理状态的至少一个回顾分析特征。
在本实施例的一个实例中,第一预定基因组可以是前述的全局突变信息;第二预定基因组与所要评估的癌症对应,例如,可以但不限于是从癌症依赖性基因图谱中筛选的对所述评估的癌症的影响符合给定条件且能够计算驱动力的观测基因的集合。
其中,癌症依赖性基因图谱(Cancer Dependency Map)是根据实验经验总结的、癌细胞生长和生存强烈依赖的基因集合,例如可以包括但不限于发表于“Defining a CancerDependency Map.Cell,Volume 170,Issue 3,p564–576.e16,27 July 2017.DOI:10.1016/j.cell.2017.06.010”中的基因集合。可以理解的,不同癌症的依赖性基因不同,可以按照所要评价的癌症选择相应的癌症依赖性基因图谱。
在一个实施方式中,可以基于若干突变基因对预定基因组中的各个基因的表达活性的单个综合影响参数的数据或所述单个综合影响参数的单个统计特征参数的数据,获得所述目标对象相对于所述预定病理或生理状态的至少一个评价特征。这样,利用简单数据进行分析,可降低数据处理的复杂度,提高评估效率。
可以理解的,在另外的实施方式中,本申请中所述获得所述若干突变基因对预定基因组中的各个基因的表达活性的综合影响参数数据也包括获得所述若干突变基因对预定基因组中的各个基因的表达活性的两个或两个以上综合影响参数数据的情况,视实际需要而定。
下面通过实例对图2的实施例中的获得细胞内确定性事件的方法进行详细描述。本实例的方法包括:
S31、电子设备获得取自目标对象的被测样本的m1个突变基因信息。其中,所述m1个突变基因属于第一预定基因组。
S32、电子设备依据所述m1个突变基因信息,对于与预定病理或生理状态相对应的第二预定基因组中的每个基因,获得所述m1个突变基因对所述每个基因的表达活性的一致性参数数据。其中,第二预定基因组中的基因个数为m2。
本申请中,可以用一致性(Concerted Effect,简称CE)参数表示将若干突变基因对预定基因组中的任意一个基因的表达活性的综合影响。一致性CE参数可以是表征目标对象的个体样本(如一个肿瘤组织样本、一种肿瘤细胞或一种其他形式的组织或细胞组合及其环境载体、组织附生物等)中任意一个基因的表达活性受到该个体样本的预定基因组DNA(例如但不限于是前述的参考基因组)中所携带的全局突变信息影响的总和的统计显著性的定量指标,反映例如肿瘤微进化中某一阶段基因表达活性相关的细胞内确定性事件特征。以肿瘤为例,针对每个变异细胞的肿瘤基因组携带的体细胞变异信息,我们可以评估其一致性CE。CE描述了当前肿瘤基因组内发生的变异整体上对全部或部分基因表达在调控方向上一致性的度量,反映了此时肿瘤基因组在驱动细胞内基因表达的偏好。
S33、基于所述若干突变基因对所述每个基因的表达活性的CE参数数据,获得所述目标对象相对于所述预定病理或生理状态的至少一个评价特征。
参阅图3,在一个实施方式中,S32中获得m1个突变基因对第二预定基因组中的每个基因的表达活性的CE参数数据包括:
S321、获得被测样本的m1个突变基因中的每个突变基因对于第二预定基因组中每个基因的表达发生改变的驱动力;以及
S322、计算被测样本的m1个突变基因对于第二预定基因组中每个基因的表达发生改变的综合驱动力。
本申请中,驱动力可以是指在比较指定基因X具有突变和不具有突变两种条件下,任意一个被观测基因Y的表达活性的差异值在对比其随机分布结果进行标准化后得到的标准化分数(Z-score),即为该指定基因X对观测基因Y的驱动力,用于计量指定基因在发生突变时对任意观测基因表达活性的影响。
在一个实施方式中,S321中所述获得被测样本的m1个突变基因中的每个突变基因对于第二预定基因组中每个基因的表达发生改变的驱动力包括:
从预先获得的被测样本的模板数据中获取被测样本的m1个突变基因中的每个突变基因对于第二预定基因组中每个基因的表达发生改变的驱动力;其中,所述模板数据包括第三预定基因组中的每个基因发生突变时对于第三预定基因组中的各个基因的基因表达发生改变的驱动力。
本申请中,第三预定基因组可以与第一预定基因组相同或者不同。在一个实施方式中,第三预定基因组为前述的参考基因组,第一预定基因组和第二预定基因组均是第三预定基因组的子集。
本申请中,基因表达指基因组上某个可被检测的基因转录的RNA产物的量或翻译得到的蛋白质的量,基因表达量可以是连续值域中的值,可以从现有数据中获得。
在本申请一种实施方式中,获得所述模板数据的方法包括:针对第三预定基因组中的每个基因gi进行以下处理:
S3211、将预定的参考细胞系分为第一细胞系组和第二细胞系组,其中,所述第一细胞系组包括所述预定的参考细胞系中包括突变基因gi的参考细胞系,所述第二细胞系组包括所述预定的参考细胞系中不包括突变基因gi的参考细胞系。
S3212、对于第三预定基因组中的每个基因gj,获得所述第一细胞系组中的参考细胞系的突变基因gj的平均基因表达信息与所述第二细胞系组中的参考细胞系的突变基因gj的平均基因表达信息之间的差异信息。
S3213、对所述差异信息进行降噪处理。
以下通过一个具体实例进行说明。
设第三预定基因组中基因的数量为n,参考细胞系的数量为p,针对第三预定基因组中的每个基因gi,p个参考细胞系被分为两组:第一细胞系组(也称为突变组)mti和第二细胞系组(也称为野生组)wti,其中,第一细胞系组包括p个参考细胞系中包括基因gi的参考细胞系(设数量为pi1),所述第二细胞系组包括p个参考细胞系中不包括基因gi的参考细胞系(设数量为pi2)。
然后对于第三预定基因组中的每个基因gj,计算第一细胞系组中的pi1个参考细胞系的基因gj的平均基因表达信息与第二细胞系组中pi2个参考细胞系的基因gj的平均基因表达信息之间的差异信息;具体的,可以是计算第一细胞系组中的pi1个参考细胞系的基因gj的基因表达值的平均值与第二细胞系组中pi2个参考细胞系的基因gj的基因表达值的平均值差值de:
deij=μmtijwtij
其中,deij为基因gi对应的突变组mti中的各参考细胞系的基因gj的基因表达值的平均值与野生组wti中的各参考细胞系的基因gj的基因表达值的平均值的差值,μmtij表示突变组mti中的各参考细胞系的基因gj的基因表达值的平均值,μwtij表示野生组wti中的各参考细胞系的基因gj的基因表达值的平均值。
进一步的,可以对上述差值deij进行降噪处理。
在一种实施方式中,可以先进行预定次数(例如可以是但不限于10000次)的随机模拟。在每次模拟中,把p个细胞系随机分到突变组和野生组,并且保持突变组中参考细胞系的个数为pi1,野生组中参考细胞系的个数为pi2。然后计算每个基因gi在这随机分成的两组里的表达值的平均值的差值denull
之后,利用各次随机模拟获得的差值denull对deij进行降噪处理(也称标准化处理),标准化处理后获得的值为驱动力df,此标准化处理可通过以下公式实现:
Figure BDA0002223429760000081
其中dfij是基因gi对基因gj的基因表达发生改变的驱动力信息。mean(denull)和std(denull)分别为10000次随机模拟计算出的denull的平均值和标准差。
以上过程为计算一个基因gi发生突变时对各个基因gj的基因表达发生改变的驱动力。对于第三预定基因组中的n个基因,均进行上述计算过程,即可得到第三预定基因组中的每个基因发生突变时对于第三预定基因组中的各个基因的基因表达发生改变的驱动力信息,即模板数据。在一种实施方式中,模板数据可以用一个nxn的矩阵表示,该矩阵的每一行对应一个基因gi,每一列对应一个基因gj,矩阵中的每一个值表示所在行基因发生突变时对所在列基因的基因表达改变的驱动力。
在一个实施方式中,确定被测样本的m1个突变基因中的每个突变基因对于第二预定基因组中的每个基因的基因表达发生改变的驱动力信息可以包括:从上述nxn矩阵中提取这m1个突变基因和第二预定基因组的m2个基因对应的m1行m2列数据,所提取出的数据可以用m1 x m2的矩阵表示。
之后,对该m1 x m2的矩阵的每一列求平均值,获得被测样本的m1个突变基因对第二预定基因组中的每个基因的基因表达改变的综合驱动力。该平均值可作为上述的一致性CE指标,可以用1 x m2的矩阵表示。
可以理解的,被测样本的m1个突变基因对第二预定基因组中的每个基因的基因表达改变的综合驱动力并不限于前面所述的对每一列求平均值,综合驱动力是被测样本的m1个突变基因中的每个突变基因对于第二预定基因组中的每个基因的基因表达发生改变的驱动力的数学函数,因此在本申请的其他实施例中,也可通过其他合适的方法计算该综合驱动力,例如绝对值之和、中位数、最大值、和/或方差等。
图4示出本申请另一实施例的获得细胞内确定性事件的方法的流程示意图,该方法可由一电子设备执行。本实施例中,可基于目标对象的被测样本的若干突变基因对预定病理或生理状态相应的预定基因组中的各个基因的表达活性的一致性负担参数,评估目标对象相对于预定病理或生理状态的至少一个特征。本实施例的方法包括:
S41、电子设备获得取自目标对象的被测样本的若干突变基因信息(为便于说明和理解,假设目标对象的突变基因的个数为m1),其中,所述若干突变基因属于第一预定基因组。
S42、电子设备依据所述若干突变基因信息,获得所述若干突变基因对第二预定基因组中的各个基因的表达活性的一致性负担参数数据,其中,第二预定基因组与预定病理或生理状态相对应。为便于说明和理解,假设第二预定基因组中的基因个数为m2。
本申请中,可以用一致性负担(Concerted Effect Burden,简称CEB)参数描述目标对象的一致性CE参数总体分布的统计特征。一致性负担CEB可以是对所有基因一致性CE值的集合整体特征进行归纳简化的结果。以肿瘤为例,CEB描述了当前肿瘤基因组内发生的变异在驱动下游细胞内功能性事件在方向上一致性的度量,反映了此时肿瘤基因组在决定细胞功能进化上的偏好。
S43、电子设备基于所述若干突变基因对所述第二预定基因组中的所有基因的表达活性的一致性负担参数数据,获得所述目标对象相对于所述预定病理或生理状态的至少一个评价特征。
在一个实施方式中,被测样本的m1个突变基因对第二预定基因组中的各个基因的表达活性的CEB参数数据包括:第二预定基因组中,表达活性受m1个突变基因的影响符合预设条件的基因个数;和/或被测样本的m1个突变基因对第二预定基因组中的各个基因的表达活性的CE参数数据中各数值的绝对值之和、中位数、最大值、和/或方差等。
在一个实施方式中,被测样本的m1个突变基因对第二预定基因组中的各个基因的表达活性的CEB参数数据包括:获得被测样本的m1个突变基因对第二预定基因组中的各个基因的表达活性的至少两个简单CEB参数数据;以及基于所述至少两个简单CEB参数数据获得复合CEB参数数据。其中,所述的简单CEB参数数据可以是前面所述的第二预定基因组中,表达活性受m1个突变基因的影响符合预设条件的基因个数,或被测样本的m1个突变基因对第二预定基因组中的各个基因的表达活性的CE参数数据中各数值的绝对值之和、中位数、最大值、或方差等。
在一个实施方式中,可以通过以下方法获得S42中若干突变基因对第二预定基因组中的各个基因的表达活性的一致性负担参数数据:
S421、依据所述若干突变基因信息,对于与预定病理或生理状态相对应的第二预定基因组中的每个基因,获得所述若干突变基因对所述每个基因的表达活性的一致性CE参数数据。在一个具体实现中,该一致性CE参数数据可以用1 x m2的矩阵表示。
关于S421的实现,可参照前面图3的实施例中关于S32的说明,此处不再赘述。
S422、对所述若干突变基因对所述每个基因的表达活性的一致性CE参数数据进行降噪处理。
S423、基于进行所述降噪处理的结果获得所述若干突变基因对第二预定基因组中的各个基因的表达活性的一致性负担CEB参数数据。
在一个实施方式中,S422中所述降噪处理具体包括获得一致性CE的标准分数Z-score。
在一个实施方式中,标准分数Z-score可以是观测值高于观测值平均值的标准偏差的符号数,用于计量观测值偏离平均值的统计显著性。
在一个实施方式中,可以通过以下方法获得一致性CE的标准分数Z-score。
S4221、进行预定次数(例如可以是但不限于10000次)的随机模拟。在每次模拟中,随机产生一组m1个模拟的突变基因,然后将该组模拟突变基因作为S421中所述的若干突变基因,进行上述S421的处理,获得该次模拟的一致性参数数据CEnull,类似的,CEnull也可用1x m2的矩阵表示。
在一个实施方式中,可以通过以下方式产生一次模拟中的一组m1个突变基因:针对目标对象的m1个突变基因中的每一个突变基因m1i,确定第四预定基因组中的与该突变基因m1i的关系符合预定条件的基因,然后从所确定的基因中随机选一个。其中,第四预定基因组可以与第三预定基因组相同或者是第三预定基因组的子集。
其中,确定第四预定基因组中的与该突变基因m1i的关系符合预定条件的基因可以包括:确定第四预定基因组中,全局驱动力(Global Driving Force,GDF)与该突变基因m1i的全局驱动力相近(例如但不限于差值的绝对值小于预定阈值)的基因。
本申请中,指定基因的全局驱动力GDF表示该基因发生突变时对第三预定基因组中的所有基因的表达活性的影响。
在一个实施方式中,指定基因的全局驱动力可以基于该指定基因对第三预定基因组中的所有基因的驱动力中符合预定条件的驱动力获得。例如,在一个实施方式中,指定基因的全局驱动力可以是指定基因对第三预定基因组中的所有基因的驱动力中绝对值大于选定阈值(例如大于3)的驱动力的绝对值之和。
S4222、利用S4221中各次模拟获得的各一致性参数CEnull对S421中获得的一致性参数CE进行降噪处理(也称标准化处理),标准化处理后获得的值可称为一致性参数的标准分数(Z-score)。所述标准化处理可通过以下公式实现:
Figure BDA0002223429760000101
其中,Z表示标准分数Z-score,mean(CEnull)和std(CEnull)分别为预定次数(例如可以是但不限于10000次)随机模拟计算出的CEnull的平均值和标准差。
目标对象的一致性CE参数的标准分数Z-score也可用1 x m2的矩阵表示,矩阵中每一列的值为经过降噪处理后,m1个突变基因对第二预定基因组中的相应基因的基因表达改变的驱动力的平均值。
在一个实施方式中,可以通过以下方式获得S423中基于进行所述降噪处理的结果获得所述若干突变基因对第二预定基因组中的各个基因的表达活性的一致性负担参数数据:从表示一致性参数CE的标准分数Z-score的1 x m2的矩阵的各个列的值中,确定符合预定条件(例如绝对值大于3)的值的个数作为一致性负担CEB参数数据。
本申请还提供一种疾病治疗管理因素特征自动预测方法,图5示出本申请一实施例的疾病治疗管理因素特征自动预测方法,可由电子设备执行。参阅图5,本实施例的预测方法包括:
S51、电子设备获得目标对象的被测样本的若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数数据,其中所述预定基因组与所述疾病对应。
本实施例中,目标对象的若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数数据可以是在电子设备本地直接计算获得,也可以是由其他设备计算获得后提供给该电子设备。其中,计算获得一致性负担参数数据的过程可参照前面实施例中的相关内容实现,此处不再赘述。
本申请中,目标对象可以是患有所述疾病的患者,被测样本可以是取自患有所述疾病的患者的病变组织,所述疾病例如可以是但不限于癌症。
S52、电子设备基于所述一致性负担参数数据,输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据。
在一个实施方式中,目标对象相对于所述疾病的至少一个治疗管理因素特征包括所述目标对象患所述疾病的生存数据(例如总生存期)。可以理解,本申请并不限于此,例如所述治疗管理因素特征还可包括病理生理特征(如肿瘤转移部位、转移风险等)、临床干预效果(药物治疗、非药物治疗、环境暴露管理等)特征。
在一个实施方式中,基于所述一致性负担参数数据,获得并输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据包括:将所述目标对象的一致性负担数据与预置的所述疾病的一致性负担-生存模式模型进行对比,输出所述目标对象相对于所述疾病的生存模式标签。
本申请中,生存模式标签例如可以包括但不限于指示生存期长的数据(如1)或生存期短的数据(如0)、和/或指示生存年限及对应存活概率的数据、和/或置信度参数的预测结果等。
在一个实施方式中,所述基于所述一致性负担参数数据,输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据包括:基于所述目标对象的一致性负担数据和预先获得的若干建模样本的一致性负担数据及预定治疗管理因素特征的实测数据,输出所述目标对象相对于所述预定治疗管理因素特征的预测数据。例如,除了前述的与预置一致性负担-生存模式模型进行对比的方式,还可以根据数据的分布特征和应用场景,使用其他统计方法和参数进行预测。
在一个实施方式中,所述若干建模样本来自若干患有所述疾病的患者,例如来自肺癌患者的肺部原发性肿瘤组织。
在一个实施方式中,所述若干建模样本来自若干患有所述疾病且处于所述疾病的指定进化阶段的患者,例如来自消化道癌患者的肺部转移性肿瘤组织。
图6示出本申请另一实施例的疾病治疗管理因素特征自动预测方法,由电子设备执行,本实施例中,以癌症的预后为例进行描述,但可以理解,本申请并不仅限于此。参阅图6,本实施例的预测方法包括:
S61、电子设备获得目标对象的被测样本的若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数数据,其中所述预定基因组与所述病理或生理状态对应。
在一个示例中,目标对象可以是患有特定癌症(例如肺腺癌)的患者,被测样本可以是取自该患者的肺腺癌变组织,预定基因组例如可以是从癌症依赖性基因图谱中选出的与肺腺癌对应的可观测基因组。
一致性负担参数数据的获得可参照图5对应实施例中的相应说明,此处不再赘述。
S62、电子设备将所述目标对象的一致性负担参数数据与预置的一致性负担-生存模式模型的预设阈值进行比较。
S63、若所述目标对象的一致性负担参数数据达到所述预设阈值,则输出第一生存模式标签,若所述目标对象的一致性负担参数数据低于所述预设阈值,则输出第二生存模式标签。
本申请的发明人采用Cox比例风险回归模型(Cox proportional hazardsregression model)对一致性负担CEB参数对癌症患者的总生存期(Overall Survival,OS)的影响进行了研究。研究结果显示,CEB低的癌症患者的总生存期显著(p=6x10-16)长于CEB高的癌症患者。可以理解,在其他实施方式中,也可利用其他统计模型进行评估。
基于此,在一个实施方式中,采用预置的一致性负担-生存模式模型来预测目标对象的生存模式。
在一个实施方式中,可通过以下方法建立特定疾病的一致性负担-生存模式模型:获得若干患有该疾病的患者的建模样本的一致性负担CEB参数数据及对应的患者生存期数据;获得各建模样本的一致性负担参数数据的中位数,以该中位数作为预定阈值,建立一致性负担-生存模式模型。
在一个示例中,在建立一致性负担-生存模式模型时,可以该中位数为界,将CEB数据大于或等于该中位数的建模样本分到第一组,将CEB数据小于该中位数的建模样本分到第二组;其中,第一组具有第一生存模式标签,该生存模式标签例如可以包括但不限于表示生存期短的数据(如0)、和/或指示生存年限及对应存活概率的数据等,第二组具有第二生存模式标签,该生存模式标签例如可以是表示生存期长的数据(如1)、和/或指示生存年限及对应存活概率的数据、和/或置信度参数的预测结果等,可以理解的,生存模式标签也可以是其他合适的数据。图7示出依据CEB将建模样本分为两组所生成的一致性负担-生存曲线图,图中,横坐标表示生存期,竖坐标表示存活概率,其中较低的曲线表示CEB高于中位数的建模样本的生存数据,较高的曲线表示CEB低于中位数的建模样本的生存数据。可以看出,利用CEB可对生存模式进行区分和预测。
可以理解,在其他实施方式中,也可利用统计方法选取CEB的中位数以外的其他统计量作为一致性负担-生存模式模型的预定阈值。例如平均值、众数等统计量或简单统计量的复合参数如均值方差比等。
可以理解的,在其他实施方式中,一致性负担-生存模式模型也可以具有多个不同的阈值,并基于多个阈值设定多个生存模式标签。
例如,可以通过一个较小阈值和一个较大阈值设定长、中等、短三个生存模式标签,在此情形下,S62中所述将目标对象的一致性负担参数数据与预置的一致性负担-生存模式模型的预设阈值进行比较包括:将目标对象的一致性负担参数数据与预置的一致性负担-生存模式模型的多个预设阈值进行比较的情形,S63中所述若目标对象的一致性负担参数数据达到预设阈值,则输出第一生存模式标签,若所述目标对象的一致性负担参数数据低于所述预设阈值,则输出第二生存模式标签包括:若目标对象的一致性负担参数数据达到较大阈值,输出短生存模式标签,若目标对象的一致性负担参数数据低于较大阈值,则继续判断目标对象的一致性负担参数数据是否低于较小阈值,若低于较小阈值,输出长生存模式标签,否则,输出中等生存模式标签。
本申请还提供一种疾病类型自动确定方法。图8示出本申请一实施例的疾病类型自动确定方法,可由电子设备执行。参阅图8,本实施例的方法包括:
S81、电子设备获得被测样本的若干突变基因对预定基因组中每个基因的表达活性的综合影响参数数据。
S82、电子设备基于所述若干突变基因对预定基因组中每个基因的表达活性的综合影响参数数据,确定所述被测样本对应的疾病类型标签。
本实施例中,S81所述被测样本的若干突变基因对预定基因组中每个基因的表达活性的综合影响参数数据可以是在电子设备本地直接计算获得,也可以是由其他设备计算获得后提供给该电子设备。其中,计算获得综合影响参数数据的过程可参阅前述实施例中的相关内容实现,此处不再赘述。本申请中,可以用一致性CE参数表示所述综合影响参数。
在一个实施方式中,所述确定所述被测样本对应的疾病类型标签包括:从至少两个具有进化相关性的疾病类型标签中确定所述被测样本对应的疾病类型标签。
本实施例中,具有进化相关性的疾病可以是指在疾病进展的过程中因为存在某些特定状态具有相似的病灶、转移途径与部位、病理特征、生化特征或组织特征等而容易被混淆的若干类疾病。例如,肺癌脑转移与原发性脑癌、消化道肿瘤肺转移与原发性肺癌等。
本实施例中,S81中的预定基因组可以是与上述至少两个具有进化相关性的疾病相对应的基因组,例如,可以但不限于是从癌症依赖性基因图谱中筛选的对至少两个具有进化相关性的癌症的影响符合给定条件且能够计算驱动力的观测基因的集合。
本申请中,被测样本可以是来自患有数种具有进化相关性的混合疾病(尤其是但不限于癌症)的患者的病变组织。例如,在一个场景中,患者体内同时检测出肝内胆管癌病灶与肺部肿瘤病灶,需要判别是肝内胆管癌肺转移还是合并原发肺癌,则被测样本可以是取自肺部肿瘤组织,利用本实施例的方法,可以从肝内胆管癌标签和肺癌标签中确定被测样本对应哪个标签。
例如,在另一个场景中,患者同时检出脑部肿瘤病灶与肺部肿瘤病灶,需要判别是合并原发性脑癌还是肺癌脑转移,则被测样本可以是取自脑部肿瘤组织,利用本实施例的方法,可以从脑癌标签和肺癌标签中确定被测样本对应哪个标签。
在一个实施方式中,S82中所述基于所述若干突变基因对预定基因组中每个基因的表达活性的综合影响参数数据,确定所述被测样本对应的疾病类型标签包括:将所述被测样本的所述综合影响参数数据输入预置分类器;以及运行所述预置分类器,使所述预置分类器从至少第一疾病类型的标签和第二疾病类型的标签中输出所述被测样本对应的疾病类型标签。
可以理解的,本申请的实施例中,预置分类器既可以是二元分类器,也可以是多元分类器。
在一个实施方式中,所述预置分类器至少由第一建模样本组的第一建模数据集和第二建模样本组的第二建模数据集训练而成,其中,所述第一建模样本来自所述第一疾病类型的患者,所述第二建模样本来自所述第二疾病类型的患者,所述第一建模数据集包括所述第一疾病类型标签及每个所述第一建模样本的若干突变基因对第一预定基因组中每个基因的表达活性的综合影响参数数据,所述第二建模数据集包括所述第二疾病类型标签及每个所述第二建模样本的若干突变基因对第二预定基因组中每个基因的表达活性的综合影响参数数据,所述第一预定基因组对应所述第一疾病类型,所述第二预定基因组对应所述第二疾病类型。
在另一个实施方式中,所述预置分类器至少由第一建模样本组的第一建模数据集和第二建模样本组的第二建模数据集训练而成,其中,所述第一建模样本来自所述第一疾病类型的患者,所述第二建模样本来自所述第二疾病类型的患者,所述第一建模数据集包括所述第一疾病类型标签及每个所述第一建模样本的若干突变基因对第三预定基因组中每个基因的表达活性的综合影响参数数据,所述第二建模数据集包括所述第二疾病类型标签及每个所述第二建模样本的若干突变基因对第三预定基因组中每个基因的表达活性的综合影响参数数据,其中,第三预定基因组是与第一疾病和第二疾病相对应的基因组。这里以二元分类器为例进行说明,可以理解的,在建立多元分类器时,可以由多个建模样本组的多个建模数据集训练而成,每个样本组的建模样本来自一种疾病类型的患者,每个建模数据集包括相应的疾病类型标签及对应建模样本组中的建模样本的若干突变基因对第三预定基因组中每个基因的表达活性的综合影响参数数据,其中,第三预定基因组是与多个建模样本组的多种疾病类型相对应的基因组。
在一个实施方式中,可以通过以下方法建立所述预置分类器:将所述第一建模数据集和第二建模数据集分别输入多个备选分类器模型,进行训练后获得多个备选分类器以及每个所述备选分类器的预定评价参数的参数值;以及从所述多个备选分类器中选择所述预定评价参数的参数值最佳的备选分类器作为所述预置分类器。
在一个实施方式中,所述备选分类器模型可以选自基于随机梯度增强、支持向量机、随机森林及神经网络的分类器模型等。
图9示出本申请另一实施例的疾病类型自动确定方法,由电子设备执行。为便于理解和说明,本实施例中,以二元分类器为例进行描述,但可以理解,本申请的其他实施例中也可采用多元分类器;另外,本实施例中,被测样本的若干突变基因对预定基因组中每个基因的表达活性的综合影响参数以一致性参数为例进行描述,但可以理解,本申请的其他实施例中也可以采用其他综合影响参数,或者也可以采用两个或以上的综合影响参数;另外,本实施例中,以肿瘤分类为例进行描述,但可以理解,本申请的其他实施例中也可进行其他合适的混合疾病的分类。参阅图9,本实施例的方法包括:
S91、通过建模样本集中各建模样本的一致性参数数据,生成至少两个建模数据集,其中,每个建模数据集具有对应的肿瘤分类标签。
本实施例中,可以从公共数据库(例如包括但不限于肿瘤基因组计划TCGA数据库)和/或自主样本库中获得以肿瘤类型为分类标签的建模样本的集合。在获得建模样本后,可按照前面实施例中所描述的方法,获得各建模样本的一致性参数数据。
在一个实施方式中,建模样本集可包括第一建模样本组和第二建模样本组,其中,第一建模样本组中的各第一建模样本来自具有第一类型肿瘤标签的患者的第一肿瘤组织,第二建模样本组中的各第二建模样本来自具有第二类型肿瘤标签的患者的第二肿瘤组织。获得各第一、第二建模样本的一致性参数数据,可形成与第一建模样本组对应的第一建模数据集和与第二建模样本组对应的第二建模数据集。其中,第一建模数据集包括第一类型肿瘤标签及每个第一建模样本的若干突变基因对第一预定基因组中每个基因的表达活性的一致性参数数据,第二建模数据集包括所述第二类型肿瘤标签及每个第二建模样本的若干突变基因对第二预定基因组中每个基因的表达活性的一致性参数数据。其中,第一预定基因组对应第一类型肿瘤,第二预定基因组对应第二类型肿瘤。在一个实施方式中,建模样本集可包括第一建模样本组和第二建模样本组,其中,第一建模样本组中的各第一建模样本来自具有第一类型肿瘤标签的患者的第一肿瘤组织,第二建模样本组中的各第二建模样本来自具有第二类型肿瘤标签的患者的第二肿瘤组织。获得各第一、第二建模样本的一致性参数数据,可形成与第一建模样本组对应的第一建模数据集和与第二建模样本组对应的第二建模数据集。所述第一建模数据集包括所述第一类型肿瘤标签及每个所述第一建模样本的若干突变基因对第三预定基因组中每个基因的表达活性的综合影响参数数据,所述第二建模数据集包括所述第二类型肿瘤标签及每个所述第二建模样本的若干突变基因对第三预定基因组中每个基因的表达活性的综合影响参数数据,其中,第三预定基因组是与第一肿瘤和第二肿瘤相对应的基因组。
在一个实施方式中,如前所述,一个建模样本的一致性参数数据可以用一个1 xm2的矩阵表示,则可将每个建模样本组的各建模样本的矩阵共同组成作为建模数据集一部分的CE特征矩阵,该CE特征矩阵中每一行为一个建模样本的数据。这样,为每个肿瘤类型建立一个对应的CE特征矩阵。
在另一个实施方式中,建模样本集可包括多个建模样本组,各个建模样本组具有各自不同的肿瘤分类标签。获得建模样本集中各建模样本的一致性参数数据,可形成与多个建模样本组一一对应的多个建模数据集。
S92、利用所生成的至少两个建模数据集,建立预置分类器。
当仅具有两个建模数据集时,可以利用这两个建模数据集建立一个二元分类器。
当具有多个建模数据集时,可以对多个建模数据集两两配对建立不同的二元分类器,或者利用多个建模数据集的部分或全部建模数据集建立相应的多元分类器,例如三元、四元分类器等。
在一个实施方式中,可以通过以下方法建立所述预置分类器:将各个建模数据集(例如各建模数据集的CE特征矩阵)及对应肿瘤分类标签分别输入多个备选分类器模型,进行训练后获得多个备选分类器以及每个所述备选分类器的预定评价参数的参数值,以及从所述多个备选分类器中选择所述预定评价参数的参数值最优的备选分类器作为所述预置分类器。其中,所述备选分类器模型可以选自基于随机梯度增强、支持向量机、随机森林及神经网络的分类器模型,可以理解的,本申请并不仅限于此,在其他实施例中,也可以选择已知的基于其他技术的分类器模型作为备选分类器模型。
在一个实施方式中,可以使用AUC和/或F-分数作为分类器的预定评价参数,在完成训练获得各备选分类器及对应AUC和/或F-分数的参数值后,选择AUC、或F-分数、或两者的组合最优的备选分类器作为预置分类器。可以理解的,在本申请的其他实施方式中,也可以使用其他评价参数或参数的组合来确定预置分类器。
在一个实施方式中,在训练分类器时,可以将各个建模数据集中的数据随机分成训练组(例如75%)和测试组(例如25%),使用交叉验证搜索分类器的最佳参数。
可以理解的,在一个实施方式中,也可以直接利用选定的分类器模型,将各个建模数据集及对应肿瘤分类标签输入该选定分类器模型,经训练后直接获得预置分类器。
S93、获得被测样本的一致性参数数据。
可参阅前述实施例中的相关内容实现被测样本的一致性参数数据的获得,此处不再赘述。
作为一个示例,在需区分原发性肺癌与其他消化道癌(如肝内胆管癌)肺转移的场景中,可获得患者取自肺部肿瘤组织的被测样本的若干突变基因对与肺癌和例如肝内胆管癌相对应的预定基因组中每个基因的表达活性的一致性参数数据。
S94、将被测样本的一致性参数数据输入预置分类器。
例如,在需区分原发性肺癌与其他消化道癌(如肝内胆管癌)肺转移的场景中,预置分类器是用于区分肺癌与该消化道癌的分类器,该分类器可以是利用基于肺癌患者的肺部肿瘤组织样本获得的第一建模数据集和基于该消化道癌的患者的消化道肿瘤组织样本获得的第二建模数据集建立的肺癌-消化道癌二元分类器,该二元分类器的第一分类标签为肺癌标签,第二分类标签为该消化道癌标签。
S95、运行预置分类器,使预置分类器输出被测样本对应的疾病类型标签。
例如,将被测样本的一致性参数数据输入肺癌-消化道癌分类器,运行该分类器,将输出肺癌标签(例如为0)或消化道癌标签(例如为1),从而指示该患者是属于原发性肺癌还是属于消化道癌肺转移。可以理解,还可同时输出做出肺癌标签或消化道癌标签的置信度参数。
在一个实施例中,预置分类器还可输出所分类的疾病类型标签的置信度。
图11示出本申请一实施例的电子设备100,包括存储器102、处理器104以及存储在存储器104中的程序106,所述程序106被配置成由处理器104执行,所述处理器104执行所述程序时实现前述获得细胞内确定性事件的方法的部分或全部、或实现前述疾病治疗管理因素特征自动预测方法中的部分或全部、或实现前述疾病类型自动确定的部分或全部、或实现前述方法的组合。
本申请还提供一种存储介质,所述存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现前述获得细胞内确定性事件的方法的部分或全部、或实现前述疾病治疗管理因素特征自动预测方法中的部分或全部、或实现前述疾病类型自动确定的部分或全部、或实现前述方法的组合。
本申请的一些实施例中,建立全局突变与基因表达活性的多元相关模型,将离散、高维、多元相关、非标准化的全局突变特征能够投射到值域连续、相对低维、相关性逐渐收敛的基因预测表达量特征上,构建了将离散定性数据转化为连续空间上的定量模型,再通过统计算法得到具有唯一值的一致性负担参数,一方面保留了数据的全局特征,另一方面可以利用一个简单值对具有基因组异质性的复杂疾病或病理生理状态(例如肿瘤微进化)相关的特征进行分析,降低了实际应用的复杂程度;
本申请的一些实施例中,由于一致性负担是通过整合与肿瘤微进化特定阶段相关的全局突变信息得到的参数,全面描述了肿瘤特定进化阶段的异质性与基因组不稳定性,因而克服了单个或数个分子标志物组合分析时覆盖率与外显率不高的问题,可以覆盖不同类型的肿瘤并根据不同类型肿瘤的进化特征差异,实现对肿瘤类型的识别,并因对预后等与肿瘤微进化相关的特征进行预测,为“同病异治”“异病同治”提供判断依据;
本申请的一些实施例中,由于一致性负担整合了全局突变信息,解决了单个或少数分子标记物组合特异性不高,无法辨别混合肿瘤的问题,能够对两种肿瘤实现效果良好的区分。
本申请的一些实施例中,由于明确了具体的计算方法和定义,使用一致性负担作为全局指标评估肿瘤特征,避免了TMB等指标标准不统一、定性模糊的缺点,为未来分析其他肿瘤微进化相关特征提供了标准化的工具。
本申请的一些实施例中,可以使用能够接纳由不同技术(包括但不限于全外显子组测序、全基因组测序、基因芯片数据等高通量数据技术)产生的全局变异信息的输入接口;另外,可以使用多层级的深度学习神经网络框架来处理全局突变信息、在不同类别细胞内确定性事件集特征之间利用数据-知识混合驱动的方法建立转化函数进行适用于不同肿瘤类型的投射。
本申请的一些实施例中,可以通过简单网络分析方法、或不同类型的机器学习方法、或不同类型的深度学习网络方法等计算获得一致性或一致性负担参数。
电子设备在一些实施例中可以是用户终端设备、服务器、或者网络设备等。例如移动电话、智能电话、笔记本电脑、数字广播接收机、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载装置、数字TV、台式计算机等、单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云等。
存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。存储器中存储安装于服务节点设备的操作系统和各类应用软件及数据等。
处理器在一些实施例中可以是中央处理器(CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种电子设备,包括:存储器、处理器以及存储在存储器中的程序,所述程序被配置成由处理器执行,所述处理器执行所述程序时实现如下所述的疾病治疗管理因素特征自动预测方法,所述方法包括:
所述电子设备获得目标对象的被测样本的若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数数据,其中所述预定基因组与所述疾病对应;以及
所述电子设备基于所述一致性负担参数数据,输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据,包括:将所述目标对象的一致性负担数据与预置的所述疾病的一致性负担-生存模式模型进行对比,输出所述目标对象相对于所述疾病的生存模式标签。
2.如权利要求1所述的电子设备,其特征在于,所述目标对象相对于所述疾病的至少一个治疗管理因素特征包括所述目标对象患所述疾病的生存特征、病理生理特征、和/或临床干预效果。
3.如权利要求1所述的电子设备,其特征在于:
所述一致性负担-生存模式模型至少包括第一生存模式标签、第二生存模式标签及预设阈值;
所述将所述目标对象的一致性负担数据与预置的所述疾病的一致性负担-生存模式模型进行对比,获得并输出所述目标对象相对于所述疾病的生存模式标签包括:
将所述目标对象的一致性负担数据与所述疾病的一致性负担-生存模式模型的所述预设阈值进行比较,若所述目标对象的一致性负担数据达到所述预设阈值,则输出所述第一生存模式标签,若所述目标对象的一致性负担数据低于所述预设阈值,则输出所述第二生存模式标签。
4.如权利要求3所述的电子设备,其特征在于,所述疾病的一致性负担-生存模式模型的所述预设阈值基于若干建模样本的一致性负担数据所确定,所述若干建模样本来自若干患有所述疾病的患者。
5.如权利要求4所述的电子设备,其特征在于,所述若干建模样本来自若干患有所述疾病且处于所述疾病的指定进化阶段的患者。
6.如权利要求1所述的电子设备,其特征在于,所述基于所述一致性负担参数数据,输出所述目标对象相对于所述疾病的至少一个治疗管理因素特征的预测数据包括:
基于所述目标对象的一致性负担数据和预先获得的若干建模样本的一致性负担数据及预定治疗管理因素特征的实测数据,输出所述目标对象相对于所述预定治疗管理因素特征的预测数据,其中,所述若干建模样本来自若干患有所述疾病的患者。
7.如权利要求1至6任一项所述的电子设备,其特征在于,所述目标对象的被测样本的若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数包括:
所述预定基因组的基因中,表达活性受所述若干突变基因的影响符合预设条件的基因个数。
8.如权利要求1至6任一项所述的电子设备,其特征在于,所述获得所述若干突变基因对预定基因组中的各个基因的表达活性的一致性负担参数数据包括:
对于预定基因组中每个基因,获得所述若干突变基因对所述每个基因的表达活性的一致性参数数据;
对所述若干突变基因对所述每个基因的表达活性的一致性参数数据进行降噪处理;以及
基于进行所述降噪处理的结果获得所述若干突变基因对所述预定基因组中的各个基因的表达活性的一致性负担参数数据。
CN201980001872.0A 2019-09-02 2019-09-02 疾病治疗管理因素特征自动预测方法及电子设备 Active CN112771618B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/104005 WO2021042236A1 (zh) 2019-09-02 2019-09-02 疾病治疗管理因素特征自动预测方法及电子设备

Publications (2)

Publication Number Publication Date
CN112771618A CN112771618A (zh) 2021-05-07
CN112771618B true CN112771618B (zh) 2022-08-16

Family

ID=74852087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980001872.0A Active CN112771618B (zh) 2019-09-02 2019-09-02 疾病治疗管理因素特征自动预测方法及电子设备

Country Status (3)

Country Link
US (1) US20220293212A1 (zh)
CN (1) CN112771618B (zh)
WO (1) WO2021042236A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6615300A (en) * 1999-07-30 2001-02-19 Board Of Trustees Of The Leland Stanford Junior University Hypocretin and hypocretin receptors in regulation of sleep and related disorders
WO2007041238A2 (en) * 2005-09-29 2007-04-12 Stratagene California Methods of identification and use of gene signatures
EP3180450A4 (en) * 2014-08-11 2018-01-10 Agency For Science, Technology And Research (A*star) A method for prognosis of ovarian cancer, patient's stratification
GB2558458A (en) * 2015-09-18 2018-07-11 Univ Utah Predicting disease burden from genome variants
CN106960122A (zh) * 2017-03-17 2017-07-18 晶能生物技术(上海)有限公司 基因突变引起的遗传疾病预测方法及装置
CN109698010A (zh) * 2017-10-23 2019-04-30 北京哲源科技有限责任公司 一种针对基因数据的处理方法
CN109411015B (zh) * 2018-09-28 2020-12-22 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质

Also Published As

Publication number Publication date
US20220293212A1 (en) 2022-09-15
WO2021042236A1 (zh) 2021-03-11
CN112771618A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
Badia-i-Mompel et al. Gene regulatory network inference in the era of single-cell multi-omics
Shannon et al. Analyzing microarray data using cluster analysis
US9342657B2 (en) Methods for predicting an individual's clinical treatment outcome from sampling a group of patient's biological profiles
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
Cao et al. ROC curves for the statistical analysis of microarray data
CN109952611A (zh) 达沙替尼响应预测模型及其方法
Zhu et al. SRTsim: spatial pattern preserving simulations for spatially resolved transcriptomics
Yan et al. Radiomics analysis using stability selection supervised component analysis for right-censored survival data
Cipolli III et al. Bayesian nonparametric multiple testing
Padmanaban et al. Between-tumor and within-tumor heterogeneity in invasive potential
CN101517579A (zh) 蛋白质查找方法和设备
CN112930573A (zh) 疾病类型自动确定方法及电子设备
Bote-Curiel et al. Text analytics and mixed feature extraction in ovarian cancer clinical and genetic data
CN112771618B (zh) 疾病治疗管理因素特征自动预测方法及电子设备
CN112840402B (zh) 获得细胞内确定性事件的方法及电子设备
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
US20230046438A1 (en) Method for predicting cell spatial relation based on single-cell transcriptome sequencing data
Harmanci et al. XCVATR: detection and characterization of variant impact on the Embeddings of single-cell and bulk RNA-sequencing samples
Ghadle et al. Study on analysis of gene expression dataset and identification of differentially expressed genes
US20220215268A1 (en) Sample analysis method and device based on kernel module in genomic module network
Wang et al. Adaptation of a Mutual Exclusivity Framework to Identify Driver Mutations within Biological Pathways
Zhou et al. Computational systems bioinformatics and bioimaging for pathway analysis and drug screening
Zhang Bayesian Integrative Analysis Of Omics Data
Guo et al. Uncover spatially informed variations for single-cell spatial transcriptomics with STew
Hazra et al. Selection of Certain Cancer Mediating Genes Using a Hybrid Model Logistic Regression Supported by Principal Component Analysis (PC‐LR)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant