CN116403644B - 一种用于癌症风险预测的方法及装置 - Google Patents

一种用于癌症风险预测的方法及装置 Download PDF

Info

Publication number
CN116403644B
CN116403644B CN202310199324.1A CN202310199324A CN116403644B CN 116403644 B CN116403644 B CN 116403644B CN 202310199324 A CN202310199324 A CN 202310199324A CN 116403644 B CN116403644 B CN 116403644B
Authority
CN
China
Prior art keywords
mutation
sample
gene
cancer
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310199324.1A
Other languages
English (en)
Other versions
CN116403644A (zh
Inventor
王科
方欢
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jiyinga Information Technology Co ltd
Original Assignee
Shenzhen Jiyinga Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jiyinga Information Technology Co ltd filed Critical Shenzhen Jiyinga Information Technology Co ltd
Priority to CN202310199324.1A priority Critical patent/CN116403644B/zh
Publication of CN116403644A publication Critical patent/CN116403644A/zh
Application granted granted Critical
Publication of CN116403644B publication Critical patent/CN116403644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种用于癌症风险预测的方法及装置,该方法包括:基因特征提取步骤,包括从待测样本的cfDNA测序数据中提取体细胞变异,对各个基因和/或基因组合中的变异进行打分,累计汇总各个基因和/或基因组中的变异打分,得到变异基因特征;风险预测步骤,将变异基因特征输入模型,判断是否患癌,和/或,获得患癌风险指数。通过筛选的特征构建得到的癌症风险预测模型,能够有效地识别早期癌症,特异性、灵敏度高,为癌症的(早期)筛查提供重要的研究方向和临床指导。

Description

一种用于癌症风险预测的方法及装置
技术领域
本发明涉及生物技术领域,具体涉及一种用于癌症风险预测的方法及装置。
背景技术
积极预防、早期发现和早期治疗是对付肿瘤最有效的办法。随着人们经济水平的提高,很多人虽然对自己的健康要求高了,多数人没有意识到已经处在亚健康状态或者处在没有症状的早期癌症阶段了。因此血液的无创早期筛查对临床早期的癌症或肿瘤发现、确定分期、治疗方案以及提高治疗效率等具有重要意义。
癌症的筛查和诊断一直都是一个非常棘手的难题。目前,癌症筛查和诊断还没有标准化的通用手段,普遍采用的镜检、活体组织检查和PET/CT(PET是指正电子发射计算机断层显像,即positron emission tomography;CT是指电子计算机X射线断层扫描技术,即Comput ed Tomography;PET/CT是指将PET和CT结合在一起,使用同一个检查床合用一个图像工作站,PET/CT同时具有PET、CT及将PET图像与CT图像融合等功能)等方法,这类方法侵入性强,不可避免地造成机体创伤,给患者带来极大的痛苦,操作起来也极为不便,有的还只局限在某些癌种。另外,患者只有在出现了某些影响生活的症状时才去医院进行检查,如果是癌症,大多数癌症已经处于中晚期,贻误了诊疗的时机。
现有技术中,以健康人与癌症病人构建模型,会导致高危人群癌症假阳性很高,且只以癌症特异性位点作为筛查,会导致部分癌症样本漏检,再者,现有技术以未去重的reads作为筛查的标准,会受实验PCR影响严重,重复性较差。
发明内容
根据第一方面,一种实施例中提供一种用于癌症风险预测的方法,包括:
基因特征提取步骤,包括从待测样本的cfDNA测序数据中提取体细胞变异信息,对各个基因和/或基因组合中的变异进行打分,累计汇总各个基因和/或基因组中的变异打分,得到变异基因特征;
风险预测步骤,将所述变异基因特征输入模型,判断是否患癌和/或预测患癌风险指数。
根据第二方面,一种实施例中提供一种用于癌症风险预测的装置,包括:
基因特征提取模块,用于从待测样本的cfDNA测序数据中提取体细胞变异,对各个基因和/或基因组合中的变异进行打分,累计汇总各个基因和/或基因组中的变异打分,得到变异基因特征;
风险预测模块,用于将所述变异基因特征输入模型,判断是否患癌,和/或,获得患癌风险指数。
根据第三方面,一种实施例中提供一种设备,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。
根据第四方面,一种实施例中提供一种计算机可读存储介质,其上存储有程序,所述程序能够被处理器执行以实现如第一方面所述的方法。
依据上述实施例的用于癌症风险预测的方法及装置,通过筛选的特征构建得到的癌症风险预测模型,能够有效地识别早期癌症,特异性、灵敏度高,为癌症的(早期)筛查提供重要的研究方向和临床指导。
附图说明
图1为一实施例的癌症风险预测流程图。
图2为一实施例的ROC曲线图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
本文中,reads是指高通量测序平台产生的序列,亦称序列读段、读段。
本文中,VAF是指变异等位基因频率(Variant Allele Frequency)。
本文中,体细胞突变是指发生在正常机体细胞中的突变,比如发生在皮肤或器官中的突变。
术语“突变”是指基因结构的变化,其导致由DNA中的碱基单元的改变或者基因或染色体的缺失、插入或较大部分的重排造成的可被传递至后代的变体形式。本文中,“突变”、“变异”可互换使用。
突变包括但不限于:单核苷酸多态性(SNP),其突变变体被称为单核苷酸变异(SNV);插入缺失;和拷贝数变异(CNV)、染色体结构变异(SV)。一些突变与癌症相关。这样的突变被称为癌症突变,且相应的变体被称为癌症变体。
单核苷酸多态性(SNP)是发生在基因组中的特定位置处的单个核苷酸的变异,其中每个变异在种群中以某种可评估的程度(例如,>1%)存在。
多态性和遗传多态性在本文中可互换使用,是指在相同的群体中,在一个基因组基因座处存在两个或更多个等位基因,每个具有可评估的频率。
多态性位点和多态位点在本文中可互换使用,是指两个或更多个等位基因所在的基因组上的基因座。在一些实施方案中,它被用于指两个不同碱基的等位基因的单个核苷酸变异。
术语“等位基因”是指基因的两种或更多种可选形式中的一种且在基因组上的相同基因座处被发现。
术语“等位基因计数”是指包括特定等位基因的序列读取的数量。在一些实施方案中,它可以通过将读取映射为参照基因组中的一个位置,并对包括等位基因序列且被映射至参照基因组的读取计数来确定。
术语“等位基因频率”是基因(或基因的变体)的等位基因相对于基因的所有等位基因的频率,其可被表示为分数或百分比。等位基因频率常常与特定基因组基因座相关,因为基因通常位于一个或多个基因座处。
术语“变异等位基因”在本文中被用于指目标的变体的等位基因,或更明确地,指癌症相关的变体的等位基因。
术语“变异等位基因频率”是指变异等位基因相对于所有等位基因的频率。
循环无细胞DNA或简单的无细胞DNA(cfDNA)是不限于细胞内的DNA片段,并且是在血流或其他体液中自由循环的。已知cfDNA具有不同的来源,在一些情况下来自肿瘤细胞或受肿瘤影响的细胞,在其他情况下则来自母体血液中循环的胎儿DNA。通常,cfDNA是片段化的,并且仅包括基因组的一小部分,其可能与获得cfDNA的个体的基因组不同。本发明是从cfDNA中提取体细胞变异,统计计算VAF,用于后续的癌症风险预测。
术语非循环基因组DNA(gDNA)或细胞DNA被用于指限制在细胞中的DNA分子,并且通常包括完整的基因组。
术语“读取”是指从核酸样品的一部分获得的序列。通常,尽管不是必须的,读取代表样品中连续碱基对的短序列。可以通过样品部分的碱基对序列(以A、T、C或G)象征性地表示读取。可以将它存储在存储器装置中,并适当地行处理以确定它是否与参照序列匹配或满足其他的标准。可以直接从测序设备获得读取,或者可以从存储的关于样品的序列信息间接获得读取。在一些情况下,读取是具有足够长度(例如,至少约25bp)的DNA序列,其可被用于识别更大的序列或区域,例如可进行比对并特异性地分配给染色体或基因组区域或基因。
术语“多核苷酸”、“核酸”和“核酸分子”可互换使用,并且指共价连接的核苷酸序列(即RNA的核糖核苷酸和DNA的脱氧核糖核苷酸),其中一个核苷酸的戊糖的3’位置通过磷酸二酯基团连接至下一个核苷酸的戊糖的5’位置。核苷酸包括任何形式的核酸的序列,包括但不限于RNA和DNA分子,如cfDNA分子。术语“多核苷酸”包括但不限于单链多核苷酸和双链多核苷酸。
本文中的术语“测试样品”是指通常来源于生物流体、细胞、组织、器官或生物体的样品,其包含核酸或含有在测试中待分析的至少一条核酸序列的核酸的混合物。在某些实施方案中,样品包含至少一条核酸序列。这样的样品包括但不限于:硬组织和软组织、痰/口腔液、羊水、血液、血液级分或细针穿刺活检样品(例如,外科活检、细针穿刺活检等)、尿液、腹膜液、胸膜液等。尽管样品通常采自人类对象(例如患者),但测定可被用于测试来自任何哺乳动物的样品,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。可以直接使用从生物来源获得的样品,或者可以在进行预处理以修改样品特性后使用。例如,这样的预处理可以包括从血液中制备血浆、稀释粘性流体等。预处理方法还可以包括但不限于:过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰成分灭活、添加试剂、溶解等。如果对样品采用这样的预处理方法,则这样的预处理方法通常使得目标核酸保留在测试样品中,有时以与未处理测试样品(例如,即未进行任何这样的预处理方法的样品)中的浓度成比例的浓度保留在测试样品中。相对于本文的方法,这种“处理的”或“加工的”样品仍被认为是生物学的“测试”样品。
本文中的术语“训练集”是指一组训练样品,其可以包括受影响的和/或未受影响的样品,并被用于开发用于分析测试样品的模型。在一些实施方案中,训练集包括未受影响的样品。在这些实施方案中,使用目标拷贝数变异未受影响的样品训练集来确立用于确定CNV的阈值。训练集中未受影响的样品可被用作鉴定标准化序列(例如标准化染色体)的合格样品,并且将未受影响样品的染色体剂量被用于设置每条目标序列(例如染色体)的阈值。在一些实施方案中,训练集包括受影响的样品。训练集中的受影响样品可被用于验证可以容易地从未受影响的样品区分的受影响的样品。
训练集还是目标群体中的统计样品,统计样品不应与生物样品混淆。统计样品通常包含多个个体,个体的数据被用于确定可推广到群体的一个或多个目标定量值。统计样品是目标群体中的个体的子集。个体可以是人、动物、组织、细胞、其他生物样品(即统计样品可以包括多个生物样品),以及提供数据点以进行统计分析的其他单个实体。通常,将训练集与验证集联合使用。
术语“验证集”被用于指统计样品中的一组个体;使用个体的数据来验证或评估使用训练集确定的目标定量值。例如,在一些实施方案中,训练集提供数据以计算参照序列的掩模(m ask),而验证集提供数据以评估掩模的可信性或有效性。
术语“覆盖率”是指映射到所限定的序列的序列标签的丰度。可以通过序列标签密度(或序列标签的计数)、序列标签密度比率、标准化的覆盖率量、调整后的覆盖率值等定量表示覆盖率。
术语“下一代测序(NGS)”在本文中是指允许克隆扩增的分子和单个核酸分子的大规模平行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止剂的边合成边测序,以及边连接边测序。
本文中的术语“参数”是指表征系统性能的数值。通常,参数在数值上表征定量数据集和/或定量数据集之间的数值关系。例如,映射到染色体的序列标签的数量与标签所映射到的染色体的长度之间的比率(或比率的函数)是参数。
本文中的术语“阈值”和“合格阈值”是指用作临界值的任何数值,以表征诸如含有来自疑似患有医学病况的生物体的核酸的测试样品的样品。可以将阈值与参数值进行比较,以确定产生这样的参数值的样品是否表明该生物体患有医学病况。在某些实施方案中,使用合格的数据集来计算合格的阈值,并用作生物体中是否患癌的诊断极限值。如果从本文中所公开的方法获得的结果超过阈值,则可以将对象诊断为患癌。可以通过分析计算的样品的训练集的标准化的值(例如染色体剂量、NCV或NSV)来鉴定本文中方法的适当阈值。可以使用包括合格(即未受影响)的样品和受影响的样品的训练集中的合格(即未受影响)的样品来鉴定阈值。训练集中已知患癌的样品(即受影响的样品)可被用于确认所选阈值可用于区分测试集中的受影响的的样品和未受影响的样品(参见本文中的实施例)。阈值的选择取决于用户进行分类所希望具有的置信水平。在一些实施方案中,用于鉴定适当的阈值的训练集包括至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少2000个、至少3000个、至少4000个或更多个合格的样品。使用更大的合格样品集以提高阈值的诊断效用可能是有利的。
术语“读取”是指从核酸样品的一部分获得的序列。通常,尽管不是必须的,但读取代表样品中连续碱基对的短序列。读取可以通过样品部分的碱基对序列(以A、T、C或G)象征性地表示。可以将它存储在存储器装置中,并适当地进行处理以确定它是否与参照序列匹配或满足其他标准。可以直接从测序设备获得读取,或者可以从存储的关于样品的序列信息间接获得读取。在一些情况下,读取是具有足够长度(例如,至少约25bp)的DNA序列,其可被用于鉴定较大的序列或区域,例如可进行比对并特异性地分配给染色体或基因组区域或基因。
术语“序列标签”在本文中与术语“映射的序列标签”可互换使用,是指已经通过比对而被具体分配(即,映射到)较大的序列(例如参照基因组)的序列读取。映射的序列标签被独特地映射到参照基因组,即,它们被分配给参照基因组的单个位置。除非另有说明,否则映射到参照序列上相同序列的标签将被计数一次。标签可以作为数据结构或其他数据集合提供。在某些实施方案中,标签包含读取序列和与该读取相关的信息,如基因组中序列的位置,例如染色体上的位置。在某些实施方案中,该位置被指定为正链方向。可以限定标签以允许与参考基因组比对中有限数量的错配。在一些实施方案中,可以映射到参照基因组上的多于一个位置的标签(即非唯一映射的标签)可能不会包括在分析中。
术语“基因座”或“位点”是指参照基因组上的唯一位置(即染色体ID、染色体位置和方向)。在一些实施方案中,位点可以提供残基、序列标签或序列上片段的位置。
如本文中所用的,术语“比对的(aligned)”、“比对(alignment)”或“比对(aligning)”是指将读取或标签与参照序列进行比较,并由此确定参照序列是否包含读取序列的过程。如果参照序列含有读取,则该读取可以被映射到参照序列,或者在某些实施方案中,被映射到参照序列中的特定位置。在一些情况下,比对简单地告知读取是否是特定参照序列的成员(即,该读取在参照序列中存在与否)。例如,读取与人类13号染色体的参照序列的比对将告知该读取是否存在于13号染色体的参照序列中。提供该信息的工具可以被称为集合成员资格测试器。在一些情况下,比对另外指示在参照序列中读取或标签所映射到的位置。例如,如果参照序列是整个人类基因组序列,则比对可以指示在13号染色体上存在读取,并且可以进一步指示该读取在13号染色体的特定链和/或位点上。比对的读取或标签是根据它们的核酸分子的顺序被鉴定为与来自参照基因组中的已知序列匹配的一条或多条序列。可以手动进行比对,尽管通常是通过计算机算法来实施的,因为不可能在合理的时间段内比对读取以实施本文中所公开的方法。来自比对序列算法的一个实例是作为Illumina基因组分析管线(the Illumina Geno mics Analysispipeline)的一部分发布的核苷酸数据的有效局部比对(the Efficient Local Align mentof Nucleotide Data,ELAND)计算机程序。可选地,可以采用布隆过滤器或类似的集合成员资格测试器来将读取与参照基因组比对。参见2011年10月27日提交的第61/552,374号美国专利申请,其通过引用整体并入本文中。比对中的序列读取的匹配可以是100%的序列匹配或小于100%的序列匹配(非完美匹配)。
本文中所用的术语“映射”是指通过比对将序列读取特异性地分配给较大的序列(例如参照基因组)。
当在核酸或核酸混合物的上下文中使用时,术语“来源于”在本文中是指借以从它们所起源的来源获得核酸的方式。例如,在一个实施方案中,来源于两个不同基因组的核酸混合物意指细胞通过天然存在的过程(如坏死或细胞凋亡)而天然释放核酸(例如cfDNA)。在另一个实施方案中,来源于两个不同的基因组的核酸混合物意指从来自对象的两种不同类型的细胞中提取核酸。
当在获得特定定量值的上下文中使用时,术语“基于”在本文中是指使用另一量作为输入以计算特定定量值作为输出。
本文中的术语“生物流体”是指获自生物来源的液体,包括例如血液、血清、血浆、痰、灌洗液、脑脊髓液、尿液、精液、汗液、眼泪、唾液等。如本文中所用的,术语“血液”、“血浆”和“血清”明确涵盖其级分或处理的部分。类似地,当样品获自活检、拭子、涂片等时,“样品”明确涵盖来源于活检、拭子、涂片等的处理的级分或部分。
如本文中所用的,术语“染色体”是指活细胞的带有遗传性的基因载体,其来源于包含DNA和蛋白质成分(特别是组蛋白)的染色质链。本文中采用了常规的国际上公认的单个人类基因组染色体编号系统。
如本文中所用的,术语“灵敏度”是指当存在目标病况时,测试结果将为阳性的概率。可将它计算为真阳性数除以真阳性和假阴性之和。
如本文中所用的,术语“特异性”是指当目标病况不存在时,测试结果将为阴性的概率。可将其计算为真阴性数除以真阴性和假阳性之和。
血液中存在的肿瘤特异性基因变异可以作为一种标志物来进行诊断、治疗和预后监测。因此,血液检测是早期癌症诊断的一个重要方法,可以通过检测血液肿瘤标志物指标的变化来判别是否有癌症风险。
根据第一方面,在一些实施例中,提供一种用于癌症风险预测的方法,包括:
基因特征提取步骤,包括从待测样本的cfDNA测序数据中提取体细胞变异信息,对各个基因和/或基因组合中的变异进行打分,累计汇总各个基因和/或基因组中的变异打分,得到变异基因特征;
风险预测步骤,包括将变异基因特征输入模型,判断是否患癌,和/或,获得患癌风险指数。
在一些实施例中,基因特征提取步骤中,待测样本的cfDNA测序数据为过滤后的测序数据。
在一些实施例中,待测样本的cfDNA测序数据通常可以为血浆cfDNA测序数据。
在一些实施例中,基因特征提取步骤中,对体细胞变异信息中的癌症热点基因和/或热点基因组合的变异进行打分,获得变异打分varScore,再根据变异等位基因频率信息(VAF)、变异为背景噪音变异的概率Pbg、超参数α(亦称权重参数或权重系数),对变异打分varSco re进行矫正,得到矫正后的变异打分varScoreadj,然后根据变异打分varScoreadj,对热点基因和/或热点基因组合进行变异打分累加,得到热点基因和/或热点基因组合的基因打分geneSco re,然后将基因打分geneScore输入模型,预测得到待测样本所属个体患癌风险指数。
在一些实施例中,背景噪音包括实验文库构建中的错误(主要是杂交捕获和文库富集中的错误)以及测序仪本身的测序错误。
在一些实施例中,对变异打分varScore进行矫正时,所使用的参数还可以包括如下参数中的至少一种:cfDNA测序数据中该变异为克隆性造血变异的概率Ppon、cfDNA测序数据中支持该变异的高质量读段的比例HQRatio。
在一些实施例中,概率Pbg是根据由健康人cfDNA测序数据构建的背景基线数据库计算得到。健康人cfDNA测序数据通常来源于健康人的血浆。
在一些实施例中,概率Ppon是根据由相应的正常对照样本基因组DNA测序数据的克隆性造血变异数据库计算得到。“相应的正常对照样本”通常可以是与含有cfDNA的血浆样本来源于同一个体的白细胞样本。例如,从受试者的外周血样本中分离血浆、血细胞,从血浆样本中可以提取cfDNA,从血细胞样本中可以提取白细胞基因组DNA,白细胞基因组DNA的测序数据即为相应的正常对照样本的基因组DNA测序数据。
在一些实施例中,获得变异打分varScore的方法包括:根据待测样本、相应的正常对照样本中,癌症的热点基因和/或热点基因组合的变异信息,进行检验,得到变异打分varScore。
在一些实施例中,检验包括但不限于费舍尔精确检验(亦称Fisher精确检验)、卡方检验中的至少一种,通常为费舍尔精确检验。
在一些实施例中,费舍尔精确检验为单侧费舍尔精确检验。即cfDNA测序数据中的变异信号(case)显著高于相应的正常对照样本测序数据中的变异信号(contrl),即血浆信号显著高于白细胞,被认定为体细胞变异。
在一些实施例中,检验公式如下:
varScore=1-Fisher(caseDep,caseAltDep,ctrlDep,ctrlAltDep);
caseDep表示待测样本中变异的深度,caseAltDep表示待测样本中支持该变异的读段(reads)的深度,ctrlDep表示相应的正常对照样本中该变异的深度,ctrlAltDep表示相应的正常对照样本中支持该变异的读段(reads)的深度。
在一些实施例中,矫正公式选自如下公式中的至少一种:
1)varScoreadj=(1-Pbg)*(α*varScore+(1-α)*VAF);
2)varScoreadj=(1-Pbg)*(1-Ppon)*(α*varScore+(1-α)*VAF);
3)varScoreadj=(1-Pbg)*(1-Ppon)*(α*varScore+(1-α)*VAF)*HQRatio;
其中,Pbg表示变异为背景噪音的概率;α表示varScore的超参数(该值在[0,1]范围内),用于平衡varScore和VAF权重,亦可称权重参数或权重系数;Ppon表示变异为克隆性造血变异的概率,克隆性造血变异是指造血干细胞亚克隆所携带的变异;HQRatio表示待测样本的cfDNA测序数据中支持该变异的高质量读段的比例,以此作为惩罚系数,对最终的变异打分矫正。
提取得到的受试者(通常可以为人)的白细胞基因组DNA,其中大多数是未发生变异的序列,因克隆性造血,有些白细胞自身基因组DNA会发生变异,发生变异的DNA(即带有突变的DNA)序列只占到所有白细胞基因组DNA序列的很少一部分,造血干细胞亚克隆所携带的突变丰度较低(90%的克隆性造血丰度<1%),与来源于生殖细胞的胚系突变具有显著差异,但会显著影响ctDNA的检测结果,通过测序,可获得受试者白细胞基因组DNA突变频率和相应的突变条带数目(参见公开号为CN111968702A,公开日为2020.11.20的中国专利《一种基于循环肿瘤DNA的恶性肿瘤早期筛查系统》说明书第55段)。鉴于克隆性造血变异对变异检测的影响,在一实施例中,本发明采用了白细胞信息和PoN数据库。
在一些实施例中,累加公式如下:
其中,n为基因或基因组合个数。
在一些实施例中,风险预测步骤中,根据ROC曲线选取的特异性和敏感性阈值,最终输出待测样本所属个体是否患有癌症和/或患癌风险指数CRI(Cancer Risk Index)。
在一些实施例中,模型的构建方法如下:
用于构建模型的cfDNA样本基因特征提取步骤,包括按照待测样本的基因特征提取步骤的方法,获取用于构建模型的各个cfDNA样本的基因特征;
超参数α获取步骤,包括将cfDNA样本集合拆分为训练集、验证集、测试集,训练集和验证集,将训练累计变异打分的基因和/或基因组打分,得到超参数α,该超参数α通常为使得验证集最优的超参数;
训练步骤,包括根据超参数α、训练集,使用机器学习模型训练得到癌症风险预测模型;
性能参数获取步骤,包括将测试集中的数据输入癌症风险预测模型中,得到该模型的特异性和敏感性阈值。
在一些实施例中,患癌风险指数的计算公式如下:
lg[P/(1-P)]=b0+b1*geneScoreTP53+b2*geneScoreCTNNB1+...+bn*geneScoreOthers
上述公式中,P为患癌的概率,即患癌风险指数CRI,b0是指截距,b1、b2...bn表示不同基因打分的系数,geneScorei为对不同基因或基因组合中变异打分累计汇总得到的基因打分。
在一些实施例中,基因特征提取步骤中,先对测序数据进行读段清洗过滤,对清洗过滤后的读段进行序列比对、变异检测、变异注释及变异过滤,得到体细胞变异。
在一些实施例中,体细胞变异是指除性细胞外的体细胞发生的变异。
在一些实施例中,测序读段清洗过滤前,先除去测序数据中的UID(uniqueidentifier)信息。
在一些实施例中,测序读段清洗过滤(reads)包括如下读段中的至少一种:
1)低质量读段;
2)读段中包含N碱基占比较高的读段,N碱基是指未知碱基;
3)比对不上人类参考基因组的读段;
4)过滤UID测序错误而又不能纠错的读段。
在一些实施例中,测序读段清洗过滤去除上述全部四种读段。
在一些实施例中,N碱基占比较高的读段是指N碱基占比≥0.1(即10%)的读段。
在一些实施例中,变异过滤包括过滤去除不可信变异。
在一些实施例中,变异过滤包括使用变异信息、注释信息、公共数据库、背景过滤数据库对原始变异检测结果进行变异过滤,去除体细胞变异之外的变异信息。
在一些实施例中,变异过滤去除的变异包括如下变异中的至少一种:
1)人群多态变异(即过滤ESP、GAD、EXAC、1000Genomes和GenomesAD数据库中人群频率>1%的变异);
2)胚系变异;
3)非功能变异(包括utr-3,utr-5,no-change,coding-synon,intron等);
4)测序背景噪音变异;
5)克隆性造血变异。
在一些实施例中,变异过滤去除上述全部五种变异。
在一些实施例中,变异过滤去除的变异包括单核苷酸变异(SNV)、插入缺失(InDel)、单核苷酸多态性变异(SNP)中的至少一种。
在一些实施例中,公共数据库包括不限于ESP、GAD、EXAC、1000Genomes、GenomesAD数据库中的至少一种。
在一些实施例中,背景过滤数据库包括如下数据库中的至少一种:由相应的正常对照样本基因组DNA测序数据构建的背景基线数据库(PoN数据库)、由健康人样本的cfDNA测序数据构建的背景基线数据库。相应的正常对照样本基因组DNA是指与cfDNA测序数据来源于同一个体的基因组DNA,在一些实施例中,通常可以是白细胞样本的基因组DNA。
在一些实施例中,健康人样本通常可以是健康人血浆样本。
在一些实施例中,癌症包括但不限于肺癌、乳腺癌、肝癌、结直肠癌、胃癌、食管癌、卵巢癌、胰腺癌、鼻咽癌中的至少一种。
在一些实施例中,待测样本包括但不限于体液样本。
在一些实施例中,待测样本包括但不限于外周血、胸水、腹水、脑脊液、肺泡灌洗液、囊液、羊水、唾液中的至少一种。
在一些实施例中,正常对照样本是指与待测样本来源于同一个个体的样本。
在一些实施例中,正常对照样本包括但不限于白细胞样本、口腔拭子样本、癌旁组织样本中的的至少一种。
在一些实施例中,模型包括机器学习模型。
在一些实施例中,机器学习模型的算法但不限于K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机、神经网络、AdaBoost中的至少一种。
在一些实施例中,模型的构建方法如下:将训练集中的癌症样本和对应高危人群样本的cfDNA测序数据预处理及特征处理,遍历超参数α,得到不同基因打分特征,寻找使得验证集数据性能最优的超参数α,以此统计下游模型所用的基因和/或基因组合特征,即基因打分geneScore。
在一些实施例中,体细胞变异信息包括但不限于单核苷酸变异(SNV)、插入缺失变异(I nDel)、拷贝数变异(CNV)、染色体结构变异(SV)中的至少一种。
在一些实施例中,体细胞变异信息包括单核苷酸变异(SNV)、插入缺失变异(InDel)中的至少一种。
根据第二方面,在一些实施例中,提供一种用于癌症风险预测的装置,包括:
基因特征提取模块,用于从待测样本的cfDNA测序数据中提取体细胞变异,对各个基因和/或基因组合中的变异进行打分,累计汇总各个基因和/或基因组中的变异打分,得到变异基因特征;
风险预测模块,用于将变异基因特征输入模型,判断是否患癌和/或预测患癌风险指数。
根据第三方面,在一些实施例中,提供一种设备,包括:
存储器,用于存储程序;
处理器,用于通过执行存储器存储的程序以实现第一方面任意一项的方法。
根据第四方面,在一些实施例中,提供一种计算机可读存储介质,其上存储有程序,程序能够被处理器执行以实现如第一方面任意一项的方法。
需要说明的是,本发明所针对的测序数据是离体样本的测序数据,因此,不是以有生命的人体或动物体为对象;并且,预测得到的是否患癌和/或患癌风险指数结果只是中间结果,供后续的疾病诊断参考,属于中间参考信息,不是最终的诊断结果,在实际应用中,在利用本发明的方法预测得到是否患癌和/或患癌风险指数之后,还需要结合受试者当前的主观感受症状、既往病史、家族遗传史等信息,才能得出最后的诊断结果或健康状况。因此,本发明的技术方案不属于疾病的诊断方法,更不属于疾病的治疗方法。并且,本发明还可用于科研中相关疾病候选新药的筛选等其他非诊断、非治疗目的。
在一些实施例中,本发明提供一种用于(尤其是早期)癌症可能性或风险预测的方法及装置。
在一些实施例中,为了更好且有效地对高危人群的癌症准确识别,本发明提供了一种通过血液样本的癌症风险预测的方法,其能高特异性、高灵敏度的区分癌症,避免当前临床检测手段的漏检、误检,为癌症的筛查(尤其是早期筛查)提供重要的研究方向和临床指导。模型构建方法包括获得两组癌症和该癌症对应的高危人群cfDNA的测序数据;比较两组ctDNA变异数据并筛选统计基因变异特征;通过筛选的特征,利用机器学习方法构建癌症风险预测模型。
在一些实施例中,具体步骤如下:
S1:对高危人群外周血cfDNA文库构建;
S2:采用经济高效的可用于泛癌种辅助的基因捕获探针对cfDNA高深度杂交捕获;
S3:使用测序仪测序,对测序数据进行质控和生物信息分析;
S4:对信息分析每个基因(组合基因)的基因突变,并对其累计汇总基因特征;
S5:对S4中提取的特征进行处理,使用机器学习模型识别是否患癌及患癌风险指数。
在一些实施例中,S1中,对外周血cfDNA文库构建,步骤如下:
S11.对于外周血需要及时进行血浆/血细胞分离(EDTA抗凝管,4h内;Streck管72h内),血浆按照QIAamp Circulating Nucleic Acid Kit(Qiagen)提取试剂说明书,进行血浆cfDN A的提取。血细胞样本按照QIAamp DNA Mini Kit提取试剂说明书,进行gDNA的提取,作为下游control对照分析。然后采用Qubit定量质控,要求血浆cfDNA大于15ng;血细胞gDNA大于100ng;
S12.对提取的cfDNA进行末端修复及加A、接头连接、样品磁珠纯化、PCR扩增富集;
S13.最后对上述PCR扩增富集的样本进行PCR产物磁珠纯化,即获得该样本的cfDNA文库。
在一些实施例中,S2中,杂交捕获按照探针制造商提供的说明书进行杂交捕获及洗脱。
在一些实施例中,S3中,采用Gene+seq或同原理的测序仪上机测序,上机数据量要求:血浆样本要求10G,配对的对照样本要求2G;下机数据质控可采用血浆ctDNA低频突变富集测序技术——ER-seq(Enrichment&Rarallele Sequence)(中国专利公开号CN105063208A,公开日2015年11月18日)的信息分析流程(RealSeq Pipeline),去除UID(unique identi fier,即唯一标识符)后,使用NCfilter软件进行reads读段过滤;使用realDcaller变异检出;使用NCanno软件对原始检出变异进行注释,得到变异信息、注释信息,然后使用变异信息、注释信息、公共数据库、自建背景基线数据库对突变信息进行变异过滤。
在一些实施例中,S4中,基于S3过滤后的变异的基础上,根据对应癌症的热点基因(基因组合)的变异varScore(对于变异的case和control信息,进行单侧fisher精确检验),再对varScore基于VAF和背景基线数据库P值(PoN数据库P值)矫正,以此得到真正的矫正后的varScoreadj,并以varScoreadj对基因(基因组合)进行累加从而得到基因(基因组合)的变异信息geneScore,具体公式如下:
varScore=1-Fisher(caseDep,caseAltDep,ctrlDep,ctrlAltDep)
varScoreadj=(1-Pbg)*(α*varScore+(1-α)*VAF)或
varScoreadj=(1-Pbg)*(1-Ppon)*(α*varScore+(1-α)*VAF)或
varScoreadj=(1-Pbg)*(1-Ppon)*(α*varScore+(1-α)*VAF)*HQRatio;
在一些实施例中,S4中,将训练集中的癌症样本和对应高危人群样本的外周血样本、相应的对照样本的测序数据预处理及特征处理,遍历α,得到不同基因打分特征,寻找使得验证集数据(包括癌症样本和对应高危人群样本)性能最优的α,以此统计下游模型所用的基因和/或基因组合特征,即基因打分geneScore。
在一些实施例中,S5中,使用机器学习方法(逻辑回归)对于S4中计算的每个基因(基因组合)的累加打分geneScore,特征处理,训练优化模型,最终根据ROC曲线选取最优的特异性和敏感性阈值,最终输出样本是否为癌症及患癌风险指数CRI(Cancer RiskIndex)。
在一些实施例中,本发明提供了一种用于癌症风险预测模型的方法。模型构建方法包括:获得可用于癌症风险预测的数据集(即癌症和该癌症对应的高危人群的测序及信息分析数据);将样本信息分析后的变异数据预处理、统计基因变异特征;将样本集按照8:1:1分为训练集、验证集、测试集;通过训练集和验证集训练超参数α;根据筛选的基因特征,利用机器学习方法(逻辑回归)构建癌症风险预测模型,能够高特异性、高灵敏度地识别早期癌症,该发明为癌症的(尤其是早期)筛查提供重要的研究方向和临床指导。
在一些实施例中,肝癌早期癌症是指巴塞罗那肝癌临床分期系统(BCLC)中0-A期的癌症。
实施例1
如图1所示为本实施例的流程图,包括左侧的模型训练及右侧模型预测部分。
模型训练部分:
1.将本次用于癌症风险预测模型构建的样本进行预处理(包括cfDNA高深度配对检测分析,变异筛选过滤)、特征处理提取基因特征(变异打分及累计汇总);
2.将样本集合按照8:1:1拆分为训练集、验证集、测试集;
3.利用训练集和验证集,将训练累计变异打分的基因和/或基因组打分,得到使得验证集最优的超参数α;
4.根据步骤3得到的超参数α、训练集,使用机器学习模型训练癌症风险预测模型;
5.将步骤4中得到的癌症风险预测模型应用到独立的测试集中,得到该模型的性能参数。
模型预测部分
1.将待测样本cfDNA测序数据进行预处理(包括cfDNA高深度配对检测分析,变异筛选过滤)、特征处理(变异打分及累计汇总);
2.将该样本特征处理后特征输入到癌症风险预测模型,使用模型判断是否患癌和/或预测患癌风险指数。
本实施例提供肝癌的模型训练即预测方法,具体如下:
肝癌是一类高发性恶性肿瘤,患有肝癌的病人通常死亡率较高。高发病率和死亡率的关键原因在于缺乏有效的早期筛查标志物。传统诊断方法中,血清甲胎蛋白(Alpha-fetoprotein,AFP)和肝脏超声检查是早期筛查肝癌的主要手段,但是相关研究表明,约80%的小肝癌患者(早期肝癌患者)的AFP水平没有显著升高,说明AFP作为筛查标志物具有一定的局限性,不适于早期肝癌的检测;而对于早期肝癌的超声检查,其灵敏度仅有47%;通过超声联合A FP蛋白标志物检出的灵敏度为63%。因此,肝癌尤其是小肝癌亟需一种高特异性高敏感性的检测方法,我们将该模型方法应用到肝硬化患者并准确识别肝癌患者。
招募BCLC分期为0-A期的肝癌患者(164例)和肝癌高危肝硬化患者(160例),前述164例肝癌患者均为未经手术以及未经新辅助治疗(新辅助治疗是指手术前的抗肿瘤治疗,包括辅助放疗、辅助化疗、辅助靶向治疗等)的患者;取临床高深度测序(有效深度大于1000×)的白细胞gDNA(genomic DNA,基因组DNA),构建PoN数据库;同时招募到104例没有癌症病史的健康人作为对照背景人群,用于构建健康基线数据库。从各个受试者采集20mL外周血样本(即测试样品),按照如下主要步骤实施:
S1:对高危患者外周血cfDNA文库构建;
S11.对外周血及时进行血浆/血细胞分离(EDTA抗凝管,4h内;Streck管72h内),血浆按照QIAamp Circulating Nucleic Acid Kit(Qiagen)提取试剂说明书,进行血浆cfDNA的提取。血细胞样本按照QIAamp DNA Mini Kit(Qiagen)提取试剂说明书,进行gDNA(genomic DNA,即基因组DNA)的提取,作为下游control对照分析,血细胞样本中主要包含白细胞、血小板和红细胞,由于血小板、红细胞均无细胞核,因此,提取的基因组DNA实际主要为白细胞基因组DNA,因此,下文中也称白细胞基因组DNA或白细胞gDNA。然后采用Qubit定量质控,要求血浆cfDNA大于15ng;血细胞gDNA大于100ng。
S12.对提取的cfDNA进行末端修复及加A、接头连接、样品磁珠纯化、PCR扩增富集。
S13.最后对上述PCR扩增富集的样本进行PCR产物磁珠纯化,即获得该样本的cfDNA文库。
S2:采用经济高效的可用于泛癌种辅助的北京吉因加科技有限公司的OncoET产品(肿瘤早期筛查产品,参见网址:http://www.geneplus.org.cn/geneplus/trans/toCoreTechnology?page=health_OncoET)。捕获区域具体参见公开号为CN112951325A的中国专利《一种用于癌症检测的探针组合的设计方法及其应用》说明书第66~82段,公开日为2021年06月11日。基因捕获探针对cfDNA进行高深度杂交捕获及洗脱。
S3:使用北京吉因加科技有限公司的Gene+Seq-2000基因测序仪测序,对测序数据进行质控和生物信息分析。
具体地,采用Gene+Seq-2000基因测序仪(或同原理的测序仪)上机测序,上机数据量要求:血浆样本要求15G,配对的对照样本要求4G;下机数据比对到hs37d5版人类参考基因组,然后进行质控,质控采用血浆ctDNA低频突变富集测序技术,即ER-seq(Enrichment&Rarallele Sequence),具体参见中国专利《一种血浆中游离的目标DNA低频突变富集测序方法》(公开号CN105063208A,公开日2015年11月18日)的信息分析流程(RealSeq Pipeline,具体参见该专利说明书第115段至125段),去除UID(unique identifier)标签后,使用NCfilter进行reads过滤;使用realDcaller变异检测;使用NCanno对原始变异检出突变进行注释,然后使用变异信息、注释信息、公共数据库、自建背景基线数据库对变异信息进行变异过滤。本实施例使用的公共数据库为ExAC、1000Genomes和GenomesAD,自建背景数据库包括使用正常对照样本构建的PoN数据库(panel of normal)以及使用健康人血浆样本构建的健康人基线数据库。完成测序背景噪音、克隆造血、胚系等变异过滤。
变异过滤规则为过滤去除如下变异:
1)过滤胚系变异:过滤ctrlAF(ctrlAltDep/ctrlDep)>=10%的变异;
2)过滤人群多态变异:过滤ExAC、1000Genomes和GenomesAD数据库中人群比例>=1%的变异;
3)过滤非功能变异:过滤功能为utr-3,utr-5,no-change,coding-synon,intron,promoter(TER T除外);
4)过滤克隆性造血变异:过滤varScore<0.4的变异;
5)过滤背景噪音变异:过滤Pbg>0.5的变异。
S4:根根过滤后的变异信息,分析每个基因(或组合基因)的基因变异,并对其累计汇总基因特征。
具体地,在S3过滤后的变异的基础上,根据对应癌症的热点基因(或基因组合)的变异打分,记为varScore,对于血浆样本的变异信息(即case信息)和相应的白细胞对照样本的变异信息(control信息),进行单侧费舍尔(Fisher)精确检验,公式如下:
varScore=1-Fisher(caseDep,caseAltDep,ctrlDep,ctrlAltDep)。
其中,caseDep表示血浆中该变异位点的深度,caseAltDep表示血浆中该变异位点支持该变异的读段(reads)的深度,ctrlDep表示对照白细胞中该变异位点的深度,ctrlAltDep表示对照白细胞中该变异位点支持该变异的reads的深度。相应的白细胞对照样本、对照白细胞均是指与血浆来源相同的白细胞,也即是说,此处的白细胞是指与血浆来源于同一受试者的白细胞。
再基于VAF、HQRatio和背景基线数据库P值(PoN数据库P值),对varScore进行矫正,以此得到真正的矫正后的varScoreadj,公式如下:
varScoreadj=(1-Pbg)*(1-Ppon)*(α*varScore+(1-α)*VAF)*HQRatio。
其中,Pbg表示该变异为背景噪音的概率,Ppon表示该变异为克隆性造血变异的概率,α表示varScore的超参数(该值在[0,1]范围内),用于平衡varScore和VAF权重,本实施例中α=0.0035,HQRatio表示待测血浆样本中该变异位点支持该变异的高质量读段的比例,以此作为惩罚系数,对最终的变异打分矫正。
支持该变异的高质量读段同时满足:(1)单条读段的N碱基数≤5;(2)双端测序配对序列(p aired read,亦称双读段)中的总N碱基数≤8,单条序列的错配(mismatch)碱基数≤5,双端测序配对序列(paired read)中的总错配碱基数<8,插入片段长度≤500bp,不含INDEL。
并以varScoreadj对基因(或基因组合)进行累加,从而得到基因(或基因组合)的打分geneScore,具体见如下公式:
其中,n为基因(或基因组合)个数。
S5:对S4中提取的特征进行处理,使用机器学习模型识别是否患癌及患癌风险指数。
具体地,使用机器学习方法(本实施例为逻辑回归)对S4中计算的每个基因(或基因组合)的geneScore特征进行处理,训练优化模型,得到图2所示的ROC曲线图,图2中,横坐标表示假正率(False Positive Rate),纵坐标表示真正率(True Positive Rate)。图2中,α=0.0035,α即为varScore中的超参数。
最终根据ROC曲线选取最优的特异性和敏感性阈值,本次模型阈值选取为P=0.42,对应的敏感性为71.5%,特异性为91.5%。
肝癌热点基因(根据文献及吉因加临床数据选取)如表1所示。
表1
基因 特征 系数
TP53 geneScoreTP53 8.51
CTNNB1 geneScoreCTNNB1 2.10
SMARCA4 geneScoreSMARCA4 2.03
ARID1A geneScoreARID1A 1.71
CDKN2A geneScoreCDKN2A 1.64
TERT promoter geneScoreTERTpromoter 1.54
PIK3CA geneScorePIK3CA 1.43
RB1 geneScoreRB1 0.97
AXIN1 geneScoreAXIN1 0.55
NFE2L2 geneScoreNFE2L2 0.35
Intercept,即b0 -0.68
表1中的系数为模型训练产出的结果。
肝癌热点基因所参考的文献如下:《The landscape of gene mutations incirrhosis and h epatocellular carcinoma》,作者:Miryam Müller,Thomas G.Bird,Jean-Charles Nault,第一作者单位:Cancer Research UK Beatson Institute,GarscubeEstate,Switchback Road,Glasgo w,G611BD,UK,公开时间:available online 8February2020,出版刊物:Journal of Hep atology 2020vol.72j 990–1002。表1中的部分基因具体参见《The landscape of gene mut ations in cirrhosis and hepatocellularcarcinoma》的表1。
根据两组样本集(即训练集和验证集)对步骤S4的超参数(即varScore的权重系数α,亦称权重参数)遍历选取并统计各个基因的geneScore,具体见表1的特征列。
对于每个基因(或基因组合)的geneScore,根据两组数据特征,选择卡方检验显著的特征,用于步骤S5中机器学习(逻辑回归)的训练和模型构建。逻辑回归公式如下:
lg[P/(1-P)]=b0+b1*geneScoreTP53+b2*geneScoreCTNNB1+...+bn*geneScoreOthers
上述公式中,P为患癌的概率,即患癌风险指数CRI(Cancer Risk Index),b0是指截距(模型构建后得出),b1、b2...bn表示不同基因打分的系数,即表1中的系数列,geneScorei为对不同基因或基因组合中变异打分累计汇总的基因打分。
根据验证集的性能获得权重系数α,下一步根据训练集训练产出CRI模型确认逻辑回归公式系数。
实际样本的检测方法具体如下:
1)将上述表1中基因打分输入到下列的公式,计算P值,具体公式如下:
lg[P/(1-P)]=-0.68+8.51*geneScoreTP53+2.10*geneScoreCTNNB1+...+0.35*geneScoreNFE2L2
2)比较P值是否大于0.42,得出待测样本是否患癌。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (30)

1.一种用于癌症风险预测的方法,其特征在于,包括:
基因特征提取步骤,包括从待测样本的cfDNA测序数据中提取体细胞变异,对各个基因和/或基因组合中的变异进行打分,累计汇总各个基因和/或基因组中的变异打分,得到变异基因特征;
风险预测步骤,包括将所述变异基因特征输入模型,判断是否患癌,和/或,获得患癌风险指数;
基因特征提取步骤中,对体细胞变异信息中的癌症热点基因和/或热点基因组合的变异进行打分,获得变异打分varScore,再根据待测样本的cfDNA测序数据中的变异等位基因频率信息、该变异为背景噪音的概率Pbg、超参数α,对变异打分varScore进行矫正,得到矫正后的变异打分varScoreadj,然后根据变异打分varScoreadj,对热点基因和/或热点基因组合进行变异打分累加,得到热点基因和/或热点基因组合的基因打分geneScore,然后将基因打分geneS core输入模型,预测得到待测样本所属个体患癌风险指数。
2.如权利要求1所述的方法,其特征在于,对变异打分varScore进行矫正时,所使用的参数还可以包括如下参数中的至少一种:待测样本的cfDNA测序数据中该变异为克隆性造血变异的概率Ppon、待测样本的cfDNA测序数据中支持该变异的高质量读段的比例HQRatio。
3.如权利要求2所述的方法,其特征在于,所述概率Ppon是根据相应的正常对照样本测序数据构建的克隆性造血变异数据库计算得到。
4.如权利要求1所述的方法,其特征在于,所述概率Pbg是根据由健康人cfDNA测序数据构建的健康基线数据库计算得到。
5.如权利要求1所述的方法,其特征在于,获得所述变异打分varScore的方法包括:根据待测样本、相应的正常对照样本中,癌症的热点基因和/或热点基因组合的变异信息,进行检验,得到变异打分varScore。
6.如权利要求5所述的方法,其特征在于,所述检验为费舍尔精确检验、卡方检验中的至少一种。
7.如权利要求6所述的方法,其特征在于,所述费舍尔精确检验为单侧费舍尔精确检验。
8.如权利要求7所述的方法,其特征在于,检验公式如下:
varScore=1-Fisher(caseDep,caseAltDep,ctrlDep,ctrlAltDep);
caseDep表示待测样本的cfDNA测序数据中变异的深度,caseAltDep表示待测样本的cfDNA测序数据中支持该变异的读段的深度,ctrlDep表示相应的正常对照样本基因组DNA测序数据中该变异的深度,ctrlAltDep表示相应的正常对照样本基因组DNA测序数据中支持该变异的读段的深度。
9.如权利要求1所述的方法,其特征在于,对变异打分varScore进行矫正时,矫正公式选自如下公式中的至少一种:
1)varScoreadj=(1-Pbg)*(α*varScore+(1-α)*VAF);
2)varScoreadj=(1-Pbg)*(1-Ppon)*(α*varScore+(1-α)*VAF);
3)varScoreadj=(1-Pbg)*(1-Ppon)*(α*varScore+(1-α)*VAF)*HQRatio;
其中,Pbg表示所述变异为背景噪音变异的概率;α表示varScore的超参数;Ppon表示所述变异为克隆性造血变异的概率,克隆性造血变异是指造血干细胞亚克隆所携带的变异,HQRatio表示待测样本的cfDNA测序数据中支持所述变异的高质量读段的比例。
10.如权利要求1所述的方法,其特征在于,对热点基因和/或热点基因组合进行变异打分累加时,累加公式如下:
其中,n为基因或基因组合个数。
11.如权利要求1所述的方法,其特征在于,风险预测步骤中,根据ROC曲线选取特异性和敏感性阈值,最终输出待测样本所属个体是否患有癌症和/或患癌风险指数。
12.如权利要求1所述的方法,其特征在于,所述模型的构建方法包括:
用于构建模型的cfDNA样本基因特征提取步骤,包括按照待测样本的基因特征提取步骤的方法,获取用于构建模型的各个cfDNA样本的基因特征;
超参数α获取步骤,包括将cfDNA样本集合拆分为训练集、验证集、测试集,对于训练集和验证集,将训练累计变异打分的基因和/或基因组打分,得到超参数α;
训练步骤,包括根据所述超参数α、训练集,使用机器学习模型训练得到癌症风险预测模型;
性能参数获取步骤,包括将测试集中的数据输入所述癌症风险预测模型中,得到该模型的特异性和敏感性阈值。
13.如权利要求1所述的方法,其特征在于,患癌风险指数的计算公式如下:
lg[P/(1-P)]=b0+b1*geneScoreTP53+b2*geneScoreCTNNB1+...+bn*geneScoreOthers
上述公式中,P为患癌的概率,即患癌风险指数CRI,b0是指截距,b1、b2...bn表示不同基因打分的系数,geneScorei为对不同基因或基因组合中变异打分累计汇总得到的基因打分。
14.如权利要求1所述的方法,其特征在于,基因特征提取步骤中,先对测序数据进行测序读段清洗过滤,对清洗过滤后的读段进行序列比对、变异检测、变异注释及变异过滤,得到体细胞变异。
15.如权利要求14所述的方法,其特征在于,测序读段清洗过滤去除的序列包括如下读段中的至少一种:
1)低质量读段;
2)读段中包含N碱基占比较高的读段,N是指未知碱基;
3)比对不上人类参考基因组的读段;
4)过滤UID测序错误而又不能纠错的读段。
16.如权利要求15所述的方法,其特征在于,所述N碱基占比较高的读段是指N碱基占比≥10%的读段。
17.如权利要求14所述的方法,其特征在于,所述变异过滤包括过滤去除不可信变异。
18.如权利要求17所述的方法,其特征在于,所述变异过滤包括使用变异信息、注释信息、公共数据库、背景过滤数据库对原始变异检测结果进行变异过滤,去除体细胞变异之外的变异信息。
19.如权利要求18所述的方法,其特征在于,变异过滤去除的变异包括如下变异中的至少一种:
1)人群多态变异;
2)胚系变异;
3)非功能变异;
4)测序背景噪音;
5)克隆性造血变异。
20.如权利要求18所述的方法,其特征在于,所述公共数据库包括ESP、GAD、EXAC、1000Genomes、GenomesAD数据库中的至少一种。
21.如权利要求18所述的方法,其特征在于,所述背景过滤数据库包括如下数据库中的至少一种:由正常对照样本基因组DNA测序数据构建的背景基线数据库、由健康人样本的cfDNA测序数据构建的背景基线数据库。
22.如权利要求1~21任意一项所述的方法,其特征在于,所述癌症包括肺癌、乳腺癌、肝癌、结直肠癌、胃癌、食管癌、卵巢癌、胰腺癌、鼻咽癌中的至少一种。
23.如权利要求1~21任意一项所述的方法,其特征在于,所述待测样本包括体液样本。
24.如权利要求23所述的方法,其特征在于,所述待测样本选自外周血、胸水、腹水、脑脊液、肺泡灌洗液、囊液、羊水、唾液中的至少一种。
25.如权利要求3所述的方法,其特征在于,所述正常对照样本是指与待测样本来源于同一个个体的样本。
26.如权利要求25所述的方法,其特征在于,所述正常对照样本选自白细胞样本、口腔拭子样本、癌旁组织样本中的至少一种。
27.如权利要求1~21任意一项所述的方法,其特征在于,所述模型包括机器学习模型。
28.一种用于癌症风险预测的装置,其特征在于,包括:
基因特征提取模块,用于从待测样本的cfDNA测序数据中提取体细胞变异,对各个基因和/或基因组合中的变异进行打分,累计汇总各个基因和/或基因组中的变异打分,得到变异基因特征;
风险预测模块,用于将所述变异基因特征输入模型,判断是否患癌,和/或,获得患癌风险指数;
基因特征提取模块中,对体细胞变异信息中的癌症热点基因和/或热点基因组合的变异进行打分,获得变异打分varScore,再根据待测样本的cfDNA测序数据中的变异等位基因频率信息、该变异为背景噪音的概率Pbg、超参数α,对变异打分varScore进行矫正,得到矫正后的变异打分varScoreadj,然后根据变异打分varScoreadj,对热点基因和/或热点基因组合进行变异打分累加,得到热点基因和/或热点基因组合的基因打分geneScore,然后将基因打分geneS core输入模型,预测得到待测样本所属个体患癌风险指数。
29.一种设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1~27任意一项所述的方法。
30.一种计算机可读存储介质,其特征在于,其上存储有程序,所述程序能够被处理器执行以实现如权利要求1~27任意一项所述的方法。
CN202310199324.1A 2023-03-03 2023-03-03 一种用于癌症风险预测的方法及装置 Active CN116403644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310199324.1A CN116403644B (zh) 2023-03-03 2023-03-03 一种用于癌症风险预测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310199324.1A CN116403644B (zh) 2023-03-03 2023-03-03 一种用于癌症风险预测的方法及装置

Publications (2)

Publication Number Publication Date
CN116403644A CN116403644A (zh) 2023-07-07
CN116403644B true CN116403644B (zh) 2023-12-05

Family

ID=87013186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310199324.1A Active CN116403644B (zh) 2023-03-03 2023-03-03 一种用于癌症风险预测的方法及装置

Country Status (1)

Country Link
CN (1) CN116403644B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437976B (zh) * 2023-12-21 2024-04-02 深圳人体密码基因科技有限公司 基于基因检测的疾病风险筛查方法及系统
CN117711487B (zh) * 2024-02-05 2024-05-17 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107406876A (zh) * 2014-12-31 2017-11-28 夸登特健康公司 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法
CN107630093A (zh) * 2017-11-09 2018-01-26 苏州贝斯派生物科技有限公司 用于诊断肝癌的试剂、试剂盒、检测方法及用途
CN109385666A (zh) * 2017-08-02 2019-02-26 深圳华大基因股份有限公司 淋巴瘤基因捕获芯片及其应用
CN110808081A (zh) * 2019-09-29 2020-02-18 深圳吉因加医学检验实验室 一种鉴定肿瘤纯度样本的模型构建方法及应用
CN113539355A (zh) * 2021-07-15 2021-10-22 云康信息科技(上海)有限公司 预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107406876A (zh) * 2014-12-31 2017-11-28 夸登特健康公司 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法
CN109385666A (zh) * 2017-08-02 2019-02-26 深圳华大基因股份有限公司 淋巴瘤基因捕获芯片及其应用
CN107630093A (zh) * 2017-11-09 2018-01-26 苏州贝斯派生物科技有限公司 用于诊断肝癌的试剂、试剂盒、检测方法及用途
CN110808081A (zh) * 2019-09-29 2020-02-18 深圳吉因加医学检验实验室 一种鉴定肿瘤纯度样本的模型构建方法及应用
CN113539355A (zh) * 2021-07-15 2021-10-22 云康信息科技(上海)有限公司 预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用

Also Published As

Publication number Publication date
CN116403644A (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
AU2019229273B2 (en) Ultra-sensitive detection of circulating tumor DNA through genome-wide integration
JP7458360B2 (ja) 疾患細胞不均一性を示す疾患の検出および処置、ならびに通信試験結果のためのシステムおよび方法
CN112888459B (zh) 卷积神经网络系统及数据分类方法
JP7487163B2 (ja) がんの進化の検出および診断
US20230295738A1 (en) Systems and methods for detection of residual disease
CN116403644B (zh) 一种用于癌症风险预测的方法及装置
CN109767810B (zh) 高通量测序数据分析方法及装置
CN113257350B (zh) 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
CN108603234A (zh) 基于变体的疾病诊断和追踪
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
CN115418401A (zh) 用于膀胱癌的尿监测的诊断测定
CN106399304B (zh) 一种与乳腺癌相关的snp标记
JP2023540257A (ja) がんを分類するためのサンプルの検証
WO2019046804A1 (en) IDENTIFICATION OF FALSE POSITIVE VARIANTS USING A MODEL OF IMPORTANCE
CN116356001A (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
US20210285042A1 (en) Systems and methods for calling variants using methylation sequencing data
CN112951325A (zh) 一种用于癌症检测的探针组合的设计方法及其应用
WO2020194057A1 (en) Biomarkers for disease detection
CN113362897A (zh) 基于核小体分布特征的肿瘤标志物筛选方法及应用
WO2018209704A1 (zh) 基于dna测序数据的样本来源检测方法、装置和存储介质
CN111383713A (zh) ctDNA检测分析装置及方法
CN117423388B (zh) 一种基于甲基化水平的多癌种检测系统及电子设备
EP4318493A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
US20230197277A1 (en) Assessment and Quantification of Imperfect dsDNA Break Repair for Cancer Diagnosis and Treatment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant