CN116741272A - 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 - Google Patents

基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 Download PDF

Info

Publication number
CN116741272A
CN116741272A CN202310741958.5A CN202310741958A CN116741272A CN 116741272 A CN116741272 A CN 116741272A CN 202310741958 A CN202310741958 A CN 202310741958A CN 116741272 A CN116741272 A CN 116741272A
Authority
CN
China
Prior art keywords
hrd
mutation
wes
rna
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310741958.5A
Other languages
English (en)
Inventor
王育
陈光全
田秀
盛金丹
薛任浩
李珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai First Maternity and Infant Hospital
Original Assignee
Shanghai First Maternity and Infant Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai First Maternity and Infant Hospital filed Critical Shanghai First Maternity and Infant Hospital
Priority to CN202310741958.5A priority Critical patent/CN116741272A/zh
Publication of CN116741272A publication Critical patent/CN116741272A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系统及方法。本发明的卵巢癌HRD分型系统包括全外显子测序(WES)数据预测模型、转录组测序(RNA‑seq)数据预测模型分析以及WES数据联合RNA‑seq数据预测模型,可通过输入肿瘤样本WES原始测序数据和/或RNA‑seq原始测序数据即可得到预测HRD状态的方法。本发明针对中国人群构建对照样本库,克服了对血液对照样本的依赖;克服了使用单一组学数据评估HRD状态的局限性,扩大了应用场景;克服使用单一数据类型来评估HRD状态的局限性;克服了之前判定HRD状态对BRCA1/2基因突变临床评级注释的依赖;针对中国人群优化分型系统参数;为判断卵巢癌患者的HRD状态,提供了更多的可选方法。

Description

基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系 统及方法
技术领域
本发明涉及基因检测技术领域,具体地说,是关于基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系统及方法。
背景技术
卵巢癌(ovarian cancer)是恶性程度极高的妇科肿瘤[1]。70%患者一经发现即为晚期。新诊断的晚期卵巢癌(IIIb-IV期)的标准治疗包括初次减瘤手术后进行紫杉醇和卡铂辅助化疗,或新辅助化疗后间歇性减瘤手术后进行辅助化疗[2-4]。尽管大多数患者通过任一方法获得完全缓解,但仍有60-75%的患者在2-3年内复发。晚期卵巢癌总体5年生存率仍然不足30%[5]。
同源重组修复(homologous recombination,HR)是DNA双链损伤修复的重要途径,如果异常会导致DNA双链损伤修复缺陷,即HRD,大约有53%的卵巢癌患者存在同源重组修复缺陷(homologous recombination deficiency,HRD)。多腺苷二磷酸核糖聚合酶(polyADP ribose polymerase,PARP)抑制剂维持治疗是近年卵巢癌治疗史上的一次革命[6],尤其针对BRCA基因致病突变和HRD的卵巢癌患者,通过抑制肿瘤细胞DNA的修复,通过合成致死作用促进肿瘤细胞凋亡,能够延长这类患者的复发时间,从而改善预后。HRD作为PARP抑制剂敏感的生物标志物已用于临床伴随诊断,成为临床精准用药的分子靶点。
目前,HRD评估主要有2个技术路线。第一个方法是检测HR通路中相关基因的突变。HR是一条涉及到多个步骤的复杂的信号转导通路,其中关键蛋白为BRCA1和BRCA2,携带BRCA1和(或)BRCA2基因的胚系有害突变的人群其一生中患乳腺癌、卵巢癌、前列腺癌、黑色素瘤和胰腺癌的风险增加[7],随着研究的深入,不断有新基因被发现参与HR作用,成DNA损伤修复的复杂系统,这些蛋白包括ATM、RAD51、PALB2、MRE11、RAD50、NBN和FA蛋白等[8]。利用二代测序技术,可以评估许多HRR基因是否存在胚系或体系突变,但对于基因突变的注释仍然是一大挑战;此外,由于表观遗传修饰等因素,单纯检测HR基因的突变不能完全反映患者的HRD状态。
第二个方法是通过检测HRD产生的结果,即检测基因组瘢痕(genomic scars)。HRD的功能学评估有助于弥补检测HR基因突变的不足,当HRD存在时,基因组变异累积,等位基因失衡可能导致“基因组瘢痕”,通过对“基因组瘢痕”所表示的HRD进行评估可以不考虑潜在的遗传或表观遗传机制[9]。可使用HRD相关基因的测序芯片或全基因组范围内的SNP算法。基因组瘢痕检测目前仅有2个FDA批准且经过临床验证的产品,即FoundationFocusTMCDxBRCA LOH和MyriadCDx。前者通过检测BRCA突变状态和基因组杂合性缺失(loss ofheterozygosity,LOH)而进行综合评估,后者通过检测基因组不稳定性状态的3项指标(LOH、端粒等位基因不平衡(telomeric allelic imbalance,TAI)、大片段迁移(large-scale transition,LST))从而进行评估。目前国内尚无HRD检测产品获得CFDA或伴随诊断批准。
在卵巢癌中若仅检测HRR基因(含BRCA1/2),受益人群比例约为25%,但若进行基因组HRD评分(含BRCA1/2检测),受益人群比例可提高至50%。目前,基因组HRD评分通常需要大量不相连的SNP位点组成panel,SNP位点数量常在3万至5万个点。例如,中国专利申请公布CN112226495A公开了一种DNA同源重组异常的检测方法,包括:(1)SNP位点筛选;(2)为筛选到的SNP位点设计捕获探针;(3)基因组DNA提取和文库构建;(4)文库靶向富集;(5)高通量测序并分析测序数据,判断HRD状态时使用Kolmogorov Smirnov检验或者scarHRD。
目前已有的HRD产品,主要使用HRD相关基因的测序芯片或全基因组范围内的SNP检测,基于靶向测序(target region sequencing),即利用探针杂交的方法对特定位点或区域进行捕获和富集,并进行高通量测序。但是,该方法中芯片或目标捕获区域设计目标范围太窄,只能检测固定位点,存在很大的局限性。同时这类方法的探针设计及确定后的性能验证,还是临床样本的检测,均存在成本高的问题,不能随其他产品而伴随应用。这类方法还只能对肿瘤组织DNA及配对的白细胞的DNA同时进行检测来进行HRD状态的评估,接受检测的样本类型单一。
综上,传统的检测同源重组修复缺陷的方法存在的不足之处在于:只能检测固定位点,不全面,存在较大局限性,并且检测成本高,需要设计特定的探针,且接受检测的样本类型单一。所以亟需一种能低成本、检测较为全面且准确度高的方法用于检测HRD状态。而目前关于如本发明的基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系统及方法还未见报道。
发明内容
本发明的第一个目的是,针对现有技术中的不足,提供了基于基因组突变特征及基因集表达特征的卵巢癌HRD分型方法。
本发明的第二个目的是,提供了一种基于肿瘤组织基因组突变特征及基因集表达特征的卵巢癌HRD分型系统。
本发明的第三个目的是,提供了一种卵巢癌HRD分型方法的应用。
为实现上述第一个目的,本发明采取的技术方案是:
一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型方法,所述分型方法包括基于全外显子测序(WES)数据构建的WES模型,基于转录组测序(RNA-seq)数据构建的RNA模型,以及结合全外显子和转录组测序数据构建的WES+RNA综合模型。
作为一个优选例,上述WES模型的建立包括以下步骤:
A1:二代测序;
A2:数据质控;
A3:序列比对;
A4:突变检测、过滤和注释;
A5:突变特征分析;
A6:HRD状态评估。
作为一个优选例,上述步骤A1将肿瘤组织的DNA样本使用全外显子捕获后进行二代测序;所述步骤A2对原始测序数据(raw reads)中的测序接头、低质量碱基、模糊碱基和长度等进行过滤,得到高质量数据(clean reads)。其中,质控后的长度至少为75bp;所述步骤A3将clean reads与人类全外显子的参考序列进行比对,得到比对文件并去除比对文件中的重复reads;所述步骤A4中的突变过滤包括基于正常样本库(panel of normal)和gnomAD数据库(The Genome Aggregation Database)的胚系变异过滤以及基于测序深度、正负链比、变异支持序列数、突变频率、基因组黑名单区域(blacklist region)等的低质量变异过滤。其中,panel of normal基于38个血液样本,并将随着数据的收集定期更新。其中,测序深度需要≥30x。其中,正负链比介于10%-90%。对热点突变SNV、非热点点突变SNV、热点INDEL和非热点INDEL的支持序列数分别需要≥3、8、2、5。其中,热点突变SNV、非热点点突变SNV、热点INDEL和非热点INDEL的突变频率分别需要≥0.01、0.05、0.01、0.03;所述步骤A5中突变特征分析包括突变频谱计算和突变特征指数计算。其中,突变频谱包括单碱基替换(single base substitutions,SBS)突变频谱和小片段的插入和缺失(smallinsertions and deletions,ID)突变频谱。其中,突变特征指数基于COSMIC数据库收录的各突变特征(signature)对样本突变频谱的贡献率;其中,选定的用于后续HRD状态预测的突变特征包括与HRD及BRCA突变相关的单碱基替换突变特征3(SBS3)和小片段的插入和缺失突变特征6(ID6),以及与非同源性末端接合(non-homologous end joining,NHEJ)相关的突变特征ID8;所述步骤A6中的HRD评估模型包括基于SBS3突变特征指数的判断和基于以ID6和ID8为参数的逻辑回归模型两个部分。
更优选地,基于ID6和ID8突变特征指数的模型为:
η=-0.4261594+4.9839447×ID6特征指数+5.8571149×ID8特征指数
其中,
其中,符合下列条件之一的样本将被判定为HRD阳性:(1)SBS3突变特征指数>0.203;(2)WES score>0.832。
更优选地,上述RNA模型的建立包括以下步骤:
B1:二代测序;
B2:数据质控;
B3:序列比对;
B4:基因表达定量;
B5:特定基因集表达特征分析;
B6:HRD状态评估。
更优选地,上述步骤B1将肿瘤组织的RNA样本使用polyA捕获后进行二代测序;所述步骤B2对原始测序数据(raw reads)中的测序接头、低质量碱基、模糊碱基和长度等进行过滤,得到高质量数据(cleanreads)。其中,质控后的长度至少为75bp;所述步骤B4对原始表达数据(read counts)进行定量归一化,计算基因或者转录本的TPM(transcripts permillion)值;所述步骤B5的目的为筛选与HRD状态相关的基因集;所述步骤B6中的特定基因集表达特征分析包括基于样本在特定基因集的富集程度的表达特征指数计算;所述步骤B7中的HRD评估模型包括基于以特定基因集的表达特征指数为参数的逻辑回归模型。
更优选地,上述步骤B5中的基因表达特征分析为对特定基因集的表达特征指数计算;上述特征基因集包括上调基因集与下调基因集,
其中上调基因集包含以下基因:
ENSG00000031544(NR2E3),ENSG00000060709(RIMBP2),
ENSG00000074211(PPP2R2C),ENSG00000112936(C7),
ENSG00000118729(CASQ2),ENSG00000124491(F13A1),
ENSG00000124493(GRM4),ENSG00000126583(PRKCG),
ENSG00000134569(LRP4),ENSG00000135472(FAIM2),
ENSG00000135960(EDAR),ENSG00000140297(GCNT3),
ENSG00000142623(PADI1),ENSG00000143001(TMEM61),
ENSG00000143171(RXRG),ENSG00000143631(FLG),
ENSG00000154263(ABCA10),ENSG00000162344(FGF19),
ENSG00000163283(ALPP),ENSG00000165376(CLDN2),
ENSG00000167210(LOXHD1),ENSG00000167580(AQP2),
ENSG00000170579(DLGAP1),ENSG00000171551(ECEL1),
ENSG00000172927(MYEOV),ENSG00000173714(WFIKKN2),
ENSG00000181449(SOX2),ENSG00000186895(FGF3),
ENSG00000187537(POTEM),ENSG00000187627(RGPD1),
ENSG00000196226(HIST1H2BB),ENSG00000197915(HRNR),
ENSG00000205038(PKHD1L1),ENSG00000205238(SPDYE2),
ENSG00000205277(MUC12),ENSG00000242384(TBC1D3H);
其中下调基因集包括下列基因:
ENSG00000066248(NGEF),ENSG00000102683(SGCG),
ENSG00000107317(PTGDS),ENSG00000110328(GALNT18),
ENSG00000112319(EYA4),ENSG00000115507(OTX1),
ENSG00000122012(SV2C),ENSG00000130700(GATA5),
ENSG00000133937(GSC),ENSG00000137878(GCOM1),
ENSG00000147573(TRIM55),ENSG00000158008(EXTL1),
ENSG00000159871(LYPD5),ENSG00000164120(HPGD),
ENSG00000166106(ADAMTS15),ENSG00000166923(GREM1),
ENSG00000168546(GFRA2),ENSG00000169218(RSPO1),
ENSG00000197467(COL13A1),ENSG00000198729(PPP1R14C),
ENSG00000241644(INMT);
所述步骤B6中的HRD评估基于以特定基因集的表达特征指数为参数的逻辑回归模型:
其中,
η=11.90860+14.74870×上调基因集表达特征指数-20.03622×下调基因集表达特征指数
其中,符合条件RNA score>0.877的样本将被判定为HRD阳性。
更优选地,所述WES+RNA综合模型包括基于SBS3突变特征指数的判断和基于以WES和RNA模型分别计算得到的WES score和RNA score为参数的逻辑回归模型两个部分;分析流程包括以下步骤:
C1:权利要求2所述的步骤A1-A6;
C2:权利要求4所述的步骤B1-B6;
C3:HRD评估。
更优选地,上述步骤C3中的HRD评估包括基于SBS3突变特征指数的判断和基于以步骤C1和C2计算得到的WES score和RNA score为参数的逻辑回归模型两个部分,其中,基于WES score和RNA score的模型为:
其中,
η=-10.470683+9.637483×WES score+7.214411×RNA score
其中,符合下列条件之一的样本将被判定为HRD阳性:(1)SBS3突变特征指数>0.203;(2)HRD score>0.766。
更优选地,上述HRD分型方法基于输入数据类型,预测HRD状态,该模型的准确性估计均使用交叉验证的方法。
为实现上述第二个目的,本发明采取的技术方案是:一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型的系统,其特征在于,所述系统基于上述任一项所述的卵巢癌HRD分型方法;所述系统仅需输入肿瘤样本WES原始测序数据和/或RNA-seq原始测序数据;所述系统输出为该样本预测的HRD状态。
为实现本发明的第三个目的,本发明采用的技术方案是:上述任一所述的卵巢癌HRD分型系统在制备评估HRD状态的产品中的应用。
本发明优点在于:
1、本发明提供的一种基于WES测序和/或RNA测序评估HRD状态的方法,解决了单一组学数据的局限性和准确度、单一突变类型的局限性以及基于基因差异表达数据易受到批次效应影响的局限性和准确度性,从而扩大受益人群且降低成本,更适合于临床应用。
2、本发明基于中国人群构建对照样本库,克服了对血液对照样本的依赖;克服了使用单一组学数据评估HRD状态的局限性,扩大了应用场景;克服了之前判定HRD状态方法中对BRCA1/2基因突变临床评级注释的依赖;针对中国人群优化HRD分型系统参数;为判断卵巢癌患者的HRD状态,提供了更多的可选方法。
附图说明
附图1为本发明的流程示意图。
附图2为HRD状态与基因组突变特征的相关性。
附图3为SBS3预测HRD状态的ROC曲线。
附图4为交叉验证中WES模型的准确率。
附图5为WES score预测HRD状态的ROC曲线。
附图6为HRD状态与特定基因集表达特征的相关性。
附图7为交叉验证中RNA模型的准确率。
附图8为RNA score预测HRD状态的ROC曲线。
附图9为交叉验证中WES+RNA综合模型的准确率。
附图10为HRD score预测HRD状态的ROC曲线。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明记载的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。如未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段和市售的常用仪器、试剂,可参见《分子克隆实验指南(第3版)》(科学出版社)、《微生物学实验(第4版)》(高等教育出版社)以及相应仪器和试剂的厂商说明书等参考。
实施例1:本发明WES模型、RNA模型和WES+RNA综合模型的建立
收集了一组已知HRD状态的28例肿瘤样本,其中HRD阳性22例,HRD阴性6例,均同时有WES和RNA数据。
1.WES模型的建立
(1)二代测序。将肿瘤组织的DNA样本使用全外显子捕获后进行二代测序。
(2)数据质控。对原始测序数据(raw reads)中可能出现的测序接头进行剪切去除,同时去除原始数据中低质量碱基和模糊碱基比例较高的数据,同时要求质控后的长度至少为75bp,剩余的即为高质量数据(clean reads)。
(3)序列比对。将clean reads与人类全外显子的参考序列进行比对,得到比对文件。去除比对文件中的重复reads。
(4)突变检测、过滤和注释。对检测到的突变进行基于正常样本库(panel ofnormal)和gnomAD数据库(The Genome Aggregation Database)的胚系变异过滤以及基于测序深度、正负链比、变异支持序列数、突变频率,基因组黑名单区域(blacklist region)等的低质量变异过滤,并进行注释。具体的,panel of normal基于38个血液样本,并将随着数据的收集定期更新;测序深度需要≥30x;正负链比需介于10%-90%;对热点突变SNV、非热点点突变SNV、热点INDEL和非热点INDEL的支持序列数分别需要≥3、8、2、5;热点突变SNV、非热点点突变SNV、热点INDEL和非热点INDEL的突变频率分别需要≥0.01、0.05、0.01、0.03。
(5)突变特征分析。
A.计算突变频谱。包括单碱基替换突变频谱和小片段的插入和缺失突变频谱。具体的,单碱基替换突变频谱为COSMIC数据库收录的定义SBS突变特征(signature)的96突变频谱,基于突变位点及紧邻的上下游各1碱基;小片段的插入和缺失突变频谱为COSMIC数据库收录的定义ID突变特征的83突变频谱,基于插入或缺失的类型、长度以及重复碱基数量等等。
B.计算突变特征指数。即根据样本的突变频谱,计算COSMIC数据库收录的各突变特征(signature)的贡献率。
C.获得与HRD阳性卵巢癌患者相关的突变特征。根据与样本已知的HRD状态相关性,获得与HRD阳性卵巢癌患者相关的突变特征。单碱基突变特征SBS3,以及小片段的插入和缺失突变特征ID6和ID8均与HRD状态存在着明显的相关性(图2)。
(6)HRD评估模型构建。基于WES数据的HRD评估包括2个部分。首先,通过ROC分析评估已知与HRD密切相关的SBS3判定HRD状态的性能(图3)。结果表明,以SBS3的突变特征指数>0.203作为HRD阳性判定阈值最优。其次,构建基于ID6和ID8为参数的逻辑回归(logisticregression)模型。为了更好的评估模型的预测性能,模型的准确性估计使用交叉验证的方法。具体的,在每一次验证中,将数据集随机分成18例训练集和10例测试集两个部分,其中训练集至少包括HRD阴性2例,测试集至少包括HRD阴性1例。使用训练集训练模型,使用测试集评估模型预测性能,分别获得模型在训练集和测试集的准确率(正确预测/总预测数)(图4)。验证重复10次,10次结果的准确率的平均值作为对模型准确性的评估。结果显示,WES模型在10次验证中训练集和测试集的准确性均值分别达到0.75和0.72,且各次验证间的稳定性较好。最后,使用完整数据集作为训练集构建最终模型,最终模型为:
其中
η=-0.4261594+4.9839447×ID6特征指数+5.8571149×ID8特征指数
通过ROC分析获得WES score判定HRD状态的最优阈值(图5)。表1展示基于WES数据的HRD状态判定规则。具体的,如果样本的SBS3特征指数>0.203,则判定为HRD阳性;如果SBS3的特征指数≤0.203,但WES score>0.832,则判定为HRD阳性;否则,判定为HRD阴性。表2显示本发明的WES模型对28个卵巢癌患者HRD状态预测的准确性。
表1.本发明方法的WES模型的HRD状态判定规则
表2.本发明方法的WES模型对28个卵巢癌患者HRD状态预测的准确性
2.RNA模型的建立
(1)二代测序。将肿瘤组织的RNA样本使用polyA捕获后进行二代测序;
(2)数据质控。对原始测序数据(raw reads)中可能出现的测序接头进行剪切去除,同时去除原始数据中低质量碱基和模糊碱基比例较高的数据,同时要求质控后的长度至少为75bp,剩余的即为高质量数据(clean reads)。
(3)序列比对。将clean reads与人类基因组的参考序列进行比对,得到比对文件。
(4)基因表达定量。对原始表达数据(read counts)进行定量归一化,计算基因或者转录本的TPM(transcripts permillion)值。
(5)基因差异表达分析。通过差异表达分析,得到HRD阳性和阴性样本之间存在差异表达的基因,再进一步根据基因的生物学意义等条件进行筛选,获得2个与HRD阳性卵巢癌患者相关的基因集(表3),即在HRD阳性样本中,相较于HRD阴性样本,上调或者下调的“上调基因集”和“下调基因集”。
表3.与HRD阳性卵巢癌患者相关的基因集
上调基因集 下调基因集
ENSG00000031544_NR2E3 ENSG00000066248_NGEF
ENSG00000060709_RIMBP2 ENSG00000102683_SGCG
ENSG00000074211_PPP2R2C ENSG00000107317_PTGDS
ENSG00000112936_C7 ENSG00000110328_GALNT18
ENSG00000118729_CASQ2 ENSG00000112319_EYA4
ENSG00000124491_F13A1 ENSG00000115507_OTX1
ENSG00000124493_GRM4 ENSG00000122012_SV2C
ENSG00000126583_PRKCG ENSG00000130700_GATA5
ENSG00000134569_LRP4 ENSG00000133937_GSC
ENSG00000135472_FAIM2 ENSG00000137878_GCOM1
ENSG00000135960_EDAR ENSG00000147573_TRIM55
ENSG00000140297_GCNT3 ENSG00000158008_EXTL1
ENSG00000142623_PADI1 ENSG00000159871_LYPD5
ENSG00000143001_TMEM61 ENSG00000164120_HPGD
ENSG00000143171_RXRG ENSG00000166106_ADAMTS15
ENSG00000143631_FLG ENSG00000166923_GREM1
ENSG00000154263_ABCA10 ENSG00000168546_GFRA2
ENSG00000162344_FGF19 ENSG00000169218_RSPO1
ENSG00000163283_ALPP ENSG00000197467_COL13A1
ENSG00000165376_CLDN2 ENSG00000198729_PPP1R14C
ENSG00000167210_LOXHD1 ENSG00000241644_INMT
ENSG00000167580_AQP2
ENSG00000170579_DLGAP1
ENSG00000171551_ECEL1
ENSG00000172927_MYEOV
ENSG00000173714_WFIKKN2
ENSG00000181449_SOX2
ENSG00000186895_FGF3
ENSG00000187537_POTEM
ENSG00000187627_RGPD1
ENSG00000196226_HIST1H2BB
ENSG00000197915_HRNR
ENSG00000205038_PKHD1L1
ENSG00000205238_SPDYE2
ENSG00000205277_MUC12
ENSG00000242384_TBC1D3H
(6)基因表达特征分析。基于样本在特定基因集的富集程度,计算特定基因集的表达特征指数。如图6所示,HRD状态与特定基因集的表达特征指数存在着明显的相关性;
(7)HRD评估模型构建。基于RNA数据的HRD评估基于特定基因集的表达特征指数为参数的逻辑回归(logistic regression)模型。为了更好的评估模型的预测性能,模型的准确性估计使用交叉验证的方法。具体的,在每一次验证中,将数据集随机分成18例训练集和10例测试集两个部分,其中训练集至少包括HRD阴性2例,测试集至少包括HRD阴性1例。使用训练集训练模型,使用测试集评估模型预测性能,分别获得模型在训练集和测试集的准确率(正确预测/总预测数)(图7)。验证重复10次,10次结果的准确率的平均值作为对模型准确性的估计。结果显示,RNA模型在10次验证中训练集和测试集的准确性均值分别达到0.91和0.82,且各次验证间的稳定性较好。最后,使用完整数据集作为训练集构建最终模型,最终模型为:
其中
η=11.90860+14.74870×上调基因集表达特征指数-20.03622×下调基因集表达特征指数
通过ROC分析获得RNAscore判定HRD状态的最优阈值(图8)。表4展示基于RNA数据的HRD状态判定规则。具体的,如果样本的RNAscore>0.877,则判定为HRD阳性;否则,判定为HRD阴性。表5为本发明的RNA模型对28个卵巢癌患者HRD状态预测的准确性。
表4.HRD状态判定对照表
表5.本发明方法的RNA模型对28个卵巢癌患者HRD状态预测的准确性
3.WES+RNA综合模型的建立
综合WES+RNA数据的HRD评估系统包括2个部分,即基于SBS3突变特征指数的判定和基于以WES score和RNA score为参数的逻辑回归模型。为了更好的评估模型的预测性能,模型的准确性估计使用交叉验证的方法。具体的,在每一次验证中,将数据集随机分成18例训练集和10例测试集两个部分,其中训练集至少包括HRD阴性2例,测试集至少包括HRD阴性1例。使用训练集训练模型,使用测试集评估模型预测性能,分别获得模型在训练集和测试集的准确率(正确预测/总预测数)(图9)。验证重复10次,10次结果的准确率的平均值作为对模型准确性的估计。结果显示,WES+RNA模型在10次验证中训练集和测试集的准确性均值分别达到0.92和0.85,且各次验证间的稳定性较好。最后,使用完整数据集作为训练集构建最终模型,最终模型为:
其中
η=-10.470683+9.637483×WES score+7.214411×RNA score
通过ROC分析获得HRD score判定HRD状态的最优阈值(图10)。表6展示综合WES和RNA数据的HRD状态判定规则。具体的,如果样本的SBS3特征指数>0.203,则判定为HRD阳性;如果SBS3的特征指数≤0.203,但HRD score>0.766,则判定为HRD阳性;否则,判定为HRD阴性。表7展示本发明方法的WES+RNA综合模型对28个卵巢癌患者HRD状态预测的准确性。相较于仅使用WES或者RNA数据(表2和5),WES+RNA综合模型具有更高的准确率。
表6.HRD状态判定对照表
表7.本发明方法的WES+RNA模型对28个卵巢癌患者HRD状态预测的准确性
实施例2使用实施例1建立的方法对28例卵巢癌患者的HRD进行预测
收集了一组已知HRD状态的28例卵巢癌患者的肿瘤样本,其中,27例拥有WES数据,11例拥有RNA数据,其中的10例同时有WES和RNA数据,用于检验本发明的性能。
通过分析28例肿瘤样本的WES和/或RNAseq数据,获得BRCA1/2基因突变情况、基因组突变特征和/或特定基因集表达特征等。使用实施例1建立的模型,对28例受试者的HRD状态进行预测(表8-11)。结果显示,本发明方法的3个模型对独立于训练集的卵巢癌患者的HRD状态预测仍具有很高的准确性。特别的,本发明方法的WES+RNA综合模型和RNA模型均准确地预测带有BRCA1/2致病性变异的患者(编号10和14)为HRD阳性,且WES模型对BRCA1/2致病突变患者也有较高的正确预测率,说明本发明方法有效性,且能不受限于BRCA1/2基因变异数据库的注释信息。
表8.利用本发明方法对28例卵巢癌患者的HRD状态预测结果
编号 BRCA1/2 HRD参考状态 WES模型 RNA模型 WES+RNA综合模型
1 阴性 阴性 阴性 阴性 阴性
2 阴性 阴性 阴性 阳性 阳性
3 阴性 阳性 阴性 阳性 阳性
4 阴性 阴性 阳性 阴性 阴性
5 阴性 阴性
6 致病性变异 阳性 阳性
7 阴性 阳性 阳性
8 意义未明变异 阴性 阴性 阴性 阴性
9 阴性 阴性 阴性 阴性 阴性
10 致病性变异 阳性 阴性 阳性 阳性
11 阴性 阳性 阴性 阳性 阳性
12 意义未明变异 阳性 阳性
13 阴性 阳性 阴性 阳性 阳性
14 致病性变异 阳性 阴性 阳性 阳性
15 致病性变异 阳性 阳性
16 阴性 阴性 阴性
17 致病性变异 阳性 阳性
18 阴性 阴性 阳性
19 阴性 阳性 阴性
20 致病性变异 阳性 阳性
21 阴性 阴性 阴性
22 阴性 阴性 阴性
23 意义未明变异 阳性 阳性
24 阴性 阴性 阴性
25 阴性 阴性 阴性
26 阴性 阴性 阴性
27 阴性 阴性 阴性
28 阴性 阴性 阴性
表9.利用本发明方法WES模型对27例卵巢癌患者HRD状态预测准确性
表10.利用本发明方法RNA模型对11例卵巢癌患者HRD状态预测准确性
表11.利用本发明方法WES+RNA模型对10例卵巢癌患者HRD状态预测准确性
参考文献
[1]Jayson,G.C.,et al.,Ovarian cancer.Lancet,2014.384(9951):p.1376-88.
[2]Walter,A.,et al.,Gemogenovatucel-T(Vigil)maintenanceimmunotherapy:3-year survival benefit in homologous recombination proficient(HRP)ovarian cancer.Gynecol Oncol,2021.163(3):p.459-464.
[3]Jelovac,D.and D.K.Armstrong,Recent progress in the diagnosis andtreatment of ovarian cancer.CA Cancer J Clin,2011.61(3):p.183-203.
[4]Gogineni,V.,et al.,Current Ovarian Cancer Maintenance Strategiesand Promising New Developments.J Cancer,2021.12(1):p.38-53.
[5]Siegel,R.L.,et al.,Cancer Statistics,2021.CA Cancer J Clin,2021.71(1):p.7-33.
[6]Farmer H,McCabe N,Lord C J,et al.Targeting the DNA repair defectin BRCA mutant cells as a therapeutic strategy[J].Nature,2005,434(7035):917-921.
[7]KUCHENBAECKER K B,HOPPER J L,BARNES D R,et al.Risks of breast,ovarian,and contralateral breast cancer forBRCA1 andBRCA2 mutation carriers[J].JAMA,2017,317(23):2402-2416.
[8]FRIMERM,LEVANO K S,RODRIGUEZ-GABIN A,et al.Germline mutationsofthe DNA repair pathways inuterine serous carcinoma[J].Gynecol Oncol,2016,141(1):101-107.
[9]ABKEVICH V,TIMMS K M,HENNESSY B T,et al.Patterns of genomic lossof heterozygosity predict homologous recombinationrepair defects inepithelial ovarian cancer[J].Br J Cancer,2012,107(10):1776-1782.
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

Claims (10)

1.一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型方法,其特征在于,所述分型方法包括基于全外显子测序(WES)数据构建的WES模型,基于转录组测序(RNA-seq)数据构建的RNA模型,以及结合全外显子和转录组测序数据构建的WES+RNA综合模型。
2.根据权利要求1所述的卵巢癌HRD分型方法,其特征在于,所述WES模型分析流程包括以下步骤:
A1:二代测序;
A2:数据质控;
A3:序列比对;
A4:突变检测、过滤和注释;
A5:突变特征分析;
A6:HRD状态评估。
3.根据权利要求2所述的卵巢癌HRD分型方法,其特征在于,所述步骤A4中的突变过滤条件包括基于正常样本库以及公共数据库gnomAD胚系变异过滤以及基于测序深度、正负链比、变异支持序列数、突变频率和基因组黑名单区域的低质量变异过滤;所述步骤A6中的HRD评估包括基于SBS3突变特征指数的判断和基于以ID6和ID8为参数的逻辑回归模型两个部分,其中,基于ID6和ID8突变特征指数的模型为:
其中,
η=-0.4261594+4.9839447×ID6特征指数+5.8571149×ID8特征指数
其中,符合下列条件之一的样本将被判定为HRD阳性:(1)SBS3突变特征指数>0.203;(2)WES score>0.832。
4.根据权利要求1所述的卵巢癌HRD分型方法,其特征在于,所述RNA模型分析流程包括以下步骤:
B1:二代测序;
B2:数据质控;
B3:序列比对;
B4:基因表达定量;
B5:特定基因集表达特征分析;
B6:HRD状态评估。
5.根据权利要求4所述的卵巢癌HRD分型方法,其特征在于,所述步骤B5中的基因表达特征分析为对特定基因集的表达特征指数计算;所述特征基因集包括上调基因集与下调基因集,
其中上调基因集包含以下基因:
ENSG00000031544(NR2E3),ENSG00000060709(RIMBP2),
ENSG00000074211(PPP2R2C),ENSG00000112936(C7),
ENSG00000118729(CASQ2),ENSG00000124491(F13A1),
ENSG00000124493(GRM4),ENSG00000126583(PRKCG),
ENSG00000134569(LRP4),ENSG00000135472(FAIM2),
ENSG00000135960(EDAR),ENSG00000140297(GCNT3),
ENSG00000142623(PADI1),ENSG00000143001(TMEM61),
ENSG00000143171(RXRG),ENSG00000143631(FLG),
ENSG00000154263(ABCA10),ENSG00000162344(FGF19),
ENSG00000163283(ALPP),ENSG00000165376(CLDN2),
ENSG00000167210(LOXHD1),ENSG00000167580(AQP2),
ENSG00000170579(DLGAP1),ENSG00000171551(ECEL1),
ENSG00000172927(MYEOV),ENSG00000173714(WFIKKN2),
ENSG00000181449(SOX2),ENSG00000186895(FGF3),
ENSG00000187537(POTEM),ENSG00000187627(RGPD1),
ENSG00000196226(HIST1H2BB),ENSG00000197915(HRNR),
ENSG00000205038(PKHD1L1),ENSG00000205238(SPDYE2),
ENSG00000205277(MUC12),ENSG00000242384(TBC1D3H);
其中下调基因集包括下列基因:
ENSG00000066248(NGEF),ENSG00000102683(SGCG),
ENSG00000107317(PTGDS),ENSG00000110328(GALNT18),
ENSG00000112319(EYA4),ENSG00000115507(OTX1),
ENSG00000122012(SV2C),ENSG00000130700(GATA5),
ENSG00000133937(GSC),ENSG00000137878(GCOM1),
ENSG00000147573(TRIM55),ENSG00000158008(EXTL1),
ENSG00000159871(LYPD5),ENSG00000164120(HPGD),
ENSG00000166106(ADAMTS15),ENSG00000166923(GREM1),
ENSG00000168546(GFRA2),ENSG00000169218(RSPO1),
ENSG00000197467(COL13A1),ENSG00000198729(PPP1R14C),
ENSG00000241644(INMT);
所述步骤B6中的HRD评估基于以特定基因集的表达特征指数为参数的逻辑回归模型:
其中,
η=11.90860+14.74870×上调基因集表达特征指数-20.03622×下调基因集表达特征指数
其中,符合条件RNA score>0.877的样本将被判定为HRD阳性。
6.根据权利要求1所述的卵巢癌HRD分型方法,其特征在于,所述WES+RNA综合模型的分析流程包括以下步骤:
C1:权利要求2所述的步骤A1-A6;
C2:权利要求4所述的步骤B1-B6;
C3:HRD评估。
7.根据权利要求6所述的卵巢癌HRD分型方法,其特征在于,所述步骤C3中的HRD评估包括基于SBS3突变特征指数的判断和基于以步骤C1和C2计算得到的WES score和RNA score为参数的逻辑回归模型两个部分,其中,基于WES score和RNA score的模型为:
其中,
η=-10.470683+9.637483×WES score+7.214411×RNA score
其中,符合下列条件之一的样本将被判定为HRD阳性:(1)SBS3突变特征指数>0.203;(2)HRD score>0.766。
8.根据权利要求1-7任一所述的卵巢癌HRD分型方法,其特征在于,基于输入数据类型,预测HRD状态。
9.一种基于基因组突变特征及基因集表达特征的卵巢癌HRD分型系统,其特征在于,所述系统基于权利要求1-7任一项所述的卵巢癌HRD分型方法;所述系统仅需输入肿瘤样本WES原始测序数据和/或RNA-seq原始测序数据;所述系统输出为该样本预测的HRD状态。
10.权利要求1-7任一所述的卵巢癌HRD分型方法在制备评估HRD状态的产品中的应用。
CN202310741958.5A 2023-06-21 2023-06-21 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 Pending CN116741272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310741958.5A CN116741272A (zh) 2023-06-21 2023-06-21 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310741958.5A CN116741272A (zh) 2023-06-21 2023-06-21 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法

Publications (1)

Publication Number Publication Date
CN116741272A true CN116741272A (zh) 2023-09-12

Family

ID=87902592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310741958.5A Pending CN116741272A (zh) 2023-06-21 2023-06-21 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法

Country Status (1)

Country Link
CN (1) CN116741272A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117672502A (zh) * 2024-01-31 2024-03-08 中国医学科学院北京协和医院 一种mrkh综合征的预测方法、系统和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117672502A (zh) * 2024-01-31 2024-03-08 中国医学科学院北京协和医院 一种mrkh综合征的预测方法、系统和设备
CN117672502B (zh) * 2024-01-31 2024-05-03 中国医学科学院北京协和医院 一种mrkh综合征的预测方法、系统和设备

Similar Documents

Publication Publication Date Title
US20210025011A1 (en) Methylation markers and targeted methylation probe panel
JP6931013B2 (ja) 癌関連の遺伝子または分子異常の検出
CN106947830B (zh) 用于诊断、预测肝癌疗效和预后的基因甲基化面板
AU2019351130A1 (en) Methylation markers and targeted methylation probe panel
CN109897899B (zh) 一种用于局部晚期食管鳞癌预后判断的标志物及其应用
Sinha et al. Higher prevalence of homologous recombination deficiency in tumors from African Americans versus European Americans
CN112735513B (zh) 基于dna甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法
WO2015171457A1 (en) Methods of identifying biomarkers associated with or causative of the progression of disease, in particular for use in prognosticating primary open angle glaucoma
CN107586852B (zh) 基于22个基因的胃癌腹膜转移预测模型及其应用
CN112442540B (zh) 微卫星不稳定性检测方法、标志物组合、试剂盒及应用
CN114026254A (zh) 侦测癌症、癌症来源组织及/或一癌症细胞类型
CN115418401A (zh) 用于膀胱癌的尿监测的诊断测定
JP2024119880A (ja) 合成トレーニングサンプルによるがん分類
WO2020077095A1 (en) tRNA-DERIVED FRAGMENTS AS BIOMARKERS FOR PARKINSON'S DISEASE
CN116741272A (zh) 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法
CN114334147A (zh) 组合的stat信号通路相关基因在结直肠癌预后模型中的应用
CN117603982B (zh) 肌萎缩侧索硬化症的SQSTM1的p.P374TfsTer18突变致病基因及其应用
CN112037863B (zh) 一种早期nsclc预后预测系统
Zeng et al. Comprehensive molecular characterization of Chinese patients with glioma by extensive next-generation sequencing panel analysis
CN113782087B (zh) 一种慢性淋巴细胞白血病sscr风险模型及其建立方法和应用
CN113736879B (zh) 用于小细胞肺癌患者预后的系统及其应用
WO2022231449A1 (en) Circulating noncoding rnas as a signature of autism spectrum disorder symptomatology
CN114724631A (zh) 染色体拷贝数变异程度评估模型、方法及应用
CN108342483B (zh) 一组用于非超突变型结直肠癌分子分型的基因及其应用
EP4018003A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination