CN114724631A - 染色体拷贝数变异程度评估模型、方法及应用 - Google Patents

染色体拷贝数变异程度评估模型、方法及应用 Download PDF

Info

Publication number
CN114724631A
CN114724631A CN202210408054.6A CN202210408054A CN114724631A CN 114724631 A CN114724631 A CN 114724631A CN 202210408054 A CN202210408054 A CN 202210408054A CN 114724631 A CN114724631 A CN 114724631A
Authority
CN
China
Prior art keywords
copy number
number variation
bin
bins
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210408054.6A
Other languages
English (en)
Other versions
CN114724631B (zh
Inventor
王一凡
金鸽
曹建军
徐小红
陈阅军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Rendong Bioengineering Co ltd
Shanghai Rendong Medical Laboratory Co ltd
Original Assignee
Suzhou Rendong Bioengineering Co ltd
Shanghai Rendong Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Rendong Bioengineering Co ltd, Shanghai Rendong Medical Laboratory Co ltd filed Critical Suzhou Rendong Bioengineering Co ltd
Priority to CN202210408054.6A priority Critical patent/CN114724631B/zh
Publication of CN114724631A publication Critical patent/CN114724631A/zh
Application granted granted Critical
Publication of CN114724631B publication Critical patent/CN114724631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种染色体拷贝数变异程度评估模型,该模型根据拷贝数变异负荷评估染色体拷贝数变异程度,所述拷贝数变异负荷为发生拷贝数变异的bin的数目与全基因组bin的数目的比值。本发明还公开了上述模型的构建方法,以及基于该模型的染色体拷贝数变异程度评估方法及其应用。本发明通过构建背景库和染色体拷贝数变异负荷模型,对膀胱癌肿瘤患者尿液上清cfDNA中的染色体不稳定性进行评估,建立了全基因组bin拷贝数水平和患者样本水平的染色体不稳定性评价方法,该方法具有较高的准确性、敏感性和特异性。

Description

染色体拷贝数变异程度评估模型、方法及应用
技术领域
本发明涉及基因测序领域,特别是涉及尿路上皮癌患者染色体拷贝数变异(CNV)程度的评估。
背景技术
尿路上皮癌是起源于尿路上皮的一种多源性的恶性肿瘤,包括肾盂癌、输尿管癌、膀胱癌以及尿道癌,是最常见的泌尿系统肿瘤。其中尿路上皮癌可分为非肌层浸润性尿路上皮癌(NMIBC)和肌层浸润性尿路上皮癌(MIBC)。而10%~15%的肌层浸润性尿路上皮癌患者在确诊时已出现转移。对于T3-T4和(或)N+Mo的高危患者,5年生存率仅为25%~35%。吸烟及职业性致癌剂是重要因素。遗传基因缺陷在外因的影响下促发癌变已愈来愈受重视。地区性、种族性发病如“巴尔干肾病”和“马兜铃酸肾病”可能与遗传及环境因素有关。
尿脱落细胞FISH技术是通过多色的荧光原位杂交检测3号、7号、17号染色体和9p16探针畸变,对尿液标本要求高,适用范围窄,且需有经验丰富的细胞病理学家;同时有低级别尿路上皮癌感性低、假阳性高、常细胞一致性差的问题。尿液DNA层面检测单基因/多基因panel突变,如TERT启动子C228T和C250T突变、FGFR3突变等,同样存在敏感性和特异性较差的问题。主要原因是尿路上皮癌中基因突变模式多样,包含基因数目较多的大panel在成本收益上较低。
苏州宏元生物科技有限公司推出的UroCAD产品采集10ml尿液中100个以上的细胞(染色体异常肿瘤细胞占比不低于2%),基于一组染色体不稳定区域(3p、3q、5p、7p、7q、8q、9p、 9q、17p、17q),采用低覆盖全基因组测序技术(Low-coverage whole-genomesequencing)对样本进行染色体不稳定检测,排查肿瘤相关的染色体变异,分析染色体不稳定性。该检测手段本质上还是基于尿液脱落细胞中的染色体异常肿瘤细胞,其缺点是:1、对尿液取样的要求高(DNA提取依赖尿液中的染色体异常肿瘤细胞数目),容易导致NGS实验DNA建库失败;2、尿液中可能存在较多的正常脱落细胞,DNA提取效率较低,导致背景噪音大;3、阳性率与细胞量有关,细胞量的多少影响结果的准确性;4、早期的尿路上皮癌患者尿脱落细胞少,拷贝数变异程度低;5、算法依赖于10个染色体异常区域,导致灵敏度和特异性降低,容易造成漏检错检;6、以200kb划分窗口计算时容易混入种系的拷贝数变异,产生无法去除的背景噪音。
尿液在肾小管中产生,并在每个肾脏的肾盂中聚集,经输尿管流入膀胱,最后尿液储存在膀胱中,直到通过尿道离开身体。由于泌尿生殖道癌的特殊性,尿液中的循环游离DNA能够满足特异性突变、结构变异、甲基化检测的需求。
发明内容
本发明要解决的技术问题之一是提供一种染色体拷贝数变异程度评估模型,它可以准确判定膀胱癌患者的染色体不稳定性状态。
为解决上述技术问题,本发明的染色体拷贝数变异程度评估模型,根据拷贝数变异负荷评估染色体拷贝数变异程度,所述拷贝数变异负荷为发生拷贝数变异的bin的数目与全基因组bin的数目的比值。
bin的划分长度优选设置为1M bp。所述发生拷贝数变异的bin为拷贝数值大于膀胱癌患者拷贝数阈值的bin。所述拷贝数值(logR)的计算公式优选为:
Figure 669689DEST_PATH_IMAGE001
式中,cfDNA样本优选为尿液上清cfDNA样本;待测cfDNA样本每个bin的reads数目优选经过GC、mappability 以及深度差异的校正;健康人cfDNA样本每个bin的reads数目优选为健康人尿液上清cfDNA参考背景数据库的Normal Panel中的每个bin的reads数目。
本发明要解决的技术问题之二是提供上述染色体拷贝数变异程度评估模型的构建方法,该方法主要包括如下步骤:
构建健康人尿液cfDNA参考背景数据库;
将临床样本尿液cfDNA测序数据与参考基因组比对去重后,进行低深度全基因组拷贝数变异和肿瘤分数检测;
设置每个bin的长度,去除值为NA的bin,获得全基因组bin数目;
使用所述参考背景数据库,统计每个bin的拷贝数值logR,所述logR值的计算公式为:
Figure 448814DEST_PATH_IMAGE002
计算膀胱癌患者样本尿液中cfDNA染色体区域的拷贝数阈值;
将拷贝数值大于所述拷贝数阈值的bin判定为发生拷贝数变异的bin;
计算发生拷贝数变异的bin数目占全基因组bin数目的比例,获得各临床样本的拷贝数变异负荷;
根据所述拷贝数变异负荷,计算灵敏度、特异度和约登指数,选取最佳临界值作为染色体不稳定性为阳性的判断阈值,完成染色体拷贝数变异程度评估模型的构建。
所述参考背景数据库的构建方法,优选包括如下步骤:
提取健康人的尿液上清cfDNA进行浅层全基因组测序;
测序结果与参考基因组比对去重;
对人体除Y染色体以外的23个染色体进行bin划分,并计算区域覆盖度;
通过整个基因组的平均覆盖度标准化每一个bin的覆盖度,根据参考基因组的GC比例、测序深度和比对的偏好性,进行均一化校正,得到所述参考背景数据库。
所述膀胱癌患者样本尿液中cfDNA染色体区域的拷贝数阈值的计算方法,优选包括如下步骤:
分别对正常人样本和膀胱癌患者样本的拷贝数变异值进行皮尔逊相关性检验,剔除弱相关样本;
计算每个值非NA的bin非NA的拷贝数logR值,并按正常人样本和膀胱癌患者样本分别统计取均值,得到logRnormal和logRtumor;对所有的logRnormal取均值,计算每个logRtumor偏离logRnormal均值的偏离值,并对偏离值取均值,获得膀胱癌患者拷贝数阈值;计算公式为:
Figure 822027DEST_PATH_IMAGE003
式中,bin个数为去除值为NA的bin后的全基因组bin数目。
所述膀胱癌患者拷贝数阈值优选为0.9。
本发明要解决的技术问题之三是提供基于上述模型的染色体拷贝数变异程度评估方法。该方法用上述染色体拷贝数变异程度评估模型计算样本的拷贝数变异负荷,然后根据拷贝数变异负荷的值评估样本染色体拷贝数变异程度。
所述拷贝数变异负荷的具体计算方法,优选包括如下步骤:
提取尿液上清cfDNA样本,进行浅层全基因组二代测序;
对测序数据进行序列比对去重,计算每个bin的reads数目;
将每个bin的reads数目和健康人尿液上清cfDNA参考背景数据库中每个bin的reads数目相比,计算logR值;
将拷贝数logR值大于膀胱癌患者拷贝数阈值的bin判定为发生拷贝数变异的bin;
计算发生拷贝数变异的bin的数目与全基因组bin的数目的比值,获得拷贝数变异负荷。
染色体拷贝数变异程度评估标准优选为:当拷贝数变异负荷高于4%时,样本染色体不稳定性判定为阳性。
本发明要解决的技术问题之四是提供上述染色体拷贝数变异程度评估模型和评估方法的用途。该评估模型和评估方法可用于尿路上皮癌患者的术后监测。
本发明构建尿液上清循环游离DNA背景库,应用二代测序技术对膀胱癌患者尿液上清中的循环游离DNA样本进行低覆盖全基因组测序,检测膀胱癌不同进展时期患者的全基因组染色体不稳定区域,然后通过染色体拷贝数变异负荷模型计算拷贝数变异负荷,判定膀胱癌患者的染色体不稳定性状态,实现对膀胱癌患者的术后监测。与现有技术相比,本发明的染色体拷贝数变异程度评估模型及评估方法具有以下优点和有益效果:
1.尿液样本易于获得,尿液cfDNA采样侵入性小,可以及时、多次采样,反复检测,实现对患者疾病状态的动态监控,有利于对患者响应状态和预后风险的实时评价;
2.相对于基因单个位点的突变,拷贝数变异在肿瘤发生中的贡献率更大,能够解决突变检测敏感性和特异性差的问题;
3.相对于FISH检测,通量更大,准确性更高;
4.对尿液取样要求低,检测使用尿液上清的cfDNA,不依赖于尿液中的肿瘤细胞数目即可完成准确的检测,可以克服因尿液中肿瘤细胞数量不足而导致的检测范围局限性,提高检测的准确性和特异性;
5.检测所需DNA起始量低(仅需1-2ng),尿液采集量只需5-10ml,提升了技术可及性;
6.适用范围广,可适用于所有尿路上皮癌,只要肿瘤破碎释放出的游离DNA能进入到尿液当中,就可以使用本发明的染色体拷贝数变异程度评估模型及方法对肿瘤患者进行术后监测。
附图说明
图1是一个膀胱癌样本的全基因组bin的肿瘤分数检测和异质性评价图。横坐标为染色体位点,纵坐标为拷贝数log2值。处于坐标轴上方的染色体位点代表染色体片段发生扩增;处于坐标轴下方的染色体位点代表染色体片段发生缺失;线段代表该片段发生的是亚克隆事件。其中,样本中肿瘤的含量(Tumor Fraction)为0.3282;样本肿瘤的倍性(Ploidy)为2.5;发生亚克隆的DNA占肿瘤DNA的比例(Subclone Fraction)为0.521;发生亚克隆的bin占全基因组bin的比例(Fraction Genome Subclonal)为0.25;发生亚克隆的bin占全基因组发生拷贝数变异的bin的比例(Fraction CNA Subclonal)为0.32。
图2是一个膀胱癌样本全基因组水平bin的染色体不稳定性分组图。其中tumor+(肿瘤阳性)的bin比例达到79.6%;tumor likely(可能肿瘤)的bin比例为8.2%;Normallikely(可能正常)的bin比例为8.1%;Normal+(正常)的bin比例为4.1%。
图3是去除不合格样本后的数据集的尿液上清cfDNA全基因组肿瘤阳性的bin百分比分布图。
图4是ROC曲线图。
具体实施方式
为对本发明的技术内容、特点与功效有更具体的了解,现结合附图及具体实施方式,对本发明的技术方案做进一步详细的说明。
实施例1 染色体拷贝数变异程度评估模型的构建
1.健康人尿液上清cfDNA背景库的生成
由于cfDNA片段一般在166bp左右,测序读数(reads)长度为150bp,双端测序会产生一定比例的重叠区域。因此,本发明选取1M bp进行bin的划分,克服在100-200bp大小的重叠区域双倍计数的影响。
提取30例健康人的尿液上清cfDNA进行浅层全基因组测序(sWGS),分别与h19参考基因组比对去重后生成BAM文件,然后使用readCounter软件对人体除Y染色体以外的23个染色体以1M bp步移窗口划分,计算区域覆盖度并生成WIG文件。通过整个基因组的平均覆盖度标准化每一个窗口的覆盖度,根据参考基因组的GC比例、测序深度和比对的偏好性,使用HMMcopy进行均一化校正。最后生成健康人尿液cfDNA的参考背景数据库,用于纠正由DNA建库、测序平台和特异性的cfDNA而产生的系统性误差,降低噪音,提高准确性。
2.测序数据预处理
从NCBI数据库下载18例临床样本(包括9例经过临床诊断为膀胱癌的样本和9例正常人样本)的尿液上清cfDNA的sWGS测序数据,经与参考基因组比对去重后,使用健康人尿液cfDNA的参考背景数据库,运行ichorCNA,进行低深度cfDNA样本的全基因组CNV(拷贝数变异)和肿瘤分数(tumor fraction)的检测(图1显示了其中一个膀胱癌样本全基因组水平bin的肿瘤分数检测和异质性评价结果),获取软件的运算结果。
以1M bp大小设置每个bin的大小(bin的长度为1M bp时,可以更好的摒除种系的拷贝数变异),均匀覆盖整个基因组,总共得到2954个bin,去除值为NA的bin,总共有2510个bin入选数据集。统计每个bin的logR值,计算公式为:
Figure 810711DEST_PATH_IMAGE004
3.CNV的阈值划分
(1)正常人尿液中的DNA染色体区域的拷贝数计算
对9例正常人群样本的CNV值进行皮尔逊相关性检验,剔除弱相关样本1例。
对于每个bin非NA的logR值进行统计取均值得到logRnormal,然后对所有的logRnormal值取均值,计算偏离值范围取均值,获得正常人尿液中循环游离的DNA染色体区域的拷贝数阈值为0.19。计算公式如下:
Figure 687400DEST_PATH_IMAGE005
式中,bin个数为2510个。
(2)膀胱癌患者尿液中循环游离的DNA染色体区域的拷贝数计算
对9例膀胱癌患者人群样本的CNV值进行皮尔逊相关性检验,剔除弱相关样本1例。
对于每个bin非NA的logR值进行统计取均值得到logRtumor,然后对所有的logRnormal值取均值,计算偏离值范围取均值,获得膀胱癌患者尿液中循环游离的DNA染色体区域的拷贝数阈值为0.90。计算公式如下:
Figure 103338DEST_PATH_IMAGE006
式中,bin个数为2510个。
4.CNV-Burden(拷贝数变异负荷)模型构建
(1)染色体不稳定性bin的分组
根据上述第3步获得的CNV的阈值,对16例临床样本中的每个样本的bin进行分组,拷贝数值为0~0.19:正常(Normal+);拷贝数值为0.19~0.545:可能正常(Normallikely);拷贝数值为0.545~0.9:可能肿瘤(Tumor likely);拷贝数值>0.9:肿瘤(Tumor+)。
其中,拷贝数值即logR值;Normal likely的拷贝数阈值0.545为正常人尿液cfDNA染色体区域的拷贝数阈值0.19和膀胱癌患者尿液cfDNA染色体区域的拷贝数阈值0.90之和的平均值。
图2显示了其中一个膀胱癌样本全基因组水平bin的染色体不稳定性分组。
(2)拷贝数变异负荷的计算
计算拷贝数变异负荷,即发生拷贝数变异(Tumor+分组)的bin数目占全基因组bin数目的比例。计算公式如下:
Figure 432688DEST_PATH_IMAGE007
根据16例临床样本的拷贝数变异负荷分布,计算灵敏度、特异度和约登指数并选取最佳临界值。当拷贝数变异负荷等于4%时,灵敏度和特异度达到最佳。因此,当拷贝数变异负荷超出4%时,样本染色体不稳定性判定为阳性。
实施例2 膀胱癌患者尿液上清cfDNA中染色体CNV变异程度评估
1.尿液循环游离DNA样本的实验室预处理和浅层全基因组二代测序
(1)酶切片段化
取出 KAPA Fragmentase Buffer 常温融解,混合均匀,置于冰上备用,取出 KAPAFragmentase置于冰上,混合均匀,瞬时离心备用。
在冰上配制片段化体系:Fragmentase Buffer 2.5µL,Fragmentase 5µL,DNA溶液17.5µl,总体积25µL。混合均匀,瞬时离心放置冰上。
在 PCR 仪上启动反应程序Cycling Program I,待温度稳定至4℃时将反应管放进PCR仪进行PCR反应,PCR反应程序如表1所示。
表1
Figure 222134DEST_PATH_IMAGE008
(2)末端补平加A
上述步骤(1)的反应结束后,根据表2体系,向上述反应PCR管中加入酶反应mix,涡旋混匀离心,设置表3所示程序,在PCR仪上进行反应。
表2
Figure 484488DEST_PATH_IMAGE009
表3
Figure 71327DEST_PATH_IMAGE010
将接头连接步骤所需的接头、酶试剂拿出,放2-8℃冰箱或者冰盒上融化。
将磁珠从2-8℃冰箱中拿出,置于室温平衡30min以上。配制足量的80%乙醇。
准备PCR反应管,最终收集1.5mL离心管,做好标记,准备足量的琼脂糖凝胶用于最终文库跑胶。
(3)接头连接
在步骤(2)的PCR程序结束前5-10min,将提前拿出的接头和酶试剂轻弹混匀离心,根据表4体系配制酶试剂混合溶液,涡旋混匀并短暂离心后,加入到步骤(2)的PCR反应后的体系中。然后分别加入相应adapter 1.5µL(10µM),设置表5所示程序在PCR仪上进行反应。
表4
Figure 419132DEST_PATH_IMAGE011
表5
Figure 749619DEST_PATH_IMAGE012
(4)磁珠纯化
待步骤(3)的PCR程序结束后,将样本取出,将Hieff NGS™ DNA Selection Beads磁珠充分涡旋混匀后,加44µL磁珠到上述反应后的PCR管中,充分涡旋混匀,室温孵育5min。将PCR管瞬时离心后放置在磁力架上,等待5min,直到管内溶液完全澄清,小心移除上清。保持PCR管在磁力架上,加入200µL新鲜配制的80%乙醇,室温孵育至少30s。小心吸取并丢掉乙醇,不要碰到磁珠。
重复上述步骤一次(总共两次清洗)。
将PCR管从磁力架上取下,离心后置于磁力架上,将剩余的乙醇吸取干净,室温下开盖将磁珠晾干,磁珠表面不湿润反光,勿过度干燥开裂,加入21µL H2O,涡旋混匀,静置2min。将PCR管放置在磁力架上,等待2min直到管内溶液完全澄清,小心吸取20µL上清到新的0.2mL PCR管中。
(5) PCR扩增
配制表6所示试剂,涡旋混匀并短暂离心。设置表7所示程序,在PCR仪上进行反应。
表6
Figure 866480DEST_PATH_IMAGE013
表7
Figure 892729DEST_PATH_IMAGE014
加50µL涡旋混匀的Hieff NGS™ DNA Selection Beads磁珠到上述反应后的PCR管中,充分涡旋混匀,室温孵育5 min。将PCR管放置在磁力架上,等待5 min,直到管内溶液完全澄清,小心移除上清。保持PCR管在磁力架上,加入200µL新鲜配制的80%乙醇,室温孵育至少30s。小心吸取并丢掉乙醇,不要碰到磁珠。重复该磁珠纯化步骤一次(总共两次清洗)。
将PCR管从磁力架上取下,离心后置于磁力架上将剩余的乙醇吸取干净,室温下开盖将磁珠晾干,勿过干。加入24µL H2O到离心管中,充分涡旋重悬磁珠,室温下放置2 min。置于磁力架上,等待1min,待上清澄清后取23µL至新的PCR管中。
(6)文库QC和测序
Qubit定量:取1µL文库用Qubit® dsDNA HS Assay Kit定量,具体操作参见《Thermofish Qubit 4.0使用和保养标准操作规程》。
Qsep100片段分析:文库浓度<15ng/µL时,取1µL文库稀释到0.1-0.5ng/µL,用Qsep400检测,具体操作参见《Qsep400全自动核酸分析系统标准操作规程》。
根据测序仪说明书,使用Illumina测序仪进行上机测序。
2.测序数据的预处理
利用BWA MEM算法对DNA测序的原始数据进行序列比对,利用Picard(2.0.1)算法中的MarkDuplicates功能对比对后的序列进行去重,产生待测尿液样本的去重后测序文件urine_deduped.bam文件。以去重后的测序bam文件为输入文件,运行Broad研究所开发的ichorCNA(0.1.0)软件。通过计算每个bin的reads数目,然后对每个bin的reads数目进行GC、mappability 以及深度差异的校正,校正后的每个bin的reads数目和构建的30例健康人尿液上清cfDNA参考背景数据库的Normal Panel中的相应bin的reads数目相比,计算得到logR值,计算公式如下:
Figure 727830DEST_PATH_IMAGE015
3. CNV-Burden模型对全基因组染色体稳定性评价
根据CNV的阈值,对每个待测样本的bin进行分组,利用CNV-Burden模型对待测样本进行全基因组染色体稳定性评价。
表8截取了4例样本的染色体稳定性结果。其中,两例样本拷贝数变异负荷远低于4%,染色体稳定性判断为稳定,为健康人样本;两例样本拷贝数变异负荷远高于4%,染色体稳定性判断为不稳定,为膀胱癌患者样本。
表8全基因组尿液cfDNA样本的染色体稳定性评价
Figure 596429DEST_PATH_IMAGE016
实施例3 CNV-Burden算法的准确性评价
收集98例临床确诊的尿路上皮癌患者和102例对照组(健康人和非尿路上皮癌的其他尿路疾病患者)的尿液上清cfDNA样本,采用实施例2的方法,通过全基因组测序,用实施例1构建的CNV-burden模型,比较尿路上皮癌患者与对照组的染色体异常情况,样本发生染色体不稳定判定为阳性,否则判定为阴性,并将CNV-burden模型的分析结果与金标准病理结果进行比较,去除DNA不合格的样本(11例)和病理诊断结果不完整的样本(16例),结果如图3和表9所示,计算本发明的拷贝数变异程度评估方法的灵敏度和特异性,得到ROC曲线(参见图4)。发现本发明的评估方法的准确性达89.02%,敏感性86.67%,特异性90.81%,ROC曲线的AUC面积达0.94。
表9 CNV-Burden 算法性能评估表
Figure 833375DEST_PATH_IMAGE017
实施例4 一例膀胱癌患者的术后监测
一例膀胱癌患者在自2019年10月至2021年8月的接近两年时间内,每3-6个月寄送一次尿液上清进行浅层WGS测序,并运用本发明的染色体CNV变异程度评估模型和方法进行评估。通过CNV-burden模型发现,伴随着治疗的深入,该患者染色体不稳定性正在逐渐缓解,2019年10月至2021年3月染色体不稳定性阳性高风险降低。同时,发现该患者的肿瘤分数由2019年时的28%逐渐降低至2021年8月的0,表明该患者尿路上皮癌风险降低。参见表10。
表10 一例膀胱癌患者术后监测数据
Figure 293175DEST_PATH_IMAGE018
上述实施例仅为本发明的可行或较佳实施例而已,是用来说明本发明的,并非用以限制本发明申请专利的范围,因此,凡依本发明申请专利范围所作的均等变化与修饰,均应属于本发明专利涵盖的范围。

Claims (14)

1.染色体拷贝数变异程度评估模型,其特征在于,所述模型根据拷贝数变异负荷评估染色体拷贝数变异程度,所述拷贝数变异负荷为发生拷贝数变异的bin的数目与全基因组bin的数目的比值。
2.根据权利要求1所述的模型,其特征在于,发生拷贝数变异的bin为拷贝数值大于膀胱癌患者拷贝数阈值的bin。
3.根据权利要求2所述的模型,其特征在于,拷贝数值logR的计算公式为:
Figure 618029DEST_PATH_IMAGE001
4.根据权利要求3所述的模型,其特征在于,所述膀胱癌患者拷贝数阈值为0.9;所述拷贝数值logR的计算公式中,cfDNA样本为尿液上清cfDNA样本;待测cfDNA样本每个bin的reads数目经过了GC、mappability 以及深度差异的校正;健康人cfDNA样本每个bin的reads数目为健康人尿液上清cfDNA参考背景数据库的Normal Panel中的每个bin的reads数目。
5.根据权利要求1-4任一项所述的模型,其特征在于,每个bin的长度为1M bp,bin的值非NA。
6.染色体拷贝数变异程度评估模型的构建方法,所述方法非用于疾病的诊断和治疗目的,其特征在于,步骤包括:
构建健康人尿液cfDNA参考背景数据库;
将临床样本尿液cfDNA测序数据与参考基因组比对去重后,进行低深度全基因组拷贝数变异和肿瘤分数检测;
设置每个bin的长度,去除值为NA的bin,获得全基因组bin数目;
使用所述参考背景数据库,统计每个bin的拷贝数值logR,所述logR值的计算公式如下:
Figure 759160DEST_PATH_IMAGE002
计算膀胱癌患者样本尿液中cfDNA染色体区域的拷贝数阈值;
将拷贝数值大于所述拷贝数阈值的bin判定为发生拷贝数变异的bin;
计算发生拷贝数变异的bin数目占全基因组bin数目的比例,获得各临床样本的拷贝数变异负荷;
根据所述拷贝数变异负荷,计算灵敏度、特异度和约登指数,选取最佳临界值作为染色体不稳定性为阳性的判断阈值,完成染色体拷贝数变异程度评估模型的构建。
7.根据权利要求6所述的方法, 其特征在于,所述参考背景数据库的构建方法,包括如下步骤:
提取健康人的尿液上清cfDNA进行浅层全基因组测序;
测序结果与参考基因组比对去重;
对人体除Y染色体以外的23个染色体进行bin划分,并计算区域覆盖度;
通过整个基因组的平均覆盖度标准化每一个bin的覆盖度,根据参考基因组的GC比例、测序深度和比对的偏好性,进行均一化校正,得到所述参考背景数据库。
8.根据权利要求6所述的方法,其特征在于,所述拷贝数阈值的计算方法,包括如下步骤:
分别对正常人样本和膀胱癌患者样本的拷贝数变异值进行皮尔逊相关性检验,剔除弱相关样本;
计算每个值非NA的bin的拷贝数logR值,并按正常人样本和膀胱癌患者样本分别统计取均值,得到logRnormal和logRtumor;对所有的logRnormal取均值,计算每个logRtumor偏离logRnormal均值的偏离值,并对偏离值取均值,获得膀胱癌患者拷贝数阈值;计算公式为:
Figure 593823DEST_PATH_IMAGE003
式中,bin个数为去除值为NA的bin后的全基因组bin数目。
9.根据权利要求6或8所述的方法,其特征在于,所述膀胱癌患者拷贝数阈值为0.9。
10.染色体拷贝数变异程度评估方法,所述方法非用于疾病的诊断和治疗目的,其特征在于,用权利要求1-5任一项所述模型计算样本的拷贝数变异负荷,并根据所述拷贝数变异负荷的值评估样本染色体拷贝数变异程度。
11.根据权利要求10所述的方法,其特征在于,所述拷贝数变异负荷的计算方法,包括如下步骤:
提取尿液上清cfDNA样本,进行浅层全基因组二代测序;
对测序数据进行序列比对去重,计算每个bin的reads数目;
将每个bin的reads数目和健康人尿液上清cfDNA参考背景数据库中相应bin的reads数目相比,按照以下公式计算得到拷贝数logR值:
Figure 427787DEST_PATH_IMAGE004
将拷贝数logR值大于膀胱癌患者拷贝数阈值的bin判定为发生拷贝数变异的bin;
计算发生拷贝数变异的bin的数目与全基因组bin的数目的比值,获得拷贝数变异负荷。
12.根据权利要求11所述的方法,其特征在于,当拷贝数变异负荷高于4%时,样本染色体不稳定性判定为阳性。
13.权利要求1-5任一项所述模型在尿路上皮癌患者术后监测中的应用,所述应用非疾病诊断和治疗目的。
14.权利要求10-12任一项所述方法在尿路上皮癌患者术后监测中的应用,所述应用非疾病诊断和治疗目的。
CN202210408054.6A 2022-04-19 2022-04-19 染色体拷贝数变异程度评估模型、方法及应用 Active CN114724631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210408054.6A CN114724631B (zh) 2022-04-19 2022-04-19 染色体拷贝数变异程度评估模型、方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210408054.6A CN114724631B (zh) 2022-04-19 2022-04-19 染色体拷贝数变异程度评估模型、方法及应用

Publications (2)

Publication Number Publication Date
CN114724631A true CN114724631A (zh) 2022-07-08
CN114724631B CN114724631B (zh) 2023-06-16

Family

ID=82242971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210408054.6A Active CN114724631B (zh) 2022-04-19 2022-04-19 染色体拷贝数变异程度评估模型、方法及应用

Country Status (1)

Country Link
CN (1) CN114724631B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117524301A (zh) * 2024-01-04 2024-02-06 北京泛生子基因科技有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409088A (zh) * 2011-09-22 2012-04-11 郭奇伟 一种基因拷贝数变异的检测方法
US20130122499A1 (en) * 2011-11-14 2013-05-16 Viomics, Inc. System and method of detecting local copy number variation in dna samples
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN111028888A (zh) * 2018-10-09 2020-04-17 北京贝瑞和康生物技术有限公司 一种全基因组拷贝数变异的检测方法及其应用
CN113674803A (zh) * 2021-08-30 2021-11-19 广州燃石医学检验所有限公司 一种拷贝数变异的检测方法及其应用
WO2022033000A1 (zh) * 2020-08-12 2022-02-17 臻悦生物科技江苏有限公司 一种基于二代测序技术测定基因组不稳定的方法及试剂盒

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409088A (zh) * 2011-09-22 2012-04-11 郭奇伟 一种基因拷贝数变异的检测方法
US20130122499A1 (en) * 2011-11-14 2013-05-16 Viomics, Inc. System and method of detecting local copy number variation in dna samples
CN107287285A (zh) * 2017-03-28 2017-10-24 上海至本生物科技有限公司 一种预测同源重组缺失机制及患者对癌症治疗响应的方法
CN111028888A (zh) * 2018-10-09 2020-04-17 北京贝瑞和康生物技术有限公司 一种全基因组拷贝数变异的检测方法及其应用
WO2022033000A1 (zh) * 2020-08-12 2022-02-17 臻悦生物科技江苏有限公司 一种基于二代测序技术测定基因组不稳定的方法及试剂盒
CN113674803A (zh) * 2021-08-30 2021-11-19 广州燃石医学检验所有限公司 一种拷贝数变异的检测方法及其应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117524301A (zh) * 2024-01-04 2024-02-06 北京泛生子基因科技有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN117524301B (zh) * 2024-01-04 2024-04-09 北京泛生子基因科技有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质

Also Published As

Publication number Publication date
CN114724631B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN110910957B (zh) 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法
KR101817785B1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
CN106834502A (zh) 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
CN105349654B (zh) 一种用于检测egfr基因突变的探针、引物、检测体系及试剂盒
CN111394456B (zh) 早期肺腺癌患者预后评估系统及其应用
Crisafulli et al. Whole exome sequencing analysis of urine trans-renal tumour DNA in metastatic colorectal cancer patients
CN112592971B (zh) 一种与系统性红斑狼疮相关的生物标志物及其应用
CN112609015A (zh) 一种预测结直肠癌风险的微生物标志物及其应用
CN114724631A (zh) 染色体拷贝数变异程度评估模型、方法及应用
Peng et al. Identification of a novel prognostic signature of genome instability-related LncRNAs in early stage lung adenocarcinoma
CN113362893A (zh) 肿瘤筛查模型的构建方法及应用
CN117079723B (zh) 一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用
CN116206681A (zh) 一种免疫浸润细胞模型的预后基因对价值评价方法
CN111690747B (zh) 一种与早中期结肠癌相关的联合标记物、检测试剂盒以及检测系统
WO2023142625A1 (zh) 一种甲基化测序数据过滤方法及应用
CN116741272A (zh) 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法
CN113782087B (zh) 一种慢性淋巴细胞白血病sscr风险模型及其建立方法和应用
WO2022156610A1 (zh) 基于基因检测判断肝癌药物敏感性和远期预后的预测工具及其应用
CN112695081A (zh) 原发性胆汁性胆管炎新的易感基因及其应用
CN112481380A (zh) 一种评估晚期膀胱癌抗肿瘤免疫治疗反应性和预后生存的标志物及其应用
CN113195741A (zh) 从循环核酸中鉴定全基因组序列数据中的全局序列特征
CN110317877A (zh) 一组染色体不稳定变异在制备诊断尿路上皮癌、评估预后的试剂或试剂盒中的应用
CN117165683B (zh) 用于评估同源重组修复缺陷的生物标志物及其应用
CN115976200B (zh) 一种评估子宫内膜容受性相关复发流产风险的试剂盒及其应用
CN117625793B (zh) 一种卵巢癌生物标志物的筛选方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant