CN110736834A - 基于高通量测序法筛查和诊断肝癌的方法、装置和系统 - Google Patents

基于高通量测序法筛查和诊断肝癌的方法、装置和系统 Download PDF

Info

Publication number
CN110736834A
CN110736834A CN201810797508.7A CN201810797508A CN110736834A CN 110736834 A CN110736834 A CN 110736834A CN 201810797508 A CN201810797508 A CN 201810797508A CN 110736834 A CN110736834 A CN 110736834A
Authority
CN
China
Prior art keywords
chromosome
arm
chromosomes
liver cancer
imbalance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810797508.7A
Other languages
English (en)
Inventor
魏国鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Gezhi Gene Biotechnology Co Ltd
Original Assignee
Nanjing Gezhi Gene Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Gezhi Gene Biotechnology Co Ltd filed Critical Nanjing Gezhi Gene Biotechnology Co Ltd
Priority to CN201810797508.7A priority Critical patent/CN110736834A/zh
Publication of CN110736834A publication Critical patent/CN110736834A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57438Specifically defined cancers of liver, pancreas or kidney
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6893Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/435Assays involving biological materials from specific organisms or of a specific nature from animals; from humans
    • G01N2333/46Assays involving biological materials from specific organisms or of a specific nature from animals; from humans from vertebrates
    • G01N2333/47Assays involving proteins of known structure or function as defined in the subgroups
    • G01N2333/4701Details
    • G01N2333/4746Cancer-associated SCM-recognition factor, CRISPP

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Cell Biology (AREA)
  • Biotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及基于高通量测序法筛查肝癌、尤其是AFP阴性疑似肝癌的方法、装置和系统。本发明的方法、装置和系统能够通过一次快速非侵入式检测出可能的AFP阴性疑似肝癌。

Description

基于高通量测序法筛查和诊断肝癌的方法、装置和系统
技术领域
本发明涉及医学和生物学领域。具体而言,本发明涉及医学检测。更具体而言,本发明涉及通过基因组检测方法对肝癌进行诊断、筛查和风险分级。
背景技术
肝癌是在世界范围内严重威胁人类的生命和健康的一种癌症。肝癌分为原发性肝癌和继发性肝癌。我国是世界上原发性肝癌发生的主要国家之一,每年新诊断原发性肝癌占全世界55%,由原发性肝癌导致的死亡率在所有恶性肿瘤中位列第二位。原发性肝癌主要包括肝细胞癌(HCC)、肝内胆管癌(ICC)和HCC-ICC混合型三种不同病理类型,其中肝细胞癌占到85%-90%以上。数据统计显示:晚期肝癌5年生存率接近0,早期肝癌经根治性手术治疗后,5年生存率可达60%以上。但肝癌起病隐匿,早期无特异性症状,约80%的患者首诊已进入晚期,失去根治性手术机会。另外,即便实施根治性手术治疗,5年内仍有60%至70%患者出现转移复发,能够进行再次根治性手术切除患者的比率非常的低。肝癌患者5年总体生存率仅为7%左右。
肝癌的筛查主要是在高危人群中进行。患肝癌的高危人群包括以下情形:(1)肝炎病毒感染;(2)食物黄曲霉毒素污染;(3)长期酗酒;(4)蓝绿藻类毒素污染;(5)其他肝脏代谢疾病、自身免疫性疾病以及隐原性肝病或隐原性肝硬化等。国家卫生和计划生育委员会建议高危人群每隔6个月至少进行1次检查。
目前筛查和诊断肝癌的主要手段包括检测肿瘤标记物血清甲胎蛋白(alpha-fetoprotein,AFP)和肝脏超声检查。具体而言,AFP是目前全世界应用最广泛的肝癌肿瘤标志物,已经应用了数十年,其敏感性在不同国家/地区达到40%~60%不等,特异性达到60%~70%不等。AFP检测是当前诊断肝癌常用且重要的方法,诊断标准:AFP浓度≥400μg/L,排除慢性或活动性肝炎、肝硬化、睾丸或卵巢胚胎源性肿瘤以及妊娠等。国内最新多中心回顾性临床研究对33700例肝癌手术切除病人统计分析显示:38%的肝细胞癌病人的甲胎蛋白正常,35%的肝细胞癌病人甲胎蛋白高于正常但低于400ng/ml,剩余27%的肝细胞癌病人甲胎蛋白水平高于400ng/ml。由此可见,AFP检测不能充分反映受试者患肝细胞癌的情况。因此,找寻一种新的血液肿瘤标志物或能够更准确、高效地筛查和诊断肝癌(尤其是AFP阴性的疑似肝癌)的方法,具有重大的意义。
cfDNA(cell-free DNA)是血浆中的游离DNA,而ctDNA(circulating tumor DNA,循环肿瘤DNA)代表cfDNA的一小部分。ctDNA是一种游离在血浆中的小片段DNA,由凋亡或坏死的肿瘤细胞中的基因组入血产生,因此携带有原发瘤或转移瘤特定的基因特征。ctDNA获取方便且较为稳定。
染色体不平衡是恶性肿瘤的特征之一,是指相对于常见的二倍体基因组发生的基因组结构变异,包括染色体数量的改变,如多倍体或单倍体;也包括染色体局部的改变,如拷贝数增加或拷贝数缺失等。染色体的不平衡可通过基因剂量效应直接改变基因的表达水平,或调控其他基因的表达,因此,染色体的不平衡在肿瘤的发生发展有着重要的意义。通过研究ctDNA来反映染色体的平衡态可能对肿瘤的定性具有一定的可行性和意义。
NGS(下一代测序技术)可一次对几十万到几百万条DNA分子进行序列测定,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。
本领域对于寻找对肝癌、尤其是AFP阴性的疑似肝癌进行筛查和诊断的方法存在迫切需求。然而,据了解,迄今为止,尚无通过NGS来对肝癌进行快速诊断、尤其是早期诊断的有效方法。本发明人首次发现一种基于NGS方法通过研究ctDNA的重组后的染色体不平衡态,从而进行肝癌、尤其是AFP阴性疑似肝癌的筛查、诊断和风险分级。
发明内容
本文提供了用于进行肝癌、尤其是AFP阴性疑似肝癌筛查、诊断和风险分级的系统和方法。特别地,本文提供了用于通过高通量测序进行肝癌、尤其是AFP阴性疑似肝癌的筛查、诊断和风险分级的方法、装置和系统。
本发明利用高通量测序技术,从分子生物学层面上解决AFP阴性疑似肝癌筛查,诊断肿瘤标记物AFP阴性伴肝部结节恶性可能;肿瘤标记物AFP阴性需要进行疗效监控的临床问题。本发明的方法、装置和系统通过一次快速非侵入式检测即能够检测可能的肝癌。
具体而言,本发明涉及以下方面,各方面之间的各技术方案可以根据需要进行组合。
在本发明的第一个方面,涉及用于对肝癌进行筛查、诊断或风险分级的一组染色体,该组染色体包含第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体中的至少1条,例如,1条、2条、3条、4条、5条、6条、7条、8条、9条、10条、11条、12条、13条、14条、15条、16条或17条。在一个具体实施方案中,所述染色体来自于人类受试者。在一个具体实施方案中,该组染色体为第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体的组合。在一个进一步的具体实施方案中,该组染色体为分离的。
在一个具体实施方案中,所述诊断为早期诊断。在进一步的具体实施方案中,所述诊断为体外诊断。在更进一步的具体实施方案中,所述诊断为体外诊断AFP阴性疑似肝癌。
在本发明的第二个方面,涉及一种计算机可读介质,其上存储有指令,其中当所述指令被处理器执行时,使得计算机执行以下操作:
判断来自受试者(例如人)的样品的第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体中至少1条是否存在染色体不平衡(例如染色体长臂拷贝数与短臂拷贝数的差异是否高于或等于阈值,再如染色体长臂覆盖度与短臂覆盖度的差异是否高于或等于阈值);
例如,将来自受试者的样品的第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体中至少1条的染色体结构信息(例如测定染色体不平衡、染色体长臂拷贝数与短臂拷贝数的差异、或染色体长臂覆盖度与短臂覆盖度的差异所需的结构信息)与来自健康个体的相应染色体的染色体结构信息进行比较,以确定来自所述个体的样品中上述染色体是否存在染色体不平衡。
在一个具体实施方案中,在染色体不平衡(例如染色体长臂拷贝数与短臂拷贝数的差异高于或等于阈值,再如染色体长臂覆盖度与短臂覆盖度的差异高于或等于阈值)的情况下,判断为受试者患有肝癌或者存在患肝癌的风险。
在某些具体实施方案中,所述受试者为人。在一个具体实施方案中,所述受试者中存在超过诊断标准的肿瘤标记物AFP浓度。在一个具体实施方案中,所述受试者中不存在超过诊断标准的肿瘤标记物AFP浓度。在上述具体实施方案中,作为诊断标准的肿瘤标记物AFP浓度为400ng/ml。
在一个具体实施方案中,通过以下方式进行判断染色体不平衡:
将受试者(例如人)的全基因组数据序列(例如高通量测序技术获得的全基因组数据序列)比对到参考基因组(例如人类参考基因组Hg19),并例如按照10-1000k/bin(例如50k/bin),平均分成多个段(例如bin);
分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covChriq)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covChrip);
根据下列公式,计算第i号染色体的R值
Figure BDA0001736274130000051
Figure BDA0001736274130000052
Figure BDA0001736274130000053
其中q代表长臂,p代表短臂,Chr为染色体(chromosome)的缩写,i选自1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22。
在进一步的具体实施方案中,基于R值,根据公式(2)计算第i号染色体的Z-score(即,
Figure BDA0001736274130000054
):
Figure BDA0001736274130000055
其中
Figure BDA0001736274130000056
是健康人群所对应的R值的平均数,
Figure BDA0001736274130000057
是健康人群所对应的R值的标准偏差;
此外,在进一步优化的实施方案中,也将各染色体臂的不平衡加入计算过程中,根据各染色体短臂上读长(reads)的平均数(covChrip)和各染色体长臂上读长(reads)的平均数(covChriq);根据公式(3a)和(3b)计算第i号染色体相应短臂p的Z-score和长臂q的Z-score
Figure BDA0001736274130000059
Figure BDA0001736274130000061
Figure BDA0001736274130000062
其中
Figure BDA0001736274130000063
是健康人群所对应的第i号染色体短臂的读长的平均数,
Figure BDA0001736274130000064
是健康人群所对应的第i号染色体长臂的读长的平均数;
任选地,选择染色体或染色体臂Z-score的绝对值大于等于3的染色体,根据公式(4),求最后整体的不平衡度量CScore值:
Figure BDA0001736274130000065
在进一步的具体实施方案中,其中所述样品来自受试者的外周血,优选外周静脉血。更具体地,所述样品为外周静脉血血浆中的游离DNA。
在进一步的具体实施方案中,当满足以下条件之一时,将认为受试者存在染色体不平衡:
-某一条染色体或染色体臂的Z-score绝对值≥3;或
-CScore>0;
当满足以下条件之一时,将认为受试者不存在染色体不平衡:
-所有染色体和染色体臂的Z-score绝对值<3;或
-CScore=0。
在进一步的具体实施方案中,在任一染色体或染色体臂的Z-score的绝对值大于等于3或者CScore>0的情况下,判断为受试者患有肝癌或者存在患肝癌的风险。
本发明的第三方面涉及一种计算设备,其包含:
本发明的计算机可读介质;和
处理器。
本发明的第四方面涉及一种系统,其包含:
测序装置,其用于接收来自试验样品的核酸以提供来自该样品的核酸序列信息(例如,通过高通量测序技术获得的全基因组数据序列);以及
本发明的计算设备。
在一个具体实施方案中,所述测序装置为高通量测序仪,例如,包括高通量测序仪Illumina MiSeq、NextSeq、HiSeq、X10、NovaSeq。
在进一步的具体实施方案中,所述高通量测序技术为下一代测序技术。
本发明的第五方面涉及检测第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体中的至少1条的染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异,更优选染色体和染色体臂覆盖度的差异)的试剂在制备对肝癌进行筛查、诊断或风险分级的诊断剂中的用途。
本发明的第六方面涉及检测第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体中的至少1条的染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异,更优选染色体和染色体臂覆盖度的差异)的装置在制备对肝癌进行筛查、诊断或风险分级的设备中的用途。
在本发明的第七方面,涉及一种用于对肝癌进行筛查、诊断或风险分级的设备,该设备包括:
判断装置,其用于测定来自受试者(例如人)的样品的第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体或染色体臂中至少1条是否存在染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异,更优选染色体和染色体臂覆盖度的差异);
筛查、诊断或风险分级装置,其基于染色体或染色体臂不平衡的存在与否,对肝癌进行筛查、诊断或风险分级。
在一个具体实施方案中,所述设备进一步包括测序装置。
在一个具体实施方案中,所述判断装置通过以下方式进行判断染色体不平衡:
将受试者(例如人)的全基因组数据序列(例如高通量测序技术获得的全基因组数据序列)比对到参考基因组(例如人类参考基因组Hg19),并例如按照10-1000k/bin(例如50k/bin),平均分成多个段(例如bin);
分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covChriq)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covChrip);
根据下列公式,计算R值:
Figure BDA0001736274130000081
Figure BDA0001736274130000082
其中q代表长臂,p代表短臂,Chr为染色体(chromosome)的缩写,i选自1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22;
基于R值,根据公式(2)计算第i号染色体的Z-score(即,):
其中
Figure BDA0001736274130000085
是健康人群所对应的R值的平均数,
Figure BDA0001736274130000086
是健康人群所对应的R值的标准偏差;
此外,在进一步优化的实施方案中,也将各染色体臂的不平衡加入计算过程中,根据各染色体短臂上读长(reads)的平均数(covChrip)和各染色体长臂上读长(reads)的平均数(covChriq);根据公式(3a)和(3b)也计算第i号染色体相应短臂p和长臂q的Z-score:
Figure BDA0001736274130000091
其中
Figure BDA0001736274130000093
是健康人群所对应的第i号染色体短臂的读长的平均数,
Figure BDA0001736274130000094
是健康人群所对应的第i号染色体长臂的读长的平均数;
任选地,选择染色体或染色体臂Z-score的绝对值大于等于3的染色体,根据公式(4),求最后整体的不平衡度量CScore值:
在进一步的具体实施方案中,当满足以下条件之一时,将认为受试者存在染色体不平衡:
-某一条染色体或染色体臂的Z-score绝对值≥3;或
-CScore>0;
当满足以下条件之一时,将认为受试者不存在染色体不平衡:
-所有染色体和染色体臂的Z-score绝对值<3;或
-CScore=0。
在进一步的具体实施方案中,在任一染色体或染色体臂的Z-score的绝对值大于等于3或者CScore>0的情况下,判断为受试者患有肝癌或者存在患肝癌的风险。
在本发明的第八方面,涉及一种检测受试者中染色体或染色体臂不平衡的方法,其包括:
判断来自受试者(例如人)的样品的第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体或染色体臂中至少1条是否存在染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异,更优选染色体和染色体臂覆盖度的差异);
例如,将来自受试者的样品的第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21、22号染色体中至少1条的染色体或染色体臂结构信息(例如测定染色体或染色体臂拷贝数变异所需的结构信息)与来自健康个体的相应染色体或染色体臂的染色体结构信息进行比较,以确定来自所述个体的样品中上述染色体是否存在染色体不平衡。
在本发明的第九方面,涉及一种用于对肝癌进行筛查、诊断或风险分级的方法,其包括以下步骤:
将通过高通量测序技术获得的人类受试者的全基因组数据序列比对到人参考基因组Hg19,并按照50k/bin,分成多个bin;
分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covChriq)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covChrip);
根据下列公式,计算第i号染色体的R值
Figure BDA0001736274130000101
Figure BDA0001736274130000102
Figure BDA0001736274130000103
其中q代表长臂,p代表短臂,Chr为染色体(chromosome)的缩写,i选自1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22;
在进一步的具体实施方案中,基于R值,根据公式(2)计算第i号染色体的Z-score:
Figure BDA0001736274130000111
其中
Figure BDA0001736274130000112
是健康人群所对应的R值的平均数,
Figure BDA0001736274130000113
是健康人群所对应的R值的标准偏差;
并且,根据各染色体短臂上读长(reads)的平均数(covChrip)和各染色体长臂上读长(reads)的平均数(covChriq);根据公式(3a)和(3b)也计算第i号染色体相应短臂p和长臂q的Z-score:
Figure BDA0001736274130000115
任选地,选择染色体和染色体臂Z-score的绝对值大于等于3的染色体,根据公式(4),求最后整体的不平衡度量CScore值:
Figure BDA0001736274130000116
当某一染色体或染色体臂的Z-score绝对值≥3时,则认为该染色体存在不平衡;当某一染色体和染色体臂的Z-score绝对值<3时,则认为该染色体为正常染色体;
进一步,当满足以下条件之一时,将受试者诊断为肝癌患癌高风险患者:
-所选染色体中至少一条染色体或染色体臂的Z-score绝对值≥3;或
-CScore>0;
当满足以下条件之一时,将受试者诊断为肝癌患癌低风险患者:
-所选染色体中所有染色体和染色体臂的绝对值<3;或
-CScore=0。
在一个具体实施方案中,所述方法与用于诊断肝癌的其他方法组合。所述其他方法包括肿瘤标记物甲胎蛋白(AFP)水平测定、影像学诊断(包括动态增强CT、核磁共振MRI)。
本发明的有益效果
本发明至少在以下方面取得了出人意料的有益效果:
1.本发明从分子生物学水平上进一步提高肝癌的筛出率,尤其是对AFP阴性的疑似肝癌筛出率,减少假阳性和假阴性。
2.本发明的方法具备敏感性、特异性、准确性高的优点。
3.本发明提出高通量测序法用于血浆cfDNA测序,能够有效地检测肿瘤的染色体平衡状态。
4.本发明提出了用一次检测,避免甲胎蛋白(AFP)假阳性、假阴性高的难题,肿瘤组织检测的侵入性及CT等影像学检查的辐射等问题。
5.本方法适用于测序深度0.01以上的所有测序深度和测序量。
发明详述
下面将结合具体实施方式对本发明的实施方案进行详细描述,但是,本领域技术人员将理解,下列实施例仅用于说明本发明,而不是对本发明的范围的限定。根据优选实施方案的下列详细描述,本发明的各种目的和有利方面对于本领域技术人员来说将变得明显。
定义
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所涉及的实验室操作步骤均为相应领域内广泛使用的常规步骤。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。
如本文中使用的,术语“染色体”是指是细胞核中载有遗传信息的物质,在显微镜下呈圆柱状或杆状,主要由DNA和蛋白质组成。从着丝粒到染色体两端之间的部分称为染色体臂,如果着丝粒不在染色体的中央,则可区分为长臂(q)和短臂(p)。两臂的长度对于鉴别染色体是重要的。
如本文中使用的,术语“DNA”即脱氧核糖核酸(Deoxyribonucleic acid),是染色体的主要组成成分,同时也是主要遗传物质。
如本文中使用的,术语“ctDNA”即是一种游离在血浆中的小片段DNA,由凋亡或坏死的肿瘤细胞中的基因组入血产生,因此携带有原发瘤或转移瘤特定的基因特征。
如本文中使用的,术语“高通量测序(High-throughput sequencing)”(又被称为下一代测序(Next-generation sequencing))是指能一次并行对几十万到几百万条DNA分子进行序列测定的测序技术。
如本文中使用的,术语“测序深度”(Sequencing Depth)表示测序得到的碱基总量(bp)与基因组大小的比值,是评价测序量的指标之一。
如本文中使用的,术语“读长(reads)”,也称为读出序列,是指测序反应所能测得序列的长度。如果DNA序列长度高于读长,那么必须把DNA序列分割成长度在读长以内短序列才能测序。
如本文中使用的,术语“序列比对”是指使读长(reads)通过序列一致性原则对齐到标准参考基因组(例如标准人参考基因组)上。
如本文中使用的,术语“通量”是指单位时间内所能产生的数据量,是测序速度、测序数量的综合体现。
如本文中使用的,术语“甲胎蛋白(AFP)”是一种糖蛋白,属于白蛋白家族,主要由胎儿肝细胞及卵黄囊合成,在胎儿血液循环中具有较高的浓度,出生后则下降,至出生后2~3月甲胎蛋白基本被白蛋白替代,血液中较难检出,正常成人血液中含量极低。甲胎蛋白具有很多重要的生理功能,包括运输功能、作为生长调节因子的双向调节功能、免疫抑制、T淋巴细胞诱导凋亡等。甲胎蛋白与肝癌及多种其他肿瘤的发生发展密切相关,在多种肿瘤中均可表现出较高浓度,可作为多种肿瘤的阳性检测指标。目前临床上主要作为原发性肝癌的血清标志物,用于原发性肝癌的诊断及疗效监测。
如本文中使用的,术语“AFP阴性受试者”意指AFP浓度高于诊断标准(即AFP浓度≥400μg/L)的受试者。
如本文中使用的,术语“AFP阴性受试者”意指AFP浓度低于诊断标准(即AFP浓度<400μg/L)的受试者。在某些具体实施方案中,“AFP阴性受试者”为AFP检查为阴性的肝病患者。
如本文中使用的,术语“体外”是指人造环境以及在人造环境内发生的过程或反应。体外环境可以由试管和细胞培养物组成但不限于试管和细胞培养物。术语“体内”是指天然环境(例如动物或细胞)以及在天然环境中发生的过程或反应。
如本文中使用的,术语“敏感性”是指患者中得出阳性检测的样本占患者总数的百分比。在医学诊断中,敏感性可通过如下公式表示,反映正确判断患者的比率:
敏感性=真阳性人数/(真阳性人数+假阴性人数)*100%。
如本文中使用的,术语“特异性”是指健康人中得出阴性检测的样本占健康人总数的百分比。在医学诊断中,特异性可通过如下公式表示,反映正确判断非患者的比率:
特异性=真阴性人数/(真阴性人数+假阳性人数)*100%。
如本文中使用的,术语“漏诊率”又称假阴性率,是指在一个群体中进行某疾病的筛检或诊断时,实际有病的受试者,按诊断标准被定为非患者的百分率。在医学诊断中,漏诊率可通过如下公式表示:
漏诊率=假阴性人数/(真阳性人数+假阴性人数)*100%。
如本文中使用的,术语“误诊率”又称假阳性率,是指在一个群体中进行某疾病的筛检或诊断时,实际没有病的受试者,按诊断标准被定为患者的百分率。在医学诊断中,误诊率可通过如下公式表示:
误诊率=假阳性人数/(真阴性人数+假阳性人数)*100%。
如本文中使用的,术语“健康人群”是指未患有肝癌风险也不存在患肝癌风险的个体。
如本文中使用的,术语“Z-score”,也称为Z分数或标准分数(standard score),是一个数与平均数的差再除以标准差的过程。在统计学中,标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。在统计学中,Z-score通过如下公式进行表示:
Figure BDA0001736274130000151
其中μ为总体平均值,X-μ为离均差,σ表示总体标准偏差。
如本文中使用的,术语“分离的”是指使被检测对象离开受试者(例如人)的体内环境。
如本文中使用的,术语“约”应该被本领域技术人员理解,并将随其所用之处的上下文而有一定程度的变化。如果根据术语应用的上下文,对于本领域技术人员而言,其含义不是清楚的,那么“约”的意思是偏差不超过所述特定数值或范围的正负10%。
除非上下文另外清楚地指示,否则单数形式“一个”、“一种”以及“所述”包括复数形式的指代物。类似地,除非上下文另外清楚地指示,否则词语“或”意图包括“和”。
高通量测序技术
高通量测序技术又称“下一代”测序技术,是相对于传统的桑格测序(SangerSequencing)而言的,以能够一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。同时,高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为“深度测序”。
随着高通量测序技术的迅猛发展,科学界也开始越来越多地应用高通量测序技术来解决生物学和医学问题。比如在基因组水平上对还没有参考序列的物种进行从头测序,获得该物种的参考序列,为后续研究和分子育种奠定基础;对有参考序列的物种,进行全基因组重测序,在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。在转录组水平上进行全转录组测序,从而开展可变剪接、编码序列单核苷酸多态性(cSNP)等研究;或者进行小分子RNA测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,与染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。高通量测序技术的诞生可谓基因组学研究领域一个具有里程碑意义的事件。
高通量测序一般通过以下步骤进行:
1.样本准备
2.文库构建
3.测序反应
4.数据分析
在本发明的方法中,总体上涉及以下步骤:
1.收集血浆
(1)采集受试者外周血12ml(6ml*2)置于EDTA抗凝管中,立即轻柔颠倒混合采血管10次,获得新鲜血液。
(2)在采集新鲜血液4小时之内,将其于4℃、1600g离心10分钟。
(3)离心后将上清液(血浆)分装到多个1.5ml离心管中。
(4)将步骤(3)中收集的上清液于4℃、16000g离心10分钟,去除残余细胞;将上清液(即血浆)分装到新的1.5ml离心管中。
2.提取cfDNA
可以通过本领域已知的方式提取cfDNA。
Kapa DNA打断酶(如实施例中所述的蛋白酶K)可以有效地将双链DNA进行片段化,而且不限DNA种类和起始量(1ng-1ug),片段化的程度由酶切的时间和温度控制。打断后的DNA可以直接用于二代测序的文库构建,效果和Covaris机器打断效果相当;–15℃以下储存,有效期6个月。尽量避免反复冻融,冻融次数应不能超过5次。运输过程中试剂盒采用冰袋加干冰包装进行运输。
3.建库测序
DNA文库的建立和染色体测序可通过本领域已知的方式进行。
在本发明的具体事实方案中,通过以下方式进行:
(1)纯化用磁珠室温放置30分钟备用;
(2)磁珠涡旋混匀,每个样品中加入0.6X磁珠(加每个样品前都要再次混匀磁珠)。用200μl移液器吸打10次,混匀样品。样品室温混合5分钟;
(3)样品放在磁力架上,室温静置5分钟,直到液体变清澈;
(4)用200μl移液器将上清液转移到新的1.5ml离心管中,标记相应编号;
(5)磁珠涡旋混匀,每个新离管心中加入初始样本体积0.3X磁珠(加每个样品前都要再次混匀磁珠)。用200μl移液器吸打10次,混匀样品。样品室温混合5分钟;
(6)用200μl移液器移除上清液(注意:不要搅动磁珠),并立刻加入200μl 80%乙醇,吹打两次,磁力架上静置1分钟;
(7)将乙醇吸出后,再次加入200μl 80%乙醇,吹打两次,磁力架上静置30秒;
(8)吸干样品中的液体,在磁力架上晾干10分钟;
(9)加入32μl无核酸酶水,取下样品管,枪头吹打至磁珠全部混匀;
(10)室温放置2分钟后,再次放置在磁力架上5分钟,直到液体变清澈;
(11)吸出30μl液体至1.5mlL离心管中;
(12)使用Illumina MiSeq、NextSeq、HiSeq、X10、NovaSeq以及任何读长超过30bp的测序平台产生测序数据。
在本申请实施例中,将进一步详细描述具体操作步骤。
目前市场上高通量测序平台的代表及其原理如下表所示:
表1
Figure BDA0001736274130000191
任何适宜的高通量测序平台均可用于本发明。优选地,在本发明中所用的测序技术为由Illumina提供的测序平台,包括但不限于MiSeq、NextSeq、HiSeq、X10、NovaSeq。Illumina测序采用边合成边测序技术(Sequencing by sythesis,SBS)。
染色体不平衡
染色体不平衡,又称染色体失衡。染色体不平衡是恶性肿瘤的特征之一,是指相对于常见的二倍体基因组发生的基因组结构变异。广义上的染色体不平衡包括染色体数量的改变,如多倍体或单倍体;也包括染色体局部的变异,如拷贝数增加或拷贝数缺失等。
狭义的染色体不平衡则指非整倍性。
在二倍体中,非整倍体变异有四种主要类型。
1.非整倍性缺体性
丢失一对同源染色体,即细胞的染色体数为2n-2。
2.非整倍性单体性
丢失单条染色体,即细胞的染色体数为2n-1。
3.非整倍性三体性
增加一条额外的染色体,即染色体组中有一条染色体具有三个拷贝。即细胞的染色体数为2n+1。
4.非整倍性四体性
增加一对额外的染色体,使染色体组中有一条染色体具有四个拷贝。即细胞的染色体数为2n+2。
染色体臂不平衡
与染色体不平衡类似,染色体臂上出现的数量的改变,染色体臂范围的拷贝数增加或丢失。
染色体或染色体臂的不平衡可通过基因剂量效应直接改变基因的表达水平,或调控其他基因的表达,因此,染色体或染色体臂的不平衡在肿瘤的发生发展有着重要的意义。通过研究ctDNA来反映染色体的平衡态可能对与肿瘤的定性具有一定的意义。
在本申请中,染色体或染色体臂不平衡可表现为染色体长臂拷贝数与短臂拷贝数之间存在差异导致的染色体不平衡,染色体臂单独的扩增或缺失造成的不平衡。染色体或染色体臂不平衡可以通过高通量测序技术测得的染色体和染色体臂拷贝数的差异,染色体和染色体臂覆盖度的差异来显示,所述差异可以为待测者与健康人群之间的比值或差值。在染色体或染色体臂不平衡(例如染色体臂拷贝数和染色体整体上的拷贝数差异高于阈值,再如染色体臂覆盖度和染色体整体上的覆盖度差异高于阈值)的情况下,判断为受试者患有肝癌。
在现有技术中,通过无创DNA、染色体原位杂交(FISH)、微阵列、基因芯片、染色体核型等方式来获得染色体结构信息,分析染色体及染色体臂不平衡。
在本申请中,本发明人出人意料地发现,判断特定的染色体是否存在不平衡,能够用于对肝癌进行诊断、筛查或风险分级。本发明人还出人意料地发现,通过特定的计算模型,计算染色体整体和染色体臂维度的Z-score和CScore的值,来判断受试者中是否存在染色体或染色体臂范围的不平衡,进而对肝癌、尤其是AFP阴性疑似肝癌进行诊断、筛查或风险分级。
具体而言,首先,将通过高通量测序技术获得的人类受试者的全基因组数据序列比对到人参考基因组Hg19,并按照50k/bin,平均分成多个bin;
分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covChriq)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covChrip);
根据下列公式,计算R值:
Figure BDA0001736274130000211
Figure BDA0001736274130000212
其中q代表长臂,p代表短臂,Chr为染色体(chromosome)的缩写,i选自1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22;
在进一步的具体实施方案中,基于R值,根据公式(2)计算第i号染色体的Z-score:
Figure BDA0001736274130000213
其中
Figure BDA0001736274130000214
是健康人群所对应的R值的平均数,
Figure BDA0001736274130000215
是健康人群所对应的R值的标准偏差;
并且,根据各染色体短臂上读长(reads)的平均数(covChrip)和各染色体长臂上读长(reads)的平均数(covChriq);根据公式(3a)和(3b)也计算第i号染色体相应短臂p和长臂q的Z-score:
Figure BDA0001736274130000221
Figure BDA0001736274130000222
任选地,选择染色体和染色体臂Z-score的绝对值大于等于3的染色体,根据公式(4),求最后整体的不平衡度量CScore值:
再次,当某一染色体或染色体臂的Z-score绝对值≥3时,则认为该染色体存在不平衡;当某一染色体的Z-score绝对值<3时,则认为该染色体为正常染色体。
进一步,当满足以下条件之一时,将受试者诊断为肝癌患癌高风险患者:
-所选染色体中至少一条染色体或染色体臂的Z-score绝对值≥3;或
-CScore>0;
当满足以下条件之一时,将受试者诊断为肝癌患癌低风险患者:
-所选染色体中所有染色体和染色体臂的绝对值<3;或
-CScore=0。
肝癌
肝癌是临床上最常见的恶性肿瘤之一,居恶性肿瘤的第五位,在我国属于高发病,发病人数约占全球的半数以上,80%的肝癌患者合并有肝硬化,目前最有效的治疗方法仍是外科手术切除,但患者就诊时大多属于中晚期,适合手术切除的患者低于30%。又因肝癌的多中心起源、肿瘤临近大血管和胆管以及合并肝硬化导致肝脏储备功能差等因素,使根治性手术切除率低,术后肿瘤复发率高。
因此,临床上迫切需要更有效的提早检测肝癌患者的手段,提早发现并治疗对肝癌患者和风险人群十分重要。目前肝癌诊断和预后检测手段在血液检测中最特异性指标是甲胎蛋白(AFP)用于人群普查、肝癌诊断及鉴别诊断、判断预后、疗效和复发,但有一定局限性,国内最新多中心回顾性临床研究对33700例肝癌手术切除病人统计分析显示38%的肝细胞癌病人的甲胎蛋白正常,35%的病人甲胎蛋白高于正常但低于400ng/ml,剩余27%病人甲胎蛋白水平大于400ng/ml可以确诊,肝癌AFP阳性率约为27%。而其他肝脏肿瘤、生殖系统肿瘤、消化系统肿瘤、孕妇及新生儿AFP水平亦可升高,故必须结合临床症状与超声检查才可确诊。因此,一种标准化的、非侵入式的、基于基因水平的检测AFP阴性疑似肝癌的方法将大大有利于疑似肝癌患者和潜在风险人群,从而早发现、早确认、早治疗。
肝癌的分期主要是跟瘤体大小,有无侵犯到肝脏以外的器官,有无淋巴转移,有无远处转移。肝癌分期主要可分为以下四期,即第一期(I期)、第二期(II期)、第三期(III期,包括IIIA期、IIIB期和IIIC期)和第四期(IV期)。
I期:一个肿瘤,未扩散到周围血管。
II期:发现以下任一情况:
一个肿瘤,已扩散到周围血管;或
多个肿瘤,均小于5cm。
IIIA期:发现以下任一情况:
多个大于5cm的肿瘤;或
一个肿瘤,已扩散到肝脏周围血管的主要分支。
IIIB期:发现以下情况:
一个或多个任一尺寸的肿瘤:
扩散到除胆囊以外的周围器官;
穿过腹膜腔壁。
IIIC期:癌症已扩散到周围淋巴结。
IV期:发现以下情况:
远处转移;
腹水存在时需找到恶性细胞;
肝转移(累及肝实质)。
cfDNA和ctDNA
cfDNA(cell-free DNA)是血浆中的游离DNA,以高浓度在癌症患者的外周血中循环。而ctDNA(循环肿瘤DNA)代表cfDNA的一小部分,由凋亡或坏死的肿瘤细胞中的基因组入血产生,因此携带有原发瘤或转移瘤特定的基因特征。
试剂盒
用于进行本文所描述的方法的试剂、工具和/或说明书可以被提供于试剂盒中。例如,试剂盒可以包含用于确定癌症患者的适当疗法的试剂、工具以及说明书。这种试剂盒可以包括用于从患者收集组织(如血液)的试剂,和用于处理所述组织的试剂。所述试剂盒还可以包括用于测定的适当的缓冲液。还可以包括这些测定中的任一种所需的检测试剂。
本文所表征的试剂盒还可以包括一份说明书,它描述了如何进行这些测定。试剂盒中所包括的信息材料可以是涉及本文所描述的方法和/或用于本文所描述的方法的试剂的使用的描述性、指导性、销售或其它材料。例如,试剂盒的信息材料可以包含联系信息,例如物理地址、电子邮件地址、网站或电话号码,其中试剂盒的使用者可以获得关于进行基因表达分析和解释结果的大量信息。
病理诊断和筛查标准
在病理诊断和筛查中,通常采用敏感性、特异性、漏诊率、误诊率和准确度作为诊断标准。
“敏感性”是指患者中得出阳性检测的样本占患者总数的百分比。在医学诊断中,敏感性可通过如下公式表示,反映正确判断患者的比率:
敏感性=真阳性人数/(真阳性人数+假阴性人数)*100%。
“特异性”是指健康人中得出阴性检测的样本占健康人总数的百分比。在医学诊断中,特异性可通过如下公式表示,反映正确判断非患者的比率:
特异性=真阴性人数/(真阴性人数+假阳性人数)*100%。
“漏诊率”又称假阴性率,是指在一个群体中进行某疾病的筛检或诊断时,实际有病的受试者,按诊断标准被定为非患者的百分率。在医学诊断中,漏诊率可通过如下公式表示:
漏诊率=假阴性人数/(真阳性人数+假阴性人数)*100%。
“误诊率”又称假阳性率,是指在一个群体中进行某疾病的筛检或诊断时,实际没有病的受试者,按诊断标准被定为患者的百分率。在医学诊断中,误诊率可通过如下公式表示:
误诊率=假阳性人数/(真阴性人数+假阳性人数)*100%。
简而言之,如果真阳性、假阳性、真阴性和假阴性分别以a、b、c、d来表示,则敏感性、特异性、漏诊率、误诊率和准确度的关系可以如下所示。
表2
Figure BDA0001736274130000261
采用本方法筛查结果为阳性的病例数中,真阳性(a)表示病理诊断为患病,同时本方法结果也为阳性的病例数;假阳性(b)表示病理诊断为无病,同时本方法结果也为阳性的病例数;假阴性(c)表示病理诊断为患病,本方法结果也为阴性的病例数;真阴性(d)表示病理诊断为无病,同时本方法结果也为阴性的病例数。
敏感性(sen)=a/(a+c);
特异性(sep)=d/(b+d);
漏诊率=c/(a+c);
误诊率=b/(b+d);
准确度=(a+d)/(a+b+c+d)
如本领域技术人员所知晓,敏感性和特异性的值越高越好;漏诊率和误诊率值越低越好。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例
实施例1.收集血浆
通过以下方式收集血浆:
(1)采集受试者外周血12ml(6ml*2)置于EDTA抗凝管中,立即轻柔颠倒混合采血管10次,获得新鲜血液。
(2)在采集新鲜血液4小时之内,将其于4℃、1600g离心10分钟。
(3)离心后将上清液(血浆)分装到多个1.5ml离心管中。
(4)将步骤(3)中收集的上清液于4℃、16000g离心10分钟,去除残余细胞;将上清液(即血浆)分装到新的1.5ml离心管中。
实施例2.提取血浆中的cfDNA
采用标准Qiagen游离DNA提取试剂盒(QIAGEN,QiaAmp DNA Blood Mini Kit,55114),按照说明书操作,每4mL外周血提取1-50ng DNA。
具体操作步骤如下:
(1)取1管血浆冰上融解后,加入100mL的QIAGEN蛋白酶K。
(2)加入0.8mL Buffer ACL(事先加入1.0yg carrier RNA)盖上管盖,涡旋30s,直至管内液体呈均相。
(3)60℃孵育
Figure BDA0001736274130000271
分钟。
(4)加入1.8mL的Buffer ACB,涡旋混匀
Figure BDA0001736274130000272
冰置5分钟。
(5)将QIAamp微柱插入置于QIAvac 24Plus的Vac连接器内,将20mL管扩展器插入QIAamp微柱内。
(6)将第(4)步所得的裂解混合液小心加入QIAamp微柱的管扩展器内,打开真空泵,待所有裂解液均从管内完全渗下,关闭真空泵,释压至Ombar,小心取出管扩展器并弃去。
(7)向管内加入600yL Buffer ACW1,保持管盖打开,打开真空泵,让Buffer ACW1完全渗透过QIAamp微柱,关闭真空泵,释压至Omba。
(8)向QIAamp微柱内加入750mL Buffer ACW2;保持管盖打开,开启真空泵,让ACW2buffer完全渗过QIAamp微柱,关闭真空泵,释压至Ombars。
(9)加入750此乙醇(96-100%)至QIAamp微柱,保持管盖开启,打开真空泵使所有乙醇完全渗下,关闭真空泵,释压至Ombars。
(10)关闭管盖;将QIAamp微柱从真空歧管上取下,丢弃Vac连接器;将QIAamp微柱放置于新的2mL连接管上,全速离心(20,000x g;14,000rpm)3分钟。
(11)将QIAamp微柱放置于新的2mL收集管,打开管盖,56℃孵育10分钟。
(12)将QIAamp微柱放置于新的1.5mL洗脱管上,弃去上一步的收集管;小心向膜中间加入
Figure BDA0001736274130000281
的Buffer AVE。关上管盖,室温孵育3分钟。
(13)全速离心(20,000x g;14,000rpm)1分钟以洗脱核酸,收集得到血浆游离双链DNA。
实施例3.建立测序文库
(1)纯化用磁珠室温放置30分钟备用;
(2)磁珠涡旋混匀,每个样品中加入0.6X磁珠(加每个样品前都要再次混匀磁珠)。用200μl移液器吸打10次,混匀样品。样品室温混合5分钟;
(3)样品放在磁力架上,室温静置5分钟,直到液体变清澈;
(4)用200μl移液器将上清液转移到新的1.5ml离心管中,标记相应编号;
(5)磁珠涡旋混匀,每个新离管心中加入初始样本体积0.3X磁珠(加每个样品前都要再次混匀磁珠)。用200μl移液器吸打10次,混匀样品。样品室温混合5分钟;
(6)用200μl移液器移除上清液(注意:不要搅动磁珠),并立刻加入200μl 80%乙醇,吹打两次,磁力架上静置1分钟;
(7)将乙醇吸出后,再次加入200μl 80%乙醇,吹打两次,磁力架上静置30秒;
(8)吸干样品中的液体,在磁力架上晾干10分钟;
(9)加入32μl无核酸酶水,取下样品管,枪头吹打至磁珠全部混匀;
(10)室温放置2分钟后,再次放置在磁力架上5分钟,直到液体变清澈;
(11)吸出30μl液体至1.5mlL离心管中。
实施例4.高通量测序
使用Illumina X10测序仪,对于在实施例2中得到的经扩增的DNA片段文库,自该DNA片段文库的一端或两端开始进行测序,从测得的序列减去接头(Adapter)和样本标签(barcode),并且去除噪音(如低质量区域)而得到样品DNA片段的序列,即有效读长(reads)。
实施例5.序列比对
(1)有效读长(reads)与标准人参考基因组的比对
使用BWA-MEM软件(http://bio-bwa.sourceforge.net),将实施例3中得到的有效读长(reads)比对到标准人参考基因组,并将该比对结果以每段50kb的大小分别写入多个*.bin格式的文件中。
(2)对比对到标准人参考基因组的读长(reads)的个数的统计
从(1)中得到诸多*.bin文件中选取人i号染色体(Chri)的长臂和短臂所覆盖的多个*.bin文件,并计算所选取的*.bin文件中比对到标准人参考基因组上的有效读长(reads)的个数的平均数(covChrip和covChriq,其中q代表长臂,p代表短臂)。
实施例6.判断染色体不平衡的存在与否
使用计算模型如下计算染色体平衡态分值(染色体整体和染色体臂的Z-score和CScore)。
(1)将受试者的全基因组数据序列比对到人参考基因组,并按照50k/bin分成多个bin;
(2)分别计算染色体长臂和短臂覆盖到的bin的读长(reads)的平均数(cov);
(3)根据公式(1),通过长臂reads平均数除以短臂reads平均数,计算第i号染色体的R值
Figure BDA0001736274130000301
Figure BDA0001736274130000302
Figure BDA0001736274130000303
其中q代表长臂,p代表短臂,chr为染色体(chromosome)的缩写,i代表某条染色体;
(4)利用上一步骤得出的R值,计算第i号染色体的Z-score
Figure BDA0001736274130000311
Figure BDA0001736274130000312
其中μ为由健康人群计算得出的R的平均数,σ为由健康人群计算得出的标准差;
并且,根据各染色体短臂上读长(reads)的平均数(covChrip)和各染色体长臂上读长(reads)的平均数(covChriq);根据公式(3a)和(3b)也计算第i号染色体相应短臂p和长臂q的Z-score:
Figure BDA0001736274130000313
Figure BDA0001736274130000314
(5)任选地,利用公式(2)和公式(3a)、公式(3b)计算得出的Z-score的绝对值大于等于3的染色体,通过公式(4),求CScore值:
实施例7.染色体或染色体臂不平衡以及患肝癌的风险判断
在实施例6的基础上,通过计算得到的染色体和染色体臂的平衡态分值(包括Z-score绝对值和CScore),判断染色体和染色体臂是否存在异常、患者是否存在患肝癌的风险、以及风险高低。
1、异常染色体:某一染色体Z-score绝对值≥3
2、正常染色体:某一染色体Z-score绝对值<3
3、异常染色体臂:某一染色体臂的Z-score绝对值≥3
4、正常染色体臂:某一染色体臂的Z-score绝对值<3
5、患癌高风险
当满足以下条件之一时,将受试者诊断为肝癌高风险患者:
-某一条染色体或染色体臂的Z-score绝对值≥3;或
-CScore>0。
6、患癌低风险
当满足以下条件之一时,将受试者诊断为肝癌低风险患者:
-所有染色体和染色体臂的Z-score绝对值<3;或
-CScore=0。
实施例8.AFP阴性受试者中肝癌的筛查与诊断
受试者情况:接受检测的受试者为一名55岁中年男性,因“体检腹部B超提示有肝硬化”入院。经检查,AFP浓度为2.06u/ml,处于正常值范围内。腹部B超示:肝内多发不均质回声结节、早期肝硬化、胆囊多发息肉样病变伴钙化,胆囊继发改变。进一步行腹部MR示:肝S8含脂质占位性病变,考虑小肝癌、早期肝硬化、轻度脂肪肝,脾、副脾、肝左外叶异常信号。
筛查对象:第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体
通过实施例6中提供的公式,针对该受试者计算上述各染色体和染色体臂的Z-score。在以下表3中列出Z-score大于3的染色体的编号及其Z-score。
表3
染色体编号 Z-score
1 3.25
如表3所示,经计算得出,第1号染色体的Z-score为3.25。鉴于第1号染色体的Z-score≥3,判断该患者患肝癌风险高。
本实施例表明:通过本发明的方法,对上述第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体的筛查,能够对肝癌进行早期诊断,尤其是对AFP检查为阴性的肝病患者。
实施例9.AFP阳性受试者中肝癌的筛查与诊断
受试者情况:接受检测的受试者为一名60岁中年女性,因“因前胸出现蜘蛛痣至当地医院就诊,化验示HBsAg阳性,肝功异常”入院。检查AFP水平为4386u/ml,远超出正常参考值。经影像学(MR)显示:肝S6占位,考虑肝癌,动脉期肝内异常强化影,考虑灌注异常,双肾多发小囊肿(部分为复杂囊肿)。
筛查对象:第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体
通过实施例6中提供的公式,针对该受试者计算上述各染色体和染色体臂的Z-score。在以下表4中列出Z-score大于3的染色体臂的编号及其Z-score。:
表4
染色体编号 Z-score
9p -3.59
注:“9p”表示第9号染色体短臂
鉴于第9号染色体短臂的Z-score绝对值≥3,判断该患者患肝癌风险较高。
本实施例表明:通过本发明的方法,对第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体的筛查,能够有效地检查出受试者患肝癌的风险。
实施例10.数据统计和诊断分析
本研究纳入总计52名受试者。对这些受试者根据本申请的公式(1a)、(1b)、(2)、(3a)、(3b)及(4)计算Z-score和CScore,将Z-score的绝对值≥3以及Cscore>0的受试者的Z-score和CScore列示于下表5。
表5
Figure BDA0001736274130000341
Figure BDA0001736274130000361
Figure BDA0001736274130000371
注:上表中,i表示染色体编号,q表示相应染色体长臂,p表示相应染色体短臂。
结果表明:根据本发明的方法,当筛查对象为第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体时,第1-15号受试者均被诊断为肝癌(Z-score≥3,或CScore>0)。病理证实,第1-18号(18位)受试者均为肝癌患者,第19-52号(34位)受试者为非肝癌患者。在本实施例中,通过本发明的方法对于肝癌的筛查,敏感性为83.3%(15/18),特异性为100%(34/34),准确性为94.2%(49/52),漏检率为16.7%(3/18),误诊率为0%(0/34)。特别地,在本实施例中,通过本发明的方法进行肝癌检测的敏感性(83.3%)远高于使用AFP进行肝癌检测的敏感性11.1%(2/18)。
以上结果表明,本发明的方法可以简便、高效地诊断和筛查肝癌,尤其是AFP阴性疑似肝癌。相比AFP检测,本发明具备敏感性、特异性和准确性都非常高以及漏检率和误诊率低的优点,相对于现有技术取得了出人意料的技术效果。
尽管本发明的具体实施方式已经得到详细的描述,但本领域技术人员将理解:根据已经公开的所有教导,可以对细节进行各种修改和变动,并且这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims (16)

1.用于对肝癌进行筛查、诊断或风险分级的一组染色体,该组染色体包含第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体中的至少1条。
2.根据权利要求1所述的一组染色体,其为第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体的组合。
3.根据权利要求1或2所述的一组染色体,其为人类染色体。
4.一种计算机可读介质,其上存储有指令,其中当所述指令被处理器执行时,使得计算机执行以下操作:
判断来自受试者(例如人)的样品的第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体中至少1条是否存在染色体或染色体臂的不平衡;
例如,将来自受试者的样品的第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体中至少1条的染色体或染色体臂结构信息与来自健康个体的相应染色体或染色体臂的染色体结构信息进行比较,以确定来自所述个体的样品中上述染色体是否存在染色体或染色体臂的不平衡。
5.根据权利要求4所述的计算机可读介质,其中所述染色体或染色体臂的不平衡包括染色体长臂拷贝数与短臂拷贝数的差异高于或等于阈值、染色体长臂覆盖度与短臂覆盖度的差异高于或等于阈值。
6.根据权利要求4所述的计算机可读介质,其中所述染色体或染色体臂结构信息包括测定染色体不平衡、染色体长臂拷贝数与短臂拷贝数的差异、或染色体长臂覆盖度与短臂覆盖度的差异所需的结构信息。
7.根据权利要求4-6任一项所述的计算机可读介质,其中通过以下方式进行判断染色体不平衡:
将受试者(例如人)的全基因组数据序列(例如高通量测序技术获得的全基因组数据序列)比对到参考基因组(例如人的参考基因组Hg19),并例如按照10-1000k/bin(例如50k/bin),平均分成多个段(例如bin);
分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covChriq)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covChrip);
根据下列公式,计算第i号染色体的R值
Figure FDA0001736274120000021
Figure FDA0001736274120000022
其中q代表长臂,p代表短臂,Chr为染色体(chromosome)的缩写,i选自1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22。
8.根据权利要求7所述的计算机可读介质,基于R值,根据公式(2)计算第i号染色体的Z-score(ZChri):
Figure FDA0001736274120000024
其中是健康人群所对应的R值的平均数,
Figure FDA0001736274120000034
是健康人群所对应的R值的标准偏差;
或者,根据公式(3a)和(3b)计算第i号染色体相应长臂q的
Figure FDA00017362741200000310
和短臂p的
Figure FDA00017362741200000311
Figure FDA0001736274120000031
其中
Figure FDA0001736274120000038
是健康人群所对应的第i号染色体长臂的读长的平均数,
Figure FDA0001736274120000039
是健康人群所对应的第i号染色体短臂的读长的平均数;
任选地,选择染色体或染色体臂Z-score的绝对值大于等于3的染色体,根据公式(4),求最后整体的不平衡度量CScore值:
Figure FDA0001736274120000033
9.根据权利要求4-8任一项所述的计算机可读介质,其中所述样品为外周血,优选外周静脉血,更优选外周静脉血中的游离DNA。
10.根据权利要求4-9任一项所述的计算机可读介质,其中,
当满足以下条件之一时,将认为受试者存在染色体不平衡:
-某一条染色体或染色体臂的Z-score绝对值≥3;或
-CScore>0;
当满足以下条件之一时,将认为受试者不存在染色体不平衡:
-所有染色体和染色体臂的Z-score绝对值<3;或
-CScore=0。
11.一种计算设备,其包含:
根据权利要求4-10任一项所述的计算机可读介质;和
处理器。
12.一种系统,其包含:
测序装置,其用于接收来自试验样品的核酸以提供来自该样品的核酸序列信息(例如,通过高通量测序技术获得的全基因组数据序列);以及
根据权利要求11所述的计算设备。
13.根据权利要求12所述的系统,其中所述测序装置为高通量测序仪。
14.检测第1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体中的至少1条的染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异,更优选染色体和染色体臂覆盖度的差异)的试剂在制备对肝癌进行筛查、诊断或风险分级的诊断剂中的用途。
15.检测1、2、3、4、5、6、7、8、9、10、11、13、16、17、20、21和22号染色体中的至少1条的染色体或染色体臂不平衡(优选染色体和染色体臂拷贝数的差异,更优选染色体和染色体臂覆盖度的差异)的装置在制备对肝癌进行筛查、诊断或风险分级的设备中的用途。
16.根据权利要求14或15所述的用途,其中所述染色体来自甲胎蛋白阴性的疑似肝癌受试者(例如人)。
CN201810797508.7A 2018-07-19 2018-07-19 基于高通量测序法筛查和诊断肝癌的方法、装置和系统 Pending CN110736834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810797508.7A CN110736834A (zh) 2018-07-19 2018-07-19 基于高通量测序法筛查和诊断肝癌的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810797508.7A CN110736834A (zh) 2018-07-19 2018-07-19 基于高通量测序法筛查和诊断肝癌的方法、装置和系统

Publications (1)

Publication Number Publication Date
CN110736834A true CN110736834A (zh) 2020-01-31

Family

ID=69235506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810797508.7A Pending CN110736834A (zh) 2018-07-19 2018-07-19 基于高通量测序法筛查和诊断肝癌的方法、装置和系统

Country Status (1)

Country Link
CN (1) CN110736834A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831369A (zh) * 2023-01-18 2023-03-21 北京求臻医疗器械有限公司 早筛数据处理、构建早筛模型的方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101519689A (zh) * 2008-12-10 2009-09-02 复旦大学附属中山医院 肿瘤转移相关基因骨桥蛋白的多态性和单体型构建及其应用
CN104313136A (zh) * 2014-09-30 2015-01-28 江苏亿康基因科技有限公司 一种无创人肝癌早期检测与鉴别诊断方法及系统
CN105653898A (zh) * 2016-01-12 2016-06-08 江苏格致生命科技有限公司 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法
EP3118324A1 (en) * 2015-07-13 2017-01-18 Cartagenia N.V. Method for analyzing copy number variation in the detection of cancer
CN106897579A (zh) * 2015-12-19 2017-06-27 中国人民解放军北京军区总医院 基于染色体变异指数的新型早期肿瘤标记物及应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101519689A (zh) * 2008-12-10 2009-09-02 复旦大学附属中山医院 肿瘤转移相关基因骨桥蛋白的多态性和单体型构建及其应用
CN104313136A (zh) * 2014-09-30 2015-01-28 江苏亿康基因科技有限公司 一种无创人肝癌早期检测与鉴别诊断方法及系统
EP3118324A1 (en) * 2015-07-13 2017-01-18 Cartagenia N.V. Method for analyzing copy number variation in the detection of cancer
CN106897579A (zh) * 2015-12-19 2017-06-27 中国人民解放军北京军区总医院 基于染色体变异指数的新型早期肿瘤标记物及应用
CN105653898A (zh) * 2016-01-12 2016-06-08 江苏格致生命科技有限公司 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹鹏博: "肝癌的整合组学研究以及新发种系拷贝数变异研究", 《中国博士学位论文全文数据库——医药卫生科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831369A (zh) * 2023-01-18 2023-03-21 北京求臻医疗器械有限公司 早筛数据处理、构建早筛模型的方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
JP7506408B2 (ja) 血漿dnaの単分子配列決定
JP2022058469A (ja) 尿および他のサンプルにおける無細胞dnaの分析
CN114736968B (zh) 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置
CN107475375A (zh) 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒
CN112501293B (zh) 一种用于检测肝癌的试剂组合,试剂盒及其用途
CN112322736A (zh) 一种用于检测肝癌的试剂组合,试剂盒及其用途
CN108588230B (zh) 一种用于乳腺癌诊断的标记物及其筛选方法
CN110880356A (zh) 对卵巢癌进行筛查、诊断或风险分级的方法和装置
CN112899359A (zh) 用于肺结节良恶性检测的甲基化标记物或其组合及应用
CN113604572B (zh) 用于肺癌诊断的试剂盒、装置及方法
CN114574587B (zh) 一种用于结直肠癌检测的标记物组合物及其应用
CN110736834A (zh) 基于高通量测序法筛查和诊断肝癌的方法、装置和系统
CN115287353B (zh) 一种肝癌血浆游离dna来源的甲基化标志物及用途
CN115803448A (zh) 来自外周血红细胞的微核dna及其用途
CN111378757B (zh) Hbv整合位点附近区域甲基化状态在癌症检测中的应用
US20200141941A1 (en) Method for detecting the quantity of biomarker and identifying disease status
CN109988835A (zh) 基于高通量测序法筛查和诊断卵巢高级别浆液性癌的方法和装置
CN117144003A (zh) 用于mrd检测的癌种特异核心探针组的设计方法及其应用
CN117165679A (zh) 肝癌肝移植术后复发标志物及其应用
CN118207322A (zh) 胆汁cfDNA中的HDR信号通路突变在胆管癌预后评估中的应用
CN117165678A (zh) 肝癌肝移植术后复发标志物及其应用
CN117448320A (zh) 血液小胞外囊泡miRNA的PCR内参及制备方法和应用
CN117316280A (zh) 一种基于cfDNA末端序列特征的癌症无创早筛方法及系统
CN109763173A (zh) 一种血浆细胞外囊泡长链rna文库及其构建方法
CN117316281A (zh) 基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200131