CN105574365B - 高通量测序突变检测结果的统计学验证方法 - Google Patents
高通量测序突变检测结果的统计学验证方法 Download PDFInfo
- Publication number
- CN105574365B CN105574365B CN201610046810.XA CN201610046810A CN105574365B CN 105574365 B CN105574365 B CN 105574365B CN 201610046810 A CN201610046810 A CN 201610046810A CN 105574365 B CN105574365 B CN 105574365B
- Authority
- CN
- China
- Prior art keywords
- mutation
- interest
- throughput sequencing
- frequency
- deletion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012795 verification Methods 0.000 title claims abstract description 22
- 230000035772 mutation Effects 0.000 claims abstract description 233
- 238000012217 deletion Methods 0.000 claims abstract description 56
- 230000037430 deletion Effects 0.000 claims abstract description 54
- 238000000546 chi-square test Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 230000036438 mutation frequency Effects 0.000 claims description 82
- 238000012165 high-throughput sequencing Methods 0.000 claims description 73
- 238000001514 detection method Methods 0.000 claims description 37
- 239000000523 sample Substances 0.000 claims description 33
- 238000012163 sequencing technique Methods 0.000 claims description 17
- 210000000265 leukocyte Anatomy 0.000 claims description 14
- 238000006467 substitution reaction Methods 0.000 claims description 10
- 239000013074 reference sample Substances 0.000 claims description 7
- 230000037429 base substitution Effects 0.000 claims description 6
- 238000001801 Z-test Methods 0.000 claims 1
- 108091033319 polynucleotide Proteins 0.000 abstract description 9
- 239000002157 polynucleotide Substances 0.000 abstract description 9
- 102000040430 polynucleotide Human genes 0.000 abstract description 9
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 206010028980 Neoplasm Diseases 0.000 description 17
- 239000002773 nucleotide Substances 0.000 description 17
- 125000003729 nucleotide group Chemical group 0.000 description 17
- 201000011510 cancer Diseases 0.000 description 14
- 201000010099 disease Diseases 0.000 description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 12
- 238000007405 data analysis Methods 0.000 description 9
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 9
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 9
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 9
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 8
- 201000005202 lung cancer Diseases 0.000 description 8
- 208000020816 lung neoplasm Diseases 0.000 description 8
- 239000013612 plasmid Substances 0.000 description 7
- 210000004027 cell Anatomy 0.000 description 6
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 6
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 6
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 150000002500 ions Chemical class 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001717 pathogenic effect Effects 0.000 description 3
- 238000007480 sanger sequencing Methods 0.000 description 3
- 230000009946 DNA mutation Effects 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 206010041067 Small cell lung cancer Diseases 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 208000000587 small cell lung carcinoma Diseases 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 230000005971 DNA damage repair Effects 0.000 description 1
- 102100030708 GTPase KRas Human genes 0.000 description 1
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 1
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 1
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 101100193693 Kirsten murine sarcoma virus K-RAS gene Proteins 0.000 description 1
- 239000005411 L01XE02 - Gefitinib Substances 0.000 description 1
- 239000005551 L01XE03 - Erlotinib Substances 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 108090000744 Mitogen-Activated Protein Kinase Kinases Proteins 0.000 description 1
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 1
- 108700020978 Proto-Oncogene Proteins 0.000 description 1
- 102000052575 Proto-Oncogene Human genes 0.000 description 1
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000005773 cancer-related death Effects 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000003831 deregulation Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- AAKJLRGGTJKAMG-UHFFFAOYSA-N erlotinib Chemical compound C=12C=C(OCCOC)C(OCCOC)=CC2=NC=NC=1NC1=CC=CC(C#C)=C1 AAKJLRGGTJKAMG-UHFFFAOYSA-N 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- XGALLCVXEZPNRQ-UHFFFAOYSA-N gefitinib Chemical compound C=12C=C(OCCCN3CCOCC3)C(OC)=CC2=NC=NC=1NC1=CC=C(F)C(Cl)=C1 XGALLCVXEZPNRQ-UHFFFAOYSA-N 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 229940084651 iressa Drugs 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- JMANVNJQNLATNU-UHFFFAOYSA-N oxalonitrile Chemical compound N#CC#N JMANVNJQNLATNU-UHFFFAOYSA-N 0.000 description 1
- -1 p16 Proteins 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 229940120982 tarceva Drugs 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及高通量测序突变检测结果的验证方法,所述方法包括,首先建立感兴趣突变的阴性背景突变频率库,基于该阴性背景突变频率库,通过Z检验来验证高通量测序突变检测结果中单核苷酸取代类型的突变检测结果,通过卡方检验来验证高通量测序突变检测结果中连续多核苷酸缺失类型的突变检测结果。本发明方法可以实现对高通量测序突变检测结果的零成本验证,并且具有较高的正确性和灵敏度。
Description
技术领域
本发明涉及高通量测序突变检测结果的验证方法。
背景技术
恶性肿瘤是威胁人类健康的主要疾病之一,也是全球发病和死亡的主要原因。根据世界卫生组织公布的数据表明,2012年约有1400万新发癌症病例和820万例癌症相关死亡。据全球癌症统计数据显示,肺癌死亡率位于男性相关癌症的首位,在发达国家的女性相关癌症死亡率,则超越了乳腺癌跃居第一。肺癌分为小细胞肺癌(SCLC)和非小细胞肺癌(NSCLC)。基因突变是肺癌的发生、发展、恶化的关键因素。肺癌的发生是各种环境的和遗传的致癌因素引起的基因突变和多种突变长期积累的结果。突变的发生和积累导致了原癌基因的激活和抑癌基因的失活,进而引起DNA损伤修复和(或)细胞周期和(或)编程性死亡机制的失调,继而引起细胞的转化。转化的细胞在与正常体细胞生存竞争的过程中,不断进化,最终变成具有无限增殖潜力的癌细胞,从而导致肿瘤的发生。在癌细胞成克隆性的无限扩增过程中,其中一些克隆会获得新的附加突变,选择性地形成具有不同特点的亚克隆(异质化),从而获得浸润和转移的能力。目前,已确认的与肺癌相关的突变基因包括K-RAS、EGFR、HER2、MEK、p16、p53、ALK、ROS1、RET等。
近年来,随着生物医药技术的不断发展,以及“精准医学”概念的提出,癌症的治疗观念正在发生着由非特异性转变为个体化的根本性转变。该模式根据癌症患者的个体信息,提供个性化的高效治疗方案。高通量测序技术的兴起以及测序成本的大幅降低为个体化医疗的实现提供了极大的便利,已开始广泛应用于肿瘤组织的基因突变位点检测。通过对癌症患者活检样本提取的DNA进行测序及后续生物信息分析,就可快速得到患者的突变信息,根据突变信息对患者进行分组,进行针对性的治疗及疗效评估。据2014美版NCCN记载,EGFR、BRAF、KRAS、PIK3CA等基因上的突变信息,可协助医生选择易瑞沙和特罗凯等靶向药物的有效非小细胞型肺癌人群进行个体化治疗。因此,准确的突变检测信息,无论是对非小细胞肺癌患者的分组还是个性化靶向药物的选择和治疗过程中的动态疗效检测都具有至关重要的作用。只有这样,才能真正有益于病人节省费用、减少毒副作用以及提高治疗效率。
高通量测序技术为DNA的测序提供了便利,对高通量测序结果进行数据分析可以获得DNA的突变信息,但这种通过数据分析获得的DNA突变信息的准确性还有待提高,通常需要进行进一步验证,目前用验证高通量测序检出(即通过对高通量测序结果进行数据分析获得)突变的主要方法是Sanger测序和多重PCR。尽管单个位点的验证费用不高,但如果一次性检测位点较多且检测频繁则成本较高。
发明内容
本发明涉及高通量测序突变检测结果的验证方法,所述方法包括,首先建立特定疾病患者DNA阴性突变背景库,通过Z检验来验证单核苷酸取代类型的突变检测结果,通过卡方检验来验证插入和缺失类型的突变检测结果。
根据本发明的一个方面,提供感兴趣突变的高通量测序突变检测结果的验证方法,所述方法包括以下步骤:
(1)建立感兴趣突变的阴性背景突变频率库:对来自多个参考样本的白细胞的DNA进行测序,获得白细胞DNA中感兴趣突变中每一个位点i上的特定突变的突变频率;对于每一个位点i上的特定突变,将突变频率低于5‰的所有参考样本作为一个集合,计算该集合中该特定突变的平均突变频率(μi0)和平均突变频率的标准差(σi0),由此获得一组或多组数据,每组数据分别来自于每个集合,每组数据包括一个位点i上的特定突变的位置和突变类型、平均突变频率(μi0)和平均突变频率的标准差(σi0)等信息,所述一组或多组数据构成所述感兴趣突变的阴性背景突变频率库。
根据本发明,“感兴趣突变”是指与特定疾病相关的DNA的特定位点上的特定突变。所述“相关”是指该突变与该特定疾病之间存在一定程度的关联,例如该突变可以是该特定疾病的致病因子、或者可以是该特定疾病致病过程中的某一个环节中的因素、或者可以是与该特定疾病的致病没有直接关系、但是随特定疾病的发生而变化的突变,等等。感兴趣突变可以来源于之前的文献报道、和/或自己的研究发现。所述阴性背景突变频率库涉及的感兴趣突变可以是一个或多个感兴趣突变,多个感兴趣突变的数量可以是大于1个,例如2个或更多个、3个或更多个、4个或更多个、5个或更多个,甚至可以是10个或更多个、50个或更多个、100个或更多个、200个或更多个、500个或更多个、1000个或更多个、2000个或更多个、或3000个或更多个。在一个实施方案中,所述阴性背景突变频率库涉及的感兴趣突变的总数是2855个。
根据本发明,所述“感兴趣突变”包括单核苷酸取代(snp)、连续多核苷酸缺失。所述“位点i上的特定突变”在感兴趣突变为单核苷酸取代的情况下是指该突变位点上的特定取代,在感兴趣突变为连续多核苷酸缺失的情况下是指该突变中每个突变位点上的核苷酸缺失。在本发明中,“核苷酸”和“碱基”可以互换使用。
根据本发明,连续多碱基缺失或连续多核苷酸缺失是指2个或2个以上,例如2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个或更多个连续碱基或连续核苷酸的缺失。
在一些实施方案中,所述特定疾病是癌症。在更进一步的实施方案中,所述癌症是肺癌,优选非小细胞肺癌。
在本发明中,“参考样本”是可以是来源于健康者和/或患病者的白细胞。优选所述患病者不包括患有与白细胞基因突变相关的疾病的患者。
根据本发明,这里的“测序”是指高通量测序,可以利用本领域已知的任何高通量测序技术,包括但不限于利用Ion Torrent或Illumina测序平台进行的高通量测序。
本发明人在对癌症患者进行高通量测序突变检测的过程中发现,对于那些与疾病相关的热点突变(即感兴趣突变),虽然某些样本的检测结果是阴性,但在这些样本中对于这些热点突变仍然具有一定的突变频率,虽然该突变频率很低,这意味着这些热点突变存在一定的背景突变频率。因此本发明提出了这样的方法:首先确定热点突变的背景突变频率范围(即建立感兴趣突变的阴性背景突变频率库),在得到待测样本的热点突变高通量测序检测结果之后,通过检测它的突变频率是否在背景图片频率范围内,来验证它属于背景,还是真正的突变。由此建立了对高通量测序突变检测结果的统计学验证方法。确定热点突变的背景突变频率范围时,所使用的参考样本应当是对于所述热点突变为阴性的样本,在本发明中,使用白细胞作为参考样本,这是因为白细胞对于癌症的热点突变来说通常是阴性的,例如对于肺癌患者来说,患病部位的癌细胞可能具有特定突变,但该患者的白细胞并不会具有这些特定突变,因此可以使用健康者或患病者的白细胞作为参考样本。优选所述患病者不包括患有与白细胞基因突变相关的疾病的患者。
根据本发明的方法,由于每个参考样本的白细胞DNA在每个位点上的突变情况各不相同,因此对于感兴趣突变的每一个位点上的特定突变的集合,样本量ni可能是不同的。
根据本发明,用于感兴趣突变的阴性突变背景库的参考样本的数量没有特别限制,只要能使每一个集合中的样本量具有统计学意义。优选地,用于建立感兴趣突变的阴性突变背景库的参考样本数量为50或更多,更优选为100或更多,更优选为500或更多,更优选为1000或更多,更优选为2000或更多。
(2)验证:对于高通量测序突变检测结果中snp类型的感兴趣突变的检测结果,利用高通量测序结果中该突变的突变频率(μi),以及所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率(μi0)和标准差(σi0),通过Ζ检验进行验证;和/或对于高通量测序突变检测结果中连续多碱基缺失类型的感兴趣突变的检测结果,利用高通量测序结果中该连续多碱基缺失类型的感兴趣突变的每一个位点上的缺失突变的突变频率(μi),以及所述感兴趣突变的阴性背景突变频率库中对应于该连续多碱基缺失类型的感兴趣突变的每一个位点上的缺失突变的平均突变频率(μi0)和标准差(σi0),通过卡方检验进行验证;
由此验证高通量测序突变检测结果中对于上述感兴趣突变的检测结果是否正确。
在一个实施方案中,通过Ζ检验对该snp类型的感兴趣突变进行验证包括:对snp类型的感兴趣突变,根据下式a计算Ζ值:
式a:
其中,μi为高通量测序结果中对应于该snp类型的感兴趣突变的突变频率,μi0为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率,σi0为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率的标准差,ni为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的集合的参考样本量;
如果计算得到的Ζ值小于临界Ζ值,则该高通量测序样本中的该snp类型的感兴趣突变属于背景点,验证结果为该高通量测序样本不存在该突变;如果计算得到的Ζ值大于等于临界Ζ值,则该高通量测序样本中的该snp类型的感兴趣突变不属于背景点,验证结果为该高通量测序样本存在该突变。
在优选的实施方案中,临界Ζ值为显著性水平α=0.05时的Ζ值,即1.65。
在另一个实施方案中,通过卡方检验对该连续多碱基缺失类型的感兴趣突变进行验证包括对连续多碱基缺失类型的感兴趣突变,通过下式b计算χ2值:
式b:
其中,μi为高通量测序结果中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的突变频率,μi0为所述感兴趣突变的阴性背景突变频率库中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的平均突变频率,σi0为所述感兴趣突变的阴性背景突变频率库中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的平均突变频率的标准差,m是所述连续多碱基缺失中缺失位点的总数;
如果计算得到的χ2值小于临界χ2值,则该高通量测序样本中的该连续多碱基缺失类型的感兴趣突变属于背景点,验证结果为该高通量测序样本不存在该突变;如果计算得到的χ2值大于等于临界χ2值,则该高通量测序样本中的该连续多碱基缺失类型的感兴趣突变不属于背景点,验证结果为该高通量测序样本存在该突变。
在优选的实施方案中,临界χ2值为显著性水平α=0.05时的χ2值,即5.99。
根据本发明,高通量测序是指本领域已知的任何高通量测序技术,包括但不限于利用Ion Torrent或Illumina测序平台进行的高通量测序。
根据本发明,对DNA进行高通量测序之后获得高通量测序结果,该高通量测序结果包括高通量测序文库中每一片段上的每一个位点的测序信息,所述测序信息通常包括所述每一个位点的覆盖度(Coverage)、所述每一个位点上分别为A、C、G、T或缺失的reads等。其中每一个位点上分别为A、C、G、T或缺失的reads的总和等于该位点的覆盖度。
根据本发明,高通量测序突变检测结果是指对高通量测序样本的测序结果进行数据分析以查找突变获得的结果。所述数据分析例如可以是将高通量测序结果与参考基因组序列进行比对,然后确定每一个突变的突变位点和突变类型(例如插入、取代和/或缺失),并计算突变频率。通过比对可以得到高通量测序文库中每一片段上的每一个核苷酸位点在染色体上的位置信息和所述每一个核苷酸位点的参考核苷酸信息,所述参考核苷酸是指例如参考基因组序列中在相应于该位点的位置上的核苷酸,将这些信息与高通量测序结果结合并加以分析可以获得有关每一个突变的突变位点、突变类型和突变频率的信息。高通量测序突变检测结果例如可以包括通过比对查找到的每一个突变的突变位点、突变类型和每一个突变的突变频率,所述突变类型包括单核苷酸(即单个位点)的缺失或取代、多个连续核苷酸(即连续位点)的缺失或取代、单核苷酸的插入、多个核苷酸的插入(即多个连续核苷酸的插入)等。所述高通量测序突变检测结果可以利用任何适用于高通量测序的数据分析方法获得,例如可以使用任何合适的数据分析和序列比对软件获得突变检测结果。
应当理解,高通量测序突变检测结果除了包括有关存在的某些感兴趣突变的信息之外,还包括有关某些感兴趣突变不存在的信息,例如在高通量测序突变检测结果中,对这些检测为不存在的感兴趣突变报告其突变频率为0。因此,利用本发明方法对高通量测序突变检测结果的验证,不仅包括对所述检测结果中报告为存在的感兴趣突变的验证,还包括对所述检测结果中报告为不存在的感兴趣突变的验证。此外,应当理解,在现有的高通量测序突变检测结果中,报告某些感兴趣突变的突变频率为0仅仅意味着所使用的数据分析方法认为它们不是真正的突变,并不意味着在高通量测序结果中这些感兴趣突变的突变频率实际上为0,在高通量测序结果中这些感兴趣突变仍然具有一定的突变频率,但是其突变频率较低,所使用的数据分析方法认为它们不是真正的突变,因此统一报告其突变频率为0。
利用本发明的方法,可以实现对高通量测序突变检测结果中的snp(单核苷酸取代)和连续多核苷酸缺失突变的零成本验证,其验证结果具有较高的正确性和灵敏度。
附图说明
图1是Sanger测序验证L2348样本EGFR突变结果。
实施例
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施例并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
一、建立针对热点突变的阴性背景突变频率库
针对已知的2855个热点突变(分布在50个与多种癌症密切相关的基因中),在IonTorrent测序平台上对随机的2000例非小细胞型肺癌患者外周血样本中的白细胞的DNA进行高通量测序和数据分析,确定每个样本中的白细胞DNA中每个热点突变的突变频率。
对于每一个snp类型的热点突变,收集该snp突变上的突变频率低于5‰的所有样本作为一个集合,计算该集合中所有样本的该snp热点突变的平均突变频率和平均突变频率的标准差;对于每一个连续多核苷酸缺失类型的热点突变中的每一个突变位点上的缺失突变,收集该位点上突变频率低于5‰的所有样本作为一个集合,计算该集合中所有样本在该位点上的缺失突变的平均突变频率和平均突变频率的标准差;综合上述针对snp热点突变的数据和针对连续多核苷酸缺失热点突变的数据,获得多组数据,每组数据分别来自于一个集合,每组数据包括一个位点上的特定突变的位置和突变类型、平均突变频率和平均突变频率的标准差等,由所述多组数据组成针对上述2855个热点突变的阴性背景突变频率库。
在建立针对热点突变的阴性背景突变频率库时,为了尽量避免样品污染和测序误差影响结果,首先确定高通量测序检出突变的阈值。设计野生型质粒与突变型质粒,突变型质粒包含六个常用突变位点,将两种质粒按比例混合成突变频率为0.5%的质粒标准品,然后采用Ion Torrent平台对该标准品及野生型质粒进行建库并测序,每个样品重复三次,对测序的原始数据进行统计,结果如表1所示,其中显示了各样品在上述突变位点上的突变频率。
表1标准品质粒和野生型质粒测序结果
采用t检验对突变型和野生型中各突变位点所测出的频率进行差异性分析,结果显示p值为1.849x 10-15,达到显著差异,由此证明高通量测序可以准确地测出0.5%水平的突变频率,因此,当高通量测序结果中单个位点的特定碱基取代的突变频率超过0.5%时,可以认为存在该突变。
因此,基于上述实验,为了确保所检测到的每一个突变信息都属于“背景突变”,对于每个样本中的白细胞DNA中每个位点的任何突变,仅考虑突变频率低于5‰的突变。
二、对高通量测序检出的突变进行验证。
对从20例非小细胞肺癌外周血获得的cfDNA进行Ion Torrent测序,并用IonTorrent测序平台配套的软件对EGFR上的热点突变进行查找,在4例样本(L2201、L2197、L2171和L2162)中共检测出两种突变,即55242465-55242482位连续多核苷酸缺失突变及在55259515点的单核苷酸取代突变(见表2),其他16例样本均为EGFR突变阴性,且阳性样本均通过Sanger测序证明为阳性突变。
表2 EGFR突变阳性的样本信息
接下来,对上述20例样本在中上述三种突变的检测结果进行统计学验证。
在所上述构建的阴性背景突变频率库中查找到如表3所示的信息:
表3阴性背景突变频率库中热点突变位点信息
位置 | 突变类型 | 突变信息 | 平均突变频率μi0 | 标准差σi0 | 样本量ni |
chr7:55242465 | del | G>- | 0.185% | 0.218% | 160 |
chr7:55242466 | del | G>- | 0.129% | 0.249% | 160 |
chr7:55242467 | del | A>- | 1.172% | 1.141% | 160 |
chr7:55242468 | del | A>- | 0.102% | 0.262% | 160 |
chr7:55242469 | del | T>- | 0.181% | 0.302% | 160 |
chr7:55242470 | del | T>- | 0.096% | 0.260% | 160 |
chr7:55242471 | del | A>- | 0.171% | 0.266% | 160 |
chr7:55242472 | del | A>- | 0.093% | 0.260% | 160 |
chr7:55242473 | del | G>- | 0.090% | 0.262% | 160 |
chr7:55242474 | del | A>- | 0.091% | 0.265% | 160 |
chr7:55242475 | del | G>- | 0.085% | 0.256% | 160 |
chr7:55242476 | del | A>- | 0.190% | 0.271% | 160 |
chr7:55242477 | del | A>- | 0.089% | 0.258% | 160 |
chr7:55242478 | del | G>- | 0.090% | 0.258% | 160 |
chr7:55242479 | del | C>- | 0.121% | 0.256% | 160 |
chr7:55242480 | del | A>- | 0.191% | 0.188% | 160 |
chr7:55242481 | del | A>- | 0.018% | 0.091% | 160 |
chr7:55242482 | del | C>- | 0.017% | 0.091% | 160 |
chr7:55259515 | snp | T>G | 0.415% | 2.818% | 160 |
对于20例样本中chr7:55259515的T>G的snp突变采用Ζ检验,按照下式a计算Ζ值:
式a:
如果计算所得的Ζ值小于1.65,则不存在该突变,如果计算所得的Ζ值大于等于1.65,则存在该突变。
对于20例样本中55242465-55242482位的GGAATTAAGAGAAGCAAC>-连续多核苷酸缺失突变,采用卡方检验,按照下式b计算χ2值:
式b:
如果计算所得的χ2值小于5.99,则不存在该突变,如果计算所得的χ2值大于等于5.99,则存在该突变。
计算结果如表4所示。
表4 20例样本的EGFR突变的统计学验证结果
*验证结果与高通量测序分析结果不一致
由表4结果可见,除样本L2348之外,其余19例样本验证结果均与原高通量测序分析结果相同。原高通量测序分析结果显示样本L2348无EGFR突变,而经本发明方法验证样本L2348在chr7:55259515具有T>G的snp突变。对该样本进行Sanger测序验证,结果显示该样本为EGFR突变阳性(具体为在七号染色体的55259515位置上具有T>G的突变)(参见图1),与本发明方法验证结果一致。
应当理解的是,本发明的上述具体实施例仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (5)
1.高通量测序样本的高通量测序突变检测结果的验证方法,所述方法包括以下步骤:
(1)建立感兴趣突变的阴性背景突变频率库:对来自多个参考样本的白细胞的DNA进行测序,获得白细胞DNA中感兴趣突变中每一个位点上的特定突变的突变频率;对于位点i上的特定突变,将突变频率低于5‰的所有参考样本作为一个集合,计算该集合中该特定突变的平均突变频率μi0和平均突变频率的标准差σi0,由此获得一组或多组数据,每组数据分别来自于每个集合,每组数据包括一个位点i上的特定突变的位置和突变类型、平均突变频率μi0和平均突变频率的标准差σi0的信息,所述一组或多组数据构成所述感兴趣突变的阴性背景突变频率库;
(2)验证:
对于所述高通量测序突变检测结果中单碱基取代类型的感兴趣突变的检测结果,利用高通量测序结果中该突变的突变频率μi,以及所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率μi0和标准差σi0,通过Z检验进行验证;和/或
对于所述高通量测序突变检测结果中连续多碱基缺失类型的感兴趣突变的检测结果,利用高通量测序结果中该连续多碱基缺失类型的感兴趣突变的每一个位点上的缺失突变的突变频率μi,以及所述感兴趣突变的阴性背景突变频率库中对应于该连续多碱基缺失类型的感兴趣突变的每一个位点上的缺失突变的平均突变频率μi0和标准差σi0,通过卡方检验进行验证;
由此验证高通量测序突变检测结果中对于上述感兴趣突变的检测结果是否正确。
2.根据权利要求1所述的验证方法,步骤(2)中通过Z检验对该单碱基取代类型的感兴趣突变进行验证包括:对单碱基取代类型的感兴趣突变,根据下式a计算Z值:
式a:
其中,μi为高通量测序结果中对应于该单碱基取代类型的感兴趣突变的突变频率,μi0为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率,σi0为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的平均突变频率的标准差,ni为所述感兴趣突变的阴性背景突变频率库中对应于该感兴趣突变的集合的参考样本量;
如果计算得到的Z值小于临界Z值,则该高通量测序样本中的该单碱基取代类型的感兴趣突变属于背景点,验证结果为该高通量测序样本不存在该突变;如果计算得到的Z值大于等于临界Z值,则该高通量测序样本中的该单碱基取代类型的感兴趣突变不属于背景点,验证结果为该高通量测序样本存在该突变。
3.根据权利要求2所述的验证方法,所述临界Z值为1.65。
4.根据权利要求1所述的验证方法,步骤(2)中通过卡方检验对该连续多碱基缺失类型的感兴趣突变进行验证包括对连续多碱基缺失类型的感兴趣突变,通过下式b计算χ2值:
式b:
其中,μi为高通量测序结果中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的突变频率,μi0为所述感兴趣突变的阴性背景突变频率库中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的平均突变频率,σi0为所述感兴趣突变的阴性背景突变频率库中对应于所述连续多碱基缺失中第i个缺失位点的缺失突变的平均突变频率的标准差,m是所述连续多碱基缺失中缺失位点的总数;
如果计算得到的χ2值小于临界χ2值,则该高通量测序样本中的该连续多碱基缺失类型的感兴趣突变属于背景点,验证结果为该高通量测序样本不存在该突变;如果计算得到的χ2值大于等于临界χ2值,则该高通量测序样本中的该连续多碱基缺失类型的感兴趣突变不属于背景点,验证结果为该高通量测序样本存在该突变。
5.根据权利要求4所述的验证方法,所述临界χ2值为5.99。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610046810.XA CN105574365B (zh) | 2016-01-22 | 2016-01-22 | 高通量测序突变检测结果的统计学验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610046810.XA CN105574365B (zh) | 2016-01-22 | 2016-01-22 | 高通量测序突变检测结果的统计学验证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105574365A CN105574365A (zh) | 2016-05-11 |
CN105574365B true CN105574365B (zh) | 2018-10-26 |
Family
ID=55884489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610046810.XA Active CN105574365B (zh) | 2016-01-22 | 2016-01-22 | 高通量测序突变检测结果的统计学验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574365B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423578B (zh) * | 2017-03-02 | 2020-09-22 | 北京诺禾致源科技股份有限公司 | 检测体细胞突变的装置 |
CN106755547A (zh) * | 2017-03-15 | 2017-05-31 | 上海亿康医学检验所有限公司 | 一种膀胱癌的无创检测及其复发监测方法 |
CN106980763B (zh) * | 2017-03-30 | 2020-04-28 | 大连理工大学 | 一种基于基因突变频率的癌症驱动基因的筛选方法 |
CN109411015B (zh) * | 2018-09-28 | 2020-12-22 | 深圳裕策生物科技有限公司 | 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质 |
CN110867207B (zh) * | 2019-11-26 | 2021-07-30 | 北京橡鑫生物科技有限公司 | 验证ngs变异检测方法的评估方法及评估装置 |
CN112725331B (zh) * | 2021-01-25 | 2021-07-20 | 深圳市狂风生命科技有限公司 | 一种高通量突变体文库的构建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101886114A (zh) * | 2009-05-14 | 2010-11-17 | 上海聚类生物科技有限公司 | 基于rmi指数的高通量测序数据分析方法 |
CN103290137A (zh) * | 2013-06-26 | 2013-09-11 | 北京迈基诺基因科技有限责任公司 | 一种肿瘤易感基因的筛查方法 |
CN103602735A (zh) * | 2013-11-06 | 2014-02-26 | 复旦大学 | 利用高通量测序精确测定线粒体dna高频和低频突变的方法 |
CN104462869A (zh) * | 2014-11-28 | 2015-03-25 | 天津诺禾致源生物信息科技有限公司 | 检测体细胞单核苷酸突变的方法和装置 |
CN105200160A (zh) * | 2015-11-12 | 2015-12-30 | 广东海洋大学 | 一种与凡纳滨对虾低溶氧耐受性相关的snp标记及其筛选和应用 |
-
2016
- 2016-01-22 CN CN201610046810.XA patent/CN105574365B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101886114A (zh) * | 2009-05-14 | 2010-11-17 | 上海聚类生物科技有限公司 | 基于rmi指数的高通量测序数据分析方法 |
CN103290137A (zh) * | 2013-06-26 | 2013-09-11 | 北京迈基诺基因科技有限责任公司 | 一种肿瘤易感基因的筛查方法 |
CN103602735A (zh) * | 2013-11-06 | 2014-02-26 | 复旦大学 | 利用高通量测序精确测定线粒体dna高频和低频突变的方法 |
CN104462869A (zh) * | 2014-11-28 | 2015-03-25 | 天津诺禾致源生物信息科技有限公司 | 检测体细胞单核苷酸突变的方法和装置 |
CN105200160A (zh) * | 2015-11-12 | 2015-12-30 | 广东海洋大学 | 一种与凡纳滨对虾低溶氧耐受性相关的snp标记及其筛选和应用 |
Non-Patent Citations (2)
Title |
---|
癌症基因组测序方案制定的研究进展;安云鹤等;《中国生物医学工程杂志》;20141125;第34卷(第11期);第9-17页 * |
高通量测序技术筛查单基因隐性遗传并;余蕾等;《临床检验杂志》;20150728;第33卷(第7期);第481-484页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105574365A (zh) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105574365B (zh) | 高通量测序突变检测结果的统计学验证方法 | |
EP3481966B1 (en) | Methods for fragmentome profiling of cell-free nucleic acids | |
Oh et al. | Comparison of accuracy of whole-exome sequencing with formalin-fixed paraffin-embedded and fresh frozen tissue samples | |
Cosgrove et al. | Mapping molecular subtype specific alterations in breast cancer brain metastases identifies clinically relevant vulnerabilities | |
Alkodsi et al. | Comparative analysis of methods for identifying somatic copy number alterations from deep sequencing data | |
CN109880910A (zh) | 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统 | |
CN107406885A (zh) | 使用血浆dna的尺寸和数目畸变检测癌症 | |
CN106156543B (zh) | 一种肿瘤ctDNA信息统计方法 | |
CN107423578A (zh) | 检测体细胞突变的装置 | |
Abbasi et al. | Impact of disseminated neuroblastoma cells on the identification of the relapse-seeding clone | |
US20240153650A1 (en) | Systems And Methods For Genetic Analysis Of Metastases | |
CN106676178A (zh) | 一种评估肿瘤异质性的方法及系统 | |
Waldron et al. | Expression profiling of archival tumors for long-term health studies | |
CN106778073A (zh) | 一种评估肿瘤负荷变化的方法和系统 | |
JP6122865B2 (ja) | 全ゲノム配列を使用する生物学的細胞評価およびこれを使用する腫瘍治療計画 | |
CN105986031A (zh) | 肿瘤易感62基因及其应用 | |
CN109295230A (zh) | 一种基于ctDNA的多基因联合突变检测评估肿瘤动态变化的方法 | |
Chun et al. | Molecular characterization of lung adenocarcinoma from Korean patients using next generation sequencing | |
Lin et al. | Evolutionary route of nasopharyngeal carcinoma metastasis and its clinical significance | |
KR20210103452A (ko) | 혈액암 약물 반응성 판단을 위한 바이오 마커 조성물, 바이오 마커 조성물을 이용한 혈액암 약물 반응성 판단 방법 및 혈액암 약물 반응성 판단을 위한 바이오 마커 조성물 검출용 진단칩 | |
CN110010195A (zh) | 一种探测单核苷酸突变的方法及装置 | |
CN105653896B (zh) | 高通量测序突变检测结果验证方法 | |
CN110004229A (zh) | 多基因作为egfr单克隆抗体类药物耐药标志物的应用 | |
CN103757709A (zh) | 乳腺癌相关基因的捕获及其探针的制备方法及应用 | |
Sun et al. | Deciphering the correlation between breast tumor samples and cell lines by integrating copy number changes and gene expression profiles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230721 Address after: 102400 101-112, A101-A109, F1, 201-214, A201-A209, F2, No. 9, Guangyang Street, Changyang Town, Fangshan District, Beijing Patentee after: BEIJING SHENGGU ZHIHUI MEDICAL INSTITUTE CO.,LTD. Address before: Building 9, No. 8, Dongbei Wangxi Road, Haidian District, Beijing 100089, No. 104, 105, Zone 2 Patentee before: BEIJING SAN VALLEY TECHNOLOGY DEVELOPMENT CO.,LTD. |