CN117292752B - 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用 - Google Patents
一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用 Download PDFInfo
- Publication number
- CN117292752B CN117292752B CN202311029936.2A CN202311029936A CN117292752B CN 117292752 B CN117292752 B CN 117292752B CN 202311029936 A CN202311029936 A CN 202311029936A CN 117292752 B CN117292752 B CN 117292752B
- Authority
- CN
- China
- Prior art keywords
- grch
- corresponds
- genome
- ginseng
- ginseng genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 52
- 208000032818 Microsatellite Instability Diseases 0.000 title claims abstract description 37
- 239000002773 nucleotide Substances 0.000 claims abstract description 184
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 184
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 111
- 238000004458 analytical method Methods 0.000 claims abstract description 60
- 108091092878 Microsatellite Proteins 0.000 claims abstract description 21
- 210000005259 peripheral blood Anatomy 0.000 claims abstract description 15
- 239000011886 peripheral blood Substances 0.000 claims abstract description 15
- 241000208340 Araliaceae Species 0.000 claims description 304
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 304
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 304
- 235000008434 ginseng Nutrition 0.000 claims description 304
- 239000012634 fragment Substances 0.000 claims description 133
- 238000003908 quality control method Methods 0.000 claims description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000009499 grossing Methods 0.000 claims description 16
- 238000011282 treatment Methods 0.000 claims description 10
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 4
- 101100515460 Arabidopsis thaliana MYB26 gene Proteins 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 9
- 238000010276 construction Methods 0.000 abstract description 5
- 206010027476 Metastases Diseases 0.000 abstract description 2
- 230000003902 lesion Effects 0.000 abstract description 2
- 230000009401 metastasis Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 72
- 238000001514 detection method Methods 0.000 description 46
- 108020004414 DNA Proteins 0.000 description 17
- 210000001519 tissue Anatomy 0.000 description 14
- 230000008859 change Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 10
- 201000011510 cancer Diseases 0.000 description 9
- 230000033607 mismatch repair Effects 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 9
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 8
- 210000004369 blood Anatomy 0.000 description 8
- 239000008280 blood Substances 0.000 description 8
- 102000004169 proteins and genes Human genes 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 206010009944 Colon cancer Diseases 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 210000000349 chromosome Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- 230000000149 penetrating effect Effects 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 3
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 210000004881 tumor cell Anatomy 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 206010017758 gastric cancer Diseases 0.000 description 2
- 210000004602 germ cell Anatomy 0.000 description 2
- 238000003364 immunohistochemistry Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 229960002621 pembrolizumab Drugs 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 201000011549 stomach cancer Diseases 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- 208000032612 Glial tumor Diseases 0.000 description 1
- 206010018338 Glioma Diseases 0.000 description 1
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 1
- 102000008071 Mismatch Repair Endonuclease PMS2 Human genes 0.000 description 1
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 108090000848 Ubiquitin Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 208000020603 familial colorectal cancer Diseases 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 230000004077 genetic alteration Effects 0.000 description 1
- 231100000118 genetic alteration Toxicity 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007837 multiplex assay Methods 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 230000001338 necrotic effect Effects 0.000 description 1
- 201000002120 neuroendocrine carcinoma Diseases 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 206010041823 squamous cell carcinoma Diseases 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012418 validation experiment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用。本发明的方法主要包括前端、构建参考集和后端三个模块。其中前端模块对测序获得的比对结果经过处理得到样本每个MS位点的每种单核苷酸重复序列长度的最终支持数;构建参考集模块由一系列健康人的前端分析结果,获得每个MS位点每种单核苷酸重复序列长度的基线值;后端模块将肿瘤样本的前端分析结果与构建好的参考集进行比较,得到肿瘤样本的总得分和阳性位点数,进而确定该样本的微卫星稳定性状态。与传统方法相比,本发明只需抽取外周血,最大限度的降低了对病人的影响,在肿瘤转移、多病灶或肿瘤异质性较强时,能更准确的获取病人肿瘤整体的MSI状态。
Description
技术领域
本发明涉及一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用。
背景技术
微卫星(Microsatellite,简称MS)是基因组中短的串联重复片段或单核苷酸重复序列;其重复单元的长度一般在1-6碱基,重复次数一般在4次以上。微卫星的重复单元发生插入或缺失导致其长度发生变化,这一现象称为微卫星不稳定性(MicrosatelliteInstability,简称MSI)。MSI现象于1993年在一类遗传性的结直肠癌中被首次描述(Arzimanoglou I I,Gilbert F,Barber H R,Microsatellite instability in humansolid tumors.Cancer,1998,82:1808-20),该现象一般与错配修复(Mismatch Repair,MMR)基因缺陷有关(Thibodeau S N,French AJ,Roche P C et al.Altered expressionof hMSH2 and hMLH1 in tumors with microsatellite instability and geneticalterations in mismatch repair genes.Cancer Res,1996,56:4836-40),与肿瘤的发生路径和分类密切相关。目前,在结直肠癌、胃癌、子宫内膜癌、脑胶质瘤等癌种中已有许多与MSI状态相关的研究。并已作为结直肠癌和一些其它癌种的预后预测及治疗方案选择的重要分子标志物。2017年,美国食品药品管理局批准Keytruda(pembrolizumab)用于治疗具有MSI-H或dMMR特征,且不可切除或已转移的成人及儿童实体瘤,这是FDA首次批准一种基于肿瘤基因型而与肿瘤原发部位无关的实体瘤药物(U.S.Food and DrugAdministration.FDA approves first cancer treatment for any solid tumor with aspecific genetic feature.2017)。
第一代MSI检测基于聚合酶链式反应(PCR)检查基因组上数个位点的长度变化确定样本的MSI状态。位点系统有1997年确定的3个双核苷酸加2个单核苷酸位点(Boland CR,Thibodeau S N,Hamilton S R et al.A National Cancer Institute Workshop onMicrosatellite Instability for cancer detection and familial predisposition:development of international criteria for the determination of microsatelliteinstability in colorectal cancer.Cancer Res,1998,58:5248-57)以及2004年改进版本的5个单核苷酸位点(Bacher J W,Flanagan L A,Smalley R L et al.Development ofa fluorescent multiplex assay for detection of MSI-High tumors.Dis Markers,2004,20:237-50);该方法通过对所选位点合成引物、PCR后凝胶电泳,并人工比较来自肿瘤组织与正常组织的结果,确定MS位点是否发生了显著的长度改变;当有2个或以上位点发生改变时认为样本状态为微卫星高度不稳定(Microsatellite Instability High,MSI-H),有1个位点发生改变认为是微卫星低度不稳定(Microsatellite Instability Low,MSI-L),所有位点均稳定则认定为微卫星稳定(Microsatellite Stable,MSS);后期大部分研究认为MSI-L与MSS可归为一类,目前实践中也遵循这一标准。该方法被认为是癌症MSI检测,特别是结直肠癌MSI检测的金标准,但基于PCR的方法操作较复杂、花费较高,且结果判读一定程度上受人工因素影响。
MSI状态与MMR通路蛋白有关,基于免疫组化(Immunohistochemistry,IHC)检测MMR通路蛋白(MMR-IHC)是否正常也可以判断MSI。一般检测4个主要蛋白(MLH1、PMS2、MSH2、MSH6),如果任一蛋白出现问题则为错配修复缺陷(deficient Mismatch Repair,dMMR),该状态会导致DNA复制过程中损伤逐渐积累最终导致MSI-H。但有时MMR蛋白的突变导致其失去功能但仍保留抗原性,因此MMR-IHC检测结果无异常,此外通路上其它蛋白也可能突变影响整体功能,因此在实际检测中,dMMR结果与MSI结果尚有一定出入,不能完全相互替代。并且该方法需要病理医生阅片,因此也具有一定主观性。
二代测序技术(Next Generation Sequencing,NGS)可以精确测定DNA序列的改变,已成为鉴别MSI状态的重要手段。目前已经出现了许多基于二代测序数据检测MSI的软件,包括mSINGS(Salipante S J,Scroggins S M,Hampel H L et al.Microsatelliteinstability detection by next generation sequencing.Clin Chem,2014,60:1192-9)、MSIsensor(Niu BF,Ye K,Zhang QY et al.MSIsensor:microsatellite instabilitydetection using paired tumor-normal sequence data.Bioinformatics,2014,30:1015-6)等。这种方法有效避免了MSI-PCR和MMR-IHC方法需要人工判读的缺陷,避免主观因素且节省人力,且二代测序也能同时检测其它各类突变。与PCR-MSI和MMR-IHC方法类似,一般基于二代测序的检测也需要对肿瘤组织进行采样;这种有创操作会对病人带来更大的不利影响,甚至少部分病人可能因担心无法耐受而失去采样机会。
随着技术进步,出现了基于血液等体液中的循环肿瘤DNA对肿瘤突变进行二代测序检测的方法。循环肿瘤DNA(circulating tumor DNA,ctDNA),属于游离DNA(cell-freeDNA,cfDNA)的一部分。cfDNA指所有游离于血浆和其它体液中的细胞外DNA片段,一般来源于细胞的坏死凋亡;而肿瘤细胞坏死凋亡也会向血液中释放其DNA片段,即循环肿瘤DNA;其可被用于检测肿瘤细胞的基因突变。循环肿瘤DNA可以借由抽取肿瘤患者的外周血获得,而无需对肿瘤组织本身进行取样,因此利用ctDNA可以实现微创检测肿瘤突变,还能方便的对肿瘤进行连续监测。但ctDNA在cfDNA中的占比通常很低,因此其信号十分微弱,难以与扩增/测序过程中随机错误带来的噪声分辨开来,对检测方法提出了很高的要求。分子标签(unique molecular identifiers,UMI)的引入,能够确定来自同一个原始DNA分子的多个比对片段,经过比较获得一致性序列(consensus reads),从而明显减少了扩增测序错误带来的噪声(Kivioja,T,A,Karlsson K et al.Counting absolute numbers ofmolecules using unique molecular identifiers.Nat Methods 2012,9:72–74),使二代测序的检测能力大为提高。不过,一般针对肿瘤组织DNA的二代测序数据所开发的微卫星不稳定性检测算法均无法直接应用于cfDNA。
发明内容
本发明所要解决的技术问题是如何基于cfDNA检测基因组微卫星不稳定性。
为了解决上述技术问题,本发明首先提供了检测微卫星不稳定性的装置,所述装置可包括如下模块:
A1)测序数据获得和分析模块:用于获取待测肿瘤患者和健康人的外周血样本cfDNA的原始测序数据,经质控后获得有效测序数据,将所述有效测序数据比对到参考基因组得到比对结果文件,所述比对结果文件含有比对片段和所述比对片段的比对信息;
A2)前端模块:用于分别截取101个MS位点在人参考基因组的位置及其上下游序列片段获得每个所述MS位点的参考序列,从所述比对结果文件中分别截取所述101个MS位点及其上下游序列片段,获得所述样本每个所述MS位点的比对序列,使用SW算法将每个所述MS位点的所述比对序列重新比对到每个所述MS位点的参考序列,得到所述样本的重比对结果文件;保留所述重比对结果文件中测穿所述101个MS位点的比对片段,得到过滤重比对结果文件;将所述过滤重比对结果文件经过分子标签一致性分析得到所述样本每个所述MS位点每种单核苷酸重复序列长度的原始支持数;将所述样本的每个所述MS位点每种单核苷酸重复序列长度的原始支持数求和,得到所述样本每个所述MS位点的总支持数,基于所述总支持数判断每个所述MS位点质控是否合格;处理每个质控合格所述MS位点每种单核苷酸重复序列长度的原始支持数,获得所述样本的每个所述MS位点每种单核苷酸重复序列长度的最终支持数;
A3)构建参考集模块:用于将健康人的外周血cfDNA经A1)获得的比对结果文件,使用A2)所述前端模块分析获得所述健康人每个所述MS位点每种单核苷酸重复序列长度的最终支持数,基于所述健康人每个所述MS位点每种单核苷酸重复序列长度的最终支持数,获得参考集每个所述MS位点每种单核苷酸重复序列长度的基线值;
A4)后端模块:用于基于A3)获得的每个MS位点每种单核苷酸重复序列长度的基线值乘以权重系数获得所述样本每个MS位点每种单核苷酸重复序列长度的加权基线值;使用A2)得到所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终支持数减去所述加权基线值,获得所述待测肿瘤患者每个MS位点每种单核苷酸重复序列长度的原始得分;基于所述原始得分乘以权重系数获得所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终得分;将所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终得分求和得到所述待测肿瘤患者的每个MS位点的最终得分;将所述每个MS位点的最终得分与阈值比较判断所述待测肿瘤患者每个MS位点是阴性还是阳性;将所述待测肿瘤患者所有MS位点的最终得分求和得到所述待测肿瘤患者的最终得分;基于所述待测肿瘤患者的阳性位点数量以及待测肿瘤患者的最终得分确定所述待测肿瘤患者的微卫星不稳定性。
所述101个MS位点为如下MS1-MS101:
MS1对应人参考基因组GRCh37的chr1:6257785-6257792的(T)8;
MS2对应人参考基因组GRCh37的chr1:22033386-22033397的(A)12;
MS3对应人参考基因组GRCh37的chr1:33402335-33402351的(A)17;
MS4对应人参考基因组GRCh37的chr1:39751173-39751187的(T)15;
MS5对应人参考基因组GRCh37的chr1:161091815-161091831的(A)17;
MS6对应人参考基因组GRCh37的chr1:236714293-236714310的(A)18;
MS7对应人参考基因组GRCh37的chr2:39536690-39536716的(T)27;
MS8对应人参考基因组GRCh37的chr2:47641560-47641586的(A)27;
MS9对应人参考基因组GRCh37的chr2:48032741-48032753的(T)13;
MS10对应人参考基因组GRCh37的chr2:48033891-48033908的(T)18;
MS11对应人参考基因组GRCh37的chr2:62063094-62063110的(A)17;
MS12对应人参考基因组GRCh37的chr2:66796099-66796108的(T)10;
MS13对应人参考基因组GRCh37的chr2:95849362-95849384的(T)23;
MS14对应人参考基因组GRCh37的chr2:120714402-120714417的(T)16;
MS15对应人参考基因组GRCh37的chr2:138721943-138721959的(T)17;
MS16对应人参考基因组GRCh37的chr2:148683686-148683693的(A)8;
MS17对应人参考基因组GRCh37的chr2:190687176-190687184的(T)9;
MS18对应人参考基因组GRCh37的chr2:217280262-217280276的(T)15;
MS19对应人参考基因组GRCh37的chr3:30691872-30691881的(A)10;
MS20对应人参考基因组GRCh37的chr3:44373518-44373532的(T)15;
MS21对应人参考基因组GRCh37的chr3:71008342-71008354的(T)13;
MS22对应人参考基因组GRCh37的chr4:55598212-55598236的(T)25;
MS23对应人参考基因组GRCh37的chr4:55976948-55976960的(A)13;
MS24对应人参考基因组GRCh37的chr4:74285192-74285203的(T)12;
MS25对应人参考基因组GRCh37的chr4:141448596-141448609的(T)14;
MS26对应人参考基因组GRCh37的chr5:16474779-16474794的(T)16;
MS27对应人参考基因组GRCh37的chr5:121362853-121362863的(A)11;
MS28对应人参考基因组GRCh37的chr5:132425416-132425429的(A)14;
MS29对应人参考基因组GRCh37的chr5:134086671-134086683的(A)13;
MS30对应人参考基因组GRCh37的chr5:158526535-158526549的(A)15;
MS31对应人参考基因组GRCh37的chr6:32166161-32166173的(T)13;
MS32对应人参考基因组GRCh37的chr6:43021977-43021988的(G)12;
MS33对应人参考基因组GRCh37的chr6:64289939-64289953的(T)15;
MS34对应人参考基因组GRCh37的chr6:157495952-157495965的(T)14;
MS35对应人参考基因组GRCh37的chr6:163899795-163899806的(T)12;
MS36对应人参考基因组GRCh37的chr7:5239320-5239335的(A)16;
MS37对应人参考基因组GRCh37的chr7:27868484-27868500的(A)17;
MS38对应人参考基因组GRCh37的chr7:30673513-30673527的(A)15;
MS39对应人参考基因组GRCh37的chr7:54819994-54820004的(A)11;
MS40对应人参考基因组GRCh37的chr7:74608741-74608753的(T)13;
MS41对应人参考基因组GRCh37的chr7:116381122-116381137的(T)16;
MS42对应人参考基因组GRCh37的chr7:143003343-143003367的(T)25;
MS43对应人参考基因组GRCh37的chr8:7346867-7346875的(T)9;
MS44对应人参考基因组GRCh37的chr8:7679728-7679736的(A)9;
MS45对应人参考基因组GRCh37的chr8:30933817-30933828的(T)12;
MS46对应人参考基因组GRCh37的chr8:32488248-32488262的(T)15;
MS47对应人参考基因组GRCh37的chr8:32528648-32528661的(T)14;
MS48对应人参考基因组GRCh37的chr8:32548236-32548246的(T)11;
MS49对应人参考基因组GRCh37的chr8:32551070-32551085的(A)16;
MS50对应人参考基因组GRCh37的chr8:32584436-32584448的(T)13;
MS51对应人参考基因组GRCh37的chr8:33356192-33356207的(T)16;
MS52对应人参考基因组GRCh37的chr8:33356826-33356838的(T)13;
MS53对应人参考基因组GRCh37的chr8:38321489-38321499的(A)11;
MS54对应人参考基因组GRCh37的chr8:79629739-79629752的(A)14;
MS55对应人参考基因组GRCh37的chr8:103287851-103287863的(A)13;
MS56对应人参考基因组GRCh37的chr9:27062803-27062815的(A)13;
MS57对应人参考基因组GRCh37的chr9:87314579-87314591的(T)13;
MS58对应人参考基因组GRCh37的chr9:130571226-130571245的(T)20;
MS59对应人参考基因组GRCh37的chr10:8115669-8115686的(A)18;
MS60对应人参考基因组GRCh37的chr10:32575774-32575784的(A)11;
MS61对应人参考基因组GRCh37的chr10:115963127-115963135的(T)9;
MS62对应人参考基因组GRCh37的chr11:59368219-59368234的(A)16;
MS63对应人参考基因组GRCh37的chr11:102056723-102056737的(T)15;
MS64对应人参考基因组GRCh37的chr11:102080326-102080340的(A)15;
MS65对应人参考基因组GRCh37的chr11:102193509-102193534的(A)26;
MS66对应人参考基因组GRCh37的chr11:108114662-108114676的(T)15;
MS67对应人参考基因组GRCh37的chr11:108121411-108121425的(T)15;
MS68对应人参考基因组GRCh37的chr11:108195977-108195995的(T)19;
MS69对应人参考基因组GRCh37的chr11:115047033-115047046的(T)14;
MS70对应人参考基因组GRCh37的chr11:118369266-118369280的(A)15;
MS71对应人参考基因组GRCh37的chr11:125490766-125490786的(T)21;
MS72对应人参考基因组GRCh37的chr11:125763611-125763623的(T)13;
MS73对应人参考基因组GRCh37的chr12:42835329-42835343的(A)15;
MS74对应人参考基因组GRCh37的chr12:85285921-85285937的(A)17;
MS75对应人参考基因组GRCh37的chr12:109510087-109510098的(T)12;
MS76对应人参考基因组GRCh37的chr14:23652347-23652367的(A)21;
MS77对应人参考基因组GRCh37的chr14:53513440-53513451的(A)12;
MS78对应人参考基因组GRCh37的chr14:69520519-69520531的(T)13;
MS79对应人参考基因组GRCh37的chr14:95574595-95574607的(T)13;
MS80对应人参考基因组GRCh37的chr15:25319288-25319303的(T)16;
MS81对应人参考基因组GRCh37的chr15:45848231-45848246的(T)16;
MS82对应人参考基因组GRCh37的chr15:57484573-57484586的(T)14;
MS83对应人参考基因组GRCh37的chr15:91303187-91303202的(T)16;
MS84对应人参考基因组GRCh37的chr15:101550862-101550876的(T)15;
MS85对应人参考基因组GRCh37的chr16:3808053-3808065的(A)13;
MS86对应人参考基因组GRCh37的chr16:24185816-24185830的(T)15;
MS87对应人参考基因组GRCh37的chr16:72832619-72832634的(A)16;
MS88对应人参考基因组GRCh37的chr17:4442640-4442657的(A)18;
MS89对应人参考基因组GRCh37的chr17:41231806-41231821的(A)16;
MS90对应人参考基因组GRCh37的chr17:55334794-55334802的(C)9;
MS91对应人参考基因组GRCh37的chr18:319945-319955的(T)11;
MS92对应人参考基因组GRCh37的chr18:649880-649894的(T)15;
MS93对应人参考基因组GRCh37的chr18:48584856-48584871的(T)16;
MS94对应人参考基因组GRCh37的chr19:14104689-14104702的(T)14;
MS95对应人参考基因组GRCh37的chr19:52249072-52249085的(T)14;
MS96对应人参考基因组GRCh37的chr20:35695536-35695551的(A)16;
MS97对应人参考基因组GRCh37的chr20:44470649-44470661的(T)13;
MS98对应人参考基因组GRCh37的chr21:35475615-35475630的(A)16;
MS99对应人参考基因组GRCh37的chr21:44513111-44513121的(T)11;
MS100对应人参考基因组GRCh37的chr22:41545025-41545038的(T)14;
MS101对应人参考基因组GRCh37的chrX:101409255-101409270的(T)16。
上述位点中,核苷酸序列中括号内的核苷酸表示重复单元,括号外的数字为该重复单元的重复次数,具体信息见表1。
上述装置中,所述SW算法的参数可设置为:match=8,mismatch=-8,gap open=-13,gap extension=-1(正值为得分,负值为罚分)。
上述装置中,A2)所述每个MS位点每种单核苷酸重复序列长度的最终支持数可通过如下步骤获得:
A2-1)归一化处理
将每个质控合格的所述MS位点每种单核苷酸重复序列长度的原始支持数乘以100,再除以每个质控合格所述MS位点的总支持数,得到每个质控合格所述MS位点每种单核苷酸重复序列长度的归一化支持数;每个质控合格所述MS位点的总支持数为每个质控合格所述MS位点每种单核苷酸重复序列长度的原始支持数之和;
A2-2)平滑处理
将所述样本的每个质控合格所述MS位点每种单核苷酸重复序列长度的归一化支持数通过大小为3bp或2bp的滑动窗口进行平滑处理,得到每个所述MS位点每种单核苷酸重复序列长度的最终支持数,所述最终支持数为P1、P2或P3,所述P1为n的归一化支持数和n-1的归一化支持数之和,所述P2为n的归一化支持数和n+1的归一化支持数之和,所述P3为n的归一化支持数、n-1的归一化支持数和n+1的归一化支持数之和,n为所述样本每个质控合格所述MS位点每种单核苷酸重复序列长度。
上述装置中,A2)所述质控合格MS位点可为总支持数大于等于100的MS位点,总支持数小于100的MS位点可为质控不合格位点,所述质控不合格位点需舍弃,不参与后续分析。
上文所述装置还可包括测穿MS位点分析模块,所述测穿MS位点分析模块可用于将得到的重比对片段与MS位点的单核苷酸重复序列以及毗邻序列比较,判断所述重比对片段是否测穿MS位点,所述判断标准可为:
1)如果一条重比对片段覆盖了MS位点的单核苷酸重复序列以及其左右毗邻序列,则该重比对片段为测穿MS位点的片段;
2)如果重比对片段在首端(或末端)覆盖了MS位点的单核苷酸重复序列,但未能覆盖单核苷酸重复序列的左侧(或右侧)毗邻序列,则该片段为未测穿MS位点的重比对片段;
3)如果重比对片段在首端(或末端)覆盖了MS位点的单核苷酸重复序列,但其毗邻序列不能比对到MS位点左侧(右侧)毗邻的参考序列上,该片段为未测穿MS位点的重比对片段。
上文所述装置中所述分子标签一致性分析可通过包括如下步骤的方法实现:将得到的测穿MS位点的重比对片段进行分子标签一致性分析,根据分子标签确定哪些比对片段属于同一条原始cfDNA片段分子,通过设定规则获取这些片段的一致性支持长度,并将含有同一种分子标签的多个重比对片段处理为一条重比对片段。具体规则可为:
来源于同一原始cfDNA分子的两条子链,如果两条子链包含的重比对片段都大于等于2,则按照如下标准1)进行一致性分析;如果两条子链中只有一条包含的重比对片段大于等于2,则该条子链按照如下标准1)进行一致性分析,另一条子链直接舍弃,不进行后续分析;如果两条子链包含的重比对片段都小于2,但两条子链包含的重比对片断之和大于等于2,则按照如下标准2)进行一致性分析。
1)将原始cfDNA分子的两条子链单独进行一致性分析:
a)如果包含同一分子标签中有大于等于60%的重比对片段支持某一个长度,那么这个长度即为一致性长度;
b)如果不满足上述a),且同一分子标签的重比对片段大于等于6,且支持连续3bp长度的重比对片段数加和占比大于等于80%,那么该3bp连续片段的中间长度即为一致性长度。
b-1)当存在多于一个满足条件的3bp长度范围时,则选择3bp内支持数之和最高的长度范围的中间长度为一致性长度;
b-2)如果支持数之和相等则选择中间长度支持最高的那个长度为一致性长度;
b-3)如果支持数之和以及中间长度支持数都相等,那么则选择中间长度最长的那个长度为一致性长度。
所述长度可为单核苷酸重复序列长度。
2)如果一个DNA分子两条子链都不满足1)的两种情况,则将两条子链的重比对片段合并后按照条件1)的标准进行一致性分析,如果合并后的两条子链还是不满足条件1)标准,则舍弃该分子标签标记的cfDNA分子。
上述装置中,A3)所述基线值为参考集每个MS位点每种单核苷酸重复序列长度最终支持数的80%分位数。
上述装置中,A4)所述权重系数可包括第一组权重系数和第二组权重系数。
所述第一组权重系数设定标准可为如下:
所述权重系数可根据MS位点单核苷酸重复序列长度设定(见实施例表3):
1)当检测到的单核苷酸重复序列长度小于4bp时,无论MS位点在参考基因组中单核苷酸重复序列长度(参考基因组中MS位点单核苷酸重复的长度,简称ref型长度)为多少,则权重系数为0.1;
2)当不满足1)时,且当检测到的单核苷酸重复序列长度小于该MS位点ref型长度的20%,则权重系数为0.5;
3)当不满足1)和2)时,则根据MS位点ref型的长度和测序数据检测到的单核苷酸重复序列长度相对ref长度的变化值分组来确定权重系数:
3-1)位点ref型长度大于20bp,变化值与权重系数的对应关系为:-1:0,-2:0,-3:0,-4:0.05,-5:0.1,-6:0.2,-7:0.3,-8:0.5,-9:0.75,-10:1;
3-2)位点ref型长度16-20bp,变化值与权重系数的对应关系为:-1:0,-2:0,-3:0,-4:0.1,-5:0.4,-6:0.6,-7:0.8,-8:1;
3-3)位点ref型长度12-15bp,变化值与权重系数的对应关系为:-1:0.01,-2:0.01,-3:0.02,-4:0.2,-5:0.5,-6:1;
3-4)位点ref型长度小于12bp,变化值与权重系数的对应关系为:-1:0.01,-2:0.01,-3:0.05,-4:0.5,-5:1;
4)当不满足1)、2)和3)时,则权重系数为1。
所述第二组权重系数的设定标准可为如下:
所述权重系数可根据所述的A2)获得的每个MS位点每种单核苷酸重复序列长度的原始支持数设定:
1)如果某种单核苷酸重复序列长度的原始支持数大于等于该重复序列-1长度的原始支持数,并且也大于等于该重复序列+1长度的原始支持数,则该单核苷酸重复序列长度的权重系数为2;
2)当不满足1)时,则该单核苷酸重复序列长度的权重系数为1。
所述第一组权重系数可用于降低胚系变异产生的噪音影响,所述第二组权重系数可用于提高MSI变异检测的灵敏度。
上述装置中,A4)所述所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的原始得分计算标准可为:1)如果每个MS位点每种单核苷酸重复序列长度的最终支持数减去加权基线值的差值大于0,则原始得分记为差值;2)如果差值小于等于0,则原始得分记为0。
所述加权基线值的加权系数可为1.1。
上述装置中,A4)所述的样本微卫星稳定状态的判断标准可为:
1)所述MS位点最终得分阈值为0.5,MS位点最终得分大于等于0.5,则该位点为阳性位点;
2)所述样本阳性位点数量大于等于10,并且样本最终得分大于等于20,则该样本为MSI样本,否则为MSS样本。
为了解决上述技术问题,本发明还提供了检测微卫星不稳定性的方法,所述方法可包括如下步骤:
B1)测序数据获得和分析:获取待测肿瘤患者和健康人的外周血样本cfDNA的原始测序数据,经质控后获得有效测序数据,将所述有效测序数据比对到参考基因组得到比对结果文件,所述比对结果文件含有比对片段和所述比对片段的比对信息;
B2)前端模块:分别截取101个MS位点在人参考基因组的位置及其上下游序列片段获得每个所述MS位点的参考序列,从所述比对结果文件中分别截取所述101个MS位点及其上下游序列片段,获得所述样本每个所述MS位点的比对序列,使用SW算法将每个所述MS位点的所述比对序列重新比对到每个所述MS位点的参考序列,得到所述样本的重比对结果文件;保留所述重比对结果文件中测穿所述101个MS位点的比对片段,得到过滤重比对结果文件;将所述过滤重比对结果文件经过分子标签一致性分析得到所述样本每个所述MS位点每种单核苷酸重复序列长度的原始支持数;将所述样本的每个所述MS位点每种单核苷酸重复序列长度的原始支持数求和,得到所述样本每个所述MS位点的总支持数,基于所述总支持数判断每个所述MS位点质控是否合格;处理每个质控合格所述MS位点每种单核苷酸重复序列长度的原始支持数,获得所述样本的每个所述MS位点每种单核苷酸重复序列长度的最终支持数;
B3)构建参考集模块:将健康人的外周血cfDNA经B1)获得的比对结果文件,使用B2)所述前端模块分析获得所述健康人每个所述MS位点每种单核苷酸重复序列长度的最终支持数,基于所述健康人每个所述MS位点每种单核苷酸重复序列长度的最终支持数,获得参考集每个所述MS位点每种单核苷酸重复序列长度的基线值;
B4)后端模块:基于B3)获得的每个MS位点每种单核苷酸重复序列长度的基线值乘以权重系数获得所述样本每个MS位点每种单核苷酸重复序列长度的加权基线值;使用B2)得到所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终支持数减去所述加权基线值,获得所述待测肿瘤患者每个MS位点每种单核苷酸重复序列长度的原始得分;基于所述原始得分乘以权重系数获得所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终得分;将所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终得分求和得到所述待测肿瘤患者的每个MS位点的最终得分;将所述每个MS位点的最终得分与阈值比较判断所述待测肿瘤患者每个MS位点是阴性还是阳性;将所述待测肿瘤患者所有MS位点的最终得分求和得到所述待测肿瘤患者的最终得分;基于所述待测肿瘤患者的阳性位点数量以及待测肿瘤患者的最终得分确定所述待测肿瘤患者的微卫星不稳定性;
所述101个MS位点可为上文所述MS1-MS101。
上述方法中,所述SW算法的参数可设置为:match=8,mismatch=-8,gap open=-13,gap extension=-1(正值为得分,负值为罚分)。
上述方法中,B2)所述每个MS位点每种单核苷酸重复序列长度的最终支持数可通过如下步骤获得:
B2-1)归一化处理
将每个质控合格的所述MS位点每种单核苷酸重复序列长度的原始支持数乘以100,再除以每个质控合格所述MS位点的总支持数,得到每个质控合格所述MS位点每种单核苷酸重复序列长度的归一化支持数;每个质控合格所述MS位点的总支持数为每个质控合格所述MS位点每种单核苷酸重复序列长度的原始支持数之和;
B2-2)平滑处理
将所述样本的每个质控合格所述MS位点每种单核苷酸重复序列长度的归一化支持数通过大小为3bp或2bp的滑动窗口进行平滑处理,得到每个所述MS位点每种单核苷酸重复序列长度的最终支持数,所述最终支持数为P1、P2或P3,所述P1为n的归一化支持数和n-1的归一化支持数之和,所述P2为n的归一化支持数和n+1的归一化支持数之和,所述P3为n的归一化支持数、n-1的归一化支持数和n+1的归一化支持数之和,n为所述样本每个质控合格所述MS位点每种单核苷酸重复序列长度。
上述方法中,B2)所述质控合格MS位点为总支持数大于等于100的MS位点,总支持数小于100的MS位点为质控不合格位点,所述质控不合格位点需舍弃,不参与后续计算分析。
上述方法还可包括测穿MS位点分析步骤:将得到的重比对片段与MS位点的单核苷酸重复序列以及毗邻序列比较,判断所述重比对片段是否测穿MS位点,所述测穿MS位点判断标准可为如下:
1)如果一条重比对片段覆盖了MS位点的单核苷酸重复序列以及其左右毗邻序列,则该重比对片段为测穿MS位点的片段;
2)如果重比对片段在首端(或末端)覆盖了MS位点的单核苷酸重复序列,但未能覆盖单核苷酸重复序列的左侧(或右侧)毗邻序列,则该片段为未测穿MS位点的重比对片段;
3)如果重比对片段在首端(或末端)覆盖了MS位点的单核苷酸重复序列,但其毗邻序列不能比对到MS位点左侧(右侧)毗邻的参考序列上,该片段为未测穿MS位点的重比对片段。
上述方法中所述分子标签一致性分析可包括如下步骤:将得到的测穿MS位点的重比对片段进行分子标签一致性分析,根据分子标签确定哪些比对片段属于同一条原始cfDNA片段分子,通过设定规则获取这些片段的一致性支持长度,并将含有同一种分子标签的多个重比对片段处理为一条重比对片段,具体规则可为:来源于同一原始cfDNA分子的两条子链,如果两条子链包含的重比对片段都大于等于2,则按照如下标准1)进行一致性分析;如果两条子链中只有一条包含的重比对片段大于等于2,则该条子链按照如下标准1)进行一致性分析,另一条子链直接舍弃,不进行后续分析;如果两条子链包含的重比对片段都小于2,但两条子链包含的重比对片断之和大于等于2,则按照如下标准2)进行一致性分析。
1)将原始cfDNA分子的两条子链单独进行一致性分析:
a)如果包含同一分子标签中有大于等于60%的重比对片段支持某一个长度,那么这个长度即为一致性长度;
b)如果不满足上述a),且同一分子标签的重比对片段大于等于6,且支持连续3bp长度的重比对片段数加和占比大于等于80%,那么该3bp连续片段的中间长度即为一致性长度。
b-1)当存在多于一个满足条件的3bp长度范围时,则选择3bp内支持数之和最高的长度范围的中间长度为一致性长度;
b-2)如果支持数之和相等则选择中间长度支持最高的那个长度为一致性长度;
b-3)如果支持数之和以及中间长度支持数都相等,那么则选择中间长度最长的那个长度为一致性长度。
所述长度可为单核苷酸重复序列长度。
2)如果一个DNA分子两条子链都不满足1)的两种情况,则将两条子链的重比对片段合并后按照条件1)的标准进行一致性分析,如果合并后的两条子链还是不满足条件1)标准,则舍弃该分子标签标记的cfDNA分子。
上述方法中,
B3)所述基线值为所述参考集每个所述MS位点每种单核苷酸重复序列长度最终支持数的80%分位数。
上述方法中,B4)所述权重系数可包括第一组权重系数和第二组权重系数。所述第一组权重系数设置标准可为如下:
所述权重系数可根据MS位点单核苷酸重复序列长度设定(见实施例表3):
1)当检测到的单核苷酸重复序列的长度小于4bp时,无论MS位点在参考基因组中单核苷酸重复序列的长度(参考基因组中MS位点单核苷酸重复的长度,简称ref型长度)为多少,则权重系数为0.1;
2)当不满足1)时,且当检测到的单核苷酸重复序列的长度小于该MS位点ref型长度的20%,则权重系数为0.5;
3)当不满足1)和2)时,则根据MS位点ref型的长度和测序数据检测到的长度相对ref长度的变化值分组来确定权重系数:
3-1)位点ref型长度大于20bp,变化值与权重系数的对应关系为:-1:0,-2:0,-3:0,-4:0.05,-5:0.1,-6:0.2,-7:0.3,-8:0.5,-9:0.75,-10:1;
3-2)位点ref型长度16-20bp,变化值与权重系数的对应关系为:-1:0,-2:0,-3:0,-4:0.1,-5:0.4,-6:0.6,-7:0.8,-8:1;
3-3)位点ref型长度12-15bp,变化值与权重系数的对应关系为:-1:0.01,-2:0.01,-3:0.02,-4:0.2,-5:0.5,-6:1;
3-4)位点ref型长度小于12bp,变化值与权重系数的对应关系为:-1:0.01,-2:0.01,-3:0.05,-4:0.5,-5:1;
4)当不满足1)、2)和3)时,则权重系数为1。
所述第二组权重系数设置标准可为如下:
所述权重系数可根据所述的B2)获得的每个MS位点每种单核苷酸重复序列长度的原始支持数设定:
1)如果某种单核苷酸重复序列长度的原始支持数大于等于该重复序列-1长度的原始支持数,并且也大于等于该重复序列+1长度的原始支持数,则该单核苷酸重复序列长度的权重系数为2;
2)当不满足1)时,则该单核苷酸重复序列长度的权重系数为1。
所述第一组权重系数可用于降低胚系变异产生的噪音影响,所述第二组权重系数可用于提高MSI变异检测的灵敏度。
上述方法中,B4)所述所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的原始得分计算标准可为:1)如果每个MS位点每种单核苷酸重复序列长度的最终支持数减去加权基线值的差值大于0,则原始得分记为差值;2)如果差值小于等于0,则原始得分记为0。
所述加权基线值的加权系数可为1.1。
上述方法中,A4)所述的样本微卫星稳定状态的判断标准可为:
1)所述MS位点最终得分阈值为0.5,MS位点最终得分大于等于0.5,则该位点为阳性位点;
2)所述样本阳性位点数量大于等于10,并且样本最终得分大于等于20,则该样本为MSI样本,否则为MSS样本。
为了解决上述技术问题,本发明还提供了检测微卫星不稳定性的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可使计算机执行上文任一所述方法的步骤。
为了解决上述技术问题,本发明还提供了检测微卫星不稳定性的组合,所述组合由101个MS位点组成;
所述101个MS位点可为上文所述MS1-MS101。
为了解决上述技术问题,本发明还提供了检测上文所述101个MS位点单核苷酸重复序列长度的物质在制备检测微卫星不稳定性的产品中的应用。
上述应用或方法可为非疾病诊断的应用或方法。上述应用或方法可不以获得有生命的人体或动物体的疾病诊断结果或健康状况为直接目的。
上述应用或方法可为非疾病治疗目的的应用或方法。上述应用或方法可不以使有生命的人体或者动物体恢复或获得健康或减少痛苦为直接目的。
本发明通过一系列的算法和优化方案,解决了利用肿瘤病人血液中低含量的ctDNA检测肿瘤MSI的技术问题。本发明所述的微卫星不稳定性分析方法可分为前端、构建参考集与后端三个模块。
其中前端模块基于患者血液cfDNA的二代测序数据,首先取出已比对至MS位点附近的比对片段进行重新比对,通过调整比对参数,提高检测长插入/缺失突变的敏感性;如果原始数据含分子标签,本发明可根据分子标签识别来自同一原始cfDNA片段的比对结果,并获取这些片段在MS位点上的一致性支持长度。通过以上方法提升有效数据量,同时确保低错误率,最终获取每个MS位点每种单核苷酸重复序列长度的原始支持数。然后经质控、归一化和平滑处理,获得每个MS位点每种单核苷酸重复序列长度的最终支持数。
参考集由一系列健康人的每个MS位点每种单核苷酸重复序列长度的最终支持数获得每个MS位点每种单核苷酸重复序列长度的基线值。
后端模块接受待检肿瘤患者样本经前端分析得到的结果与参考集比较。同时,本发明引入得分权重,其记录每个MS位点每种单核苷酸重复序列长度的得分权重。比较时,先由每个MS位点每种长度的最终支持数减去加权基线值计算差值为原始得分;该得分与对应的得分权重相乘得到最终得分。某一位点各长度最终得分之和为位点最终得分,同时设定位点最终得分阈值,超过阈值的位点为阳性位点,而全部位点的最终得分之和为样本最终得分。样本的微卫星不稳定性状态由阳性位点总数和样本最终得分确定。
本发明由于采取以上技术方案,其具有以下优点:
本发明仅通过肿瘤病人血液cfDNA的二代测序数据即可检测微卫星不稳定性状态。与传统方法相比,本发明所述方法只需抽取外周血而无需对肿瘤组织取样,最大限度的降低了对病人的影响。且本发明无需同一病人的对照血液白细胞样本,进一步降低了检测成本。且本发明通过使用SW算法进行重新比对,并设置灵敏的SW比对参数以及设置权重系数,提高了MSI检测的灵敏度。此外,本发明通过检测cfDNA所获得的MSI信息(blood MSI,bMSI)不局限于特定的肿瘤病灶,因此在肿瘤转移、多病灶或肿瘤异质性较强时,能一定程度降低组织取样偏差的影响、更准确的获取病人肿瘤整体的MSI状态。
附图说明
图1为使用本专利所述方法进行bMSI分析的完整流程图。
图2为SW算法构建得分矩阵的过程,由图左上所示的初始矩阵按图右侧规则自矩阵左上至右下依次计算,最后得到图左下所示矩阵。图中i代表行,j代表列;SW重比对得分矩阵,每一个格子的分值和它相邻的3个格子得分相关,如图右上所示,S(i,j)代表第i行,第j列格子的得分,它和它的左侧格子得分S(i,j-1)、上方格子得分S(i-1,j)以及左上对角线格子得分S(i-1,j-1)相关。计算规则如图右下所示,S(i,j)代表第i行,第j列格子的得分,E(i,j)代表其左侧格子得分,F(i,j)代表其上方格子得分,m(i,j)代表该格子对应的两个碱基匹配得分。
图3为不同缺口得分参数设置对比对结果的影响及片段是否测穿MS位点的示意图。
图4为测穿和未测穿MS位点的示意图。
图5为一例健康人MS1,MS2,MS3三个位点每种单核苷酸重复序列长度原始支持数的示例。
图6为实施例1由健康人数据构建参考集的过程,以MS3位点为示例。
图7为编号1的待测样本后端分析流程对数据进行处理并得到结果的示例图,以MS3位点示例。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1、微卫星不稳定性检测及分析方法的建立。
本发明建立的基于肿瘤患者外周血cfDNA二代测序数据检测微卫星不稳定的方法流程如图1所示。
1.测序数据的获取和处理。
抽取1例结直肠癌患者和40例健康人外周血样本,经过DNA提取(MagMAXTMCell-Free DNA Isolation Kit,货号:A29319;Thermo Fisher)和建库(xGen Prism DNALibrary Prep Kit,货号;10006203;IDT),经由NGS panel测序(Onco Sonar,北京泛生子基因科技有限公司,共涉及101个MS位点,见表1)获得储存为FASTQ格式的原始测序数据。
利用trimmomatic软件(Bolger A M,Lohse M,Usadel B,Trimmomatic:aflexible trimmer for Illumina sequence data.Bioinformatics,2014,30:2114-20)对原始测序数据进行质控,去除接头序列并过滤低质量序列得到FASTQ格式的有效测序数据。低质量序列的过滤参数为:LEADING:3TRAILING:3SLIDINGWINDOW:4:15MINLEN:36。利用bwa-MEM(Li H,Durbin R,Fast and accurate short read alignment with Burrows-Wheeler Transform.Bioinformatics,2009,25:1754-60.)软件将有效测序数据比对至人GRCh37(2009/2/27)参考基因组,输出为BAM格式比对结果文件。比对结果文件包含比对到参考基因组上的测序片段(read)信息和该测序片段比对到基因组上的位置信息结果,含有比对信息的测序片段称之为“比对片段”。例如:某一条比对片段的比对结果包括:1.该测序片段(长度为141bp)的核苷酸序列“TGGCAGCATCCATGATTCCATCTTCTACAGGGTGGGTGCAATCAAGAGTGAACTTCAGAACTTGCTTC[TTTTTTTT]GCCCCCCTTCACCACAAGCTTTTTCTAAGAAAATACACAAATGATAACAGAGATGAAGTTTCAGT”和2.该read的比对信息:主要信息包括(1)比对位置为1:6257717(1表示参考基因组1号染色体,6257717表示该read第一个碱基比对位置),(2)比对结果:141M(M表示该read的碱基比对到参考基因组上,包含错配),该read核苷酸序列中方括号括起来的序列为比对到MS1位点(1号染色体,起始位置6257785,终止位置6257792)的8个重复核苷酸T,(3)比对FLAG数值为99,(4)比对质量值(MAPping Quality)为60,(5)每个碱基比对质量值为“FFFFFFFFFFFFFFFFFFF:FFFFFFFFFF,FFF,FFFFFFFFFF,FFF:FFFFFFF::FF,FF,FFFFF::FFFFFF::FFFF::F,F:FFFFFFF::FFFFFFFFFF:FFFFFFFF::F:F:::,FFFFF:FF,FFFFF”。
表1.MS位点的基因组信息
注:全部为单核苷酸重复,基于人参考基因组GRCh37。
2.微卫星不稳定检测流程。
本发明建立的微卫星不稳定性分析方法中MSI检测流程分为前端、构建参考集与后端三个模块。其中前端模块用于对步骤1获得的比对结果文件经重新比对、测穿MS位点分析、分子标签一致性分析、质控、归一化和平滑处理得到健康人样本和肿瘤样本每个MS位点每种单核苷酸重复序列长度的最终支持数。构建参考集模块由一系列健康人的前端分析结果,获得每个MS位点每种单核苷酸重复序列长度的基线值。后端模块将肿瘤样本的前端分析结果与构建好的参考集进行比较,得到肿瘤样本的总得分和阳性位点数,进而确定该肿瘤样本的微卫星稳定性状态。
2.1前端模块。
对步骤1中获得的1例结直肠癌患者和40例健康人的比对结果文件,依次进行以下操作:
(1)重新比对。
先在参考基因组(GRCh37)中截取每个MS位点(表1中涉及的101个位点)基因组位置上下游各400bp范围的序列,作为该MS位点的参考序列。从步骤1得到的比对结果文件中,截取每个MS位点上下游各200bp范围内的序列,作为该MS位点的比对序列。使用调整参数后的SW算法(Smith-Waterman algorithm)(Xia,Z.,Cui,Y.,Zhang,A.et al.A Review ofParallel Implementations for the Smith–Waterman Algorithm.Interdiscip SciComput Life Sci 14,1–14(2022))将每个MS位点的比对序列比对到相应MS位点的参考序列,得到样本的重比对结果文件,经过SW算法重新比对的比对片段称之为“重比对片段”。
SW算法是基于动态规划的局部比对算法,可分为构建比对得分矩阵和回溯两步骤。设参考序列和比对序列的序列长分别为m和n,则得分矩阵为(m+1)*(n+1)维,其构建过程如图2所示:首先初始化矩阵,如图2左上,其首列与首行均为0;然后从最左上的空白格子开始,根据该格子左上对角线、上方和左方格子的得分,按图2右侧的规则计算本格得分。SW算法中有四个主要参数:match(两碱基匹配的得分)、mismatch(两碱基不匹配的罚分)、gapopen(新增缺口的罚分)和gap extension(缺口延伸的罚分),常规参数会设定为:match=1,mismatch=-1,gap open=-1,gap extension=-1(图2得分矩阵使用此参数计算得分)。本方法将参数调整为:match=8,mismatch=-8,gap open=-13,gap extension=-1,大幅降低了缺口延伸的罚分并适当调整其它得分/罚分,其优势在于:当MS位点靠近一条比对片段的首/末端时,则首/末端除单核苷酸重复序列外,剩余的比对片段长度较短(如图3所示的末端示例:比对片段Q1,除去单核苷酸重复A序列外,末端还剩余TTCC 4bp的比对片段),如果单核苷酸重复序列发生了长的缺失事件,使用常规参数则容易因为长缺失的罚分过多导致比对片段得分过低而使剩余序列无法比对到参考序列上,例如图3所示情况①,比对片段Q1末端得分为-2分,则TTCC会比对成软截断,从而导致该比对片段Q1末端为未测穿片段。缺失片段越长则此情况越严重。本方法中降低缺口延伸罚分能使SW比对算法更准确的处理比对片段中的长缺失事件,如图3所示情况②,比对片段Q1末端得分为14分,则TTCC会正确比对到参考序列上,会得到一个5bp的缺失事件。
(2)测穿MS位点分析。
根据步骤(1)获得的样本重比对结果文件判断重比对片段是否测穿了MS位点,并保留测穿MS位点的重比对片段,得到只包含测穿MS位点的重比对片段的重比对结果文件,即过滤重比对结果文件,用于后续分析。
测穿MS位点的判断标准如下:1)如果一条重比对片段覆盖了MS位点的单核苷酸重复序列以及其左右毗邻序列,则该重比对片段为测穿MS位点的片段,测穿MS位点的重比对片段如图4中Q1所示;2)如果重比对片段在首端(或末端)覆盖了MS位点的单核苷酸重复序列,但未能覆盖单核苷酸重复序列的左侧(或右侧)毗邻序列,则该片段为未测穿MS位点的重比对片段,如图4中Q2(或Q3)所示;3)如果重比对片段在首端(或末端)覆盖了MS位点的单核苷酸重复序列,但其毗邻序列不能比对到MS位点左侧(或右侧)毗邻的参考序列上,如图4中Q4(或Q5)所示,毗邻序列为软截断,软截断序列可能比对到人参考基因组其他染色体上或同一条染色体的其他位置,也可能不会比对到参考基因组任何位置。这种情况下该片段也为未测穿MS位点的重比对片段。未测穿MS位点的重比对片段,无法确定该片段来源的MS位点的每种单核苷酸重复序列长度是多少,无法准确检测MSI,未测穿MS位点的重比对片段不会纳入后续分析。
(3)分子标签一致性分析。
本实施例测序数据包含分子标签,因此还需要对步骤(2)得到的测穿MS位点的重比对片段进行分子标签一致性分析,得到最终的过滤重比对结果文件。如果采用的测序产品产生的测序数据不包含分子标签,此步骤可以省略。对于包含分子标签的测序数据,每一条原始cfDNA分子都含有一个唯一的分子标签,测序片段也含有分子标签,过滤后得到的重比对结果文件中的重比对片段也含有分子标签,含有同一种分子标签的重比对片段来源于同一条原始cfDNA分子,具有相同分子标签的重比对片段构成了一个簇,由于文库制备以及测序过程中随机引入的错误,即使来源于同一条原始cfDNA分子的重比对片段,其序列的碱基和重复序列长度也不完全一致,因此需要对这些同一来源的重比对片段进行一致性分析,并获取这些片段的一致性重复序列长度,作为该原始cfDNA分子的重复序列长度,该方法可降低测序错误的影响。
来自同一原始cfDNA分子的所有重比对片段可能支持同一MS位点不同的单核苷酸重复序列长度,本发明制定了一定的规则,根据规则确定每个原始cfDNA分子所支持的MS位点的单核苷酸重复序列长度(以下简称为“一致性长度”),并将含有同一种分子标签的多个重比对片段处理为一条重比对片段。
具体规则如下(规则中将“单核苷酸重复序列长度”简称为“长度”):
来源于同一原始cfDNA分子的两条子链,如果两条子链包含的重比对片段都大于等于2,则按照如下标准1)进行一致性分析;如果两条子链中只有一条包含的重比对片段大于等于2,则该条子链按照如下标准1)进行一致性分析,另一条子链直接舍弃,不进行后续分析;如果两条子链包含的重比对片段都小于2,但两条子链包含的重比对片断之和大于等于2,则按照如下标准2)进行一致性分析。
1)将原始cfDNA分子的两条子链单独进行一致性分析:
a)如果包含同一分子标签中有大于等于60%的重比对片段支持某一个长度,那么这个长度即为一致性长度;例如:包含同一分子标签的重比对片段共50条,其中支持长度15的重比对片段有35条,达到70%,则一致性长度为15。
b)如果不满足上述a),且同一分子标签的重比对片段大于等于6,且支持连续3bp长度的重比对片段加和占比大于等于80%,那么该3bp连续片段的中间长度即为一致性长度。b-1)当存在多于一个满足条件的3bp长度范围时,则选择3bp内支持数之和最高的长度范围的中间长度为一致性长度;b-2)如果支持数之和相等则选择中间长度支持最高的那个长度为一致性长度;b-3)如果支持数之和以及中间长度支持数都相等,那么则选择中间长度最长的那个长度为一致性长度。例如1:同一分子标签的重比对片段共20条,长度支持数分布如下:13:2,14:8,15:6,16:3,17:1(冒号前数字是长度,冒号后是重比对片段支持数)。长度14的支持数最多,占比8/20=40%,小于60%,不满足条件a),但是13、14、15三个连续长度支持数加和等于16,占比16/20=80%,满足条件b),同时14、15、16三个长度支持数加和等于17,占比大于80%,也满足条件b),那么根据b-1)标准,选择14、15、16这个长度范围的中间长度15为一致性长度。例如2:同一分子标签的重比对片段共20条,长度支持数分布如下:13:2,14:8,15:6,16:2,17:2,长度14的支持数最多,占比8/20=40%,小于60%,不满足条件a),但是13、14、15三个连续长度支持数加和等于16,占比16/20=80%,满足条件b),同时14、15、16三个长度支持数加和也等于16,占比等于80%,也满足条件b),此时,两个3bp连续长度加和相等,那么根据b-2)标准,13、14、15长度范围中间长度14的支持数是8,大于14、15、16长度范围中间长度15的支持数6,最终选择14为一致性长度。例如3:同一分子标签的重比对片段共20条,长度支持数分布如下:13:1,14:8,15:8,16:1,17:2,长度14和15的支持数最多,占比8/20=40%,小于60%,不满足条件a),但是13、14、15三个连续长度支持数加和等于17,占比17/20>80%,满足条件b),同时14、15、16三个长度支持数加和也等于17,占比也大于80%,满足条件b),且两个长度范围内的中间长度14和15的支持数也相等,那么根据b-3),长度15大于长度14,最终选择15为一致性长度。
2)如果一个cfDNA分子两条子链都不满足1)的两种情况,则将两条子链的重比对片段合并后按照条件1)的标准进行一致性分析,如果合并后的两条子链还是不满足条件1)标准,则舍弃该分子标签标记的cfDNA分子。
经由以上步骤分析,得到每个MS位点每种单核苷酸重复序列长度的原始支持数。最终得到每个样本所有MS位点每种单核苷酸重复序列长度的原始支持数分布,该结果的一个示例见图5,其中每行是一个MS位点,最后一列为该位点每种单核苷酸重复序列长度经分子标签一致性分析后得到的原始支持数(MS位点的参考序列ref型单核苷酸重复序列长度记为0,其它单核苷酸重复序列长度记为相对ref型的变化量)。
(4)质控。
将样本的每个MS位点每种单核苷酸重复序列长度的原始支持数求和得到每个MS位点的总支持数,所述总支持数大于等于100的MS位点为质控合格的MS位点,小于100的MS位点为质控不合格MS位点,质控不合格MS位点需要舍弃,不参与后续分析。从而得到样本质控合格的每个MS位点每种单核苷酸重复序列长度的原始支持数分布。
(5)归一化处理。
将样本所有质控合格MS位点每种单核苷酸重复序列长度的原始支持数(即步骤(4)输出的结果)进行归一化处理,转化为归一化支持数:对于每个样本,每个质控合格MS位点每种单核苷酸重复序列长度的原始支持数之和即为每个样本的每个质控合格MS位点的总支持数,将每个质控合格MS位点每种单核苷酸重复序列长度的原始支持数乘以100,再除以该质控合格MS位点总支持数,则得到每个长度的支持数占总支持数的比例,该比值作为每个质控合格MS位点每种单核苷酸重复序列长度的归一化支持数。
(6)平滑处理。
对每个质控合格MS位点每种单核苷酸重复序列长度,将其自身与临近几个长度(滑动窗口大小)的归一化支持数求和,作为该长度的最终支持数。本实施例使用大小为3或2的滑动窗口,即对于每个质控合格MS位点检测到的最短或最长的单核苷酸重复序列(假设为n),因其没有该重复序列长度-1(即n-1)或+1(即n+1)的支持数,此时的滑动窗口大小为2,其他长度的重复序列的滑动窗口大小为3。只有MS位点相比于参考基因组单核苷酸重复序列发生缺失的事件,才会对MSI检测有贡献,因此在进行平滑处理时只考虑小于参考基因组单核苷酸重复序列长度的重复序列。
例:某个质控合格MS位点参考基因组单核苷酸重复序列长度为17,原始的总支持数为970,样本在该MS位点检测到单核苷酸重复序列长度分别-6(比ref型短11bp)、-5、-4、-3、-2、-1、0、1、2、3,对应的原始支持数分别为3、17、21、9、23、146、606、128、14和3,长度-6、-5和-4的原始支持数分别为3、17和21,则-6、-5和-4归一化后的支持数分别是:3×100/970、17×100/970、21×100/970,-5(假设为n)长度经平滑处理后的最终支持数等于-6(记为n-1)、-5和-4(记为n+1)三个长度的归一化结果之和:3×100/970+17×100/970+21×100/970=4.227;-17长度为检测到的最短长度,-17(假设为n)长度平滑后处理后最终支持数等于-17(即n)和-16(即为n+1)长度归一化的结果之和,该MS位点-17和-16长度均没有支持数,也就是支持数为0,则平滑后结果0×100/970+0×100/970=0。
2.2构建参考集模块。
本实施例以前面所述40例健康人外周血cfDNA的经步骤1和2.1处理后的测序数据构建参考集。
步骤2.1归一化、平滑处理完成后,得到每个MS位点每种单核苷酸重复序列长度的最终支持数,由40例健康人样本在每个MS位点每种单核苷酸重复序列长度的最终支持数计算获得每个MS位点每种单核苷酸重复序列长度的基线值。此步骤中以下将“每种单核苷酸重复序列长度”简称为“每种长度”,本实施例使用80%分位数,即计算所有参考集样本在每个MS位点每种长度最终支持数(由小到大排列,详见图6)的80%分位数作为每个MS位点每种长度的基线值,本实施例使用R语言(版本R3.6.0)quantile函数计算80%分位数,其中参数设置为type=7。构建参考集模块全过程的示例可见图6,图6展示了MS3位点长度14(相对长度-3)的计算过程,基线值为6.58。由此得到每个MS位点每种长度的基线值(表2),例如:对于MS1位点,参考基因组单核苷酸重复序列长度为8bp,该位点相对ref长度变化值为-8、-7、-6、-5、-4、-3(即该位点单核苷酸重复序列长度为0bp、1bp、2bp、3bp、4bp、5bp)的基线值为0;相对ref长度变化值为-2(即该位点单核苷酸重复序列长度为6bp)的基线值为1.021;相对ref长度变化值为-1(即该位点单核苷酸重复序列长度为7bp)的基线值为99.574。
表2. 40例健康人构建参考集的基线值
2.3后端模块。
以下将“每种单核苷酸重复序列长度”简称为“每种长度”。
(1)计算每个MS位点每种长度的原始得分:
由步骤2.2构建参考集模块获得每个MS位点每种长度的基线值(图7中5.基线值所示)乘以权重系数计算加权基线值,用步骤2.1得到的每个MS位点每种长度的最终支持数(图7中4.最终支持数所示)减去相应的加权基线值,获得每个MS位点每种长度的原始得分。本发明中基线值的权重系数设置为1.1。当每个MS位点每种长度的最终支持数减去加权基线值的差值大于0的时候,则差值才可记为原始得分,如果差值小于等于0,则原始得分记为0,如图7中6.原始得分所示。
(2)调整每个MS位点每种长度的得分:
对于每个MS位点,预先设定两组权重系数,基于MS位点单核苷酸重复序列长度设定第一组权重系数(图7中7.第一权重系数),根据待测样本检测到的每个MS位点每种长度原始支持数设定第二组权重系数(图7中8.第二权重系数)。上一步骤(1)得到的每个MS位点每种长度的原始得分乘以两个权重系数,将会得到每个MS位点每种长度的最终得分(图7中9.加权后最终得分)。
第一组权重系数设定:本实施例根据MS位点ref型长度以及检测到的MS位点单核苷酸重复序列长度将MS位点分四种情况赋予不同权重系数,具体的权重系数见表3。该系数用于降低靠近主峰因而背景信号较高的长度上的权重。
表3.第一组权重系数
注:“ref”代表参考基因组中的MS位点。“位点ref型长度”代表参考基因组MS位点的单核苷酸重复序列长度。“相对ref长度的变化值”代表检测样本MS位点相对于参考基因组MS位点单核苷酸重复序列长度的变化值,例如-1为检测样本MS位点比参考基因组MS位点的单核苷酸重复序列长度短1bp。
关于长度和第一组权重系数的解释:这里的权重系数是由两个长度共同确定的,即参考基因组MS位点单核苷酸重复序列的长度(简称ref型长度)以及检测到的MS位点单核苷酸序列重复序列长度(简称检测长度)。根据表3:
1)当检测长度小于4bp时,无论ref型长度为多少,则权重系数为0.1;
2)当不满足1)时,且检测长度小于ref型长度的20%,则权重系数为0.5;
3)当不满足1)和2)时,根据MS位点ref型长度和检测长度相对ref长度的变化值分组来确定权重系数;
4)当不满足1)、2)和3)时,则权重系数为1。
例:某个MS位点ref型长度为15bp,检测长度为11bp,满足条件3)中的第三组12-15bp一类。查询得相对ref型长度的变化值-4(=11-15)对应的权重系数为0.2,则检测长度11的权重系数为0.2。
例:某个MS位点ref型长度为18bp,检测长度为9bp,ref型长度满足条件3)中的第二组16-20bp一类。检测长度相对ref长度的变化值-9(=9-18)在这一分组中无对应的权重系数,则该检测长度满足条件4),权重系数为1。
第二组权重系数设定:
以下将“单核苷酸重复序列长度”简称为“长度”
根据步骤2.1获得的每个MS位点每种单核苷酸重复序列长度的原始支持数确定,该系数用于提高远离主峰(即原始支持数最多的长度为主峰)在其他长度出现峰的权重,这种峰是MSI样本的特征,提高其权重系数可提高MSI检测灵敏度:
1)如果某个MS位点某种长度的原始支持数大于等于该长度-1的原始支持数,并且也大于等于该长度+1的原始支持数,则该位点该长度的权重系数为2;
2)当不满足1)时,则该位点该长度的权重系数为1。
例如图7所示的1号待测样本的MS3位点,ref型是17个A重复。经步骤2.1前端模块分析得到该位点上一共有970条重比对片段支持(图7中2.原始支持数之和),如图7中1.原始支持数所示:其中21条支持-4长度(13个A重复),17条支持-5长度(12个A重复),9条支持-3长度(14个A重复)。则在-4长度根据上述计算的归一化并平滑处理后的支持数是17*100/970+21*100/970+9*100/970=4.845(图7中4.平滑后支持数-4列所示)。根据表2,该位点该长度的基线值是2.207,那么该位点原始得分为4.845-2.207*1.1=2.417,根据表3权重系数得到,-4(13个A重复)不满足条件1,符合条件2位点ref型长度16-20bp:-4:0.1,则该位点该长度第一权重系数为0.1,-4长度支持数21,大于-5长度支持数17,也大于-3长度支持数9,因此第二权重系数为2。那么MS3位点在-4长度的最终得分为2.417*0.1*2=0.483。以此类推,可以计算出该样本MS3位点每种单核苷酸重复序列长度的最终得分。
(3)计算每个位点的得分并判定位点状态:将每个MS位点每种长度的最终得分(图7中9.加权后最终得分)相加即为每个MS位点的最终得分(图7中10.位点最终得分),如果该得分超过阈值,则该位点被视为阳性位点;本实施例中阈值设置为0.5。将样本所有MS位点的最终得分相加,即为样本最终得分。
(4)基于样本的阳性位点数和样本最终得分确定样本的微卫星不稳定状态:本实施例中,样本最终得分≥20并且阳性位点数≥10,则样本微卫星状态为不稳定(MSI),否则为微卫星稳定(MSS)。
实施例2、微卫星不稳定性检测方法性能验证。
选取56例临床确诊为肿瘤的患者,每位患者均收集肿瘤组织样本(新鲜肿瘤组织样本或FFPE肿瘤组织样本)和血液样本,进行如下操作:
1.一代技术检测样本微卫星不稳定状态。
分别提取肿瘤患者肿瘤组织样本(新鲜组织样本提取试剂盒:DNA MiniKit(250)51306 250reactions QIAGEN;FFPE肿瘤组织样本提取试剂盒:GeneRead DNAFFPE Kit(50)180134 50rxns QIAGEN)和血液白细胞样本的(提取试剂盒:OSR-M10248Tests/盒,天根生化科技(北京)有限公司)DNA,使用试剂盒(MSI Analysis System,Version 1.2,Promega公司,货号MD1641)对上述提取的肿瘤组织样本和配对血液样本的DNA进行MSI检测。得到MSI一代测序结果为图片格式,结果经专业技术人员判读:其中5例样本为微卫星不稳定(MSI)(2例结直肠癌,3例胃癌),51例样本为微卫星稳定(MSS)(27例肺癌、4例肝癌、9例结直肠癌、1例食管鳞癌、3例乳腺癌、3例胰腺癌、1例肠神经内分泌癌、1例胃癌和2例其它实体瘤)。
2.本发明方法检测样本微卫星不稳定状态。
按照实施例1的步骤检测56例肿瘤患者外周血样本的微卫星不稳定状态。
56例肿瘤患者的检测结果见表4,5例一代检测MSI样本使用本发明的方法检出5例MSI,敏感性(sensitivity)为5/5=100%。所有一代MSS样本的均检出MSS,特异性(specificity)100%。
表4. 56例肿瘤样本的检测结果
实施例3、微卫星不稳定检测方法的检测限验证。
采用细胞系验证本发明方法的准确性和检测限(Limit of Detection),细胞系来源:MSI细胞系(MSI-H-U1(100%)Reference Standard,南京科佰生物科技有限公司,货号:CBP80002-5)与MSS细胞系(Reference Standard(M19-11060_Normal),南京科佰生物科技有限公司,货号:CBP80002-5N)。在前期预实验中对0.1%-0.4%各梯度的MSI细胞系含量进行了测试,并根据预实验结果选择0.2%的浓度进行20次重复验证实验。结果显示本专利建立的微卫星不稳定状态的检测方法的检测限可达到肿瘤细胞含量为0.2%,检出率为100%(见表5)。
表5.细胞系的验证数据
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。
Claims (7)
1.检测微卫星不稳定性的装置,其特征在于:所述装置包括如下模块:
A1)测序数据获得和分析模块:用于获取待测肿瘤患者和健康人的外周血样本cfDNA的原始测序数据,经质控后获得有效测序数据,将所述有效测序数据比对到参考基因组得到比对结果文件,所述比对结果文件含有比对片段和所述比对片段的比对信息;
A2)前端模块:用于分别截取101个MS位点在人参考基因组的位置及其上下游序列片段获得每个所述MS位点的参考序列,从所述比对结果文件中分别截取所述101个MS位点及其上下游序列片段,获得所述样本每个所述MS位点的比对序列,使用SW算法将每个所述MS位点的所述比对序列重新比对到每个所述MS位点的参考序列,得到所述样本的重比对结果文件;保留所述重比对结果文件中测穿所述101个MS位点的比对片段,得到过滤重比对结果文件;将所述过滤重比对结果文件经过分子标签一致性分析得到所述样本每个所述MS位点每种单核苷酸重复序列长度的原始支持数;将所述样本的每个所述MS位点每种单核苷酸重复序列长度的原始支持数求和,得到所述样本每个所述MS位点的总支持数,基于所述总支持数判断每个所述MS位点质控是否合格;处理每个质控合格所述MS位点每种单核苷酸重复序列长度的原始支持数,获得所述样本的每个所述MS位点每种单核苷酸重复序列长度的最终支持数;
A3)构建参考集模块:用于将健康人的外周血cfDNA经A1)获得的比对结果文件,使用A2)所述前端模块分析获得所述健康人每个所述MS位点每种单核苷酸重复序列长度的最终支持数,基于所述健康人每个所述MS位点每种单核苷酸重复序列长度的最终支持数,获得参考集每个所述MS位点每种单核苷酸重复序列长度的基线值;
A4)后端模块:用于基于A3)获得的每个MS位点每种单核苷酸重复序列长度的基线值乘以权重系数获得所述样本每个MS位点每种单核苷酸重复序列长度的加权基线值;使用A2)得到所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终支持数减去所述加权基线值,获得所述待测肿瘤患者每个MS位点每种单核苷酸重复序列长度的原始得分;基于所述原始得分乘以权重系数获得所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终得分;将所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终得分求和得到所述待测肿瘤患者的每个MS位点的最终得分;将所述每个MS位点的最终得分与阈值比较判断所述待测肿瘤患者每个MS位点是阴性还是阳性;将所述待测肿瘤患者所有MS位点的最终得分求和得到所述待测肿瘤患者的最终得分;基于所述待测肿瘤患者的阳性位点数量以及待测肿瘤患者的最终得分确定所述待测肿瘤患者的微卫星不稳定性;
所述101个MS位点为如下MS1-MS101:
MS1对应人参考基因组GRCh37的chr1:6257785-6257792;
MS2对应人参考基因组GRCh37的chr1:22033386-22033397;
MS3对应人参考基因组GRCh37的chr1:33402335-33402351;
MS4对应人参考基因组GRCh37的chr1:39751173-39751187;
MS5对应人参考基因组GRCh37的chr1:161091815-161091831;
MS6对应人参考基因组GRCh37的chr1:236714293-236714310;
MS7对应人参考基因组GRCh37的chr2:39536690-39536716;
MS8对应人参考基因组GRCh37的chr2:47641560-47641586;
MS9对应人参考基因组GRCh37的chr2:48032741-48032753;
MS10对应人参考基因组GRCh37的chr2:48033891-48033908;
MS11对应人参考基因组GRCh37的chr2:62063094-62063110;
MS12对应人参考基因组GRCh37的chr2:66796099-66796108;
MS13对应人参考基因组GRCh37的chr2:95849362-95849384;
MS14对应人参考基因组GRCh37的chr2:120714402-120714417;
MS15对应人参考基因组GRCh37的chr2:138721943-138721959;
MS16对应人参考基因组GRCh37的chr2:148683686-148683693;
MS17对应人参考基因组GRCh37的chr2:190687176-190687184;
MS18对应人参考基因组GRCh37的chr2:217280262-217280276;
MS19对应人参考基因组GRCh37的chr3:30691872-30691881;
MS20对应人参考基因组GRCh37的chr3:44373518-44373532;
MS21对应人参考基因组GRCh37的chr3:71008342-71008354;
MS22对应人参考基因组GRCh37的chr4:55598212-55598236;
MS23对应人参考基因组GRCh37的chr4:55976948-55976960;
MS24对应人参考基因组GRCh37的chr4:74285192-74285203;
MS25对应人参考基因组GRCh37的chr4:141448596-141448609;
MS26对应人参考基因组GRCh37的chr5:16474779-16474794;
MS27对应人参考基因组GRCh37的chr5:121362853-121362863;
MS28对应人参考基因组GRCh37的chr5:132425416-132425429;
MS29对应人参考基因组GRCh37的chr5:134086671-134086683;
MS30对应人参考基因组GRCh37的chr5:158526535-158526549;
MS31对应人参考基因组GRCh37的chr6:32166161-32166173;
MS32对应人参考基因组GRCh37的chr6:43021977-43021988;
MS33对应人参考基因组GRCh37的chr6:64289939-64289953;
MS34对应人参考基因组GRCh37的chr6:157495952-157495965;
MS35对应人参考基因组GRCh37的chr6:163899795-163899806;
MS36对应人参考基因组GRCh37的chr7:5239320-5239335;
MS37对应人参考基因组GRCh37的chr7:27868484-27868500;
MS38对应人参考基因组GRCh37的chr7:30673513-30673527;
MS39对应人参考基因组GRCh37的chr7:54819994-54820004;
MS40对应人参考基因组GRCh37的chr7:74608741-74608753;
MS41对应人参考基因组GRCh37的chr7:116381122-116381137;
MS42对应人参考基因组GRCh37的chr7:143003343-143003367;
MS43对应人参考基因组GRCh37的chr8:7346867-7346875;
MS44对应人参考基因组GRCh37的chr8:7679728-7679736;
MS45对应人参考基因组GRCh37的chr8:30933817-30933828;
MS46对应人参考基因组GRCh37的chr8:32488248-32488262;
MS47对应人参考基因组GRCh37的chr8:32528648-32528661;
MS48对应人参考基因组GRCh37的chr8:32548236-32548246;
MS49对应人参考基因组GRCh37的chr8:32551070-32551085;
MS50对应人参考基因组GRCh37的chr8:32584436-32584448;
MS51对应人参考基因组GRCh37的chr8:33356192-33356207;
MS52对应人参考基因组GRCh37的chr8:33356826-33356838;
MS53对应人参考基因组GRCh37的chr8:38321489-38321499;
MS54对应人参考基因组GRCh37的chr8:79629739-79629752;
MS55对应人参考基因组GRCh37的chr8:103287851-103287863;
MS56对应人参考基因组GRCh37的chr9:27062803-27062815;
MS57对应人参考基因组GRCh37的chr9:87314579-87314591;
MS58对应人参考基因组GRCh37的chr9:130571226-130571245;
MS59对应人参考基因组GRCh37的chr10:8115669-8115686;
MS60对应人参考基因组GRCh37的chr10:32575774-32575784;
MS61对应人参考基因组GRCh37的chr10:115963127-115963135;
MS62对应人参考基因组GRCh37的chr11:59368219-59368234;
MS63对应人参考基因组GRCh37的chr11:102056723-102056737;
MS64对应人参考基因组GRCh37的chr11:102080326-102080340;
MS65对应人参考基因组GRCh37的chr11:102193509-102193534;
MS66对应人参考基因组GRCh37的chr11:108114662-108114676;
MS67对应人参考基因组GRCh37的chr11:108121411-108121425;
MS68对应人参考基因组GRCh37的chr11:108195977-108195995;
MS69对应人参考基因组GRCh37的chr11:115047033-115047046;
MS70对应人参考基因组GRCh37的chr11:118369266-118369280;
MS71对应人参考基因组GRCh37的chr11:125490766-125490786;
MS72对应人参考基因组GRCh37的chr11:125763611-125763623;
MS73对应人参考基因组GRCh37的chr12:42835329-42835343;
MS74对应人参考基因组GRCh37的chr12:85285921-85285937;
MS75对应人参考基因组GRCh37的chr12:109510087-109510098;
MS76对应人参考基因组GRCh37的chr14:23652347-23652367;
MS77对应人参考基因组GRCh37的chr14:53513440-53513451;
MS78对应人参考基因组GRCh37的chr14:69520519-69520531;
MS79对应人参考基因组GRCh37的chr14:95574595-95574607;
MS80对应人参考基因组GRCh37的chr15:25319288-25319303;
MS81对应人参考基因组GRCh37的chr15:45848231-45848246;
MS82对应人参考基因组GRCh37的chr15:57484573-57484586;
MS83对应人参考基因组GRCh37的chr15:91303187-91303202;
MS84对应人参考基因组GRCh37的chr15:101550862-101550876;
MS85对应人参考基因组GRCh37的chr16:3808053-3808065;
MS86对应人参考基因组GRCh37的chr16:24185816-24185830;
MS87对应人参考基因组GRCh37的chr16:72832619-72832634;
MS88对应人参考基因组GRCh37的chr17:4442640-4442657;
MS89对应人参考基因组GRCh37的chr17:41231806-41231821;
MS90对应人参考基因组GRCh37的chr17:55334794-55334802;
MS91对应人参考基因组GRCh37的chr18:319945-319955;
MS92对应人参考基因组GRCh37的chr18:649880-649894;
MS93对应人参考基因组GRCh37的chr18:48584856-48584871;
MS94对应人参考基因组GRCh37的chr19:14104689-14104702;
MS95对应人参考基因组GRCh37的chr19:52249072-52249085;
MS96对应人参考基因组GRCh37的chr20:35695536-35695551;
MS97对应人参考基因组GRCh37的chr20:44470649-44470661;
MS98对应人参考基因组GRCh37的chr21:35475615-35475630;
MS99对应人参考基因组GRCh37的chr21:44513111-44513121;
MS100对应人参考基因组GRCh37的chr22:41545025-41545038;
MS101对应人参考基因组GRCh37的chrX:101409255-101409270。
2.根据权利要求1所述的装置,其特征在于:
所述SW算法的参数设置为:match = 8,mismatch = -8,gap open = -13,gapextension = -1。
3.根据权利要求1或2所述的装置,其特征在于:
A2)所述样本的每个所述MS位点每种单核苷酸重复序列长度的最终支持数通过如下步骤获得:
A2-1)归一化处理
将每个质控合格的所述MS位点每种单核苷酸重复序列长度的原始支持数乘以100,再除以每个质控合格所述MS位点的总支持数,得到每个质控合格所述MS位点每种单核苷酸重复序列长度的归一化支持数;每个质控合格所述MS位点的总支持数为每个质控合格所述MS位点每种单核苷酸重复序列长度的原始支持数之和;
A2-2)平滑处理
将所述样本的每个质控合格所述MS位点每种单核苷酸重复序列长度的归一化支持数通过大小为3bp或2bp的滑动窗口进行平滑处理,得到每个所述MS位点每种单核苷酸重复序列长度的最终支持数,所述最终支持数为P1、P2或P3,所述P1为n的归一化支持数和n-1的归一化支持数之和,所述P2为n的归一化支持数和n+1的归一化支持数之和,所述P3为n的归一化支持数、n-1的归一化支持数和n+1的归一化支持数之和,n为所述样本每个质控合格所述MS位点每种单核苷酸重复序列长度;
A3)所述基线值为所述参考集每个所述MS位点每种单核苷酸重复序列长度最终支持数的80%分位数。
4.检测微卫星不稳定性的方法,其特征在于:所述方法包括如下步骤:
B1)测序数据获得和分析:获取待测肿瘤患者和健康人的外周血样本cfDNA的原始测序数据,经质控后获得有效测序数据,将所述有效测序数据比对到参考基因组得到比对结果文件,所述比对结果文件含有比对片段和所述比对片段的比对信息;
B2)前端模块:分别截取101个MS位点在人参考基因组的位置及其上下游序列片段获得每个所述MS位点的参考序列,从所述比对结果文件中分别截取所述101个MS位点及其上下游序列片段,获得所述样本每个所述MS位点的比对序列,使用SW算法将每个所述MS位点的所述比对序列重新比对到每个所述MS位点的参考序列,得到所述样本的重比对结果文件;保留所述重比对结果文件中测穿所述101个MS位点的比对片段,得到过滤重比对结果文件;将所述过滤重比对结果文件经过分子标签一致性分析得到所述样本每个所述MS位点每种单核苷酸重复序列长度的原始支持数;将所述样本的每个所述MS位点每种单核苷酸重复序列长度的原始支持数求和,得到所述样本每个所述MS位点的总支持数,基于所述总支持数判断每个所述MS位点质控是否合格;处理每个质控合格所述MS位点每种单核苷酸重复序列长度的原始支持数,获得所述样本的每个所述MS位点每种单核苷酸重复序列长度的最终支持数;
B3)构建参考集模块:将健康人的外周血cfDNA经B1)获得的比对结果文件,使用B2)所述前端模块分析获得所述健康人每个所述MS位点每种单核苷酸重复序列长度的最终支持数,基于所述健康人每个所述MS位点每种单核苷酸重复序列长度的最终支持数,获得参考集每个所述MS位点每种单核苷酸重复序列长度的基线值;
B4)后端模块:基于B3)获得的每个MS位点每种单核苷酸重复序列长度的基线值乘以权重系数获得所述样本每个MS位点每种单核苷酸重复序列长度的加权基线值;使用B2)得到所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终支持数减去所述加权基线值,获得所述待测肿瘤患者每个MS位点每种单核苷酸重复序列长度的原始得分;基于所述原始得分乘以权重系数获得所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终得分;将所述待测肿瘤患者的每个MS位点每种单核苷酸重复序列长度的最终得分求和得到所述待测肿瘤患者的每个MS位点的最终得分;将所述每个MS位点的最终得分与阈值比较判断所述待测肿瘤患者每个MS位点是阴性还是阳性;将所述待测肿瘤患者所有MS位点的最终得分求和得到所述待测肿瘤患者的最终得分;基于所述待测肿瘤患者的阳性位点数量以及待测肿瘤患者的最终得分确定所述待测肿瘤患者的微卫星不稳定性;
所述101个MS位点为如下MS1-MS101:
MS1对应人参考基因组GRCh37的chr1:6257785-6257792;
MS2对应人参考基因组GRCh37的chr1:22033386-22033397;
MS3对应人参考基因组GRCh37的chr1:33402335-33402351;
MS4对应人参考基因组GRCh37的chr1:39751173-39751187;
MS5对应人参考基因组GRCh37的chr1:161091815-161091831;
MS6对应人参考基因组GRCh37的chr1:236714293-236714310;
MS7对应人参考基因组GRCh37的chr2:39536690-39536716;
MS8对应人参考基因组GRCh37的chr2:47641560-47641586;
MS9对应人参考基因组GRCh37的chr2:48032741-48032753;
MS10对应人参考基因组GRCh37的chr2:48033891-48033908;
MS11对应人参考基因组GRCh37的chr2:62063094-62063110;
MS12对应人参考基因组GRCh37的chr2:66796099-66796108;
MS13对应人参考基因组GRCh37的chr2:95849362-95849384;
MS14对应人参考基因组GRCh37的chr2:120714402-120714417;
MS15对应人参考基因组GRCh37的chr2:138721943-138721959;
MS16对应人参考基因组GRCh37的chr2:148683686-148683693;
MS17对应人参考基因组GRCh37的chr2:190687176-190687184;
MS18对应人参考基因组GRCh37的chr2:217280262-217280276;
MS19对应人参考基因组GRCh37的chr3:30691872-30691881;
MS20对应人参考基因组GRCh37的chr3:44373518-44373532;
MS21对应人参考基因组GRCh37的chr3:71008342-71008354;
MS22对应人参考基因组GRCh37的chr4:55598212-55598236;
MS23对应人参考基因组GRCh37的chr4:55976948-55976960;
MS24对应人参考基因组GRCh37的chr4:74285192-74285203;
MS25对应人参考基因组GRCh37的chr4:141448596-141448609;
MS26对应人参考基因组GRCh37的chr5:16474779-16474794;
MS27对应人参考基因组GRCh37的chr5:121362853-121362863;
MS28对应人参考基因组GRCh37的chr5:132425416-132425429;
MS29对应人参考基因组GRCh37的chr5:134086671-134086683;
MS30对应人参考基因组GRCh37的chr5:158526535-158526549;
MS31对应人参考基因组GRCh37的chr6:32166161-32166173;
MS32对应人参考基因组GRCh37的chr6:43021977-43021988;
MS33对应人参考基因组GRCh37的chr6:64289939-64289953;
MS34对应人参考基因组GRCh37的chr6:157495952-157495965;
MS35对应人参考基因组GRCh37的chr6:163899795-163899806;
MS36对应人参考基因组GRCh37的chr7:5239320-5239335;
MS37对应人参考基因组GRCh37的chr7:27868484-27868500;
MS38对应人参考基因组GRCh37的chr7:30673513-30673527;
MS39对应人参考基因组GRCh37的chr7:54819994-54820004;
MS40对应人参考基因组GRCh37的chr7:74608741-74608753;
MS41对应人参考基因组GRCh37的chr7:116381122-116381137;
MS42对应人参考基因组GRCh37的chr7:143003343-143003367;
MS43对应人参考基因组GRCh37的chr8:7346867-7346875;
MS44对应人参考基因组GRCh37的chr8:7679728-7679736;
MS45对应人参考基因组GRCh37的chr8:30933817-30933828;
MS46对应人参考基因组GRCh37的chr8:32488248-32488262;
MS47对应人参考基因组GRCh37的chr8:32528648-32528661;
MS48对应人参考基因组GRCh37的chr8:32548236-32548246;
MS49对应人参考基因组GRCh37的chr8:32551070-32551085;
MS50对应人参考基因组GRCh37的chr8:32584436-32584448;
MS51对应人参考基因组GRCh37的chr8:33356192-33356207;
MS52对应人参考基因组GRCh37的chr8:33356826-33356838;
MS53对应人参考基因组GRCh37的chr8:38321489-38321499;
MS54对应人参考基因组GRCh37的chr8:79629739-79629752;
MS55对应人参考基因组GRCh37的chr8:103287851-103287863;
MS56对应人参考基因组GRCh37的chr9:27062803-27062815;
MS57对应人参考基因组GRCh37的chr9:87314579-87314591;
MS58对应人参考基因组GRCh37的chr9:130571226-130571245;
MS59对应人参考基因组GRCh37的chr10:8115669-8115686;
MS60对应人参考基因组GRCh37的chr10:32575774-32575784;
MS61对应人参考基因组GRCh37的chr10:115963127-115963135;
MS62对应人参考基因组GRCh37的chr11:59368219-59368234;
MS63对应人参考基因组GRCh37的chr11:102056723-102056737;
MS64对应人参考基因组GRCh37的chr11:102080326-102080340;
MS65对应人参考基因组GRCh37的chr11:102193509-102193534;
MS66对应人参考基因组GRCh37的chr11:108114662-108114676;
MS67对应人参考基因组GRCh37的chr11:108121411-108121425;
MS68对应人参考基因组GRCh37的chr11:108195977-108195995;
MS69对应人参考基因组GRCh37的chr11:115047033-115047046;
MS70对应人参考基因组GRCh37的chr11:118369266-118369280;
MS71对应人参考基因组GRCh37的chr11:125490766-125490786;
MS72对应人参考基因组GRCh37的chr11:125763611-125763623;
MS73对应人参考基因组GRCh37的chr12:42835329-42835343;
MS74对应人参考基因组GRCh37的chr12:85285921-85285937;
MS75对应人参考基因组GRCh37的chr12:109510087-109510098;
MS76对应人参考基因组GRCh37的chr14:23652347-23652367;
MS77对应人参考基因组GRCh37的chr14:53513440-53513451;
MS78对应人参考基因组GRCh37的chr14:69520519-69520531;
MS79对应人参考基因组GRCh37的chr14:95574595-95574607;
MS80对应人参考基因组GRCh37的chr15:25319288-25319303;
MS81对应人参考基因组GRCh37的chr15:45848231-45848246;
MS82对应人参考基因组GRCh37的chr15:57484573-57484586;
MS83对应人参考基因组GRCh37的chr15:91303187-91303202;
MS84对应人参考基因组GRCh37的chr15:101550862-101550876;
MS85对应人参考基因组GRCh37的chr16:3808053-3808065;
MS86对应人参考基因组GRCh37的chr16:24185816-24185830;
MS87对应人参考基因组GRCh37的chr16:72832619-72832634;
MS88对应人参考基因组GRCh37的chr17:4442640-4442657;
MS89对应人参考基因组GRCh37的chr17:41231806-41231821;
MS90对应人参考基因组GRCh37的chr17:55334794-55334802;
MS91对应人参考基因组GRCh37的chr18:319945-319955;
MS92对应人参考基因组GRCh37的chr18:649880-649894;
MS93对应人参考基因组GRCh37的chr18:48584856-48584871;
MS94对应人参考基因组GRCh37的chr19:14104689-14104702;
MS95对应人参考基因组GRCh37的chr19:52249072-52249085;
MS96对应人参考基因组GRCh37的chr20:35695536-35695551;
MS97对应人参考基因组GRCh37的chr20:44470649-44470661;
MS98对应人参考基因组GRCh37的chr21:35475615-35475630;
MS99对应人参考基因组GRCh37的chr21:44513111-44513121;
MS100对应人参考基因组GRCh37的chr22:41545025-41545038;
MS101对应人参考基因组GRCh37的chrX:101409255-101409270。
5.根据权利要求4所述的方法,其特征在于:
所述SW算法的参数设置为:match = 8,mismatch = -8,gap open = -13,gapextension = -1。
6.根据权利要求4或5所述的方法,其特征在于:
B2)所述每个MS位点每种单核苷酸重复序列长度的最终支持数通过如下步骤获得:
B2-1)归一化处理
将每个质控合格的所述MS位点每种单核苷酸重复序列长度的原始支持数乘以100,再除以每个质控合格所述MS位点的总支持数,得到每个质控合格所述MS位点每种单核苷酸重复序列长度的归一化支持数;每个质控合格所述MS位点的总支持数为每个质控合格所述MS位点每种单核苷酸重复序列长度的原始支持数之和;
B2-2)平滑处理
将所述样本的每个质控合格所述MS位点每种单核苷酸重复序列长度的归一化支持数通过大小为3bp或2bp的滑动窗口进行平滑处理,得到每个所述MS位点每种单核苷酸重复序列长度的最终支持数,所述最终支持数为P1、P2或P3,所述P1为n的归一化支持数和n-1的归一化支持数之和,所述P2为n的归一化支持数和n+1的归一化支持数之和,所述P3为n的归一化支持数、n-1的归一化支持数和n+1的归一化支持数之和,n为所述样本每个质控合格所述MS位点每种单核苷酸重复序列长度;
B3)所述基线值为所述参考集每个所述MS位点每种单核苷酸重复序列长度最终支持数的80%分位数。
7.检测微卫星不稳定性的计算机可读存储介质,其特征在于:所述计算机可读存储介质使计算机执行权利要求4-6中任一权利要求所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311029936.2A CN117292752B (zh) | 2023-08-16 | 2023-08-16 | 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311029936.2A CN117292752B (zh) | 2023-08-16 | 2023-08-16 | 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117292752A CN117292752A (zh) | 2023-12-26 |
CN117292752B true CN117292752B (zh) | 2024-03-01 |
Family
ID=89243370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311029936.2A Active CN117292752B (zh) | 2023-08-16 | 2023-08-16 | 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117292752B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583999A (zh) * | 2020-04-24 | 2020-08-25 | 北京优迅医学检验实验室有限公司 | 建立检测微卫星不稳定的基线的方法、装置及应用 |
CN112037859A (zh) * | 2020-09-02 | 2020-12-04 | 迈杰转化医学研究(苏州)有限公司 | 一种微卫星不稳定性的分析方法和分析装置 |
CN112259165A (zh) * | 2020-12-08 | 2021-01-22 | 北京求臻医疗器械有限公司 | 用于检测微卫星不稳定性状态的方法及系统 |
CN112391477A (zh) * | 2020-12-07 | 2021-02-23 | 北京求臻医疗器械有限公司 | 一种检测游离核酸微卫星不稳定性的方法及装置 |
CN113151476A (zh) * | 2021-05-07 | 2021-07-23 | 北京泛生子基因科技有限公司 | 一种基于二代测序数据鉴别微卫星不稳定的位点组合、方法及其应用 |
CN113921081A (zh) * | 2021-12-15 | 2022-01-11 | 北京莲和医学检验实验室有限公司 | 微卫星状态的检测方法和装置 |
WO2023287410A1 (en) * | 2021-07-14 | 2023-01-19 | Foundation Medicine, Inc. | Methods and systems for determining microsatellite instability |
-
2023
- 2023-08-16 CN CN202311029936.2A patent/CN117292752B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583999A (zh) * | 2020-04-24 | 2020-08-25 | 北京优迅医学检验实验室有限公司 | 建立检测微卫星不稳定的基线的方法、装置及应用 |
CN112037859A (zh) * | 2020-09-02 | 2020-12-04 | 迈杰转化医学研究(苏州)有限公司 | 一种微卫星不稳定性的分析方法和分析装置 |
CN112391477A (zh) * | 2020-12-07 | 2021-02-23 | 北京求臻医疗器械有限公司 | 一种检测游离核酸微卫星不稳定性的方法及装置 |
CN112259165A (zh) * | 2020-12-08 | 2021-01-22 | 北京求臻医疗器械有限公司 | 用于检测微卫星不稳定性状态的方法及系统 |
CN113151476A (zh) * | 2021-05-07 | 2021-07-23 | 北京泛生子基因科技有限公司 | 一种基于二代测序数据鉴别微卫星不稳定的位点组合、方法及其应用 |
WO2023287410A1 (en) * | 2021-07-14 | 2023-01-19 | Foundation Medicine, Inc. | Methods and systems for determining microsatellite instability |
CN113921081A (zh) * | 2021-12-15 | 2022-01-11 | 北京莲和医学检验实验室有限公司 | 微卫星状态的检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117292752A (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Evolution of delayed resistance to immunotherapy in a melanoma responder | |
US10998084B2 (en) | Sequencing data analysis method, device and computer-readable medium for microsatellite instability | |
EP3240911B1 (en) | Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results | |
Kanchi et al. | Integrated analysis of germline and somatic variants in ovarian cancer | |
Kovac et al. | Recurrent chromosomal gains and heterogeneous driver mutations characterise papillary renal cancer evolution | |
Jiang et al. | Mutational landscape and evolutionary pattern of liver and brain metastasis in lung adenocarcinoma | |
Xie et al. | Patterns of somatic alterations between matched primary and metastatic colorectal tumors characterized by whole-genome sequencing | |
CN111647648A (zh) | 一种用于检测乳腺癌基因突变的基因panel及其检测方法与应用 | |
CN107075730A (zh) | 循环核酸的鉴定及用途 | |
CN109219666A (zh) | 癌症的突变标签 | |
CN115443341A (zh) | 分析无细胞核酸的方法及其应用 | |
KR20190085667A (ko) | 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도 | |
Arauz et al. | Whole-exome profiling of NSCLC among African Americans | |
CN109219853A (zh) | 检测样品中的突变特征的方法 | |
Yang et al. | Genomic characterization of Chinese ovarian clear cell carcinoma identifies driver genes by whole exome sequencing | |
Cornish et al. | The genomic landscape of 2,023 colorectal cancers | |
Liu et al. | Unveiling the metal mutation nexus: Exploring the genomic impacts of heavy metal exposure in lung adenocarcinoma and colorectal cancer | |
Wang et al. | Genetic intratumor heterogeneity remodels the immune microenvironment and induces immune evasion in brain metastasis of lung cancer | |
CN117292752B (zh) | 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用 | |
CN113362897A (zh) | 基于核小体分布特征的肿瘤标志物筛选方法及应用 | |
Wilmott et al. | Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes | |
RU2535157C1 (ru) | Способ выявления рецессивных факторов наследственной предрасположенности к раку молочной железы | |
Kim et al. | Whole-exome sequencing in papillary microcarcinoma: potential early biomarkers of lateral lymph node metastasis | |
Fan et al. | Comprehensive multigene mutation spectra of breast cancer patients from Northeast China obtained using the Ion Torrent sequencing platform | |
Augustus et al. | Decreased copy‐neutral loss of heterozygosity in African American colorectal cancers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |