CN114708916B - 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 - Google Patents
微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114708916B CN114708916B CN202210255054.7A CN202210255054A CN114708916B CN 114708916 B CN114708916 B CN 114708916B CN 202210255054 A CN202210255054 A CN 202210255054A CN 114708916 B CN114708916 B CN 114708916B
- Authority
- CN
- China
- Prior art keywords
- sample
- microsatellite
- state
- stability
- tested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108091092878 Microsatellite Proteins 0.000 title claims abstract description 132
- 238000000034 method Methods 0.000 title claims abstract description 52
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 61
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims description 83
- 238000012163 sequencing technique Methods 0.000 claims description 70
- 230000035772 mutation Effects 0.000 claims description 69
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 6
- 230000008901 benefit Effects 0.000 abstract description 6
- 239000013074 reference sample Substances 0.000 abstract description 3
- 238000013179 statistical model Methods 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 139
- 230000033607 mismatch repair Effects 0.000 description 13
- 238000007481 next generation sequencing Methods 0.000 description 8
- 238000003752 polymerase chain reaction Methods 0.000 description 8
- 206010028980 Neoplasm Diseases 0.000 description 6
- 208000032818 Microsatellite Instability Diseases 0.000 description 5
- 238000003364 immunohistochemistry Methods 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 4
- 238000005251 capillar electrophoresis Methods 0.000 description 3
- 230000004907 flux Effects 0.000 description 3
- 238000009169 immunotherapy Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 102100034808 CCAAT/enhancer-binding protein alpha Human genes 0.000 description 2
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 2
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 2
- 102100024456 Cyclin-dependent kinase 8 Human genes 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 102100021606 Ephrin type-A receptor 7 Human genes 0.000 description 2
- 102000003973 Fibroblast growth factor 21 Human genes 0.000 description 2
- 108090000376 Fibroblast growth factor 21 Proteins 0.000 description 2
- 102100027768 Histone-lysine N-methyltransferase 2D Human genes 0.000 description 2
- 101000945515 Homo sapiens CCAAT/enhancer-binding protein alpha Proteins 0.000 description 2
- 101000980937 Homo sapiens Cyclin-dependent kinase 8 Proteins 0.000 description 2
- 101000898708 Homo sapiens Ephrin type-A receptor 7 Proteins 0.000 description 2
- 101001008894 Homo sapiens Histone-lysine N-methyltransferase 2D Proteins 0.000 description 2
- 101000742859 Homo sapiens Retinoblastoma-associated protein Proteins 0.000 description 2
- 101000881267 Homo sapiens Spectrin alpha chain, erythrocytic 1 Proteins 0.000 description 2
- 101000819074 Homo sapiens Transcription factor GATA-4 Proteins 0.000 description 2
- 101000934996 Homo sapiens Tyrosine-protein kinase JAK3 Proteins 0.000 description 2
- 102100038042 Retinoblastoma-associated protein Human genes 0.000 description 2
- 102100037608 Spectrin alpha chain, erythrocytic 1 Human genes 0.000 description 2
- 102100021380 Transcription factor GATA-4 Human genes 0.000 description 2
- 102100025387 Tyrosine-protein kinase JAK3 Human genes 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 2
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000013112 stability test Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 1
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- 102100024607 DNA topoisomerase 1 Human genes 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 1
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 1
- 101000830681 Homo sapiens DNA topoisomerase 1 Proteins 0.000 description 1
- 229910015837 MSH2 Inorganic materials 0.000 description 1
- 102000008071 Mismatch Repair Endonuclease PMS2 Human genes 0.000 description 1
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 1
- 108010071382 NF-E2-Related Factor 2 Proteins 0.000 description 1
- -1 NFE L2 Proteins 0.000 description 1
- 102100031701 Nuclear factor erythroid 2-related factor 2 Human genes 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种微卫星稳定性的检测方法、检测装置、计算机设备及存储介质。上述微卫星稳定性的检测方法和检测装置,结合统计模型和相关基因位点,能够实现在没有阴性参照样本的情况下对微卫星稳定性状态进行评估,较传统的检测方法,提高了效率,降低了检测成本,提高了准确性。
Description
技术领域
本发明涉及生物信息学领域,特别是涉及一种微卫星稳定性的检测方法、检测装置、计算机设备及存储介质。
背景技术
微卫星不稳定性(Microsatellite Instability,MSI)是DNA复制及损伤过程中出现的碱基错配、未配或多配造成的现象,表现为同一微卫星位点在不同个体之间的差异,或者同一个体的正常组织与某些异常组织之间重复单位的差异。
由一系列特异性修复DNA碱基错配的酶组成的DNA错配修复(mismatch repair,MMR)系统能够查出MSI并进行修复,保证复制的准确性。如果MMR修复系统出现故障,如参与MMR修复的基因发生了突变,则有可能导致MSI和整个基因组的不稳定性,最终可能造成细胞增殖分化异常和肿瘤的发生。
通过MSI检测,可以评价MMR系统功能,从而预测癌症患者是否对免疫疗法敏感。目前MSI相关的检测方法主要有3种:
1)免疫组化(Immunohistochemistry,IHC):通过使用相应抗体检测四种常见错配修复基因(MLH1、MSH2、MSH6和PMS2)的表达情况,明确是否存在错配修复缺陷。存在1种及以上蛋白表达阴性即为错配修复缺陷(deficient mismatch repair,dMMR),否则为错配修复蛋白完整(proficient mismatch repair,pMMR)。其优势在于应用性广泛,并且能确定哪些MMR蛋白在肿瘤细胞中表达缺失。但是IHC本身存在主观性,同时受抗体质量和实验因素等影响,有时无法检出某些蛋白的变化,导致MMR结果偶有报错。
2)基于PCR(Polymerase Chain Reaction)的方法:主要采用多重荧光PCR结合毛细管电泳的方法,通过PCR扩增特定的微卫星序列,然后通过毛细管电泳比较肿瘤组织与正常组织微卫星序列长度的差异来判断该位点是否存在MSI现象。这种检测方法是公认的MSI检测的金标准,也是使用最广泛的方法。PCR检测方法不仅弥补了IHC在因非截断式错义突变导致的MSI无法检出的漏洞,同时还具备良好的可重复性。但是,其检测的基因(panel)的位点较少、通量较低、无法提供具体的基因突变信息,而且实验周期较长。
3)基于NGS(Next-Generation Sequencing)的方法:与PCR相比,NGS方法通量大,涉及基因范围广、灵敏度和特异性更高,可与靶点的突变检测和肿瘤突变负荷(tumormutation burden,TMB)检测等共用一份测序数据。在目前已发表的NGS方法中,一般都是以PCR检测结果作为金标准,通过比较二者结果一致性作为评价NGS检测性能的标准。但目前基于NGS检测方法都需要以正常样本为参照,增加了取样步骤。
发明内容
基于此,有必要提供一种微卫星稳定性的检测方法,以能够实现对样本微卫星稳定性的无参且较为准确的检测。
此外,还提供一种微卫星稳定性的检测装置、一种计算机设备和一种计算机存储介质。
一种微卫星稳定性的检测方法,包括以下步骤:
获取待测样本的测序数据;
根据待测样本的测序数据,得到待测样本的突变基因状态矩阵其中,t为所有待测样本的待分析的基因数量,q=(b1t,b2t,b3t,...,bnk)T,b为各待测样本的目标位点的突变状态,n为待测样本的样本量,k=1,2,3,...,t;及
根据预设的系数β和公式得到yv,yv=(d1,d2,d3,...,dn)T,d代表得到的各待测样本的微卫星稳定性状态,n为待测样本的样本量。
在其中一个实施例中,上述微卫星稳定性的检测方法还包括如下确定预设的系数β的步骤:
获取已确定微卫星稳定性状态的训练样本的测序数据,作为训练集测序数据;
根据训练集测序数据,得到训练样本的突变基因状态矩阵其中,i为所有训练样本的待分析的突变基因数量,p=(a1j,a2j,a3j,...,amj)T,a为各训练样本的目标位点的突变状态,m为训练样本的样本量,j=1,2,3,...,i;及
根据由弹性网络回归得到的关系式得到预设的系数β,其中,y=(c1,c2,c3,...,cm)T,c代表各训练样本的微卫星稳定性状态,m为训练样本的样本量。
在其中一个实施例中,λ1和λ2的计算包括步骤:令λ=λ1=λ2,采用5-折交叉验证估计得到λ。
在其中一个实施例中,上述检测方法中待测样本的测序数据和训练集测序数据是通过二代测序得到的。
一种微卫星稳定性的检测装置,包括以下模块:
测序数据获取模块,用于获取待测样本的测序数据;
突变状态获取模块,用于根据待测样本的测序数据,得到待测样本的突变基因状态矩阵其中,t为所有待测样本的待分析的基因数量,q=(b1t,b2t,b3t,...,bnk)T,b为各待测样本的目标位点的突变状态,n为待测样本的样本量,k=1,2,3,...,t;及
微卫星稳定性状态检测模块,用于根据预设的系数β和公式得到yv,yv=(d1,d2,d3,...,dn)T,d代表得到的各待测样本的微卫星稳定性状态,n为所述待测样本的样本量。
在其中一个实施例中,上述微卫星稳定性状态的检测装置还包括确定预设的系数β的模块,确定所述预设的系数β的模块还包括数据获取模块、状态获取模块和系数确定模块;其中数据获取模块用于获取已确定微卫星稳定性状态的训练样本的测序数据,作为训练集测序数据;状态获取模块用于根据所述训练集测序数据,得到训练样本的突变基因状态矩阵其中,i为所有训练样本的待分析的突变基因数量,p=(a1j,a2j,a3j,...,amj)T,a为各训练样本的目标位点的突变状态,m为训练样本的样本量,j=1,2,3,...,i;系数确定模块用于根据由弹性网络回归得到的关系式得到预设的系数β,其中,y=(c1,c2,t3,...,cm)T,c代表各训练样本的微卫星稳定性状态,m为训练样本的样本量。
在其中一个实施例中,上述系数确定模块中的λ1和λ2的计算包括步骤:令λ=λ1=λ2,采用5-折交叉验证估计得到λ。
在其中一个实施例中,上述检测装置中待测样本的测序数据和训练集测序数据是通过二代测序得到的。
一种计算机设备,具有处理器和存储器,存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例中的微卫星稳定性的检测方法的步骤。
一种计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现如上述任一实施例中的微卫星稳定性的检测方法的步骤。
上述微卫星稳定性的检测方法和检测装置,结合统计模型和相关基因位点,能够实现在没有阴性参照样本的情况下对微卫星稳定性状态进行评估,较传统的检测方法,提高了效率,降低了检测成本,提高了准确性。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请一实施方式提供了一种微卫星稳定性的检测方法,包括步骤S11、步骤S12和步骤S13。
具体地,步骤S11:获取待测样本的测序数据。
在一个可选的具体示例中,通过二代测序(Next Generation Sequencing,NGS)得到待测样本测序数据。具体地,采用二代测序能够方便快捷地获得大量样本的大量基因的测序数据,由于涉及的基因数量多,能够提高微卫星稳定性检测的灵敏度和准确性。可以理解的是,也可以采用其他测序方法得到待测样本测序数据。
步骤S12:根据待测样本的测序数据,得到待测样本的突变基因状态矩阵其中,t为所有待测样本的待分析的基因数量,q=(b1t,b2t,b3t,...,bnk)T,b为各待测样本的目标位点的突变状态,n为待测样本的样本量,k=1,2,3,...,t。
具体地,根据待测样本的测序数据,得到待测样本的突变基因状态矩阵,即是将待测样本的测序数据分析得到各待测样本的各目标位点的突变状态,形成突变基因状态矩阵。例如,使用GATK(The Genome Analysis Toolkit)或lianti等软件可以获得各待测样本的各目标位点的突变状态(突变/未突变),如果有十个待测样本,每个待测样本包含有CDH1、EGFR、KMT2D、NFE2L2、RB1、SPTA1和TOP1七个基因,每个基因检测一个目标位点,可以得到每个待测样本的基因突变结果如表1所示:
表1
CDH1 | EGFR | KMT2D | NFE2L2 | RB1 | SPTA1 | top1 | |
样本01 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 |
样本02 | 未突变 | 未突变 | 突变 | 未突变 | 突变 | 未突变 | 突变 |
样本03 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 |
样本04 | 突变 | 未突变 | 未突变 | 突变 | 未突变 | 突变 | 未突变 |
样本05 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 |
样本06 | 未突变 | 未突变 | 突变 | 未突变 | 未突变 | 未突变 | 未突变 |
样本07 | 未突变 | 突变 | 未突变 | 未突变 | 未突变 | 未突变 | 突变 |
样本08 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 |
样本09 | 突变 | 未突变 | 未突变 | 突变 | 未突变 | 未突变 | 未突变 |
样本010 | 未突变 | 未突变 | 未突变 | 未突变 | 未突变 | 突变 | 未突变 |
根据表1中的突变结果,即能得到如下突变基因状态矩阵:
步骤S13:根据预设的系数β和公式得到yv,yv=(d1,d2,d3,...,dn)T,d代表得到的各待测样本的微卫星稳定性状态,n为待测样本的样本量。
具体地,h为计算得到的各待测样本微卫星稳定性的OR值(Odds Ratio),微卫星稳定性状态通过d的数值判断,当d等于1时,表示该待测样本为微卫星高不稳定状态(MSI-H);当d等于0时,表示该待测样本为非微卫星高不稳定状态,即包括微卫星低不稳定状态(MSI-L)和微卫星稳定状态(MSS)。由于微卫星高不稳定状态与对免疫疗法的预后有较强相关性,而微卫星低不稳定状态与免疫疗法的预后相关性较弱,因此本申请中将微卫星高不稳定状态与微卫星低不稳定状态区分开。
在一些实施例中,上述微卫星稳定性的检测方法还包括步骤S131、步骤S132和步骤S133。
具体地,步骤S131:获取已确定微卫星稳定性状态的训练样本的测序数据,作为训练集测序数据。
在一个可选的具体示例中,采用与步骤S11相同的测序方法进行测序,具体地,采用相同的测序方法能够获得相同位点的测序数据,并保证测序误差的一致性,能够使检测结果更准确。
在一个可选的具体示例中,可以采用多重荧光PCR-毛细管电泳法确定训练样本的微卫星稳定性状态。可以理解的是,也可以采用其他方法确定训练样本的微卫星稳定性状态,例如免疫组化法。
在一个可选的具体示例中,获取的微卫星高不稳定状态的训练样本与非微卫星高不稳定状态的训练样本的数量较大且相近,保持两者样本数量相近可以提高检测的准确度,避免训练得到的模型对其中一类样本产生偏好,可以有效降低假阳性和假阴性结果的出现。
步骤S132:根据训练集测序数据,得到上述训练样本的突变基因状态矩阵其中,i为所有上述训练样本的待分析的突变基因数量,p=(a1j,a2j,a3j,...,amj)T,a为各训练样本的目标位点的突变状态,m为训练样本的样本量,j=1,2,3,...,i。
具体地,该步骤中得到训练样本的突变基因状态矩阵的方法与步骤S11相同。
步骤S133:根据由弹性网络回归得到的关系式得到预设的系数β,其中,y=(c1,c2,c3,...,cm)T,c代表各训练样本的微卫星稳定性状态,m为训练样本的样本量。
具体地,c为0或1,是根据训练样本已知的微卫星稳定性状态设定,若训练样本为微卫星高不稳定状态则记为1,否则记为0。
在一个可选的具体示例中,λ1和λ2的计算包括步骤:令λ=λ1=λ2,采用5-折交叉验证估计得到λ。可以理解的是,λ1和λ2为正则化系数,在其他一些实施例中,可以采用其他方法计算得出λ1和λ2的值,能实现最终计算出β的值即可。
可以理解的是,在经过步骤S131~步骤S133后,得到的β能直接用于步骤S13中微卫星稳定性的检测,不需要每次检测之前都重新确定β的值。因此,能够实现只取待测样本进行微卫星稳定性的检测,而不需要取正常样本作为阴性对照,实现了无参的微卫星稳定性检测。
此外,经过步骤S131~步骤S133,同时也实现了特征筛选,即筛选出了与微卫星不稳定相关的基因,也能够将筛选得到的这些基因用在与微卫星不稳定相关的其他研究上。
基于与上述微卫星稳定性的检测方法相同的思想,本申请一实施方式还提供了一种微卫星稳定性的检测装置,包括模块21、模块22和模块23。
具体地,模块21:测序数据获取模块,用于获取待测样本的测序数据。
模块22:突变状态获取模块,用于根据待测样本的测序数据,得到待测样本的突变基因状态矩阵其中,t为所有待测样本的待分析的基因数量,q=(b1t,b2t,b3t,...,bnk)T,b为各待测样本的目标位点的突变状态,n为待测样本的样本量,k=1,2,3,...,t。
模块23:微卫星稳定性状态检测模块,用于根据预设的系数β和公式得到yv,yv=(d1,d2,d3,...,dn)T,d代表得到的各待测样本的微卫星稳定性状态,n为待测样本的样本量。
在一些实施例中,上述微卫星稳定性的检测装置还包括模块231、模块232和模块233。
具体地,模块231:数据获取模块,用于获取已确定微卫星稳定性状态的训练样本的测序数据,作为训练集测序数据。
模块232:状态获取模块,用于根据训练集测序数据,得到训练样本的突变基因状态矩阵其中,i为所有训练样本的待分析的突变基因数量,p=(a1j,a2j,a3j,...,amj)T,a为各训练样本的目标位点的突变状态,m为训练样本的样本量,j=1,2,3,...,i。
模块233:系数确定模块,用于根据由弹性网络回归得到的关系式得到预设的系数β,其中,y=(c1,c2,c3,...,cm)T,c代表各训练样本的微卫星稳定性状态,m为训练样本的样本量。
可以理解的是,在采用已确定微卫星稳定性状态的训练样本进行训练时需要调用模块231~模块233,在训练完成后可直接将β的值输入微卫星稳定性的检测装置的模块23中,可直接用于对待测样本的微卫星稳定性的检测,不需要每次检测都调用模块231~模块233进行训练。
基于如上所述的各实施例,本发明还提供了一种计算机设备,具有处理器和存储器,存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例和具体示例中的微卫星稳定性的检测方法的步骤。
基于如上所述的各实施例,本发明还提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现如上述任一实施例和具体示例中的微卫星稳定性的检测方法的步骤。
本领域普通技术人员可以理解实现上述方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性的计算机可读取存储介质中,该计算机程序在执行时,可包括如上各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用,均包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
上述微卫星稳定性的检测方法和检测装置,结合统计模型和相关基因位点,能够实现在没有阴性参照样本的情况下对微卫星稳定性状态进行评估,较传统的检测方法,提高了效率,降低了检测成本,提高了准确性。
具体实施例
以下采用具体实施例说明本发明的微卫星稳定性的检测方法产生的技术效果。
实施例1
1.获取训练样本
选取530个已确定微卫星稳定性状态的肿瘤样本作为训练样本,依次记为样本1~样本530。其中共270例微卫星高不稳定状态(MSI-H)样本,260例非微卫星高不稳定状态(MSI-L和MSS)样本,并将微卫星高不稳定状态记为1,否则记为0,并记成y=(c1,c2,c3,...,c530)T的形式,其中,c为各样本的微卫星稳定性状态,即(由于样本数量大,以下矩阵y中没有列出全部样本的微卫星未定型状态,只列举部分以示例):
2.获取训练样本突变基因的状态
采用二代测序对训练样本进行测序,获取测序数据,根据测序结果,将各目标位点的突变状态分为突变与未突变,将突变记为1,为突变记为0,如表2所示,并记成突变基因状态矩阵其中,i为所有训练样本的待分析的突变基因数量,i=17105,p=(a1j,a2j,a3j,...,amj)T,a为各训练样本的目标位点的突变状态,m为样本量,m=530,j=1,2,3,...,i。由于样本和待分析的突变基因数量大,表2以及矩阵X中没有全部列出,只列举部分以示例。
表2
CDK8 | CEBPA | EPHA7 | … | FGF21 | GATA4 | JAK3 | |
样本1 | 1 | 0 | 0 | … | 0 | 0 | 0 |
样本2 | 0 | 0 | 1 | … | 0 | 1 | 0 |
样本3 | 0 | 0 | 0 | … | 0 | 0 | 0 |
… | … | … | … | … | … | … | … |
样本528 | 0 | 1 | 0 | … | 0 | 0 | 0 |
样本529 | 1 | 0 | 0 | … | 0 | 0 | 1 |
样本530 | 0 | 0 | 0 | … | 1 | 0 | 0 |
将表2的内容记成突变基因状态矩阵为:
3.通过训练确定λ并计算出β
令λ=λ1=λ2,采用5-折交叉验证可估计得到λ。之后根据由弹性网络回归得到的关系式计算得出β的值。其中,y和X分别为以上步骤1和步骤2中得到的。
4.验证本发明检测方法的准确性
将步骤1中的训练样本采用本发明的方法检测,即将步骤2中的矩阵X代入得到微卫星稳定性检测结果,与原来已确定的微卫星稳定性结果进行比对,如表3所示。
表3
表3中, TP:真阳性样本数;TN:真阴性样本数;FP:假阳性样本数;FN:假阴性样本数。
从表3可以看出,本发明的微卫星稳定性状态的检测方法的准确率、敏感性和特异性都很高,说明该方法能够用于微卫星稳定性状态的检测,在没有正常样本做阴性对照的条件下也能准确地确定样本的微卫星稳定性状态,且检测通量大,效率高。
5.检测待测样本的微卫星不稳定状态
获取40个待测样本,依次命名为待测样本1~待测样本40。采用二代测序对待测样本进行测序,获取测序数据,根据测序结果,将各目标位点的突变状态分为突变与未突变,将突变记为1,为突变记为0,如表4所示,并记为突变基因状态矩阵其中,t为所有待测样本的待分析的基因数量,t=17105,q=(b1t,b2t,b3t,...,bnk)T,b为各待测样本的目标位点的突变状态,n为待测样本的样本量,n=40,k=1,2,3,...,t。由于样本量和基因数量较大,以下列举出部分结果以示例:
表4
CDK8 | CEBPA | EPHA7 | … | FGF21 | GATA4 | JAK3 | |
待测样本1 | 0 | 0 | 0 | … | 0 | 0 | 0 |
待测样本2 | 1 | 1 | 0 | … | 0 | 0 | 0 |
待测样本3 | 0 | 0 | 0 | … | 0 | 0 | 1 |
… | … | … | … | … | … | … | … |
待测样本38 | 0 | 0 | 1 | … | 1 | 0 | 0 |
待测样本39 | 1 | 0 | 0 | … | 0 | 0 | 0 |
待测样本40 | 0 | 1 | 0 | … | 0 | 0 | 0 |
将表4的内容记成突变基因状态矩阵为:
将步骤3中计算得到的β代入中计算得到yv,yv=(d1,d2,d3,...,dn)T,d代表得到的各待测样本的微卫星稳定性状态,/>微卫星稳定性状态通过d的数值判断,当d等于1时,表示该待测样本为微卫星高不稳定状态(MSI-H);当d等于0时,表示该待测样本为非微卫星高不稳定状态,即包括微卫星低不稳定状态(MSI-L)和微卫星稳定状态(MSS)。以下列举出部分结果以示例:
根据yv,各待测样本对应的微卫星稳定性状态如表5所示(只列举部分以示例)。
表5
样本名称 | 微卫星稳定性状态 |
待测样本1 | MSI-L或MSS |
待测样本2 | MSI-L或MSS |
待测样本3 | MSI-L或MSS |
… | … |
待测样本38 | MSI-L或MSS |
待测样本39 | MSI-L或MSS |
待测样本40 | MSI-H |
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。应当理解的是,在本领域技术人员在本发明提供的技术方案的基础上,通过合乎逻辑的分析、推理或有限的试验得到的技术方案,均在本发明所附权利要求的保护范围内。因此,本发明专利的保护范围应以所附权利要求为准,说明书可以用于解释权利要求的内容。
Claims (12)
1. 一种微卫星稳定性的检测方法,其特征在于,包括以下步骤:
获取待测样本的突变基因状态矩阵,,其中,t为所有所述待测样本的待分析的基因数量,/>,b pk 为各所述待测样本的目标位点的突变状态,p=1,2,3,…,n,n为所述待测样本的样本量,/>;及
根据预设的系数β和公式,得到y v =(h 1,h 2,h 3,…,h n),h p 表示根据所述公式得到的各所述待测样本的检测结果,p=1,2,3,…,n,根据y v 确定各所述待测样本微卫星稳定性状态,所述待测样本的微卫星稳定性状态为微卫星高不稳定状态和非微卫星高不稳定状态中的任意一种,非微卫星高不稳定状态包括微卫星低不稳定状态和微卫星稳定状态,n为所述待测样本的样本量;
其中,预设的系数β采用以下方式获得:
获取已确定微卫星稳定性状态的训练样本的突变基因状态矩阵,其中,i为所有所述训练样本的待分析的突变基因数量,且i=t,,/> lj 为各所述训练样本的目标位点的突变状态,所述待测样本或者训练样本中目标位点的突变状态包括突变和未突变中的任意一种,突变用第一预设值表示,并且未突变用第二预设值表示,l=1,2,3,…,m,m为所述训练样本的样本量,,所述微卫星稳定性状态包括微卫星高不稳定状态、微卫星低不稳定状态和微卫星稳定状态;
根据由弹性网络回归得到的关系式,得到所述预设的系数β,其中,/>,c l 代表各所述训练样本的微卫星稳定性状态,l=1,2,3,…,m,m为所述训练样本的样本量。
2.根据权利要求1所述的检测方法,其特征在于,所述待测样本微卫星稳定性状态用d p 表示,根据y v 确定各所述待测样本微卫星稳定性状态包括:当h p> 第一预设域值时,d p 等于第三预设值,表示该待测样本为微卫星高不稳定状态;当h p≤ 第二预设域值时,d p 等于第四预设值,表示该待测样本为非微卫星高不稳定状态。
3.根据权利要求2所述的检测方法,其特征在于,λ 1和λ 2的计算包括步骤:令λ=λ 1=λ 2,采用5-折交叉验证估计得到λ。
4.根据权利要求1~3任一项所述的检测方法,其特征在于,所述获取待测样本的突变基因状态矩阵之前还包括:
获取待测样本的测序数据;
根据所述待测样本的测序数据,得到所述待测样本的突变基因状态矩阵;
及/或
所述获取已确定微卫星稳定性状态的训练样本的突变基因状态矩阵之前还包括:
获取已确定微卫星稳定性状态的训练样本的测序数据,作为训练集测序数据;
根据所述训练集测序数据,得到所述训练样本的突变基因状态矩阵。
5.根据权利要求4所述的检测方法,其特征在于,所述待测样本的测序数据和所述训练集测序数据是通过二代测序得到的。
6. 一种微卫星稳定性的检测装置,其特征在于,包括以下模块:
突变状态获取模块,用于获取待测样本的突变基因状态矩阵,其中,t为所有所述待测样本的待分析的基因数量,,b pk 为各所述待测样本的目标位点的突变状态,p=1,2,3,…,n,n为所述待测样本的样本量,/>;及
微卫星稳定性状态检测模块,用于根据预设的系数β和公式,得到y v =(h 1,h 2,h 3,…,h n),h p 表示根据所述公式得到的各所述待测样本的检测结果,根据y v 确定各所述待测样本微卫星稳定性状态,所述待测样本的微卫星稳定性状态为微卫星高不稳定状态和非微卫星高不稳定状态中的任意一种,非微卫星高不稳定状态包括微卫星低不稳定状态和微卫星稳定状态,n为所述待测样本的样本量;
确定所述预设的系数β的模块,所述确定所述预设的系数β的模块还包括突变状态获取单元和系数确定单元;
突变状态获取单元:用于取已确定微卫星稳定性状态的训练样本的突变基因状态矩阵,其中,i为所有所述训练样本的待分析的突变基因数量,且i=t,,/> lj 为各所述训练样本的目标位点的突变状态,所述待测样本或者训练样本中目标位点的突变状态包括突变和未突变中的任意一种,突变用第一预设值表示,并且未突变用第二预设值表示,l=1,2,3,…,m,m为所述训练样本的样本量,,所述微卫星稳定性状态包括微卫星高不稳定状态、微卫星低不稳定状态和微卫星稳定状态;及
系数确定单元:用于根据由弹性网络回归得到的关系式,得到所述预设的系数β,其中,,c l 代表各所述训练样本的微卫星稳定性状态,l=1,2,3,…,m,m为所述训练样本的样本量。
7.根据权利要求6所述的检测装置,其特征在于,所述待测样本微卫星稳定性状态用d p 表示,所述根据y v 确定各所述待测样本微卫星稳定性状态包括:当h p> 第一预设域值时,d p 等于第三预设值,表示该待测样本为微卫星高不稳定状态;当h p≤ 第二预设域值时,d p 等于第四预设值,表示该待测样本为非微卫星高不稳定状态。
8.根据权利要求7所述的检测装置,其特征在于,λ 1和λ 2的计算包括步骤:令λ=λ 1=λ 2,采用5-折交叉验证估计得到λ。
9.根据权利要求6~8任一项所述的检测装置,其特征在于,所述装置还包括:
测序数据获取模块:用于获取待测样本的测序数据;
根据所述待测样本的测序数据,得到所述待测样本的突变基因状态矩阵;
及/或
确定所述预设的系数β的模块还包括:
测序数据获取单元:用于获取已确定微卫星稳定性状态的训练样本的测序数据,作为训练集测序数据;
根据所述训练集测序数据,得到所述训练样本的突变基因状态矩阵。
10.根据权利要求9所述的微卫星稳定性的检测装置,其特征在于,所述待测样本的测序数据和所述训练集测序数据是通过二代测序得到的。
11.一种计算机设备,其特征在于,具有处理器和存储器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~5任一项所述的微卫星稳定性的检测方法的步骤。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1~5任一项所述的微卫星稳定性的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210255054.7A CN114708916B (zh) | 2022-03-15 | 2022-03-15 | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210255054.7A CN114708916B (zh) | 2022-03-15 | 2022-03-15 | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114708916A CN114708916A (zh) | 2022-07-05 |
CN114708916B true CN114708916B (zh) | 2023-11-10 |
Family
ID=82169484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210255054.7A Active CN114708916B (zh) | 2022-03-15 | 2022-03-15 | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708916B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584961A (zh) * | 2018-12-03 | 2019-04-05 | 元码基因科技(北京)股份有限公司 | 基于二代测序技术检测血液微卫星不稳定的方法 |
CN109637590A (zh) * | 2018-12-29 | 2019-04-16 | 西安交通大学 | 一种基于基因组测序的微卫星不稳定性检测系统及方法 |
CN110257524A (zh) * | 2019-08-01 | 2019-09-20 | 浙江大学 | 一种区分结直肠癌的癌组织及癌旁正常组织的结直肠癌判别模型及其构建方法 |
CN110570907A (zh) * | 2019-09-04 | 2019-12-13 | 北京橡鑫生物科技有限公司 | 建立检测微卫星不稳定的基线及模型的方法与应用 |
CN110797078A (zh) * | 2020-01-06 | 2020-02-14 | 北京吉因加科技有限公司 | 微卫星不稳定位点筛选、分析模型的构建方法及装置 |
CN111223526A (zh) * | 2019-11-15 | 2020-06-02 | 深圳裕策生物科技有限公司 | 基于二代测序血液样本的微卫星不稳定检测方法和装置 |
CN111304303A (zh) * | 2020-02-18 | 2020-06-19 | 福建和瑞基因科技有限公司 | 微卫星不稳定的预测方法及其应用 |
CN113160891A (zh) * | 2021-04-14 | 2021-07-23 | 西安交通大学 | 一种基于转录组测序的微卫星不稳定性检测方法 |
CN114026253A (zh) * | 2019-04-22 | 2022-02-08 | 奥比特基因组学公司 | 用于微卫星分析的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3924502A4 (en) * | 2019-02-12 | 2023-01-25 | Tempus Labs, Inc. | BUILT-IN MACHINE LEARNING STRUCTURE FOR ESTIMATING HOMOLOGOUS RECOMBINATION DEFICIENCY |
-
2022
- 2022-03-15 CN CN202210255054.7A patent/CN114708916B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584961A (zh) * | 2018-12-03 | 2019-04-05 | 元码基因科技(北京)股份有限公司 | 基于二代测序技术检测血液微卫星不稳定的方法 |
CN109637590A (zh) * | 2018-12-29 | 2019-04-16 | 西安交通大学 | 一种基于基因组测序的微卫星不稳定性检测系统及方法 |
CN114026253A (zh) * | 2019-04-22 | 2022-02-08 | 奥比特基因组学公司 | 用于微卫星分析的方法和系统 |
CN110257524A (zh) * | 2019-08-01 | 2019-09-20 | 浙江大学 | 一种区分结直肠癌的癌组织及癌旁正常组织的结直肠癌判别模型及其构建方法 |
CN110570907A (zh) * | 2019-09-04 | 2019-12-13 | 北京橡鑫生物科技有限公司 | 建立检测微卫星不稳定的基线及模型的方法与应用 |
CN111223526A (zh) * | 2019-11-15 | 2020-06-02 | 深圳裕策生物科技有限公司 | 基于二代测序血液样本的微卫星不稳定检测方法和装置 |
CN110797078A (zh) * | 2020-01-06 | 2020-02-14 | 北京吉因加科技有限公司 | 微卫星不稳定位点筛选、分析模型的构建方法及装置 |
CN111304303A (zh) * | 2020-02-18 | 2020-06-19 | 福建和瑞基因科技有限公司 | 微卫星不稳定的预测方法及其应用 |
CN113160891A (zh) * | 2021-04-14 | 2021-07-23 | 西安交通大学 | 一种基于转录组测序的微卫星不稳定性检测方法 |
Non-Patent Citations (1)
Title |
---|
陈锡美 等.《胃粘膜疾病基础与临床研究》.上海科技教育出版社,2004,(第1版),第270-274页. * |
Also Published As
Publication number | Publication date |
---|---|
CN114708916A (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111304303B (zh) | 微卫星不稳定的预测方法及其应用 | |
Agbor-Enoh et al. | Applying rigor and reproducibility standards to assay donor-derived cell-free DNA as a non-invasive method for detection of acute rejection and graft injury after heart transplantation | |
CN108573125B (zh) | 一种基因组拷贝数变异的检测方法及包含该方法的装置 | |
Wang et al. | High quality copy number and genotype data from FFPE samples using Molecular Inversion Probe (MIP) microarrays | |
Meunier et al. | Data analysis methods for detection of differential protein expression in two-dimensional gel electrophoresis | |
Konishi | Three-parameter lognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment | |
CN111755068B (zh) | 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置 | |
KR20010042824A (ko) | 화학적 및 생물학적 분석의 평가방법 | |
Lee et al. | Clinical utility of a fully automated microsatellite instability test with minimal hands-on time | |
CN115394357A (zh) | 用于判断样本配对或污染的位点组合及其筛选方法和应用 | |
CN106591451B (zh) | 测定胎儿游离dna含量的方法及其用于实施该方法的装置 | |
JP4302924B2 (ja) | Dnaマイクロアレイのデータを統計的に分析する際の画像測定法 | |
Talebi et al. | Fusion transcript discovery using RNA sequencing in formalin-fixed paraffin-embedded specimen | |
CN117253539B (zh) | 基于胚系突变检测高通量测序中样本污染的方法和系统 | |
CN114708916B (zh) | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 | |
CN116612814A (zh) | 基于回归模型的基因样本污染批量检测方法、装置、设备及介质 | |
Delmar et al. | Mixture model on the variance for the differential analysis of gene expression data | |
CN114864000B (zh) | 一种动态鉴定人类单细胞染色体拷贝数的方法 | |
CN116312779A (zh) | 检测样本污染和识别样本错配的方法和装置 | |
US20160265051A1 (en) | Methods for Detection of Fetal Chromosomal Abnormality Using High Throughput Sequencing | |
CN114067908A (zh) | 一种评估单样本同源重组缺陷的方法、装置和存储介质 | |
CN117198399B (zh) | 预测msi状态的微卫星位点、系统及试剂盒 | |
CN111154840B (zh) | 杂交捕获效率评估模型、其构建方法及应用 | |
CN111718979B (zh) | 基因扩增参考品及其应用 | |
Pratella et al. | GenomeMixer and TRUST: Novel bioinformatics tools to improve reliability of Non-Invasive Prenatal Testing (NIPT) for fetal aneuploidies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |