CN117497049A - 一种snp突变来源的区分方法、系统及装置 - Google Patents
一种snp突变来源的区分方法、系统及装置 Download PDFInfo
- Publication number
- CN117497049A CN117497049A CN202410004022.9A CN202410004022A CN117497049A CN 117497049 A CN117497049 A CN 117497049A CN 202410004022 A CN202410004022 A CN 202410004022A CN 117497049 A CN117497049 A CN 117497049A
- Authority
- CN
- China
- Prior art keywords
- difference
- sequence
- snp
- mutation
- pms2
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 47
- 101150048740 PMS2 gene Proteins 0.000 claims abstract description 50
- 101000738907 Homo sapiens Protein PMS2CL Proteins 0.000 claims abstract description 23
- 102100037481 Protein PMS2CL Human genes 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 11
- 102000057361 Pseudogenes Human genes 0.000 claims description 41
- 108091008109 Pseudogenes Proteins 0.000 claims description 41
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 19
- 108700024394 Exon Proteins 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 208000011580 syndromic disease Diseases 0.000 abstract description 5
- 102100037480 Mismatch repair endonuclease PMS2 Human genes 0.000 description 14
- 208000032620 x-linked multiple congenital anomalies-neurodevelopmental syndrome Diseases 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000004543 DNA replication Effects 0.000 description 3
- 102100026060 Exosome component 10 Human genes 0.000 description 3
- 101100280246 Homo sapiens EXOSC10 gene Proteins 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 150000007523 nucleic acids Chemical group 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 1
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 1
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 1
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 229910015837 MSH2 Inorganic materials 0.000 description 1
- 108091092878 Microsatellite Proteins 0.000 description 1
- 101100512532 Mus musculus Atf7ip2 gene Proteins 0.000 description 1
- 108010026664 MutL Protein Homolog 1 Proteins 0.000 description 1
- 102000013609 MutL Protein Homolog 1 Human genes 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 208000023915 Ureteral Neoplasms Diseases 0.000 description 1
- 206010046392 Ureteric cancer Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 201000009036 biliary tract cancer Diseases 0.000 description 1
- 208000020790 biliary tract neoplasm Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000009395 genetic defect Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000033607 mismatch repair Effects 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 208000010639 renal pelvis urothelial carcinoma Diseases 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 201000002314 small intestine cancer Diseases 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000013097 stability assessment Methods 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 201000011294 ureter cancer Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种SNP突变来源的区分方法、系统及装置,该方法包括:提取PMS2基因序列并与参考基因组进行比对,得到比对结果;根据所述比对结果进行真假基因差异分析,得到差异位点;根据所述差异位点构建差异序列;屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP;根据所述差异序列对所述SNP进行突变来源判断,得到判断结果。该系统包括:差异分析模块和变异检测模块。该装置包括存储器以及用于执行上述SNP突变来源的区分方法的处理器。通过使用本发明,能够简单高效地区分SNP突变来源于PMS2基因还是PMS2CL假基因,进而有利于林奇综合征患者的检测。本发明可广泛应用于基因检测领域。
Description
技术领域
本发明涉及基因检测领域,尤其涉及一种SNP突变来源的区分方法、系统及装置。
背景技术
林奇综合征(Lynch Syndrome,LS)是一种常染色体显性遗传疾病。患者易患各种类型的癌症,包括结直肠癌、子宫内膜癌、胃癌、卵巢癌、小肠癌、肝癌、胆道癌、脑癌、输尿管癌以及肾盂移行细胞癌等。林奇综合征主要是由错配修复基因(mismatch repair,MMR)突变引起,MMR主要包括MLH1、MSH2、MSH6、PSM2这四种基因,它们在DNA复制过程中发挥着重要的作用,它们可以发现复制过程中的错误并进行修复,保证了DNA复制的准确。由于MMR的遗传缺陷,导致DNA复制过程中的错误无法得到修复,出现微卫星重复序列的不稳定,经过日积月累,体细胞的突变不断累积,最终导致肿瘤的发生。
假基因(Pseudogenes)是一类染色体上的基因片段,假基因的序列通常与对应的基因相似,但丧失了一部分功能,一般不能表达或编码的蛋白质没有功能。而与林奇综合征相关的PMS2基因存在PMS2CL假基因,两者的序列高度相似,由于PMS2基因的突变与林奇综合征相关,PMS2CL假基因的突变没有临床意义,林奇综合征的突变检测必须区分突变来源于PMS2基因还是PMS2CL假基因区域。
传统的用于区分突变来源于PMS2或者PMS2CL的方法一般使用长距离PCR(LR-PCR),该方法需要对整个区域发生的突变挨个进行引物设计和PCR扩增,成本高,效率较低并且耗时长,无法满足临床上大样本量的检测需求,另外长距离PCR对样本质量的要求也比较高,扩增失败率较高,不利于林奇综合征患者的检测。
发明内容
有鉴于此,为了解决现有单核苷酸多态性(SNP)突变来源区分方法中一般使用长距离PCR,需要对整个区域发生的突变挨个进行引物设计和PCR扩增,进而导致成本高、效率低且耗时长的技术问题,第一方面,本发明提出一种SNP突变来源的区分方法,所述方法包括以下步骤:
提取PMS2基因序列并与参考基因组进行比对,得到比对结果;
根据所述比对结果进行真假基因差异分析,得到差异位点;
根据所述差异位点构建差异序列;
屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP;
根据所述差异序列对所述SNP进行突变来源判断,得到判断结果。
可选的,所述提取PMS2基因序列并与参考基因组进行比对,得到比对结果这一步骤,其具体包括:
根据PMS2基因在人类参考基因组的位置,按外显子区域提取PMS2基因序列;
基于所述PMS2基因序列,将对应的碱基序列比对至所述人类参考基因组,得到比对结果。
可选的,所述根据所述比对结果进行真假基因差异分析,得到差异位点这一步骤,其具体包括:
根据预设规则对所述比对结果进行过滤,得到与PMS2CL假基因序列相似的PMS2基因外显子;
根据所述与PMS2CL假基因序列相似的PMS2基因外显子,寻找差异位点。
可选的,所述预设规则具体为选择与PMS2CL假基因序列任意200bp内差异碱基数小于或等于2个的PMS2基因外显子。
可选的,所述根据所述差异位点构建差异序列这一步骤,其具体包括:
基于所述差异位点,在预设范围内进行扩展,得到候选差异序列;
对所述候选差异序列进行稳定性评估和有效性评估,并根据评估结果对所述候选差异序列进行筛选,得到最终的差异序列。
可选的,所述对所述候选差异序列进行稳定性评估和有效性评估,并根据评估结果对所述候选差异序列进行筛选,得到最终的差异序列这一步骤,其具体包括:
对所述候选差异序列进行稳定性评估,计算所述候选差异序列中不同碱基突变形式下的总人群频率,删除所述总人群频率大于第一预设值的候选差异序列;
对所述候选差异序列进行有效性评估,利用真实临床样本评估所述候选差异序列的有效性,保留提取到预设数量PMS2基因的候选差异序列。
通过该优选步骤,对与PMS2CL假基因序列高度同源的PMS2外显子,获取具体差异碱基位置,并在差异碱基位置扩展预设长度,得到差异序列,过滤掉稳定性差或提取有效性低的差异序列,筛选得到最终用于PMS2和PMSCL真假基因区分的差异序列。
可选的,所述屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP这一步骤,其具体包括:
按预设条件对人类参考基因组的假基因区域中碱基序列进行替换,得到屏蔽后的参考基因组;
将测序下机数据比对至所述屏蔽后的参考基因组,得到比对文件;
通过该优选步骤,在差异分析时,先屏蔽掉PMS2CL假基因区域进行比对,得到PMS2区域的SNP,这部分SNP既来源于PMS2真基因,也来源于PMS2CL假基因,需要进一步进行区分,通过真假基因差异序列,提取完全匹配为PMS2来源的reads序列,如果SNP是在PMS2来源的reads序列上检测出来的,那这部分SNP是来源于PMS2真基因,否则是来源于PMS2CL假基因。
基于所述比对文件,检测PMS2基因区域的SNP突变,得到对应的SNP。
第二方面,本发明还提出了一种SNP突变来源的区分系统,所述系统包括:
差异分析模块,用于提取PMS2基因序列并与参考基因组进行比对,得到比对结果;根据所述比对结果进行真假基因差异分析,得到差异位点;根据所述差异位点构建差异序列;
变异检测模块,用于屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP;根据所述差异序列对所述SNP进行突变来源判断,得到判断结果。
第三方面,本发明还提出了一种SNP突变来源的区分装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种SNP突变来源的区分方法。
基于上述方案,本发明提供了一种SNP突变来源的区分方法、系统及装置,结合特定核酸序列靶向富集技术,能够简单高效地区分SNP突变来源于PMS2基因还是PMS2CL假基因,对样本质量要求较低且满足临床上大样本量的检测需求,更有利于林奇综合征患者的检测。
附图说明
图1是本发明一种SNP突变来源的区分方法的步骤流程图;
图2是本发明一种SNP突变来源的区分系统的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
应当理解,本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
在本申请实施例的描述中,“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
另外,本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
参照图1,为本发明提出的SNP突变来源的区分方法的一可选示例的流程示意图,该方法可以适用于计算机设备,本实施例提出的该成像方法可以包括但并不局限于以下步骤:
步骤S1、提取PMS2基因序列并与参考基因组进行比对,得到比对结果;
步骤S2、根据所述比对结果进行真假基因差异分析,得到差异位点;
步骤S3、根据所述差异位点构建差异序列;
步骤S4、屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP;
步骤S5、根据所述差异序列对所述SNP进行突变来源判断,得到判断结果。
本发明使用的方法为二代测序方法,通量高、速度快、费用低,结合特定核酸序列靶向富集技术,可以实现对疾病最相关的基因进行深度测序,满足临床上大样本量的检测需求。相比较传统长距离PCR方法,无需设计特异性引物进行挨个检测,对样本质量要求较低,方法简单高效,更有利于林奇综合征患者的检测。
在一些可行的实施例中,所述步骤S1,其具体包括:
S1.1、根据PMS2基因在人类参考基因组的位置,按外显子或外显子上下游内含子扩展区域提取PMS2基因序列,并保存为FASTA格式文件;
S1.2、利用序列比对软件将FASTA格式文件中的碱基序列比对至所述人类参考基因组,得到比对结果。
该实施例中,选择人类参考基因组hg19作为标准,序列比对软件选择blastnv2.5.0+软件。
在一些可行的实施例中,所述步骤S2,其具体包括:
S2.1、根据预设规则对所述比对结果进行过滤,得到与PMS2CL假基因序列相似的PMS2基因外显子;
该步骤中,对比对结果进行过滤,得到PMS2基因各个外显子和PMS2CL假基因序列的具体差异情况,通过评估与PMS2CL假基因序列任意200bp内差异碱基数小于或等于2个的PMS2基因外显子,获得与PMS2CL假基因序列高度相似的PMS2基因外显子,即PMS2 EXON11-15。
S2.2、根据所述与PMS2CL假基因序列相似的PMS2基因外显子,寻找差异位点。
该步骤中,对与PMS2CL假基因序列高度相似的PMS2 EXON11-15,获取具体差异位点的染色体位置,评估差异位点的最大人群频率(MAF),选择MAF<1%的差异位点保留。对于差异序列数目小于3个的外显子区域,将外显子往上下游的内含子区域各扩展200bp,重复上述S1和S2差异序列分析步骤,在附近的内含子区域寻找差异位点。
在一些可行的实施例中,所述步骤S3,其具体包括:
S3.1、基于所述差异位点,在预设范围内进行扩展,得到候选差异序列;
该步骤中,在每个差异位点附近扩展10bp,作为候选差异序列,候选差异序列是包含差异位点的11bp的碱基序列,即每个差异位点延伸11bp得到的差异序列共有11种不同组合。
S3.2、对所述候选差异序列进行稳定性评估和有效性评估,并根据评估结果对所述候选差异序列进行筛选,得到最终的差异序列。
稳定性评估:评估差异序列不同碱基突变形式(如参考碱基为A,评估其3种碱基突变形式:A>T、A>C、A>G的人群突变频率)下的总人群频率,过滤掉总人群频率>1%的差异序列,确保差异序列的稳定性。
总人群频率计算公式如下:
其中,表示差异序列每个碱基位点突变MAF的加和,/>表示第i个碱基位点的突变MAF。
当>=1%时,说明该差异序列在正常人群中发生突变的概率比较高,该差异序列稳定性差,需要过滤掉;/><1%时,保留差异序列进行后续的评估和筛选。
有效性评估:使用真实临床样本(60例以上),评估差异序列用于提取PMS2基因的有效性,过滤掉无法100%报证能提取到至少100条PMS2基因的差异序列,筛选得到可以用于PMS2基因和PMSCL假基因区分的差异序列,最终需要保证每个外显子至少含有1个差异序列。
在一些可行的实施例中,所述步骤S4,其具体包括:
S4.1、按预设条件对人类参考基因组的假基因区域中碱基序列进行替换,得到屏蔽后的参考基因组;
该步骤具体为:将人类参考基因组hg19的PMS2CL假基因区域碱基序列全部替换成“N”碱基,只保留PMS2真基因的序列。
S4.2、将测序下机数据比对至所述屏蔽后的参考基因组,得到比对文件;
该步骤具体为:使用比对软件(bwa v0.7.17),将测序下机数据比对到屏蔽PMSCL假基因的参考基因组,得到比对BAM文件。
S4.3、基于所述比对文件,检测PMS2基因区域的SNP突变,得到对应的SNP。
该实施例中,使用变异检测软件(GATK v4.3.0.0)检测PMS2区域的SNP突变,这部分SNP既来源于PMS2真基因,也来源于PMS2CL假基因,需要进一步进行区分。
在一些可行的实施例中,所述步骤S5,其具体包括:
对于所述比对文件,使用比对序列提取软件(samtools v1.14),通过步骤S3的真假基因差异序列,提取完全匹配为PMS2基因来源的reads序列,如果SNP是在PMS2来源的reads序列上检测出来的,那这部分SNP是来源于PMS2基因,否则是来源于PMS2CL假基因。
如图2所示,一种SNP突变来源的区分系统,包括:
差异分析模块,用于提取PMS2基因序列并与参考基因组进行比对,得到比对结果;根据所述比对结果进行真假基因差异分析,得到差异位点;根据所述差异位点构建差异序列;
变异检测模块,用于屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP;根据所述差异序列对所述SNP进行突变来源判断,得到判断结果。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种SNP突变来源的区分装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种SNP突变来源的区分方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如上所述一种SNP突变来源的区分方法。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种SNP突变来源的区分方法,其特征在于,包括以下步骤:
提取PMS2基因序列并与参考基因组进行比对,得到比对结果;
根据所述比对结果进行真假基因差异分析,得到差异位点;
根据所述差异位点构建差异序列;
屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP;
根据所述差异序列对所述SNP进行突变来源判断,得到判断结果。
2.根据权利要求1所述一种SNP突变来源的区分方法,其特征在于,所述提取PMS2基因序列并与参考基因组进行比对,得到比对结果这一步骤,其具体包括:
根据PMS2基因在人类参考基因组的位置,按外显子区域提取PMS2基因序列;
基于所述PMS2基因序列,将对应的碱基序列比对至所述人类参考基因组,得到比对结果。
3.根据权利要求1所述一种SNP突变来源的区分方法,其特征在于,所述根据所述比对结果进行真假基因差异分析,得到差异位点这一步骤,其具体包括:
根据预设规则对所述比对结果进行过滤,得到与PMS2CL假基因序列相似的PMS2基因外显子;
根据所述与PMS2CL假基因序列相似的PMS2基因外显子,寻找差异位点。
4.根据权利要求3所述一种SNP突变来源的区分方法,其特征在于,所述预设规则具体为选择与PMS2CL假基因序列任意200bp内差异碱基数小于或等于2个的PMS2基因外显子。
5.根据权利要求1所述一种SNP突变来源的区分方法,其特征在于,所述根据所述差异位点构建差异序列这一步骤,其具体包括:
基于所述差异位点,在预设范围内进行扩展,得到候选差异序列;
对所述候选差异序列进行稳定性评估和有效性评估,并根据评估结果对所述候选差异序列进行筛选,得到最终的差异序列。
6.根据权利要求5所述一种SNP突变来源的区分方法,其特征在于,所述对所述候选差异序列进行稳定性评估和有效性评估,并根据评估结果对所述候选差异序列进行筛选,得到最终的差异序列这一步骤,其具体包括:
对所述候选差异序列进行稳定性评估,计算所述候选差异序列中不同碱基突变形式下的总人群频率,删除所述总人群频率大于第一预设值的候选差异序列;
对所述候选差异序列进行有效性评估,利用真实临床样本评估所述候选差异序列的有效性,保留提取到预设数量PMS2基因的候选差异序列。
7.根据权利要求1所述一种SNP突变来源的区分方法,其特征在于,所述屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP这一步骤,其具体包括:
按预设条件对人类参考基因组的假基因区域中碱基序列进行替换,得到屏蔽后的参考基因组;
将测序下机数据比对至所述屏蔽后的参考基因组,得到比对文件;
基于所述比对文件,检测PMS2基因区域的SNP突变,得到对应的SNP。
8.一种SNP突变来源的区分系统,其特征在于,包括:
差异分析模块,用于提取PMS2基因序列并与参考基因组进行比对,得到比对结果;根据所述比对结果进行真假基因差异分析,得到差异位点;根据所述差异位点构建差异序列;
变异检测模块,用于屏蔽所述参考基因组的假基因区域并进行比对和突变检测,得到对应的SNP;根据所述差异序列对所述SNP进行突变来源判断,得到判断结果。
9.一种SNP突变来源的区分装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述一种SNP突变来源的区分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004022.9A CN117497049B (zh) | 2024-01-03 | 2024-01-03 | 一种snp突变来源的区分方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004022.9A CN117497049B (zh) | 2024-01-03 | 2024-01-03 | 一种snp突变来源的区分方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117497049A true CN117497049A (zh) | 2024-02-02 |
CN117497049B CN117497049B (zh) | 2024-04-19 |
Family
ID=89683399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410004022.9A Active CN117497049B (zh) | 2024-01-03 | 2024-01-03 | 一种snp突变来源的区分方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117497049B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104531883A (zh) * | 2015-01-14 | 2015-04-22 | 北京圣谷同创科技发展有限公司 | Pkd1基因突变的检测试剂盒及检测方法 |
CN112201306A (zh) * | 2020-09-21 | 2021-01-08 | 广州金域医学检验集团股份有限公司 | 基于高通量测序的真假基因突变分析方法及应用 |
US20210225456A1 (en) * | 2018-07-27 | 2021-07-22 | Myriad Women's Health, Inc. | Method for detecting genetic variation in highly homologous sequences by independent alignment and pairing of sequence reads |
-
2024
- 2024-01-03 CN CN202410004022.9A patent/CN117497049B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104531883A (zh) * | 2015-01-14 | 2015-04-22 | 北京圣谷同创科技发展有限公司 | Pkd1基因突变的检测试剂盒及检测方法 |
US20210225456A1 (en) * | 2018-07-27 | 2021-07-22 | Myriad Women's Health, Inc. | Method for detecting genetic variation in highly homologous sequences by independent alignment and pairing of sequence reads |
CN112201306A (zh) * | 2020-09-21 | 2021-01-08 | 广州金域医学检验集团股份有限公司 | 基于高通量测序的真假基因突变分析方法及应用 |
Non-Patent Citations (1)
Title |
---|
高子震: "多位点缺失型遗传疾病的快速检测研究", 中国优秀硕士学位论文全文数据库医药卫生科技辑, no. 09, 15 September 2020 (2020-09-15), pages 060 - 49 * |
Also Published As
Publication number | Publication date |
---|---|
CN117497049B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12002544B2 (en) | Determining progress of chromosomal aberrations over time | |
Beyter et al. | Long-read sequencing of 3,622 Icelanders provides insight into the role of structural variants in human diseases and other traits | |
Chan et al. | Development of a next-generation sequencing method for BRCA mutation screening: a comparison between a high-throughput and a benchtop platform | |
US20210104297A1 (en) | Systems and methods for determining tumor fraction in cell-free nucleic acid | |
US20220025468A1 (en) | Homologous recombination repair deficiency detection | |
US20210355544A1 (en) | Second generation sequencing-based method for detecting microsatellite stability and genome changes by means of plasma | |
AU2020201081B2 (en) | Detection of genetic or molecular aberrations associated with cancer | |
Fu et al. | Improving the performance of somatic mutation identification by recovering circulating tumor DNA mutations | |
Hu et al. | Detection of structural variations and fusion genes in breast cancer samples using third-generation sequencing | |
WO2019046804A1 (en) | IDENTIFICATION OF FALSE POSITIVE VARIANTS USING A MODEL OF IMPORTANCE | |
Kubiritova et al. | On the critical evaluation and confirmation of germline sequence variants identified using massively parallel sequencing | |
CN117497049B (zh) | 一种snp突变来源的区分方法、系统及装置 | |
US20200232010A1 (en) | Methods, compositions, and systems for improving recovery of nucleic acid molecules | |
CN116348957A (zh) | 检测测序数据中的交叉污染 | |
US12031186B2 (en) | Homologous recombination repair deficiency detection | |
US20230360725A1 (en) | Detecting degradation based on strand bias | |
CN118197523A (zh) | 生成基因对照表以及生成预后康复报告的方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |