CN113921081A - 微卫星状态的检测方法和装置 - Google Patents

微卫星状态的检测方法和装置 Download PDF

Info

Publication number
CN113921081A
CN113921081A CN202111527435.8A CN202111527435A CN113921081A CN 113921081 A CN113921081 A CN 113921081A CN 202111527435 A CN202111527435 A CN 202111527435A CN 113921081 A CN113921081 A CN 113921081A
Authority
CN
China
Prior art keywords
microsatellite
sequence
sequencing
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111527435.8A
Other languages
English (en)
Inventor
李莹
侯光远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lianhe Medical Laboratory Co ltd
Original Assignee
Beijing Lianhe Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lianhe Medical Laboratory Co ltd filed Critical Beijing Lianhe Medical Laboratory Co ltd
Priority to CN202111527435.8A priority Critical patent/CN113921081A/zh
Publication of CN113921081A publication Critical patent/CN113921081A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种微卫星状态的检测方法和装置。该检测方法包括:对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列,双端测序序列包括fastq1和fastq2;对fastq1和fastq2中存在测序重叠的区域进行合并得到合并后数据;将合并后数据与参考基因组序列进行比对得到比对结果;根据已知的微卫星靶标位点信息,对比对结果中对应的各微卫星靶标位点进行微卫星状态检测;根据所有微卫星靶标位点的微卫星状态,判定待测样本的微卫星状态。将fastq1和fastq2进行合并,获得较长的测序读段,使得测序获得的序列尽可能地涵盖微卫星位点的核心区域及其侧翼区域,从而提高比对准确率及后续的检测结果准确性。

Description

微卫星状态的检测方法和装置
技术领域
本发明涉及基因测序领域,具体而言,涉及一种微卫星状态的检测方法和装置。
背景技术
微卫星(Microsatellite,MS),又称为短串联重复序列(Simple Tandem Repeats,STRs) 是分布于真核生物基因组中的简单重复序列。数量巨大,分布均匀。一般由核心序列与侧翼序列两部分构成。
微卫星不稳定性(Microsatellite Instability,MSI)是指由于在DNA复制时碱基发生插入或缺失引起的MS序列长度改变的现象,常由错配修复(Mismatch Repair System,MMR)功能缺陷引起。MSI最早在结直肠癌中被发现,近年来,在其他癌种的研究中亦发现了MSI的存在。
目前进行MSI检测的方法很多,根据2019年5月欧洲肿瘤医学学会(ESMO,theEuropean Society for Medical Oncology)发布的MSI共识以及2019年5月在杭州发布的,国内首部《微卫星不稳定(MSI)检测中国专家共识》中对MSI方法的介绍,以往进行MSI检测的方法可分为两类:1)免疫组化方法; 2)PCR方法。
免疫组化方法可直接对MMR缺陷的四个主导蛋白(MLH1, MSH2, MSH6,PMS2)进行检测,但存在检测癌种局限,质控标准难统一,医生主观影响较大等因素。PCR方法一般是基于五个微卫星靶标位点进行MSI的检测,不可进行多个靶标的同时检测,且需要对照样本作为参考。
因而共识建议,可采用新一代测序NGS技术进行MSI检测。但现有报道的NGS检测MSI的方法存在结果准确性低的问题。
发明内容
本发明的主要目的在于提供一种微卫星状态的检测方法和装置,以解决现有检测不准确的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种非医疗诊断目的的微卫星状态的检测方法,该检测方法包括:对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列,双端测序序列包括fastq1和fastq2;对fastq1和fastq2中存在测序重叠的区域进行合并,得到合并后数据;将合并后数据与参考基因组序列进行比对,得到比对结果;根据已知的微卫星靶标位点信息,对比对结果中对应的各微卫星靶标位点进行微卫星状态检测;根据所有微卫星靶标位点的微卫星状态,判定待测样本的微卫星状态。
进一步地,对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列包括:去除待测样本的测序数据中的低质量数据,得到有效数据;去除有效数据中的引物序列和不能被引物序列识别的序列,得到可用于分析的双端测序序列。
进一步地,将合并后数据与参考基因组序列进行比对,得到比对结果包括:将合并后数据与参考基因组序列进行全局比对,得到初步比对信息;对初步比对信息中的插入缺失(Indel)区域进行重新比对,得到比对结果;优选地,重新比对包括:根据已知的插入缺失位点信息,查找合并后数据中所有的插入缺失区域,形成插入缺失区域序列文件;结合插入缺失区域序列文件,对初步比对信息中的插入缺失区域进行重新比对。
进一步地,在进行重新比对之后,以及得到比对结果之前,检测方法还包括:对重新比对后的比对矫正结果进行过滤筛选的步骤;优选地,过滤筛选的步骤包括过滤如下至少一种序列:1)比对质量得分低于质量阈值的序列;2)比对到参考基因组多个位置上的重复序列。
进一步地,微卫星靶标位点选自如下任意多个或全部:
Figure 972393DEST_PATH_IMAGE001
进一步地,根据已知的微卫星靶标位点信息,对比对结果中对应的各微卫星靶标位点进行微卫星状态检测包括:根据微卫星靶标位点,对待测样本的比对结果中每个微卫星靶标位点的微卫星序列长度进行统计;并以参考基因组上相应微卫星靶标位点的序列长度为基准线,检测每个微卫星靶标位点的微卫星序列长度的显著性水平,进而确定相应微卫星靶标位点的微卫星状态。
进一步地,根据所有微卫星靶标位点的微卫星状态,判定待测样本的微卫星状态包括:根据所有微卫星靶标位点的微卫星状态,统计微卫星不稳定的靶标位点在所有微卫星靶标位点中的比例,记为不稳定比例;比较不稳定比例与不稳定阈值的大小,若不稳定比例小于不稳定阈值,则待测样本的微卫星状态为微卫星稳定,反之,则为微卫星不稳定。
根据本发明的第二个方面,提供了一种微卫星状态的检测装置,该检测装置包括:前处理模块,用于对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列,双端测序序列包括fastq1和fastq2;合并模块,用于对fastq1和fastq2中存在测序重叠的区域进行合并,得到合并后数据;比对模块,用于将合并后数据与参考基因组序列进行比对,得到比对结果;位点状态检测模块,用于根据已知的微卫星靶标位点信息,对比对结果中对应的各微卫星靶标位点进行微卫星状态检测;样本状态判定模块,用于根据所有微卫星靶标位点的微卫星状态,判定待测样本的微卫星状态。
进一步地,前处理模块包括:第一去除模块,用于去除待测样本的测序数据中的低质量数据,得到有效数据;第二去除模块,用于去除有效数据中的引物序列和不能被引物序列识别的序列,得到可用于分析的双端测序序列。
进一步地,比对模块包括:全局比对子模块,用于将合并后数据与参考基因组序列进行全局比对,得到初步比对信息;插入缺失区域比对子模块,用于对初步比对信息中的插入缺失区域进行重新比对,得到比对结果;优选地,插入缺失区域比对子模块包括:查找单元,用于根据已知的插入缺失位点信息,查找合并后数据中所有的插入缺失区域,形成插入缺失区域序列文件;重比对单元,用于结合插入缺失区域序列文件,对初步比对信息中的插入缺失区域进行重新比对。
进一步地,装置还包括过滤筛选模块,用于对重新比对后的比对矫正结果进行过滤筛选;优选地,过滤如下至少一种序列:1)比对质量得分低于质量阈值的序列;2)比对到参考基因组多个位置上的重复序列。
进一步地,微卫星靶标位点选自如下任意多个或全部:
Figure 317924DEST_PATH_IMAGE001
进一步地,位点状态检测模块包括:序列长度统计子模块,用于根据微卫星靶标位点,对待测样本的比对结果中每个微卫星靶标位点的微卫星序列长度进行统计;位点状态判定子模块,用于以参考基因组上相应微卫星靶标位点的序列长度为基准线,检测每个微卫星靶标位点的微卫星序列长度的显著性水平,优选采用Z检验的方法进行检测,进而确定相应微卫星靶标位点的微卫星状态。
进一步地,样本状态检测模块包括:不稳定比例统计子模块,用于根据所有微卫星靶标位点的微卫星状态,统计微卫星不稳定的靶标位点在所有微卫星靶标位点中的比例,记为不稳定比例;比较判定子模块,用于比较不稳定比例与不稳定阈值的大小,若不稳定比例小于不稳定阈值,则待测样本的微卫星状态为微卫星稳定,反之,则为微卫星不稳定。
根据本发明的第三个方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述微卫星状态的检测方法。
根据本发明的第四个方面,提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述微卫星状态的检测方法。
应用本发明的技术方案,在充分考虑微卫星位点在基因组上的结构特点的基础上,通过将双端测序的fastq1和fastq2中测序重叠的区域进行合并,获得较长的测序读段(read),使得测序获得的序列尽可能地涵盖了微卫星位点的核心区域及其侧翼区域,从而提高比对准确率及后续的检测结果准确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的优选实施例的微卫星状态检测方法的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。下面详细描述本发明的实施例,具体描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。实施例中未注明具体技术条件者,按照相关领域内文献描述的技术条件或者相关产品说明书进行。所用软件或数据没有特殊说明者,均为可以通过网络获得的常规软件或数据。
实施例1
在本实施例中,提供了一种微卫星状态的检测方法,该检测方法包括:对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列,双端测序序列包括fastq1和fastq2;对fastq1和fastq2中存在测序重叠的区域进行合并,得到合并后数据;将合并后数据与参考基因组序列进行比对,得到比对结果;根据已知的微卫星靶标位点信息,对比对结果中对应的各微卫星靶标位点进行微卫星状态检测;根据所有微卫星靶标位点的微卫星状态,判定待测样本的微卫星状态。
本申请的上述检测方法,充分考虑微卫星位点在基因组上的结构特点,通常除了核心区域的碱基重复序列外,两侧的侧翼序列也对微卫星位点的稳定性有一定的影响。因而通过将双端测序的fastq1和fastq2中测序重叠的区域进行合并,获得较长的测序读段(read),使得测序获得的序列尽可能地涵盖了微卫星位点的核心区域及其侧翼区域,从而提高比对准确率及后续的检测结果准确性。
需要说明的是,理论上,当目标区域较小,测序读段(read)s相对较长时,双端测序就会发生测通的情况。相同的区域上,既有fastq1中的序列覆盖,又有fastq2中的序列进行覆盖,两条序列发生测序重叠的情况。考虑测序实际情况,一般在所得测序读段(read)(此处是从一端测得的读段(read)) 首尾部分,会发生碱基的系统性检测偏差,此对后续比对会产生较大影响。且若预检测的微卫星靶标位点正好在于首尾位置的话,会直接影响MSI的检测结果。因而为提高比对准确率及后续检测结果的准确性,本申请的上述实施例中将fastq1,fastq2两个读段(read)s重叠的区域(即一样的序列)进行了合并处理。
测序下机的原始数据(raw data)通常需要经过去除低质量的测序数据等预处理才能获得有效数据(又叫clean data)。在本申请的上述优选的实施例中,对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列,本申请中的前处理包括:去除待测样本的测序数据中的低质量数据,得到有效数据;去除有效数据中的引物序列和不能被引物序列识别的序列,得到可用于分析的双端测序序列。
根据测序质量、碱基识别情况对原始测序数据进行筛选和去除,避免测序过程中的低质量数据对后续数据分析造成的干扰,提高后续分析结果的准确性。具体的测序质量和碱基识别情况包括:人类碱基共有A,T,C,G四种情况,但会出现测序仪检测不准确等,而出现N碱基情况,此种需要注意。测序质量:常用的fastq序列中各碱基的测序质量值可以用Q30指标进行表示,一般而言需要Q30>85%。因而优选质量阈值为Q30>85%。
在进行目标区域的靶向测序时,目标区域通过引物序列扩增得到,因而在每条测序读段(read)上均会出现引物序列。如果引物序列中存在突变,则会影响后续读段(read)中变异位点的识别,增加不必要的数据量,因而本申请在前处理过程中,选择根据已知的引物信息将每条序列的引物部分去除,以提高后续分析效率。
引物识别的基本原理是使用每条引物的特异性序列来作为对应引物的特异性标记。当某对引物的特异性序列在测序序列的前30bp中多次出现时,可以认为该序列是由对应引物扩增得到。在识别出对应引物后,即可根据引物长度去除对应引物。
上述前处理步骤中,利用引物序列去除低质量数据后的测序数据中序列进行识别,得到能够识别上的含引物序列的读段(read)s和不能识别对应引物的读段(read)s,从而去除掉能识别上的序列中对应的引物序列,同时去除不能识别对应引物的读段(read)s,得到处理合格的,符合分析输入需求的双端测序fastq序列。
上述将合并后数据与参考基因组序列进行比对,得到比对结果的比对步骤采用现有的比对方法进行比对即可。本申请优选的实施例中,该比对步骤包括:将合并后数据与参考基因组序列进行全局比对,得到初步比对信息;对初步比对信息中的插入缺失区域进行重新比对,得到比对结果。优选地,重新比对包括:根据已知的插入缺失位点信息,查找合并后数据中所有的插入缺失区域,形成插入缺失区域序列文件;结合插入缺失区域序列文件,对初步比对信息中的插入缺失区域进行重新比对。
通过全局比对的策略能够获得最佳比对结果。在本申请优选的实施例中,其具体算法为:
1)参数设定:对比对过程中的碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值进行定义;
2)打分矩阵初始化:
将参考序列的每一个碱基作为打分矩阵的一列,首列留空;
将测序序列的每一个碱基作为打分矩阵的一行,首行留空;
3)打分矩阵填充:将打分矩阵从左向右、自上而下按照以下规则进行填充:
每个空位分别计算由左侧、上方、左上方延伸所得得分。其中,来自左上的情况需要判断当前位置的测序碱基与参考碱基是否相同。相同则加上碱基相同的分值,不同则加上碱基错配的分值;对于来自左侧或上方的情况,需判断前一步是否也为插入缺失。如果是则加上插入缺失延伸的分值,否则加上插入缺失的分值。
将3种情况计算得到的最高分作为此处的比对分值,并记录最高分的路径来源。
4)最优路径回溯:从打分矩阵的右下角进行回溯,根据每个位点的路径来源,得到比对结果,选取最佳比对结果。
若序列中存在碱基的插入或缺失变异时,会影响比对结果的准确性,进而直接影响周边变异的检测准确性。因而,在得到的初步比对信息后,进一步对插入缺失区域进行重新比对,从而得到每条测序读段(read)s在基因组上的准确定位信息。重新比对的具体操作示例如下:利用已有的人类参考基因组序列和千人基因组计划公开的插入缺失位点信息,找到待测样本中所有需要进行重新比对的区域,形成interval文件;然后结合此interval文件,对上面的初步比对信息中的插入缺失变异类型进行二次比对操作(考虑到带有插入缺失区域信息的interval文件后,对读段(read)s进行二次局部比对(Smith-Waterman),因为已经知道各个染色体上具体坐标位置的插入缺失情况,所以会依照上面的“模板”,将每个读段(read)s上相应坐标位置处的碱基进行基因组的最高相似性比较,从而降低插入缺失及其附近碱基错配情况的发生)。
在另一些优选实施例中在进行重新比对之后,以及得到比对结果之前,该检测方法还包括:对重新比对后的比对矫正结果进行过滤筛选的步骤;优选地,过滤筛选的步骤包括过滤如下至少一种序列:1)比对质量得分低于质量阈值(本申请中的质量阈值指MAPQ低于60分)的序列;2)比对到参考基因组多个位置上的重复序列。去除上述序列后得到高质量的比对结果,便于后续统计得到相对更准确的变异信息。
对于微卫星靶标位点的选择,可以根据已有报道的相关位点进行合理选择。本申请中所用微卫星检测靶标位点,包含如下来源的位点:1)欧洲肿瘤医学学会与《微卫星不稳定(MSI)检测中国专家共识》所推荐使用的BAT-25;2)多个高敏感度与特异性的,单个核苷酸重复类型的其他微卫星位点:如MSH2相关位点。目前的微卫星靶标位点选择的类型均为准确度更高的单核苷酸重复序列类型。这些微卫星靶标位点共计24个,涉及19个基因、总计429个碱基以及10条染色体(如chr1,chr2,chr3,chr4,chr7,chr11,chr12,chr13,chr14及chr15)。
本申请优选的微卫星靶标位点选表1中的任意多个或全部。在实际检测应用中,在保证准确性的前提下,既可以选择全部的24个靶标位点进行MSI计算打分,也可以选择较少的靶标位点进行计算打分,比如可以选择8~23个中任意数目个,可以是23个、22个、21个、20个、19个、18个、17个、16个、15个、14个、13个、12个、11个、10个、9个或8个等。本申请中,优先推荐采用所有的24个靶标位点进行MSI计算打分。
上述根据已知的微卫星靶标位点信息,对比对结果中对应的各微卫星靶标位点进行微卫星状态检测,可以采用现有方法进行检测。在本申请一种优选的实施例中,该检测步骤包括:根据微卫星靶标位点,对待测样本的比对结果中每个微卫星靶标位点的微卫星序列长度进行统计;并以参考基因组上相应微卫星靶标位点的序列长度为基准线,检测每个微卫星靶标位点的微卫星序列长度的显著性水平,进而确定相应微卫星靶标位点的微卫星状态。
以下以chr15:91303325-91303337这个位点(记为A位点)示例说明上述各微卫星靶标位点的微卫星状态的检测步骤:在参考基因组中,A位点的序列长度为X1;上述待测样本的比对结果中显示该A位点的序列长度为X2;统计检验X2与X1是否存在显著性差异,若存在显著性差异,则认为待测样本中的该A位点为微卫星不稳定,反之则是微卫星稳定。依次类推,完成其他各微卫星靶标位点的状态检测。
上述根据所有微卫星靶标位点的微卫星状态,判定待测样本的微卫星状态的步骤既可以根据现有的判定步骤来进行判定,也可以对现有的判定步骤进行改进后进行判定。在本申请一种优选的实施例中,该待测样本的状态判定步骤包括:根据所有微卫星靶标位点的微卫星状态,统计微卫星不稳定的靶标位点在所有微卫星靶标位点中的比例,记为不稳定比例;比较不稳定比例与不稳定阈值的大小,若不稳定比例小于不稳定阈值,则待测样本的微卫星状态为微卫星稳定,反之,则为微卫星不稳定。
以下以检测24个微卫星靶标位点的状态结果为例,来说明样本状态的判定过程:
若24个微卫星靶标位点中有4个的状态为MSI(微卫星不稳定),20个的状态为MSS(微卫星稳定),则不稳定比例为4/24。不稳定样本的阈值可以根据已知的多个MSI样本中,上述24个微卫星靶标位点中不稳定的微卫星位点的占比来进行确定。假设为y,若4/24<y,则表明低于阈值,该待测样本为微卫星稳定样本;若4/24>y,则表明高于阈值,该待测样本为微卫星不稳定样本。
实施例2
如图1所示,本实施例的简要步骤如下:
1)测序数据预处理
对原始下机数据(fastq格式),进行质量控制与筛选,去除掉低质量的测序序列,留下符合标准的测序序列。
2)引物识别与去除
利用测序时所用的引物序列进行1)中序列的识别,去除掉对应的引物序列和不能识别对应引物的序列,得到处理合格的,符合分析输入需求的双端测序fastq序列。
3)测序序列合并
针对fastq1,fastq2发生测序重叠的情况,为提升后续比对准确率,根据重叠区内容,进行两个读段(read)s的合并处理。
4)序列比对
将前面处理得到的测序合格序列进行人类全基因组序列比对。
5)比对结果矫正
对上面得到的比对结果,进一步进行矫正分析(如插入缺失区域重比对),以得到每条测序读段(read)s在基因组上的准确定位信息。
6)比对结果过滤筛选
对比对后结果文件进行质量控制与过滤筛选。
7)生成MSI计算所需文件
对MSI计算所需文件进行预先准备与处理获得。
8)MSI检测计算
结合已有的微卫星靶点信息,对待测样本进行各靶标处MSI计算。
9)MSI检测结果
对得到的MSI检测结果,进行样本最终MSI状态的判断与结果给出。
本实施例的详细步骤如下:
1. 测序数据预处理
本实施例会根据测序质量、碱基识别情况对原始测序数据进行筛选,避免测序过程中的低质量数据对后续数据分析造成的干扰,提高后续分析结果的准确性。
2. 引物识别与去除
在进行目标区域的建库捕获测序时,由于技术需要,在每条测序读段(read)上均会出现引物序列。此引物序列会影响后续读段(read)中变异位点的识别,并增加不必要的数据量,因而本实施例选择根据已知的引物信息将每条序列的引物部分去除,以提高后续分析效率。
引物识别的基本原理是使用每条引物的特异性序列来作为对应引物的特异性标记。当某对引物的特异性序列在测序序列的前30bp中多次出现时,可以认为该序列是由对应引物扩增得到。在识别出对应引物后,即可根据引物长度去除对应引物。
3. 测序序列合并
在目标区域较小,而测序读段(reads)相对较长时,就会发生测通的情况。相同的区域上,既有fastq1又有fastq2序列进行覆盖,两条序列发生测序重叠的情况。考虑测序实际情况,一般在所得测序读段(read) 首尾部分,会发生碱基的系统性检测偏差,此对后续比对会产生较大影响。且若预检测的微卫星靶标位点正好在于两个读段(reads)的重叠区的话,会直接影响MSI的检测结果。因而为避免以上情况,提高比对准确率,根据重叠区内容,进行fastq1,fastq2两个读段(reads)的合并处理。
4. 序列比对
将处理得到的合格序列与参考基因组进行比对,即人类全基因组参考序列,初步获取每条读段(read)在基因组上的定位信息。
在进行序列比对时,本实施例选择的比对方式为全局比对,其具体算法为:
1)参数设定:对比对过程中的碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值进行定义(采用常规使用的分值即可,如比对得分(1),错配罚分(4),插入缺失引发gap罚分(6),延伸罚分(1)等);
2)打分矩阵初始化:
将参考序列的每一个碱基作为打分矩阵的一列,首列留空;
将测序序列的每一个碱基作为打分矩阵的一行,首行留空。
3)打分矩阵填充:将打分矩阵从左向右、自上而下按照以下规则进行填充:
每个空位分别计算由左侧、上方、左上方延伸所得得分。其中,来自左上的情况需要判断当前位置的测序碱基与参考碱基是否相同。相同则加上碱基相同的分值,不同则加上碱基错配的分值;对于来自左侧或上方的情况,需判断前一步是否也为插入缺失。如果是则加上插入缺失延伸的分值,否则加上插入缺失的分值。
将3种情况计算得到的最高分作为此处的比对分值,并记录最高分的路径来源。
4)最优路径回溯:从打分矩阵的右下角进行回溯,根据每个位点的路径来源,得到比对结果,选取最佳比对结果。
5. 比对结果矫正
若序列中存在碱基的插入或缺失变异时,会对比对结果的正确性产生影响,并会直接影响周边变异的检测性。因而,对上面得到的比对初步结果,进一步处理,对插入缺失区域进行重新比对,以得到每条测序读段(reads)在基因组上的准确定位信息。具体来说,就是利用已有的人类参考基因组序列和千人基因组计划推出的插入缺失位点信息,找到待测样本中所有需要进行重新比对的区域,形成interval文件;然后结合此interval文件,对上面的比对结果中的插入缺失变异类型进行二次比对操作。
6. 比对结果过滤筛选
对比对后的bam结果文件进行质量控制与过滤筛选,如考虑1) 比对质量得分MAPQ;2)去除重复序列等,以得到待检样本高质量的比对结果。
7. 生成MSI计算所需文件
对MSI计算所需的其他文件进行预先准备与处理,如微卫星检测靶标位点。
本实施例所用微卫星检测靶标位点,既包含欧洲肿瘤医学学会与《微卫星不稳定(MSI)检测中国专家共识》所推荐使用的BAT-25,又包含多个高敏感度与特异性性的,单个核苷酸重复类型的其他微卫星位点,涉及多个基因(19个),多个靶标位点(24个,总计429碱基的信息),多个染色体(10个,如chr1,chr2,chr3,chr4,chr7,chr11,chr12,chr13,chr14,chr15)。
需要说明的是,在其他实施例中,在保证准确性的前提下,也可以选择尽量少的靶点进行快速的MSI计算打分(此处是说在保证准确性的前提下,既可以选择全部的24个靶标位点进行MSI计算打分,也可以根据需要选择较少的靶标位点进行计算打分,比如可以选择8~23个中任意数目个,可以是23个、22个、21个、20个、19个、18个、17个、16个、15个、14个、13个、12个、11个、10个、9个或8个)。
8. MSI检测计算
根据已有的微卫星检测靶标位点,进行待测样本每个靶点处微卫星序列长度的计算,以人类参考基因组(比如hg19)中相应位点处序列长度为基准线,利用Z score统计检验得到每个位点处的显著性水平,以此确定其相应的微卫星状态(MSI or MSS)
9. MSI检测结果查看
统计6中所有靶位点处的微卫星状态情况,确定分类阈值(即MSI位点占所有位点的比例与阈值(示例如下:比例为0.2,或阈值为>=2个标志物发生不稳定性,则判定为微卫星不稳定)进行比较,来推断最终该样本的微卫星检测得分与微卫星状态(MSI or MSS)。
实施例3 基于二代测序数据进行微卫星不稳定性(MSI)检测的方法
1.运用实施例2的方法,对Illumina测序下机得到的原始fastq压缩文件,进行预处理,质控,比对等操作,得到进行MSI检测的输入文件---bam文件(格式如前述)。
2. 进行MSI检测计算
根据已有的微卫星检测靶标位点,进行待测样本每个靶点处微卫星序列长度的计算,确定其相应的微卫星状态。
注1:所用参考人类基因组为UCSC的hg19
注2:示例所用样本类型为手术FFPE肿瘤组织。
计算结果示例如下:
表1:
Figure 45446DEST_PATH_IMAGE002
3. MSI检测结果查看
从步骤2中得到的MSI的检测结果可知,在24个微卫星靶点中,共有2个位点检测出长度变化,因而msing_score得分为0.0833。根据已知情况,0.0833小于给定阈值(0.2),因而判定此样本的微卫星不稳定性结果为阴性,即为MSS状态。
对比例1 利用现有NGS检测方法与本专利方法进行MSI检测的对比测试:
1.对某手术FFPE肿瘤组织待检测样本实施同前操作,得到MSI检测的输入文件,bam文件;
2.对待检测样本的配对样本、胚系数据,实施相同的处理操作,得到胚系的bam文件;
3.分别利用现有NGS方法与本专利方法进行体细胞的MSI检测,检测结果如下:
本专利方法:MSI 分值为0.375,大于判定阈值;MSI状态为POS,即为MSI状态。
现有NGS方法(目前使用的比对MSI检测方法为:MANTIS (MicrosatelliteAnalysis for Normal-Tumor InStability,通过获得肿瘤-正常配对样本在每个微卫星位点的等位基因分布信息,把每个微卫星位点的稳定性以及不稳定性位点的比例两组数据作为向量,定义这两个向量的L1范数为样本中该位点的稳定程度,对所有位点的L1范数求平均值记为该样本的MSI得分,),为求比较结果准确,使用的微卫星情况(如数量,位点)同本专利):MSI检测结果为稳定(Stable),即为MSS状态。
进一步对待检测样本,利用行业金标准方法(毛细管电泳法)进行结果验证,结果为MSI型。
通过以上实例,可见本专利方法对现有的MSI检测技术提高了准确性和灵敏度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
以下部分为能够执行上述微卫星状态的检测方法的仪器设备
实施例4
本实施例提供了一种微卫星状态的检测装置,该检测装置包括:前处理模块、合并模块、比对模块、位点状态检测模块以及样本状态判定模块,其中,前处理模块用于对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列,双端测序序列包括fastq1和fastq2;合并模块用于对fastq1和fastq2中存在测序重叠的区域进行合并,得到合并后数据;比对模块用于将合并后数据与参考基因组序列进行比对,得到比对结果;位点状态检测模块用于根据已知的微卫星靶标位点信息,对比对结果中对应的各微卫星靶标位点进行微卫星状态检测;样本状态判定模块用于根据所有微卫星靶标位点的微卫星状态,判定待测样本的微卫星状态。
该检测装置,通过合并模块将双端测序的fastq1和fastq2中测序重叠的区域进行合并,获得较长的测序读段(read),使得测序获得的序列尽可能地涵盖了微卫星位点的核心区域及其侧翼区域,从而提高比对准确率及后续的检测结果准确性。
优选地,前处理模块包括:第一去除模块,用于去除待测样本的测序数据中的低质量数据,得到有效数据;第二去除模块,用于去除有效数据中的引物序列和不能被引物序列识别的序列,得到可用于分析的双端测序序列。
该前处理模块通过选择根据已知的引物信息将每条序列的引物部分去除,以提高后续分析效率。
优选地,比对模块包括:全局比对子模块,用于将合并后数据与参考基因组序列进行全局比对,得到初步比对信息;插入缺失区域比对子模块,用于对初步比对信息中的插入缺失区域进行重新比对,得到比对结果。
对插入缺失区域进行重新比对,使得比对结果更准确,进而对后续的变异检测及微卫星靶标位点的序列长度统计也更准确,相应地,使得各微卫星位点的状态检测结果更准确,最终使得待测样本的微卫星状态判定结果也更准确。
优选地,该装置还包括过滤筛选模块,用于对重新比对后的比对矫正结果进行过滤筛选;优选地,过滤如下至少一种序列:1)比对质量得分低于质量阈值(本申请中选择的是多少,请您在说明书中进行补充)的序列;2)比对到参考基因组多个位置上的重复序列。
优选地,微卫星靶标位点选自前述表格中的任意多个或全部。
优选地,位点状态检测模块包括:序列长度统计子模块,用于根据微卫星靶标位点,对待测样本的比对结果中每个微卫星靶标位点的微卫星序列长度进行统计;位点状态判定子模块,用于以参考基因组上相应微卫星靶标位点的序列长度为基准线,检测每个微卫星靶标位点的微卫星序列长度的显著性水平,优选采用Z检验的方法进行检测,进而确定相应微卫星靶标位点的微卫星状态。
优选地,样本状态检测模块包括:不稳定比例统计子模块,用于根据所有微卫星靶标位点的微卫星状态,统计微卫星不稳定的靶标位点在所有微卫星靶标位点中的比例,记为不稳定比例;比较判定子模块,用于比较不稳定比例与不稳定阈值的大小,若不稳定比例小于不稳定阈值,则待测样本的微卫星状态为微卫星稳定,反之,则为微卫星不稳定。
实施例5
本实施例提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述任一种微卫星状态的检测方法。
本实施例还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种微卫星状态的检测方法。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本申请的微卫星状态的检测方法和装置,通过选择高灵敏度和高特异性的更多个靶标位点,并结合改进的测序数据分析步骤和方法,从而实现了更准确的检测。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种非医疗诊断目的的微卫星状态的检测方法,其特征在于,所述检测方法包括:
对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列,所述双端测序序列包括fastq1和fastq2;
对所述fastq1和所述fastq2中存在测序重叠的区域进行合并,得到合并后数据;
将所述合并后数据与参考基因组序列进行比对,得到比对结果;
根据已知的微卫星靶标位点信息,对所述比对结果中对应的各所述微卫星靶标位点进行微卫星状态检测;
根据所有所述微卫星靶标位点的微卫星状态,判定所述待测样本的微卫星状态。
2.根据权利要求1所述的检测方法,其特征在于,对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列包括:
去除所述待测样本的测序数据中的低质量数据,得到有效数据;
去除所述有效数据中的引物序列和不能被所述引物序列识别的序列,得到所述可用于分析的双端测序序列。
3.根据权利要求1所述的检测方法,其特征在于,将所述合并后数据与参考基因组序列进行比对,得到比对结果包括:
将所述合并后数据与参考基因组序列进行全局比对,得到初步比对信息;
对所述初步比对信息中的插入缺失区域进行重新比对,得到所述比对结果。
4.根据权利要求3所述的检测方法,其特征在于,所述重新比对包括:
根据已知的插入缺失位点信息,查找所述合并后数据中所有的插入缺失区域,形成插入缺失区域序列文件;
结合所述插入缺失区域序列文件,对所述初步比对信息中的插入缺失区域进行重新比对。
5.根据权利要求3所述的检测方法,其特征在于,在进行所述重新比对之后,以及得到所述比对结果之前,所述检测方法还包括:对重新比对后的比对矫正结果进行过滤筛选的步骤。
6.根据权利要求1至5中任一项所述的检测方法,其特征在于,所述微卫星靶标位点选自如下任意多个或全部:
Figure 444561DEST_PATH_IMAGE001
Figure 892860DEST_PATH_IMAGE002
7.根据权利要求6所述的检测方法,其特征在于,根据已知的微卫星靶标位点信息,对所述比对结果中对应的各所述微卫星靶标位点进行微卫星状态检测包括:
根据所述微卫星靶标位点,对所述待测样本的所述比对结果中每个所述微卫星靶标位点的微卫星序列长度进行统计;
并以所述参考基因组上相应所述微卫星靶标位点的序列长度为基准线,检测每个所述微卫星靶标位点的微卫星序列长度的显著性水平,进而确定相应所述微卫星靶标位点的微卫星状态。
8.根据权利要求7所述的检测方法,其特征在于,根据所有所述微卫星靶标位点的微卫星状态,判定所述待测样本的微卫星状态包括:
根据所有所述微卫星靶标位点的微卫星状态,统计微卫星不稳定的靶标位点在所有所述微卫星靶标位点中的比例,记为不稳定比例;
比较所述不稳定比例与不稳定阈值的大小,若所述不稳定比例小于所述不稳定阈值,则所述待测样本的微卫星状态为微卫星稳定,反之,则为微卫星不稳定。
9.一种微卫星状态的检测装置,其特征在于,所述检测装置包括:
前处理模块,用于对待测样本的测序数据进行前处理,得到可用于分析的双端测序序列,所述双端测序序列包括fastq1和fastq2;
合并模块,用于对所述fastq1和所述fastq2中存在测序重叠的区域进行合并,得到合并后数据;
比对模块,用于将所述合并后数据与参考基因组序列进行比对,得到比对结果;
位点状态检测模块,用于根据已知的微卫星靶标位点信息,对所述比对结果中对应的各所述微卫星靶标位点进行微卫星状态检测;
样本状态判定模块,用于根据所有所述微卫星靶标位点的微卫星状态,判定所述待测样本的微卫星状态。
10.根据权利要求9所述的检测装置,其特征在于,所述前处理模块包括:
第一去除模块,用于去除所述待测样本的测序数据中的低质量数据,得到有效数据;
第二去除模块,用于去除所述有效数据中的引物序列和不能被所述引物序列识别的序列,得到所述可用于分析的双端测序序列。
11.根据权利要求9所述的检测装置,其特征在于,所述比对模块包括:
全局比对子模块,用于将所述合并后数据与参考基因组序列进行全局比对,得到初步比对信息;
插入缺失区域比对子模块,用于对所述初步比对信息中的插入缺失区域进行重新比对,得到所述比对结果。
12.根据权利要求11所述的检测装置,其特征在于,所述插入缺失区域比对子模块包括:
查找单元,用于根据已知的插入缺失位点信息,查找所述合并后数据中所有的插入缺失区域,形成插入缺失区域序列文件;
重比对单元,用于结合所述插入缺失区域序列文件,对所述初步比对信息中的插入缺失区域进行重新比对。
13.根据权利要求11所述的检测装置,其特征在于,所述装置还包括过滤筛选模块,用于对重新比对后的比对矫正结果进行过滤筛选。
14.根据权利要求9至13中任一项所述的检测装置,其特征在于,所述微卫星靶标位点选自如下任意多个或全部:
Figure 580587DEST_PATH_IMAGE003
15.根据权利要求14所述的检测装置,其特征在于,所述位点状态检测模块包括:
序列长度统计子模块,用于根据所述微卫星靶标位点,对所述待测样本的所述比对结果中每个所述微卫星靶标位点的微卫星序列长度进行统计;
位点状态判定子模块,用于以所述参考基因组上相应所述微卫星靶标位点的序列长度为基准线,检测每个所述微卫星靶标位点的微卫星序列长度的显著性水平,优选采用Z检验的方法进行检测,进而确定相应所述微卫星靶标位点的微卫星状态。
16.根据权利要求15所述的检测装置,其特征在于,所述样本状态检测模块包括:
不稳定比例统计子模块,用于根据所有所述微卫星靶标位点的微卫星状态,统计微卫星不稳定的靶标位点在所有所述微卫星靶标位点中的比例,记为不稳定比例;
比较判定子模块,用于比较所述不稳定比例与不稳定阈值的大小,若所述不稳定比例小于所述不稳定阈值,则所述待测样本的微卫星状态为微卫星稳定,反之,则为微卫星不稳定。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的微卫星状态的检测方法。
18.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的微卫星状态的检测方法。
CN202111527435.8A 2021-12-15 2021-12-15 微卫星状态的检测方法和装置 Pending CN113921081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111527435.8A CN113921081A (zh) 2021-12-15 2021-12-15 微卫星状态的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111527435.8A CN113921081A (zh) 2021-12-15 2021-12-15 微卫星状态的检测方法和装置

Publications (1)

Publication Number Publication Date
CN113921081A true CN113921081A (zh) 2022-01-11

Family

ID=79249069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111527435.8A Pending CN113921081A (zh) 2021-12-15 2021-12-15 微卫星状态的检测方法和装置

Country Status (1)

Country Link
CN (1) CN113921081A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464252A (zh) * 2022-01-26 2022-05-10 深圳吉因加医学检验实验室 一种检测结构变异的方法及装置
CN117292752A (zh) * 2023-08-16 2023-12-26 北京泛生子基因科技有限公司 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用
CN117935921A (zh) * 2024-03-21 2024-04-26 北京贝瑞和康生物技术有限公司 确定缺失/重复类型的方法、设备、介质和程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102181533A (zh) * 2011-03-17 2011-09-14 北京贝瑞和康生物技术有限公司 多样本混合测序方法及试剂盒
CN110689921A (zh) * 2019-12-10 2020-01-14 至本医疗科技(上海)有限公司 微卫星不稳定性检测装置、计算机设备及计算机存储介质
CN110797078A (zh) * 2020-01-06 2020-02-14 北京吉因加科技有限公司 微卫星不稳定位点筛选、分析模型的构建方法及装置
US20200202978A1 (en) * 2017-09-06 2020-06-25 Geneseeq Technology Inc. Sequencing data analysis method, device and computer-readable medium for microsatellite instability
CN112259165A (zh) * 2020-12-08 2021-01-22 北京求臻医疗器械有限公司 用于检测微卫星不稳定性状态的方法及系统
CN112391477A (zh) * 2020-12-07 2021-02-23 北京求臻医疗器械有限公司 一种检测游离核酸微卫星不稳定性的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102181533A (zh) * 2011-03-17 2011-09-14 北京贝瑞和康生物技术有限公司 多样本混合测序方法及试剂盒
US20200202978A1 (en) * 2017-09-06 2020-06-25 Geneseeq Technology Inc. Sequencing data analysis method, device and computer-readable medium for microsatellite instability
CN110689921A (zh) * 2019-12-10 2020-01-14 至本医疗科技(上海)有限公司 微卫星不稳定性检测装置、计算机设备及计算机存储介质
CN110797078A (zh) * 2020-01-06 2020-02-14 北京吉因加科技有限公司 微卫星不稳定位点筛选、分析模型的构建方法及装置
CN112391477A (zh) * 2020-12-07 2021-02-23 北京求臻医疗器械有限公司 一种检测游离核酸微卫星不稳定性的方法及装置
CN112259165A (zh) * 2020-12-08 2021-01-22 北京求臻医疗器械有限公司 用于检测微卫星不稳定性状态的方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464252A (zh) * 2022-01-26 2022-05-10 深圳吉因加医学检验实验室 一种检测结构变异的方法及装置
CN117292752A (zh) * 2023-08-16 2023-12-26 北京泛生子基因科技有限公司 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用
CN117292752B (zh) * 2023-08-16 2024-03-01 北京泛生子基因科技有限公司 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用
CN117935921A (zh) * 2024-03-21 2024-04-26 北京贝瑞和康生物技术有限公司 确定缺失/重复类型的方法、设备、介质和程序产品
CN117935921B (zh) * 2024-03-21 2024-06-11 北京贝瑞和康生物技术有限公司 确定缺失/重复类型的方法、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
CN113921081A (zh) 微卫星状态的检测方法和装置
US10127351B2 (en) Accurate and fast mapping of reads to genome
CN108573125B (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
CN109767810B (zh) 高通量测序数据分析方法及装置
US6681186B1 (en) System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms
CN103993069B (zh) 病毒整合位点捕获测序分析方法
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
CN107480470B (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CN110211633B (zh) Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置
CN111321209A (zh) 一种用于循环肿瘤dna测序数据双端矫正的方法
CN112927755B (zh) 一种鉴定cfDNA变异来源的方法和系统
CN112687339B (zh) 一种统计血浆dna片段测序数据中序列错误的方法和装置
CN111919256A (zh) 检测染色体非整倍性的方法、装置及系统
CN113373524B (zh) 一种ctDNA测序标签接头、文库、检测方法和试剂盒
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN113035273A (zh) 一种快速、超高灵敏度的dna融合基因检测方法
US20240221954A1 (en) Disease prediction methods and devices, electronic devices, and computer readable storage media
CN108595912A (zh) 检测染色体非整倍性的方法、装置及系统
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN117253539B (zh) 基于胚系突变检测高通量测序中样本污染的方法和系统
CN111696622B (zh) 一种校正和评估变异检测软件检测结果的方法
CN108728515A (zh) 一种使用duplex方法检测ctDNA低频突变的文库构建和测序数据的分析方法
JP2022537442A (ja) ヒト胚におけるコピー数変異を検証するために単一ヌクレオチド変異の密度を使用するシステム、コンピュータプログラム製品及び方法
CN114566214B (zh) 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220111