CN106202991A - 一种基因组多重扩增测序产物中突变信息的检测方法 - Google Patents

一种基因组多重扩增测序产物中突变信息的检测方法 Download PDF

Info

Publication number
CN106202991A
CN106202991A CN201610504503.1A CN201610504503A CN106202991A CN 106202991 A CN106202991 A CN 106202991A CN 201610504503 A CN201610504503 A CN 201610504503A CN 106202991 A CN106202991 A CN 106202991A
Authority
CN
China
Prior art keywords
sequence
base
sequencing
genome
deletion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610504503.1A
Other languages
English (en)
Other versions
CN106202991B (zh
Inventor
李旭超
黄可君
林清华
王伟东
葛会娟
张霞
张林华
阮力
郑立谋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiawei Medical Laboratory Co ltd
Amoy Diagnostics Co Ltd
Original Assignee
Amoy Diagnostics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amoy Diagnostics Co Ltd filed Critical Amoy Diagnostics Co Ltd
Priority to CN201610504503.1A priority Critical patent/CN106202991B/zh
Publication of CN106202991A publication Critical patent/CN106202991A/zh
Application granted granted Critical
Publication of CN106202991B publication Critical patent/CN106202991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基因组多重扩增测序产物中突变信息的检测方法。步骤为,对测序数据进行质量评估和预处理;选择可识别的测序序列进行序列组装;将可识别的测序序列或组装得到的序列与参考基因序列进行序列比对,得到初步的变异信息;根据不同类型情况进行序列变异精校准;得到校准后的测序片段;根据最高丰度的测序片段类型计算得到目标片段的纯合或杂合状态;最终得到基因组多重扩增测序产物中的突变信息。本发明方法可快速、高效、准确的对扩增产物进行识别,节省计算资源;兼容序列组装过程,可有效改善测序过程中产生的碱基质量值衰减问题;可更有效、稳定的对变异信息的纯/杂合状态进行判定,消除PCR过程及测序过程中引入的随机错误。

Description

一种基因组多重扩增测序产物中突变信息的检测方法
技术领域
本发明涉及基因测序领域,尤其涉及一种基因组多重扩增测序产物中突变信息的检测方法。
背景技术
目前,对基因序列进行变异检测的方法有很多。其中,通过多重扩增将特定目标区域进行特异性扩增,并对扩增产物进行高通量测序是一种高效、经济、准确性高的优选方法。此类方法可以扩大传统单点PCR的检测通量,同时高通量测序技术可以得到目标区域准确的数字信号,可以更准确的对序列变异情况进行描述。
然而,这类方法在检测过程中会产生大量的测序序列信息,需要使用专业的数据分析方法对测序结果进行解读。目前,对此类数据进行分析的方法有很多,主要过程都是将测序序列通过全基因组比对的方式定位到基因序列上,再通过对所有测序候选类型的碱基深度进行统计,从而计算出目标基因区域的变异信息。但是,这类方法由于需要将测序序列对全基因组区域进行比对,程序运行速度慢,需要的资源消耗高。而且,变异检测过程中,突变的统计是在单个位点的水平上进行,对于PCR或测序过程中产生的错误只能通过概率模型模型计算进行消除,容易受到干扰。再者,由于方法定位为全基因组比对,在每个基因位置的比对上采用了相同的处理方式,并没有考虑不同基因表达方式的差异,导致在后期的功能注释上无法与生物学意义直接相关联,对受试样品的遗传咨询产生潜在影响。
综上可知,目前临床上针对此类数据并没有一种高效、快捷、准确的分析方法。本发明目的在于提供一种快速、全面准确、高效的检测多重扩增测序产物中基因突变的分析方法。
发明内容
本发明的目的在于提供一种基因组多重扩增测序产物中突变信息的检测方法。
为实现上述目的,本发明提供一种基因组多重扩增测序产物中突变信息的检测方法,其特征在于,步骤为,
(1)测序数据的质量评估和预处理,过滤掉不合适的测序数据,得到第一测序序列;优选的,所述不合适的测序数据指的是Q20低于80%,或N碱基比例大于20%;
(2)引物识别:使用来源于覆盖所检测基因的测序引物,对上述第一测序序列进行来源识别,将可以识别的测序序列为第二测序序列;优选的,可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内;
(3)序列组装:对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据,进行序列组装,将其两条片段的重合序列部分进行合并和质量值的重新计算;得到第三测序序列;
(4)序列比对:根据来源于覆盖所检测基因的测序引物的序列位置,从标准参考基因组切取参考序列文件,进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对;得到第四测序序列;
(5)变异检测:对所述第四测序序列,采用碱基比较的方式,统计每一个位置上测序序列与所述参考序列的异同,得到初步的变异信息;
(6)序列变异精校准:
对于相互靠近的突变,将其进行合并,重新计算碱基的突变位置和突变类型;尤其,如果存在其中一侧为插入或缺失的类型,需要对合并后的碱基定位进行调整;得到校准后的第五测序片段;
对于插入类型,以基因的转录方向为准,如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;
对于缺失类型,以基因的转录方向为准,如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;
(7)序列变异统计输出:根据最高丰度的第五测序片段类型计算得到目标片段的纯合或杂合状态;最终得到基因组多重扩增测序产物中的突变信息。
进一步,所述引物识别的具体算法为:
(1)循环所有来源于覆盖所检测基因的测序引物组合;
(2)每次截取测序序列两端和当前来源于覆盖所检测基因的测序引物组合相同的片段进行全局比对,并进行打分,同时记录比对过程中的碱基错配个数和插入缺失个数;
(3)根据比对打分确定最佳引物来源,并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。
进一步,所述序列组装为:
(1)将测序序列的后端数据进行反向互补,使其与前端序列具有相同读取方向;
(2)将后端序列与前端序列进行不同位置的对齐操作,进而在每种对齐条件下计算后续序列相同与不同的打分值,选取最高打分值作为前后两条序列的最佳组装起点;
(3)从最佳比对起点开始,选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基;如果遇到两个不同碱基的质量值相同,则优选前段碱基序列的碱基类型;
(4)输出组装后的序列片段,并根据如下原则重新计算碱基质量值打分:
a.如果两个碱基相同,则质量值为两只相加,但不高于最高质量值上限;
b.如果两个碱基不同,则质量值为两者中的较大者,如两者相同,则任取一个。
进一步,所述序列比对的方式为全局比对算法,其具体算法原理如下:
(1)参数设定:对比对过程中的打分值进行定义,可以采取两种方式:
c.定义碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值;
d.定义打分矩阵,即每种碱基间的相互错配可以具有各自不同的分值,以考虑生物过程中碱基突变的实际概率值。
(2)打分矩阵初始化:
a.将参考序列的每一个碱基作为打分矩阵的一列,首列留空;
b.将测序序列的每一个碱基作为打分矩阵的一行,首行留空;
c.将打分矩阵的第二行和第二列根据碱基插入缺失、碱基插入缺失延伸的分值进行填充,以定义在序列首端存在插入缺失的情况。
(3)打分矩阵填充:将打分矩阵从左向右、自上而下进行填充。填充过程中遵循以下原则:
a.每个空位分别计算由左侧、上方、左上方延伸而来的得分;
b.在计算过程中,来自于左上方的情况需要计算当前位置对应的参考序列碱基和测序序列碱基是否相同,相同则加上“碱基相同”对应的分值,不相同则加上“碱基错配”对应的分值;如果来自于上方或左侧,需要考虑前一步碱基是否为插入缺失,如果是插入缺失,则加上“碱基插入缺失延伸”的分值,如果不是则加上“碱基插入缺失”的分值。
c.将3种情况下计算得到的最高分作为此处的比对分值;并记录此处的路径来源。
(4)最优路径回溯:从打分矩阵的右下角开始回溯,选取每一个位点的路径来源,得到最优比对结果,即测序序列与参考序列的位置对应关系。
注意,此处的比对算法为全局比对,如采用局部比对的方式,在(4)中的路径回溯阶段,起点选取打分矩阵右下角的最大分值作为起点即可。
进一步,所述变异检测的判定方法为:
如果测序序列与参考序列相同,此处没有变异;
如果测序序列与参考序列不同,此处存在碱基替换类型的序列变异;
如果测序序列对应参考序列上的空位,此处存在序列插入类型的序列变异;
如果测序序列的空位对应参考序列上的碱基,此处存在序列缺失类型的序列变异。
进一步,所述序列变异统计输出的实施过程为:
(1)将所有测序序列的片段根据引物序列进行分类;
(2)在每一个引物序列内部统计出现次数最多和次多的序列类型,得到最佳序列与次佳序列;
(3)计算最佳序列与次佳序列中次佳序列所占的比例;
(4)根据设定的阈值和染色体倍数判定此目标片段为纯合区域或杂合区域。在二倍体中,若高于阈值则为纯合,输出最佳序列所得到的变异信息;反之为杂合,输出最佳序列与次佳序列所得到的变异信息;而在单倍体中,如人类的性染色体,则直接判定为纯合,输出最佳序列所得到的变异信息。
进一步,所述基因组是二倍体基因组。
进一步,所述基因组是人类基因组
本发明的技术方案为:
1、测序数据的质量评估和预处理
本发明方法会通过测序质量值、碱基识别率、测序序列有效长度对原始测序数据进行筛选和过滤,以保证后续分析步骤的准确、精确。
2、引物识别
本发明方法使用多重扩增实验中的引物序列,对测序序列进行来源识别,进而对目标片段序列和非特异扩增序列进行区分。由于不需要对全基因组序列进行比对,可以极大的减少计算过程中的资源消耗。
其具体原理为:1.存储所有扩增体系中使用的正向及反向引物信息;2.每次读取一对测序序列,并循环每对引物序列与测序序列进行引物识别;3.重复以上操作,直至对所有测序序列进行引物来源识别。
在引物识别过程中,其具体算法为:
(1)循环所有引物组合;
(2)每次截取测序序列两端和当前引物组合相同的片段进行全局比对,并进行打分,同时记录比对过程中的碱基错配个数和插入缺失个数;
(3)根据比对打分确定最佳引物来源,并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。
3、序列组装
在测序过程中,碱基测序质量会随着测序的长度不断衰减,因此在序列片段的尾部会富集测序错误。在illumina平台上,测序仪会提供目的片段两端的序列信息。因此,为了提高数据质量,以及避免在变异检测过程中长片段插入缺失的比对错误,可以优选将illumina平台双端测序数据进行拼接。
其具体算法如下:
(1)将测序序列的后端数据进行反向互补,使其与前端序列具有相同读取方向;
(2)将后端序列与前端序列进行不同位置的对齐操作,进而在每种对齐条件下计算后续序列相同与不同的打分值,选取最高打分值作为前后两条序列的最佳组装起点;
(3)从最佳比对起点开始,选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基;如果遇到两个不同碱基的质量值相同,则优选前段碱基序列的碱基类型;
(4)输出组装后的序列片段,并根据如下原则重新计算碱基质量值打分:
c.如果两个碱基相同,则质量值为两值相加,但不高于最高质量值上限;
d.如果两个碱基不同,则质量值为两者中的较大者,如两者相同,则任取一个。
4、序列比对
将步骤2中能够和特异性引物匹配的测序序列,或经过步骤3中序列组装后的测序序列,与标准的参考基因组序列进行比对。由于测序序列为扩增子测序,理论上与标准参考序列的大部分位置(下限为首位两端的引物位置)具有高度相似性。所以此处的比对方式优选全局比对算法,其具体算法原理如下:
(1)参数设定:对比对过程中的打分值进行定义,可以采取两种方式:
a.定义碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值;
b.定义打分矩阵,即每种碱基间的相互错配可以具有各自不同的分值,以考虑生物过程中碱基突变的实际概率值。
(2)打分矩阵初始化:
a.将参考序列的每一个碱基作为打分矩阵的第一列,首列留空;
b.将测序序列的每一个碱基作为打分矩阵的第一行,首行留空;
c.将打分矩阵的第二行和第二列根据碱基插入缺失、碱基插入缺失延伸的分值进行填充,以定义在序列首端存在插入缺失的情况。
(3)打分矩阵填充:将打分矩阵从左向右、自上而下进行填充。填充过程中遵循以下原则:
a.每个空位分别计算由左侧、上方、左上方延伸而来的得分;
b.在计算过程中,来自于左上方的情况需要计算当前位置对应的参考序列碱基和测序序列碱基是否相同,相同则加上“碱基相同”对应的分值,不相同则加上“碱基错配”对应的分值;如果来自于上方或左侧,需要考虑前一步碱基是否为插入缺失,如果是插入缺失,则加上“碱基插入缺失延伸”的分值,如果不是则加上“碱基插入缺失”的分值。
c.将3种情况下计算得到的最高分作为此处的比对分值;并记录此处的路径来源。
(4)最优路径回溯:从打分矩阵的右下角开始回溯,选取每一个位点的路径来源,得到最优比对结果,即测序序列与参考序列的位置对应关系。
注意,此处的比对算法为全局比对,如采用局部比对的方式,在(4)中的路径回溯阶段,起点选取打分矩阵右下角的最大分值为起点即可。
5、变异检测
根据第4步所得的比对结果,统计每一个位置上测序序列与参考序列的异同,得到初步的变异信息。判定方法为:
(1)如果测序序列与参考序列相同,此处没有变异;
(2)如果测序序列与参考序列不同,此处存在碱基替换类型的序列变异;
(3)如果测序序列对应参考序列上的空位,此处存在序列插入类型的序列变异;
(4)如果测序序列的空位对应参考序列上的碱基,此处存在序列缺失类型的序列变异。
6、序列变异精校准
在常规的变异检测中,突变信息的定位均以比对信息为准,这样的缺陷是变异信息与真实的生物学改变存在一定隔阂。如比对过程总是向序列的一端靠拢,固定向左或向右,而在生物学意义上却与基因的转录方向有关;对于复杂突变,普通比对过程会将一个大的突变拆分成多个小的片段以得到最佳比对得分,与真实的生物学改变不符,尤其是大片段替换等复杂类型。
在本分析系统中,会对检测到的突变进行更靠近生物学意义的精细调整,其具体过程如下:
(1)对于相互靠近的突变,将其进行合并,重新计算碱基的突变位置和突变类型;尤其,如果存在其中一侧为插入或缺失的类型,需要对合并后的碱基定位进行调整;
(2)对于插入类型,以基因的转录方向为准,如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;
(3)对于缺失类型,以基因的转录方向为准,如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止。
7、序列变异统计输出
在测序过程中,在PCR过程和测序过程均会引入碱基的随机错误。但其错误均是以原始序列片段为起始的。因此,对于基因组DNA,在常染色体均为二倍体,在性染色体存在单倍体。在变异检测过程中,仅需要根据其最高丰度的测序片段类型即可计算得到目标片段的纯合或杂合状态。从而极大的简化变异序列的过滤方法,并排除实验过程中随机错误的产生。
在具体的分析过程中,本分析系统的实施过程如下:
(1)将所有测序序列的片段根据引物序列进行分类;
(2)在每一个引物序列内部统计最佳和次佳序列类型的个数;
(3)计算最佳序列与次佳序列中次佳序列所占的比例;
(4)根据设定的阈值判定此目标片段为纯合区域或杂合区域。在常染色体中,如高于阈值则为纯合,输出最佳序列所得到的变异信息;反之为杂合,输出佳序列与次佳序列所得到的变异信息。而在性染色体中,如为女性则与常染色体相同;如为男性则直接判定为纯合,输出最佳序列所得到的变异信息。
与目前常规的多重扩增测序产物的变异检测方法相比,本发明的有益效果在于:
1.高效性。本发明采用了特异引物识别算法,可以快速、高效、准确的对扩增产物进行识别,极大的节省了计算资源。
2.临床有效性。本发明兼容序列组装过程,可以有效改善测序过程中产生的碱基质量值衰减问题。并且本发明方法开发了变异检测信息的精校准过程,更加具有生物学意义,为临床信息提供更有价值的信息参考。
3.稳定性。本发明采用了二倍体/单倍体的生物学假设算法,可以更有效、稳定的对变异信息的纯/杂合状态进行判定,极大的消除了PCR过程及测序过程中引入的随机错误。
附图说明
图1是检测系统构成图。
图2是插入类型突变右对齐示意图。
图3是缺失类型突变右对齐示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。本发明的描述中,“第一”、“第二”、“第三”等为指代或描述方便,不能理解为有顺序关系或者有相对重要性指示,除非另有说明,“多个”、“多组”、“多重”的含义是两个(组或重)或两个(组或重)以上。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
1、测序数据的质量评估和预处理
本发明方法会通过测序质量值、碱基识别率、测序序列有效长度对原始测序数据进行筛选和过滤,以保证后续分析步骤的准确、精确。
2、引物识别
本发明方法使用多重扩增实验中的引物序列,对测序序列进行来源识别,进而对目标片段序列和非特异扩增序列进行区分。由于不需要对全基因组序列进行比对,可以极大的减少计算过程中的资源消耗。
其具体原理为:1.存储所有扩增体系中使用的正向及反向引物信息;2.每次读取一对测序序列,并循环每对引物序列与测序序列进行引物识别;3.重复以上操作,直至对所有测序序列进行引物来源识别。
在引物识别过程中,其具体算法为:
(1)循环所有引物组合;
(2)每次截取测序序列两端和当前引物组合相同的片段进行全局比对,并进行打分,同时记录比对过程中的碱基错配个数和插入缺失个数;
(3)根据比对打分确定最佳引物来源,并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。
3、序列组装
在测序过程中,碱基测序质量会随着测序的长度不断衰减,因此在序列片段的尾部会富集测序错误。在illumina平台上,测序仪会提供目的片段两端的序列信息。因此,为了提高数据质量,以及避免在变异检测过程中长片段插入缺失的比对错误,可以优选将illumina平台双端测序数据进行拼接。
其具体算法如下:
(1)将测序序列的后端数据进行反向互补,使其与前端序列具有相同读取方向;
(2)将后端序列与前端序列进行不同位置的对齐操作,进而在每种对齐条件下计算后续序列相同与不同的打分值,选取最高打分值作为前后两条序列的最佳组装起点;
(3)从最佳比对起点开始,选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基;如果遇到两个不同碱基的质量值相同,则优选前段碱基序列的碱基类型;
(4)输出组装后的序列片段,并根据如下原则重新计算碱基质量值打分:
a.如果两个碱基相同,则质量值为两只相加,但不高于最高质量值上限;
b.如果两个碱基不同,则质量值为两者中的较大者,如两者相同,则任取一个。
4、序列比对
将步骤2中能够和特异性引物匹配的测序序列,或经过步骤3中序列组装后的测序序列,与标准的参考基因组序列进行比对。由于测序序列为扩增子测序,理论上与标准参考序列的大部分位置(下限为首位两端的引物位置)具有高度相似性。所以此处的比对方式优选全局比对算法,其具体算法原理如下:
(1)参数设定:对比对过程中的打分值进行定义,可以采取两种方式:
a.定义碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值;
b.定义打分矩阵,即每种碱基间的相互错配可以具有各自不同的分值,以考虑生物过程中碱基突变的实际概率值。
(2)打分矩阵初始化:
a.将参考序列的每一个碱基作为打分矩阵的一列,首列留空;
b.将测序序列的每一个碱基作为打分矩阵的一行,首行留空;
c.将打分矩阵的第二行和第二列根据碱基插入缺失、碱基插入缺失延伸的分值进行填充,以定义在序列首端存在插入缺失的情况。
(3)打分矩阵填充:将打分矩阵从左向右、自上而下进行填充。填充过程中遵循以下原则:
a.每个空位分别计算由左侧、上方、左上方延伸而来的得分;
b.在计算过程中,来自于左上方的情况需要计算当前位置对应的参考序列碱基和测序序列碱基是否相同,相同则加上“碱基相同”对应的分值,不相同则加上“碱基错配”对应的分值;如果来自于上方或左侧,需要考虑前一步碱基是否为插入缺失,如果是插入缺失,则加上“碱基插入缺失延伸”的分值,如果不是则加上“碱基插入缺失”的分值。
c.将3中情况下计算得到的最高分作为此处的比对分值;并记录此处的路径来源。
(4)最优路径回溯:从打分矩阵的右下角开始回溯,选取每一个位点的路径来源,得到最优比对结果,即测序序列与参考序列的位置对应关系。
注意,此处的比对算法为全局比对,如采用局部比对的方式,在(4)中的路径回溯阶段,起点选取打分矩阵右下角的最大分值最为起点即可。
5、变异检测
根据第4步所得的比对结果,统计每一个位置上测序序列与参考序列的异同,得到初步的变异信息。判定方法为:
(1)如果测序序列与参考序列相同,此处没有变异;
(2)如果测序序列与参考序列不同,此处存在碱基替换类型的序列变异;
(3)如果测序序列对应参考序列上的空位,此处存在序列插入类型的序列变异;
(4)如果测序序列的空位对应参考序列上的碱基,此处存在序列缺失类型的序列变异。
6、序列变异精校准
在常规的变异检测中,突变信息的定位均以比对信息为准,这样的缺陷是变异信息与真实的生物学改变存在一定隔阂。如比对过程总是向序列的一端靠拢,固定向左或向右,而在生物学意义上却与基因的转录方向有关;对于复杂突变,普通比对过程会将一个大的突变拆分成多个小的片段以得到最佳比对得分,与真实的生物学改变不符,尤其是大片段替换等复杂类型。
在本分析系统中,会对检测到的突变进行更靠近生物学意义的精细调整,其具体过程如下:
(1)对于相互靠近的突变,将其进行合并,重新计算碱基的突变位置和突变类型;尤其,如果存在其中一侧为插入或缺失的类型,需要对合并后的碱基定位进行调整;
(2)对于插入类型,以基因的转录方向为准,如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;
(3)对于缺失类型,以基因的转录方向为准,如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止。
7、序列变异统计输出
在测序过程中,在PCR过程和测序过程均会引入碱基的随机错误。但其错误均是以原始序列片段为起始的。因此,对于人类基因组DNA,在常染色体均为二倍体,在性染色体存在单倍体。在变异检测过程中,仅需要根据其最高丰度的测序片段类型即可计算得到目标片段的纯合或杂合状态。从而极大的简化变异序列的过滤方法,并排除实验过程中随机错误的产生。
在具体的分析过程中,本分析系统的实施过程如下:
1)将所有测序序列的片段根据引物序列进行分类;
2)在每一个引物序列内部统计最佳和次佳序列类型的个数;
3)计算最佳序列与次佳序列中次佳序列所占的比例;
4)根据设定的阈值判定此目标片段为纯合区域或杂合区域。在常染色体中,如高于阈值则为纯合,输出最佳序列所得到的变异信息;反之为杂合,输出佳序列与次佳序列所得到的变异信息。而在性染色体中,如为女性则与常染色体相同;如为男性则直接判定为纯合,输出最佳序列所得到的变异信息。
实施例1:检测人类基因组多重扩增测序产物中突变信息的方法系统
运用本发明方法,对107例由多重扩增得到的BRCA1和BRCA2基因测序数据进行分析。其中包括100份健康的无偿献血者全血样本、5份乳腺癌或卵巢癌患者样本(全血、石蜡切片),BRCA1/2阳性细胞系2株,分别为BT474和HCT15(均可购自于ATCC)。
(1)测序数据的质量评估和预处理
将illumina测序平台测序得到的107份PE250数据进行低质量筛选和低碱基识别度筛选。具体的过滤条件为:Q20低于80%或N碱基比例大于20%。最终,所有样本均具有较高的测序数据质量,详见表1。
表1.107例检测样本基本信息统计结果
(2)引物识别
本实验数据来源于覆盖BRCA1和BRCA2基因的97对引物的扩增产物测序。因此,在分析过程中,使用相对应的97对引物序列对测序序列进行唯一性识别。在识别过程中,容许1个插入缺失改变和2个碱基错配改变。最终,各样本的引物识别比例平均可达98.5%,详见表1。
(3)序列组装
本实验中,97对扩增子中最大片段长度为395bp,因此对于双端250bp的测序数据,可以实现每条扩增子的完全覆盖,可以进行序列组装操作。在组装过程中,且限定两条片段至少包含100bp以上的重合序列。最终,序列组装成功率平均为99%,详见表1。
(4)序列比对
根据97对引物的序列位置,从人类标准参考基因组(GRCh37/hg19)切取参考序列文件。进而对识别成功的测序序列,分别与其对应的参考序列进行全局序列比对。最终,各样本的序列比对成功率平均为96%,详见表1。
(5)变异检测
对比对成功的序列,采用碱基比较的方式,统计每个测序位置与参考序列的异同,得到候选突变信息的列表。
(6)序列变异精校准
为了能够更科学的描述变异信息对生物学意义的影响,根据基因的表达方向对突变信息进行重新合并和修改。在本实施例中,BRCA1基因为负链表达基因,所以突变的位置为左对齐;BRCA1基因为正链表达基因,所以突变的位置为右对齐。以右对齐为例,插入类型的调整方式见图2;缺失类型的调整方式见图3。
(7)序列变异统计输出
BRCA1和BRCA2基因均位于常染色体,因此为二倍体。在各样本中,对97个扩增产物分别进行最佳序列及次佳序列的统计,根据杂合判定阈值进行倍型的判定。在本实施例中,判定阈值设定为0.15,即次佳序列在最佳序列与次佳序列之和中所占比例高于15%,此扩增子存在杂合突变;否则存在纯合突变或不存在突变。最终,100份健康的无偿献血者全血样本中未检测到易感突变位点。5例乳腺癌/卵巢癌患者样本(全血、石蜡切片)和2株细胞系的结果如表2所示。表2中:突变名称为基因编号+外显子编号+突变碱基序列+氨基酸变化,基因名称是指被检测位点所在的基因,染色体是指被检测位点所在的染色体位置,起始位置是指被检测位点所在染色体上的起始位置,RS编号为NCBI网址SNP数据库统一编号。最终,检测结果与预期结果符合。
表2.5例乳腺癌/卵巢癌患者(全血、石蜡切片)及2例细胞系样本的检测结果表
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基因组多重扩增测序产物中突变信息的检测方法,其特征在于,步骤为,
(1)测序数据的质量评估和预处理,过滤掉不合适的测序数据,得到第一测序序列;优选的,所述不合适的测序数据指的是Q20低于80%,或N碱基比例大于20%;
(2)引物识别:使用来源于覆盖所检测基因的测序引物,对上述第一测序序列进行来源识别,将可以识别的测序序列为第二测序序列;优选的,可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内;
(3)序列组装:对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据,进行序列组装,将其两条片段的重合序列部分进行合并和质量值的重新计算;得到第三测序序列;
(4)序列比对:根据来源于覆盖所检测基因的测序引物的序列位置,从标准参考基因组切取参考序列文件,进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对;得到第四测序序列;
(5)变异检测:对所述第四测序序列,采用碱基比较的方式,统计每一个位置上测序序列与所述参考序列的异同,得到初步的变异信息;
(6)序列变异精校准:
对于相互靠近的突变,将其进行合并,重新计算碱基的突变位置和突变类型;尤其,如果存在其中一侧为插入或缺失的类型,需要对合并后的碱基定位进行调整;得到校准后的第五测序片段;
对于插入类型,以基因的转录方向为准,如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;
对于缺失类型,以基因的转录方向为准,如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;
(7)序列变异统计输出:根据最高丰度的第五测序片段类型计算得到目标片段的纯合或杂合状态;最终得到基因组多重扩增测序产物中的突变信息。
2.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述引物识别的具体算法为:
(1)循环所有来源于覆盖所检测基因的测序引物组合;
(2)每次截取测序序列两端和当前来源于覆盖所检测基因的测序引物组合相同的片段进行全局比对,并进行打分,同时记录比对过程中的碱基错配个数和插入缺失个数;
(3)根据比对打分确定最佳引物来源,并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。
3.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述序列组装为:
(1)将测序序列的后端数据进行反向互补,使其与前端序列具有相同读取方向;
(2)将后端序列与前端序列进行不同位置的对齐操作,进而在每种对齐条件下计算后续序列相同与不同的打分值,选取最高打分值作为前后两条序列的最佳组装起点;
(3)从最佳比对起点开始,选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基;如果遇到两个不同碱基的质量值相同,则优选前段碱基序列的碱基类型;
(4)输出组装后的序列片段,并根据如下原则重新计算碱基质量值打分:
a.如果两个碱基相同,则质量值为两只相加,但不高于最高质量值上限;
b.如果两个碱基不同,则质量值为两者中的较大者,如两者相同,则任取一个。
4.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述序列比对的方式为全局比对算法,其具体算法原理如下:
(1)参数设定:对比对过程中的打分值进行定义,可以采取两种方式:
a.定义碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值;
b.定义打分矩阵,即每种碱基间的相互错配可以具有各自不同的分值,以考虑生物过程中碱基突变的实际概率值。
(2)打分矩阵初始化:
a.将参考序列的每一个碱基作为打分矩阵的一列,首列留空;
b.将测序序列的每一个碱基作为打分矩阵的一行,首行留空;
c.将打分矩阵的第二行和第二列根据碱基插入缺失、碱基插入缺失延伸的分值进行填充,以定义在序列首端存在插入缺失的情况。
(3)打分矩阵填充:将打分矩阵从左向右、自上而下进行填充。填充过程中遵循以下原则:
a.每个空位分别计算由左侧、上方、左上方延伸而来的得分;
b.在计算过程中,来自于左上方的情况需要计算当前位置对应的参考序列碱基和测序序列碱基是否相同,相同则加上“碱基相同”对应的分值,不相同则加上“碱基错配”对应的分值;如果来自于上方或左侧,需要考虑前一步碱基是否为插入缺失,如果是插入缺失,则加上“碱基插入缺失延伸”的分值,如果不是则加上“碱基插入缺失”的分值。
c.将3种情况下计算得到的最高分作为此处的比对分值;并记录此处的路径来源。
(4)最优路径回溯:从打分矩阵的右下角开始回溯,选取每一个位点的路径来源,得到最优比对结果,即测序序列与参考序列的位置对应关系。
5.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述变异检测的判定方法为:
如果测序序列与参考序列相同,此处没有变异;
如果测序序列与参考序列不同,此处存在碱基替换类型的序列变异;
如果测序序列对应参考序列上的空位,此处存在序列插入类型的序列变异;
如果测序序列的空位对应参考序列上的碱基,此处存在序列缺失类型的序列变异。
6.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述序列变异统计输出的实施过程为:
(1)将所有测序序列的片段根据引物序列进行分类;
(2)在每一个引物序列内部统计出现次数最多和次多的序列类型,得到最佳序列与次佳序列;
(3)计算最佳序列与次佳序列中次佳序列所占的比例;
(4)根据设定的阈值和染色体倍数判定此目标片段为纯合区域或杂合区域。在二倍体中,若高于阈值则为纯合,输出最佳序列所得到的变异信息;反之为杂合,输出最佳序列与次佳序列所得到的变异信息;而在单倍体中,如人类的性染色体,则直接判定为纯合,输出最佳序列所得到的变异信息。
7.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述基因组是二倍体基因组。
8.权利要求7所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述基因组是人类基因组。
CN201610504503.1A 2016-06-30 2016-06-30 一种基因组多重扩增测序产物中突变信息的检测方法 Active CN106202991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610504503.1A CN106202991B (zh) 2016-06-30 2016-06-30 一种基因组多重扩增测序产物中突变信息的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610504503.1A CN106202991B (zh) 2016-06-30 2016-06-30 一种基因组多重扩增测序产物中突变信息的检测方法

Publications (2)

Publication Number Publication Date
CN106202991A true CN106202991A (zh) 2016-12-07
CN106202991B CN106202991B (zh) 2019-03-08

Family

ID=57462736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610504503.1A Active CN106202991B (zh) 2016-06-30 2016-06-30 一种基因组多重扩增测序产物中突变信息的检测方法

Country Status (1)

Country Link
CN (1) CN106202991B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
CN107229842A (zh) * 2017-06-02 2017-10-03 肖传乐 一种基于局部图的三代测序序列校正方法
CN107480466A (zh) * 2017-07-06 2017-12-15 北京荣之联科技股份有限公司 基因组数据存储方法及电子设备
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法
CN108229103A (zh) * 2018-01-15 2018-06-29 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108280325A (zh) * 2017-12-08 2018-07-13 北京雅康博生物科技有限公司 高通量测序数据的处理方法、处理装置、存储介质及处理器
CN108304693A (zh) * 2018-01-23 2018-07-20 元码基因科技(北京)股份有限公司 利用高通量测序数据分析基因融合的方法
CN108319817A (zh) * 2018-01-15 2018-07-24 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108460246A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于三代测序平台的hla基因分型方法
CN108710784A (zh) * 2018-05-16 2018-10-26 中科政兴(上海)医疗科技有限公司 一种基因转录变异几率及变异方向的算法
CN108804873A (zh) * 2018-06-29 2018-11-13 首度生物科技(苏州)有限公司 无创检测母体和胚胎遗传异常的装置
CN108920901A (zh) * 2018-07-24 2018-11-30 中国医学科学院北京协和医院 一种测序数据突变分析系统
CN109920485A (zh) * 2018-12-29 2019-06-21 浙江安诺优达生物科技有限公司 对测序序列进行变异模拟的方法及其应用
CN110010193A (zh) * 2019-05-06 2019-07-12 西安交通大学 一种基于混合策略的复杂结构变异检测方法
CN110021345A (zh) * 2017-12-08 2019-07-16 北京哲源科技有限责任公司 基于spark平台的基因数据分析方法
CN110021355A (zh) * 2017-09-22 2019-07-16 深圳华大生命科学研究院 二倍体基因组测序片段的单倍体分型和变异检测方法和装置
CN110021357A (zh) * 2017-12-27 2019-07-16 安诺优达基因科技(北京)有限公司 模拟癌症基因组测序数据生成装置
CN110273028A (zh) * 2019-06-27 2019-09-24 深圳市海普洛斯生物科技有限公司 病毒整合型dna的富集方法、测序数据分析方法和装置
CN110491445A (zh) * 2018-05-11 2019-11-22 广州华大基因医学检验所有限公司 Uid测序、uid序列设计、uid去重质量值校正的方法及应用
CN110600078A (zh) * 2019-08-23 2019-12-20 北京百迈客生物科技有限公司 一种基于纳米孔测序检测基因组结构变异的方法
CN110797088A (zh) * 2019-10-17 2020-02-14 南京医基云医疗数据研究院有限公司 全基因组重测序分析及用于全基因组重测序分析的方法
CN110875084A (zh) * 2018-08-13 2020-03-10 深圳华大基因科技服务有限公司 一种核酸序列比对的方法
CN110993023A (zh) * 2019-11-29 2020-04-10 北京优迅医学检验实验室有限公司 复杂突变的检测方法及检测装置
CN111161801A (zh) * 2019-12-31 2020-05-15 杨琦 一代基因测序中自动识别杂合突变的方法
CN111243669A (zh) * 2020-01-20 2020-06-05 至本医疗科技(上海)有限公司 用于确定rna基因融合的方法、电子设备和计算机存储介质
CN111370057A (zh) * 2019-07-31 2020-07-03 深圳思勤医疗科技有限公司 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
CN112802556A (zh) * 2021-01-20 2021-05-14 天津大学合肥创新发展研究院 一种针对测序数据的多标记序列并行识别的加速器装置
CN113005188A (zh) * 2020-12-29 2021-06-22 阅尔基因技术(苏州)有限公司 用一代测序评估样本dna中碱基损伤、错配和变异的方法
CN115620810A (zh) * 2022-12-19 2023-01-17 北京诺禾致源科技股份有限公司 基于第三代基因测序数据的外源插入信息的检测方法和装置
CN117079720A (zh) * 2023-10-16 2023-11-17 北京诺禾致源科技股份有限公司 高通量测序数据的处理方法和装置
CN117373527A (zh) * 2023-12-07 2024-01-09 中国科学院微生物研究所 Hiv序列质控方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6358690B1 (en) * 2000-09-20 2002-03-19 Wisconsin Alumni Research Foundation Method for rapidly identifying deletion mutations
CN102831330A (zh) * 2011-11-30 2012-12-19 北京诺禾致源生物信息科技有限公司 测序数据的处理方法及装置
US20140272940A1 (en) * 2013-03-13 2014-09-18 Life Technologies Corporation Methods for detection of multiple target nucleic acids
CN104263726A (zh) * 2014-09-25 2015-01-07 天津诺禾致源生物信息科技有限公司 适用于扩增子测序文库构建的引物及扩增子测序文库的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6358690B1 (en) * 2000-09-20 2002-03-19 Wisconsin Alumni Research Foundation Method for rapidly identifying deletion mutations
CN102831330A (zh) * 2011-11-30 2012-12-19 北京诺禾致源生物信息科技有限公司 测序数据的处理方法及装置
US20140272940A1 (en) * 2013-03-13 2014-09-18 Life Technologies Corporation Methods for detection of multiple target nucleic acids
CN104263726A (zh) * 2014-09-25 2015-01-07 天津诺禾致源生物信息科技有限公司 适用于扩增子测序文库构建的引物及扩增子测序文库的构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ATHANASIA SPANDIDOS ET AL: "PrimerBank: a resource of human and mouse PCR primer pairs for gene expression detection and quantification", 《NUCLEIC ACIDS RESEARCH》 *
HUILEI XU ET AL: "Comparison of somatic mutation calling methods in amplicon and whole exome sequence data", 《BMC GENOMICS》 *
MARIE PIERRE AUDREZET ET AL: "Validation of High-Resolution DNA Melting Analysis for Mutation Scanning of the Cystic Fibrosis Transmembrane Conductance Regulator (CFTR) Gene", 《THE JOURNAL OF MOLECULAR DIAGNOSTICS》 *
刘彦魁等: "ARMS 法检测 同一位点连续突变的病理解决方案", 《临床与实验病理学杂志》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845155B (zh) * 2016-12-29 2021-11-16 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
CN107229842A (zh) * 2017-06-02 2017-10-03 肖传乐 一种基于局部图的三代测序序列校正方法
CN107480466A (zh) * 2017-07-06 2017-12-15 北京荣之联科技股份有限公司 基因组数据存储方法及电子设备
CN107480466B (zh) * 2017-07-06 2020-08-11 北京荣之联科技股份有限公司 基因组数据存储方法及电子设备
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法
CN110021355A (zh) * 2017-09-22 2019-07-16 深圳华大生命科学研究院 二倍体基因组测序片段的单倍体分型和变异检测方法和装置
CN110021345B (zh) * 2017-12-08 2021-02-02 北京哲源科技有限责任公司 基于spark平台的基因数据分析方法
CN108280325B (zh) * 2017-12-08 2020-11-27 北京雅康博生物科技有限公司 高通量测序数据的处理方法、处理装置、存储介质及处理器
CN108280325A (zh) * 2017-12-08 2018-07-13 北京雅康博生物科技有限公司 高通量测序数据的处理方法、处理装置、存储介质及处理器
CN110021345A (zh) * 2017-12-08 2019-07-16 北京哲源科技有限责任公司 基于spark平台的基因数据分析方法
CN110021357B (zh) * 2017-12-27 2021-06-04 浙江安诺优达生物科技有限公司 模拟癌症基因组测序数据生成装置
CN110021357A (zh) * 2017-12-27 2019-07-16 安诺优达基因科技(北京)有限公司 模拟癌症基因组测序数据生成装置
CN108319817A (zh) * 2018-01-15 2018-07-24 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108319817B (zh) * 2018-01-15 2020-12-25 无锡臻和生物科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108229103A (zh) * 2018-01-15 2018-06-29 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108229103B (zh) * 2018-01-15 2020-12-25 无锡臻和生物科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108304693B (zh) * 2018-01-23 2022-02-25 元码基因科技(北京)股份有限公司 利用高通量测序数据分析基因融合的方法
CN108304693A (zh) * 2018-01-23 2018-07-20 元码基因科技(北京)股份有限公司 利用高通量测序数据分析基因融合的方法
CN108460246A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于三代测序平台的hla基因分型方法
CN108460246B (zh) * 2018-03-08 2022-02-22 北京希望组生物科技有限公司 一种基于三代测序平台的hla基因分型方法
CN110491445B (zh) * 2018-05-11 2023-05-30 广州华大基因医学检验所有限公司 Uid测序、uid序列设计、uid去重质量值校正的方法及应用
CN110491445A (zh) * 2018-05-11 2019-11-22 广州华大基因医学检验所有限公司 Uid测序、uid序列设计、uid去重质量值校正的方法及应用
CN108710784A (zh) * 2018-05-16 2018-10-26 中科政兴(上海)医疗科技有限公司 一种基因转录变异几率及变异方向的算法
CN108804873A (zh) * 2018-06-29 2018-11-13 首度生物科技(苏州)有限公司 无创检测母体和胚胎遗传异常的装置
CN108920901A (zh) * 2018-07-24 2018-11-30 中国医学科学院北京协和医院 一种测序数据突变分析系统
CN110875084A (zh) * 2018-08-13 2020-03-10 深圳华大基因科技服务有限公司 一种核酸序列比对的方法
CN110875084B (zh) * 2018-08-13 2022-06-21 深圳华大基因科技服务有限公司 一种核酸序列比对的方法
CN109920485A (zh) * 2018-12-29 2019-06-21 浙江安诺优达生物科技有限公司 对测序序列进行变异模拟的方法及其应用
CN109920485B (zh) * 2018-12-29 2023-10-31 浙江安诺优达生物科技有限公司 对测序序列进行变异模拟的方法及其应用
CN110010193A (zh) * 2019-05-06 2019-07-12 西安交通大学 一种基于混合策略的复杂结构变异检测方法
CN110010193B (zh) * 2019-05-06 2021-09-03 西安交通大学 一种基于混合策略的复杂结构变异检测方法
CN110273028A (zh) * 2019-06-27 2019-09-24 深圳市海普洛斯生物科技有限公司 病毒整合型dna的富集方法、测序数据分析方法和装置
CN111370057A (zh) * 2019-07-31 2020-07-03 深圳思勤医疗科技有限公司 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
CN110600078A (zh) * 2019-08-23 2019-12-20 北京百迈客生物科技有限公司 一种基于纳米孔测序检测基因组结构变异的方法
CN110600078B (zh) * 2019-08-23 2022-03-18 北京百迈客生物科技有限公司 一种基于纳米孔测序检测基因组结构变异的方法
CN110797088B (zh) * 2019-10-17 2020-09-15 南京医基云医疗数据研究院有限公司 全基因组重测序分析及用于全基因组重测序分析的方法
CN110797088A (zh) * 2019-10-17 2020-02-14 南京医基云医疗数据研究院有限公司 全基因组重测序分析及用于全基因组重测序分析的方法
CN110993023B (zh) * 2019-11-29 2023-08-15 北京优迅医学检验实验室有限公司 复杂突变的检测方法及检测装置
CN110993023A (zh) * 2019-11-29 2020-04-10 北京优迅医学检验实验室有限公司 复杂突变的检测方法及检测装置
CN111161801B (zh) * 2019-12-31 2023-06-06 杨琦 一代基因测序中自动识别杂合突变的方法
CN111161801A (zh) * 2019-12-31 2020-05-15 杨琦 一代基因测序中自动识别杂合突变的方法
CN111243669A (zh) * 2020-01-20 2020-06-05 至本医疗科技(上海)有限公司 用于确定rna基因融合的方法、电子设备和计算机存储介质
CN113005188A (zh) * 2020-12-29 2021-06-22 阅尔基因技术(苏州)有限公司 用一代测序评估样本dna中碱基损伤、错配和变异的方法
CN112802556B (zh) * 2021-01-20 2023-05-09 天津大学合肥创新发展研究院 一种针对测序数据的多标记序列并行识别的加速器装置
CN112802556A (zh) * 2021-01-20 2021-05-14 天津大学合肥创新发展研究院 一种针对测序数据的多标记序列并行识别的加速器装置
CN115620810A (zh) * 2022-12-19 2023-01-17 北京诺禾致源科技股份有限公司 基于第三代基因测序数据的外源插入信息的检测方法和装置
CN117079720A (zh) * 2023-10-16 2023-11-17 北京诺禾致源科技股份有限公司 高通量测序数据的处理方法和装置
CN117079720B (zh) * 2023-10-16 2024-01-30 北京诺禾致源科技股份有限公司 高通量测序数据的处理方法和装置
CN117373527A (zh) * 2023-12-07 2024-01-09 中国科学院微生物研究所 Hiv序列质控方法、设备及存储介质

Also Published As

Publication number Publication date
CN106202991B (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN106202991A (zh) 一种基因组多重扩增测序产物中突变信息的检测方法
US20200098445A1 (en) Ancestral human genomes
Riles et al. Physical maps of the six smallest chromosomes of Saccharomyces cerevisiae at a resolution of 2.6 kilobase pairs.
JP2019531700A5 (zh)
KR101460520B1 (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
CN110997936B (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途
CN103946396B (zh) 用于下一代测序的序列重组方法及装置
CN111755067A (zh) 一种肿瘤新生抗原的筛选方法
CN110621785B (zh) 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置
KR102388021B1 (ko) 가공용 사과 산도 형질과 연관된 단일염기다형성 마커 및 이의 용도
CN108660200B (zh) 一种检测短串联重复序列扩张的方法
CA3005791A1 (en) Methods for detecting copy-number variations in next-generation sequencing
CN107480470A (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CN110289048A (zh) 与水牛产奶性状相关的qtl及其筛选方法和应用
CN109790569A (zh) 供多重pcr的引物的设计方法
CN104988142A (zh) 一种新型黄瓜snp分子标记
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
KR20220076444A (ko) 유전체 서열 내의 변이 후보를 분류하는 방법 및 장치
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
Claverie et al. cDNA-AFLP-based genetical genomics in cotton fibers
CN111276189A (zh) 基于ngs的染色体平衡易位检测分析系统及应用
CN113122644B (zh) 用于马鹿血源含量检测的snp位点、筛选方法、对应snp芯片及应用
CN109033752A (zh) 一种基于长读长测序的多基因融合检测方法
KR101884990B1 (ko) 로지스틱 회귀분석을 이용한 신규 변이의 거짓 양성 판단 장치 및 그 방법
da Silva et al. Validation of a microsatellite panel for parentage testing of locally adapted and commercial goats in Brazil

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220802

Address after: No. 39, Haicang Ding Shan Road, Haicang District, Xiamen, Fujian

Patentee after: AMOY DIAGNOSTICS Co.,Ltd.

Patentee after: Shanghai Xiawei medical laboratory Co.,Ltd.

Address before: No. 39, Haicang Ding Shan Road, Haicang District, Xiamen, Fujian

Patentee before: AMOY DIAGNOSTICS Co.,Ltd.