CN101984445B - 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统 - Google Patents

一种基于聚合酶链式反应产物测序序列分型的实现方法和系统 Download PDF

Info

Publication number
CN101984445B
CN101984445B CN2010101177034A CN201010117703A CN101984445B CN 101984445 B CN101984445 B CN 101984445B CN 2010101177034 A CN2010101177034 A CN 2010101177034A CN 201010117703 A CN201010117703 A CN 201010117703A CN 101984445 B CN101984445 B CN 101984445B
Authority
CN
China
Prior art keywords
somatotype
database
base
sequence
base sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010101177034A
Other languages
English (en)
Other versions
CN101984445A (zh
Inventor
刘涛
樊清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huada Gene Health Technology Co., Ltd.
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN2010101177034A priority Critical patent/CN101984445B/zh
Priority to PCT/CN2011/000347 priority patent/WO2011106994A1/zh
Publication of CN101984445A publication Critical patent/CN101984445A/zh
Application granted granted Critical
Publication of CN101984445B publication Critical patent/CN101984445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本发明公开一种PCR-SBT分型方法和系统,该方法包括:通过计算机程序根据测序结果判读杂合子位点和待分型碱基序列;将待分型碱基序列比对到对应位点的分型数据库,识别待分型碱基序列和分型数据库的参考序列的联配位置关系;检索分型数据库中的等位基因型,根据定序策略获得分型数据库中的等位基因型的罚分值;根据分型数据库中的等位基因型的罚分值获得候选型别组合集。本发明提供的SBT分型方法和系统,可以通过计算机等设备实现候选基因型的自动识别,从而提高了分型效率;通过图形化显示界面等技术手段为分型人员的分型确认和修改提供方便,提供了分型准确率以及分型效率。

Description

一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
技术领域
本发明涉及等位基因分型技术,尤其涉及一种基于聚合酶链式反应产物测序序列分型(Polymerase Chain Reaction Seq uencing-basedTyping,PCR-SBT)的实现方法和系统。
背景技术
HLA(Human Leucocyte Antigen,人类白细胞抗原)是迄今为止发现的多态性最高的基因系统之一,是调控人体特异性免疫应答和决定疾病易感性个体差异的主要基因系统,HLA与同种异体器官移植的排斥反应密切相关。
目前国际标准的HLA分型技术为PCR-SSP(Polymerase ChainReaction Sequence-Specific Primers,序列特异引物聚合酶链式反应),PCR-SSO(Polymerase Chain Reaction equence-SpecificOligonucleotide Probe Hybridization,聚合酶链式反应寡核苷酸探针杂交)和PCR-SBT(Polymerase Chain Reaction Sequencing-basedTyping,基于聚合酶链式反应产物测序序列分型)。
PCR-SSO的原理是设计HLA型别特异的寡核苷酸序列作为探针,把PCR产物标记,以PCR产物(待检测基因DNA)与探针杂交,通过检测荧光信号判断HLA基因型别。缺点是不能检测新的等位基因,分辨率不够高;检测信号是模拟信号。
PCR-SSP方法通过设计出一整套等位基因组特异性引物,借助PCR技术获得HLA型别特异的扩增产物,通过电泳直接分析带型决定HLA型别。其缺点是不易自动化;不能检测新的等位基因;试剂盒需不断升级;检测信号是模拟信号。
PCR-SBT的原理是用引物对HLA基因多态性的区域进行PCR扩增,然后对扩增产物进行DNA测序,在计算机辅助下确定HLA等位基因型别。对于基因结构的分析,SBT是比较直观、准确的方法。用PCR-SSP或PCR-SSO方法鉴别出新的等位基因,通常通过测序加以证实。
SBT技术中,利用扩增产物对DNA测序后,需要通过软件将测序所得结果与国际组织IMGT数据库(http://www.ebi.ac.uk/imgt/)中公布的HLA分型中的标准序列进行比对;通过比对得出样品序列与标准序列的匹配率;根据匹配率高低得出样品序列的分型结论。
但是,PCR-SBT方法的设备要求高,时间和费用的消耗大,现有技术进行大范围候选型别筛查检索时,速度慢,效率低。此外,人工辅助分型阶段,分型人员进行峰图查看时,序列无法同步和峰图对应,而且无法通过对峰图的调节来进行查看。同时,无法实现数据结果的备份和恢复,容易造成数据的丢失。
发明内容
本发明要解决的一个技术问题是提供一种基于聚合酶链式反应产物测序序列分型的实现方法和系统,特别是一种HLA基于聚合酶链式反应产物测序序列分型的实现方法和系统,可以提高分型速度和效率。
本发明提供一种基于聚合酶链式反应产物测序序列分型的实现方法,包括步骤:通过计算机程序根据测序结果判读杂合子位点和待分型碱基序列;将含有杂合子的待分型碱基序列比对到对应位点的分型数据库,识别待分型碱基序列和分型数据库的参考序列的联配位置关系;根据待分型碱基序列和分型数据库的参考序列的联配位置关系检索分型数据库中的等位基因型,根据定序策略获得分型数据库中的等位基因型的罚分值;根据分型数据库中的等位基因型的罚分值获得候选型别组合集。
进一步,根据所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系检索所述分型数据库中的等位基因型的步骤包括:
从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺序排列,然后遍历预先建立的所述分型数据库中等位基因型中变异碱基的碱基符号形成的哈希数组,进行打分,获得各个等位基因型的罚分值。
根据本发明的方法的一个实施例,定序策略以DNA测序碱基质量为单位、按不同错配类型加权后的分值累加和作为罚分值。
根据本发明的分型方法的一个实施例,还包括步骤:将测序结果文件的峰图图形化显示输出,进行峰图形态缩放调节和/或序列峰图连动查看,以便于分型人员修改和/或确认分型结果。
本发明还提供一种基于聚合酶链式反应产物测序序列分型系统,包括:碱基序列判断子系统,用于接收测序结果,根据测序结果判读杂合子位点和待分型碱基序列;联配位置识别子系统,用于接收来自碱基序列判断子系统的待分型碱基序列,将待分型碱基序列比对到对应位点的分型数据库,识别待分型碱基序列和分型数据库的参考序列的联配位置关系;罚分值确定子系统,用于根据待分型碱基序列和分型数据库的参考序列的联配位置关系检索所述分型数据库中的等位基因型,根据定序策略获得分型数据库中的等位基因型的罚分值;候选型别确定子系统,用于根据分型数据库中的等位基因型的罚分值获得候选型别组合集。
根据本发明的分析系统的一个实施例,还包括:索引预处理子系统,用于预先建立所述分型数据库的参考序列,以及所述参考序列和所述分型数据库的等位基因型序列之间的位置对应关系;根据所述分型数据库的等位基因型中可变碱基位上的碱基符号序列形成的哈希数组;
罚分值确定子系统从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺序排列,然后遍历该分型数据库的哈希数组,进行打分。
根据本发明的分型系统的一个实施例,还包括:图形化显示子系统,用于将测序结果文件的峰图图形化显示输出,进行峰图形态缩放调节和/或序列峰图连动查看,以便于分型人员修改和/或确认分型结果。
本发明提供的基于聚合酶链式反应产物测序序列分型方法和系统,可以通过计算机等设备实现候选基因型的自动识别,处理速度快,提高了分型效率。
进一步,通过图形化显示界面等技术手段为分型人员的分型确认和修改提供方便,提供了分型准确率以及分型效率。
附图说明
图1示出本发明实施例的一种PCR-SBT分型的实现方法的流程图;
图2示出本发明实施例的另一种PCR-SBT分型的实现方法的流程图;
图3示出本发明的一个应用例的数据图形化输出界面的截图;
图4示出本发明实施例的一种PCR-SBT分型系统的结构图;
图5示出本发明实施例的另一种PCR-SBT分型系统的结构图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。在附图中,相同的标号表示相同或者相似的组件或者元素。
图1示出本发明一种基于聚合酶链式反应产物测序序列分型的实现方法的一个实施例的流程图,以下将基于聚合酶链式反应产物测序序列分型的实现方法简称为PCR-SBT分型方法。
如图1所示,在步骤102,通过计算机程序根据测序结果判读杂合子和待分型碱基序列。例如,测序结果包括时域下定长间隔的荧光信号强度读数信息,根据荧光信号强度读数确定信号峰值,从而确定碱基或杂合子。
在步骤104,将含有杂合子的待分型碱基序列比对到对应位点的分型数据库,识别待分型碱基序列和对应位点的分型数据库的参考序列的联配位置关系。PCR扩增试验中靶位点是已知的,待分型碱基序列对应的目标位点也是已知的。根据待分型碱基序列的目标位点信息比对到对应位点的分型数据库中。每个分型数据库包括参考序列(ReferenceSequence)、以及参考序列和分型数据库中各个等位基因型的位置对应关系。例如通过动态规划算法(Dynamic Programming)或点矩阵(Dot Matrix)方法实现待分型碱基序列和对应位点的分型数据库的参考序列的联配位置关系的识别。
在步骤106,结合待分型碱基序列和分型数据库的参考序列的联配位置关系,检索分型数据库中的各个等位基因型,根据定序策略获得分型数据库中的各个等位基因型的罚分值。遍历分型数据库中的等位基因型,根据待分型碱基序列和参考序列的联配位置关系、参考序列和等位基因型的位置对应关系,获得待分型碱基序列和等位基因型序列的位置对应关系,然后结合定序策略获得各个等位基因型的罚分值。定序策略可以按待分型碱基序列与比较的等位基因型(标的等位基因型)之间的错配位置上的错配类型、待分型碱基序列在该位置的质量值罚分的累加和作为定序依据
在步骤108,根据分型数据库中的等位基因型的罚分值获得候选型别组合集。例如,根据设定的罚分阈值选取TopN个候选型别组合集;或者选取第一个候选型别作为确定的等位基因分型。
本发明实施例的PCR-SBT分型的实现方法,通过计算设备等自动完成待分型基因序列的分型,特别是对于大范围候选型别筛查搜索时,速度快,效率高。
根据本发明的PCR-SBT分型的实现方法的一个实施例,预先对分型数据库中的等位基因型序列信息进行预处理,将对应的等位基因型中的有变异的碱基(简称变异碱基)对应的位置上的碱基符号取出,将变异碱基符号顺序排列、编码,形成哈希数组。例如,哈希数组的存储格式为:键值-对数据库中各个型别在所有可变碱基位置上对应的碱基符号序列按规则编码成2进制码后的值。对于待分型碱基序列,取出变异碱基对应位置上的碱基符号,顺序排列,然后根据哈希数组的键值(key)遍历等位基因型的哈希数组,对待分型碱基序列和分型数据库中的等位基因型序列进行打分,根据定序策略获得各个等位基因型的罚分值,然后根据罚分阈值得到TopN个候选型。
预先进行建库处理形成分型数据库的等位基因型的变异碱基的哈希数组,哈希数组建好后可以驻留内存,可以多次重复对不同的待分型碱基序列进行处理,检索速度快,大大提高了检索效率,从而提高了本发明整个分型方法的速度和效率。
根据本发明的PCR-SBT分型的实现方法的一个实施例,在分型结果的筛选定序中采用以DNA测序碱基质量为单位、按不同错配类型加权后的分值累加和作为罚分值,并以该罚分由小到大的规则定序输出,获得候选基因型列表。例如,定序策略采用如下规则:设错配位点的质量值为q,待分型碱基序列Q与标的基因型T,则:
(1)缺失位,+1;
(2)非缺失位错配,基础罚分为+q;
(3)非缺失位错配,如果Q为纯合子,且不为T中对应位置的简并碱基所包含,则+2q;
(4)非缺失位错配,如果Q为杂合子,且为T中对应位置的碱基所包含,则+2q;
(5)非缺失位错配,如果Q为杂合子,且不被T中对应位置的简并碱基所包含,则+3q。
本领域的技术人员根据本发明的上述例子,能够设计出多种相似或者等同的定序策略,同样属于本发明的保护范围。
通常碱基质量值代表该碱基Base Calling结果出错的概率,该值越高,出错的概率越高,所以,以碱基质量作为罚分的基础值(或者参考值),可以提高分型的准确性。本发明实施例的分型方法,相较于现有的仅以错配碱基数量为考量因子定序的方法,更加有效地将最接近真实基因型的候选结果放置在候选列表的最优先位置,从而提高了分型效率。
图2示出本发明一种PCR-SBT分型的实现方法的另一个实施例的流程图。
如图2所示,在步骤202,输入测序结果文件。例如,测序结果文件的内容和格式可以参见
【http://www.appliedbiosystems.com/support/software_community/ABIF_File_Format.pdf】;
在步骤204,根据测序结果文件自动判读杂合子位点和碱基序列。例如,通过Reference-Based Base Calling(有参考序列的碱基识别)方法通过计算机自动进行碱基及杂合子判读。
在步骤206,待分型碱基序列和对应位点的分型数据库的参考序列的自动联配及自动插入/删除识别。例如,在参考文献中“AlgorithmicBioinformatics,Daniel Huson,25,Oktober,2005”中介绍了多种比对算法(Alignment Algorithm)。可以采用有界的全局比对算法(BandedGlobal Alignment algorithm)进行自动联配。
在步骤208,检索已经建立好索引的分型数据库,搜集候选等位基因型别组合集。
在步骤210,根据罚分大小自动定序的候选等位基因型列表;
在步骤212,数据图形化显示输出。测序结果文件中记录时域下定长间隔的荧光信号强度读数,与测序过程时域相对应;荧光信号有四种颜色,分别对应四种碱基,通过按特定步长和曲线拟合公式,可以绘制出荧光信号在整个时域内的变化过程。这样的图由计算机程序解析测序结果后绘制并显示。将测序结果中的峰图信号波形图与对应的碱基判读和杂合子识别结果,以及由测序结果中通过自动判读得到的碱基序列,连同目标位点的选定候选基因型序列按照联配位置关系整体显示在同一视图窗体中。
在步骤214,峰图形态缩放调节及序列峰图连动查看。对峰图的显示支持单维度放大缩小功能,提供更佳的可用性。通过待分型碱基序列和候选基因型序列比对,整理得到的序列异同信息,将错配位置绘制成位点整体的概览视图,并支持在这些位置之间于各个窗体视图上的同步跳转。具体实现如下:
序列峰图连动查看:通过程序将多个测序结果文件对应的峰图在面板上显示出来后,将根据每个测序结果文件获得的待分型的碱基序列和分型数据库中参考序列经过比对得到的各个待分型碱基序列和参考序列的位置对应关系为基础,从而得到各个待分型碱基序列之间的位置对应关系。不同待分型碱基序列上碱基之间的位置是相对的,每一次触发一个碱基,程序首先会根据该碱基去查找它对应其他序列上对应的碱基位置,加上碱基的偏移值,并且重新画出完整的峰图。每次触发后,确保本次触发的碱基是对齐的,其他位置上的序列和峰图只保证大体上对齐即可。
峰图形态缩放调节:峰图的放大和缩小可以根据重绘图时修改峰图的参数每次来设置峰图放大和缩小的比例以实现峰图的放大和缩小。峰图的拉升和挤压可以根据设置峰图在横向的参数来实现峰图的拉升和挤压。
在步骤216,获得分型结果及数据备份。分型人员的工作包括参考峰图排查假纯合及确认或修改计算机自动识别出的杂合位点,并通过参考罕见型别列表,对当前待分型序列做修改和最终确认。这部分目前需要受过专业培训的有经验的专业人员的人眼识别和把握尺度。分型人员还需要在疑似新基因的结果(高质量位出现与当前数据库无匹配的情况)出现时,做出确认;在模糊结果(可能是A基因型,也符合B基因型)出现时,给出GSSP引物,以备应用SSP分型技术做附加确认。另外新基因的发现也是需要人去整理确认的。对于数据备份,在分型人员保存文件的同时,软件会将该分型文件拷贝到软件指定的文件夹下,保存分型文件的同时在该文件夹下产生一个临时文件,主要是记录分型人员分型时的信息,如:在某一个位置对某一个碱基做了修改,截取的峰图有效范围,分型的结果等。这样当用户下次想再查看之前校正后的峰图文件时,可以直接打开分型历史记录面板,根据日期来查看校正后的文件。
多个测序结果对应的峰图序列文件打开后,软件可以根据算法实现特定碱基和序列之间的对齐和联动,并且在选择峰图时,序列能保证同步和峰图对应。实现了序列的自动对齐,不用人工进行矫正,缩短了用人眼去辨别序列位置的时间,大大的提高了分型工作者的效率。通过实现峰图的放大,缩小以及峰值放大和缩小,当上下峰图对齐的效果不是很模糊的时候,可以通过对峰图的放大和缩小来调整峰图的大小,便于分型人员查看峰图,提高了分型效率。
每一个峰图文件分型结果的备份和恢复机制。当分型人员通过修改碱基,屏蔽序列分型完后,根据修改后的文件产生新分型的结果,将保存在一个临时文件夹里,主要是方便分型人员对已阅峰图的核对或是查看等。
图3示出本发明的一个应用例的数据图形化输出界面的截图。如图3所示,该应用例中SBT分型软件主界面分为四部分:左上部分31,右上部分32,左下部分33,右下部分34。其中,左上部分31为分型文件的选择部分。分型者选择的分型文件,都会在该部分以树形结构的形式来展现,方便用户来选择分型文件。左下部分33根据选择的分型文件的文件名称,识别该分型文件的比对位点,根据分型的位点选择比对的分型数据库,并根据候选型别罚分由小到大的定序规则排序,即得出左下角的所有配型列表。右上部分32为选择分型文件序列的显示部分。其中,第一行Consensus行为位点的比对库全序列;第二行Forward行为选择分型文件的正向序列;Reverse为选择分型文件的反向序列;第三行Pattern行为正反向序列的匹配序列结果;最下面的2条序列为从左下角得来的选择列表。右下部分34为峰图和序列文件的显示部分。峰图上方为该峰图对应的序列。每个波峰都对应了一个碱基,上下峰图的对应是根据分型文件和数据库的比对结果来对应的,峰图的上下的波峰和波峰,峰图的上下的碱基和碱基,都是对应的。
图4示出本发明实施例的一种PCR-SBT分型系统的结构图。如图4所示,该实施例的分型系统包括碱基序列判断子系统41、联配位置识别子系统42、罚分值确定子系统43和候选型别确定子系统44。其中,碱基序列判断子系统41用于接收测序结果,根据测序结果判读杂合子位点和待分型碱基序列。联配位置识别子系统42用于接收来自碱基序列判断子系统41的待分型碱基序列,将待分型碱基序列比对到对应位点的分型数据库中,识别待分型碱基序列和对应位点的分型数据库的参考序列之间的联配位置关系。例如,联配位置识别子系统42通过动态规划算法或者点矩阵方法识别待分型碱基序列和分型数据库的参考序列的联配位置关系。罚分值确定子系统43用于根据所述联配位置识别子系统42识别的待分型碱基序列和分型数据库的参考序列的联配位置关系检索分型数据库中的等位基因型,根据定序策略获得分型数据库中的各个等位基因型的罚分值。例如,定序策略以DNA测序碱基质量为单位、按不同错配类型加权后的分值累加和作为罚分。候选型别确定子系统44,用于根据分型数据库中的各个等位基因型的罚分值获得候选型别组合集。
根据本发明的一个实施例,分型系统还可选地包括索引预处理子系统45。索引预处理子系统45用于预先建立分型数据库的参考序列,以及分型数据库的参考序列和分型数据库的各个等位基因型序列之间的位置对应关系;此外,索引预处理子系统45还将分型数据库中的等位基因型中的有变异的碱基(简称变异碱基)对应的位置上的碱基符号取出,将变异碱基符号顺序排列、编码,形成哈希数组,即根据分型数据库的等位基因型中变异碱基的碱基符号形成的哈希数组。罚分值确定子系统43从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺序排列,然后遍历该分型数据库的哈希数组,进行联配。
图5示出本发明实施例的另一种PCR-SBT分型系统的结构图。如图5所示,该实施例的分型系统包括碱基序列判断子系统51、联配位置识别子系统52、罚分值确定子系统53、候选型别确定子系统54、索引预处理子系统55、图形化显示子系统56和数据备份系统57。其中,碱基序列判断子系统51、联配位置识别子系统52、罚分值确定子系统53、候选型别确定子系统54和索引预处理子系统55可以参见上文实施例中对应子系统的描述,为简洁起见在此不再详细描述。图形化显示子系统56用于将测序结果文件的峰图图形化显示输出,进行峰图形态缩放调节和/或序列峰图连动查看,以便于分型人员修改和/或确认分型结果。图形化显示子系统56将测序结果中的峰图信号波形图与对应的碱基判读和杂合子识别结果,以及由测序结果中通过自动判读得到的碱基序列,连同目标位点的选定候选基因型序列按照联配位置关系整体显示在同一视图窗体中。数据备份系统57用于存储和备份确认的分型结果,以及分型人员所作的修改等信息。对于数据备份,在分型人员保存文件的同时,软件会将该分型文件拷贝到软件指定的文件夹下,保存分型文件的同时在该文件夹下产生一个临时文件,主要是记录分型人员分型时的信息,如:在某一个位置对某一个碱基做了修改,截取的峰图有效范围,分型的结果等。
需要指出,本发明实施例中的各个子系统,可以作为单独的设备或者装置存在,通过相互配合和协作一起构成分型系统,例如各个子系统以分布式的方式存在;也可以多个或者所有的子系统集成在同一设备上。
现有软件分析速度一般为10个/小时,本发明的方案可以达到15个/小时,现有软件准确率一般为90%,本发明的方案可以达到92%。与现有技术的其他厂家同类产品比较,本发明的方法和系统在单位时间内分型速度可以提高50%,碱基识别的准确率可以提高2%。
本发明提供的SBT分型方法和系统,可以通过计算机等设备实现候选基因型的自动识别,从而提高了分型效率;通过图形化显示界面等技术手段为分型人员的分型确认和修改提供方便,提供了分型准确率以及分型效率。
需要指出,本发明的SBT分型方法和系统,不仅可以应用于HLA分型,同样可以应用于HPV(Human papillomavirus,人乳头瘤病毒)、HBV(hepatitis B virus,乙型肝炎病毒)等其他分型的实现。理论上,在有分型数据库支持的条件下,本发明可以应用到任何有分型需求的物种上的。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种基于聚合酶链式反应产物测序序列分型的实现方法,其特征在于,包括:
通过计算机程序根据测序结果判读杂合子位点和待分型碱基序列;
将含有杂合子的所述待分型碱基序列比对到对应位点的分型数据库,识别所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系;
根据所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系检索所述分型数据库中的等位基因型,根据定序策略获得所述分型数据库中的等位基因型的罚分值;所述定序策略以DNA测序碱基质量为单位值、按不同错配类型加权后的分值累加和作为罚分;
根据所述分型数据库中的等位基因型的罚分值获得候选型别组合集。
2.根据权利要求1所述的实现方法,其特征在于,根据所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系检索所述分型数据库中的等位基因型的步骤包括:
从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺序排列,然后遍历预先建立的所述分型数据库中等位基因型中变异碱基的碱基符号形成的哈希数组。
3.根据权利要求1所述的实现方法,其特征在于,所述定序策略为:
假定错配位点的质量值为q,待测序列Q与标的基因型T,则:
(1)缺失位,+1;
(2)非缺失位错配,基础罚分为+q;
(3)非缺失位错配,如果Q为纯合子,且不为T中对应位置的简并碱基所包含,则+2q;
(4)非缺失位错配,如果Q为杂合子,且为T中对应位置的碱基所包含,则+2q;
(5)非缺失位错配,如果Q为杂合子,且不被T中对应位置的简并碱基所包含,则+3q。
4.根据权利要求1所述的实现方法,其特征在于,通过动态规划算法或者点矩阵方法识别所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系。
5.根据权利要求1所述的实现方法,其特征在于,还包括步骤:
将测序结果文件的峰图图形化显示输出,进行峰图形态缩放调节和/或序列峰图连动查看。
6.根据权利要求5所述的实现方法,其特征在于,还包括步骤:
自动存储分型人员的修改和/或分型结果。
7.一种基于聚合酶链式反应产物测序序列分型系统,其特征在于,包括:
碱基序列判断子系统,用于接收测序结果,根据所述测序结果判读杂合子位点和待分型碱基序列;
联配位置识别子系统,用于接收来自所述碱基序列判断子系统的待分型碱基序列,将所述待分型碱基序列比对到对应位点的分型数据库,识别所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系;
罚分值确定子系统,用于根据所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系检索所述分型数据库中的等位基因型,根据定序策略获得所述分型数据库中的等位基因型的罚分值;所述定序策略以DNA测序碱基质量为单位值、按不同错配类型加权后的分值累加和作为罚分值;
候选型别确定子系统,用于根据所述分型数据库中的等位基因型的罚分值获得候选型别组合集。
8.根据权利要求7所述的分型系统,其特征在于,还包括:
索引预处理子系统,用于预先建立所述分型数据库的参考序列,以及所述参考序列和所述分型数据库的等位基因型序列之间的位置对应关系;根据所述分型数据库的等位基因型中变异碱基的碱基符号形成的哈希数组;
所述罚分值确定子系统从待分型碱基序列中取出变异碱基对应位置上的碱基符号,顺序排列,然后遍历所述分型数据库的哈希数组。
9.根据权利要求7所述的分型系统,其特征在于,联配位置识别子系统通过动态规划算法或者点矩阵方法识别所述待分型碱基序列和所述分型数据库的参考序列的联配位置关系。
10.根据权利要求7所述的分型系统,其特征在于,还包括:
图形化显示子系统,用于将测序结果文件的峰图图形化显示输出,进行峰图形态缩放调节和/或序列峰图连动查看。
CN2010101177034A 2010-03-04 2010-03-04 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统 Active CN101984445B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010101177034A CN101984445B (zh) 2010-03-04 2010-03-04 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
PCT/CN2011/000347 WO2011106994A1 (zh) 2010-03-04 2011-03-03 基于聚合酶链式反应产物测序序列分型的实现方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101177034A CN101984445B (zh) 2010-03-04 2010-03-04 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统

Publications (2)

Publication Number Publication Date
CN101984445A CN101984445A (zh) 2011-03-09
CN101984445B true CN101984445B (zh) 2012-03-14

Family

ID=43641614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101177034A Active CN101984445B (zh) 2010-03-04 2010-03-04 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统

Country Status (2)

Country Link
CN (1) CN101984445B (zh)
WO (1) WO2011106994A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108624671A (zh) * 2017-03-20 2018-10-09 深圳华大基因股份有限公司 用于hla分型的基因型序列

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102321749B (zh) * 2011-08-11 2013-02-06 中南大学 一种micb基因分型的pcr-sbt方法及试剂盒
CN102750461B (zh) * 2012-06-14 2015-04-22 东北大学 一种可得到完全解的生物序列局部比对方法
KR101482011B1 (ko) * 2012-10-29 2015-01-14 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101508816B1 (ko) * 2012-10-29 2015-04-07 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
CN104395900B (zh) * 2013-03-15 2017-08-25 北京未名博思生物智能科技开发有限公司 序列比对的空间计数运算方法
CN103617375B (zh) * 2013-12-02 2017-08-25 深圳华大基因健康科技有限公司 聚合酶链式反应产物测序分型的方法及系统
CN104263850B (zh) * 2014-06-19 2017-06-06 重庆医科大学 基于SNaPshot技术的小鼠肝炎病毒分型检测方法及试剂盒
US11594301B2 (en) 2015-10-21 2023-02-28 Coherent Logix, Incorporated DNA alignment using a hierarchical inverted index table
CN108241792B (zh) * 2016-12-23 2021-03-23 深圳华大基因科技服务有限公司 一种整合多平台基因分型结果的方法和装置
CN108660198B (zh) * 2018-05-15 2022-02-22 广州血液中心 一种血小板膜蛋白cd36抗原基因分型的pcr-sbt方法及试剂
CN109753939B (zh) * 2019-01-11 2021-04-20 银丰基因科技有限公司 一种hla测序峰图识别方法
CN110706746B (zh) * 2019-11-27 2021-09-17 北京博安智联科技有限公司 一种dna混合分型数据库比对算法
CN112102883B (zh) * 2020-08-20 2023-12-08 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统
CN113380323B (zh) * 2021-07-19 2022-09-23 浙江迪谱诊断技术有限公司 Sanger测序峰图截取标识方法、系统、计算机设备及存储介质
CN114023379B (zh) * 2021-12-31 2022-05-13 浙江迪谱诊断技术有限公司 一种确定基因型的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1680589A (zh) * 2003-06-06 2005-10-12 李志广 基因芯片用人类白细胞抗原分型探针的筛选及其应用方法
CN1896284A (zh) * 2006-06-30 2007-01-17 博奥生物有限公司 一种鉴别等位基因类型的方法
CN101654691A (zh) * 2009-09-23 2010-02-24 深圳华大基因科技有限公司 Hla基因扩增和基因分型方法及其相关引物

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1003917A1 (en) * 1997-08-11 2000-05-31 Visible Genetics Inc. Method and kit for hla class i typing dna
JP2010506595A (ja) * 2006-10-17 2010-03-04 ライフ テクノロジーズ コーポレーション 対立遺伝子タイピングの方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1680589A (zh) * 2003-06-06 2005-10-12 李志广 基因芯片用人类白细胞抗原分型探针的筛选及其应用方法
CN1896284A (zh) * 2006-06-30 2007-01-17 博奥生物有限公司 一种鉴别等位基因类型的方法
CN101654691A (zh) * 2009-09-23 2010-02-24 深圳华大基因科技有限公司 Hla基因扩增和基因分型方法及其相关引物

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108624671A (zh) * 2017-03-20 2018-10-09 深圳华大基因股份有限公司 用于hla分型的基因型序列
CN108624671B (zh) * 2017-03-20 2022-02-01 深圳华大基因股份有限公司 用于hla分型的基因型序列

Also Published As

Publication number Publication date
CN101984445A (zh) 2011-03-09
WO2011106994A1 (zh) 2011-09-09

Similar Documents

Publication Publication Date Title
CN101984445B (zh) 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
Dissanayake et al. Applied aspects of methods to infer phylogenetic relationships amongst fungi
Herrero et al. Ensembl comparative genomics resources
JP3055942B2 (ja) オリゴプローブ設計ステーション:コンピューターによるオリゴヌクレオチドプローブおよびプライマーの設計方法
EP2718862B1 (en) Method for assembly of nucleic acid sequence data
Robbertse et al. Improving taxonomic accuracy for fungi in public sequence databases: applying ‘one name one species’ in well-defined genera with Trichoderma/Hypocrea as a test case
Bernardes et al. Improvement in protein domain identification is reached by breaking consensus, with the agreement of many profiles and domain co-occurrence
Bates et al. Meeting report: fungal ITS workshop (October 2012)
Taylor et al. A bioinformatics pipeline for sequence-based analyses of fungal biodiversity
Kretzer et al. Taxonomy of the Rhizopogon vinicolor species complex based on analysis of ITS sequences and microsatellite loci
CN106446254A (zh) 文件检测方法和装置
Jorna et al. Species boundaries in the messy middle—A genome‐scale validation of species delimitation in a recently diverged lineage of coastal fog desert lichen fungi
JP5469882B2 (ja) 生物種同定方法及びシステム
Dowie et al. Increased phylogenetic resolution within the ecologically important Rhizopogon subgenus Amylopogon using 10 anonymous nuclear loci
Li et al. Three new species of Calocybe (Agaricales, Basidiomycota) from northeastern China are supported by morphological and molecular data
CN109326322B (zh) 一种作物不同分离群体间qtl比较的方法及系统
Schull et al. Champagne: whole-genome phylogenomic character matrix method places Myomorpha basal in Rodentia
Bootsma et al. A GT-seq panel for walleye (Sander vitreus) provides a generalized workflow for efficient development and implementation of amplicon panels in non-model organisms
US20110301862A1 (en) System for array-based DNA copy number and loss of heterozygosity analyses and reporting
Turudić et al. Dig-up Primers: A Pipeline for Identification of Polymorphic Microsatellites Loci within Assemblies of Related Species
Riley et al. Fungal phylogenomics
CN113409885B (zh) 一种自动化数据处理以及作图方法及系统
Herrero et al. Database: The journal of biological databases and Curation
Lasham An environmental DNA analysis of genus Cortinarius species diversity in Te Wai Pounamu/The South Island of Aotearoa New Zealand
Boria et al. NGS-Trex: an automatic analysis workflow for RNA-Seq data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for implementing typing based on polymerase chain reaction sequencing

Effective date of registration: 20130426

Granted publication date: 20120314

Pledgee: Export Import Bank of China

Pledgor: BGI-Shenzhen Co., Ltd.

Registration number: 2013990000247

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
ASS Succession or assignment of patent right

Owner name: SHENZHEN BEIJING GENOMICS INSTITUTE HEALTH TECHNOL

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130923

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130923

Address after: Yantian District of Shenzhen City, Guangdong province 518083 North Road No. 146 North Industrial Zone 11, floor 3, 2

Patentee after: Shenzhen Huada Gene Health Technology Co., Ltd.

Address before: Beishan Industrial Zone Building in Yantian District of Shenzhen city of Guangdong Province in 518083

Patentee before: BGI-Shenzhen Co., Ltd.

CI01 Publication of corrected invention patent application

Correction item: Patentee

Correct: BGI-Shenzhen Co., Ltd.

False: Shenzhen Huada Gene Health Technology Co., Ltd.

Number: 42

Volume: 29

ERR Gazette correction

Free format text: CORRECT: PATENTEE; FROM: SHENZHEN BEIJING GENOMICS INSTITUTE HEALTH TECHNOLOGY CO., LTD. TO: BGI-SHENZHEN CO., LTD.

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20171206

Granted publication date: 20120314

Pledgee: Export Import Bank of China

Pledgor: BGI-Shenzhen Co., Ltd.

Registration number: 2013990000247

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for implementing typing based on polymerase chain reaction sequencing

Effective date of registration: 20171213

Granted publication date: 20120314

Pledgee: Shenzhen branch of China Import and Export Bank|Agricultural Bank of China Limited by Share Ltd Shenzhen Eastern Branch|Bank of China Limited by Share Ltd Shenzhen East Branch|China Co truction Bank Corp Shenzhen branch

Pledgor: BGI-Shenzhen Co., Ltd.

Registration number: 2017440020067

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20190626

Granted publication date: 20120314

Pledgee: Shenzhen branch of China Import and Export Bank|Agricultural Bank of China Limited by Share Ltd Shenzhen Eastern Branch|Bank of China Limited by Share Ltd Shenzhen East Branch|China Co truction Bank Corp Shenzhen branch

Pledgor: BGI-Shenzhen Co., Ltd.

Registration number: 2017440020067

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and system based on PCR products sequencing sequence typing

Effective date of registration: 20200924

Granted publication date: 20120314

Pledgee: Qingdao West Coast Development (Group) Co., Ltd|Qingdao HAIC Group Financial Holding Co., Ltd

Pledgor: BGI SHENZHEN Co.,Ltd.

Registration number: Y2020440020012