CN113409890B - 一种基于二代测序数据的hla分型方法 - Google Patents
一种基于二代测序数据的hla分型方法 Download PDFInfo
- Publication number
- CN113409890B CN113409890B CN202110559161.4A CN202110559161A CN113409890B CN 113409890 B CN113409890 B CN 113409890B CN 202110559161 A CN202110559161 A CN 202110559161A CN 113409890 B CN113409890 B CN 113409890B
- Authority
- CN
- China
- Prior art keywords
- hla
- sequence
- database
- base
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000007481 next generation sequencing Methods 0.000 title claims abstract description 11
- 238000012163 sequencing technique Methods 0.000 claims abstract description 52
- 238000001914 filtration Methods 0.000 claims abstract description 6
- 102000054766 genetic haplotypes Human genes 0.000 claims abstract description 5
- 238000003908 quality control method Methods 0.000 claims abstract description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims description 8
- 230000037431 insertion Effects 0.000 claims description 8
- 230000035772 mutation Effects 0.000 claims description 8
- 238000002864 sequence alignment Methods 0.000 claims description 8
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002887 multiple sequence alignment Methods 0.000 description 2
- 101100284398 Bos taurus BoLA-DQB gene Proteins 0.000 description 1
- 101001100327 Homo sapiens RNA-binding protein 45 Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 102100038823 RNA-binding protein 45 Human genes 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002998 immunogenetic effect Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于二代测序数据的HLA分型方法,本方法首先构建HLA参考序列数据库,然后进行二代测序数据分析。二代测序数据分析包括原始HLA数据质控与过滤、HLA参考序列进行序列比对、统计比对结果、重构HLA参考序列、进行二次比对和统计比对结果。二代测序数据分析后利用聚类算法与HLA序列特征判断序列杂合位置;根据杂合位置进行局部重比对,分离出单倍型序列;根据单倍型序列遍历HLA数据库,匹配出最佳HLA型别。本发明的分型方法可准确获得HLA型别结果,整体准确率在99%以上,大大提高了HLA二代测序数据的分析效率。
Description
技术领域
本发明涉及一种基于二代测序数据的HLA分型方法,应用于HLA二代测序数据分型。
背景技术
基于二代测序数据的HLA分型由于其通量高、分型速度快等特点,日后必将逐渐替代一代测序成为HLA分型的主流测序手段。研发人员开发了多种基于二代测序技术的分型方法,比如:中国发明专利CN103221551A公开了HLA基因型别-SNP连锁数据库、其构建方法、以及HLA分型方法,是一种根据不同型别的SNP连锁关系来进行HLA分型的方法。中国发明专利申请CN109477143A公开了一种人类白细胞抗原分型方法,是一种使用已知HLA等位基因参考序列的多重序列比对(MSA)来确定一个或多个额外的HLA 等位基因参考序列的方法,最终选择出与所述个体匹配所接近的参考序列,从而完成HLA分型。
虽然现有技术存在多种基于二代测序数据的HLA分型方法,但仍存在以下几方面的问题:1.很多方案中不支持高分辨率的HLA分型。2.HLA基因多态性较高,重复序列多,比对难度大,出现错误比对的情况较多,难以保证分型结果的准确性。3、采用设定阈值方法判断是否为杂合碱基,方法不够灵活,在复杂情况下容易出错。
发明内容
针对上述现有技术,为了解决基于二代测序技术的HLA分型准确性的问题,本发明提供了一种基于二代测序数据的HLA分型方法。
为了解决所述技术问题,本发明采样的技术方案是:一种基于二代测序数据的HLA分型方法,包括以下步骤:
S01)、构建HLA参考基因序列数据库,具体为:
S11)、下载HLA型别数据库,将所有HLA型别对应的序列进行处理,标准化为长度一致的序列;
S12)、生成每一个型别序列的坐标映射向量,坐标映射向量是一条序列的每个碱基在数据库中的标准坐标位置的映射数值向量;
S13)、构建HLA参考基因序列数据库,在数据库中添加型别序列,每次增加一条型别序列,并确保该型别序列与数据库中的其他序列的差异值均大于预设阈值T1;
S02)、进行HLA二代测序数据的分析,具体为:
S21)、对原始HLA二代测序数据进行质控与过滤,去除低质量数据,所述低质量数据是指测序质量不合格和长度小于最低长度的reads;
S22)、进行序列比对,将经过步骤S21的原始HLA二代测序数据比对至构建好的HLA参考基因序列数据库,得到初次比对结果;
S23)、进行二次比对,将初次比对后的结果进行统计,计算出数据库中每个型别序列的最佳匹配次数,按照从高到低排序,将匹配次数排在前N个的型别序列重新组建成新的HLA参考基因序列数据库,缩小比对范围,重新进行二次比对;
S24)、统计参考基因序列每一个坐标上的比对结果信息;
S03)、通过聚类算法判断杂合碱基位置,对基因上同一个外显子或内含子区域的比对结果进行聚类算法分类,分离出杂合碱基位置与纯合碱基位置,纯合碱基位置为某一坐标位置处的序列比对结果为单一碱基,杂合碱基位置为某一坐标位置处的序列比对结果为两个碱基同时出现;
S04)、获取单倍体序列,提取所有至少覆盖两个杂合碱基位置的原始read序列,进行局部序列重比对,获取单倍体序列结果;
S05)、进行序列分型,将获取的单倍体序列比对至HLA型别数据库中,获取正确的分型结果。
进一步的,通过聚类算法判断杂合碱基位置的过程为:
S31)、计算出每个位置的碱基频率,由高到低进行排序,将反映杂合情况的第二高的频率值作为聚类算法的选取对象,随机选取2个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;
S32)、聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心根据聚类中现有的对象被重新计算;
S33)、重复步骤S32,直到没有对象被重新分配给不同的聚类;
S34)、最终确定的两个聚类中心的频率值如果相差小于阈值T2,则判断整个区域均为纯合碱基,如果两个聚类中心的频率值相差大于或者等于阈值T2,则该测序区域包含杂合碱基,分配给频率值高的聚类中心的位置判定为杂合碱基位置,分配给频率值低的聚类中心的位置判定为纯合碱基位置。
进一步的,步骤S22中,采用bowtie2算法进行序列比对, Bowtie2使用FM索引对基因组进行索引,将测序reads与HLA参考基因序列数据库中的长参考序列进行比对,经过序列比对之后的文件包括比对到参考基因组上的位置以及比对的插入缺失信息。
进一步的,获取单倍体序列的过程为:对相邻且距离较近的杂合位置进行reads重新比对,统计在同一条read上的突变组合个数,个数多的组合判定两个突变位于同一条染色体上,进而最终确定单倍型序列。
进一步的,步骤S11中,登录IMGT官网,下载最新HLA型别数据库。
进一步的,步骤S11中,对不同型别序列中的插入和缺失数据在正确位置用符号表示。
本发明的有益效果:本发明的HLA二代测序数据分型方法,可对复杂的HLA区域进行准确的高分辨率分型,且通过软件的形式,支持界面操作,能在普通的计算机上运行复杂的二代测序数据分析,降低了对计算资源的消耗,并且解决了基于二代测序技术的HLA分型准确率不高的难题,具有分型准确率高、易用性强的特点。本发明的HLA二代测序数据分型方法,已在申请人所在公司HLA部门投入使用,在数据质控较好的情况下可实现较高的HLA分型准确率,整体分型准确率在99%以上,大大提高了HLA数据分析人员的工作效率,解决了以往数据分析难、依赖国外收费分析工具的难题。
附图说明
图1为实施例1所述方法的流程图;
图2为IMGT/HLA数据库收录的序列信息示意图;
图3为原始HLA二代测序数据的示意图;
图4为原始HLA二代测序数据过滤示意图;
图5为经过序列比对之后的示意图;
图6为统计序列比对结果的示意图;
图7为纯合碱基与杂合碱基位置的示意图;
图8为局部重比对的原理示意图。
具体实施方式
下面结合实施例对本发明作进一步的说明。然而,本发明的范围并不限于下述实施例。本领域的专业人员能够理解,在不背离本发明的精神和范围的前提下,可以对本发明进行各种变化和修饰。
实施例1
本实施例公开一种基于二代测序数据的HLA分型方法,如图1所示,包括以下步骤:
S01)、构建HLA参考基因序列数据库,包括以下具体步骤:
S11)、登录IMGT官网(http://www.imgt.org/),下载最新HLA型别数据库,将所有HLA型别对应的序列进行处理,对不同型别序列中的插入和缺失数据在正确位置用符号表示,标准化为长度一致的序列;
其中HLA型别数据库来自于IMGT(the international ImMunoGeneTicsinformation system)/HLA数据库,该数据库收录了HLA不同Allel 的序列信息,数据信息如图2所示。
S12)、基于HLA型别数据库的序列坐标标记方法,生成每一个型别序列的坐标映射向量;
其中的坐标映射向量是一条序列的每个碱基在数据库中的标准坐标位置的映射数值向量,由于不同型别之间的序列差异性很大,所以记录每个型别的坐标映射向量可以更准确地判断发生在HLA基因上的碱基插入与缺失。
S13)、构建HLA参考基因序列数据库,在数据库中添加型别序列,每次增加一条型别序列,并确保该型别序列与数据库中的其他序列的差异值均大于阈值T1。
本方法所构建的HLA参考基因序列数据库能够准备的表达发生在HLA基因上的碱基插入与缺失,并且添加的型别序列差异值均大于阈值T1,即添加的型别序列之间差异不会很大,方便后续的分析。
S02)、进行HLA二代测序数据的分析;
S21)、对一批原始下机数据(原始HLA二代测序数据)进行质控与过滤,去除低质量数据;
原始下机数据为FastQ格式的文件,其内容如图3所示,FastQ格式的序列一般都包含有四行,第一行由'@'开始,后面跟着序列的描述信息,第二行是序列。第三行由'+'开始,后面也可以跟着序列的描述信息。第四行是第二行序列的质量评价。
所述低质量数据是指测序质量不合格和长度小于最低长度的reads。通过设置阈值去除测序质量值不合格的reads,去除长度小于最低长度的reads,数据过滤的情况如图4所示。
S22)、进行序列比对,将经过步骤S21的数据比对至步骤S01构建好的HLA参考基因序列数据库。
所述序列比对采用bowtie2算法,Bowtie2 是将测序reads与长参考序列比对的工具。适用于将长度大约为50到100或1000字符的reads与相对较长的基因组进行比对。Bowtie2使用FM索引(基于Burrows-Wheeler Transform 或 BWT)对基因组进行索引,以此来保持其占用较小内存。经过序列比对之后的文件如图5所示,其中包含比对到参考基因组上的位置,以及比对的插入缺失信息等。
S23)、进行二次比对,将初次比对后的结果进行统计,计算出数据库中每个型别的最佳匹配次数,按照从高到低排序,将匹配上次数较多的前N个型别重新组建成新的HLA参考基因序列数据库,缩小比对范围,重新进行二次比对。
S24)、统计参考基因序列每一个坐标上的比对结果信息,统计信息如图6所示。
S03)、采用聚类算法判断杂合碱基位置,对基因上同一个外显子或内含子区域的比对结果信息进行聚类算法分类,分离出杂合碱基位置与纯合碱基位置,分离结果如图7所示。
本步骤中,通过聚类算法判断杂合碱基位置的过程为:
S31)、计算出每个位置的碱基频率,由高到低进行排序,将反映杂合情况的第二高的频率值作为聚类算法的选取对象,随机选取2个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;
S32)、聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心根据聚类中现有的对象被重新计算;
S33)、重复步骤S32,直到没有对象被重新分配给不同的聚类;
S34)、最终确定的两个聚类中心的频率值如果相差小于阈值T2,则判断整个区域均为纯合碱基,如果两个聚类中心的频率值相差大于或者等于阈值T2,则该测序区域包含杂合碱基,分配给频率值高的聚类中心的位置判定为杂合碱基位置,分配给频率值低的聚类中心的位置判定为纯合碱基位置。
所述纯合碱基位置为某一坐标位置处的序列比对结果为单一碱基,该碱基频率统计理论上为100%(实际上由于存在测序错误与比对误差等因素,频率会大概率在90%到100%之间波动)。杂合碱基位置为某一坐标位置处的序列比对结果为两个碱基同时出现,每个碱基频率统计理论上为50%(实际上由于存在测序错误与比对误差,以及两条DNA序列测序产生的不平衡等因素,两个碱基的统计频率会大概率在10%到90%之间波动)。
S04)、采用单倍体序列获取算法,提取所有至少覆盖两个杂合碱基位置的原始read序列,进行局部序列重比对,获取单倍体序列结果,局部重比对原理如图8所示。
其中“单倍体序列获取算法”,对距离较近的杂合位置进行reads重新比对,统计在同一条read上的突变组合个数,个数多的组合可以判定两个突变位于同一条染色体上,进而最终确定单倍型序列。
本实施例采用二代测序数据,使用的是双端测序,即对一个Insert片段从两端分别进行测序,进而生成一对测序reads序列,如果两个杂合位置能在一对测序reads的范围之内,就可以统计突变组合的支持reads数,这种就算距离较近。
S05)、进行序列分型,将获取的单倍体序列比对至HLA型别数据库中,获取正确的分型结果。
为了验证该系统的分型能力,对一批HLA二代测序下机数据进行统计,所有数据均通过一代测序确定准确分型结果。本发明的HLA二代测序数据分型方法对一共2310个位点进行了HLA分型,最终,本发明的HLA二代测序数据分型方法准确分型了2297个位点,准确率达到99.4%,存在13个位点因数据质量差未能分型,没有分型错误的位点,错误率为0%。采用市场上认可度较高的GenDX NGSengine商业分析软件对该批数据进行分析,分型错误位点为32个,错误率1.4%,大部分错误产生在DRB1位点与DQB1位点,考虑错误原因主要为设置阈值分型的方法对多态性较高、较难进行序列比对的区域分型能力不足,本发明中的分析方法可以更好的解决这种问题,因此准确率更高。
本发明构建HLA参考基因数据库、设计适用于HLA序列特点的数据分析流程、设计用于分离出杂合碱基位置和纯合碱基位置的聚类算法,以及设计单倍体序列获取算法。可以很好的解决基于二代测序技术的HLA分型准确性的问题。
给本领域技术人员提供上述实施例,以完全公开和描述如何实施和使用所主张的实施方案,而不是用于限制本文公开的范围。对于本领域技术人员而言显而易见的修饰将在所附权利要求的范围内。
Claims (6)
1.一种基于二代测序数据的HLA分型方法,其特征在于:包括以下步骤:
S01)、构建HLA参考基因序列数据库,具体为:
S11)、下载HLA型别数据库,将所有HLA型别对应的序列进行处理,标准化为长度一致的序列;
S12)、生成每一个型别序列的坐标映射向量,坐标映射向量是一条序列的每个碱基在数据库中的标准坐标位置的映射数值向量;
S13)、构建HLA参考基因序列数据库,在数据库中添加型别序列,每次增加一条型别序列,并确保该型别序列与数据库中的其他序列的差异值均大于预设阈值T1;
S02)、进行HLA二代测序数据的分析,具体为:
S21)、对原始HLA二代测序数据进行质控与过滤,去除低质量数据,所述低质量数据是指测序质量不合格和长度小于最低长度的reads;
S22)、进行序列比对,将经过步骤S21的原始HLA二代测序数据比对至构建好的HLA参考基因序列数据库,得到初次比对结果;
S23)、进行二次比对,将初次比对后的结果进行统计,计算出数据库中每个型别序列的最佳匹配次数,按照从高到低排序,将匹配次数排在前N的型别序列重新组建成新的HLA参考基因序列数据库,缩小比对范围,重新进行二次比对;
S24)、统计参考基因序列每一个坐标上的比对结果信息;
S03)、通过聚类算法判断杂合碱基位置,对基因上同一个外显子或内含子区域的比对结果进行聚类算法分类,分离出杂合碱基位置与纯合碱基位置,纯合碱基位置是指某一坐标位置处的序列比对结果为单一碱基,杂合碱基位置是指某一坐标位置处的序列比对结果为两个碱基同时出现;
S04)、获取单倍体序列,提取所有至少覆盖两个杂合碱基位置的原始reads序列,进行局部序列重比对,获取单倍体序列结果;
S05)、进行序列分型,将获取的单倍体序列比对至HLA型别数据库中,获取正确的分型结果。
2.根据权利要求1所述的基于二代测序数据的HLA分型方法,其特征在于:通过聚类算法判断杂合碱基位置的过程为:
S31)、计算出每个位置的碱基频率,由高到低进行排序,将反映杂合情况的第二高的频率值作为聚类算法的选取对象,随机选取2个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;
S32)、聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心根据聚类中现有的对象被重新计算;
S33)、重复步骤S32,直到没有对象被重新分配给不同的聚类;
S34)、最终确定的两个聚类中心的频率值如果相差小于阈值T2,则判断整个区域均为纯合碱基,如果两个聚类中心的频率值相差大于或者等于阈值T2,则该测序区域包含杂合碱基,分配给频率值高的聚类中心的位置判定为杂合碱基位置,分配给频率值低的聚类中心的位置判定为纯合碱基位置。
3.根据权利要求1所述的基于二代测序数据的HLA分型方法,其特征在于:步骤S22中,采用bowtie2算法进行序列比对, Bowtie2使用FM索引对基因组进行索引,将测序reads与HLA参考基因序列数据库中的长参考序列进行比对,经过序列比对之后的文件包括比对到参考基因组上的位置以及比对的插入缺失信息。
4.根据权利要求1所述的基于二代测序数据的HLA分型方法,其特征在于:获取单倍体序列的过程为:对参考序列位置上距离较近的两个杂合位置进行reads重新比对,距离较近的两个杂合位置指两个杂合位置在一对测序reads的范围之内,统计在同一条read上的突变组合个数,个数多于其他组合一倍以上的组合判定两个突变位于同一条染色体上,进而最终确定单倍型序列。
5.根据权利要求1所述的基于二代测序数据的HLA分型方法,其特征在于:步骤S11中,登录IMGT官网,下载最新HLA型别数据库。
6.根据权利要求1所述的基于二代测序数据的HLA分型方法,其特征在于:步骤S11中,对不同型别序列中的插入和缺失数据在正确位置用符号表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110559161.4A CN113409890B (zh) | 2021-05-21 | 2021-05-21 | 一种基于二代测序数据的hla分型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110559161.4A CN113409890B (zh) | 2021-05-21 | 2021-05-21 | 一种基于二代测序数据的hla分型方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113409890A CN113409890A (zh) | 2021-09-17 |
CN113409890B true CN113409890B (zh) | 2022-04-12 |
Family
ID=77679156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110559161.4A Active CN113409890B (zh) | 2021-05-21 | 2021-05-21 | 一种基于二代测序数据的hla分型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113409890B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631789B (zh) * | 2022-10-25 | 2023-08-15 | 哈尔滨工业大学 | 一种基于泛基因组的群体联合变异检测方法 |
CN117746980A (zh) * | 2023-12-18 | 2024-03-22 | 广州凯普医学检验所有限公司 | 一种流感病毒自动化快速分型方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634991A (zh) * | 2020-12-18 | 2021-04-09 | 长沙都正生物科技股份有限公司 | 基因分型方法、装置、电子设备及存储介质 |
CN112669903A (zh) * | 2020-12-29 | 2021-04-16 | 北京旌准医疗科技有限公司 | 基于Sanger测序的HLA分型方法及设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5168053A (en) * | 1989-03-24 | 1992-12-01 | Yale University | Cleavage of targeted RNA by RNAase P |
GB2395556A (en) * | 2002-11-22 | 2004-05-26 | Dynal Biotech Ltd | Nucleic acid probe |
WO2013177581A2 (en) * | 2012-05-24 | 2013-11-28 | University Of Washington Through Its Center For Commercialization | Whole genome sequencing of a human fetus |
CN108460246B (zh) * | 2018-03-08 | 2022-02-22 | 北京希望组生物科技有限公司 | 一种基于三代测序平台的hla基因分型方法 |
CN110021351B (zh) * | 2018-07-19 | 2023-04-28 | 深圳华大生命科学研究院 | 分析碱基连锁强度以及基因分型方法和系统 |
-
2021
- 2021-05-21 CN CN202110559161.4A patent/CN113409890B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634991A (zh) * | 2020-12-18 | 2021-04-09 | 长沙都正生物科技股份有限公司 | 基因分型方法、装置、电子设备及存储介质 |
CN112669903A (zh) * | 2020-12-29 | 2021-04-16 | 北京旌准医疗科技有限公司 | 基于Sanger测序的HLA分型方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113409890A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113409890B (zh) | 一种基于二代测序数据的hla分型方法 | |
CN111292802B (zh) | 用于检测突变的方法、电子设备和计算机存储介质 | |
US8271206B2 (en) | DNA sequence assembly methods of short reads | |
CN111081315B (zh) | 一种同源假基因变异检测的方法 | |
CN115631789B (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
CN108595912B (zh) | 检测染色体非整倍性的方法、装置及系统 | |
CN112489727B (zh) | 一种快速获取罕见病致病位点的方法和系统 | |
CN113782101A (zh) | 高杂合二倍体序列组装结果去冗余的方法、装置及其应用 | |
CN108694304B (zh) | 一种身份关系鉴定方法、装置、设备及存储介质 | |
CN112397148A (zh) | 序列比对方法、序列校正方法及其装置 | |
Roy et al. | NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms | |
CN114300045A (zh) | 基于对照组的半监督snp分型方法、装置和电子设备 | |
CN114974415A (zh) | 一种检测染色体拷贝数异常的方法和装置 | |
CN110570908B (zh) | 测序序列多态识别方法及装置、存储介质、电子设备 | |
CN114530200A (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
CN114613434A (zh) | 基于群体样本深度信息检测基因拷贝数变异的方法及系统 | |
KR101911307B1 (ko) | 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술 | |
CN117711487B (zh) | 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质 | |
CN117637020B (zh) | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 | |
CN113793641B (zh) | 一种从fastq文件中快速判断样本性别的方法 | |
CN114703263B (zh) | 一种群组染色体拷贝数变异检测方法及装置 | |
CN113380324B (zh) | 一种T细胞受体序列motif组合识别检测方法、存储介质及设备 | |
CN113549701B (zh) | 一种山羊亲子鉴定snp分子标记及其应用 | |
CN117746989B (zh) | 变异描述信息的处理方法、装置及电子设备 | |
CN114203257B (zh) | 基于snp标记获取回交群体背景回复率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A HLA typing method based on second-generation sequencing data Granted publication date: 20220412 Pledgee: China Construction Bank Corporation Jinan Branch Pledgor: YINFENG GENE TECHNOLOGY Co.,Ltd. Registration number: Y2024980025943 |