CN111312332B - 基于hla基因的生物信息处理方法、装置及终端 - Google Patents

基于hla基因的生物信息处理方法、装置及终端 Download PDF

Info

Publication number
CN111312332B
CN111312332B CN202010091775.XA CN202010091775A CN111312332B CN 111312332 B CN111312332 B CN 111312332B CN 202010091775 A CN202010091775 A CN 202010091775A CN 111312332 B CN111312332 B CN 111312332B
Authority
CN
China
Prior art keywords
alleles
allele
determining
dna information
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010091775.XA
Other languages
English (en)
Other versions
CN111312332A (zh
Inventor
马旭
蔡瑞琨
曹宗富
高华方
喻浴飞
陈翠霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Science And Technology National Health Commission
Original Assignee
Institute Of Science And Technology National Health Commission
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Science And Technology National Health Commission filed Critical Institute Of Science And Technology National Health Commission
Priority to CN202010091775.XA priority Critical patent/CN111312332B/zh
Publication of CN111312332A publication Critical patent/CN111312332A/zh
Application granted granted Critical
Publication of CN111312332B publication Critical patent/CN111312332B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请公开了一种基于HLA基因的生物信息处理方法、装置、电路及终端。其中,方法包括:基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段;将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值;依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因;确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对;对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对。本申请实施例通过确定候选等位基因的方式,提高了后续对基因片段的真实性进行分析的精度性。

Description

基于HLA基因的生物信息处理方法、装置及终端
技术领域
本申请涉及基因识别技术领域,具体涉及一种基于HLA基因的生物信息处理方法、装置及终端。
背景技术
准确的高分辨率HLA分型技术不仅在移植配型等领域有广阔的应用前景,而且在研究某些疾病的致病机理方面,如自身免疫性疾病、感染类疾病、癌症的易感性和母婴健康中也十分重要。在高通量测序技术被广泛应用的今天,传统的分型技术也由于其不足之处而被逐步替代。但是,由于人类的MHC基因具有多基因性、多态性和共显性的特点,对高通量测序数据中HLA区域的数据分析也存在着困难。
发明内容
为了解决上述技术问题,本申请提供一种基于HLA基因的生物信息处理方法、装置、电路及终端。
根据本申请的第一方面,提供了一种基于HLA基因的生物信息处理方法,该方法包括:
基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段;
将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值;
依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因;
确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对;
对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对。
根据本申请的第二方面,提供了一种基于HLA基因的生物信息处理装置,该装置包括:
基因片段确定模块,用于基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段;
匹配分值确定模块,用于将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值;
候选等位基因确定模块,用于依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因;
基因对确定模块,用于确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对;
基因识别处理模块,用于对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对。
根据本申请的第三方面,提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时以实现上述基于HLA基因的生物信息处理方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,该介质存储有计算机可执行指令,该计算机可执行指令用于以执行上述基于HLA基因的生物信息处理方法。
本申请实施例的有益效果:通过确定针对HLA区域的基因片段,以将基因片段与预存储的等位基因库进行匹配,确定基因片段与等位基因库中多个等位基因各自对应的匹配分值,从而依据基因片段与多个等位基因各自对应的匹配分值,从等位基因库的多个等位基因中确定多个候选等位基因,进而对基因片段和多个候选等位基因进行处理,确定与基因片段的各个位置的等位基因对,这种通过确定候选等位基因的方式,提高了后续对基因片段的真实性进行分析的精度性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为根据本申请实施例提供的一种基于HLA基因的生物信息处理方法的流程示意图;
图2为根据本申请实施例提供的一种基于HLA基因的生物信息处理方法中多个基因判断与等位基因库一个实施例的的流程示意图;
图3为根据本申请实施例提供的一种基于HLA基因的生物信息处理方法中多个基因判断与等位基因库另一个实施例的的流程示意图;
图4为根据本申请实施例提供的一种基于HLA基因的生物信息处理装置的框图结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
根据本申请的一个实施例,提供了一种基于HLA基因的生物信息处理方法,如图1所示,该方法包括:步骤S101至步骤S104。
其中,步骤S101:基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段。
具体地,DNA信息一般通过fastq.qz格式的文件进行获取。应用时,通过对fastq.qz格式的文件的解析,从而确定针对HLA区域的多个基因片段。具体应用时,待处理文件还可以是其他格式的文件。
具体地,基因片段一般通过reads表示。
步骤S102:将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值。
具体应用时,匹配分值用于表征基因片段与等位基因的相似或一致程度,例如,假设基因A的一个等位基因allele A*01:01:01,序列是ACGATGGCAAC,若基因片段Reads序列,有ACGA、ATGG、CAAC,那么可以确定匹配分值为3。
具体地,等位基因的表现形式一般为:HLA-A*01:01:01:01,通过该表现形式来确定其序列。
步骤S103:依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因。
步骤S104:确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对。
步骤S105:对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对。
本申请实施例,基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段,将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值,依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因,确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对,对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对,这种通过确定候选的第一等位基因的方式,提高了后续对基因片段的真实性进行分析的精度性。
在又一个实现方式中,如图1所示,步骤S101确定待处理的针对HLA区域的多个基因片段,包括:
步骤S1011(图中未示出):依据预配置的文件格式,获取待处理文件;
步骤S1012(图中未示出):基于针对HLA区域的基因范围,DNA信息的多个基因片段。
本申请实施例中,预配置的文件格式一般为fastq(命令参数-q)或bam(命令参数-b),通过预配置的文件格式来获取相应格式的待处理文件。
在又一个实现方式中,如图1所示,步骤S102将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值,包括:
步骤S1021(图中未示出)、若DNA信息中针对HLA区域的任一基因片段匹配到任一等位基因的外显子区域内,则依据DNA信息中针对HLA区域的该任一基因片段与该任一等位基因的外显子区域的碱基匹配结果,确定第一匹配值;
步骤S1022(图中未示出)、若DNA信息中针对HLA区域的任一基因片段跨越该任一等位基因的外显子-内含子拼接处,则依据DNA信息中针对HLA区域的该任一基因片段与该任一等位基因的跨越该任一等位基因的外显子-内含子拼接处的碱基匹配结果,确定第二匹配值;
步骤S1023(图中未示出)、若DNA信息中针对HLA区域的任一基因片段未匹配到任一等位基因的外显子区域内以及未跨越外显子-内含子拼接处,则依据预配置参数确定第三匹配值;
步骤S1024(图中未示出)、将第一匹配值、第二匹配值和第三匹配值之和,作为DNA信息与该任一等位基因的匹配分值。
本申请实施例中通过碱基的匹配,实现了确定基因片段与等位基因库中任一等位基因的匹配分值的目的。
本申请实施例中,匹配分值用于表征DNA信息中多个基因片段与等位基因的匹配情况。具体地,匹配分值一般采用权值进行表示。例如,若碱基匹配度(即匹配成功的碱基的数量与基因片段的碱基总数的比值进行)为98%-100%时,对应的匹配值为P1;再如,碱基匹配度为97%-100%,对应的匹配值为P2。
例如外显子区域为:[0,100]、[220,340]、[450,600],则相应的内含子的区域就是[101,219]、[341,449],如果基因片段匹配的位置是30-90的位置,则在[0,100]这个外显子内,如果匹配的位置是90-150,则跨越了外显子-内含子拼接处。具体应用时,等位基因上一般通过预定的区域标签来进行划分,从而确定基因片段匹配到等位基因的区域。例如外显子区域的标签为T1([a1,b1]),外显子-内含子拼接处的标签为T2([a2,b2]),若基因片段中部分碱基与标签为T1的区域的碱基一致,则确定匹配到该任一等位基因的外显子区域内。
具体地,即可以将预配置参数设置为0,即在基因片段未匹配到该任一等位基因的外显子区域内以及未跨越外显子-内含子拼接处的条件下,将该默认数值确定为匹配值。
例如,若某一基因片段reads匹配到外显子区域内,且匹配度100%的,赋予分值S1(例如S1=1);某一reads匹配跨越外显子-内含子拼接处,且匹配度100%的,赋予分值S2(例如S2=1);其他reads赋予分值S3(例如S3=0)。通过计算每条allele的总分值,来确定匹配到此等位基因allele上的所有reads分值之和(S1+S2+S3)。根据每条allele的总分值排序,选取分值最大的前M%的alleles记为候选的first alleles。
在又一个实现方式中,步骤S103依据DNA信息分别与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因,包括:
依据DNA信息分别与多个等位基因各自对应的匹配分值,进行降序排序,并将排序前预定数量的等位基因作为候选的第一等位基因。
本申请实施例通过降序排序处理选定了排序靠前的N(即预定数量)个等位基因作为候选基因,保证了选定的候选等位基因与基因片段的相似度,保证了后续分析的精确度。
在又一个实现方式中,步骤S104确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对,包括:
基于任一第一等位基因与多个基因片段的匹配分值,确定与该任一所述第一等位基因互补的多个第二候选等位基因;
确定多个第二候选等位基因各自匹配至多个基因片段的匹配数量;
依据多个第二候选等位基因各自匹配至多个基因片段的匹配数量,确定该任一第一等位基因对应的至少一个目标第二等位基因;
将该任一第一等位基因与至少一个目标第二等位基因进行配对处理,得到针对该任一第一等位基因的等位基因对,直至得到多个第一等位基因各自对应的等位基因对。
具体应用时,一般将与DNA信息匹配的基因片段的数量最多的候选第二等位基因,作为目标第二等位基因。更具体地,在多个候选第二等位基因与DNA信息匹配的基因片段(即基因片段1至基因片段10)匹配的基因片段的数量均相同时,可以均作为目标第二等位基因。
例如,假设执行步骤S102,得到如图2所示的匹配分值结果。通过图2的匹配分值可知,等位基因H的匹配分值最高,即匹配分值之和为6,因此,第一等位基因为H,由于等位基因H与基因片段1、4、8、9并不匹配,因此要找的第二等位基因需要与尽可能多的与第一等位基因匹配的基因片段(1、4、8、9)匹配,即与第一等位基因互补的第二等位基因为等位基因B和等位基因I。由于等位基因B满足与基因片段(1、4、8、9)匹配,且与DNA信息中针对HLA区域的多个基因片段(即基因片段1至基因片段10)匹配的基因片段的数量(即匹配分值为1的基因片段的数量)为5;同样,等位基因I满足与基因片段(1、4、8、9)匹配,且与DNA信息中针对HLA区域的多个基因片段(即基因片段1至基因片段10)匹配的基因片段的数量(即匹配分值为1的基因片段的数量)也为5。因此,针对第一等位基因H的基因对为H-B和H-I。
再如,假设执行步骤S102,得到如图3所示的匹配分值结果。根据匹配分值结果可知,等位基因H的匹配分值最大(即为0),也就是说等位基因H有9个基因片段与待分型处理的DNA信息匹配。等位基因H第9个基因片段未匹配成功,而图3中其它等位基因的第9个基因片段也未匹配成功,即而图3中并不存在其它等位基因H的基因片段与等位基因片段H互补,也就是说,等位基因H不存在互补的等位基因,等位基因H覆盖DNA信息中所有基因片段,也就是说,第一等位基因H对应的第二等位基因为等位基因H本身,这两个等位基因纯合(即均为等位基因H)。
在又一个实现方式中,如图1所示,步骤S105对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对,包括:
步骤S1051(图中未示出)、从多个第一等位基因中,选定一个作为参考等位基因;
步骤S1052(图中未示出)、将DNA信息中针对HLA区域的多个基因片段分别与参考等位基因进行比对;
步骤S1053(图中未示出)、依据比对结果,确定DNA信息中针对HLA区域的多个基因片段分别与参考等位基因的针对碱基位点的差异信息;
步骤S1054(图中未示出)、依据差异信息,确定多个等位基因对中针对DNA信息的目标等位基因对。
本申请实施例,通过将基因片段与各个候选等位基因的碱基的相似度进行匹配,实现了确定基因片段的各个位置所属的碱基的目的。
本申请实施例中,差异信息用于表征相互比较的两个等位基因在不同的基因片段的各个碱基位。例如差异信息为:99C T 0/1,即表示第99位的DNA信息是一半的碱基是C,一半的碱基是T,以便在多组基因对中,要选择出最终的基因对需要满足在第99位,第一等位基因的该位置处是C,第二等位基因的该位置处是T;或者若差异信息为:99C T 1/1,即表示第99位DNA信息是此处碱基都是T,因此最终选择出的基因对为:两个等位基因要在此处都是碱基T。
具体应用时,一般将基因片段和参考等位基因生成vcf格式的文件,通过对该文件的解析,来执行步骤S1051至步骤S1054,实现确定目标等位基因对的目的。
在又一个实现方式中,步骤S105基对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对,还包括:
若目标等位基因对对应的两个等位基因的各个位置的碱基相似度为100%,则确定目标等位基因对为纯合;
若目标等位基因对对应的两个等位基因的各个位置的碱基相似度为50%,则确定目标等位基因对为杂合。
具体应用时,例如,人体为二倍体,即一个位置有2个alleles(等位基因),一个来自父亲,一个来自母亲。若来自父亲的等位基因(allele)与来自母亲的等位基因(allele)恰好是相同,则是纯合子。
应用时,若是一对不一样的alleles,则理论上,应该有50%的reads是第一个等位基因上的,有50%的reads是第二个等位基因上的,也就是说,两个等位基因的reads互补起来是100%,即两个等位基因一共的reads覆盖度是100%。
实施例二
本申请实施例提供了一种基于HLA基因的生物信息处理装置,如图3所示,该装置30包括:基因片段确定模块301、基因匹配分值确定模块302、候选等位基因确定模块303、基因对确定模块304及基因识别处理模块305。
基因片段确定模块301,用于基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段;
匹配分值确定模块302,用于将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值;
候选等位基因确定模块303,用于依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因;
基因对确定模块304,用于确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对;
基因识别处理模块305,用于对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对。
本申请实施例,基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段,将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值,依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因,确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对,对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对,这种通过确定候选的第一等位基因的方式,提高了后续对基因片段的真实性进行分析的精度性。
进一步地,基因片段确定模块用于:
依据预配置的文件格式,获取待处理文件;
基于针对HLA区域的基因范围,对待处理文件进行定位,得到DNA信息的多个基因片段。
进一步地,匹配分值确定模块用于:
若DNA信息中针对HLA区域的任一基因片段匹配到任一等位基因的外显子区域内,则依据DNA信息中针对HLA区域的该任一基因片段与该任一等位基因的外显子区域的碱基匹配结果,确定第一匹配值;
若DNA信息中针对HLA区域的任一基因片段跨越该任一等位基因的外显子-内含子拼接处,则依据DNA信息中针对HLA区域的该任一基因片段与该任一等位基因的跨越该任一等位基因的外显子-内含子拼接处的碱基匹配结果,确定第二匹配值;
若DNA信息中针对HLA区域的任一基因片段未匹配到任一等位基因的外显子区域内以及未跨越外显子-内含子拼接处,则依据预配置参数确定第三匹配值;
将第一匹配值、第二匹配值和第三匹配值之和,作为DNA信息与该任一等位基因的匹配分值。
进一步地,候选等位基因确定模块用于:
依据DNA信息分别与多个等位基因各自对应的匹配分值,进行降序排序,并将排序前预定数量的等位基因作为候选的第一等位基因。
进一步地,基因对确定模块用于:
基于任一所述第一等位基因与多个所述基因片段的匹配分值,确定与该任一所述第一等位基因互补的多个第二候选等位基因;
确定多个第二候选等位基因各自匹配至多个所述基因片段的匹配数量;
依据多个第二候选等位基因各自匹配至多个所述基因片段的匹配数量,确定该任一所述第一等位基因对应的至少一个目标第二等位基因;
将该任一所述第一等位基因与所述至少一个目标第二等位基因进行配对处理,得到针对该任一所述第一等位基因的等位基因对,直至得到多个所述第一等位基因各自对应的等位基因对。
进一步地,基因识别处理模块用于:
从多个第一等位基因中,选定一个作为参考等位基因;
将DNA信息中针对HLA区域的多个基因片段分别与参考等位基因进行比对;
依据比对结果,确定DNA信息中针对HLA区域的多个基因片段分别与参考等位基因的针对碱基位点的差异信息;
依据差异信息,确定多个等位基因对中针对DNA信息的目标等位基因对。
进一步地,基因识别处理模块用于:
若目标等位基因对对应的两个等位基因的各个位置的碱基相似度为100%,则确定目标等位基因对为纯合;
若目标等位基因对对应的两个等位基因的各个位置的碱基相似度为50%,则确定目标等位基因对为杂合。
本实施例的基于HLA基因的生物信息处理装置可执行本申请实施例提供的基于HLA基因的生物信息处理方法,其实现原理相类似,此处不再赘述。
实施例三
本申请实施例提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时以实现上述基于HLA基因的生物信息处理方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括一通路,以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现图4所示实施例提供的基于HLA基因的生物信息处理装置的动作。
本申请实施例,基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段,将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值,依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因,确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对,对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对,这种通过确定候选的第一等位基因的方式,提高了后续对基因片段的真实性进行分析的精度性。
实施例四
本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,该计本申请实施例,基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段,将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值,依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因,确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对,对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对,这种通过确定候选的第一等位基因的方式,提高了后续对基因片段的真实性进行分析的精度性。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于HLA基因的生物信息处理方法,其特征在于,包括:
基于待分型处理的DNA信息,确定所述DNA信息中针对HLA区域的多个基因片段;
将多个所述基因片段分别与预存储的多个等位基因进行匹配,确定所述DNA信息与多个所述等位基因各自对应的匹配分值;
依据所述DNA信息与多个所述等位基因各自对应的匹配分值,从多个所述等位基因中,确定候选的多个第一等位基因;
确定与多个所述第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对;
对多个所述等位基因对进行处理分析,确定针对所述DNA信息的目标等位基因对。
2.根据权利要求1所述的方法,其特征在于,所述基于待分型处理的DNA信息,确定所述DNA信息中针对HLA区域的多个基因片段,包括:
依据预配置的文件格式,获取待处理文件;
基于针对HLA区域的基因范围,对所述待处理文件进行定位,得到所述DNA信息的多个基因片段。
3.根据权利要求1所述的方法,其特征在于,所述将多个所述基因片段分别与预存储的多个等位基因进行匹配,确定所述DNA信息与多个所述等位基因各自对应的匹配分值,包括:
若所述DNA信息中针对HLA区域的任一基因片段匹配到任一等位基因的外显子区域内,则依据所述DNA信息中针对HLA区域的该任一基因片段与该任一等位基因的外显子区域的碱基匹配结果,确定第一匹配值;
若所述DNA信息中针对HLA区域的任一基因片段跨越该任一等位基因的外显子-内含子拼接处,则依据所述DNA信息中针对HLA区域的该任一基因片段与该任一等位基因的跨越该任一等位基因的外显子-内含子拼接处的碱基匹配结果,确定第二匹配值;
若所述DNA信息中针对HLA区域的任一基因片段未匹配到任一等位基因的外显子区域内以及未跨越外显子-内含子拼接处,则依据预配置参数确定第三匹配值;
将所述第一匹配值、所述第二匹配值和所述第三匹配值之和,作为所述DNA信息与该任一等位基因的匹配分值。
4.根据权利要求1所述的方法,其特征在于,所述依据所述DNA信息与多个所述等位基因各自对应的匹配分值,从多个所述等位基因中,确定候选的多个第一等位基因,包括:
依据所述DNA信息分别与多个所述等位基因各自对应的匹配分值,进行降序排序,并将排序前预定数量的等位基因作为候选的第一等位基因。
5.据权利要求1所述的方法,其特征在于,所述确定与多个所述第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对,包括:
基于任一所述第一等位基因与多个所述基因片段的匹配分值,确定与该任一所述第一等位基因互补的多个第二候选等位基因;
确定多个第二候选等位基因各自匹配至多个所述基因片段的匹配数量;
依据多个第二候选等位基因各自匹配至多个所述基因片段的匹配数量,确定该任一所述第一等位基因对应的至少一个目标第二等位基因;
将该任一所述第一等位基因与所述至少一个目标第二等位基因进行配对处理,得到针对该任一所述第一等位基因的等位基因对,直至得到多个所述第一等位基因各自对应的等位基因对。
6.据权利要求1所述的方法,其特征在于,所述对多个所述等位基因对进行处理分析,确定针对所述DNA信息的目标等位基因对,包括:
从多个所述第一等位基因中,选定一个作为参考等位基因;
将所述DNA信息中针对HLA区域的多个基因片段分别与所述参考等位基因进行比对;
依据比对结果,确定所述DNA信息中针对HLA区域的多个基因片段分别与所述参考等位基因的针对碱基位点的差异信息;
依据所述差异信息,在多个所述等位基因对中确定针对所述DNA信息的目标等位基因对。
7.根据权利要求6所述的方法,其特征在于,所述对多个所述等位基因对进行处理分析,确定针对所述DNA信息的目标等位基因对,还包括:
若所述目标等位基因对对应的两个等位基因的各个位置的碱基相似度为100%,则确定所述目标等位基因对为纯合;
若所述目标等位基因对对应的两个等位基因的各个位置的碱基相似度为50%,则确定所述目标等位基因对为杂合。
8.一种基于HLA基因的生物信息处理装置,其特征在于,包括:
基因片段确定模块,用于基于待分型处理的DNA信息,确定DNA信息中针对HLA区域的多个基因片段;
匹配分值确定模块,用于将多个基因片段分别与预存储的多个等位基因进行匹配,确定DNA信息与多个等位基因各自对应的匹配分值;
候选等位基因确定模块,用于依据DNA信息与多个等位基因各自对应的匹配分值,从多个等位基因中,确定候选的多个第一等位基因;
基因对确定模块,用于确定与多个第一等位基因各自互补的第二等位基因,并进行配对以得到多个等位基因对;
基因识别处理模块,用于对多个等位基因对进行处理分析,确定针对DNA信息的目标等位基因对。
9.一种终端,包括:存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至7中任一项所述的方法。
CN202010091775.XA 2020-02-13 2020-02-13 基于hla基因的生物信息处理方法、装置及终端 Expired - Fee Related CN111312332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010091775.XA CN111312332B (zh) 2020-02-13 2020-02-13 基于hla基因的生物信息处理方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010091775.XA CN111312332B (zh) 2020-02-13 2020-02-13 基于hla基因的生物信息处理方法、装置及终端

Publications (2)

Publication Number Publication Date
CN111312332A CN111312332A (zh) 2020-06-19
CN111312332B true CN111312332B (zh) 2020-10-30

Family

ID=71161745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010091775.XA Expired - Fee Related CN111312332B (zh) 2020-02-13 2020-02-13 基于hla基因的生物信息处理方法、装置及终端

Country Status (1)

Country Link
CN (1) CN111312332B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102770558A (zh) * 2009-11-05 2012-11-07 香港中文大学 由母本生物样品进行胎儿基因组的分析
CN103003820A (zh) * 2010-05-20 2013-03-27 赛特龙股份公司 鉴定和选择至少一个用于移植的脐带血单元
CN103074444A (zh) * 2013-02-25 2013-05-01 苏州晶因生物科技有限公司 组织相容性抗原决定簇基因高通量测序的hla基因分型方法
CN104298892A (zh) * 2014-09-18 2015-01-21 天津诺禾致源生物信息科技有限公司 基因融合的检测装置和方法
CN104838269A (zh) * 2012-11-08 2015-08-12 Umc乌得勒支控股有限公司 用于预测对错配的人白细胞抗原的免疫应答的方法
WO2015169597A1 (en) * 2014-05-07 2015-11-12 Cytolon Ag Methods and systems for predicting alloreactivity in transplantation
CN105483244A (zh) * 2015-12-28 2016-04-13 武汉菲沙基因信息有限公司 一种基于超长基因组的变异检测算法及检测系统
CN106103736A (zh) * 2013-10-15 2016-11-09 瑞泽恩制药公司 高分辨率等位基因鉴定
WO2017077026A1 (en) * 2015-11-05 2017-05-11 Pirche Ag Method and data structure for determining predicted indirectly recognized hla-derived peptides
CN109477143A (zh) * 2016-05-27 2019-03-15 细胞结构公司 人类白细胞抗原分型方法
CN110033827A (zh) * 2019-01-18 2019-07-19 臻悦生物科技江苏有限公司 Hla基因分型的方法、装置、存储介质及处理器

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102770558A (zh) * 2009-11-05 2012-11-07 香港中文大学 由母本生物样品进行胎儿基因组的分析
CN103003820A (zh) * 2010-05-20 2013-03-27 赛特龙股份公司 鉴定和选择至少一个用于移植的脐带血单元
CN104838269A (zh) * 2012-11-08 2015-08-12 Umc乌得勒支控股有限公司 用于预测对错配的人白细胞抗原的免疫应答的方法
CN103074444A (zh) * 2013-02-25 2013-05-01 苏州晶因生物科技有限公司 组织相容性抗原决定簇基因高通量测序的hla基因分型方法
CN106103736A (zh) * 2013-10-15 2016-11-09 瑞泽恩制药公司 高分辨率等位基因鉴定
WO2015169597A1 (en) * 2014-05-07 2015-11-12 Cytolon Ag Methods and systems for predicting alloreactivity in transplantation
CN106796234A (zh) * 2014-05-07 2017-05-31 皮尔谢股份公司 用于预测移植中的同种异体反应性的方法和系统
CN104298892A (zh) * 2014-09-18 2015-01-21 天津诺禾致源生物信息科技有限公司 基因融合的检测装置和方法
WO2017077026A1 (en) * 2015-11-05 2017-05-11 Pirche Ag Method and data structure for determining predicted indirectly recognized hla-derived peptides
CN105483244A (zh) * 2015-12-28 2016-04-13 武汉菲沙基因信息有限公司 一种基于超长基因组的变异检测算法及检测系统
CN109477143A (zh) * 2016-05-27 2019-03-15 细胞结构公司 人类白细胞抗原分型方法
CN110033827A (zh) * 2019-01-18 2019-07-19 臻悦生物科技江苏有限公司 Hla基因分型的方法、装置、存储介质及处理器

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HapLogic: A Predictive Human Leukocyte Antigen–Matching Algorithm to Enhance Rapid Identification of the Optimal Unrelated Hematopoietic Stem Cell Sources for Transplantation;Jason Dehn等;《ELSEVIER》;20161231;第2038–2046页 *
Optimal HLA matching in hematopoietic cell transplantation;Effie W Petersdorf;《ELSEVIER》;20080808;第588-593页 *
The clinical significance of human leukocyte antigen(HLA) allele compatibility in patients receiving a marrow transplant from serologically HLA-A,HLA-B, and HLA-DR matched unrelated donors;Yasuo Morishima等;《blood》;20130520;第1189-1197页 *
五例样本HLA-C基因测序分型中等位基因丢失及其原因分析;曾健强等;《中华医学遗传学杂志》;20091031;第26卷(第5期);第562-566页 *
人类白细胞抗原新等位基因DRB11*15402的发现及确认;杜广有等;《中国组织工程研究与临床康复》;20080715;第12卷(第29期);第5683-5686页 *

Also Published As

Publication number Publication date
CN111312332A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
US11756652B2 (en) Systems and methods for analyzing sequence data
Pockrandt et al. GenMap: ultra-fast computation of genome mappability
Liu et al. Long read alignment based on maximal exact match seeds
KR20210116454A (ko) 유전자 변이 인식 방법 및 장치 및 기억 매체
CN110692101B (zh) 用于比对靶向的核酸测序数据的方法
Cappelli et al. Combining DNA methylation and RNA sequencing data of cancer for supervised knowledge extraction
Sater et al. UMI-VarCal: a new UMI-based variant caller that efficiently improves low-frequency variant detection in paired-end sequencing NGS libraries
Lin et al. DART: a fast and accurate RNA-seq mapper with a partitioning strategy
Mutarelli et al. A community-based resource for automatic exome variant-calling and annotation in Mendelian disorders
Broseus et al. TALC: transcript-level aware long-read correction
CN111312332B (zh) 基于hla基因的生物信息处理方法、装置及终端
CN111180013A (zh) 检测血液病融合基因的装置
Aldana et al. Data processing and germline variant calling with the sentieon pipeline
CN111681710B (zh) 基于基因表达特征的细胞分类方法、装置和电子设备
Chu et al. SpliceJumper: a classification-based approach for calling splicing junctions from RNA-seq data
CN110797081B (zh) 激活区域识别方法及装置、存储介质及电子设备
Gong et al. SAW: An efficient and accurate data analysis workflow for Stereo-seq spatial transcriptomics
US20140278137A1 (en) Distance maps using multiple alignment consensus construction
Kuśmirek Different strategies for counting the depth of coverage in copy number variation calling tools
WO2016033305A1 (en) Methods, systems and computer readable storage media for generating accurate nucleotide sequences
JP7367234B2 (ja) 微生物の標的断片における多コピー領域の識別方法、装置及び応用
CN112825267B (zh) 确定小核酸序列集合的方法及其应用
CN111883212B (zh) Dna指纹图谱的构建方法、构建装置及终端设备
US20220091845A1 (en) Sub-field identification system and method
Loh et al. Fast and accurate long-range phasing and imputation in a UK Biobank cohort

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201030

Termination date: 20220213

CF01 Termination of patent right due to non-payment of annual fee