CN112634991B - 基因分型方法、装置、电子设备及存储介质 - Google Patents

基因分型方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112634991B
CN112634991B CN202011511858.6A CN202011511858A CN112634991B CN 112634991 B CN112634991 B CN 112634991B CN 202011511858 A CN202011511858 A CN 202011511858A CN 112634991 B CN112634991 B CN 112634991B
Authority
CN
China
Prior art keywords
reference sequence
sequence
difference
target
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011511858.6A
Other languages
English (en)
Other versions
CN112634991A (zh
Inventor
欧阳冬生
李晓晖
李超鹏
谢秀芬
谭海灿
费云舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Duzheng Medical Examination Co ltd
Changsha Duzheng Biotechnology Co ltd
Original Assignee
Changsha Duzheng Medical Examination Co ltd
Changsha Duzheng Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Duzheng Medical Examination Co ltd, Changsha Duzheng Biotechnology Co ltd filed Critical Changsha Duzheng Medical Examination Co ltd
Priority to CN202011511858.6A priority Critical patent/CN112634991B/zh
Publication of CN112634991A publication Critical patent/CN112634991A/zh
Application granted granted Critical
Publication of CN112634991B publication Critical patent/CN112634991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明实施例提供了一种基因分型方法、装置、电子设备及存储介质,其中,上述基因分型方法,包括:获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,预设基因库包括多个候选参考序列,第一差异结果集包括与多个候选参考序列分别对应的多个第一差异结果,第一差异结果用于表征对应的候选参考序列与基准参考序列之间的差异;获取待分型序列与基准参考序列之间的第二差异结果;从多个候选参考序列中确定出目标参考序列,目标参考序列为对应的第一差异结果与第二差异之间满足第一预设条件的候选参考序列;依据目标参考序列确定待分型序列的分型结果。本发明实施例能够有效降低数据的处理量,提高比对与基因分型效率。

Description

基因分型方法、装置、电子设备及存储介质
技术领域
本发明涉及基因检测技术领域,尤其涉及一种基因分型方法、装置、电子设备及存储介质。
背景技术
众所周知,在国际免疫遗传学信息系统(international Immunogeneticsinformation system,IMGT)等基因库存在大量的基因序列,例如人类白细胞抗原(humanleukocyte antigen,HLA)基因序列等;而通过将基因测序的序列与基因库中的基因序列进行比对,可以得到基因测序的序列的分型结果。现有技术中,通常是将基因测序的序列与基因库中的基因序列逐一比对,由于基因库中的基因序列的数量较多,导致对基因测序的序列的分型效率较低。
发明内容
本发明实施例提供一种基因分型方法、装置、电子设备及存储介质,以解决现有技术中将基因测序的序列与基因库中的基因序列逐一比对,由于基因库中的基因序列的数量较多,导致对基因测序的序列的分型效率较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种基因分型方法,包括:
获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,所述预设基因库包括多个候选参考序列,所述第一差异结果集包括与所述多个候选参考序列分别对应的多个第一差异结果,所述第一差异结果用于表征对应的候选参考序列与所述基准参考序列之间的差异;
获取所述待分型序列与所述基准参考序列之间的第二差异结果;
从所述多个候选参考序列中确定出目标参考序列,所述目标参考序列为对应的所述第一差异结果与所述第二差异之间满足第一预设条件的候选参考序列;
依据所述目标参考序列确定所述待分型序列的分型结果。
第二方面,本发明实施例还提供了一种基因分型装置,包括:
第一获取模块,用于获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,所述预设基因库包括多个候选参考序列,所述第一差异结果集包括与所述多个候选参考序列分别对应的多个第一差异结果,所述第一差异结果用于表征对应的候选参考序列与所述基准参考序列之间的差异;
第二获取模块,用于获取所述待分型序列与所述基准参考序列之间的第二差异结果;
第一确定模块,用于从所述多个候选参考序列中确定出目标参考序列,所述目标参考序列为对应的所述第一差异结果与所述第二差异之间满足第一预设条件的候选参考序列;
第二确定模块,用于依据所述目标参考序列确定所述待分型序列的分型结果。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明实施例提供的基因分型方法,获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,并进一步获取分型序列与基准参考序列之间的第二差异结果;基于第一预设条件,依据第二差异结果对第一差异结果集中的多个第一差异结果进行筛选,进而确定出筛选出的第一差异结果对应的目标参考序列,并依据目标参考序列来确定待分型序列的分型结果。一方面,相比于现有技术中单纯采用序列之间直接比对的方式,本实施例采用差异结果的比对方式,能够有效降低数据的处理量,提高比对与基因分型效率;另一方面,上述第一差异结果集可以通过预先对基因库中的参考序列进行比对得到,在每次基因分型的过程中仅需直接调用即可,从而进一步降低了基因分型过程中的计算量,提高基因分型效率。
附图说明
图1为本发明实施例提供的基因分型方法的流程图;
图2为本发明实施例中测序图谱的示例图;
图3为本发明实施例中滤波图谱的一个示例图;
图4为本发明实施例中滤波图谱的另一个示例图;
图5为一实际应用场景中测序结果自动修正过程的流程图;
图6为一实际应用场景中基因分型过程的流程图;
图7为本发明实施例提供的基因分型装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
除非另作定义,本发明中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
如图1所述,本发明实施例提供的基因分型方法,包括:
步骤101,获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,所述预设基因库包括多个候选参考序列,所述第一差异结果集包括与所述多个候选参考序列分别对应的多个第一差异结果,所述第一差异结果用于表征对应的候选参考序列与所述基准参考序列之间的差异;
步骤102,获取所述待分型序列与所述基准参考序列之间的第二差异结果;
步骤103,从所述多个候选参考序列中确定出目标参考序列,所述目标参考序列为对应的所述第一差异结果与所述第二差异之间满足第一预设条件的候选参考序列;
步骤104,依据所述目标参考序列确定所述待分型序列的分型结果。
上述待分型序列即需要进行分型的基因测序序列,而预设基因库可以是例如国际免疫遗传学信息系统(international Immunogenetics information system,IMGT)等类型的基因库。基因库中可以存有大量的参考序列,例如人类白细胞抗原(human leukocyteantigen,HLA)基因序列等。本实施例中,基因库及参考序列的种类可以根据实际需要进行选择,此处不做具体限定。
容易理解的是,对于分型过程,可以简单描述为将待分型序列匹配至基因库中的某一个或多个参考序列;换而言之,针对整个分型方法,输入量可以是以待分型序列,而输出量则可以是基因库中的若干参考序列。
基因库中的参考序列的数量可能会比较庞大,若每次进行基因分型时,都需要将待分型序列与参考序列一一匹配,可能会浪费较多的时间,分型效率较低。因此,本实施例中,针对基因库中的参考序列进行了预先处理,具体来说:
基因库中包括了多个候选参考序列,可以从这些候选参考序列中确定出一基准参考序列,并将全部候选参考序列与该基准参考序列进行比对,得到每一候选参考序列与该基准参考序列中的差异结果,即上述的第一差异结果;第一差异结果可以是包括了例如存在差异的碱基的数量和/或位置等等;将所述第一差异结果可以统一纳入到第一差异结果集中。
在一些可行的实施方式中,当候选参考序列即基准参考序列时,两者之间进行比对得到的第一差异结果可以为无差异。而在一些可行的实施方式中,候选参考序列可以定义为基因库中除基准参考序列以外的参考序列。
容易理解的是,对于同一物种基因的同一位点的参考序列,大部分位置的碱基的排序都是一致的,只有较少的位置可能存在差异;因此,第一差异结果集中的数据量,必然是远少于整个基因库的数据量的;若使用第一差异结果集来进行基因分型,能够有效减少基因分型过程的计算量。与此同时,值得再次强调的是,对于第一差异结果集,可以是预先进行参考序列的比对获得,后续步骤中,可以直接调用第一差异结果集,如此,在后续的基因分型中,也可以有效减少参考序列之间,或者参考序列与待分型序列之间的直接比对次数,进一步减少基因分型过程的计算量。
本实施例中,针对待分型序列,也与基准参考序列进行比对以得到两者的差异结果,即对应上文中的第二差异结果,第二差异结果同样可以是包括了例如存在差异的碱基的数量和/或位置等等。
为便于说明从多个候选参考序列中确定出目标参考序列的过程,此处以第一差异结果与第二差异结果分别包括对应的存在差异的碱基的数量为例。假设第二差异结果反映为,待分型序列与基准参考序列之间存在100个差异碱基;而第一预设条件可以是用一数量阈值进行体现,例如10;如此,可以将对应第一差异结果反映为存在90~110个差异碱基的候选参考序列确定为目标参考序列。
当然,以上仅仅是针对目标参考序列确定过程的举例,在实际应用中,也可以结合对差异碱基位置的条件限定来确定目标参考序列等,本实施例中不做具体限定。
通过目标参考序列的确定,可以大大缩小用于确定基因分型的参考序列的数量。结合以上举例,第一差异结果集中全部第一差异结果可能对应的差异碱基的数量范围为0~500,而通过目标参考序列的确定,可以排除大量的与待分型序列匹配度交底的候选参考序列。
在以及目标参考序列确定待分型序列的分析结果的步骤中,由于目标参考序列的数量较少,可以直接分别一一与待分型序列进行匹配,当然,也可以进一步从目标参考序列中继续筛选后再与待分型序列进行匹配,或者,当基因库中的参考序列为单链基因序列时,还可以两两组合形成行的参考序列后再进行筛选或直接与待分型序列进行匹配等,此处不做具体限定。
本发明实施例提供的基因分型方法,获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,并进一步获取分型序列与基准参考序列之间的第二差异结果;基于第一预设条件,依据第二差异结果对第一差异结果集中的多个第一差异结果进行筛选,进而确定出筛选出的第一差异结果对应的目标参考序列,并依据目标参考序列来确定待分型序列的分型结果。一方面,相比于现有技术中单纯采用序列之间直接比对的方式,本实施例采用差异结果的比对方式,能够有效降低数据的处理量,提高比对与基因分型效率;另一方面,上述第一差异结果集可以通过预先对基因库中的参考序列进行比对得到,在每次基因分型的过程中仅需直接调用即可,从而进一步降低了基因分型过程中的计算量,提高基因分型效率。
为节省在大量的候选参考序列中确定出目标参考序列的效率,本实施例中,所述第一差异结果包括对应的候选参考序列与所述基准参考序列之间的第一差异碱基数量,所述第二差异结果包括所述待分型序列与所述基准参考序列之间的第二差异碱基数量;
所述步骤103,从所述多个候选参考序列中确定出目标参考序列,包括:
分别计算每一所述第一差异碱基数量与所述第二差异碱基数量之间的第一差值;
将位于目标数值范围内的第一差值对应的所述第一差异碱基数量所对应的所述候选参考序列确定为所述目标参考序列。
简单来说,本实施例中,是通过存在差异的碱基的数量,来对多个第一差异结果进行筛选,也就是对各第一差异结果对应的候选参考序列进行筛选,以得到目标参考序列。
以下结合一举例对本实施例进行说明:假设存在4个候选参考序列H1、H2、H3以及H4,其与基准参考序列之间的差异碱基的数量(对应上述第一差异碱基数量)分别为50、95、105、130;设待分型序列与基准参考序列之间的差异碱基的数量(对应上述第二差异碱基数量)为100;同时,上述目标数值范围可以基于第二差异碱基数量确定,例如,目标数值范围的上限、下限可以是在第二差异碱基数量上加、减一数量阈值得到,设该数量阈值为10,则该目标数值范围为[90,110]。如此,可见,候选参考序列H2与H3对应的第一差异碱基数量位于该目标数值范围,进而可以将这两个候选参考序列确定为目标参考序列。
本实施例基于差异碱基数量这一参数,来对候选参考序列进行筛选以得到目标参考序列;在基因库中候选参考序列的数量较大的情况下,能够比较快速地缩小用于进行基因分型的参考序列的范围,提高基因分型效率。
可选地,所述目标参考序列的数量为多个;
所述步骤104,依据所述目标参考序列确定所述待分型序列的分型结果,包括:
分别针对多个所述目标参考序列中的每两个目标参考序列进行组合,得到至少一个候选组合参考序列;
获取每一所述候选组合参考序列分别对应的第三差异结果,所述第一差异结果用于表征对应的候选组合参考序列与所述基准参考序列之间的差异;
从所述至少一个候选组合参考序列中确定出目标组合参考序列,所述目标组合参考序列为对应的所述第三差异结果与所述第二差异之间满足第二预设条件的候选组合参考序列;
依据所述目标组合参考序列确定所述待分型序列的分型结果。
容易理解的是,对于二倍体生物等,染色体通常是成对存在,例如父系染色体与母系染色体;相应地,待分型序列中通常考虑了成对染色体的基因中同一位点的碱基序列,即任一位点的待分型序列中考虑了两个碱基序列。例如,设一个碱基序列为TATTTCTACACC,而另一碱基序列为TATTTCTACACG,从中可以发现,这两个碱基序列的最后一个位置上的碱基存在不同;那么在待分型序列中,可以将最后一个位置的碱基识别为杂合碱基S,而其余位置的碱基不变,待分型序列可以表示为TATTTCTACACS。
另外,针对杂合碱基,通常来讲,G和T的杂合碱基可以记为K,简单表示为GT→K,相似地,其余的杂合碱基可以表示为:AC→M、AG→R、GC→S、AT→W、CT→Y。
在实际应用中,基因库中的参考序列通常为单链,也就是说,这些参考序列中通常不存在杂合碱基;同时,得到目标参考序列的数量一般为多个。因此,本实施例中,针对得到的目标参考碱基进行了两两组合,得到候选组合参考序列。
相应地,候选组合参考序列与基准参考序列之间也可以存在一差异结果,即为上述的第三差异结果,第三差异结果可以是通过序列之间的直接比对得到,也可以通过用于组成某一候选组合参考序列的两个目标参考序列对应的两个第一差异结果的处理得到。
本实施例中,从候选组合参考序列中确定出目标组合参考序列的方式,以上文实施例中提到的从候选参考序列中确定出目标参考序列的方式相似,此处不再赘述。通过对目标组合参考序列的筛选,同样可以减少用于确定基因分型的参考序列的数量,提高基因分型效率。
此外,依据目标组合参考序列确定待分型序列的分型结果,可以是进行序列之间的直接比对,也可以是第三差异结果与第二差异结果之间的比对,当存在序列相同,或者差异结果相同的情况下,则可以得到最终的基因分型结果。
本实施例中,通过对目标参考序列的两两组合得到候选组合参考序列,并从候选组合参考序列中筛选目标参考序列来确定待分型序列的分型结果,可以有效提高基因分型的准确度与效率。
当然,在一些可行的实施方式中,在得到至少一个候选组合参考序列后,若候选组合参考序列的数量较少,例如小于某一序列数量阈值时,也可以直接依据候选组合参考序列来确定待分型序列的分型结果。
可选地,所述第一差异结果包括对应的候选参考序列与所述基准参考序列之间的第一差异碱基位置,所述第三差异结果包括第三差异碱基数量与第二差异碱基位置;
获取每一所述候选组合参考序列分别对应的第三差异结果,包括:
获取组合形成所述候选组合参考序列的两个目标参考序列分别对应的第一差异碱基位置;
依据所述两个目标参考序列分别对应的第一差异碱基位置,确定所述候选组合参考序列对应的第二差异碱基位置及第三差异碱基数量。
本实施例中,限定了第三差异结果的获取方式,具体来说,可以通过组合成一个候选组合参考序列的两个目标参考序列的第一差异结果进行分析,得到该候选组合参考序列对应的第三差异结果。
以下结合一举例对本实施例进行说明:
设候选组合参考序列J由目标参考序列D1与D2组合形成,目标参考序列D1对应的第一差异结果反映为:在编号为1、2的点位(对应上述的第一差异碱基位置)存在差异碱基。目标参考序列D1对应的第一差异结果反映为:在编号为2、3的点位存在差异碱基。
结合上文中杂合碱基的说明,组合参考序列J的编号为1和3的点位上的碱基为杂合碱基,而组合参考序列J的编号为2的点位上的碱基,要么是杂合碱基,要么是与基准参考序列不同的纯合碱基。由于基准参考序列中通常不存在杂合碱基,因此,候选组合参考序列J的编号为1、2、3的点位上的碱基必然与基准参考序列不同。那么,候选组合参考序列J对应的第三差异结果为:在编号为1、2、3的点位存在差异碱基(对应第二差异碱基位置),且总共存在3个差异碱基(对应第三差异碱基数量)。
结合以上举例描述可以,本实施例中基于第一差异结果来获得第三差异结果,而无需针对候选组合参考序列与基准参考序列进行一一比对,有效降低了第三差异结果的获取难度。
在一个示例中,第三差异结果还可以包括候选组合参考序列中各个差异碱基位置的碱基类型;第二差异结果也可以包括待分型序列中各差异碱基位置及其碱基类型;如此,可以根据差异结果,直接实现待分型序列的分型。
可选地,所述依据所述目标组合参考序列确定所述待分型序列的分型结果,包括:
在存在对应的第三差异结果与所述第二差异结果相同的目标组合参考序列的情况下,将所述对应的第三差异结果与所述第二差异结果相同的目标组合参考序列作为所述待分型序列的分型结果;
在不存在对应的第三差异结果与所述第二差异结果相同的目标组合参考序列的情况下,根据获取的调整指令对所述待分型序列进行调整后,返回执行所述获取所述待分型序列与所述基准参考序列之间的第二差异结果的步骤。
本实施例中,限定了根据第三差异结果与第二差异结果,来从目标组合参考序列中输出对待分型序列的分型结果。容易理解的是,当某一目标组合参考序列对应的第三差异结果中的差异碱基的数量、位置及碱基类型,与第二差异结果中的差异碱基的数量、位置及碱基类型均相同时,则可以认为该目标组合参考序列为待分型序列的基因分型结果。
而当所述目标组合参考序列对应的全部第三差异结果中,不存在与第二差异结果相同的第三差异结果时,可能是因为在待分型序列中存在碱基类型识别错误,因此可以引入人工干预的过程,即获取用户用于碱基类型修正的输入,当响应该输入生成调整指令,对相应的碱基类型调整后,得到调整后的待分型序列并重新进行分型,一直到成功得到基因分型结果为止。
本实施例中,仅依据差异结果即可实现待分型序列的基因分型,能够有效减少基因分型过程中的计算量,提供基因分型效率。
可选地,所述步骤101,获取待分型序列,包括:
获取多个测序图谱,每一所述测序图谱中包括多个初始波峰;
分别针对每一所述测序图谱根据峰高阈值对所述多个初始波峰进行滤波,获得滤波图谱;
分别对每一所述滤波图谱进行碱基识别,得到初始序列;
针对全部所述滤波图谱对应的初始序列进行序列对齐,获取每一所述滤波图谱的可靠度,并根据所述可靠度从全部所述初始序列中筛选获得所述待分型序列。
容易理解的是,在进行基因测序时,通常得到的直接结果为包括了多个波峰的测序图谱,通过波峰的识别,可以得到对应的碱基类型。
本实施例中,对于测序图谱进行了两次修正处理,以提高最终得到的待分型序列的质量,具体来说:
结合图2,在第一次修正处理中,对测序图谱中的滤波图谱进行了滤波处理,将一些峰高较低的初始波峰进行滤除,对于峰高的高低的区分,可以通过峰高阈值来区分。在一个示例中,可以根据测序图谱中某一段区域内波峰情况,计算一峰高阈值,来过滤掉背景噪音,例如图2中所示的底部小峰。
当然,如果在滤波后一个位置上依然存在两个波峰,则考虑存在杂合碱基,至于杂合碱基的识别过程,在上文中已经进行了描述,此处不再赘述。
结合图3与图4,在第二次修正处理中,主要是通过比对测序图谱的方式来选择出可靠度更高的待分型序列;具体来说,包括如下过程:
首先,对于初始序列,或者说滤波图谱进行对齐,也就是说,对于基因的同一位点,可以包括与不同的滤波图谱中,可以按位点将这些滤波图谱进行对齐;
然后,可以根据各个初始序列的质量,以及各个滤波图谱中的波峰的走势、独立波峰的完整性来确定各个滤波图谱的可靠度,例如,图3所示的滤波图谱,相比与图4所示的滤波图谱,其波峰走势更加清晰,独立波峰相对完整,因此,可以认为图3的滤波图谱可靠性较高,并可以进一步基于图3的滤波图谱得到待分型序列。
可选地,所述方法应用于服务器;
所述获取多个测序图谱包括:获取终端设备发送的多个测序图谱;
所述步骤104,依据所述目标参考序列确定所述待分型序列的分型结果之后,所述方法还包括:将所述分型结果发送至所述终端设备。
本实施例中,上述基因分型方法可以是在服务器中实现的。换而言之,上述服务器可以连接有一台或多台终端设备,终端设备可以是个人电脑、移动终端等,此处不做具体限定。
终端设备可以将测序图谱发送至服务器,而服务器可以对测序图谱进行处理得到待分型序列,并进一步结合基准参考序列与第一差异结果集等,对待分型序列进行分型。
通常来说,服务器的计算能力较终端设备强,在服务器中执行上述的基因分型方法,可以有效提高计算效率,提高基因分型效率。与此同时,对于终端设备,可以降低对其硬件设备的配置需要,在保证能够与服务器进行通信连接的情况下,即可通过服务器进行基因分型并获取服务器发送的分型结果,提高了用户的使用便捷性。
以下结合一实际应用场景,对上述基因分型方法的实现方式进行说明。如图5、图6所示,本应用场景中,基因分型主要分为两个过程,一是测序结果自动修正,二是基因分型。具体来说:
如图5所示,测序结果自动修正包括如下步骤:
步骤501,获取上传的测序文件;
其中,测序文件中包括有测序图谱;
步骤502,根据测序图谱中峰图走势,去除背景噪音并进行第一次纠错;
去除背景噪音对应了上述对测序图谱进行滤波的过程,当将一些峰高较低的波峰去除后,一些初始被识别为杂合碱基的位置可能被纠正为纯合碱基;
步骤503,对于相同位置区域存在多次测序的,先对齐序列以及图谱,然后计算各测序中同位置碱基的可靠度进行第二次纠错;
当然,当基因中的某一位置区域仅有一次测序,此步骤也可以省略;
步骤504,输出经过两次识别纠错后的测序序列;
即输出上述的待分型序列。
如图6所示,基因分型包括如下步骤:
步骤601,指定基准参考序列,创建第一差异结果库;
步骤602,计算待分型序列与基准参考序列的第二差异结果;
步骤603,设定阈值,使用第二差异结果对第一差异结果库进行筛选,得到筛选结果;
该筛选结果对应上文中从预设参考序列中筛选得到的目标参考序列;
步骤604,对筛选结果进行两两组合,得到初始组合参考序列;
初始组合参考序列与基准参考序列之间存在第三差异结果;
步骤605,将第三差异结果与第一差异结果再次比对,按照不匹配数逆序排列;
步骤606,输出对应不匹配数最小的前若干个目标组合参考序列;
步骤607,判断是否存在对应的第三差异结果与第二差异结果匹配的目标组合参考序列,若否,则执行步骤608,若是,则执行步骤609;
步骤608,接收人工干预信息,以对待分型序列中识别的碱基类型进行修正,并返回执行步骤602;
步骤609,输出对待分型序列的分型结果。
基于上述基因分型方法的实现方式,可以提高用于进行分型的待分型序列的准确度,同时能够比较高效地得到分型结果。
如图7所示,本发明实施例还提供了一种基因分型装置,包括:
第一获取模块701,用于获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,所述预设基因库包括多个候选参考序列,所述第一差异结果集包括与所述多个候选参考序列分别对应的多个第一差异结果,所述第一差异结果用于表征对应的候选参考序列与所述基准参考序列之间的差异;
第二获取模块702,用于获取所述待分型序列与所述基准参考序列之间的第二差异结果;
第一确定模块703,用于从所述多个候选参考序列中确定出目标参考序列,所述目标参考序列为对应的所述第一差异结果与所述第二差异之间满足第一预设条件的候选参考序列;
第二确定模块704,用于依据所述目标参考序列确定所述待分型序列的分型结果。
可选地,所述第一差异结果包括对应的候选参考序列与所述基准参考序列之间的第一差异碱基数量,所述第二差异结果包括所述待分型序列与所述基准参考序列之间的第二差异碱基数量;
所述第一确定模块703,包括:
计算单元,用于分别计算每一所述第一差异碱基数量与所述第二差异碱基数量之间的第一差值;
第一确定单元,用于将位于目标数值范围内的第一差值对应的所述第一差异碱基数量所对应的所述候选参考序列确定为所述目标参考序列。
可选地,所述目标参考序列的数量为多个;
所述第二确定模块704,包括:
组合单元,用于分别针对多个所述目标参考序列中的每两个目标参考序列进行组合,得到至少一个候选组合参考序列;
第一获取单元,用于获取每一所述候选组合参考序列分别对应的第三差异结果,所述第一差异结果用于表征对应的候选组合参考序列与所述基准参考序列之间的差异;
第二确定单元,用于从所述至少一个候选组合参考序列中确定出目标组合参考序列,所述目标组合参考序列为对应的所述第三差异结果与所述第二差异之间满足第二预设条件的候选组合参考序列;
第三确定单元,用于依据所述目标组合参考序列确定所述待分型序列的分型结果。
可选地,所述第一差异结果包括对应的候选参考序列与所述基准参考序列之间的第一差异碱基位置,所述第三差异结果包括第三差异碱基数量与第二差异碱基位置;
所述第一获取单元,包括:
获取子单元,用于获取组合形成所述候选组合参考序列的两个目标参考序列分别对应的第一差异碱基位置;
第一确定子单元,用于依据所述两个目标参考序列分别对应的第一差异碱基位置,确定所述候选组合参考序列对应的第二差异碱基位置及第三差异碱基数量。
可选地,所述第三确定单元,包括:
第二确定子单元,用于在存在对应的第三差异结果与所述第二差异结果相同的目标组合参考序列的情况下,将所述对应的第三差异结果与所述第二差异结果相同的目标组合参考序列作为所述待分型序列的分型结果;
调整子单元,用于在不存在对应的第三差异结果与所述第二差异结果相同的目标组合参考序列的情况下,根据获取的调整指令对所述待分型序列进行调整后,返回执行所述获取所述待分型序列与所述基准参考序列之间的第二差异结果的步骤。
可选地,所述第一获取模块701,包括:
第二获取单元,用于获取多个测序图谱,每一所述测序图谱中包括多个初始波峰;
第三获取单元,用于分别针对每一所述测序图谱根据峰高阈值对所述多个初始波峰进行滤波,获得滤波图谱;
识别单元,用于分别对每一所述滤波图谱进行碱基识别,得到初始序列;
第四获取单元,用于针对全部所述滤波图谱对应的初始序列进行序列对齐,获取每一所述滤波图谱的可靠度,并根据所述可靠度从全部所述初始序列中筛选获得所述待分型序列。
可选地,上述基因分型装置应用于服务器;
所述第二获取单元具体用于:获取终端设备发送的多个测序图谱;
所述装置还包括:发送模块,用于将所述分型结果发送至所述终端设备。
需要说明的是,该基因分型装置是与上述基因分型方法对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
可选地,本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基因分型方法。
可选地,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的基因分型方法。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (9)

1.一种基因分型方法,其特征在于,包括:
获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,所述预设基因库包括多个候选参考序列,所述第一差异结果集包括与所述多个候选参考序列分别对应的多个第一差异结果,所述第一差异结果用于表征对应的候选参考序列与所述基准参考序列之间的差异;
获取所述待分型序列与所述基准参考序列之间的第二差异结果;
从所述多个候选参考序列中确定出目标参考序列,所述目标参考序列为对应的所述第一差异结果与所述第二差异结果之间满足第一预设条件的候选参考序列;
依据所述目标参考序列确定所述待分型序列的分型结果;
在所述目标参考序列为多个的情况下,所述依据所述目标参考序列确定所述待分型序列的分型结果,包括:
分别针对多个所述目标参考序列中的每两个目标参考序列进行组合,得到至少一个候选组合参考序列;
获取每一所述候选组合参考序列分别对应的第三差异结果,所述第三差异结果用于表征对应的候选组合参考序列与所述基准参考序列之间的差异;
从所述至少一个候选组合参考序列中确定出目标组合参考序列,所述目标组合参考序列为对应的所述第三差异结果与所述第二差异之间满足第二预设条件的候选组合参考序列;
依据所述目标组合参考序列确定所述待分型序列的分型结果。
2.根据权利要求1所述的方法,其特征在于,所述第一差异结果包括对应的候选参考序列与所述基准参考序列之间的第一差异碱基数量,所述第二差异结果包括所述待分型序列与所述基准参考序列之间的第二差异碱基数量;
所述从所述多个候选参考序列中确定出目标参考序列,包括:
分别计算每一所述第一差异碱基数量与所述第二差异碱基数量之间的第一差值;
将位于目标数值范围内的第一差值对应的所述第一差异碱基数量所对应的所述候选参考序列确定为所述目标参考序列。
3.根据权利要求1所述的方法,其特征在于,所述第一差异结果包括对应的候选参考序列与所述基准参考序列之间的第一差异碱基位置,所述第三差异结果包括第三差异碱基数量与第二差异碱基位置;
所述获取每一所述候选组合参考序列分别对应的第三差异结果,包括:
获取组合形成所述候选组合参考序列的两个目标参考序列分别对应的第一差异碱基位置;
依据所述两个目标参考序列分别对应的第一差异碱基位置,确定所述候选组合参考序列对应的第二差异碱基位置及第三差异碱基数量。
4.根据权利要求1所述的方法,其特征在于,所述依据所述目标组合参考序列确定所述待分型序列的分型结果,包括:
在存在对应的第三差异结果与所述第二差异结果相同的目标组合参考序列的情况下,将所述对应的第三差异结果与所述第二差异结果相同的目标组合参考序列作为所述待分型序列的分型结果;
在不存在对应的第三差异结果与所述第二差异结果相同的目标组合参考序列的情况下,根据获取的调整指令对所述待分型序列进行调整后,返回执行所述获取所述待分型序列与所述基准参考序列之间的第二差异结果的步骤。
5.根据权利要求1所述的方法,其特征在于,所述获取待分型序列,包括:
获取多个测序图谱,每一所述测序图谱中包括多个初始波峰;
分别针对每一所述测序图谱根据峰高阈值对所述多个初始波峰进行滤波,获得滤波图谱;
分别对每一所述滤波图谱进行碱基识别,得到初始序列;
针对全部所述滤波图谱对应的初始序列进行序列对齐,获取每一所述滤波图谱的可靠度,并根据所述可靠度从全部所述初始序列中筛选获得所述待分型序列。
6.根据权利要求5所述的方法,其特征在于,所述方法应用于服务器;
所述获取多个测序图谱包括:获取终端设备发送的多个测序图谱;
所述依据所述目标参考序列确定所述待分型序列的分型结果之后,所述方法还包括:将所述分型结果发送至所述终端设备。
7.一种基因分型装置,其特征在于,包括:
第一获取模块,用于获取待分型序列、预设基因库中的基准参考序列以及第一差异结果集,所述预设基因库包括多个候选参考序列,所述第一差异结果集包括与所述多个候选参考序列分别对应的多个第一差异结果,所述第一差异结果用于表征对应的候选参考序列与所述基准参考序列之间的差异;
第二获取模块,用于获取所述待分型序列与所述基准参考序列之间的第二差异结果;
第一确定模块,用于从所述多个候选参考序列中确定出目标参考序列,所述目标参考序列为对应的所述第一差异结果与所述第二差异结果之间满足第一预设条件的候选参考序列;
第二确定模块,用于依据所述目标参考序列确定所述待分型序列的分型结果;
所述第二确定模块还用于在所述目标参考序列为多个的情况下,所述依据所述目标参考序列确定所述待分型序列的分型结果,包括:
分别针对多个所述目标参考序列中的每两个目标参考序列进行组合,得到至少一个候选组合参考序列;
获取每一所述候选组合参考序列分别对应的第三差异结果,所述第三差异结果用于表征对应的候选组合参考序列与所述基准参考序列之间的差异;
从所述至少一个候选组合参考序列中确定出目标组合参考序列,所述目标组合参考序列为对应的所述第三差异结果与所述第二差异之间满足第二预设条件的候选组合参考序列;
依据所述目标组合参考序列确定所述待分型序列的分型结果。
8.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
CN202011511858.6A 2020-12-18 2020-12-18 基因分型方法、装置、电子设备及存储介质 Active CN112634991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011511858.6A CN112634991B (zh) 2020-12-18 2020-12-18 基因分型方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011511858.6A CN112634991B (zh) 2020-12-18 2020-12-18 基因分型方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112634991A CN112634991A (zh) 2021-04-09
CN112634991B true CN112634991B (zh) 2022-07-19

Family

ID=75317761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011511858.6A Active CN112634991B (zh) 2020-12-18 2020-12-18 基因分型方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112634991B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409890B (zh) * 2021-05-21 2022-04-12 银丰基因科技有限公司 一种基于二代测序数据的hla分型方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104160391A (zh) * 2011-09-16 2014-11-19 考利达基因组股份有限公司 确定异质样本的基因组中的变异
CN105069093A (zh) * 2015-08-05 2015-11-18 河海大学 一种基于嵌入式索引的水文时间序列相似性搜索方法
CN111625509A (zh) * 2020-05-26 2020-09-04 福州数据技术研究院有限公司 深度测序基因序列数据文件的无损压缩方法
CN111933214A (zh) * 2020-09-27 2020-11-13 至本医疗科技(上海)有限公司 用于检测rna水平体细胞基因变异的方法、计算设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103221551B (zh) * 2010-11-23 2015-10-07 深圳华大基因股份有限公司 Hla基因型别-snp连锁数据库、其构建方法、以及hla分型方法
CN106460070B (zh) * 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
CN108350498B (zh) * 2016-02-18 2021-10-19 深圳华大生命科学研究院 分型方法和装置
CN106529210A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 心理与精神对应的基因的突变位点的获取方法及装置
CN111816248B (zh) * 2020-05-22 2023-12-01 武汉菲沙基因信息有限公司 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法
CN111798924B (zh) * 2020-07-07 2024-03-26 博奥生物集团有限公司 一种人类白细胞抗原分型方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104160391A (zh) * 2011-09-16 2014-11-19 考利达基因组股份有限公司 确定异质样本的基因组中的变异
CN105069093A (zh) * 2015-08-05 2015-11-18 河海大学 一种基于嵌入式索引的水文时间序列相似性搜索方法
CN111625509A (zh) * 2020-05-26 2020-09-04 福州数据技术研究院有限公司 深度测序基因序列数据文件的无损压缩方法
CN111933214A (zh) * 2020-09-27 2020-11-13 至本医疗科技(上海)有限公司 用于检测rna水平体细胞基因变异的方法、计算设备

Also Published As

Publication number Publication date
CN112634991A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Korneliussen et al. ANGSD: analysis of next generation sequencing data
Haghshenas et al. HASLR: fast hybrid assembly of long reads
US20220223233A1 (en) Display of estimated parental contribution to ancestry
RU2654575C2 (ru) Способ и устройство для детектирования хромосомных структурных аномалий
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
AU2015332507A1 (en) Reducing error in predicted genetic relationships
WO2016139534A2 (en) Apparatuses and methods for determining a patient's response to multiple cancer drugs
CN107480470B (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
US11842794B2 (en) Variant calling in single molecule sequencing using a convolutional neural network
WO2021098615A1 (zh) 基因型数据缺失的填充方法、装置及服务器
CN112634991B (zh) 基因分型方法、装置、电子设备及存储介质
US20210209690A1 (en) Order matching
CN115730605B (zh) 基于多维信息的数据分析方法
Lun et al. From reads to regions: a Bioconductor workflow to detect differential binding in ChIP-seq data
US20140121983A1 (en) System and method for aligning genome sequence
CN113205857B (zh) 基因组性染色体非同源区域的鉴定方法和装置
CN108961071B (zh) 自动预测组合业务收益的方法及终端设备
CN112214473A (zh) 一种数据库间的数据迁移方法及系统
Górecki et al. DrML: probabilistic modeling of gene duplications
CN112465104B (zh) 身高发育评价方法及终端设备
CN115719640A (zh) 中医主次症状识别系统、装置、电子设备及其存储介质
CN110570908B (zh) 测序序列多态识别方法及装置、存储介质、电子设备
CN113158988A (zh) 财务报表处理方法、装置以及计算机可读存储介质
CN108733982B (zh) 孕妇nipt结果校正方法、装置及计算机可读存储介质、设备
CN113469235B (zh) 用水波动异常识别方法及装置、计算机装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant