CN117012274B

CN117012274B - 基于高通量测序识别基因缺失的装置

Info

Publication number: CN117012274B
Application number: CN202311281821.2A
Authority: CN
Inventors: 谷为岳; 杨双浩
Original assignee: Beijing Zhiyin Oriental Transformation Medical Research Center Co ltd
Current assignee: Beijing Zhiyin Oriental Transformation Medical Research Center Co ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-01-16
Anticipated expiration: 2043-10-07
Also published as: CN117012274A

Abstract

本发明提供一种基于高通量测序识别基因缺失的装置，属于基因检测技术领域，该装置包括：第一确定模块，用于确定待测样本对应的目标探针组中的各个目标探针的测序深度和对照样本对应的各个目标探针的测序深度；第二确定模块，用于根据待测样本的各个目标探针的测序深度和对照样本的各个目标探针的测序深度，确定待测样本的各个目标探针对应的基因缺失等级；识别模块，用于根据待测样本的各个目标探针对应的基因缺失等级，生成待测样本对应的基因缺失等级序列。本发明的装置达到了基于高通量测序高效准确的对基因缺失进行识别的效果。

Description

基于高通量测序识别基因缺失的装置

技术领域

本发明涉及基因检测技术领域，尤其涉及一种基于高通量测序识别基因缺失的装置。

背景技术

染色体结构变异（SV）是染色体变异的一种，是内因和外因共同作用的结果，外因有各种射线、化学药剂、温度的剧变等，内因有生物体内代谢过程的失调、衰老等。主要类型有缺失、重复、倒位、易位。

基因缺失即染色体中某一片段的缺失，人类染色体为二倍体，一对同源染色体分别来自于父本和母本，如果某一方的片段丢失则表现为基因缺失，基因缺失会导致基因表达紊乱、基因功能减弱或者丧失。

目前检测基因缺失的方法主要是Gap-PCR，实时荧光定量PCR，Southern杂交等，但是这些方法存在人工工作量大，操作繁琐，费时费力，DNA需求量大，操作环境有放射性等问题。

发明内容

针对现有技术中的问题，本发明实施例提供一种基于高通量测序识别基因缺失的装置。

具体地，基于高通量测序识别基因缺失的装置，包括：

第一确定模块，用于确定待测样本对应的目标探针组中的各个目标探针的测序深度和对照样本对应的各个目标探针的测序深度；

第二确定模块，用于根据待测样本的各个目标探针的测序深度和对照样本的各个目标探针的测序深度，确定待测样本的各个目标探针对应的基因缺失等级；所述基因缺失等级用于表示所述待测样本的各个所述基因的缺失程度；

识别模块，用于根据待测样本的各个目标探针对应的基因缺失等级，生成待测样本对应的基因缺失等级序列。

本发明实施例提供的基于高通量测序识别基因缺失的装置，第一确定模块根据目标探针组中多个探针确定待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度后，第二确定模块也就可以根据待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度，确定待测样本中的各个基因的基因缺失等级；进而识别模块将待测样本中的各个基因的基因缺失等级按序排列在一起也就可以得到待测样本对应的基因缺失等级序列，达到了基于高通量测序高效准确的对基因缺失进行识别的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于高通量测序识别基因缺失装置的结构示意图；

图2是本发明实施例提供的探针设计区间的示意图；

图3是本发明实施例提供的基于高通量测序识别基因缺失的流程示意图；

图4-图8是本发明实施例提供的基于高通量测序识别基因缺失类型的可视化效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的方法可以应用于基因缺失的检测场景中，基于待测样本对应的基因缺失等级序列的识别、重点分析和排查，明确了待测样本基因分析的方向和内容，可以有效的提高医疗资源投入的方向性和针对性。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1是本发明实施例提供的基于高通量测序识别基因缺失的装置一实施例的结构示意图。如图1所示，本实施例提供的装置，包括：

第一确定模块101，用于确定待测样本对应的目标探针组中的各个目标探针的测序深度和对照样本对应的各个目标探针的测序深度；

第二确定模块102，用于根据待测样本的各个目标探针的测序深度和对照样本的各个目标探针的测序深度，确定待测样本的各个目标探针对应的基因缺失等级；基因缺失等级用于表示待测样本的各个基因的缺失程度；

识别模块103，用于根据待测样本的各个目标探针对应的基因缺失等级，生成待测样本对应的基因缺失等级序列。

具体地，为了准确高效的进行基因缺失类型的检测，本发明实施例中的基于高通量测序识别基因缺失的装置包括：第一确定模块101、第二确定模块102和识别模块103。其中，第一确定模块101用于根据目标探针组中多个探针确定待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度；可选地，如图2所示，可以在目标基因(HBA2、HBA1)及其附近设计探针来作为目标探针组，用来确定待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度，并同时在基因组上设计5个探针作为内参对照。

可选地，在第一确定模块101根据目标探针组中多个探针确定待测样本的多个目标探针的测序深度和正常对照样本的多个目标探针的测序深度后，第二确定模块102也就可以根据待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度，确定待测样本中的各个基因的基因缺失等级；其中，基因缺失等级用于表示待测样本中各个基因的缺失程度；可选地，可以通过待测样本的各个目标探针的测序深度分别与对照样本的对应目标探针的测序深度的比值，确定待测样本中的各个基因的基因缺失等级；可选地，在待测样本的某个目标探针的测序深度与对照样本的对应目标探针的测序深度的比值越小的情况下，则表明待测样本中的该基因的基因缺失程度越大，从而也就可以准确的获得待测样本中的各个基因的缺失程度大小和各个基因的基因缺失等级。

可选地，在第二确定模块102确定待测样本中的各个基因的基因缺失等级后，识别模块103就可以根据待测样本中的各个基因的基因缺失等级生成待测样本对应的基因缺失等级序列；可选地，可以将待测样本中的各个基因的基因缺失等级按序排列在一起也就可以得到待测样本对应的基因缺失等级序列；可选地，在确定待测样本对应的基因缺失等级序列后，就可以根据基因缺失的类型及基因缺失的程度，进一步进行待测样本的分析和排查。

例如，待测样本对应的基因缺失等级序列为A，则可以将基因缺失等级序列为A作为中间结果，并结合平均红细胞体积、平均红细胞血红蛋白含量和血红蛋白电泳等其它检测结果，对待测样本进一步进行分析和排查，确定待测样本是否存在患病风险。也就是根据待测样本对应的基因缺失等级序列不能够直接得出疾病的诊断结果，仍需要进一步的分析和排查。可选地，也可以获取某类植物中某个待测样本对应的基因缺失等级序列，通过分析该类植物的待测样本对应的基因缺失等级序列与该类植物的正常样本对应的基因缺失等级序列之间的差异，从而分析确定植物的基因缺失等级序列之间的差异对植物的产生的影响及影响的程度。

上述实施例的装置，第一确定模块根据目标探针组中多个探针确定待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度后，第二确定模块也就可以根据待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度，确定待测样本中的各个基因的基因缺失等级；进而识别模块将待测样本中的各个基因的基因缺失等级按序排列在一起也就可以得到待测样本对应的基因缺失等级序列，达到了基于高通量测序高效准确的对基因缺失进行识别的效果；进而也可以将待测样本的基因缺失等级序列为作为中间结果，并结合平均红细胞体积、平均红细胞血红蛋白含量和血红蛋白电泳等其它检测结果，对待测样本进一步进行分析和排查。

在一实施例中，目标探针组包括N个探针；N个探针分别位于目标基因区域的N个目标区间内。

具体地，在基于高通量测序识别基因缺失的过程中，可以在待分析的目标基因区域及其附近选择N个目标区间用来区分各种缺失类型。可选地，N为正整数；可选地，N的取值可以基于测序识别的实际需求进行探针数量和位置的设计，本发明实施例中不进行限制。

在一实施例中，目标探针组包括11个探针，11个探针对应的区间如下，染色体区间为基于人类参考基因组hg19版本确定：

探针1对应的区间H：16号染色体中起始位置214756至终止位置214856；

探针2对应的区间A：16号染色体中起始位置218767至终止位置218867；

探针3对应的区间B：16号染色体中起始位置221382至终止位置221482；

探针4对应的区间C：16号染色体中起始位置223866至终止位置223966；

探针5对应的区间D：16号染色体中起始位置224819至终止位置224919；

探针6对应的区间E：16号染色体中起始位置225807至终止位置225907；

探针7对应的区间F：16号染色体中起始位置227898至终止位置227998；

探针8对应的区间G：16号染色体中起始位置230619至终止位置230719；

探针9对应的区间H2：16号染色体中起始位置226860至终止位置226960；

探针10对应的区间K：16号染色体中起始位置232337至终止位置232437；

探针11对应的区间L：16号染色体中起始位置233612至终止位置233712。

可选地，也可以基于人类参考基因组其他目标版本，确定目标探针组中各个探针所对应区间的起始位置和终止位置：目标版本包括以下至少一项：hg19、hg38、GRCh38和T2T各个版本。

具体地，示例性的，目标探针组中的探针设计区间（以参考基因组hg19版本为例）如表1所示：

表1

本发明实施例中第一确定模块101用于根据目标探针组中多个探针确定待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度；可选地，如图2所示，可以在地中海贫血相关基因(HBA2、HBA1)及其附近设计11个探针来作为目标探针组，用来确定待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度，并同时在基因组上设计5个探针作为内参对照。也就是本发明实施例中通过目标探针组中的11个探针，可以准确、全面、完整、有效的对待测样本中与地中海贫血相关的基因进行检测，从而准确地确定待测样本中与地中海贫血相关的多个目标探针的测序深度，进而也就可以准确的确定待测样本中的各个基因的基因缺失等级及待测样本对应的基因缺失等级序列，也就是基于待测样本对应的基因缺失等级序列的分析和排查，明确了待测样本基因分析的内容和方向，可以有效的提高医疗资源投入的方向性和针对性。

上述实施例的装置，通过在目标基因(HBA2、HBA1)及其附近设计11个探针来作为目标探针组，从而第一确定模块基于目标探针组也就可以准确地确定待测样本中与地中海贫血相关的多个目标探针的测序深度，进而也就可以准确的确定待测样本中的各个基因的基因缺失等级及待测样本对应的基因缺失等级序列，也就是基于待测样本对应的基因缺失等级序列的分析和排查，明确了待测样本基因分析的内容和方向，可以有效的提高医疗资源投入的方向性和针对性。

在一实施例中，第二确定模块用于：

根据待测样本的各个目标探针的测序深度和对照样本对应的各个目标探针的测序深度的比值，确定待测样本中的各个基因的缺失程度值；

根据待测样本中的各个基因的缺失程度值，确定待测样本中的各个基因的基因缺失等级。

具体地，本发明实施例中，在第一确定模块根据目标探针组中多个探针确定待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度后，第二确定模块用于根据待测样本的多个目标探针的测序深度和对照样本的多个目标探针的测序深度，确定待测样本中的各个基因的基因缺失等级；其中，基因缺失等级用于表示待测样本中各个基因的缺失程度；可选地，可以通过待测样本的各个目标探针的测序深度分别与对照样本的对应目标探针的测序深度的比值，确定待测样本中的各个基因的缺失程度值；可选地，在待测样本的某个目标探针的测序深度与对照样本的对应目标探针的测序深度的比值越小的情况下，则表明待测样本中的该基因的基因缺失程度越大；进一步地，在确定待测样本中的各个基因的缺失程度值之后，就可以根据待测样本中的各个基因的缺失程度值的大小，确定确定待测样本中的各个基因的基因缺失等级；可选地，在某个基因的缺失程度越大，也就是该基因的缺失程度值越小的情况下，该基因的基因缺失等级也就越小；在某个基因的缺失程度越小，也就是该基因的缺失程度值越大的情况下，该基因的基因缺失等级也就越大。

上述实施例的装置，第二确定模块通过待测样本的各个目标探针的测序深度分别与对照样本的对应目标探针的测序深度的比值，确定待测样本中的各个基因的缺失程度值，从而也就准确的量化了待测样本的各个基因对应的缺失程度，进而基于准确量化后的待测样本的各个基因对应的缺失程度，也就可以准确的确定待测样本中的各个基因的基因缺失等级及待测样本对应的基因缺失等级序列，也就是基于待测样本对应的基因缺失等级序列的分析和排查，明确了待测样本基因分析的内容和方向，可以有效的提高医疗资源投入的方向性和针对性。

在一实施例中，第二确定模块用于：

对于待测样本中的各个基因的缺失程度值，在缺失程度值小于或等于第一阈值的情况下，确定基因缺失等级为第一等级；

在缺失程度值大于第一阈值且小于等于第二阈值的情况下，确定基因缺失等级为第二等级；

在缺失程度值大于第二阈值且小于等于第三阈值的情况下，确定基因缺失等级为第三等级。

具体地，本发明实施例中，通过待测样本的各个目标探针的测序深度分别与对照样本的对应目标探针的测序深度的比值，确定待测样本中的各个基因的缺失程度值；可选地，在缺失程度值小于或等于第一阈值的情况下，确定基因缺失等级为第一等级；在缺失程度值大于第一阈值且小于等于第二阈值的情况下，确定基因缺失等级为第二等级；在缺失程度值大于第二阈值且小于等于第三阈值的情况下，确定基因缺失等级为第三等级；即在某个基因的缺失程度越大，也就是该基因的缺失程度值越小的情况下，该基因的基因缺失等级也就越小；在某个基因的缺失程度越小，也就是该基因的缺失程度值越大的情况下，该基因的基因缺失等级也就越大。示例性的，在缺失程度值小于或等于0.3的情况下，确定基因缺失等级为第一等级；在缺失程度值大于0.3且小于或等于0.66的情况下，确定基因缺失等级为第二等级；在缺失程度值大于0.66且小于或等于1.66的情况下，确定基因缺失等级为第三等级。

上述实施例的装置，第二确定模块通过待测样本的各个目标探针的测序深度分别与对照样本的对应目标探针的测序深度的比值，确定待测样本中的各个基因的缺失程度值，进而根据各个基因的缺失程度值，准确确定基因缺失等级；从而也就可以准确的确定待测样本对应的基因缺失等级序列，也就是基于待测样本对应的基因缺失等级序列的分析和排查，明确了待测样本基因分析的内容和方向，可以有效的提高医疗资源投入的方向性和针对性。

在一实施例中，识别模块用于：

将待测样本对应的基因缺失等级序列与目标数据库中的多个基因缺失等级序列进行比对，确定目标基因缺失等级序列；目标基因缺失等级序列为目标数据库中的多个基因缺失等级序列中的一个；目标基因缺失等级序列与待测样本对应的基因缺失等级序列相似程度最高；目标数据库用于存储多个基因缺失等级序列及各个基因缺失等级序列所对应的地中海贫血的类型。

具体地，本发明实施例中，识别模块通过将待测样本对应的基因缺失等级序列与目标数据库中的多个基因缺失等级序列进行比对，从而将目标数据库中与待测样本对应的基因缺失等级序列相似程度最高的基因缺失等级序列作为目标基因缺失等级序列，进而根据根据目标基因缺失等级序列及目标数据库中各个基因缺失等级序列与地中海贫血类型的对应关系，可以重点分析和排查，有效的提高医疗资源投入的方向性和针对性。可选地，由于目标基因缺失等级序列为目标数据库中的多个基因缺失等级序列中的一个，因而通过目标数据库中各个基因缺失等级序列与地中海贫血类型的对应关系，也就可以确定目标基因缺失等级序列所对应的地中海贫血类型；进而由于目标基因缺失等级序列与待测样本对应的基因缺失等级序列相似程度最高，因而也就可以将目标基因缺失等级序列对应的地中海贫血类型作为分析的一个方向，也就是将待测样本的基因缺失等级序列的比对结果作为中间结果，并结合平均红细胞体积、平均红细胞血红蛋白含量和血红蛋白电泳等其它检测结果，对待测样本进一步进行分析和排查，提高分析和排查的针对性。

在一实施例中，识别模块用于：

将待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的各个基因缺失等级序列中对应的各个元素进行比对，确定待测样本对应的基因缺失等级序列与目标数据库中的各个基因缺失等级序列的相似度值；

根据待测样本对应的基因缺失等级序列与目标数据库中的各个基因缺失等级序列的相似度值，从目标数据库中的多个基因缺失等级序列中确定目标基因缺失等级序列。

具体地，本发明实施例中识别模块在将待测样本对应的基因缺失等级序列与目标数据库中的多个基因缺失等级序列进行比对，进而将目标数据库中与待测样本对应的基因缺失等级序列相似程度最高的基因缺失等级序列作为目标基因缺失等级序列的过程中，可以将待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的各个基因缺失等级序列中对应的各个元素进行比对，确定待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的各个基因缺失等级序列中对应的各个元素的相似度值；进而根据待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的各个基因缺失等级序列中对应的各个元素的相似度值，确定待测样本对应的基因缺失等级序列与目标数据库中各个基因缺失等级序列的相似度值。例如，可以将待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的基因缺失等级序列A中对应的各个元素的相似度值进行相加求和，作为待测样本对应的基因缺失等级序列与目标数据库中基因缺失等级序列A的相似度值；将待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的基因缺失等级序列B中对应的各个元素的相似度值进行相加求和，作为待测样本对应的基因缺失等级序列与目标数据库中基因缺失等级序列B的相似度值；进而根据待测样本对应的基因缺失等级序列与目标数据库中基因缺失等级序列A的相似度值和待测样本对应的基因缺失等级序列与目标数据库中基因缺失等级序列B的相似度值，从目标数据库中的多个基因缺失等级序列（基因缺失等级序列A和基因缺失等级序列B）中确定目标基因缺失等级序列。可选地，在待测样本对应的基因缺失等级序列与目标数据库中基因缺失等级序列A的相似度值小于待测样本对应的基因缺失等级序列与目标数据库中基因缺失等级序列B的相似度值的情况下，也就是目标数据库中基因缺失等级序列B与待测样本对应的基因缺失等级序列相似程度最高，则将目标数据库中基因缺失等级序列B作为目标基因缺失等级序列；进而根据目标数据库中各个基因缺失等级序列与地中海贫血的类型的对应关系，也就可以确定目标基因缺失等级序列所对应的地中海贫血类型；进而由于目标基因缺失等级序列与待测样本对应的基因缺失等级序列相似程度最高，因而也就可以将目标基因缺失等级序列对应的地中海贫血类型作为分析的一个方向，也就是将待测样本的基因缺失等级序列的比对结果作为中间结果，并结合平均红细胞体积、平均红细胞血红蛋白含量和血红蛋白电泳等其它检测结果，对待测样本进一步进行分析和排查，提高分析和排查的针对性。

上述实施例的装置，通过将待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的基因缺失等级序列A中对应的各个元素的相似度值进行相加求和，作为待测样本对应的基因缺失等级序列与目标数据库中基因缺失等级序列A的相似度值；进而根据待测样本对应的基因缺失等级序列与目标数据库中各个基因缺失等级序列的相似度值，也就可以从目标数据库中的多个基因缺失等级序列中确定目标基因缺失等级序列，准确高效的实现了对目标数据库中各个基因缺失等级序列与待测样本对应的基因缺失等级序列的相似程度的准确判定，从而也就可以准确的从目标数据库中确定与待测样本对应的基因缺失等级序列相似程度最高的基因缺失等级序列，也就实现了目标基因缺失等级序列的准确识别。

在一实施例中，识别模块用于：

在待测样本对应的基因缺失等级序列中目标元素的基因缺失等级与目标数据库中的基因缺失等级序列中对应元素的基因缺失等级相同的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与目标数据库中基因缺失等级序列中对应元素的相似度值为1；目标元素为待测样本对应的基因缺失等级序列中的任意一个元素；

在待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第一等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第三等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与基因缺失等级序列中对应元素的相似度值为-2；或，在待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第三等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第一等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与基因缺失等级序列中对应元素的相似度值为-2；

在待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第一等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第二等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与基因缺失等级序列中对应元素的相似度值为-1；或，在待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第二等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第一等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与基因缺失等级序列中对应元素的相似度值为-1；

在待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第二等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第三等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与基因缺失等级序列中对应元素的相似度值为-1；或，在待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第三等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第二等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与基因缺失等级序列中对应元素的相似度值为-1。

具体地，本发明实施例在确定待测样本对应的基因缺失等级序列与目标数据库中各个基因缺失等级序列的相似度值的过程中，首先需要确定待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的各个基因缺失等级序列中对应的各个元素的相似度值，进而将待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的基因缺失等级序列A中对应的各个元素的相似度值进行相加求和，作为待测样本对应的基因缺失等级序列与目标数据库中基因缺失等级序列A的相似度值；进而根据待测样本对应的基因缺失等级序列与目标数据库中各个基因缺失等级序列的相似度值，也就可以从目标数据库中的多个基因缺失等级序列中确定目标基因缺失等级序列。

可选地，在确定待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的各个基因缺失等级序列中对应的各个元素的相似度值的过程中，若待测样本对应的基因缺失等级序列中目标元素（如元素1，即待测样本对应的基因缺失等级序列中的第一个基因）的基因缺失等级与目标数据库中的基因缺失等级序列A中对应元素（元素1，即目标数据库中的基因缺失等级序列A中的第一个基因）的基因缺失等级相同的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与目标数据库中基因缺失等级序列中对应元素的相似度值为1；目标元素为待测样本对应的基因缺失等级序列中的任意一个元素。

示例性的，如图2和图3所示，本发明实施例中的基于高通量测序识别基因缺失的装置确定待测样本的识别结果的过程如下：

（1）第一确定模块根据目标基因(HBA2、HBA1)及其附近设计11个探针用来区分目标基因的各种缺失类型(-SEA,-3.7,4.2,5.2,THAI,FIL,20.5,MED等)，并同时在基因组上设计5个探针作为内参对照。可选地，探针设计区间如表1所示。

（2）第一确定模块获取每个探针区间的去重复后的平均测序深度；

（3）第一确定模块对获取的11个探针区间深度均一化：

探针H均一化值1=探针H平均深度/探针C1平均深度；

探针H均一化值2=探针H平均深度/探针C2平均深度；

探针H均一化值3=探针H平均深度/探针C3平均深度；

探针H均一化值4=探针H平均深度/探针C4平均深度；

探针H均一化值5=探针H平均深度/探针C5平均深度；

探针A均一化值1=探针A平均深度/探针C1平均深度；

探针A均一化值2=探针A平均深度/探针C2平均深度；

探针A均一化值3=探针A平均深度/探针C3平均深度；

探针A均一化值4=探针A平均深度/探针C4平均深度；

探针A均一化值5=探针A平均深度/探针C5平均深度；

… …

探针L均一化值1=探针L平均深度/探针C1平均深度；

探针L均一化值2=探针L平均深度/探针C2平均深度；

探针L均一化值3=探针L平均深度/探针C3平均深度；

探针L均一化值4=探针L平均深度/探针C4平均深度；

探针L均一化值5=探针L平均深度/探针C5平均深度；

（4）第一确定模块模块对各探针均一化值取均一化值的中位值，如探针H最终均一化值为探针H均一化值1、探针H均一化值2、探针H均一化值3、探针H均一化值4、探针H均一化值5的中位值；

（5）第二确定模块确定待测样本中的各个基因的缺失程度值：各个基因的缺失程度值=待测样本探针均一化值/对照样本探针均一化值，如探针H区间基因缺失等级=待测样本探针H均一化值/对照样本探针H均一化值；

（6）第二确定模块确定待测样本中的各个基因的基因缺失等级，将每个探针区间根据基因缺失程度值划分三个等级A,B,C，最终检测样本得到11个探针区间组字符组合（如：CCCCCBBBBCC）

第三等级C: 0.66 – 1.66；

第二等级B: 0.3 – 0.66；

第一等级A: 0 – 0.3；

（7）识别模块根据待测样本对应的基因缺失等级序列和目标数据库，确定待测样本的识别结果，即计算11个探针区间字符组合与目标数据库比较，打分规则如下：

a) A与A、B与B、C与C正确匹配得1分；

b) A与B、B与C错误匹配得-1分；

c) A与C错误匹配得-2分；

d) 与分型数据库依次打分，取分值最大为最终分型结果。

例如，目标数据库中存储的多个基因缺失等级序列及各个基因缺失等级序列所对应的地中海贫血的类型，如表2所示：

表2

/>

示例性的，待测样本对应的基因缺失等级序列与目标数据库中的多个基因缺失等级序列（aa/-3.7）的比对结果如表3所示：

表3

示例性的，如图4、图5、图6、图7、图8所示，可以通过可视化效果图对基于高通量测序识别出的基因缺失结果进行展示，提升可视化效果。

本发明实施例的装置具有高通量，低成本等诸多优点，适合用于大规模的早筛，可以实现高质量、高准确性和低成本对待测样本进行检测的效果，提高分析和排查的针对性。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于高通量测序识别基因缺失的装置，其特征在于，包括：

第一确定模块，用于确定待测样本对应的目标探针组中的各个目标探针的测序深度和对照样本对应的各个目标探针的测序深度；所述待测样本对应的目标探针组中的各个目标探针的测序深度是经过内参对照的探针深度均一化后确定的；所述对照样本对应的各个目标探针的测序深度是经过内参对照的探针深度均一化后确定的；

第二确定模块，用于根据待测样本的各个目标探针的测序深度和对照样本对应的各个目标探针的测序深度，确定待测样本的各个目标探针对应的基因缺失等级；所述基因缺失等级用于表示基因的缺失程度；

识别模块，用于根据待测样本的各个目标探针对应的基因缺失等级，生成待测样本对应的基因缺失等级序列;

将所述待测样本对应的基因缺失等级序列中的各个元素与目标数据库中的各个基因缺失等级序列中对应的各个元素进行比对，确定待测样本对应的基因缺失等级序列中的各个元素与所述目标数据库中的各个基因缺失等级序列中对应的各个元素的相似度值；

根据待测样本对应的基因缺失等级序列中的各个元素与所述目标数据库中的各个基因缺失等级序列中对应的各个元素的相似度值，确定所述待测样本对应的基因缺失等级序列与所述目标数据库中各个基因缺失等级序列的相似度值；

根据待测样本对应的基因缺失等级序列与目标数据库中的各个基因缺失等级序列的相似度值，从所述目标数据库中的多个基因缺失等级序列中确定目标基因缺失等级序列；所述目标基因缺失等级序列为所述目标数据库中的多个基因缺失等级序列中的一个；所述目标基因缺失等级序列与所述待测样本对应的基因缺失等级序列相似程度最高；目标数据库用于存储多个基因缺失等级序列及各个基因缺失等级序列所对应的缺失类型。

2.根据权利要求1所述的基于高通量测序识别基因缺失的装置，其特征在于，所述目标探针组包括N个探针；所述N个探针分别位于目标基因区域的N个目标区间内。

3.根据权利要求2所述的基于高通量测序识别基因缺失的装置，其特征在于，所述目标探针组包括11个探针，所述11个探针对应的区间如下，其中，染色体区间为基于人类参考基因组hg19版本确定：

4.根据权利要求3所述的基于高通量测序识别基因缺失的装置，其特征在于，所述第二确定模块还用于：

基于人类参考基因组hg19版本或者人类参考基因组其他目标版本，确定目标探针组中各个探针所对应区间的起始位置和终止位置：所述目标版本包括以下至少一项：hg19、hg38、GRCh38和T2T。

5.根据权利要求1所述的基于高通量测序识别基因缺失的装置，其特征在于，所述第二确定模块用于：

6.根据权利要求5所述的基于高通量测序识别基因缺失的装置，其特征在于，所述第二确定模块用于：

对于待测样本中的各个基因的缺失程度值，在所述缺失程度值小于或等于第一阈值的情况下，确定基因缺失等级为第一等级；

在所述缺失程度值大于第一阈值且小于等于第二阈值的情况下，确定基因缺失等级为第二等级；

在所述缺失程度值大于第二阈值且小于等于第三阈值的情况下，确定基因缺失等级为第三等级。

7.根据权利要求6所述的基于高通量测序识别基因缺失的装置，其特征在于，所述第二确定模块用于：

对于待测样本中的各个基因的缺失程度值，在所述缺失程度值小于或等于0.3的情况下，确定基因缺失等级为第一等级；

在所述缺失程度值大于0.3且小于等于0.66的情况下，确定基因缺失等级为第二等级；

在所述缺失程度值大于0.66且小于等于1.66的情况下，确定基因缺失等级为第三等级。

8.根据权利要求6所述的基于高通量测序识别基因缺失的装置，其特征在于，所述识别模块用于：

在所述待测样本对应的基因缺失等级序列中目标元素的基因缺失等级与目标数据库中的基因缺失等级序列中对应元素的基因缺失等级相同的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与所述目标数据库中基因缺失等级序列中对应元素的相似度值为1；所述目标元素为所述待测样本对应的基因缺失等级序列中的任意一个元素；

在所述待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第一等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第三等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与所述目标数据库中基因缺失等级序列中对应元素的相似度值为-2；或，在所述待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第三等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第一等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与所述目标数据库中基因缺失等级序列中对应元素的相似度值为-2；

在所述待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第一等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第二等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与所述目标数据库中基因缺失等级序列中对应元素的相似度值为-1；或，在所述待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第二等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第一等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与所述目标数据库中基因缺失等级序列中对应元素的相似度值为-1；

在所述待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第二等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第三等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与所述目标数据库中基因缺失等级序列中对应元素的相似度值为-1；或，在所述待测样本对应的基因缺失等级序列中目标元素的基因缺失等级为第三等级且目标数据库中的基因缺失等级序列中对应元素的基因缺失等级为第二等级的情况下，确定待测样本对应的基因缺失等级序列中的目标元素与所述目标数据库中基因缺失等级序列中对应元素的相似度值为-1。