CN115312121A - 靶基因位点检测方法、装置、介质及程序产品 - Google Patents
靶基因位点检测方法、装置、介质及程序产品 Download PDFInfo
- Publication number
- CN115312121A CN115312121A CN202211195986.3A CN202211195986A CN115312121A CN 115312121 A CN115312121 A CN 115312121A CN 202211195986 A CN202211195986 A CN 202211195986A CN 115312121 A CN115312121 A CN 115312121A
- Authority
- CN
- China
- Prior art keywords
- sequence
- target
- preset
- gene locus
- target gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种靶基因位点检测方法、装置、介质及程序产品。该方法包括:获取测序数据;根据多组不同预设短序列组分别对各测序结果进行目标序列识别,生成多个与各预设短序列组一一对应的第一目标序列集合;将各目标序列分别与预设长序列比对,并根据比对结果生成多个与各第一目标序列集合一一对应的第二目标序列集合;根据各目标序列的长度,将第一目标序列长度分布集合和第二目标序列长度分布集合进行交集处理,得到多个交集集合;根据各交集集合中各目标序列的靶基因位点序列长度,确定与分析样本的靶基因位点序列对应的序列长度。本申请提供靶基因位点检测方法得到的靶基因位点序列的序列长度准确性高。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种靶基因位点检测方法、装置、介质及程序产品。
背景技术
短串联重复序列(short tandem repeats,STR),是指基因组中由1-6个碱基单元组成的一段DNA重复序列。由于其重复单元的重复次数在个体间具有高度特异性且数量丰富,因此构成了STR的遗传多态性。一般的,人类基因组平均每15 kb就存在一个STR,并且不同个体间重复单元的数目是可变的,从而形成了极其复杂的等位核酸片段长度的多态性。由于STR具有种类多、分布广泛、突变率低、多态性程度高、鉴别能力强、灵敏度高等特点,因此STR检测和分型广泛应用于遗传制图、法医学鉴定、亲子鉴定、疾病基因定位、物种多态性和遗传病的诊断等诸多领域。
纳米孔测序技术,是一种在DNA测序时,不需要经过PCR扩增即可实现对每一条DNA分子单独测序的技术。相较于二代测序(Next generation sequencing, NGS)可以测到上百个碱基的短读长,纳米孔测序技术的测序读长可以达到几千至几万个碱基,甚至可以达到几兆碱基级别的超长读长。
相关技术中,基于NGS((Next Generation Sequencing)测序平台(例如Illumina)的测序读长较短,无法满足精确的STR检测和分型。比如:STR的总重复长度大于测序读长,则短读长的测序方法通常不足以精确的进行STR检测和分型。虽然纳米孔测序技术的长读长测序可以解决由于短读长导致的STR检测和分型不准确的技术问题,但其非随机的系统错误、非预期的短插入及缺失(InDels)、碱基判读模型自身识别错误等,都使得将基于纳米孔测序技术得到的测序结果直接用于STR检测或STR分型准确性不高。
发明内容
本申请实施例提供了一种靶基因位点检测方法、装置、介质及程序产品,能够解决现有的测序结果直接用于STR检测或STR分型准确性不高的技术的问题。
第一方面,本申请实施例提供一种靶基因位点检测方法,方法包括:
获取测序数据,测序数据包括与同一分析样本对应的多个测序结果;
根据多组不同预设短序列组分别对各测序结果进行目标序列识别,生成多个与各预设短序列组一一对应的第一目标序列集合,第一目标序列集合包括至少一个包含靶基因位点序列的目标序列,预设短序列组包括位于靶基因位点序列上游的第一预设识别短序列和位于靶基因位点序列下游的第二预设识别短序列;
针对每一第一目标序列集合,将各目标序列分别与预设长序列比对,并根据比对结果生成多个与各第一目标序列集合一一对应的第二目标序列集合,预设长序列包括位于靶基因位点序列上游的第一预设识别长序列、位于靶基因位点序列下游的第二预设识别长序列和靶基因位点序列,第一预设识别长序列至少包括各第一预设识别短序列,第二预设识别长序列至少包括各第二预设识别短序列;
根据各目标序列的长度,生成多个与第一目标序列集合一一对应的第一目标序列长度分布集合,以及多个与第二目标序列集合一一对应的第二目标序列长度分布集合,将第一目标序列长度分布集合、以及与该第一目标序列长度分布集合对应的第二目标序列长度分布集合进行交集处理,得到多个交集集合;
根据各交集集合中目标序列的靶基因位点序列的长度,确定与分析样本的靶基因位点序列对应的序列长度。
在一些实施例中,根据多组不同预设短序列组分别对各测序结果进行目标序列识别,生成多个与各预设短序列组一一对应的第一目标序列集合之前,靶基因位点检测方法还包括:
接收输入的靶基因识别标识,在预设参考基因组中确定与靶基因识别标识对应的靶基因位点序列;
在上游序列中选取多个不同序列设置为第一预设识别短序列,在下游序列中选取多个不同序列设置为第二预设识别短序列,其中,上游序列为预设参考基因组中位于靶基因位点序列上游的序列,下游序列为预设参考基因组中位于靶基因位点序列下游的序列;
将多个第一预设识别短序列和多个第二预设识别短序列配对组成多个不同的预设短序列组。
在一些实施例中,多个第一预设识别短序列和多个第二预设识别短序列的长度均为第一预设长度。
在一些实施例中,在上游序列中选取多个不同序列设置为第一预设识别短序列,在下游序列中选取多个不同序列设置为第二预设识别短序列,包括:
基于第一预设步长,以靶基因位点序列的起始碱基向靶基因位点序列的上游方向,在上游序列中依次选取第一预设长度的序列为第一预设识别短序列,直至选取的第一预设识别短序列等于预设数量;
基于第二预设步长,以靶基因位点序列的终止碱基向靶基因位点序列的下游方向,在下游序列中依次选取第一预设长度的序列为第二预设识别短序列,直至选取的第二预设识别短序列等于预设数量。
在一些实施例中,第一预设步长等于第二预设步长,第二预设步长等于第一预设长度。
在一些实施例中,将多个第一预设识别短序列和多个第二预设识别短序列配对组成多个不同的预设短序列组,包括:
将间隔距离一致的第一预设识别短序列和第二预设识别短序列配对,组成预设数量的预设短序列组,间隔距离为第一预设识别短序列或第二预设识别短序列到靶基因位点序列的碱基数。
在一些实施例中,将第一目标序列长度分布集合、以及与该第一目标序列长度分布集合对应的第二目标序列长度分布集合进行交集处理,得到多个交集集合之后,包括:
根据各目标序列长度的测序支持数分别对第一目标序列长度分布集合中各目标序列长度进行排序,对第二目标序列长度分布集合中各目标序列长度进行排序;
确定交集集合中各目标序列长度在第一目标序列长度分布集合中的第一排序,以及在第二目标序列长度分布集合中的第二排序;
在一目标序列长度对应的第一排序和第二排序的差值大于或等于第一预设阈值的情况下,从交集集合中删除该目标序列长度。
在一些实施例中,将第一目标序列长度分布集合、以及与该第一目标序列长度分布集合对应的第二目标序列长度分布集合进行交集处理,得到多个交集集合之后,靶基因位点检测方法包括:
在交集集合具有多个目标序列长度的情况下,根据各目标序列长度的测序支持数,确定最大测序支持数和次大测序支持数;
在最大测序支持数与次大测序支持数的比值大于第二预设阈值的情况下,在交集集合中删除与次大测序支持数对应的目标序列长度。
在一些实施例中,根据各交集集合中目标序列的靶基因位点序列的长度,确定与分析样本的靶基因位点序列对应的序列长度,包括:
根据交集集合中目标序列长度中的靶基因位点序列长度,确定多个靶基因位点序列长度的众数;
根据众数、以及目标序列长度对应的测序支持数,确定与分析样本的靶基因位点序列对应的序列长度。
在一些实施例中,靶基因位点序列为STR位点序列;根据各交集集合中目标序列的靶基因位点序列的长度,确定与分析样本的靶基因位点序列对应的序列长度之后,包括:
获取靶基因位点序列的重复特征;
根据与分析样本的靶基因位点序列对应的序列长度、以及靶基因位点序列的重复特征,确定与分析样本对应的STR分型结果。
在一些实施例中,第二目标序列集合中各目标序列与预设长序列的比对错配数小于或等于第三预设阈值。
第二方面,本申请实施例提供一种靶基因位点检测装置,装置包括:
获取模块,用于获取测序数据,测序数据包括与同一分析样本对应的多个测序结果;
识别模块,用于根据多组不同预设短序列组分别对各测序结果进行目标序列识别,生成多个与各预设短序列组一一对应的第一目标序列集合,第一目标序列集合包括至少一个包含靶基因位点序列的目标序列,预设短序列组包括位于靶基因位点序列上游的第一预设识别短序列和位于靶基因位点序列下游的第二预设识别短序列;
识别模块还用于针对每一第一目标序列集合,将各目标序列分别与预设长序列比对,并根据比对结果生成多个与各第一目标序列集合一一对应的第二目标序列集合,预设长序列包括位于靶基因位点序列上游的第一预设识别长序列、位于靶基因位点序列下游的第二预设识别长序列和靶基因位点序列,第一预设识别长序列至少包括各第一预设识别短序列,第二预设识别长序列至少包括各第二预设识别短序列;
交集模块,用于根据各目标序列的长度,生成多个与第一目标序列集合一一对应的第一目标序列长度分布集合,以及多个与第二目标序列集合一一对应的第二目标序列长度分布集合,将第一目标序列长度分布集合、以及与该第一目标序列长度分布集合对应的第二目标序列长度分布集合进行交集处理,得到多个交集集合;
确定模块,用于根据各交集集合中目标序列的靶基因位点序列的长度,确定与分析样本的靶基因位点序列对应的序列长度。
第三方面,本申请实施例提供了一种靶基因位点检测设备,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如上的靶基因位点检测方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如上的靶基因位点检测方法。
第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序指令,计算机程序指令被处理器执行时实现如上的靶基因位点检测方法。
本申请实施例提供的靶基因位点检测方法、装置、介质及程序产品,通过设置多个预设短序列组,从而可以从多个测序结果中较为准确地识别得到包含靶基因位点序列的目标序列,由于预设短序列组中包含位于靶基因位点序列上游的第一预设识别短序列、以及位于靶基因位点序列下游的第二预设识别短序列,使得无论测序结果的靶基因位点序列是否产生测序的错误,均能通过预设短序列组识别得到包含靶基因位点序列的目标序列。通过设置预设长序列对第一目标序列集合中的目标序列进行比对,得到第二目标序列集合,并将第一目标序列集合对应的第一目标序列长度分布集合,以及与第二目标序列集合对应的第二目标序列长度分布集合进行交集处理,从而可以对通过预设短序列组识别得到的目标序列进行清洗,得到数据准确性更高的交集集合,提高数据处理的准确性。从而可以根据该交集集合得到分析样本的靶基因位点序列对应的序列长度,即实现STR检测。通过分析样本的多个靶基因位点序列的序列长度,还可以实现对分析样本的STR分型。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的靶基因位点检测方法的流程示意图;
图2是本申请一实施例提供的靶基因位点检测方法中预设参考基因组的部分序列表;
图3是本申请一实施例提供的靶基因位点检测方法的流程示意图之一;
图4是本申请一实施例提供的靶基因位点检测方法中预设参考基因组的部分序列表;
图5是本申请一实施例提供的靶基因位点检测方法的流程示意图之一;
图6本申请一实施例提供的靶基因位点检测方法的原理示意图;
图7是本申请一实施例提供的靶基因位点检测方法的流程示意图之一;
图8是本申请一实施例提供的靶基因位点检测方法的流程示意图之一;
图9是本申请一实施例提供的靶基因位点检测方法的流程示意图之一;
图10是本申请一实施例提供的靶基因位点检测装置的结构示意图;
图11是本申请一实施例提供的靶基因位点检测设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请的更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
本申请实施例提供了一种靶基因位点检测方法、装置、介质及程序产品。下面首先对本申请实施例所提供的靶基因位点检测方法进行介绍。
图1示出了本申请一个实施例提供的靶基因位点检测方法的流程示意图。该方法包括以下步骤:
S101,获取测序数据,测序数据包括与同一分析样本对应的多个测序结果;
分析样本为需要进行STR检测或STR分型分析的生物样本。将该分析样本直接或处理后放入测序仪中,测序仪生成与该分析样本对应的多个测序结果,多个测序结果组成测序数据。测序结果为多个碱基排列组成的基因序列,一个测序结果对应分析样本中的一个核酸片段。分析样本具体可以是人类核酸片段,也可以是其他可进行STR检测或STR分型的生物核酸片段。
在一实施例中,该测序数据为通过纳米孔测序得到的数据。测序仪提供电场,在电场驱动下分析样本中的待测核酸片段通过纳米孔测序通道,检测待测核酸片段通过纳米孔测序通道时引起的电流等电信号变化,根据电信号变化分析得到待测核酸片段的尺寸信息、序列信息、同一性信息、修饰信息等。
在获取测序数据之后,还可以对测序数据进行预处理,以提高后续数据处理的准确性。示例性地,预处理包括去除测序接头序列、测序商品标签序列、时间标签序列等。例如:可通过Porechop软件去除实验建库过程中加入的测序接头序列及barcode序列。
S102,根据多组不同预设短序列组分别对各测序结果进行目标序列识别,生成多个与各预设短序列组一一对应的第一目标序列集合,第一目标序列集合包括至少一个包含靶基因位点序列的目标序列,预设短序列组包括位于靶基因位点序列上游的第一预设识别短序列和位于靶基因位点序列下游的第二预设识别短序列;
靶基因位点可以为预先根据预设参考基因组确定的需要分析的STR位点,靶基因位点序列为该STR位点对应的核酸序列。在预设参考基因组中已标记多种STR位点,以及各STR位点在预设参考基因组中的起始碱基位置和终止碱基位置、STR位点中重复单元的序列、重复次数、整体长度等。本领域技术人员可以根据需要选择合适的预设参考基因组。示例性地,在针对人类基因片段进行分析的情况下,预设参考基因组可以选取人类参考基因组GRCh36、人类参考基因组GRCh38、人类参考基因组GRCh37等中的任意一个。STR位点可以选取D12S391、D18S51、D22S1045、DYS635、DYS437、DYS438、DYS390、DYS392、DYS448和DYS458等中的任意一个或几个。
可以根据选定的预设参考基因组中的靶基因位点序列,预先通过随机、人工等方式选取靶基因位点序列上游的多个序列作为第一预设识别短序列,预先通过随机、人工等方式选取靶基因位点序列下游的多个序列作为第二预设识别短序列。在多个第一预设识别短序列中任选一个第一预设识别短序列,并在多个第二预设识别短序列中任选一个第二预设识别短序列组成预设短序列组。即一个预设短序列组必然包括一个位于靶基因位点序列上游的序列以及一个位于靶基因位点序列下游的序列。
通过预设短序列组与测序结果进行比对,则可以在测序结果中比对得到包含第一预设识别短序列和第二预设识别短序列的目标序列,该目标序列中还包括分析样本的靶基因位点序列。
在设置有多组不同预设短序列组的情况下,则分别用各预设短序列组对各测序结果进行目标序列识别,获得多个第一目标序列集合,一个第一目标序列集合与一个预设短序列组对应,第一目标序列集合中的一个目标序列与一个测序结果对应。
请参阅图2,为预设参考基因组GRCh38(p12版)的部分基因序列,其中包含STR位点DYS392,该STR位点的重复单元序列为[ATA],重复次数为13。在一实施例中,选取STR位点上游3个序列为第一预设识别短序列、下游3个序列为第二预设识别短序列,组成5个预设短序列组,具体如下表1:
表1
本领域技术人员可以理解的是,在第一预设识别短序列为TCCTTAGTAA,第二预设识别短序列为AATAAATGGT的情况下,对各测序结果进行目标序列识别,得到的目标序列为测序数据中包括TCCTTAGTAA-靶基因位点序列-AATAAATGGT的测序结果。
S103,针对每一第一目标序列集合,将各目标序列分别与预设长序列比对,并根据比对结果生成多个与各第一目标序列集合一一对应的第二目标序列集合,预设长序列包括位于靶基因位点序列上游的第一预设识别长序列、位于靶基因位点序列下游的第二预设识别长序列和靶基因位点序列,第一预设识别长序列至少包括各第一预设识别短序列,第二预设识别长序列至少包括各第二预设识别短序列;
同样地,可以根据选定的预设参考基因组中的靶基因位点序列,预先通过随机、人工等方式选取靶基因位点序列上游的任意长度的序列作为第一预设识别长序列,预先通过随机、人工等方式选取靶基因位点序列下游的任意长度的序列作为第二预设识别长序列。依次连接的第一预设识别长序列、靶基因位点序列和第二预设识别长序列作为预设长序列。与预设识别短序列不同的是,预设识别长序列用于对已识别得到的目标序列进行比对,预设识别长序列的长度大于预设识别短序列,且预设识别长序列包含所有预设识别短序列。
通过目标序列分别与预设长序列进行比对,可以对通过预设短序列组得到的目标序列进行检测,将部分由于测序平台本身非随机的系统错误、非预期的短插入及缺失(InDels)、碱基判读模型自身识别错误等导致的错误目标序列排除在第二目标序列集合之外。本领域技术人员可以理解的,若预设长序列的长度过长,则对目标序列的比对过于严格,比对耗时长,若预设长序列的长度过短,则比对耗时短,但达不到识别具有错误碱基序列的目标序列的作用,所以预设长序列过长或过短均不利于后续数据分析。可选地,设置第一预设识别长序列和第二预设识别长序列的长度分别大于或等于100bp。还可以设置第一预设识别长序列的长度大于或等于500bp。优选地,第一预设识别长序列的长度大于或等于1000bp。设置第二预设识别长序列的长度大于或等于500bp。优选地,第二预设识别长序列的长度大于或等于1000bp。
由于预设短序列组中预设识别短序列的长度较短,所以可以采用一对一完全比对正确的方式,通过预设短序列组对测序结果进行目标序列识别。而相对于预设短序列组,预设长序列的长度较长,若采用一对一完全比对正确的方式,则可能导致比对成功率较低,第二目标序列集合中样本数量过低,所以预设长序列与目标序列的比对可设置一定的错配率。在一实施例中,第二目标序列集合中各目标序列与预设长序列的比对错配数小于或等于第三预设阈值。可选地,第三预设阈值为3。本领域技术人员可以理解的是,通过预设短序列识别得到目标序列的过程中,同样可以设置预设短序列和目标序列的错配数。当然还可以将错配数设置为0,以使预设短序列和目标序列能完全比对上。
请继续参阅图2,为预设参考基因组GRCh38(p12版)的部分基因序列,其中包含STR位点DYS392,该STR位点具体重复单元序列为[ATA],重复次数为13。在一实施例中,选取STR位点上游500bp的碱基序列为第一预设长序列、下游500bp的碱基序列为第二预设长序列,得到如图2所示的碱基序列。
S104,根据各目标序列的长度,生成多个与各第一目标序列集合一一对应的第一目标序列长度分布集合,以及多个与各第二目标序列集合一一对应的第二目标序列长度分布集合,将第一目标序列长度分布集合、以及与该第一目标序列长度分布集合对应的第二目标序列长度分布集合进行交集处理,得到多个交集集合;
第一目标序列集合中包括多个目标序列,对各目标序列的长度进行统计,得到至少一个序列长度,一个或多个序列长度组成与第一目标序列集合对应的第一目标序列长度分布集合。
同样对第二目标序列集合中各目标序列的长度进行统计,得到至少一个序列长度,一个或多个序列长度组成与第二目标序列集合对应的第二目标序列长度分布集合。
将第一目标序列集合对应的第一目标序列长度分布集合、以及通过该第一目标序列集合比对得到的第二目标序列集合所对应的第二目标序列长度分布集合进行交集处理,则得到一个与预设短序列组得到的第一目标序列集合对应的交集集合,该交集集合中至少包括一个序列长度。
例如,预设短序列组1、2、3一一对应一个第一目标序列集合,通过对各第一目标序列集合内的序列长度进行统计,则可以得到与各第一目标序列集合对应的第一目标序列长度分布集合。预设短序列组1对应的第一目标序列集合中仅包括序列长度59bp,预设短序列组2对应的第一目标序列集合中仅包括序列长度79bp,预设短序列组3对应的第一目标序列集合中包括序列长度99bp和97bp。
将第一目标序列集合中的目标序列与预设长序列进行比对,得到第二目标序列集合,对第二目标序列集合中各目标序列的长度统计,则可以得到与各第一目标序列集合对应的第二目标序列长度分布集合。预设短序列组1对应的第二目标序列长度分布集合中仅包括序列长度59bp,预设短序列组2对应的第二目标序列长度分布集合中仅包括79bp,预设短序列组3对应的第二目标序列长度分布集合中仅包括99bp。那么将第一目标序列长度分布集合、以及与该第一目标序列长度分布集合对应的第二目标序列长度分布集合进行交集处理,得到与预设短序列组1对应的交集集合为{59bp}、与预设短序列组2对应的交集集合为{79bp}、以及与预设短序列组3对应的交集集合为{99bp},则通过与预设长序列比对,可以清洗第一目标序列集合中部分可能由于测序错误导致的错误目标序列。
S105,根据各交集集合中目标序列的靶基因位点序列的长度,确定与分析样本的靶基因位点序列对应的序列长度。
由于各个目标序列均通过预设短序列组识别得到,即各目标序列均包括与对应的预设短序列组相同的序列,由于预设短序列组中的第一预设识别短序列和第二预设识别短序列在预设参考基因组中与靶基因位点序列的间隔长度已知,那么通过目标序列的序列长度、以及预设短序列组的间隔长度即可得到各目标序列的靶基因位点序列长度。
不同交集集合得到的靶基因位点序列长度可能不同,当具有多个靶基因位点序列长度的情况下,则可以将出现次数最多的靶基因位点序列长度作为分析样本的靶基因位点序列对应的序列长度。
例如:多个交集集合分别为{59bp}、{79bp}和{99bp},已知预设短序列组1中,第一预设识别短序列的起始碱基到靶基因位点序列的长度为10bp,第二预设识别短序列的终止碱基到靶基因位点序列的长度为10bp,那么交集集合{59bp}对应的靶基因位点序列长度为39。同理已知预设短序列组2中,第一预设识别短序列的起始碱基到靶基因位点序列的长度为20bp,第二预设识别短序列的终止碱基到靶基因位点序列的长度为20bp,那么交集集合{79bp}对应的靶基因位点序列长度为39。同理已知预设短序列组3中,第一预设识别短序列的起始碱基到靶基因位点序列的长度为30bp,第二预设识别短序列的终止碱基到靶基因位点序列的长度为30bp,那么交集集合{99bp}对应的靶基因位点序列长度为39。那么可以得到该分析样本的靶基因位点序列对应的序列长度为39bp。
在本实施例中,通过设置多个预设短序列组,从而可以从多个测序结果中较为准确地识别得到包含靶基因位点序列的目标序列,由于预设短序列组中包含位于靶基因位点序列上游的第一预设识别短序列、以及位于靶基因位点序列下游的第二预设识别短序列,使得无论测序结果的靶基因位点序列是否产生测序的错误,均能通过预设短序列组识别得到包含靶基因位点序列的目标序列。通过设置预设长序列对第一目标序列集合中的目标序列进行比对,得到第二目标序列集合,并将第一目标序列集合对应的第一目标序列长度分布集合,以及与第二目标序列集合对应的第二目标序列长度分布集合进行交集处理,从而可以对通过预设短序列组识别得到的目标序列进行清洗,得到数据准确性更高的交集集合,提高数据处理的准确性。从而可以根据该交集集合得到分析样本的靶基因位点序列对应的序列长度,即实现STR检测。通过分析样本的多个靶基因位点序列的序列长度,还可以实现对分析样本的STR分型。本申请提供的靶基因位点检测方法可以从数据特征层面上有效规避掉非随机的测序系统错误以及非预期的indel或较高测序错误导致的靶基因位点序列比对假阴性,提升了测序数据的有效利用率,提高了STR检测及STR分型的检出率,并且本申请测序数据量及计算量小,降低了测序及数据分析成本。
请参阅图3,在一实施例中,S102之前,靶基因位点检测方法还包括:
S301、接收输入的靶基因识别标识,在预设参考基因组中确定与靶基因识别标识对应的靶基因位点序列;
用户对执行本申请靶基因位点检测方法的电子设备输入靶基因识别标识。具体可以借助电子设备的触控屏、以及与电子设备连接的鼠标、遥控设备、键盘等其他输入设备执行的输入操作。靶基因识别标识为与靶基因位点一一对应的标识,可以预先存储预设参考基因组、预设参考基因组中各靶基因位点序列、以及靶基因位点序列与靶基因识别标识的映射关系,从而通过该靶基因识别标识即可在预设参考基因组中确定与靶基因识别标识对应的靶基因位点序列。
通过靶基因识别标识确定靶基因位点序列,使得用户可以根据需要选择不同的靶基因位点序列,以针对不同靶基因位点对分析样本进行分析,得到分析样本的不同靶基因位点序列的序列长度。当然,还可以接受用户输入的参考基因组识别标识,确定与参考基因组识别标识对应的预设参考基因组,以使用户可以根据需要选择不同的预设参考基因组。
S302、在上游序列中选取多个不同序列设置为第一预设识别短序列,在下游序列中选取多个不同序列设置为第二预设识别短序列,其中,上游序列为预设参考基因组中位于靶基因位点序列上游的序列,下游序列为预设参考基因组中位于靶基因位点序列下游的序列;
S303、将多个第一预设识别短序列和多个第二预设识别短序列配对组成多个不同的预设短序列组。
上游序列到下游序列的方向可以是5’端到3’端方向,也可以是3’端到5’端方向,本实施例不做限制。可以根据需要参照一定规律、或随机在上游序列中选取n个预设长度的序列为第一预设识别短序列,在下游选取n个预设长度的序列为第二预设识别短序列。在多个第一预设识别短序列中选取任意一个,在多个第二预设识别短序列中选取任意一个,组成预设短序列组。本领域技术人员可以根据需要设置第一预设识别短序列的预设长度和第二预设识别短序列的预设长度的大小。本领域技术人员可以理解的,若第一预设识别短序列和第二预设识别短序列的长度过长,则目标序列的识别准确率较高,但获得目标序列数量较小,比对计算的时间长;若第一预设识别短序列和第二预设识别短序列的长度过短,则比对计算的时间短,获得目标序列数量较多,目标序列的识别准确率较低,目标序列数量较小或较多均不利于后续数据分析。可选地,设置第一预设识别短序列大于10bp且小于30bp,设置第二预设识别短序列的长度大于10bp且小于30bp。
任意两个第一预设识别短序列,或任意两个第二预设识别短序列的长度可以相同也可以不同,在预设参考基因组中,两者可以间隔设置、相邻设置、或重叠设置。例如图4所示实施例中,在靶基因位点序列[ATA]*13的上游序列框选多个第一预设识别短序列,其中第一预设识别短序列“ATATCTCAAA”与第一预设识别短序列“GAAGTCAAAA”相邻设置,第一预设识别短序列“GAAGTCAAAA”与第一预设识别短序列“GAGGGATCAT”间隔设置,中间间隔两个碱基CA,第一预设识别短序列“GAGGGATCAT”与第一预设识别短序列“CATTAAACCT”重叠设置,“CAT”重叠。
示例性地,在上游序列中选取第一预设识别短序列A1、B1、C1,在下游序列中选取第二预设识别短序列A2、B2、C2,可以按照一定的规律组合形成预设短序列组,例如:A1与A2一同形成预设短序列组,B1与B2一同形成预设短序列组,C1与C2一同形成预设短序列组,也可以无规则的随机组合,一个预设短序列可以重复与不同预设短序列组成预设短序列组,例如:A1与C2一同形成预设短序列组,B1与C2一同形成预设短序列组,C1与A2一同形成预设短序列组。
在一些实施例中,多个第一预设识别短序列和多个第二预设识别短序列的长度均为第一预设长度。
将第一预设识别短序列和第二预设识别短序列的长度均设置为第一预设长度,以方便在预设参考基因组中选取固定长度的序列作为第一预设识别短序列和第二预设识别短序列,并方便后续计算交集集合中各目标序列的靶基因位点序列长度。
请参阅图5,在一实施例中,S302包括:
S501,基于第一预设步长,以靶基因位点序列的起始碱基向靶基因位点序列的上游方向,在上游序列中依次选取第一预设长度的序列为第一预设识别短序列,直至选取的第一预设识别短序列等于预设数量;
S502,基于第二预设步长,以靶基因位点序列的终止碱基向靶基因位点序列的下游方向,在下游序列中依次选取第一预设长度的序列为第二预设识别短序列,直至选取的第二预设识别短序列等于预设数量。
靶基因位点序列的起始碱基,即预设参考序列中,靶基因位点序列5’端或3’端的第一位碱基;靶基因位点序列的终止碱基,即预设参考序列中,靶基因位点序列5’端或3’端的第一位碱基,起始碱基和终止碱基分别位于靶基因位点序列5’端和3’端。
第一预设步长、第二预设步长、第一预设长度和预设数量均为本领域技术人员根据实际需要自行设置。可选地,第一预设步长大于等于10,第一预设长度大于等于10,第二预设步长大于等于10,预设数量大于等于10。第一预设步长和第二预设步长可以一致,也可以不一致。
示例性的,一实施例中,第一预设步长为11,第二预设步长为12,第一预设长度为10,预设数量为3。请参阅图6,自靶基因位点序列5’端Pn上游的第一位碱基Pn-1向上游方向取10bp的序列为第一预设识别短序列1A,第一预设识别短序列1A包括从碱基Pn-10到碱基Pn-1的10个碱基。以第一预设识别短序列1A的3’端的第一位碱基Pn-1向上游方向移动第一预设步长11至碱基Pn-12,自碱基Pn-12取10bp的序列为第一预设识别短序列2A,第一预设识别短序列2A包括从碱基Pn-21到碱基Pn-12 的10个碱基。以第一预设识别短序列2A的3’端的第一位碱基Pn-12向上游方向移动第一预设步长11至碱基Pn-23,自碱基Pn-23取10bp的序列为第一预设识别短序列3A,第一预设识别短序列3A包括从碱基Pn-32 到碱基Pn-23的10个碱基。同理自靶基因位点序列3’端Pm下游的第一位碱基Pm+1向下游方向基于第二预设步长12依次取10bp的序列为第二预设识别短序列1B、2B和3B。
通过第一预设识别短序列1A和第二预设识别短序列1B可以识别得到多个目标序列1,多个目标序列1组成第一目标序列集合1。通过第一预设识别短序列2A和第二预设识别短序列2B可以识别得到多个目标序列2,多个目标序列2组成第一目标序列集合2。通过第一预设识别短序列2A和第二预设识别短序列2B可以识别得到多个目标序列2,多个目标序列2组成第一目标序列集合2。
通过设置预设步长、预设数量相等,使得选取第一预设识别短序列和第二预设识别短序列规则化、有序化。
在一实施例中,第一预设步长等于第二预设步长,第二预设步长等于第一预设长度。设置第一预设步长等于第二预设步长,从而方便选取第一预设识别短序列和第二预设识别短序列,设置第二预设步长等于第一预设长度,使得得到的预设识别短序列相邻设置。
可选地,第一预设步长、第二预设步长、第一预设长度和预设数量均为10,则以靶基因位点序列的起始碱基,在上游序列中依次选取10个碱基数为10bp的序列为第一预设识别短序列,各第一预设识别短序列相邻设置;以靶基因位点序列的终止碱基,在下游序列中依次选取10个碱基数为10bp的序列为第二预设识别短序列,各第二预设识别短序列相邻设置。
在一实施例中,S303,包括:
将间隔距离一致的第一预设识别短序列和第二预设识别短序列一一配对,组成预设数量的预设短序列组,间隔距离为第一预设识别短序列或第二预设识别短序列到靶基因位点序列的碱基数。
第一预设识别短序列的间隔距离可以为第一预设识别短序列靠近下游序列的一端到靶基因位点序列的起始碱基之间的碱基数量,第二预设识别短序列的间隔距离可以为第二预设识别短序列靠近上游序列的一端到靶基因位点序列的终止碱基之间的碱基数量。同样将间隔距离相等的第一预设识别短序列和第二预设识别短序列配对组成预设短序列组,以方便后续计算交集集合中各目标序列的靶基因位点序列长度。
例如,在一实施例中,设置有3个预设短序列组,分别如下表2:
表2
靶基因位点序列为20,471,987-20,472,025。预设短序列组1中第一预设识别短序列到靶基因位点序列的间隔距离为0,第二预设识别短序列到靶基因位点序列的间隔距离为0。预设短序列组2中第一预设识别短序列到靶基因位点序列的间隔距离为9,第二预设识别短序列到靶基因位点序列的间隔距离为9。预设短序列组3中第一预设识别短序列到靶基因位点序列的间隔距离为19,第二预设识别短序列到靶基因位点序列的间隔距离为19。
请参阅图7,在一实施例中,S104包括:
S601,根据各目标序列长度的测序支持数分别对第一目标序列长度分布集合中各目标序列长度进行排序,对第二目标序列长度分布集合中各目标序列长度进行排序;
S602,确定交集集合中各目标序列长度在第一目标序列长度分布集合中的第一排序,以及在第二目标序列长度分布集合中的第二排序;
S603,在一目标序列长度对应的第一排序和第二排序的差值大于或等于第一预设阈值的情况下,从交集集合中删除该目标序列长度。
测序支持数为测序数据能够被预设短序列组识别的测序结果数量,例如:测序数据中具有100条测序结果,其中50条可以被预设短序列组识别,则通过预设短序列组识别得到的目标序列的测序支持数为50。对应地,具有相同序列长度的多个目标序列的测序支持数之和,则为该目标序列长度的测序支持数。例如:目标序列A的目标序列长度为59,目标序列A的测序支持数为20,目标序列B的目标序列长度为59,目标序列B的测序支持数为10,那么对应的目标序列长度59的测序支持数为30。
根据该测序支持数的大小对目标序列长度进行排序,通过排序即可知晓在该目标序列长度在测序数据中的占有比例大小。在第一目标序列对应的第一排序和第二排序的差值大于或等于第一预设阈值的情况下,则表明在该目标序列长度在第一目标序列长度分布集合和第二目标序列长度分布集合中体现出来的占有比例具有较大差异,该目标序列长度有误的可能性较大。对该目标序列长度进行删除处理,从而提高后续数据分析的准确性。可选地,第一预设阈值为0~5中的任一整数。在一实施例中,第一预设阈值为3。
请参阅图8,在另一实施例中,S104包括:
S701,在交集集合具有多个目标序列长度的情况下,根据各目标序列长度的测序支持数,确定最大测序支持数和次大测序支持数;
S702,在最大测序支持数与次大测序支持数的比值大于第二预设阈值的情况下,在交集集合中删除与次大测序支持数对应的目标序列长度。
最大测序支持数为交集集合中各目标序列长度具有的测序支持数的最大值。在最大测序支持数与次大测序支持数的比值小于或等于第二预设阈值的情况下,可以不做处理。在最大测序支持数与次大测序支持数的比值大于第二预设阈值的情况下,则证明在同一交集集合中具有较多测序支持数的两个目标序列长度的测序支持数具有较大差异,其中测序支持数较少的一个为错误目标序列长度的可能性较大。通过删除与次大测序支持数对应的目标序列长度,以提高交集集合中目标序列长度的准确性。可选地,第二预设阈值为0~5中的任一整数。在一实施例中,第二预设阈值为3。
S602-S603、以及S701-S702可以仅设置一个对交集集合进行清洗处理,也可以同时设置,以对交集集合进行清洗处理。在一实施例中,先执行S602-S603,再执行S701-S702。
请参阅表3,例如:在一实施例中,具有10个第一目标序列集合,将第一目标序列集合1-10中的目标序列分别与预设长序列比对,其中,第一目标序列集合3、9、10中均包括一个较长序列,该较长序列与预设长序列比对不上,即可得到不包括该较长序列的第二目标序列集合,滤出部分由预设短序列组误选中的目标序列。
第一目标序列集合4和第二目标序列集合4中均包括3个目标序列长度,其中根据测序支持数,3个目标序列长度在第一目标序列长度分布集合中由大到小的排序为119、118和116,3个目标序列长度在第二目标序列长度分布集合中由大到小的排序为119、116和118。在第一预设阈值为1的情况下,目标序列长度118在第一目标序列长度分布集合中的排序为2,在第二目标序列长度分布集合中的排序为3,则对应的排序差值为1,等于第一预设阈值,则删除目标序列长度118。同理,删除目标序列长度116。
第一目标序列集合6和第二目标序列集合6中均包括2个目标序列长度,其中根据测序支持数,2个目标序列长度在交集集合中对应的测序支持数为370和5。在第二预设阈值为3的情况下,目标序列长度159对应的测序支持数370与目标序列长度158对应的测序支持数5的比值大于第二预设阈值3,则删除目标序列长度158。
表3
在一些实施例中,S105包括:
根据交集集合中目标序列长度中的靶基因位点序列长度,确定多个靶基因位点序列长度的众数;
根据所述众数、以及所述目标序列长度对应的测序支持数,确定与所述分析样本的靶基因位点序列对应的序列长度。
众数即为多个靶基因位点序列长度中具有明显集中趋势点的数值,即多个靶基因位点序列长度中出现次数最多的数值。在两个或多个靶基因位点序列长度的出现次数相同的情况下,可以根据测序支持数确定,将对应更多测序支持数的靶基因位点序列长度确定为与分析样本的靶基因位点序列对应的序列长度。由于不同分析样本针对相同靶基因位点的序列长度不一致,所以通过与靶基因位点序列对应的序列长度,则可区分不同分析样本。
请参阅图9,在一实施例中,靶基因位点序列为STR位点序列;S105之后,包括:
S801,获取靶基因位点序列的重复特征;
S802,根据与分析样本的靶基因位点序列对应的序列长度、以及靶基因位点序列的重复特征,确定与分析样本对应的STR分型结果。
重复特征可以包括重复单元序列和重复次数。如前述的STR位点DYS392,重复单元序列为[ATA],重复次数为13。在已知靶基因位点序列对应的序列长度和重复特征的情况下,则可对分析样本进行STR分型,得到STR分型结果。为了实现对分析样本进行精确的STR分型,还可以针对多个靶基因位点进行数据处理,得到分析样本中各靶基因位点对应的序列长度、以及各靶基因位点的STR分型。通过多个靶基因位点的STR分型结果对分析样本进行进一步的分析。
本申请提供的靶基因位点检测方法用于STR检测,得到的分析结果准确。以下,通过实施例更详细地说明本申请的靶基因位点检测方法具有的有效效果,但本申请丝毫不限于这些实施例。
取分析样本A、B、C分别放入纳米孔测序仪中,根据纳米孔测序仪输出的测序电流分布,获取纳米孔测序仪生成的测序数据,将测序数据分别采用本申请提供的靶基因位点检测方法进行处理,得到与靶基因位点D12S391、D18S51、D22S1045、DYS635、DYS437、DYS438、DYS390、DYS392、DYS448以及DYS458对应的靶基因位点序列的序列长度,以预设参考基因组GRCh38.p12为参照,选取上述靶基因位点的特征如表4,分析结果如表5。
表4
本领域技术人员可以理解的是,人类基因组为二倍体,二倍体中同源染色体上相同位点等位基因可以相同,也可以不相同,即针对每个靶基因位点,其等位基因的型别1和型别2可以相同,也可以不同。型别1和型别2如果是一致的就是纯合子,不一致就是杂合子。从表5中可以看出分析样本A为纯合子,分析样本B和分析样本C均为杂合子。
从下表5中可知,采用本申请提供的靶基因位点检测方法得到的靶基因位点序列的序列长度与参考型别100%对应,而采用相关技术得到的靶基因位点序列的序列长度与参考型别具有一定差异,如:分析样本B中,DYS448对应的参考型别1为19,参考型别2为23,而采用相关技术处理的分析样本B中,DYS448对应的参考型别1为19,参考型别2为19;分析样本C中,DYS437对应的参考型别1为11,参考型别2为15,而采用相关技术处理的分析样本C中,DYS437对应的参考型别1为15,参考型别2为15。通过上述具体实施例可知,本申请提供的靶基因位点检测方法用于STR检测,得到的分析结果准确性更高。
表5
基于上述实施例提供的靶基因位点检测方法,相应地,本申请还提供了靶基因位点检测装置的具体实现方式。请参见以下实施例。
首先参见图10,本申请实施例提供的靶基因位点检测装置包括以下模块:
获取模块901,用于获取测序数据,测序数据包括与同一分析样本对应的多个测序结果;
识别模块902,用于根据多组不同预设短序列组分别对各测序结果进行目标序列识别,生成多个与各预设短序列组一一对应的第一目标序列集合,第一目标序列集合包括至少一个包含靶基因位点序列的目标序列,预设短序列组包括位于靶基因位点序列上游的第一预设识别短序列和位于靶基因位点序列下游的第二预设识别短序列;
识别模块902还用于针对每一第一目标序列集合,将各目标序列分别与预设长序列比对,并根据比对结果生成多个与各第一目标序列集合一一对应的第二目标序列集合,预设长序列包括位于靶基因位点序列上游的第一预设识别长序列、位于靶基因位点序列下游的第二预设识别长序列和靶基因位点序列,第一预设识别长序列至少包括各第一预设识别短序列,第二预设识别长序列至少包括各第二预设识别短序列;
交集模块903,用于根据各目标序列的长度,生成多个与第一目标序列集合一一对应的第一目标序列长度分布集合,以及多个与第二目标序列集合一一对应的第二目标序列长度分布集合,将第一目标序列长度分布集合、以及与该第一目标序列长度分布集合对应的第二目标序列长度分布集合进行交集处理,得到多个交集集合;
确定模块904,用于根据各交集集合中目标序列的靶基因位点序列的长度,确定与分析样本的靶基因位点序列对应的序列长度。
在另一可选示例中,靶基因位点检测装置还包括:
确定模块904,用于接收输入的靶基因识别标识,在预设参考基因组中确定与靶基因识别标识对应的靶基因位点序列;
选择模块905,用于在上游序列中选取多个不同序列设置为第一预设识别短序列,在下游序列中选取多个不同序列设置为第二预设识别短序列,其中,上游序列为预设参考基因组中位于靶基因位点序列上游的序列,下游序列为预设参考基因组中位于靶基因位点序列下游的序列;
选择模块905还用于将多个第一预设识别短序列和多个第二预设识别短序列配对组成多个不同的预设短序列组。
在另一可选示例中,多个第一预设识别短序列和多个第二预设识别短序列的长度均为第一预设长度。
在另一可选示例中,选择模块905还用于基于第一预设步长,以靶基因位点序列的起始碱基向靶基因位点序列的上游方向,在上游序列中依次选取第一预设长度的序列为第一预设识别短序列,直至选取的第一预设识别短序列等于预设数量;
选择模块905还用于基于第二预设步长,以靶基因位点序列的终止碱基向靶基因位点序列的下游方向,在下游序列中依次选取第一预设长度的序列为第二预设识别短序列,直至选取的第二预设识别短序列等于预设数量。
在另一可选地示例中,第一预设步长等于第二预设步长,第二预设步长等于第一预设长度。
在另一可选地示例中,选择模块905还用于将间隔距离一致的第一预设识别短序列和第二预设识别短序列一一配对,组成预设数量的预设短序列组,间隔距离为第一预设识别短序列或第二预设识别短序列到靶基因位点序列的碱基数。
在另一可选地示例中,靶基因位点检测装置还包括:
清洗模块906,用于根据各目标序列长度的测序支持数对第一目标序列长度分布集合中各目标序列长度进行排序,并对第二目标序列长度分布集合中各目标序列长度进行排序;
清洗模块906还用于确定交集集合中各目标序列长度在第一目标序列长度分布集合中的第一排序,以及在第二目标序列长度分布集合中的第二排序;
清洗模块906还用于在一目标序列长度对应的第一排序和第二排序的差值大于或等于第一预设阈值的情况下,从交集集合中删除该目标序列长度。
在另一可选地示例中,清洗模块906还用于在交集集合具有多个目标序列长度的情况下,根据各目标序列长度的测序支持数,确定最大测序支持数和次大测序支持数;
清洗模块906还用于在最大测序支持数与次大测序支持数的比值大于第二预设阈值的情况下,在交集集合中删除与次大测序支持数对应的目标序列长度。
在另一可选示例中,确定模块904还用于根据交集集合中目标序列长度中的靶基因位点序列长度,确定多个靶基因位点序列长度的众数;
根据众数、以及目标序列长度对应的测序支持数,确定与分析样本的靶基因位点序列对应的序列长度。
在另一可选地示例中,靶基因位点序列为STR位点序列;确定模块904还用于获取靶基因位点序列的重复特征;
确定模块904还用于根据与分析样本的靶基因位点序列对应的序列长度、以及靶基因位点序列的重复特征,确定与分析样本对应的STR分型结果。
在另一可选地示例中,第二目标序列集合中各目标序列与预设长序列的比对错配数小于或等于第三预设阈值。
本发明实施例提供的靶基因位点检测装置能够实现图1至图9的方法实施例中的各个步骤,为避免重复,这里不再赘述。
图11示出了本申请实施例提供的靶基因位点检测设备的硬件结构示意图。
在靶基因位点检测设备可以包括处理器1001以及存储有计算机程序指令的存储器1002。
具体地,上述处理器1001可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器1002可以包括用于存储数据或指令的大容量存储器。举例来说而非限制,存储器1002可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器1002可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1002可在靶基因位点检测设备的内部或外部。在特定实施例中,存储器1002是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请公开的一方面的方法所描述的操作。
处理器1001通过读取并执行存储器1002中存储的计算机程序指令,以实现上述实施例中的任意一种靶基因位点检测方法。
在一个示例中,靶基因位点检测设备还可包括通信接口1003和总线1010。其中,如图11所示,处理器1001、存储器1002、通信接口1003通过总线1010连接并完成相互间的通信。
通信接口1003,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线1010包括硬件、软件或两者,将靶基因位点检测设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1010可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该靶基因位点检测设备可以基于上述实施例,从而实现结合图1至图10描述的靶基因位点检测方法和装置。
另外,结合上述实施例中的靶基因位点检测方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种靶基因位点检测方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,上述计算机可读存储介质可包括非暂态计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等,在此并不限定。
另外,本申请实施例还提供了一种计算机程序产品,包括计算机程序指令,计算机程序指令被处理器执行时可实现前述方法实施例的步骤及相应内容。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程靶基因位点检测装置的处理器,以产生一种机器,使得经由计算机或其它可编程靶基因位点检测装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (15)
1.一种靶基因位点检测方法,其特征在于,所述方法包括:
获取测序数据,所述测序数据包括与同一分析样本对应的多个测序结果;
根据多组不同预设短序列组分别对各所述测序结果进行目标序列识别,生成多个与各所述预设短序列组一一对应的第一目标序列集合,所述第一目标序列集合包括至少一个包含靶基因位点序列的目标序列,所述预设短序列组包括位于所述靶基因位点序列上游的第一预设识别短序列和位于所述靶基因位点序列下游的第二预设识别短序列;
针对每一所述第一目标序列集合,将各所述目标序列分别与预设长序列比对,并根据比对结果生成多个与各所述第一目标序列集合一一对应的第二目标序列集合,所述预设长序列包括位于所述靶基因位点序列上游的第一预设识别长序列、位于所述靶基因位点序列下游的第二预设识别长序列和所述靶基因位点序列,所述第一预设识别长序列至少包括各所述第一预设识别短序列,所述第二预设识别长序列至少包括各所述第二预设识别短序列;
根据各所述目标序列的长度,生成多个与各所述第一目标序列集合一一对应的第一目标序列长度分布集合,以及多个与各所述第二目标序列集合一一对应的第二目标序列长度分布集合,将所述第一目标序列长度分布集合、以及与该所述第一目标序列长度分布集合对应的所述第二目标序列长度分布集合进行交集处理,得到多个交集集合;
根据各所述交集集合中所述目标序列的靶基因位点序列的长度,确定与所述分析样本的靶基因位点序列对应的序列长度。
2.根据权利要求1所述的靶基因位点检测方法,其特征在于,所述根据多组不同预设短序列组分别对各所述测序结果进行目标序列识别,生成多个与各所述预设短序列组一一对应的第一目标序列集合之前,所述靶基因位点检测方法还包括:
接收输入的靶基因识别标识,在预设参考基因组中确定与所述靶基因识别标识对应的靶基因位点序列;
在上游序列中选取多个不同序列设置为第一预设识别短序列,在下游序列中选取多个不同序列设置为第二预设识别短序列,其中,所述上游序列为所述预设参考基因组中位于所述靶基因位点序列上游的序列,所述下游序列为所述预设参考基因组中位于所述靶基因位点序列下游的序列;
将多个所述第一预设识别短序列和多个所述第二预设识别短序列配对组成多个不同的所述预设短序列组。
3.根据权利要求2所述的靶基因位点检测方法,其特征在于,多个所述第一预设识别短序列和多个第二预设识别短序列的长度均为第一预设长度。
4.根据权利要求3所述的靶基因位点检测方法,其特征在于,所述在上游序列中选取多个不同序列设置为第一预设识别短序列,在下游序列中选取多个不同序列设置为第二预设识别短序列,包括:
基于第一预设步长,以所述靶基因位点序列的起始碱基向所述靶基因位点序列的上游方向,在所述上游序列中依次选取所述第一预设长度的序列为第一预设识别短序列,直至选取的所述第一预设识别短序列等于预设数量;
基于第二预设步长,以所述靶基因位点序列的终止碱基向所述靶基因位点序列的下游方向,在所述下游序列中依次选取所述第一预设长度的序列为第二预设识别短序列,直至选取的所述第二预设识别短序列等于所述预设数量。
5.根据权利要求4所述的靶基因位点检测方法,其特征在于,所述第一预设步长等于所述第二预设步长,所述第二预设步长等于所述第一预设长度。
6.根据权利要求4所述的靶基因位点检测方法,其特征在于,所述将多个所述第一预设识别短序列和多个所述第二预设识别短序列配对组成多个不同的所述预设短序列组,包括:
将间隔距离一致的所述第一预设识别短序列和所述第二预设识别短序列一一配对,组成所述预设数量的所述预设短序列组,所述间隔距离为所述第一预设识别短序列或所述第二预设识别短序列到所述靶基因位点序列的碱基数。
7.根据权利要求1所述的靶基因位点检测方法,其特征在于,所述将所述第一目标序列长度分布集合、以及与该所述第一目标序列长度分布集合对应的所述第二目标序列长度分布集合进行交集处理,得到多个交集集合之后,所述靶基因位点检测方法包括:
根据各所述目标序列长度的测序支持数分别对所述第一目标序列长度分布集合中各所述目标序列长度进行排序,对所述第二目标序列长度分布集合中各所述目标序列长度进行排序;
确定所述交集集合中各所述目标序列长度在所述第一目标序列长度分布集合中的第一排序,以及在所述第二目标序列长度分布集合中的第二排序;
在一所述目标序列长度对应的所述第一排序和所述第二排序的差值大于或等于第一预设阈值的情况下,从所述交集集合中删除该目标序列长度。
8.根据权利要求1所述的靶基因位点检测方法,其特征在于,所述将所述第一目标序列长度分布集合、以及与该所述第一目标序列长度分布集合对应的所述第二目标序列长度分布集合进行交集处理,得到多个交集集合之后,所述靶基因位点检测方法包括:
在所述交集集合具有多个所述目标序列长度的情况下,根据各所述目标序列长度的测序支持数,确定最大测序支持数和次大测序支持数;
在所述最大测序支持数与次大测序支持数的比值大于第二预设阈值的情况下,在所述交集集合中删除与所述次大测序支持数对应的目标序列长度。
9.根据权利要求1所述的靶基因位点检测方法,其特征在于,所述根据各所述交集集合中所述目标序列的靶基因位点序列的长度,确定与所述分析样本的靶基因位点序列对应的序列长度,包括:
根据所述交集集合中所述目标序列长度中的靶基因位点序列长度,确定多个所述靶基因位点序列长度的众数;
根据所述众数、以及所述目标序列长度对应的测序支持数,确定与所述分析样本的靶基因位点序列对应的序列长度。
10.根据权利要求1所述的靶基因位点检测方法,其特征在于,所述靶基因位点序列为STR位点序列;所述根据各所述交集集合中所述目标序列的靶基因位点序列长度,确定与所述分析样本的靶基因位点序列对应的序列长度之后,包括:
获取所述靶基因位点序列的重复特征;
根据与所述分析样本的靶基因位点序列对应的序列长度、以及所述靶基因位点序列的重复特征,确定与所述分析样本对应的STR分型结果。
11.根据权利要求1所述的靶基因位点检测方法,其特征在于,所述第二目标序列集合中各所述目标序列与所述预设长序列的比对错配数小于或等于第三预设阈值。
12.一种靶基因位点检测装置,其特征在于,所述靶基因位点检测装置包括:
获取模块,用于获取测序数据,所述测序数据包括与同一分析样本对应的多个测序结果;
识别模块,用于根据多组不同预设短序列组分别对各所述测序结果进行目标序列识别,生成多个与各所述预设短序列组一一对应的第一目标序列集合,所述第一目标序列集合包括至少一个包含靶基因位点序列的目标序列,所述预设短序列组包括位于靶基因位点序列上游的第一预设识别短序列和位于所述靶基因位点序列下游的第二预设识别短序列;
所述识别模块还用于针对每一所述第一目标序列集合,将各所述目标序列分别与预设长序列比对,并根据比对结果生成多个与各所述第一目标序列集合一一对应的第二目标序列集合,所述预设长序列包括位于所述靶基因位点序列上游的第一预设识别长序列、位于所述靶基因位点序列下游的第二预设识别长序列和所述靶基因位点序列,所述第一预设识别长序列至少包括各所述第一预设识别短序列,所述第二预设识别长序列至少包括各所述第二预设识别短序列;
交集模块,用于生成多个与各所述第一目标序列集合一一对应的第一目标序列长度分布集合,以及多个与各所述第二目标序列集合一一对应的第二目标序列长度分布集合,将所述第一目标序列长度分布集合、以及与该所述第一目标序列长度分布集合对应的所述第二目标序列长度分布集合进行交集处理,得到多个交集集合;
确定模块,用于根据各所述交集集合中所述目标序列的靶基因位点序列长度,确定与所述分析样本的靶基因位点序列对应的序列长度。
13.一种靶基因位点检测设备,其特征在于,所述靶基因位点检测设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-11中任一项所述的靶基因位点检测方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-11中任一项所述的靶基因位点检测方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求 1-11 中任一项所述的靶基因位点检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211195986.3A CN115312121B (zh) | 2022-09-29 | 2022-09-29 | 靶基因位点检测方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211195986.3A CN115312121B (zh) | 2022-09-29 | 2022-09-29 | 靶基因位点检测方法、装置、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115312121A true CN115312121A (zh) | 2022-11-08 |
CN115312121B CN115312121B (zh) | 2023-03-24 |
Family
ID=83866034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211195986.3A Active CN115312121B (zh) | 2022-09-29 | 2022-09-29 | 靶基因位点检测方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115312121B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115948574A (zh) * | 2022-12-28 | 2023-04-11 | 中国人民解放军空军特色医学中心 | 一种基于三代测序的个体识别体系、试剂盒及其应用 |
CN116881634A (zh) * | 2023-09-06 | 2023-10-13 | 北京齐碳科技有限公司 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
CN117238368A (zh) * | 2023-11-15 | 2023-12-15 | 北京齐碳科技有限公司 | 分子遗传标记分型方法和装置、生物个体识别方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4849350A (en) * | 1984-10-09 | 1989-07-18 | Takeda Chemical Industries, Ltd. | Novel DNA, production and use thereof |
JP2007054043A (ja) * | 2005-07-29 | 2007-03-08 | National Institute Of Advanced Industrial & Technology | 遺伝子発現抑制機能を有するdna塩基配列 |
CN101174857A (zh) * | 2006-09-30 | 2008-05-07 | 华为技术有限公司 | 通信系统中序列分配方法、序列处理方法及装置 |
CN101831491A (zh) * | 2009-03-11 | 2010-09-15 | 北京泰格瑞分子检验有限公司 | 一种系统置换的多重基因扩增技术 |
CN102369211A (zh) * | 2009-02-13 | 2012-03-07 | 诺瓦提斯公司 | 编码非核糖体肽合酶的生物合成簇的核酸分子及其用途 |
CN103348011A (zh) * | 2010-12-23 | 2013-10-09 | 菲利普莫里斯生产公司 | 来自植物的α-甘露糖苷酶以及使用所述α-甘露糖苷酶的方法 |
CN103614478A (zh) * | 2013-12-03 | 2014-03-05 | 浙江农林大学 | 可用于多重检测的单链长探针的制法 |
CN104204228A (zh) * | 2012-02-14 | 2014-12-10 | 康奈尔大学 | 使用组合的核酸酶、连接和聚合酶反应用于核酸序列的相对定量、表达或拷贝变化的方法 |
CN111849983A (zh) * | 2020-07-17 | 2020-10-30 | 中国农业大学 | 一种sgRNA及其应用 |
CN112708636A (zh) * | 2021-01-22 | 2021-04-27 | 彭双红 | 基因转录框架、载体系统、基因组序列编辑方法及应用 |
CN112921103A (zh) * | 2021-03-25 | 2021-06-08 | 四川省食品药品检验检测院(四川省药品质量研究所、四川省医疗器械检测中心) | 定量分析肉制品中牛源性成分的引物组及其应用 |
-
2022
- 2022-09-29 CN CN202211195986.3A patent/CN115312121B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4849350A (en) * | 1984-10-09 | 1989-07-18 | Takeda Chemical Industries, Ltd. | Novel DNA, production and use thereof |
JP2007054043A (ja) * | 2005-07-29 | 2007-03-08 | National Institute Of Advanced Industrial & Technology | 遺伝子発現抑制機能を有するdna塩基配列 |
CN101174857A (zh) * | 2006-09-30 | 2008-05-07 | 华为技术有限公司 | 通信系统中序列分配方法、序列处理方法及装置 |
CN102369211A (zh) * | 2009-02-13 | 2012-03-07 | 诺瓦提斯公司 | 编码非核糖体肽合酶的生物合成簇的核酸分子及其用途 |
CN101831491A (zh) * | 2009-03-11 | 2010-09-15 | 北京泰格瑞分子检验有限公司 | 一种系统置换的多重基因扩增技术 |
CN103348011A (zh) * | 2010-12-23 | 2013-10-09 | 菲利普莫里斯生产公司 | 来自植物的α-甘露糖苷酶以及使用所述α-甘露糖苷酶的方法 |
CN104204228A (zh) * | 2012-02-14 | 2014-12-10 | 康奈尔大学 | 使用组合的核酸酶、连接和聚合酶反应用于核酸序列的相对定量、表达或拷贝变化的方法 |
CN103614478A (zh) * | 2013-12-03 | 2014-03-05 | 浙江农林大学 | 可用于多重检测的单链长探针的制法 |
CN111849983A (zh) * | 2020-07-17 | 2020-10-30 | 中国农业大学 | 一种sgRNA及其应用 |
CN112708636A (zh) * | 2021-01-22 | 2021-04-27 | 彭双红 | 基因转录框架、载体系统、基因组序列编辑方法及应用 |
CN112921103A (zh) * | 2021-03-25 | 2021-06-08 | 四川省食品药品检验检测院(四川省药品质量研究所、四川省医疗器械检测中心) | 定量分析肉制品中牛源性成分的引物组及其应用 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115948574A (zh) * | 2022-12-28 | 2023-04-11 | 中国人民解放军空军特色医学中心 | 一种基于三代测序的个体识别体系、试剂盒及其应用 |
CN115948574B (zh) * | 2022-12-28 | 2023-11-10 | 中国人民解放军空军特色医学中心 | 一种基于三代测序的个体识别体系、试剂盒及其应用 |
CN116881634A (zh) * | 2023-09-06 | 2023-10-13 | 北京齐碳科技有限公司 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
CN116881634B (zh) * | 2023-09-06 | 2023-12-26 | 北京齐碳科技有限公司 | 用于清洗纳米孔信号数据的方法、设备和存储介质 |
CN117238368A (zh) * | 2023-11-15 | 2023-12-15 | 北京齐碳科技有限公司 | 分子遗传标记分型方法和装置、生物个体识别方法和装置 |
CN117238368B (zh) * | 2023-11-15 | 2024-03-15 | 北京齐碳科技有限公司 | 分子遗传标记分型方法和装置、生物个体识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115312121B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115312121B (zh) | 靶基因位点检测方法、装置、设备及计算机存储介质 | |
EP2926288B1 (en) | Accurate and fast mapping of targeted sequencing reads | |
NZ759659A (en) | Deep learning-based variant classifier | |
CN111292802B (zh) | 用于检测突变的方法、电子设备和计算机存储介质 | |
US20150056619A1 (en) | Method and system for determining copy number variation | |
CN114999573B (zh) | 一种基因组变异检测方法及检测系统 | |
CN111341383B (zh) | 一种检测拷贝数变异的方法、装置和存储介质 | |
CN103114150B (zh) | 基于酶切建库测序与贝叶斯统计的单核苷酸多态性位点鉴定的方法 | |
Smart et al. | A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes | |
CN110782946A (zh) | 识别重复序列的方法及装置、存储介质、电子设备 | |
CN116030892A (zh) | 一种鉴定染色体相互易位断点位置的系统和方法 | |
CN107967411B (zh) | 一种脱靶位点的检测方法、装置及终端设备 | |
CN108460248B (zh) | 一种基于Bionano平台检测长串联重复序列的方法 | |
CN113930492A (zh) | 对被污染样品进行亲子鉴定的生物信息处理方法 | |
CN110970093B (zh) | 一种筛选引物设计模板的方法、装置及应用 | |
US20160103955A1 (en) | Biological sequence tandem repeat characterization | |
CN116246703A (zh) | 一种核酸测序数据的质量评估方法 | |
CN111883212B (zh) | Dna指纹图谱的构建方法、构建装置及终端设备 | |
US20220284986A1 (en) | Systems and methods for identifying exon junctions from single reads | |
WO2014119914A1 (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
Zachariasen et al. | Identification of representative species-specific genes for abundance measurements | |
CN111492436A (zh) | 使用k聚体在没有比对的情况下进行测序数据的快速质量控制 | |
CN107447021A (zh) | 一种基于高通量测序的精确鉴定基因型的方法及其应用 | |
JP2006170670A (ja) | 遺伝子発現量規格化方法、プログラム、並びにシステム | |
Weitschek et al. | Classifying bacterial genomes with compact logic formulas on k-Mer frequencies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40076562 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |