CN109994155A

CN109994155A - 一种基因变异识别方法、装置和存储介质

Info

Publication number: CN109994155A
Application number: CN201910251891.0A
Authority: CN
Inventors: 胡志强
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-09
Anticipated expiration: 2039-03-29
Also published as: KR20210116454A; CN109994155B; TWI748263B; SG11202011523VA; WO2020199336A1; JP7064654B2; JP2022500773A; TW202036582A; US20210082539A1

Abstract

本公开涉及一种基因变异识别方法、装置和存储介质，其中，该方法包括：获取基因变异候选位点对应的至少一个基因测序读段；根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的序列特征和非序列特征，其中，所述序列特征为与位点的位置相关的特征；基于所述序列特征和所述非序列特征，对所述基因变异候选位点的基因变异进行识别。本公开实施例的可以将基因的序列特征和非序列特征相结合，更加全面地分析基因变异位点的特征，增强基因变异识别的准确性。

Description

一种基因变异识别方法、装置和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种基因变异识别方法、装置和存储介质。

背景技术

随着生物技术的发展，通过基因测序技术可以测定人类基因的序列，基因序列的分析可以作为进一步基因研究和改造的基础。目前，基因的二代测序技术相比于一代测序技术而言，极大地提高了基因测序的效率，降低了基因测序的成本，并且保持了基因测序的准确行性。第一代测序技术如果完成一个人类基因组的测序可能需要3年的时间，而使用二代测序技术则可以将时间缩短为仅仅1周。

虽然二代测序技术可以生成更大的原始基因测序数据，但是同时还会产生更多的噪声和错误。如何从海量的基因测序数据中识别体细胞基因的变异，筛掉胚系基因变异以及由于噪声和错误带来的干扰，对于二代测序技术的应用具有重要意义。

发明内容

有鉴于此，本公开提出了一种基因变异识别方案。

根据本公开的一方面，提供了一种基因变异识别方法，所述方法包括：

获取基因变异候选位点对应的至少一个基因测序读段；

根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的序列特征和非序列特征，其中，所述序列特征为与位点的位置相关的特征；

基于所述序列特征和所述非序列特征，对所述基因变异候选位点的基因变异进行识别。

在一种可能的实现方式中，所述属性信息包括序列属性信息；根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的序列特征，包括：

根据所述基因变异候选位点的基因位置信息，确定所述基因变异候选位点所在的预设位点区间；

获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息；其中，所述序列属性信息为与位点的位置相关的表征基因属性的信息；

根据所述预设位点区间中每个位点的序列属性信息，生成所述基因变异候选位点的序列特征。

在一种可能的实现方式中，所述获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息，包括：

确定所述至少一个基因测序读段在所述每个位点的基因类型；

统计所述每个位点对应的每种基因类型的基因数量。

根据每个基因测序读段的基因序列与参考基因组的基因序列进行比对的比对结果，确定每个基因测序读段在所述每个位点的缺失基因的基因类型；

统计所述至少一个基因测序读段在所述每个位点上每种基因类型的缺失基因数量。

根据每个基因测序读段的基因序列与参考基因组的基因序列进行比对的比对结果，确定每个基因测序读段在所述每个位点的插入基因的基因类型；

统计所述至少一个基因测序读段在所述每个位点上每种基因类型的插入基因数量。

在一种可能的实现方式中，所述序列属性信息包括以下至少一种信息：

参考基因的基因类型；每种基因类型的基因数量；每种基因类型的缺失基因数量；每种基因类型的插入基因数量。

在一种可能的实现方式中，所述属性信息包括非序列属性信息；根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的非序列特征，包括：

获取所述至少一个基因测序读段的非序列属性信息；其中，所述非序列属性信息为与位点的位置不相关的表征基因属性的信息；

根据所述至少一个基因测序读段的非序列属性信息，确定所述基因变异候选位点的非序列特征。

在一种可能的实现方式中，所述非序列信息包括以下至少一种信息：

对比质量；正负链偏好；基因测序读段长度；边缘偏好。

在一种可能的实现方式中，所述根据所述至少一个基因测序读段的非序列属性信息，确定所述基因变异候选位点的非序列特征，包括：

根据每个基因测序读段中每个位点的对比质量，确定每个基因测序读段的对比质量；其中，所述对比质量用于表征基因测序读段中每个基因序列的基因测序的准确性；

根据每个基因测序读段的对比质量，确定所述基因变异候选位点对应的非序列特征。

根据每个基因测序读段所属基因链的正负链信息，确定所述至少一个基因测序读段所属基因链的正负链比例；

根据所述正负链比例，确定所述基因变异候选位点对应的非序列特征。

在一种可能的实现方式中，所述基于所述序列特征和所述非序列特征，对所述基因变异候选位点的基因变异进行识别，包括：

将所述序列特征和所述非序列特征进行特征整合，得到所述基因变异候选位点的整合特征；

基于所述基因变异候选位点的整合特征，对所述基因变异候选位点的基因变异进行识别。

在一种可能的实现方式中，所述基于所述基因变异候选位点的整合特征，对所述基因变异候选位点的基因变异进行识别，包括：

根据所述基因变异候选位点的整合特征，得到所述基因变异候选位点的基因发生变异的变异值；

在所述变异值大于或等于预设阈值的情况下，确定所述基因变异候选位点的基因存在变异。

在一种可能的实现方式中，所述获取基因变异候选位点对应的至少一个基因测序读段，包括：

获取由体细胞基因进行基因测序得到的基因测序读段；

将所述基因测序读段的基因序列与参考基因组的基因序列进行比对，得到比对结果；

根据所述比对结果确定所述体细胞基因的基因存在异常的基因变异候选位点；

获取所述基因变异候选位点对应的至少一个基因测序读段。

根据本公开的另一方面，提供了一种基因变异识别装置，所述装置包括：

获取模块，用于获取基因变异候选位点对应的至少一个基因测序读段；

确定模块，用于根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的序列特征和非序列特征，其中，所述序列特征为与位点的位置相关的特征；

识别模块，用于基于所述序列特征和所述非序列特征，对所述基因变异候选位点的基因变异进行识别。

在一种可能的实现方式中，所述属性信息包括序列属性信息；所述确定模块，包括：

第一确定子模块，用于根据所述基因变异候选位点的基因位置信息，确定所述基因变异候选位点所在的预设位点区间；

第一获取子模块，用于获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息；其中，所述序列属性信息为与位点的位置相关的表征基因属性的信息；

第一生成子模块，用于根据所述预设位点区间中每个位点的序列属性信息，生成所述基因变异候选位点的序列特征。

在一种可能的实现方式中，所述第一获取子模块，具体用于确定所述至少一个基因测序读段在所述每个位点的基因类型；统计所述每个位点对应的每种基因类型的基因数量。

在一种可能的实现方式中，所述第一获取子模块，具体用于根据每个基因测序读段的基因序列与参考基因组的基因序列进行比对的比对结果，确定每个基因测序读段在所述每个位点的缺失基因的基因类型；统计所述至少一个基因测序读段在所述每个位点上每种基因类型的缺失基因数量。

在一种可能的实现方式中，所述第一获取子模块，具体用于根据每个基因测序读段的基因序列与参考基因组的基因序列进行比对的比对结果，确定每个基因测序读段在所述每个位点的插入基因的基因类型；统计所述至少一个基因测序读段在所述每个位点上每种基因类型的插入基因数量。

在一种可能的实现方式中，所述属性信息包括非序列属性信息；所述确定模块，包括：

第二获取子模块，用于获取所述至少一个基因测序读段的非序列属性信息；其中，所述非序列属性信息为与位点的位置不相关的表征基因属性的信息；

第二确定子模块，用于根据所述至少一个基因测序读段的非序列属性信息，确定所述基因变异候选位点的非序列特征。

对比质量；正负链偏好；基因测序读段长度；边缘偏好。

在一种可能的实现方式中，所述第二确定子模块，具体用于根据每个基因测序读段中每个位点的对比质量，确定每个基因测序读段的对比质量；其中，所述对比质量用于表征基因测序读段中每个基因序列的基因测序的准确性；根据每个基因测序读段的对比质量，确定所述基因变异候选位点对应的非序列特征。

在一种可能的实现方式中，所述第二确定子模块，具体用于根据每个基因测序读段所属基因链的正负链信息，确定所述至少一个基因测序读段所属基因链的正负链比例；根据所述正负链比例，确定所述基因变异候选位点对应的非序列特征。

在一种可能的实现方式中，所述识别模块，包括：

整合子模块，具体用于将所述序列特征和所述非序列特征进行特征整合，得到所述基因变异候选位点的整合特征；

识别子模块，用于基于所述基因变异候选位点的整合特征，对所述基因变异候选位点的基因变异进行识别。

在一种可能的实现方式中，所述识别子模块，具体用于根据所述基因变异候选位点的整合特征，得到所述基因变异候选位点的基因发生变异的变异值；在所述变异值大于或等于预设阈值的情况下，确定所述基因变异候选位点的基因存在变异。

在一种可能的实现方式中，所述获取模块，具体用于，

获取由体细胞基因进行基因测序得到的基因测序读段；

获取所述基因变异候选位点对应的至少一个基因测序读段。

根据本公开的另一方面，提供了一种基因变异识别装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

本公开实施例提供获取基因变异候选位点对应的至少一个基因测序读段，可以根据至少一个基因测序读段的属性信息，确定基因变异候选位点的序列特征和非序列特征，从而可以基于确定的序列特征和非序列特征对基因变异候选位点的基因变异进行识别。这里，序列特征可以是与位点的位置相关的特征，非序列特征可以是与位点的位置不相关的特征，从而在基因变异识别过程中，可以将基因的序列特征和非序列特征相结合，更加全面地分析基因变异位点的特征，筛掉胚系基因变异以及由于噪声和错误带来的干扰，更好地对基因变异进行识别，增强基因变异识别的准确性。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的基因变异识别方法的流程图。

图2示出根据本公开一实施例的获取基因变异候选位点对应的至少一个基因测序读段的流程图。

图3示出根据本公开一实施例的基因变异候选位点的序列特征过程的流程图。

图4示出根据本公开一实施例的基因变异候选位点的非序列特征过程的流程图。

图5示出根据本公开一实施例的识别基因变异候选位点的基因变异过程的流程图。

图6示出根据本公开一实施例的神经网络模型的框图。

图7示出根据本公开一实施例的基因变异识别装置的框图。

图8示出根据本公开一示例性实施例示出的一种用于基因变异识别的装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

本公开实施例提供的基因变异识别方案，可以获取基因变异候选位点对应的至少一个基因测序读段，从而可以根据至少一个基因测序读段对基因变异候选位点的基因变异进行识别。在基因变异识别过程中，可以根据至少一个基因测序读段的序列属性信息生成序列特征，根据至少一个基因测序读段的非序列属性信息生成非序列特征，然后可以通过序列特征和非序列特征对基因变异候选位点的基因变异进行识别，从而可以整合至少一个基因测序读段的序列属性信息和非序列属性信息，更加全面地利用基因测序读段的序列属性信息。

在相关技术中，通常是利用支持向量机、随机森林等传统随机森林等传统机器学习方法进行基因变异识别，这种方式虽然实现简单，但难以利用基因变异候选位点附近基因序列的序列属性信息，基因变异识别的效果在基因数据量增加到一定程度之后会陷入瓶颈。还有一些相关技术采用深度学习方法，利用神经网络对基因变异进行识别。但是，神经网络难以整合基因序列的非序列信息，无法对基因数据进行更加全面地分析。在本公开实施例中，在基因变异识别过程中可以利用由多模态信息整合的神经网络模型提取基因变异候选位点的序列特征和非序列特征，从而可以综合基因序列的序列属性信息和非序列属性信息，更加全面地对基因数据进行分析，筛掉胚系基因变异以及由于噪声和错误带来的干扰，更好地对基因变异进行识别。下述实施例将会对基因变异识别过程作详细说明。

图1示出根据本公开一实施例的基因变异识别方法的流程图。该基因变异识别方法可以由基因变异识别装置或其它处理设备执行，其中，基因变异识别装置可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，或者，基因变异识别装置可以为服务器。在一些可能的实现方式中，该基因变异识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

如图1所示，该基因变异识别方法包括：

步骤11，获取基因变异候选位点对应的至少一个基因测序读段。

在本公开实施例中，基因变异识别装置可以获取由基因测序得到的基因测序读段，然后在基因测序得到的基因测序读段中，获取基因变异候选位点对应的至少一个基因测序读段。这里的基因测序读段可以理解为经过基因测序后标注有基因类型的基因序列，每个基因测序读段的长度可以相同也可以不同。在长度不同的情况下，每个基因测序读段的长度可以在预设长度范围内，从而可以保证每个基因测序读段的长度比较接近。基因类型可以理解为碱基类型，基因类型可以包括胞嘧啶(C)、鸟嘌呤(G)、腺嘌呤(A)、胸腺嘧啶(T)，从而基因测序读段可以是包括AGCT的基因序列。这里的基因变异候选位点可以是基因序列存在异常的位点。基因序列的位点可以表示基因序列的位置，针对每个位点，可以存在至少一个基因测序读段，即，在同一个位点可以存在由基因测序得到的至少一个基因测序读段。相应地，基因变异候选位点对应至少一个基因测序读段，其中，这至少一个基因测序读段都在这一位点上出现异常。基因变异候选位点可以为至少一个，每个基因变异候选位点可以对应至少一个基因测序读段。为了便于理解，本公开实施例以一个基因变异候选位点进行说明。

步骤12，根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的序列特征和非序列特征，其中，所述序列特征为与位点的位置相关的特征。

在本公开实施例中，在获取基因变异候选位点对应的至少一个基因测序读段之后，可以提取该基因变异候选位点对应的至少一个基因测序读段的属性信息，并根据提取的属性信息生成该基因变异候选位点的序列特征和非序列特征。属性信息可以包括序列属性信息和非序列属性信息。序列属性信息可以是与位点的位置相关的表征基因测序读段的基因属性的信息。非序列属性信息可以是不受到位点的位置限制并且可以表征基因属性的信息。在提取属性信息时，可以随机选择该基因候选位点对应的若干个基因测序读段，提取随机选择的若干个基因测序读段的属性信息；还可以提取该基因候选位点对应的每个基因测序读段的属性信息。

这里，在提取序列属性信息时，可以提取至少一个基因测序读段在该基因变异候选位点的序列属性信息，还可以提取至少一个基因测序读段在该基因变异候选位点附近位点的序列属性信息。这里，在确定基因变异候选位点的序列特征时，可以利用带有卷积层和池化层的神经网络模型，对基因变异候选位点对应的至少一个基因测序读段提取基因变异候选位点的序列特征。该神经网络模型可以包括两个分支结构，其中一个分支可以提取基因测序读段的序列特征，该分支可以包括卷积层和池化层；另一个分支可以提取基因测序读段的非序列特征。该神经网络模型从而可以整合多种模态信息(序列属性信息和非序列属性信息)，对基因变异候选位点的基因变异进行识别。在确定基因变异候选位点的非序列特征时，可以利用上述神经网络模型，由该神经网络模型的另一个分支提取至少一个基因测序读段的非序列特征，该分支结构可以包括全连接层，全连接层可以用于提取不受位置限制的非序列特征。

步骤13，基于所述序列特征和所述非序列特征，对所述基因变异候选位点的基因变异进行识别。

在本公开实施方式中，在确定基因变异候选位点的序列特征和非序列特征之后，可将序列特征和非序列特征进行融合，对该基因变异候选位点的基因变异进行识别，例如，可以利用上述神经网络模型判断该基因变异候选位点的基因是否变异，或者，该基因变异候选位点的基因是否是由于噪声等原因而导致的基因序列异常。

本公开实施例中可以根据基因变异候选位点的序列特征和非序列特征对基因变异候选位点的基因变异进行识别，从而可以更加全面地对基因测序数据进行分析。在对基因变异候选位点的基因变异进行识别时，首先需要获取基因变异候选位点对应的至少一个基因测序读段。本公开实例还提供了一种获取基因变异候选位点对应的至少一个基因测序读段的过程。

图2示出根据本公开一实施例的获取基因变异候选位点对应的至少一个基因测序读段的流程图。在一种可能的实现方式中，获取基因变异候选位点对应的至少一个基因测序读段，可以包括以下步骤：

步骤111，获取由体细胞基因进行基因测序得到的基因测序读段。

这里，通过体细胞基因进行基因测序可以得到至少一个基因测序读段，基因测序读段可以是对体细胞基因进行基因类型标注的序列。体细胞基因在进行基因测序之后，不仅可以得到基因测序读段中每个基因的基因类型，还可以得到基因测序读段中每个基因所在位点的基因位置信息。同一个位点可以对应至少一个基因测序读段。

在一种可能的实现方式中，通过体细胞基因进行基因测序可以得到至少一个基因测序读段，可以对基因测序得到的基因测序读段进行预处理，这里的预处理方式可以包括交叉污染筛选、测序质量筛选、比对质量筛选、读段长度异常筛选等。通过预处理，可以筛选掉交叉污染的基因测序读段，以及筛选掉测序质量和比对质量较低、读段长度异常的基因测序读段。

步骤112，将所述基因测序读段的基因序列与参考基因组的基因序列进行比对，得到比对结果。

在本公开实施例中，在获取由体细胞基因进行基因测序得到的基因测序读段之后，可以将获取的基因测序读段的基因序列与相同位点的参考基因组的基因序列的进行比对，得到对比结果。举例来说，可以将每个进行基因测序得到的基因测序读段与相同位点的参考基因组的基因序列进行对比，确定基因测序读段的基因序列与参考基因组的基因序列不同的位点。还可以将具有相同位点的至少一个基因测序读段与相同位点的参考基因组的基因序列进行对比，确定至少一个基因测序读段的基因序列与参考基因组的基因序列不同的位点。

步骤113，根据所述比对结果确定所述体细胞基因的基因存在异常的基因变异候选位点。

在本公开实施例中，可以根据比对结果确定基因测序读段与参考基因组的基因序列不同的位点，如果该位点对应的至少一个基因测序读段中，在该位点发送变异的基因测序读段的比例大于预设比例，则可以确定该位点为基因变异候选位点，否则，可以认为该位点不是基因变异候选位点。基因测序读段在该位点与参考基因组的基因序列不同，可能是因为测序错误导致的不同，通过这种方式，可以减少由于基因测序失误引起的基因序列异常现象。

步骤114，获取所述基因变异候选位点对应的至少一个基因测序读段。

在本公开实施例中，在确定基因变异候选位点之后，可以获取基因变异候选位点对应的至少一个基因测序读段。其中，每个基因变异候选位点对应的至少一个基因测序读段，在该基因变异候选位点的基因序列与相同位点的参考基因组的基因序列可以不同。这里的基因变异候选位点可以为至少一个。

通过上述获取基因变异候选位点对应的至少一个基因测序读段的过程，不仅可以较为准确地确定基因变异候选位点，还可以在基因测序得到的基因测序读段中确定基因变异候选位点对应的至少一个基因测序读段。

本公开实施例中可以根据基因变异候选位点对应的至少一个基因测序读段的序列属性信息，确定该基因变异候选位点的序列特征，从而在对基因变异候选位点的基因变异进行识别时，可以考虑基因变异候选位点所对应的至少一个基因测序读段的序列属性。下面通过一示例对确定基因变异候选位点的序列特征的过程进行详细说明。

图3示出根据本公开一实施例的基因变异候选位点的序列特征过程的流程图。如图3所示，上述步骤12可以包括以下步骤：

步骤121a，根据所述基因变异候选位点的基因位置信息，确定所述基因变异候选位点所在的预设位点区间；

步骤122a，获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息；其中，所述序列属性信息为与位点的位置相关的表征基因属性的信息；

步骤123a，根据所述预设位点区间中每个位点的序列属性信息，生成所述基因变异候选位点的序列特征。

在本公开实施例的示例中，对于每一个基因变异候选位点可以存在至少一个基因测序读段。为了提高基因变异识别的准确度，不仅可以考虑该基因变异候选位点的序列属性信息，还可以考虑该基因变异候选位点附近的位点的序列属性信息。在确定基因变异候选位点的序列特征时，可以根据基因变异候选位点的基因位置信息，确定该基因变异候选位点所在的预设位点区间，例如，可以将基因变异候选位点前后150个碱基对的区间作为基因变异候选位点所在的预设位点区间。然后可以针对该预设位点区间内的每个位点，获取至少一个基因测序读段在该位点的序列属性信息，由该位点的序列属性信息可以生成该位点对应序列特征。序列特征可以用序列特征向量进行表示。由基因变异候选位点所在预设位点区间中至少一个位点对应的至少一个序列特征向量，可以形成基因变异候选位点的序列特征矩阵。举例来说，若基因变异候选位点所在预设位点区间包括3个位点b1、b2、b3，3个位点对应的序列特征向量分别为a1、a2、a3，基因变异候选位点的序列特征矩阵为[a1a2a3]，其中，a1、a2、a3的序列特征分别对应b1、b2、b3的序列属性信息。

这里，序列属性信息可以包括但不限于：参考基因组的基因类型；每种基因类型的基因数量；每种基因类型的缺失基因数量；每种基因类型的插入基因数量。参考基因组的基因类型可以是参考基因组在基因变异候选位点的基因类型。每种基因类型的基因数量可以是至少一个基因测序读段在该基因变异候选位点每种基因类型的基因数量，例如，该基因变异候选位点对应5个基因测序读段，每个基因测序读段在该基因变异候选位点的基因类型分别为：A、C、C、G、G，则每种基因类型的基因数量分别为：A为1个；C为2个；G为2个。每种基因类型的缺失基因数量可以是至少一个基因测序读段在该基因变异候选位点每种基因类型的缺失基因数量，例如，每个基因测序读段在该基因变异候选位点缺失的基因类型分别为：A、C、C、G、G，则每种基因类型的缺失基因数量分别为：A为1个；C为2个；G为2个。每种基因类型的插入基因数量可以是至少一个基因测序读段在该基因变异候选位点每种基因类型的插入基因数量，例如，每个基因测序读段在该基因变异候选位点插入的基因类型分别为：A、C、C、G、G，则每种基因类型的插入基因数量分别为：A为1个；C为2个；G为2个。

在一种可能的实现方式中，在获取至少一个基因测序读段在预设位点区间中每个位点的序列属性信息时，可以针对该预设位点区间中的每个位点，确定至少一个基因测序读段在该位点的基因类型，并统计该位点所对应的每种基因类型的基因数量，从而可以确定基因变异候选位点对应的至少一个基因测序读段，在该位点每种基因类型的基因数量。

在一种可能的实现方式中，在获取至少一个基因测序读段在预设位点区间中每个位点的序列属性信息时，可以根据每个基因测序读段的基因序列与参考基因组的基因序列进行比对的比对结果，针对该预设位点区间中的每个位点，确定每个基因测序读段在该位点的缺失基因的基因类型，并统计至少一个基因测序读段在该位点上每种基因类型的缺失基因数量，从而可以确定基因变异候选位点对应的至少一个基因测序读段，在该位点每种基因类型的缺失基因数量。

在一种可能的实现方式中，在获取至少一个基因测序读段在预设位点区间中每个位点的序列属性信息时，可以根据每个基因测序读段的基因序列与参考基因组的基因序列进行比对的比对结果，针对该预设位点区间中的每个位点，确定每个基因测序读段在该位点的缺失基因的基因类型，并统计至少一个基因测序读段在该位点上每种基因类型的插入基因数量，从而可以确定基因变异候选位点对应的至少一个基因测序读段，在该位点每种基因类型的插入基因数量。

举例来说，假设序列属性信息包括参考基因组的基因类型、每种基因类型的基因数量、每种基因类型的缺失基因数量、每种基因类型的插入基因数量，在确定基因变异候选位点的序列特征时，可以针对基因变异候选位点所在的预设位点区间中的每一个位点，提取基因变异候选位点对应的至少一个基因测序读段在该位点的上述四个信息，例如，基因变异候选位点对应的5个基因测序读段，针对预预设位点区间中的某一位点，可以分别确定参考基因组在该位点的基因类型、5个基因测序读段在该位点各基因类型的基因数量、5个基因测序读段在该位点各基因类型的缺失基因数量和5个基因测序读段在该位点各基因类型的插入基因数量。然后综合该位点对应的至少一个序列属性信息，可以得到该位点的序列特征。基因变异候选位点的序列特征可以包括预设位点区间中每个位点的序列特征。

本公开实施例的示例中不仅在对基因变异候选位点的基因变异进行识别时，考虑了基因变异候选位点所对应的至少一个基因测序读段的序列属性，还考虑了至少一个基因测序读段的非序列属性。下面通过一示例对确定基因变异候选位点的非序列特征的过程进行详细说明。

图4示出根据本公开一实施例的基因变异候选位点的非序列特征过程的流程图。如图4所示，上述步骤12可以包括以下步骤：

步骤121b，获取所述至少一个基因测序读段的非序列属性信息；其中，所述非序列属性信息为与位点的位置不相关的表征基因属性的信息；

步骤122b，根据所述至少一个基因测序读段的非序列属性信息，生成所述基因变异候选位点的非序列特征。

在本公开实施例的示例中，为了提高基因变异识别的准确度，不仅可以考虑至少一个基因测序读段的序列属性信息，还可以考虑至少一个基因测序读段的非序列属性信息。这里，非序列信息可以包括以下至少一种信息：对比质量；正负链偏好；基因测序读段长度；边缘偏好。在确定基因变异候选位点的非序列特征时，可以获取至少一个基因属性序列读段的非序列属性信息，然后由获取的非序列属性信息生成基因变异候选位点的非序列特征。

在一种可能的实现方式中，在根据所述至少一个基因测序读段的非序列属性信息，确定所述基因变异候选位点的非序列特征时，可以根据每个基因测序读段中每个位点的对比质量，确定每个基因测序读段的对比质量，然后根据每个基因测序读段的对比质量，确定所述基因变异候选位点对应的非序列特征。这里，对比质量可以用于表征基因测序读段中每个基因序列的基因测序的准确性，如果某个基因序列的对比质量低于预设值，则可以认为该基因序列由基因测序得到的基因类型不准确，从而可以将对比质量作为判断基因变异候选位点的基因是否发生变异的一个参考因素。举例来说，基因变异候选位点对应至少一个基因测序读段，则可以根据每个基因序列的对比质量，确定每个基因测序读段的对比质量，以一个基因测序读段举例，可以将该基因测序读段所包括的基因序列的对比质量的平均值或者中间值，作为该基因测序读段的对比质量，还可以在该基因测序读段随机选择至少一个基因序列，将选择的至少一个基因序列对比质量的平均值或者中间值作为该基因测序读段的对比质量。然后由每个基因测序读段的对比质量得到该基因变异候选位点对应的对比质量，例如，计算该基因变异候选位点对应的至少一个基因测序读段对比质量的平均值或者均值，得到该基因变异候选位点对应的对比质量，从而可以根据该基因变异候选位点对应的对比质量确定基因变异候选位点对应的非序列特征。

在一种可能的实现方式中，在根据至少一个基因测序读段的非序列属性信息，确定基因变异候选位点的非序列特征时，可以根据每个基因测序读段所属基因链的正负链信息，确定至少一个基因测序读段所属基因链的正负链比例，然后根据确定的正负链比例，确定基因变异候选位点对应的非序列特征。这里，正负链偏好可以是基因测序读段所属基因链中正链和负链的比例，基因链可以包括正链和负链，其中，正链可以是与核糖核酸(RNA)的碱基序列相同的脱氧核糖核酸(DNA)单链，负链可以是与核糖核酸(RNA)的碱基序列互补的脱氧核糖核酸(DNA)单链。举例来说，基因变异候选位点对应5个基因测序读段，其中，3个基因测序读段对应基因链的正链，2个基因测序读段对应基因链的负链，则正负链偏好可以是3:2。

在一种可能的实现方式中，在根据至少一个基因测序读段的非序列属性信息，确定基因变异候选位点的非序列特征时，可以根据每个基因测序读段的基因测序读段长度，确定基因变异候选位点的非序列特征。基因测序读段长度可以是每个基因测序读段所具有碱基序列的长度，举例来说，一个基因测序读段包括4个碱基序列，则该基因测序读段的长度为4，可以由每个基因测序读段长度确定基因变异候选位点的非序列特征，还可以由至少一个基因测序读段长度的中间值或者平均值确定基因变异候选位点的非序列特征。

在一种可能的实现方式中，在根据至少一个基因测序读段的非序列属性信息，确定基因变异候选位点的非序列特征时，可以根据每个基因测序读段的边缘偏好，确定基因变异候选位点的非序列特征。这里，边缘偏好可以是某一位点在基因测序读段中位于边缘位置与中间位置的比例。举例来说，可以将基因测序读段平均分为3段，其中，基因测序读段两端的2段可以作为边缘位置，基因测序读段中间的1段可以作为中间位置，基因变异候选位点对应5个基因测序读段，基因变异候选位点如果位于其中3个基因测序读段的边缘位置，位于其中2个基因测序读段的中间位置，该基因变异候选位点的边缘偏好可以为3:2。相应地，可以由基因变异候选位点在每个基因测序读段的边缘偏好，确定基因变异候选位点的非序列特征，还可以由至少一个基因测序读段所对应的边缘偏好的中间值或者平均值，确定基因变异候选位点的非序列特征。

通过上述方式，可以针对至少一个基因测序读段在基因变异候选位点的非序列属性信息生成基因变异候选位点的非序列特征，从而可以在基因变异识别时考虑基因变异候选位点的非序列特征度特征，使基因变异识别更加准确。在确定非序列特征时，可以是由非序列属性信息中任意至少一个信息的组合生成至少一个基因测序读段的非序列特征。

下面通过一示例对基因变异候选位点的基因变异进行识别的过程进行说明。

图5示出根据本公开一实施例的识别基因变异候选位点的基因变异过程的流程图。如图5所示，上述步骤13可以包括以下步骤：

步骤131，将所述序列特征和所述非序列特征进行特征整合，得到所述基因变异候选位点的整合特征；

步骤132，基于所述基因变异候选位点的整合特征，对所述基因变异候选位点的基因变异进行识别。

在本公开实施例中，在确定基因变异候选位点的序列特征和非序列维度特征之后，可以利用神经网络模型对序列特征和非序列特征进行特征整合，将序列特征形成的序列特征矩阵与非序列特征形成的非序列特征矩阵合成为一个特征矩阵，得到由整合特征形成的整合特征矩阵，然后利用神经网络模型根据该整合特征矩阵对变异候选位点的基因变异进行识别。通过这种方式，可以利用神经网络模型整合基因变异候选位点对应的序列属性信息和非序列属性信息，从而可以更加全面地对基因测序数据进行分析，使基因变异识别更加准确。在训练过程中，可以选取存在单核苷酸多态性(Single NucleotidePolymorphism，SNP)的基因测序读段、存在插入/缺失(Insertion/Deletion，InDel)的基因测序读段作为训练样本，从而训练后得到的基因变异识别模型可以有效地对SNP、InDel的基因变异进行识别。

在一种可能的实现方式中，根据所述基因变异候选位点的整合特征，对所述基因变异候选位点的基因变异进行识别，可以包括：根据所述基因变异候选位点的整合特征，得到所述基因变异候选位点的基因发生变异的变异值；在所述变异值大于或等于预设阈值的情况下，确定所述基因变异候选位点的基因存在变异。这里，基因发生变异的变异值可以是表征该基因变异候选位点发生变异的可能性，例如，变异值越大，该基因变异候选位点发生变异的可能性越大。可以利用上述神经网络对二维特征进行处理得到变异值，并根据变异值判断基因变异候选位点的基因是否存在变异。在一种可能的实现方式中，变异值可以在0至1之间。预设阈值可以根据应用场景进行设置，例如，0.3、0.5，如果变异值大于预设阈值，则可以认为该基因变异候选位点的基因发生变异，否则，可以为该基因变异候选位点的基因未发生变异。

本公开实施例中可以利用神经网络模型对基因变异候选位点的基因变异进行识别，该神经网络模型可以提取基因变异候选位点的序列特征和非序列特征。本公开实施例还提供了一种神经网络模型的结构。

图6示出根据本公开一实施例的神经网络模型的框图。如图6所示，神经网络模型可以包括两个分支结构，第一分支和第二分支。第一分支可以用于提取基因变异候选位点对应的至少一个基因测序读段的序列特征，第一分支可以包括卷积层和池化层。第二分支可以用于提取基因变异候选位点对应的至少一个基因测序读段的非序列特征，第二分支可以包括全连接层。神经网络模型提取基因变异候选位点的序列特征和非序列特征之后，可以将序列特征和非序列特征进行整合，例如，将序列特征的序列特征矩阵与非序列特征的非序列特征矩阵进行拼接，得到整合特征的整合特征矩阵，然后再经过全连接层可以得到基因变异候选位点的变异值。

本公开实施例通过提取基因变异候选位点对应的至少一个基因测序读段的序列属性信息和非序列属性信息，利用对序列属性信息和非序列属性信息整合的整合特征对基因变异进行识别，从而综合考虑基因变异候选位点对应的序列属性信息和非序列属性信息，更加全面地分析基因测序信息，更好地对基因候选位点的基因变异进行识别，筛掉胚系基因变异以及由于噪声和错误带来的干扰，提高基因变异识别的准确率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

图7示出根据本公开实施例的基因变异识别装置的框图，如图7所示，所述基因变异识别装置包括：

获取模块71，用于获取基因变异候选位点对应的至少一个基因测序读段；

确定模块72，用于根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的序列特征和非序列特征，其中，所述序列特征为与位点的位置相关的特征；

识别模块73，用于基于所述序列特征和所述非序列特征，对所述基因变异候选位点的基因变异进行识别。

在一种可能的实现方式中，所述属性信息包括序列属性信息；所述确定模块72，包括：

对比质量；正负链偏好；基因测序读段长度；边缘偏好。

在一种可能的实现方式中，所述识别模块73，包括：

在一种可能的实现方式中，所述获取模块71，具体用于，

获取由体细胞基因进行基因测序得到的基因测序读段；

获取所述基因变异候选位点对应的至少一个基因测序读段。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图8是根据一示例性实施例示出的一种用于基因变异识别的装置1900的框图。例如，装置1900可以被提供为一服务器。参照图8，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基因变异识别方法，其特征在于，所述方法包括：

获取基因变异候选位点对应的至少一个基因测序读段；

2.根据权利要求1所述的方法，其特征在于，所述属性信息包括序列属性信息；根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的序列特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息，包括：

统计所述每个位点对应的每种基因类型的基因数量。

4.根据权利要求2所述的方法，其特征在于，所述获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息，包括：

5.根据权利要求2所述的方法，其特征在于，所述获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述序列属性信息包括以下至少一种信息：

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述属性信息包括非序列属性信息；根据所述至少一个基因测序读段的属性信息，确定所述基因变异候选位点的非序列特征，包括：

8.一种基因变异识别装置，其特征在于，所述装置包括：

9.一种基因变异识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，其中，所述处理器通过调用所述可执行指令实现如权利要求1至7中任意一项所述的方法。

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。