CN110993028B

CN110993028B - 突变数据识别方法、训练方法、处理装置及存储介质

Info

Publication number: CN110993028B
Application number: CN201911304571.3A
Authority: CN
Inventors: 张学工; 王志辉; 闾海荣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2022-03-29
Anticipated expiration: 2039-12-17
Also published as: CN110993028A

Abstract

本申请公开了一种突变数据识别方法、训练方法、处理装置及存储介质。本申请公开能够同时整合大量非编码区调控因子测序数据和少量非编码区已知有害突变的方法，克服了深度学习模型容易过拟合的缺点，从而对非编码区突变的有害性做出有效的预测。第二，本申请计算效率高，能够在数小时内即能完成模型训练。第三，本申请仅需基序列信息即能完成对非编码区突变有害性的预测，不需要基因表达矩阵等信息的辅助，方便使用。

Description

突变数据识别方法、训练方法、处理装置及存储介质

技术领域

本申请涉及大数据处理技术领域，尤其涉及突变数据识别方法、训练方法、处理装置及存储介质。

背景技术

随着新一代测序技术的广泛应用，利用基因测序辅助疾病的诊断和治疗得到越来越广泛的关注，而精确判断突变与疾病的对应关系和因果关系是将基因测序广泛应用到医疗中的至关重要的一步。过去几年的全基因组关联分析研究过程中发现，有超过90％的与疾病相关的突变位于非编码区，表明非编码区在疾病和形状调控中的重要作用。由于非编码区功能的复杂性，目前科学界对非编码区的认识还很初步，缺少有效的方法对非编码区突变的有害性做出判断。

发明内容

本申请实施例所要解决的技术问题在于实现目标基因序列中的突变有害性的识别。

本申请第一方面公开一种突变数据识别方法，所述方法包括：

获取训练样本，所述训练样本为非编码区调控因子测序数据；

从所述非编码区调控因子测序数据中提取正样本和负样本，所述正样本为所述测序数据中的测序峰值区域内的数据，所述负样本为与所述测序峰值区域不重叠区域内的数据；

将所述正样本和所述负样本输入到训练模型中，并通过所述训练模型输出针对所述正样本和负样本的训练结果，所述训练结果包括非编码区调控因子测序数据对应的特征向量；

获取目标序列数据，将所述目标序列数据输入到所述训练模型中，以使得所述训练模型基于所述特征向量生成所述目标序列数据对应的突变数据识别结果。

在一些可选的实施方式中，所述测序峰值区域不重叠区域内的数据包括若干段子序列数据，若干段子序列数据同时满足GC量相同，序列长度相同。

在一些可选的实施方式中，在将所述正样本和所述负样本输入到贝叶斯神经网络中之前，所述方法还包括：

对所述正样本和负样本进行独热编码。

在一些可选的实施方式中，测序峰值区域为以所述测序峰值为中心两侧延长，1000个碱基对所形成的区域。

在一些可选的实施方式中，所述训练模型包括贝叶斯卷积层和双向贝叶斯循环神经网络。

本申请第二方面公开一种非编码区突变数据训练方法，所述方法包括：

获取非编码区的突变数据，所述突变数据包括突变前数据和突变后数据；

将所述突变前数据和所述突变后数据输入到训练模型中，以使得第二训练模块基于非编码区调控因子测序数据对应的特征向量输出针对所述突变前数据和所述突变后数据的识别结果。

本申请第三方面公开一种突变数据识别装置，所述装置包括：

第一获取模块，用于获取训练样本，所述训练样本为非编码区调控因子测序数据；

第一输入模块，用于从所述非编码区调控因子测序数据中提取正样本和负样本，所述正样本为所述测序数据中的测序峰值区域内的数据，所述负样本为与所述测序峰值区域不重叠区域内的数据；

特征提取模块，将所述正样本和所述负样本输入到训练模型中，并通过所述训练模型输出针对所述正样本和负样本的训练结果，所述训练结果包括非编码区调控因子测序数据对应的特征向量；

所述第一获取模块，还用于获取目标序列数据；

所述第一输入模块，还用于将所述目标序列数据输入到所述训练模型中，以使得所述训练模型基于所述特征向量生成所述目标序列数据对应的突变数据识别结果。

本申请第四方面公开一种非编码区突变数据训练装置，所述装置包括：

第二获取模块，获取非编码区的突变数据，所述突变数据包括突变前数据和突变后数据；

第二输入模块，用于将所述突变前数据和所述突变后数据输入到训练模型中，以使得第二训练模块基于非编码区调控因子测序数据对应的特征向量输出针对所述突变前数据和所述突变后数据的识别结果

本申请第五方面公开一种非编码区处理装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本申请第一方面所述的突变数据识别方法及本申请第二方面所述的突变数据训练方法。

本申请第六方面公开一种计算机可读存储介质，所述计算机可读存储介质中包括突变数据识别程序及突变数据训练程序，所述突变数据识别程序及突变数据训练程序被处理器执行时，执行本申请第一方面所述的突变数据识别方法及本申请第二方面所述的突变数据训练方法。

与现有技术相比，本申请具有如下有益效果：

第一，本申请公开了一种新的同时整合大量非编码区调控因子测序数据和少量非编码区已知有害突变的方法，克服了深度学习模型容易过拟合的缺点，从而对非编码区突变的有害性做出有效的预测。

第二，本申请计算效率高，在数小时内即能完成模型训练，而已有的基于支持向量机的方法通常需要数天。

第三，本申请仅需基序列信息即能完成对非编码区突变有害性的预测，不需要基因表达矩阵等信息的辅助，方便使用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一公开的一种突变数据识别方法的流程示意图；

图2是本申请实施例二公开的一种突变数据训练方法的流程示意图；

图3是本申请实施例三公开的一种突变数据识别装置的结构示意图；

图4是本申请实施例四公开的一种突变数据训练装置的结构示意图；

图5是本申请实施例五公开的一种突变数据处理装置的结构示意图；

图6是本申请实施例一公开的一种训练模型的结构示意图。

具体实施方式

为了更好地理解和实施，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

请参阅图1，图1是本申请实施例公开的一种突变数据识别方法的流程示意图。如图1所示，该突变数据识别方法包括步骤：

101、获取训练样本，所述训练样本为非编码区调控因子测序数据；

102、从所述非编码区调控因子测序数据中提取正样本和负样本，所述正样本为所述测序数据中的测序峰值区域内的数据，所述负样本为与所述测序峰值区域不重叠区域内的数据；

103、将所述正样本和所述负样本输入到训练模型中，并通过所述训练模型输出针对所述正样本和负样本的训练结果，所述训练结果包括非编码区调控因子测序数据对应的特征向量；

104、获取目标序列数据，将所述目标序列数据输入到所述训练模型中，以使得所述训练模型基于所述特征向量生成所述目标序列数据对应的突变数据识别结果。

本申请实施例的突变数据识别方法能够克服了深度学习模型容易过拟合的缺点，从而对非编码区突变的有害性做出有效的预测；另一方面，本申请的计算效率高，在数小时内即能完成模型训练，而已有的基于支持向量机的方法通常需要数天，再一方面，本申请仅需基序列信息即能完成对非编码区突变有害性的预测，不需要基因表达矩阵等信息的辅助，方便使用。

在一些可选的实施方式中，所述测序峰值区域不重叠区域内的数据包括若干段子序列数据，若干段子序列数据满足同时满足GC量相同，序列长度相同。

对所述正样本和负样本进行独热编码。

在一些可选的实施方式中，如图6所示，所述训练模型包括贝叶斯卷积层和双向贝叶斯循环神经网络。

将处理好的数据作为输入训练一个贝叶斯神经网络，推断该网络参数的后验分布，使该网络能正确的区分在不同的调控因子的条件下的正样本和负样本。贝叶斯神经网络相对一般神经网络，由于在训练过程中学习的是参数的分布而不是参数本身，因此对过拟合更加鲁棒，在小数据集上能取得比一般神经网络更好的效果。

实施例二

请参阅图2，图2是本申请实施例公开的一种突变数据训练方法的流程示意图。如图2所示，该突变数据训练方法包括步骤：

201、获取非编码区的突变数据，所述突变数据包括突变前数据和突变后数据；

202、将所述突变前数据和所述突变后数据输入到训练模型中，以使得第二训练模块基于非编码区调控因子测序数据对应的特征向量输出针对所述突变前数据和所述突变后数据的识别结果。

实施例三

请参阅图3，图3是本申请实施例公开的一种突变数据识别装置的结构示意图。如图3所示，该突变数据识别装置包括：

第一获取模块301，用于获取训练样本，所述训练样本为非编码区调控因子测序数据；

第一输入模块302，用于从所述非编码区调控因子测序数据中提取正样本和负样本，所述正样本为所述测序数据中的测序峰值区域内的数据，所述负样本为与所述测序峰值区域不重叠区域内的数据；

特征提取模块303，将所述正样本和所述负样本输入到训练模型中，并通过所述训练模型输出针对所述正样本和负样本的训练结果，所述训练结果包括非编码区调控因子测序数据对应的特征向量；

所述第一获取模块301，还用于获取目标序列数据；

所述第一输入模块302，还用于将所述目标序列数据输入到所述训练模型中，以使得所述训练模型基于所述特征向量生成所述目标序列数据对应的突变数据识别结果。

本申请实施例的突变数据识别装置通过执行突变数据识别方法，能够克服了深度学习模型容易过拟合的缺点，从而对非编码区突变的有害性做出有效的预测；另一方面，本申请的计算效率高，在数小时内即能完成模型训练，而已有的基于支持向量机的方法通常需要数天，再一方面，本申请仅需基序列信息即能完成对非编码区突变有害性的预测，不需要基因表达矩阵等信息的辅助，方便使用。

在一些可选的实施方式中，所述装置还还包括：

对所述正样本和负样本进行独热编码。

实施例四

请参阅图4，图4是本申请实施例公开的一种突变数据训练装置的结构示意图。如图4所示，该突变数据训练装置包括：

第二获取模块401，获取非编码区的突变数据，所述突变数据包括突变前数据和突变后数据；

第二输入模块402，用于将所述突变前数据和所述突变后数据输入到训练模型中，以使得第二训练模块基于非编码区调控因子测序数据对应的特征向量输出针对所述突变前数据和所述突变后数据的识别结果。

本申请实施例的突变数据训练装置通过执行突变数据训练方法，能够克服了深度学习模型容易过拟合的缺点，从而对非编码区突变的有害性做出有效的预测；另一方面，本申请的计算效率高，在数小时内即能完成模型训练，而已有的基于支持向量机的方法通常需要数天，再一方面，本申请仅需基序列信息即能完成对非编码区突变有害性的预测，不需要基因表达矩阵等信息的辅助，方便使用。

实施例五

请参阅图5，图5是本申请实施例公开的一种非编码区处理装置的结构示意图。如图5所示，该非编码区处理装置包括：

存储有可执行程序代码的存储器501；

与所述存储器耦合的处理器502；

所述处理器503调用所述存储器中存储的所述可执行程序代码，执行本申请实施例一所述的突变数据识别方法及本申请实施例二所述的突变数据训练方法。

本申请实施例的突变数据处理装置通过执行突变数据训练方法和突变数据识别方法，能够克服了深度学习模型容易过拟合的缺点，从而对非编码区突变的有害性做出有效的预测；另一方面，本申请的计算效率高，在数小时内即能完成模型训练，而已有的基于支持向量机的方法通常需要数天，再一方面，本申请仅需基序列信息即能完成对非编码区突变有害性的预测，不需要基因表达矩阵等信息的辅助，方便使用。

实施例六

本申请第四方面公开一种计算机可读存储介质，所述计算机可读存储介质中包括突变数据训练程序及突变数据识别程序，突变数据训练程序及突变数据识别程序被处理器执行时，执行本申请实施例一所述的突变数据识别方法及本申请实施二所述的突变数据训练方法。

本申请实施例的计算机可读存储介质通过执行突变数据训练方法和突变数据识别方法，能够克服了深度学习模型容易过拟合的缺点，从而对非编码区突变的有害性做出有效的预测；另一方面，本申请的计算效率高，在数小时内即能完成模型训练，而已有的基于支持向量机的方法通常需要数天，再一方面，本申请仅需基序列信息即能完成对非编码区突变有害性的预测，不需要基因表达矩阵等信息的辅助，方便使用。

实施例七

本申请实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行本申请实施例一所述的突变数据识别方法及本申请实施例二所述的突变数据训练方法。

本申请实施例的计算机程序产品通过执行突变数据训练方法和突变数据识别方法，能够克服了深度学习模型容易过拟合的缺点，从而对非编码区突变的有害性做出有效的预测；另一方面，本申请的计算效率高，在数小时内即能完成模型训练，而已有的基于支持向量机的方法通常需要数天，再一方面，本申请仅需基序列信息即能完成对非编码区突变有害性的预测，不需要基因表达矩阵等信息的辅助，方便使用。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

Claims

1.一种突变数据识别方法，其特征在于，所述方法包括：获取训练样本，所述训练样本为非编码区调控因子测序数据；从所述非编码区调控因子测序数据中提取正样本和负样本，所述正样本为所述测序数据中的测序峰值区域内的数据，所述负样本为与所述测序峰值区域不重叠区域内的数据；将所述正样本和所述负样本输入到训练模型中，并通过所述训练模型输出针对所述正样本和负样本的训练结果，所述训练结果包括非编码区调控因子测序数据对应的特征向量；获取目标序列数据，将所述目标序列数据输入到所述训练模型中，以使得所述训练模型基于所述特征向量生成所述目标序列数据对应的突变数据识别结果。

2.如权利要求1所述的方法，其特征在于，所述测序峰值区域不重叠区域内的数据包括若干段子序列数据，若干段子序列数据同时满足GC量相同，序列长度相同。

3.如权利要求1所述的方法，其特征在于，在将所述正样本和所述负样本输入到贝叶斯神经网络中之前，所述方法还包括：对所述正样本和负样本进行独热编码。

4.如权利要求1-3任一项所述的方法，其特征在于，测序峰值区域为以所述测序峰值为中心两侧延长，1000个碱基对所形成的区域。

5.如权利要求1-3任一项所述的方法，其特征在于，所述训练模型包括贝叶斯卷积层和双向贝叶斯循环神经网络。

6.一种突变数据识别装置，其特征在于，所述装置包括：第一获取模块，用于获取训练样本，所述训练样本为非编码区调控因子测序数据；第一输入模块，用于从所述非编码区调控因子测序数据中提取正样本和负样本，所述正样本为所述测序数据中的测序峰值区域内的数据，所述负样本为与所述测序峰值区域不重叠区域内的数据；特征提取模块，将所述正样本和所述负样本输入到训练模型中，并通过所述训练模型输出针对所述正样本和负样本的训练结果，所述训练结果包括非编码区调控因子测序数据对应的特征向量；所述第一获取模块，还用于获取目标序列数据；所述第一输入模块，还用于将所述目标序列数据输入到所述训练模型中，以使得所述训练模型基于所述特征向量生成所述目标序列数据对应的突变数据识别结果。

7.一种非编码区处理装置，其特征在于，所述装置包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-5任一项所述的突变数据识别方法及非编码区突变数据训练方法；其中，所述非编码区突变数据训练方法，包括：获取非编码区的突变数据，所述突变数据包括突变前数据和突变后数据；将所述突变前数据和所述突变后数据输入到训练模型中，以使得第二训练模块基于非编码区调控因子测序数据对应的特征向量输出针对所述突变前数据和所述突变后数据的识别结果。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括数据标注程序，所述数据标注程序被处理器执行时，执行如权利要求1-5任一项所述的突变数据识别方法及非编码区突变数据训练方法；

其中，所述非编码区突变数据训练方法，包括：获取非编码区的突变数据，所述突变数据包括突变前数据和突变后数据；将所述突变前数据和所述突变后数据输入到训练模型中，以使得第二训练模块基于非编码区调控因子测序数据对应的特征向量输出针对所述突变前数据和所述突变后数据的识别结果。