CN110111840A

CN110111840A - 一种体细胞突变检测方法

Info

Publication number: CN110111840A
Application number: CN201910396731.5A
Authority: CN
Inventors: 卢奕南; 毕磊; 周玉新
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-09
Anticipated expiration: 2039-05-14
Also published as: CN110111840B

Abstract

本发明公开了一种体细胞突变检测方法。所述检测方法包括如下步骤：首先，获取体细胞序列集；提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征，获得样本数据集，并从所述样本数据集中选取第一训练集和第二训练集和测试集；然后，建立全连接神经网络模型；并利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证，获得训练后的全连接神经网络模型；最后，获取待检测的全基因组序列，并提取待检测的全基因组序列的描述基因组候选突变位点的特征，得到待检测数据；将所述待检测数据输入所述训练后的全连接神经网络模型进行检测，实现了突变基因的检测，进而提高肿瘤疾病诊断的准确性。

Description

一种体细胞突变检测方法

技术领域

本发明涉及基因检测领域，特别涉及一种体细胞突变检测方法。

背景技术

目前对癌症基因组的研究通常要使用下一代测序技术(Next GenerationSequencing，NGS)来分析单个核苷酸变体(SNV)体细胞突变的肿瘤。使用NGS检测癌症的体细胞突变通常涉及到对肿瘤DNA和来自同一患者的非恶性(或正常)组织(通常是血液)的DNA进行测序。因此，以癌症为焦点的NGS实验在实验设计上与孟德尔紊乱或正常人类变异的研究有很大不同。在癌症研究中需要从两个匹配样本中读取的序列与一个参考人类基因组对齐，在测序过程中和对齐过程中很可能产生不可预知的错误，同时一些基因中的突变也并不是影响某一癌症的决定性因素。Samtools，SOAPsnp，VarScan，SNVMix，GATK，VipR等这些工具在肿瘤和正常数据中进行比较，找出那些出现在肿瘤中的变异，哪些不是正常的样本将被认为是体细胞突变，并为研究者提供一个候选名单，以跟踪功能影响和临床相关性。但是，这些简单的比对方法的准确度不高。因此从肿瘤基因数据中识别该种疾病的体细胞突变仍然是一个亟待解决的技术难题。

发明内容

本发明的目的是提供一种体细胞突变检测方法，以实现突变基因的检测，进而提高肿瘤疾病诊断的准确性。

为实现上述目的，本发明提供了如下方案：

本发明提供一种体细胞突变检测方法，所述检测方法包括如下步骤：

获取体细胞序列集，所述体细胞序列包括全基因组序列集和外显子基因序列集

提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征，获得样本数据集；所述样本数据集包括第一样本数据集和第二样本数据集；从所述全基因组序列集中提取的每个全基因组序列的描述基因组候选突变位点的特征，组成第一样本数据集；从所述外显子基因序列集中提取的每个外显子基因序列的描述基因组候选突变位点的特征，组成第二样本数据集；

从所述样本数据集中选取第一训练集和第二训练集和测试集；

建立全连接神经网络模型；

利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证，获得训练后的全连接神经网络模型；

获取待检测的全基因组序列，并提取待检测的全基因组序列的描述基因组候选突变位点的特征，得到待检测数据；

将所述待检测数据输入所述训练后的全连接神经网络模型进行检测。

可选的，所述提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征，具体包括：

获取健康体细胞基因序列；

根据所述健康体细胞基因序列，检测所述体细胞序列的质量，得到序列质量数据；

根据所述健康体细胞基因序列，对所述体细胞序列进行变异分析，得到变异分析数据；

根据所述序列质量数据和所述变异分析数据，获取信号增强数据；

获取肿瘤体细胞基因序列；

根据所述健康体细胞基因序列和所述肿瘤体胞基因序列，获取功能数据、分类数据和链偏置数据；

对所述序列质量数据、所述变异分析数据、所述信号增强数据、所述功能数据、所述分类数据和所述链偏置数据进行组合和编号，获得所述体细胞基因序列的描述基因组候选突变位点的特征。

可选的，所述根据所述健康体细胞基因序列和所述肿瘤体胞基因序列，获取功能数据、分类数据和链偏置数据，具体包括：

分别计算肿瘤体细胞基因序列的肿瘤部位与所述肿瘤部位的下一部位的基础质量的和及基础质量的和的平方，并分别计算所述肿瘤部位在所述健康体细胞基因序列中的对应部位与所述对应部位的下一部位的基础质量的和及基础质量的和的平方，得到功能数据；

对比区分出所述健康体细胞基因序列和所述肿瘤体细胞基因序列的差异，得到分类数据；

计算所述健康体细胞基因序列与所述肿瘤体细胞基因序列的链偏置，得到链偏置数据。

可选的，所述利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证，获得训练后的全连接神经网络模型，具体包括：

采用正态分布方法初始化所述全连接神经网络模型，得到初始化后的全连接神经网络模型；

根据所述第一训练集，采用ADAM梯度下降法，对所述初始化后的全连接神经网络模型进行预训练，得到预训练后的全连接神经网络模型；

根据所述第一训练集和所述第二训练集，采用ADAM梯度下降法，对所述预训练后的全连接神经网络模型进行训练，得到训练后的全连接神经网络模型；

将所述测试集输入所述训练后的全连接神经网络模型进行测试，得到测试结果；

计算所述测试结果的准确率；

判断所述测试结果的准确率是否达到百分之九十，得到第一判断结果；

若所述第一判断结果表示所述测试结果的准确率没有达到百分之九十，则将所述训练后的全连接神经网络模型设置为初始化后的全连接神经网络模型，返回步骤“根据所述第一训练集，采用ADAM梯度下降法，对所述初始化后的全连接神经网络模型进行预训练，得到预训练后的全连接神经网络模型”；

若所述第一判断结果表示所述测试结果的准确率达到百分之九十，则输出所述训练后的全连接神经网络模型。

可选的，所述全连接神经网络模型从输入至输出依次包括输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层；

所述第一隐藏层和所述第二隐藏层之间、所述第二隐藏层和所述第三隐藏层之间、所述第三隐藏层和所述第四隐藏层之间、所述第四隐藏层和所述输出层之间均设置有正规化层。

可选的，所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层的激活函数为tanh激活函数；所述第四隐藏层的激活函数为sigmoid激活函数。

可选的，采用正态分布方法初始化所述全连接神经网络模型，得到初始化后的全连接神经网络模型，具体包括：

采用Glorot正态分布初始化所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层；

采用LeCun正态分布初始化所述第四隐藏层。

可选的，所述根据所述第一训练集，采用ADAM梯度下降法，对所述初始化后的全连接神经网络模型进行预训练，得到预训练后的全连接神经网络模型，具体包括：

将所述第一训练集输入所述初始化后的全连接神经网络模型进行预训练，得到初始的预输出结果；

根据所述初始的预输出结果y_0i，采用第一损失函数，计算初始的第一损失值；

采用公式更新所述初始化后的全连接神经网络模型的参数，得到更新后的第一全连接神经网络模型；其中，W表示全连接神经网络模型的特征值参数，b表示全连接神经网络模型的偏置参数；v_dw和v_db分别表示全连接神经网络模型的Momentum参数的累计梯度量和平方累计量；s_dw和s_db分别表示全连接神经网络模型的RMSProp参数的累计梯度量和平方累计量；α表示学习率；ε表示小正数；

将所述第一训练集输入所述更新后的第一全连接神经网络模型进行预训练，得到新的预输出结果；

根据所述新的预输出结果，采用第一损失函数，计算新的第一损失值；

判断所述新的第一损失值和所述初始的第一损失值的差值是否小于第一预设阈值，得到第二判断结果；

若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值不小于所述第一预设阈值，则将所述新的第一损失值设置为第初始的第一损失值，将所述更新后的第一全连接神经网络模型设置为初始化后的全连接神经网络模型，返回步骤“采用公式更新所述初始化后的全连接神经网络模型的参数，得到更新后的第一全连接神经网络模型”；

若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值小于所述第一预设阈值，则将更新后的第一全连接神经网络模型设置为预训练后的全连接神经网络模型。

可选的，所述根据所述第一训练集和所述第二训练集，采用ADAM梯度下降法，对所述预训练后的全连接神经网络模型进行训练，得到训练后的全连接神经网络模型，具体包括：

将所述第一训练集输入所述预训练后的全连接神经网络模型进行训练，得到初始的第一输出结果；

将所述第二训练集输入所述预训练后的全连接神经网络模型进行训练，得到初始的第二输出结果；

根据所述初始的第一输出结果和所述初始的第二输出结果，采用第二损失函数，计算初始的第二损失值；

采用公式更新所述预训练后的全连接神经网络模型的参数，得到更新后的第二全连接神经网络模型；

将所述第一训练集输入所述更新后的第二全连接神经网络模型进行训练，得到新的第一输出结果；

将所述第二训练集输入所述更新后的第二全连接神经网络模型进行训练，得到新的第二输出结果；

根据所述新的第一输出结果和所述新的第二输出结果，采用第二损失函数，计算新的第二损失值；

判断所述新的第二损失值和所述初始的第二损失值的差值是否小于二预设阈值，得到第三判断结果；

若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值不小于所述第二预设阈值，则将所述新的第二损失值设置为初始的第二损失值，将所述更新后的第二全连接神经网络模型设置为预训练后的全连接神经网络模型，返回步骤“采用公式更新所述预训练后的全连接神经网络模型的参数，得到更新后的第二全连接神经网络模型”；

若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值小于所述第二预设阈值，则将所述更新后的第二全连接神经网络模型设置为训练后的全连接神经网络模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种体细胞突变检测方法。所述检测方法包括如下步骤：

首先，获取体细胞序列集；提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征，获得样本数据集，并从所述样本数据集中选取第一训练集和第二训练集和测试集；然后，建立全连接神经网络模型；并利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证，获得训练后的全连接神经网络模型；最后，获取待检测的全基因组序列，并提取待检测的全基因组序列的描述基因组候选突变位点的特征，得到待检测数据；将所述待检测数据输入所述训练后的全连接神经网络模型进行检测，实现了突变基因的检测，进而提高肿瘤疾病诊断的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种体细胞突变检测方法的流程图；

图2为本发明提供的体细胞序列的描述基因组候选突变位点的特征提取的方法示意图；

图3为本发明提供的全连接神经网络模型的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对发明作进一步详细的说明。

如图1所示，本发明提供一种体细胞突变检测方法，所述检测方法包括如下步骤：

步骤101，获取体细胞序列集，所述体细胞序列包括全基因组序列集和外显子基因序列集

步骤102，提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征，获得样本数据集；所述样本数据集包括第一样本数据集和第二样本数据集；从所述全基因组序列集中提取的每个全基因组序列的描述基因组候选突变位点的特征，组成第一样本数据集；从所述外显子基因序列集中提取的每个外显子基因序列的描述基因组候选突变位点的特征，组成第二样本数据集；

如图2所示，提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征的具体步骤为：

获取健康体细胞基因序列。

根据所述健康体细胞基因序列，检测所述体细胞序列的质量，得到序列质量数据；进一步的，将体细胞序列与健康体细胞基因序列成对放入FastQC软件中进行序列质量检测，同时得到序列质量数据。将所述质量数据作为前40个特征，编号为1-40。

根据所述健康体细胞基因序列，对所述体细胞序列进行变异分析，得到变异分析数据；将Samtools工具对齐和除偏之后的体细胞序列与健康体细胞基因序列放入GATK(从高通量测序数据中分析变异信息的软件)中，得到GATK中的分析数据作为变异分析数据，编号为40-80。

获取肿瘤体细胞基因序列；根据所述健康体细胞基因序列和所述肿瘤体胞基因序列，获取功能数据、分类数据和链偏置数据；具体包括，分别计算肿瘤体细胞基因序列的肿瘤部位与所述肿瘤部位的下一部位的基础质量的和及基础质量的和的平方，并分别计算所述肿瘤部位在所述健康体细胞基因序列中的对应部位与所述对应部位的下一部位的基础质量的和及基础质量的和的平方，得到功能数据；对比区分出所述健康体细胞基因序列和所述肿瘤体细胞基因序列的差异，得到分类数据；计算所述健康体细胞基因序列与所述肿瘤体细胞基因序列的链偏置，得到链偏置数据。即，要考虑不同基因数据之间的深度差异，以及基因序列标记对于深度的影响(例如特征x2到x17)，首先通过除以深度进行归一化。除了Samtools和GATK之外，还添加了几个注意到的可能导致系统错误的特性。例如，在Meacham等人(2011a,b)的研究中，发现GGT序列经常被错误地排序为GGG。为了捕捉这个人工制品，计算了正常和肿瘤的当前部位和下一个部位的基础质量之和，以及当前部位和下一个部位的基础质量之和的平方。这些特性被定义为功能数据，编号为x81-84，还将可能产生错误的分类变量作为分类数据，编号为x85-95。此外，为了结合来自肿瘤和健康细胞数据的链偏置效应，定义了链偏置数据来估计合并后所述健康体细胞基因序列与所述肿瘤体细胞基因序列的链偏置，编号为x96-97。

根据所述序列质量数据和所述变异分析数据，获取信号增强数据，进一步的，为了增强微弱的信号，考虑那些未充分采样的罕见体细胞突变或肿瘤中一小部分细胞中发生的突变，同时减少种系多态性的影响，引入了信号增强数据，信号增强数据由前面的80个特征计算得到，编号为x98-106。具体的，x98.正链中肿瘤数据质量Phred评分大于等于13分的数量除以正常数据的值；x99.反链中肿瘤数据质量Phred评分大于等于13分的数量除以正常数据的值；x100.肿瘤数据的基因质量和除以正常数据的基因质量和；x101.肿瘤数据的基因质量平方和除以正常数据的基因质量和；x102.肿瘤数据的映射基因质量和除以正常数据的映射基因质量和；x103.肿瘤数据映射之后质量的平方和除以正常的数据映射之后质量平方和；x104.肿瘤数据的基因尾部距离和除以正常数据的基因尾部距离和；x105.肿瘤数据的基因尾部距离平方和除以正常数据的基因尾部距离平方和；x106.肿瘤数据的等位基因深度除以正常数据的等位基因深度。

步骤103，从所述样本数据集中选取第一训练集和第二训练集和测试集；具体的，分别从第一样本数据集和第二样本数据集中取出百分之十的数据组成测试集。第一样本数据集中剩余的数据组成第一训练集，第二样本数据集中剩余的数据组成第二训练集。

步骤104，建立全连接神经网络模型；如图3所示，所述全连接神经网络模型包括一个输入层1、四个隐藏层2(第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层)和一个输出层3；四个所述隐藏层2之间以及所述隐藏层2与所述输出层3之间均设置有正规化层4。每层的节点数分别为输入层1包括106个单元，第一隐藏层、第二隐藏层和第三隐藏层包括108个单元的神经元，第四隐藏层包括一个神经元，输出层3包括一个神经元，并给出结果(0到1之间的一个数值，越接近1代表可能性越大，大于0.5即预测为该种疾病的基因突变)。第四隐藏层采用sigmoid激活函数计算所述隐藏层的输出数据。使用sigmoid作为激活函数，可以将最后的输出值限制在0到1之间。大于0.5则预测为1，小于0.5则为0.其公式为：x为该层的输入值。输入层1、第一隐藏层、第二隐藏层和第三隐藏层采用tanh作为激活函数，tanh激活函数有梯度下降快，不容易梯度消失等特点，其公式为：x为该层的输入值。层正规化4对于每一层都设置了BatchNormal进行值范围的压缩，从而不让某一个值对整个网络产生过大的影响,其公式为：

步骤105，利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证，获得训练后的全连接神经网络模型；

具体包括：采用正态分布方法初始化所述全连接神经网络模型，得到初始化后的全连接神经网络模型。根据所述第一训练集，采用ADAM梯度下降法，对所述初始化后的全连接神经网络模型进行预训练，得到预训练后的全连接神经网络模型。根据所述第一训练集和所述第二训练集，采用ADAM梯度下降法，对所述预训练后的全连接神经网络模型进行训练，得到训练后的全连接神经网络模型。将所述测试集输入所述训练后的全连接神经网络模型进行测试，得到测试结果。计算所述测试结果的准确率。判断所述测试结果的准确率是否达到百分之九十，得到第一判断结果。若所述第一判断结果表示所述测试结果的准确率没有达到百分之九十，则将所述训练后的全连接神经网络模型设置为初始化后的全连接神经网络模型，返回步骤“根据所述第一训练集，采用ADAM梯度下降法，对所述初始化后的全连接神经网络模型进行预训练，得到预训练后的全连接神经网络模型”。若所述第一判断结果表示所述测试结果的准确率达到百分之九十，则输出所述训练后的全连接神经网络模型。

其中，采用正态分布方法初始化所述全连接神经网络模型，得到初始化后的全连接神经网络模型，具体包括：

采用LeCun正态分布初始化所述第四隐藏层。

采用Glorot正态分布初始化所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层；Glorot正态分布初始化也称作Xavier正态分布初始化，该分布的均值为0，标准差为：

其中，fan_in和fan_out为别为权重张量的扇入和扇出(即输入层和输出层的单元数目)。

采用LeCun正态分布初始化第四隐藏层。该分布的均值为0，标准差为：

其中fan_in是权重张量的扇入(即输入层的单元数目)。

根据所述第一训练集，采用ADAM梯度下降法，对所述初始化后的全连接神经网络模型进行预训练，得到预训练后的全连接神经网络模型，具体包括：将所述第一训练集输入所述初始化后的全连接神经网络模型进行预训练，得到初始的预输出结果y_0i，i＝1,2,…,n，n为输入的训练数据的数量；根据所述初始的预输出结果，采用第一损失函数，计算初始的第一损失值；采用公式更新所述初始化后的全连接神经网络模型的参数，得到更新后的第一全连接神经网络模型；其中，W表示全连接神经网络模型的特征值参数，b表示全连接神经网络模型的偏置参数；v_dw和v_db分别表示全连接神经网络模型的Momentum参数的累计梯度量和平方累计量；s_dw和s_db分别表示全连接神经网络模型的RMSProp参数的累计梯度量和平方累计量；α表示学习率，学习速率的初始值为0.05；ε表示小正数，v_dw、s_dw、v_db和s_db，可求解公式得到；由于移动指数平均在迭代开始的初期会导致和开始的值有较大的差异，所以需要对上面求得的几个值做偏差修正，可利用公式对v_dw、s_dw、v_db和s_db进行修正；将所述第一训练集输入所述更新后的第一全连接神经网络模型进行预训练，得到新的预输出结果；根据所述新的预输出结果，采用第一损失函数，计算新的第一损失值；判断所述新的第一损失值和所述初始的第一损失值的差值是否小于第一预设阈值，得到第二判断结果；若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值不小于所述第一预设阈值，则将所述新的第一损失值设置为第初始的第一损失值，将所述更新后的第一全连接神经网络模型设置为初始化后的全连接神经网络模型，返回步骤“采用公式更新所述初始化后的全连接神经网络模型的参数，得到更新后的第一全连接神经网络模型”；若所述第二判断结果表示所述新的第一损失值和所述初始的第一损失值的差值小于所述第一预设阈值，则将更新后的第一全连接神经网络模型设置为预训练后的全连接神经网络模型。所述第一损失函数为逻辑斯谛损失函数，cost(h_θ(x₀),y₀)＝-y_0ilog(h_θ(x₀))-(1-y_0i)log(1-h_θ(x₀))，其中，y_0i为本次迭代的输出结果，h_θ(x₀)为将第一训练集中的样本x₀输入初始化后的全连接神经网络模型得到的预测输出结果。

根据所述第一训练集和所述第二训练集，采用ADAM梯度下降法，对所述预训练后的全连接神经网络模型进行训练，得到训练后的全连接神经网络模型，具体包括：将所述第一训练集输入所述预训练后的全连接神经网络模型进行训练，得到初始的第一输出结果；将所述第二训练集输入所述预训练后的全连接神经网络模型进行训练，得到初始的第二输出结果；根据所述初始的第一输出结果和所述初始的第二输出结果，采用第二损失函数，计算初始的第二损失值；采用公式更新所述预训练后的全连接神经网络模型的参数，得到更新后的第二全连接神经网络模型；将所述第一训练集输入所述更新后的第二全连接神经网络模型进行训练，得到新的第一输出结果；将所述第二训练集输入所述更新后的第二全连接神经网络模型进行训练，得到新的第二输出结果；根据所述新的第一输出结果和所述新的第二输出结果，采用第二损失函数，计算新的第二损失值；判断所述新的第二损失值和所述初始的第二损失值的差值是否小于二预设阈值，得到第三判断结果；若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值不小于所述第二预设阈值，则将所述新的第二损失值设置为初始的第二损失值，将所述更新后的第二全连接神经网络模型设置为预训练后的全连接神经网络模型，返回步骤“采用公式更新所述预训练后的全连接神经网络模型的参数，得到更新后的第二全连接神经网络模型”；若所述第三判断结果表示所述新的第二损失值和所述初始的第二损失值的差值小于所述第二预设阈值，则将所述更新后的第二全连接神经网络模型设置为训练后的全连接神经网络模型。其中，第二损失函数为：f(x)＝0.7cost(h_θ(x₁),y₁)+0.3cost(h_θ(x₂),y₂)，cost(·)为第一损失函数(逻辑斯谛损失函数)，cost(h_θ(x₁),y₁)为第一训练集中的样本x₁输入预训练后的全连接神经网络模型进行训练的损失函数值，cost(h_θ(x₂),y₂)为第二训练集中的样本x₂输入预训练后的全连接神经网络模型进行训练的损失函数值。即，第二损失函数f(x)为第一训练集的损失与第二训练集的损失的权值加和，第一训练集的权重值为0.7，第二训练集的权重值为0.3。

步骤106，获取待检测的全基因组序列，并提取待检测的全基因组序列的描述基因组候选突变位点的特征，得到待检测数据；

步骤107，将所述待检测数据输入所述训练后的全连接神经网络模型进行检测。

本发明的体细胞突变检测方法是一种基于序列特征提取和神经网络的体细胞突变检测方法，可以通过将待检测基因序列和健康的基因序列特征提取后的特征放入模型中进行预测，较为准确的预测出待检测细胞基因序列为该病症基因突变的可能性。使用新一代深度学习方法中的分类方法训练基于特征的分类器，可以更好地优化每个特征对区分真假阳性体细胞突变预测的贡献。将分类器与大量的真值数据相匹配，能够区分由于不同原因可能被预测的误报数据，从而更全面地理解由数据提供信息。与肿瘤数据相比，最能识别体细胞突变的特征在正常数据中的重要性是不同的，因此对肿瘤和正常数据的综合分析将比独立处理这两个数据集会产生更好的结果。最后，随着生物信息学的成熟，灵活的基于特征的分类器可以使用任意数量的来自不同软件包的特征组合，从而可以不断提高体细胞突变预测的准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种体细胞突变检测方法，其特征在于，所述检测方法包括如下步骤：

获取体细胞序列集，所述体细胞序列包括全基因组序列集和外显子基因序列集；

建立全连接神经网络模型；

2.根据权利要求1所述的一种体细胞突变检测方法，其特征在于，所述提取所述体细胞序列集中每个体细胞序列的描述基因组候选突变位点的特征，具体包括：

获取健康体细胞基因序列；

获取肿瘤体细胞基因序列；

3.根据权利要求2所述的一种体细胞突变检测方法，其特征在于，所述根据所述健康体细胞基因序列和所述肿瘤体胞基因序列，获取功能数据、分类数据和链偏置数据，具体包括：

4.根据权利要求1所述的一种体细胞突变检测方法，其特征在于，所述利用所述第一训练集、所述第二训练集和所述测试集对所述全连接神经网络模型进行训练和验证，获得训练后的全连接神经网络模型，具体包括：

计算所述测试结果的准确率；

5.根据权利要求4所述的一种体细胞突变检测方法，其特征在于，所述全连接神经网络模型从输入至输出依次包括输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层；

6.根据权利要求5所述的一种体细胞突变检测方法，其特征在于，所述输入层、所述第一隐藏层、所述第二隐藏层和所述第三隐藏层的激活函数为tanh激活函数；所述第四隐藏层的激活函数为sigmoid激活函数。

7.根据权利要求5所述的一种体细胞突变检测方法，其特征在于，采用正态分布方法初始化所述全连接神经网络模型，得到初始化后的全连接神经网络模型，具体包括：

采用LeCun正态分布初始化所述第四隐藏层。

8.根据权利要求4所述的一种体细胞突变检测方法，其特征在于，所述根据所述第一训练集，采用ADAM梯度下降法，对所述初始化后的全连接神经网络模型进行预训练，得到预训练后的全连接神经网络模型，具体包括：

根据所述初始的预输出结果，采用第一损失函数，计算初始的第一损失值；

9.根据权利要求8所述的一种体细胞突变检测方法，其特征在于，所述根据所述第一训练集和所述第二训练集，采用ADAM梯度下降法，对所述预训练后的全连接神经网络模型进行训练，得到训练后的全连接神经网络模型，具体包括：