CN114841280A

CN114841280A - 一种复杂疾病的预测分类方法、系统、介质、设备及终端

Info

Publication number: CN114841280A
Application number: CN202210550980.7A
Authority: CN
Inventors: 宓开拓; 宋华珠; 朱昊; 曹彦东
Original assignee: Beijing Anzhiyin Biotechnology Co ltd
Current assignee: Beijing Anzhiyin Biotechnology Co ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-02
Anticipated expiration: 2042-05-20
Also published as: CN114841280B

Abstract

本发明属于基因分析技术领域，公开了一种复杂疾病的预测分类方法、系统、介质、设备及终端，引入CNN的空间特征提取和特征增强模块；应用循环神经网络，从训练的模型中提取上下文信息；利用CNN模型和LSTM变体BiGRU模型预测复杂疾病。本发明提出了一种更有效的深度模型能在高维小样本的条件下来对复杂疾病样本进行分类。本发明提出基于BiGRU模型融入多表征特征增强的统计先验，使得模型更有效的应用在复杂疾病任务，先将SNP数据编码为数字形式，再使用所提出的基于多表征特征增强的BiGRU模型进行分类，该模型结合传统的统计方法的先验信息和神经网络的强表达，分类准确率达到81.52％，具有更好分类效果。

Description

一种复杂疾病的预测分类方法、系统、介质、设备及终端

技术领域

本发明属于基因关联分析技术领域，尤其涉及一种复杂疾病的预测分类方法、系统、介质、设备及终端。

背景技术

目前，基因中的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点的识别与筛选已成为复杂疾病与基因关联分析研究中日益重要的课题。许多机器学习算法被用于解决该问题，但样本数量明显小于SNP的数量，且在复杂疾病分类领域，维度爆炸是巨大的挑战。一些传统的统计方法或者深度学习算法也被用于该问题解决，但是各自存在不足。

发掘SNP与疾病的关联有助于发现疾病的机制、诊断标志物和治疗靶点，这将进一步有利于新的治疗策略和药物的出现。相比遗传疾病来说，复杂疾病(比如心肌梗死)是多种病理生理过程的最终表现，涉及遗传风险因素、中间状态(如高血压、糖尿病和血脂异常)和生活方式因素(如吸烟和饮酒习惯)。最近，全基因组关联研究(GWASs)在描述复杂疾病(比如心肌梗死)易感基因/单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)方面做出了巨大的努力。然而，这些发现的重复性是有限的，因为单个SNP的效果可能取决于基因-基因相互作用或基因-环境相互作用。由于基因、环境因素和疾病之间存在复杂的非线性关联，理解常见疾病的遗传结构仍然是一个巨大的挑战。

许多机器学习算法用于识别重要的SNP并基于此做疾病分类，由此开发了许多模型来根据SNP数据对健康和患者样本进行分类。W Zhang等人使用Relief算法剔除无关SNPs，然后使用基于支持向量机的特征递归消减方法(Support Vector Machine basedRecursive Feature Extinction Method,SVM-RFE)筛选出与遗传疾病相关的关键SNPs，并进行健康和患病的分类。Anupama使用条件互信息来计算每个特征的相关性，并使用SVM-RFE对CMIM生成的SNP进行排序，并选择排名最高的SNP对健康和患病进行分类。N.Batnyam等人利用流行的特征选择算法来选择重要的SNP，包括Relief-F、基于距离判别的特征选择、基于R值的特征选择和基于特征清晰度的算法。然后，作者使用传统的分类器，如K-最近邻、人工基因制作和SVM对SNP数据进行分类，此外，利用特征融合方法通过组合特征来生成新特征，以提高分类精度。A.Butorh等人提出了一种基于混合关联规则挖掘和人工神经网络的新方法：他们应用关联规则挖掘来选择信息特征，并使用语法进化来优化关联规则挖掘；同时，利用人工神经网络对SNP数据进行分类，并利用遗传算法设置人工神经网络参数。另外，Uppu等人应用深度前馈神经网络基于模拟数据集中存在的SNP对健康和患者样本进行分类，但使用特征选择算法。Feng等人构建了两个分支的卷积神经网络(ConvolutionalNeural Network,CNN)模型的双流卷积神经网络架构用于对人类唐氏综合征预测模型。

同时，需要一个强大的模型来对疾病进行分类，然而，对于传统的机器学习算法来说，过于依赖所选特征。本发明专注于深度学习，这是表示学习过程的一个特定子领域，可以检测多个表示级别。深度学习研究始于2006年Geoff Hinton的小组，通过组合多个非线性映射来构建的，以获得更抽象的数据表示。在其他一些研究中，CNN已被用于类似的任务并取得了良好的效果。例如，Alipanahi和Zeng等人应用CNN来发现基因序列上的特定蛋白质结合位点；Jian Zhou等人使用三层CNN模型来预测突变后非编码元素的功能结果；DavidR Kelley等人通过应用类似的结构研究了DNA序列的功能活性。另一方面，基因组学数据通常是序列数据，循环模型已应用于许多场景。例如，Renzhi Cao等人建立了基于LSTM的神经机器翻译，通过将蛋白质序列理解为基因本体术语来实现将蛋白质功能预测转化为语言翻译的任务；Chin-Sheng Yu设计了一个卷积LSTM网络，通过序列等预测蛋白质的亚细胞定位；Akosua Busia提出的seq-to-seq RNN可以将可变长度的输入序列映射到另一个序列或固定大小的预测结果，这对一些基因组学研究也有很好的前景。

通过上述分析，现有技术存在的问题及缺陷为：现有的机器学习方法虽然在遗传疾病分类任务上获得相关成果，主要是因为遗传疾病的特点在于遗传因素，但复杂疾病的分类往往受到遗传因素和环境因素的共同影响，所涉及特征选择和分类的高效算法的改进既困难又复杂。一般来说，特征在机器学习中占据重要作用，但特征数量的增加，不一定能给模型带来性能上的提升，这种现象被称为Hughes效应。这通常是由于特征数量的增加会显著增大模型训练所需的样本规模，而充足的样本量往往很难获取；此时，其中的无关冗余特征反而会带来过拟合等风险。为了避免过多的特征带来的问题，需要进行特征选择，即对数据的特征进行筛选，选出重要特征、消除无用和冗余特征等。此外，样本(健康或患者)的数量明显小于SNP的数量，这意味着SNP数据是稀疏的、不均衡的。所以，现有机器学习方法不适用于复杂疾病的预测，需要新的建模工具来精确评估疾病易感基因/单核苷酸多态性与疾病的关系。

在本发明中，考虑到实际的SNP和SNPs复杂的相互作用，因此我们结合特征增强，即特征增强可以认为是对疾病的先验易感性，在实现对无用特征的过滤的基础上保留了潜在的位点；而且对于具有遗传风险的复杂疾病，一些位点往往与疾病有很强的相关性相关表型，这些基因座也需要考虑，但在某些模型中没有考虑，因此将它们纳入本发明的模型。所以本发明提出了一种针对多种表型的特征增强技术；同时，将SNP的序列特征和空间特征作为输入，将BiGRU与CNN模块一起构建复杂疾病预测的深度模型。

发明内容

针对现有技术存在的问题，本发明提供了一种复杂疾病的预测分类方法、系统、介质、设备及终端，尤其涉及一种面向SNP数据的多表征特征增强的BiGRU(BidirectionalGated Recurrent Units)模型的复杂疾病的预测分类方法、系统、介质、设备及终端。

本发明是这样实现的，一种复杂疾病的预测分类方法，应用于数据信息处理终端，所述复杂疾病的预测分类方法包括：

将基于BiGRU模型融入多表征特征增强的统计先验，将SNP数据编码为数字形式，使用基于多表征特征增强的BiGRU模型进行复杂疾病信息的预测及分类。

进一步，所述复杂疾病的预测分类方法包括以下步骤：

步骤一，引入CNN的空间特征提取和特征增强模块；

步骤二，应用循环神经网络，从训练的模型中提取上下文信息；

步骤三，利用CNN模型和LSTM变体BiGRU模型预测复杂疾病。

进一步，所述基于多表征特征增强的BiGRU模型包括输入层、特征增强层、双向门控循环单元网络层、卷积层以及损失函数与正则化。

进一步，所述输入层中，位点上的碱基由A、G、C、T四个字母表示，利用one-hot编码将字母形式转化成数值形式；采用具有生物学意义的数值编码，利用突变基因的个数表征位点的信息，将原始数据转化成数值编码的形式。

所述特征增强层包括：

采用卡方检验计算每个位点与疾病之间的相关系数w_k，计算公式如下所示：

其中，k代表第k个位点，i代表患病与否，j代表位点的类别，A_ij代表对应的统计计数，E_ij为依据原假设得到的期望计数。

将计算卡方检验的相关系数作为初始权重，对输入进行加权计算：

x′_k＝ReLU(x_k⊙w_k+b_k)；

其中，权重w_k与相应输入特征x_k相对应元素进行元素相乘，对输入特征进行放缩。使用ReLu激活函数对特征集合进行截断，偏置b_k为特征选择的阈值；神经网络在优化w_k和b_k的同时，w_k被初始化为传统特征选择的评价值。

在特征增强的神经网络模型中引入额外的多表征特征增强层，计算公式为：

其中，disease_k是位点和疾病的直接关联系数，phenotype_k是位点和聚类后第k个表型的关联系数，w_k是系数加权后的结果。

使用K-Means++算法作为表型聚类的算法。

在模型建立时，在增强特征层通过不同的候选核心表征的组合的预测模型的评估结果确定核心表征，从而确定增强特征层的结构。

进一步，所述双向门控循环单元网络层包括：

使用双向GRU提取中文问题的上下文信息，模型使用特征增强后的输入向量作为Bi-GRU层的输入；Bi-GRU层有两部分，同时从正向和反向读取向量。GRU计算通过的向量，并输出一个固定维度的向量；GRU涉及四部分计算：

(1)复位门：GRU使用reset gate选择在前一时刻放弃的信息：

R_t＝σ(W_rS_t+U_rH_t-1+B_r)；

其中，W_r和U_r是权重信息，H_t-1是前一时刻的输入，B_r是偏差。

(2)更新门：GRU通过更新门选择并更新当前时刻的信息，计算公式为：

Z_t＝σ(W_zS_t+U_zH_t-1+B_z)；

其中，W_z和U_z是权重信息，H_t-1是前一时刻的输入，B_z是偏差。

(3)GRU计算候选记忆内容，计算公式如下所示：

其中，W和U是权重信息，B是偏差。

(4)GRU计算上述结果的输出结果，计算公式如下所示：

Bi-GRU层学习每个位点的上下文信息以及语义特征。

进一步，使用卷积核提取位点序列中更深层次的关键特征，使用卷积核中提取更深层的信息，并使用最大池来提取关键特征。卷积层的计算步骤如下：

将特征增强层计算出来的中间语义信息作为卷积层的输入，如下式所示：

其中，C_ij表示问题中第i个位点到第j个位点的拼接。

经过卷积层，计算公式如下所示：

T_i＝f(W×C_i+m-1+b)；

其中，f是双曲正切函数，W是权重信息，m是卷积核的宽度，b是偏差。

模型拼接卷积结果，通过最大化池提取关键特征；池化结果被拼接在一起，作为整个卷积层的输出。计算公式如下所示：

T_p＝[T₁,T₂,…,T_n-1,T_n]；

其中，n是卷积结果的数量，p是卷积核的数量。

所述损失函数与正则化包括：

损失函数的本质是描述预测值与标签值之间的距离和差异性大小的函数。采用交叉熵损失函数和L2正则化构造损失函数，如下式所示：

其中，y_i表示样本i的标签，case为1，control为0；P_i表示样本i预测为case的概率，

表示L2正则项。

L2正则化中，对权重进行L2范数约束；增加dropout通过在每轮迭代训练中随机丢弃一定比例神经元之间的连接训练不同的网络。

本发明的另一目的在于提供一种应用所述的复杂疾病的预测分类方法的复杂疾病的预测分类系统，所述复杂疾病的预测分类系统包括：

特征引入模块，用于引入CNN的空间特征提取和特征增强模块；

信息提取模块，用于应用循环神经网络，从训练的模型中提取上下文信息；

疾病预测模块，用于利用基于多表征特征增强的BiGRU模型预测复杂疾病。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

提出基于BiGRU模型融入多表征特征增强的统计先验，将SNP数据编码为数字形式，使用基于多表征特征增强的BiGRU模型进行复杂疾病的预测分类。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的复杂疾病的预测分类系统。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明提出了一种更有效的深度模型能在高维小样本的条件下对复杂疾病样本进行分类。本发明提出基于BiGRU模型融入多表征特征增强的统计先验，使得模型更有效的应用在复杂疾病任务，首先将SNP数据编码为数字形式，接着使用所提出的基于多表征特征增强的BiGRU模型进行分类，该模型结合了传统的统计方法的先验信息和神经网络的强表达，具有更好分类效果。

本发明提出了一个CNN模型和LSTM变体BiGRU模型来预测复杂疾病，该模型不仅包含CNN的空间特征提取，而且本发明还应用了循环神经网络，从训练的模型中提取上下文信息；同时，加入了特征增强模块，使得深度学习在高维小样本上能够充分发挥其优势。与传统统计方法以及其他深度学习模型的比较结果表明，本发明提出的模型具有更准确与强大的分类复杂疾病能力。

人类基因组测序在医学上取得了巨大成功，并说明了基因型在复杂疾病中的重要性和有效性。本发明建立一个深度学习框架，有可能分析SNP数据。本发明提出了一种新的方法，用于将传统的方法来增强深度学习的学习过程。根据本发明提出的方法，由于在编码过程中考虑了将名义数据转换为数值数据，并在接下来的训练中保留了语义编码的原始特征用于BiGRU学习到更丰富的上下文信息。接下来，考虑到疾病与表型的关系，将与疾病关联的表型加入其中，使得BiGRU在学习的同时可以更加关注这些在先验上比较突出的位点。总之，将本发明所提出的方法应用于SNP数据集，其中使用准确性和F-measure来评估该方法的性能。结果表明，本发明所提出的方法已成功识别出复杂疾病中的重要SNP；EF-BiGRU能够根据重要的SNP对健康和患者样本进行高精度分类。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

为了评估，本发明将提出的方法应用于SNP数据集，它可以对健康和患者样本进行分类，分类准确率达到81.52％，明显优于已发表的其他算法，在复杂疾病分类上具有了一定优势。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

(1)本发明的技术方案转化后的预期收益和商业价值为：

本发明对复杂疾病分类的评估指标明显优于当前的一些方法，所以，可以为医护人员、患者及研究人员提供一个复杂疾病分类的指导，利于对疾病的预防与诊断。

(2)本发明的技术方案填补了国内外业内技术空白：

人类基因组测序在医学上取得了巨大的成功，并说明了基因型在复杂疾病中的重要性和有效性。

本发明提出了一种用传统方法增强深度学习学习过程的新方法。根据我们提出的方法，由于在编码过程和下一次训练中考虑将字母数据转换为数字数据，因此保留了语义编码的原始特征，以便BiGRU学习更丰富的上下文信息。接下来，考虑疾病和表征之间的关系，添加与疾病相关的表征，提出疾病的多表征增强模块，并给出了具体构建方法，由此构建SNP数据的空间特征；最后，将SNP的序列特征和空间特征作为输入，利用BiGRU与CNN进行分类。

(3)本发明的技术方案是否解决了人们一直渴望解决、但始终未能获得成功的技术难题：

SNP数据高维、不均衡、样本量少，为提高分析的准确性，人们一直在思考如何将基因的序列数据结合疾病的表型数据对SNP数据进行分析。基因的序列以及疾病表型数据表示不同，如何统一并有效表示是一个关键问题。本发明提出了多表征增强的SNP数据表示方法，可以对复杂疾病的表型数据进行表示与处理，构建SNP数据的疾病空间特征，并将SNP序列特征与空间特征融合在一起。此外，利用了BiGRU与CNN对疾病进行了分类。实验结果表明本发明所提出方法的准确率等评估指标明显优于其他方法，说明了本方法的可行性与有效性。

(4)本发明的技术方案是否克服了技术偏见：

本发明充分利用了数据表示技术，通过统一编码，保持了数据多语义特点；又通过加入疾病的表型数据，增强了SNP数据特征，以克服SNP数据多采用序列分析的不足。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的复杂疾病的预测分类方法流程图；

图2是本发明实施例提供的复杂疾病的预测分类系统结构框图；

图3是本发明实施例提供的多表征特征增强的BiGRU模型的复杂疾病分类示意图；

图中：1、特征引入模块；2、信息提取模块；3、疾病预测模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种复杂疾病的预测分类方法、系统、介质、设备及终端，下面结合附图对本发明作详细的描述。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的复杂疾病的预测分类方法包括以下步骤：

S101，引入CNN的空间特征提取和特征增强模块；

S102，应用循环神经网络，从训练的模型中提取上下文信息；

S103，利用CNN模型和LSTM变体BiGRU模型预测复杂疾病。

如图2所示，本发明实施例提供的复杂疾病的预测分类系统包括：

特征引入模块1，用于引入CNN的空间特征提取和特征增强模块；

信息提取模块2，用于应用循环神经网络，从训练的模型中提取上下文信息；

疾病预测模块3，用于利用基于多表征特征增强的BiGRU模型预测疾病。作为优选实施例，本发明实施例提供的复杂疾病的预测分类方法具体包括：

1.基于多表征特征增强的网络模型

在本发明中，对于实际位点之间的复杂关联，导致一些在相关系数上不是很突出的点，却是因果的位点。所以删除过多或者随意的位点并不会对分类有很好的结果，因此本发明尝试采用特征增强的技术，该技术主要借鉴情感分析中利用表情符号、评价词特征对正负情感进行分类，而特征加强可以视为对疾病的先验易感程度，保留潜在位点的基础上能达到过滤无用特征，另外对于复杂疾病的遗传风险，一些位点往往和疾病的相关的表型具有很强的关联，从而间接影响着疾病，这些位点也是需要考虑的，但是在一些模型中并没有考虑这些，因此本发明将其融入本发明的模型，使其充分考虑这个因素。另外，本发明需要一个强有力的模型对疾病进行分类，然而，对于传统的机器学习算法，太过于依赖所选择的特征。本发明专注于深度学习，深度学习算法是表示学习过程的一个特定子领域，它检测多个表示级别。本发明提出的模型如图3所示。

1.1输入层

位点上的碱基由A、G、C、T四个字母表示，为了便于后续的分析，需要把字母形式转化成数值形式。常见的数值转化方法有很多，例如机器学习常用的one-hot编码等等。

one-hot编码又称为独热编码、一位有效编码，主要思想是采用m位状态寄存器来对m个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候只有一位有效。以rs3094315位点为例，设置3位状态的寄存器分别对应TT、TC、CC三种特征，当位点上的基因型为TT时，对应的one-hot编码为100，基因型为TC时，对应的one-hot编码为010，基因型为CC时，对应的one-hot编码为001。

基因型的生物学背景来看，SNP是由单个碱基变异引起的，同一位点上的基因型共有野生纯合型(没有突变碱基)、杂合型(有一个碱基发生突变)和突变纯合型(两个碱基都是突变型碱基)三种，以rs3094315位点为例，共有664个样本为野生纯合型TT，293个样本是杂合型TC，只有43个样本是突变纯合型CC。可以考虑用突变基因的个数来表征位点的信息，进而将原始数据转化成数值编码的形式，这样做有如下优势和合理性：

(1)将数据转化成0-1-2这种简单的数据形式，为后续的分析提供了极大的便利。

(2)突变基因的个数和基因型是一一对应的关系，可以等价地反映原始数据的信息，从而弥补了人为设置变量造成的信息损失。

(3)从生物学角度来看，采用用突变基因的个数来代替原有的编码形式，具有生物学背景上的理论基础和实际意义。

(4)从统计学角度来看，将位点碱基对编码转化为突变基因的个数，不改变特征之间距离及相似度的计算。

本发明采用的是具有生物学意义的数值编码，从表1能看到部分编码信息。

表1输入数据转换为数值编码方法示例

1.2特征增强层

特征在机器学习中占据重要作用，但特征数量的增加，往往不一定能给模型带来性能上的提升。通常是由于特征数量的增加会显著增大训练所需的样本规模，而充足的样本量往往很难获取。此时，其中的无关冗余特征反而会带来过拟合等风险。有学者实验比较神经网络特征选择与传统特征选择方法的能力，传统的特征选择方法，例如卡方检验、皮尔逊相关系数优于神经网络模型对特征重要性的判断。原因是当特征数量较多时，神经网络需要优化的参数量过多，其对特征分析和选择效果受限于样本量等因素。是否可以将传统特征选择方法对特征的评价结合入神经网络的训练过程中，来辅助神经网络进行特征选择,使其更快、更好地关注富有信息量的特征，避免被无关冗余特征所影响呢？为此，本发明提出了特征增强层。

本发明采用卡方检验来计算每个位点与疾病之间的相关系数w_k，计算如公式(1)所示：

然后本发明将计算卡方检验的相关系数作为初始权重，对输入进行加权计算如公式(2)所示：

x′_k＝ReLU(x_k⊙w_k+b_k) (2)

其中，权重w_k与相应输入特征x_k相对应元素进行元素相乘，起到对输入特征的放缩效果。使用ReLu激活函数，对特征集合进行截断，偏置b_k为特征选择的阈值。神经网络在优化w_k和b_k的同时，起到了对输入特征自适应选择的效果。w_k被初始化为传统特征选择的评价值。

特征选择层基于传统特征选择方法对特征项的评价值，对输入特征进行放缩，从而增强或者减弱某些特征对网络训练的影响，这使得网络在学习过程中更关注于有用信息。该方法等效于给神经网络添加关于特征的先验知识。

另一个问题在于，本发明研究的是复杂疾病的分类问题，对于复杂疾病来说，往往受到遗传因素和环境因素的共同影响。比如心肌梗死，涉及遗传风险因素、中间状态(如高血压、糖尿病和血脂异常)和生活方式因素(如吸烟和饮酒习惯)。因此单单在模型中考虑基因的因素是忽视了其他因素，而由于基因、环境因素和疾病之间存在复杂的非线性关联，理解常见疾病的遗传结构仍然是一个巨大的挑战。

上面提及了给神经网络添加特征先验信息可以使得模型在学习过程中去屏蔽一些无关、带有噪音的特征。而人体的许多遗传疾病和性状是有关联的，如高血压、心脏病、脂肪肝和酒精依赖等。科研人员往往把相关的性状或疾病放在一起研究，这样能提高发现致病位点或基因的能力。而本发明在根据这一特性，将多表征的先验信息引入到神经网络之中，使得模型不单单的考虑一种维度上的先验信息。比如急性心肌梗塞的发病机制可能和高血压、心脏病等多种疾病关联。那么在遗传上对高血压有致病性的位点就有可能会促进心梗的发生的可能。这些风险因素虽然不是直接作用于心肌梗塞，但是在医学上不可忽视任何可能对疾病产生影响的因素。

因此，本发明将这种思想引入本发明的模型，使得本发明的模型能够在不经关注对疾病有直接作用的位点，还能关注对疾病有间接作用的位点。因此本发明在特征增强的神经网络模型中引入额外的多表征特征增强层，计算如公式(3)所示：

其中，disease_k是位点和疾病的直接关联系数，phenotype_k是位点和聚类后第k个表型的关联系数，w_k是这些系数加权之后的结果。

由于表征之间存在关联性，表征之间的关联性不仅不能提高本发明的模型的效率，反而会降低。因此本发明这里使用K-Means++算法作为表型聚类的算法。

1.3双向门控循环单元网络层

在这一层中，本发明使用双向GRU来提取中文问题的上下文信息。如图3所示，本发明的模型使用特征增强之后的输入向量作为Bi-GRU层的输入。Bi-GRU层有两部分，同时从正向和反向读取向量。然后GRU计算通过的向量，并输出一个固定维度的向量。

在特征增强层(Feature augmentation Layer)，disease^p是位点和疾病的直接关联系数，phenotype1^p,…,phenotypek^p是位点和使用K-Means++算法作为表型聚类后确定的k个表型的关联系数。

GRU涉及四部分计算：

首先是复位门，GRU使用reset gate来选择在前一时刻放弃哪些信息，计算如公式(4)所示：

R_t＝σ(W_rS_t+U_rH_t-1+B_r) (4)

接下来是更新门，GRU通过更新门选择并更新当前时刻的哪些信息，计算如公式(5)所示：

Z_t＝σ(W_zS_t+U_zH_t-1+B_z) (5)

然后GRU计算候选记忆内容，这是计算当前时刻输出的一个重要步骤，计算如公式(6)所示：

其中，W和U是权重信息，B是偏差。

最后，GRU计算上述结果的输出结果，计算如公式(7)所示：

Bi-GRU层可以学习每个位点的上下文信息，以及语义特征。

1.4卷积层

在卷积层，本发明使用卷积核来提取位点序列中更深层次的关键特征，即使用卷积核中提取更深层的信息，并使用最大池来提取关键特征。卷积层的计算步骤如下。

将特征增强层计算出来的中间语义信息作为卷积层的输入，如公式(8)所示：

其中，C_ij表示问题中第i个位点到第j个位点的拼接。

然后经过卷积层，计算如公式(9)所示：

T_i＝f(W×C_i+m-1+b) (9)

接着，该模型拼接卷积结果，通过最大化池提取关键特征。最后，池化结果被拼接在一起，作为整个卷积层的输出。计算如公式(10)所示：

T_p＝[T₁,T₂,…,T_n-1,T_n] (10)

其中，n是卷积结果的数量，p是卷积核的数量。

1.5损失函数与正则化

损失函数的本质是描述预测值与标签值之间的距离和差异性大小的函数。采用交叉熵损失函数和L2正则化来构造本发明的损失函数，如公式(12)所示：

其中，y_i表示样本i的标签，case为1，control为0。p_i表示样本i预测为case的概率。后面的

表示L2正则项。

L2正则化中，对权重进行了L2范数约束，抑制权重增长来降低网络的复杂性，以缓解过拟合问题。另外本发明的还增加了dropout通过在每轮迭代训练中随机丢弃一定比例神经元之间的连接来训练不同的网络，以此方法来缓解过拟合的目的，这在高维小样本的情况下是非常有必要的。

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用的应用实施例。

本方法中模型训练、测试以及实验都是基于以下环境：

(1)操作系统:Linux

(2)主机:Intel(R)Xeon(R)Gold 5218CPU Memory:16GB

(3)显卡:Tesla P100

(4)开发语言:Python

(5)深度学习框架:PyTorch

配置与环境相当就可以。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述，并进行实验分析。

1、数据集和评价指标

本发明数据选自NPMCM-b数据集。该数据集是典型的高维小样本数据，总共有1000个带有标签的样本数据，前500是标签为1的患病样本，后500个是标签为0的健康样本。样本原始数据包含了由A、G、C、T四个字母构成的9445个位点上的碱基对信息：每个位点上的碱基对都由两种碱基组合而成，如位点rs3094315上共有TT、TC、CC三种形式的碱基对。数据集的整体信息如表2所示。

表2 SNP数据集的信息

本发明使用精度，召回率和F1得分作为性能评估指标，公式如下：

其中，TP表示正确预测的样本数，FP表示其他分类被错误预测为该分类的样本数，TN是错误预测为其他分类的样本数。

2、实验环境和过程

实验环境如二所述。

实验过程如下:

1)预处理阶段，本发明首先将对数据进行预处理，将一些位点值都是相同值的位点进行清除，这些点不能对分类带来好处。

2)编码阶段，将基因的脱糖核苷酸类型编码为数值类型的。

3)构建深度学习模型，表3显示了每一层的详细深度神经网络结构和配置。

表3模型网络结构及参数

4)训练深度学习模型，构建工作完成后，本发明就可以开始训练神经网络。

5)优化模型在训练过程中，修改超参数以优化最终模型的性能。

6)模型评估阶段。当模型训练完成后，本发明使用训练好的模型来预测测试集。本发明使用精度、召回率和F1分数来评估预测结果。

3、实验结果

3.1学习模型对比实验结果

本发明进一步应用了三种不同的传统监督学习方法，使用了具有总共9445个SNP特征的基因分型阵列构建遗传病预测模型，本发明还进行了5次并行实验，并进一步将性能与本发明的EF-BiGRU模型进行了比较，如表4所示。

表4 EF-BiGRU与其他模型对比实验结果

在对比的机器学习算法中，Random-Forest-Relief、SVM-Relief是最具代表的模型。其中Wu等人提出基于Relief的SVM算法在所有的评估指标中都取得了最佳性能。尽管如此，传统的机器学习算法在性能指标上仍低于深度学习，SVM-Relief在平均准确率的指标上低于Bing Feng提出的单流CNN模型将近7.18％，达到了72.29％的准确率。虽然单流CNN利用深度学习算法在表达能力更强的优势在各项的指标达到了比机器学习更好的结果，但是容易出现的过拟合现象导致模型无法充分发挥优势，而本发明提出的特征增强的BiGRU在各项指标都要优于单流CNN的算法。在平均准确率上高于单流CNN模型9.23％，达到了81.52％的平均准确率。另外在精确率、召回率以及F1值上分别高出了7.24％、9.63％和12.2％。

3.2特征增强实验结果

本发明使用了与上述EF-BiGRU相同配置和数据集比较了三个主要深度学习模型与其融合了增强层的效果进行了5折交叉验证。他们之间的唯一差别在于在输入层之后是否加入了特征增强层，并且以位点的突变程度序列作为输入。本发明进一步比较和评估了加入前后的性能，如表5所示。

表5 5折交叉验证的不同模型预测结果

加入特征增强层相比未经过处理的模型准确率平均要高上5％左右。对于最简单的cnn模型，在加入了特征增强层也有了很大的提升，另外还比较了BilSTM和单流CNN模型，实验表明，尤其对于EF-BiGRU模型的提升是最显著的。总的来说，加入了特征增强模块对模型有很大的提升，关键在于特征增强所提供的先验信息使的模型对于一些干扰信息可以屏蔽，有效的在高维小样本上提高训练效果。

3.2多表征融合增强实验结果

本发明在上面的实验结果的基础上，将特征增强的方法扩展至多表征融合增强，除了和患病表征直接关联的位点之外，一些和表征关联的位点本发明也试图加入模型中。本发明通过实验多折交叉验证分析,在加入了多表征的融合增强之后，如表6所示。

表6 5折多表征融合增强实验结果

本发明的模型在性能上都有提升，基本提升在0.8左右的百分比。可以看到加入了多表征的模型在性能上是有一定的提升的。但是同样可以观测到当表型的数目增加所有的时候(表中+all)，性能并没有了提升，本发明通过实验发现，表型之间存在一些依赖现象，这会导致发生冗余信息，因此为了避免这种情况的发生，本发明会对多表征进行k-means++算法获得k个聚类中心，并对同一类簇中和中心距离最近表征作为核心表征。选取核心表征作为本发明需要的表征，实验结果显示，加入核心表征phenotype1(表中+p1(pheno1))和phenotype2(表中+p2)的指标要比加入所有表征(表中+all)要略高。

综上所述，实验结果表明：本发明提出的基于BiGRU的深度学习模型在SNP数据上能有更好的分类效果；同时，本发明在这个模型的基础之上，融入了特征增强模块，加入该增强模块后的模型在各个指标都有进一步的提升；另外，由于这个先验信息的加入，以及模型的正则化技术，这种结合了传统的统计对一些与疾病关联很大的位点会优先考虑，过滤了大量无效信息，使得本模型相比其他模型不容易出现过拟合的情况。其次，本发明考虑复杂疾病的特性，增加了多表征的先验信息，与此同时的表征的相互关联，本发明采用了聚类之后的核心表征作为先验信息，实验表明并不是所有表征都需要，尽量采用相互独立的表征。总结来说，本发明的模型既考虑了高维小样本的情况尽量保证分类模型的准确率，又考虑了复杂疾病的特性，在复杂疾病分类的任务上取得一定优势。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。