CN113517066B

CN113517066B - 基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统

Info

Publication number: CN113517066B
Application number: CN202110855040.4A
Authority: CN
Inventors: 李健; 徐治; 胡云云; 袁勇贵
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-08-03
Filing date: 2021-07-26
Publication date: 2022-05-10
Anticipated expiration: 2041-07-26
Also published as: CN111899869A; CN113517066A

Abstract

本发明公开了一种基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统，所述方法包括：构建原始数据集，并进行数据预处理得到实验数据集；对实验数据集进行特征选择，筛选出抑郁症患者和健康对照的差异特征，构建输入数据集；将输入数据集按照一定比例划分训练数据集和测试数据集；创建识别抑郁症患者与健康人群的深度学习模型，利用训练数据集对构建的深度学习模型进行训练；利用测试集对训练好的深度学习模型进行性能评估，并在验证评估过程中对模型进行不断优化，得到最优模型。本发明可以对潜在抑郁症患者进行快速初步评估，避免临床医生在访谈测评以及患者在自我测评时引入主观因素，对结果产生影响，提高抑郁症诊断的精准度。

Description

基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统

技术领域

本发明属于数据识别领域，特别涉及一种基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统。

背景技术

临床上对抑郁症的识别诊断主要是结合病人的访谈情况、量表及医生诊疗经验进行。这种方式易受患者的配合程度、医生熟练程度等主观因素影响。因此,寻找快速、客观、准确的抑郁症评估方法对个体治疗具有重大意义。

发明内容

发明目的：本发明提供一种基于候选基因甲基化测序和深度学习的抑郁症评估方法及系统，可以快速准确评估出潜在抑郁症患者，辅助医生对是否患有抑郁症进行判断。

技术方案：本发明提供一种基于候选基因甲基化测序和深度学习的抑郁症评估方法，具体包括以下步骤：

(1)收集和整理数据，构建原始数据集；所述数据集数据包括抑郁症患者和健康对照人员的候选基因DNA甲基化测序结果的β值、人口统计学数据、诊断量表数据和候选基因的SNP数据；

(2)对原始数据集进行数据预处理得到实验数据集，数据预处理包括：缺失值处理、特征编码和数据归一化处理，将所有的数据放到同一度量标准之中；

(3)对预处理之后得到的实验数据集进行特征选择，筛选出抑郁症患者和健康对照的差异特征，基于差异特征构建输入数据集；

(4)采用K折交叉验证的方法对获得的输入数据集进行划分得到训练数据集和测试数据集；

(5)构建评估潜在抑郁症患者的深度学习模型，利用训练数据集对构建的深度学习模型进行训练；

(6)利用测试数据集对训练好的深度学习模型进行性能评估，并在验证评估过程中对模型进行不断优化，得到最优模型。

进一步地，所述步骤(1)包括以下步骤：

(11)获取300名抑郁症患者和100名健康对照人员的候选基因DNA甲基化测序结果的β值、候选基因的SNP数据、临床数据和量表数据；其中β值的获取是基于5-羟色胺系统参与抗抑郁药物作用机制，选择4个候选基因：HTR1A、HTR1B、S100A10和BDNF；对选择的4个候选基因进行候选基因DNA甲基化测序分析，获取300名抑郁症患者和100名健康对照人员406个合格的CpG位点，将CpG位点的信号转换为表示DNA甲基化水平高低的β值，β值为一个连续性的值，取值范围在0-1之间，值越高表示该位点DNA甲基化水平越高，值越低表示该位点DNA甲基化水平越低；

(12)采用生活事件量表和儿童创伤问卷对抑郁症患者和健康人员进行诊断量表评分获得诊断量表数据；

(13)获取抑郁症患者和健康对照的人口统计学数据，包括年龄、性别、是否经历过负性生活事件；

(14)获取4个候选基因的SNP数据，总共获得23个SNP位点，其中HTR1A中5个SNP位点，HTR1B中3个SNP位点，S100A10中1个SNP位点和BDNF中14个SNP位点。

进一步地，所述步骤(2)包括以下步骤：

(21)对于不同缺失数据类型，采用不同的数据填充方法，其中，对于DNA甲基化数据和SNP数据，对其进行缺失值删除；对于临床量表数据，数据缺失超过20％的特征直接丢弃，数据缺失未到20％对其进行填充，采用随机填充法对连续性特征进行插补，对离散型数据采用众数进行填充；

(22)对原始数据当中采集的非数值型数据，对其进行特征编码——独热编码处理；

(23)对数据进行min-max标准化，将特征属性值转换到0-1区间范围内：

其中，x为原始数值，x_min和x_max为特征序列对应的最小值和最大值，x'为缩放后的值。

进一步地，步骤(3)所述的特征选择通过递归特征消除法实现；所述递归特征消除法对特征进行重要性评分排序，删除排序最低的特征来执行特征选择，在重复的迭代过程中不断调整每个特征的重要性评分。

进一步地，步骤(4)所述的训练数据集和测试数据集比例为9:1。

进一步地，所述步骤(5)包括以下步骤：

(51)为训练数据集中的每一个目标位点构建一个神经网络，所述神经网络是以全连接神经网络模型与输出层sigmoid函数构建，包括输入层、隐藏层和输出层；

(52)设定所述神经网络模型的输入层，假定训练样本数为m，候选基因甲基化的测序位点数为n，则候选基因甲基化测序数据对应的输入矩阵表示为X(m*n)，其中所述的每一行表示一个样本的甲基化测序数据，每一列对应所述甲基化测序数据的位点数据；输入神经元个数设置为N，使用的激活函数为Relu；

(53)设定所述神经网络模型的隐藏层，隐藏层的输入数据为输入层的输出数据，隐藏层神经元个数设置为M，使用的激活函数为Relu；

(54)设定所述神经网络模型的输出层，其中，输出层的输入数据为隐藏层的输出数据，输出层神经元个数设置为C，使用的激活函数为sigmoid；

(55)所述sigmoid函数公式为：

(56)将训练数据集输入到构建的深度学习模型中，其中，输入神经元个数N＝n＝18，隐藏层1神经元个数M＝4，输出层神经元个数C＝1，以输入向量所对应的输出值作为目标真实值训练模型。

基于相同的发明构思，本发明还提供一种基于候选基因甲基化测序和深度学习的抑郁症评估系统，包括数据预处理单元、模型创建单元、模型优化单元和数据识别单元；

所述数据预处理单元：对抑郁症患者识别数据集进行预处理和特征选择，所述数据为抑郁症患者和健康对照的候选基因DNA甲基化甲基化测序结果β值、SNP数据和临床量表信息；

所述模型创建单元：构建评估潜在抑郁症患者的深度学习模型；

所述模型优化单元：对所述深度学习模型进行优化；

所述数据识别单元：基于优化后的深度学习模型对待区分的抑郁症识别数据集进行有效识别。

有益效果：与现有技术相比，本发明的有益效果为：本发明利用计算建模方法对甲基化数据进行多水平分析；基于深度学习算法分析高维数据,本发明可达到在不降低数据维度的情况下可以有效区分抑郁症患者和健康对照，对潜在抑郁症患者作初步快速评估，可以辅助医生对是否患有抑郁症进行判断，避免临床医生在访谈测评以及患者在自我测评时引入主观因素。

附图说明

图1为基于候选基因甲基化测序和深度学习的抑郁症评估方法流程图；

图2为神经网络模型示意图；

图3为基于候选基因甲基化测序和深度学习的抑郁症评估的准确性示意图；

图4为基于候选基因甲基化测序和深度学习的抑郁症评估系统结构示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

本发明提供基于候选基因甲基化测序和深度学习的抑郁症评估方法，如图1所示，具体包括以下步骤：

步骤1：收集和整理数据，构建原始数据集，其中数据集数据包括抑郁症患者和健康对照人员的候选基因DNA甲基化测序结果的β值、人口统计学数据、诊断量表数据和候选基因的SNP数据。

获取符合标准的300名抑郁症患者和100名健康对照人员，对其进行候选基因DNA甲基化测序、临床数据收集和量表数据统计。采用生活事件量表(LES)和儿童创伤问卷(CTQ)对抑郁症患者和健康对照进行大规模研究。

获取抑郁症患者和健康对照的人口统计学数据，包括年龄、性别、是否经历过负性生活事件(是或否)等。LES量表可以评估最近遭受的各种压力，它是由48个项目组成的自我评估问卷，包括28个与家庭有关的项目，13个与工作和学习有关的项目以及7项社会交往及其他项目，个人可以选择再增加两个项目事件。LES分为积极生活事件(PLES)和负性生活事件(NLES)两部分。本研究中采用自评问卷的负性生活事件得分。

基于5-羟色胺系统参与抗抑郁药物作用机制的证据，选择了4个候选基因：HTR1A、HTR1B、S100A10和BDNF。对选择的4个候选基因进行候选基因DNA甲基化测序分析，经过严格的数据质量控制之后，300名抑郁症患者和100名健康对照共检测到406个合格的CpG位点，将CpG位点的信号转换为表示DNA甲基化水平高低的β值，β值为一个连续性的值，取值范围在0-1之间，值越高表示该位点DNA甲基化水平越高，值越低表示该位点DNA甲基化水平越低。SNP数据为候选基因的测序数据结果，经过质量控制之后总共获得了23个合格SNP位点用于后续分析，其中HTR1A中5个SNP位点，HTR1B中3个SNP位点，S100A10中1个SNP位点和BDNF中14个SNP位点。SNP数据是定性数据，因为人类为二倍体动物，其细胞核内包含两条染色体，因而在染色体的每个特定位置上存在着对应的两个等位基因，在两种基因型中，一种在人群中以较高的频率出现，称之为主要等位基因型(MajorAllele)，可以用A表示。另一种则在人群中以较低的概率出现，称之为次要等位基因型(MinorAllele)，可用a表示。这样，在每个个体的特定的碱基位置，通常情况下会出现如下三种基因型状态：AA、Aa和aa。

步骤2：对原始数据集进行数据预处理得到实验数据集。

数据预处理包括：缺失值处理、特征编码和数据归一化处理，将所有的数据放到同一度量标准之中。

(2.1)对于不同缺失数据类型，采用不同的数据填充方法。缺失值处理策略可分为直接丢弃、填充和不处理(直接使用含有缺失值的特征)三种。数据缺失超过20％的特征可以考虑直接丢弃，数据缺失未到20％可以对其进行填充，采用随机填充法对连续性特征进行插补，采用众数对离散型数据进行填充。

不同的数据采用不同的缺失值处理方式：

1)DNA甲基化数据和SNP数据：测序数据可以真实客观的反应受试者的实际身体情况，对其进行缺失值填充可能会人为引入误差不能真实反应样本的实际情况，因此对于DNA甲基化数据和SNP数据，本发明对其进行缺失值删除；

2)临床指标：对于其中的离散型特征，使用众数对其进行填充；而对于连续型特征，为了避免统计学填充值(均值、中位数和众数)过于集中的缺点，又考虑到特征之间的相关性强弱，利用构建模型来插补缺失值是没有太大意义的。基于此，本发明拟采用随机填充法对连续性特征进行插补，即从已知特征的观测数据中随机提取替代值对缺失值进行填充，可以有效避免数据填充的固定性。

(2.2)对原始数据当中采集的非数值型数据，对其进行特征编码——独热编码处理。独热编码是使用N位状态寄存器来对N个状态进行编码处理，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位是有效的。以性别为例，性别包括两类：男性和女性，经过独热编码处理之后，男性被编码为01，女性被编码为10，这种处理方式可以有效避免在数据分析时人为引入次序对预测结果产生影响。

SNP数据具有二等位基因多态性的特点。人类是具有两套染色体的二倍体动物。染色体上的每个特定位置有两个等位基因，在这两个等位基因中，其中一个在人群当中以较高的频率出现，称之为主等位基因，可以用A表示，另外一个在人群当中以较低的频率出现，称之为次等位基因，可以用a表示，这样在每个个体的特定碱基位置，通常会出现三种基因型状态：包含两个主等位基因(AA)、包含一个主等位基因和一个次等位基因(Aa)以及包含两个次等位基因(aa)。对SNP位点数据进行数值型转换，通过独热编码处理可以表示为001、010和100。

DNA甲基化测序数据得到的是表示DNA甲基化水平的β值，它是界于0-1之间的定量数据，可以对其进行连续特征离散化操作。经过严格的质量控制，从4个基因(HTR1A、HTR1B、S100A10、BDNF)中共检测到406个CpG位点，以每个CpG位点的中位数作为阈值，其中大于中位数的编码为1，小于中位数的编码为0。

(2.3)数据归一化处理是将数据按比例进行缩放，使其落入到一个较小的特定空间内。主要是为了去除数据本身的单位限制，将其转化为无量纲的纯数值，以便不同单位或量级的指标之间能够进行比较和加权。数据进行标准化处理可以提高模型的训练效率和收敛速度获得更高的分类精度。本发明对数据进行min-max标准化，将特征属性值转换到0-1区间范围内。

步骤3：对预处理之后得到的实验数据集进行特征选择，筛选出抑郁症患者和健康对照的差异特征，基于差异特征构建输入数据集。

特征选择的主要目标使从原始特征中选择出特征的最佳子集，这些特征的子集是互补的，以实现最佳分类效果，因此，特征选择可以删除不相关的特征，消除冗余，并有效的减少原始数据的维数。本发明使用三种特征选择方法：T检验、随机森林和递归特征消除法。

T检验可以作为一种特征选择方法，用来衡量两组样本均值之间的差异程度。对于二元分类问题，T检验可以分析两组样本之间的差异程度，选择出差异程度最大的几个特征作为特征子集用于后续建模分析。如果特征在两组样本之间的差异性很大，则说明该特征对于最终的结局分类很重要。本发明中，将P-value≤0.05作为差异特征筛选阈值。采用T检验对DNA甲基化数据、临床数据中的连续型特征进行差异特征筛选，对于离散型特征采用卡方检验筛选差异特征。P-value≤0.05被认为有统计学差异。本发明在python(版本号：3.6.5)的scipy包(版本号：1.1.0)中完成的。通过分析，本发明从DNA甲基化、SNP和临床信息综合数据集中共获得了23个差异特征，其中20个DNA甲基化特征，2个临床特征和1个SNP特征。同理，对DNA甲基化编码、SNP和临床信息综合数据集进行T检验获得了33个差异特征，其中31个DNA甲基化编码特征，1个临床特征和1个SNP特征。

本发明利用随机森林的特征重要性来进行嵌入方法的特征选择。其中，训练集用于构建多个分类树，测试集用于逐一检查决策树中每个预测因子的重要性得分。将预测器在所有决策树中的重要性得分的平均值作为预测器的重要性指标。预测因子的重要性由高到低排列。根据袋外数据(out of band，oob)预测错误率选择最终的特征子集。

本发明使用的数据包括三部分数据：DNA甲基化数据、SNP数据和临床信息，其中DNA甲基化的CpG位点406个，临床特征7个，SNP特征68个，总共481个特征。随机森林在进行特征选择时首先会对数据集中每个特征变量的重要性进行评分，即每个特征对结果的贡献度大小，并按评分从大到小进行排序。将406个甲基化位点、406个甲基化编码特征和68个SNP特征按照重要性评分由大到小进行排序之后，采用逐步随机森林的方法寻找与结局变量存在关联的特征子集。对初步筛选得到的100个甲基化编码位点进行逐步随机森林袋外(OOB)数据预测错误率。

本发明将重要性得分排名前30位的DNA甲基化编码位点作为分析DNA甲基化编码的最终特征子集。同理，本研究获得了4个重要DNA甲基化位点和1个重要SNP位点。从DNA甲基化、SNP和临床信息综合数据集中选择了18个重要特征，而从DNA甲基化编码数据、SNP和临床信息综合数据集共获得60个重要特征。

递归特征消除方法是一种流行的包装方法，它通过在每次迭代中反复创建模型，直至遍历完所有的特征，从而消除掉相关性较低的特征，然后，从性能最佳的特征集开始进行排名，如果多个特征子集达到最佳精度，则返回特征最少的子集。本发明中递归特征选择算法能够基于逻辑回归进行迭代训练模型，对特征进行重要性评分排序，然后删除排序最低的特征来执行特征选择，在重复的迭代过程中不断调整每个特征的重要性评分，最终获得18个特征。

步骤4：采用K折交叉验证的方法对获得的输入数据集进行划分得到训练数据集和测试数据集。

本实施方式采用10折交叉验证的方法，其中9份对构建的模型进行学习训练，1份对构建的模型进行测试验证，重复10次实验。

步骤5：构建评估潜在抑郁症患者的深度学习模型，利用训练数据集对构建的深度学习模型进行训练。

深度神经网络结构由多层神经元组成，如图2所示，包括输入层、隐藏层和输出层。其中输入层神经元的个数就是输入变量的个数。而隐藏层中的神经元数量是根据自己的实际情况设置的。输出层的神经元是目标输出结果的个数。神经元数量越少，模型迭代速度越快。

Keras是一个由python编写的基于tensorflow/theano的DL框架。Keras具有兼容性、可抽象性和灵活性等优点。它本身包括很多的模块：预处理模块、模型选择模块、层模块、目标函数模块、参数初始化模块、激活函数模块以及优化方法选择模块。基于Keras的深度神经网络模型构建的基本流程：

(5.1)为训练数据集中的每一个目标位点构建一个神经网络，所述神经网络是以全连接神经网络模型与输出层sigmoid函数构建，包括输入层、隐藏层和输出层；

(5.2)设定所述神经网络模型的输入层，假定训练样本数为m，候选基因甲基化的测序位点数为n，则候选基因甲基化测序数据对应的输入矩阵表示为X(m*n),其中所述的每一行表示一个样本的甲基化测序数据，每一列对应所述甲基化测序数据的位点数据；输入神经元个数设置为N，使用的激活函数为Relu；

(5.3)设定所述神经网络模型的隐藏层，隐藏层的输入数据为输入层的输出数据，隐藏层神经元个数设置为M，使用的激活函数为Relu；

(5.4)设定所述神经网络模型的输出层，其中，输出层的输入数据为隐藏层的输出数据，输出层神经元个数设置为C，使用的激活函数为sigmoid；

(5.5)所述sigmoid函数公式为：

(5.6)将训练数据集输入到构建的深度学习模型中，其中，输入神经元个数N＝n＝18，隐藏层1神经元个数M＝4，输出层神经元个数C＝1，以输入向量所对应的输出值作为目标真实值训练模型。

步骤6：利用测试集对训练好的深度学习模型进行性能评估，并在验证评估过程中对模型进行不断优化，得到最优模型，通过调整模型超参数调整模型性能，超参数包括学习率、神经元个数、隐藏层数、批处理量、训练轮数等。

对符合标准入组的300例抑郁症患者和100例健康对照，共400例样本进行测试，并计算出结果进行比较。

对符合标准入组的400例样本进行候选基因甲基化测序，其中候选基因为：HTR1A,HTR1B,S100A10和BDNF，对测序结果进行质量控制和分析，将得到DNA甲基化测序结果的β值作为原始数据的一部分，其中测序位点数为406个。

收集抑郁症患者和健康对照的生活事件量表(LES)和儿童创伤问卷(CTQ)量表评分和人口统计学数据，包括年龄、性别、是否经历过负性生活事件(是或否)等，作为原始数据集中的临床量表数据，总共6个特征。

为391例样本数据分别构建一个神经网络；其中输入层(Input Layer)神经元个数为18个，隐藏层1神经元为4个，输出层神经元为1个；隐藏层所使用的激活函数为Relu，输出层函数为sigmoid，dropout设置为0.4，随机梯度下降学习率为0.02，迭代次数为300，批输入数据为32；将训练数据集中每个样本的18个测序位点信息作为神经网络的输入向量，代入模型，以输入向量所对应的Y值作为目标真实值训练模型；将测试集数据输入到训练好的模型中，将测试集合的预测效果与真实结果做比较，对模型的超参数不断进行优化，得到最优模型的超参数合集。模型最终预测性能结果如图3所示。

本发明还提出一种基于甲基化测候选基因序和深度学习的抑郁症评估系统，如图4所示，包括：数据预处理单元、模型创建单元、模型优化单元和数据识别单元；其中：

数据预处理单元：对抑郁症患者识别数据集进行预处理和特征选择；数据为抑郁症患者和健康对照的候选基因DNA甲基化甲基化测序结果β值、SNP数据和临床量表信息；

模型创建单元：构建评估潜在抑郁症患者的深度学习模型；

模型优化单元：对所述深度学习模型进行优化；

数据识别单元：基于优化后的深度学习模型对待区分的抑郁症识别数据集进行有效识别。

Claims

1.一种基于候选基因甲基化测序和深度学习的抑郁症评估方法，其特征在于，包括以下步骤：

(6)利用测试数据集对训练好的深度学习模型进行性能评估，并在验证评估过程中对模型进行不断优化，得到最优模型；

所述步骤(1)包括以下步骤：

(11)获取300名抑郁症患者和100名健康对照人员的候选基因DNA甲基化测序结果的β值、候选基因SNP数据、临床数据和量表数据；其中β值的获取是基于5-羟色胺系统参与抗抑郁药物作用机制，选择4个候选基因：HTR1A、HTR1B、S100A10和BDNF；对选择的4个候选基因进行候选基因DNA甲基化测序分析，获取300名抑郁症患者和100名健康对照人员406个合格的CpG位点，将CpG位点的信号转换为表示DNA甲基化水平高低的β值，β值为一个连续性的值，取值范围在0-1之间，值越高表示该位点DNA甲基化水平越高，值越低表示该位点DNA甲基化水平越低；

(12)采用生活事件量表和儿童创伤问卷对抑郁症患者和健康人员进行诊断量表评分获得量表数据；

(14)获取4个候选基因的SNP数据，总共得到23个SNP位点，其中HTR1A中5个SNP位点，HTR1B中3个SNP位点，S100A10中1个SNP位点和BDNF中14个SNP位点；

所述步骤(2)包括以下步骤：

(21)对于不同缺失数据类型，采用不同的数据填充方法，其中，对于DNA甲基化数据和SNP数据，对其进行缺失值删除；对于临床量表数据，数据缺失超过20％的特征直接丢弃，数据缺失未到20％对其进行填充，采用随机填充法对连续性特征进行插补，采用众数对离散型数据进行填充；

其中，x为原始数值，x_min和x_max为特征序列对应的最小值和最大值，x'为缩放后的值；

所述步骤(5)包括以下步骤：

(52)设定所述神经网络模型的输入层，假定训练样本数为m，候选基因甲基化的测序位点数为n，则候选基因甲基化测序数据对应的输入矩阵表示为X(m*n)，其中每一行表示一个样本的甲基化测序数据，每一列对应所述甲基化测序数据的位点数据；输入神经元个数设置为N，使用的激活函数为Relu；

(54)设定所述神经网络模型的输出层，其中，输出层的输入数据为隐藏层的输出数据，输出层神经元个数设置为C，使用的激活函数为sigmoid；dropout设置为0.4，随机梯度下降学习率为0.02，迭代次数为300，批输入数据为32；

(55)所述sigmoid函数公式为：

2.根据权利要求1所述的基于候选基因甲基化测序和深度学习的抑郁症评估方法，其特征在于，步骤(3)所述的特征选择通过递归特征消除法实现；所述递归特征消除法对特征进行重要性评分排序，删除排序最低的特征来执行特征选择，在重复的迭代过程中不断调整每个特征的重要性评分。

3.根据权利要求1所述的基于候选基因甲基化测序和深度学习的抑郁症评估方法，其特征在于，步骤(4)所述的训练数据集和测试数据集比例为9:1。

4.一种采用如权利要求1至3任一所述方法的基于候选基因甲基化测序和深度学习的抑郁症评估系统，其特征在于，包括数据预处理单元、模型创建单元、模型优化单元和数据识别单元；

所述模型优化单元：对所述深度学习模型进行优化；