CN110444291A

CN110444291A - 基于改进的pso-bp神经网络和贝叶斯法的疾病因素提取方法

Info

Publication number: CN110444291A
Application number: CN201910685611.7A
Authority: CN
Inventors: 李荣臻; 徐雷
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-07-27
Filing date: 2019-07-27
Publication date: 2019-11-12

Abstract

本发明公开了一种基于改进的PSO‑BP神经网络和贝叶斯法的疾病因素提取方法，包括以下步骤：引入自适应权重策略，优化粒子群算法PSO；根据改进的粒子群算法PSO以及用于训练的患病因素数据优化训练BP神经网络；将用于测试的患病因素数据输入至训练好的PSO‑BP神经网络进行预测，获得患病危险因素的输出结果即神经网络各个神经元之间的权重矩阵；根据输出结果，通过转换公式获取输入与输出之间关系的权重记为先验概率；根据先验概率，结合贝叶斯公式获得疾病危险因素。本发明方法相对于目前疾病预测领域中的疾病提取方法，更准确、高效、可靠，且更稳定。

Description

基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法

技术领域

本发明设计大数据技术与医学领域，特别是一种基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法。

背景技术

目前针对引起心血管等疾病的危险因素，各医学杂志根据临床经验以及理论知识总结出了可能引发该疾病的危险因素，但是这些方法往往存在一些弊端，一方面，大多数分析与研究往往存在样本量少，分析因素少，使得最终结果不具有泛化能力，人为分析需要大量的经验知识积累，缺乏权威性与科学性；另一方面，分析方法单一，大多基于统计学方法以及临床研究与医学经验相结合，当面临样本数足够多，疾病涉及因素广的情况时，此类方法往往导致效率低下，分析出的结果对于疾病的预防与诊治没有太大的帮助。

目前，存在的疾病危险因素提取方法有很多种，应用较多的方法主要有人工神经网络法、K均值聚类算法、支持向量机、邻近算法等。如论文“基于主成分分析和神经网络的癌症驱动基因预测模型”提出了一种基于主成分分析和神经网络建立的癌症驱动基因预测模型，并应用该模型对GBM的驱动基因进行预测，但是阈值的随机选取以及海量的数据会导致预测结果不精准；如论文“基于聚类和XGboost算法的心脏病预测”提出了一种基于聚类和XGboost算法的预测方法，首先通过对数据的预处理区分特征，再通过聚类算法如K-means对数据集聚类分块，最后用XGboost算法进行预测分析，但是当数据量较大时，算法预测的效率较低；如论文“基于AP和SVM算法的融合研究与应用”提出了一种基于AP聚类算法和SVM分类器相融合的新的AP-SVM模型，使用PSOP-AP聚类算法优化数据集，得到高质量、小样本的SVM分类器的训练集，解决了目前已提出的各类SVM分类器分类精度的问题，但是PSOP-AP算法只有在较少的迭代次数才能得到较精准的结果，否则整体效率有所下降。这些方法往往受到算法计算复杂的影响，结果不准确。因此，人们也尝试将多个数学模型结合进行疾病危险因素的提取，以提高危险因素提取的准确率。

在目前的人工神经网络中，传统的BP神经网络存在两个缺点：1)BP神经网络易收敛于局部最优而停止训练，预测时造成较大的误差；2)在预测时，BP神经网络容易陷入局部最优点、容易出现识别率不高和准确度低的缺点；3)BP神经网络的设计一般根据专家知识结合经验确定，若选择过大，也许会导致训练效率过低，网络性能差，容错性差；若结构选择过小，则又可能使得网络不收敛；4)BP神经网络模型的构建在隐含层层数选择和节点数选择的问题上并无科学的理论基础，一般只基于一些经验公式和不断试验最终确定，可能导致网络冗余性较大，其学习负担加重。

发明内容

本发明的目的在于提供一种高准确率、高效率以及高数据利用率的疾病因素提取方法。

实现本发明目的的技术解决方案为：一种基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，包括以下步骤：

步骤1、引入自适应权重策略，优化粒子群算法PSO；

步骤2、根据改进的粒子群算法PSO以及用于训练的患病因素数据优化训练BP神经网络；

步骤3、将用于测试的患病因素数据输入至训练好的PSO-BP神经网络进行预测，获得患病因素的输出结果即神经网络各个神经元之间的权重矩阵；

步骤4、根据所述输出结果，通过转换公式获取输入与输出之间关系的权重记为先验概率；

步骤5、根据步骤4中获得的先验概率，结合贝叶斯公式获得疾病危险因素。

本发明与现有技术相比，其显著优点：1)利用改进的粒子群算法的全局搜索能力对BP神经网络的权值和阈值进行优化求解，提高了BP神经网络危险因素预测模型的收敛精度和泛化能力；2)通过PSO-BP神经网络、贝叶斯方法结合的方式，解决了BP神经网络各疾病因素影响大小不准确的缺点；3)通过粒子群算法(PSO)、BP神经网络和贝叶斯方法三者结合的方式解决了在疾病危险因素预测时容易出现局部极小点的缺陷、导致多目标预测时出现识别率和准确度不够高的问题；4)相对于现有的疾病危险因素提取领域中的方法，提取准确率、效率以及数据利用率方面更高。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法流程图。

图2为本发明中改进粒子群算法优化训练BP神经网络的流程图。

具体实施方式

结合图1，本发明一种基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，包括以下步骤：

步骤1、引入自适应权重策略，优化粒子群算法PSO；

进一步地，步骤1所述引入自适应权重策略，优化粒子群算法PSO，具体为：

粒子群算法的位置公式：

X_id(t+1)＝X_id(t)+V_id(t+1)

在速度公式中引入自适应惯性权重w(t)：

V_id(t+1)＝w(t)V_id(t)+c₁r₁·(P_best-X_id(t))+c₂r₂·(G_best-X_id(t))

其中，自适应惯性权重w(t)为：

式中，V_id和X_id分别为第i个粒子的速度和位置；P_best为第i个粒子在迭代中经历过的最好位置即最优解，G_best为粒子群中的最优位置；c₁、c₂均为加速因子，通常c₁＝c₂＝1.5；r₁、r₂为介于[0,1]之间的随机数；d为粒子维度；t为当前迭代次数；w_start为初始惯性权重；w_end为迭代次数最大时的惯性权重；g_max为最大迭代次数。

进一步地，步骤2根据改进的粒子群算法PSO以及用于训练的患病因素数据优化训练BP神经网络，结合图2，具体为：

步骤2-1、自定义设置BP神经网络的输入层节点数、隐层节点数和输出层节点数的值分别为m'、n、p，并设定学习率和学习次数；

步骤2-2、对训练数据进行最大最小归一化处理，获得训练样本集，并设定BP神经网络的期望输出值o_t，其中归一化公式为：

式中，x为训练数据，x_min和x_max分别为训练数据中的最大值和最小值，x,y∈R；

步骤2-3、初始化BP神经网络连接权值W和阈值θ；

步骤2-4、初始化粒子群规模、空间维数、每个粒子的信息；

步骤2-5、将BP神经网络的所有连接权值和阈值作为每个粒子的位置向量，并通过适应度函数计算每个粒子的适应度值Current，适应度函数公式为：

式中，m为粒子的个数；为BP神经网络均方误差和，其中e_m为不同粒子表示的权值和阈值赋值给BP神经网络后，经BP神经网络运算所求得的误差；

步骤2-6、确定粒子个体最优适应度值、粒子群全局最优适应度值，具体为：

(1)如果Current＞P_bestFit，则P_bestFit＝Current，P_best＝X_i'；否则P_bestFit、P_best保持不变；

(2)如果Current＞G_bestFit，则G_bestFit＝Current，G_best＝X_i'；否则G_bestFit、G_best保持不变；

式中，Current为粒子当前适应度值，P_bestFit为当前粒子的个体最优适应度值，P_best为粒子个体位置最优值，G_bestFit为粒子群全局最优适应度值，G_best为粒子群全局最优值，X_i'为粒子当前位置；

步骤2-7、将粒子个体最优适应度值对应的最优连接权值和阈值，以及训练样本集输入至BP神经网络进行训练，获得BP神经网络新的连接权值和阈值，具体为：

步骤2-7-1、将logsig函数作为隐层和输出层之间的传递函数，求取隐层的输出值Z_j：

式中，α为BP神经网络输入层到隐层之间的学习系数；W_ij为隐层和输入层之间的连接权值；X_i为输入值；θ_j为隐层神经元的阈值；

步骤2-7-2、根据输出值Z_j求取输出层各个神经元的激活值B_k以及输出层各个神经元的输出值Y_k，所用公式分别为：

式中，β为BP神经网络输出层到隐层之间的学习系数；V_jk为输出层和隐层之间的连接权值；

步骤2-7-3、根据期望输出值o_t和实际输出值y_t，求取输出层的权值调整量Δv_jk和阈值调整量Δθ_j，所用公式分别为：

式中，o_t为神经元的期望输出值；y_t为神经元的实际输出值；f′(B_t)为输出层函数的导数，为第j个隐层神经元的输出值；

其中，f′(B_t)为：

f′(B_t)＝f(B_t)(1-f(B_t))

式中，B_t为输出层的激活值；

步骤2-7-4、根据期望输出值o_t和实际输出值y_t，求取隐层的权值调整量ΔW_ij和阈值调整量Δθ_j，所用公式分别：

式中，f′(A_t)为输入层函数的导数；为输入层和隐层对应的数据；

步骤2-7-4、根据输出层的权值调整量Δv_jk和阈值调整量Δθ_j求取隐层和输出层之间新的连接权值V_jk(M+1)以及新阈值θ_j(M+1)，所用公式分别为：

θ_j(M+1)＝θ_j(M)+α(o_t-y_t)f′(B_t)

步骤2-7-5、根据隐层的权值调整量ΔW_ij和阈值调整量Δθ_j求取隐层和输入层之间新的连接权值W_ij(M+1)和新阈值θ_i(M+1)，所用公式分别为：

式中，W_ij(M)为当前隐层和输入层之间的连接权值，θ_i(M)为当前隐层和输入层之间的阈值。

步骤2-8、根据步骤1改进的粒子群算法的速度和位置公式更新粒子的速度和位置，生成下一代粒子；

步骤2-9、判断迭代次数是否达到预设的最大迭代次数或者矫正误差值E小于预设的精度值，若是，则训练结束；反之返回步骤2-5继续迭代训练；其中矫正误差值E求取公式为：

式中，o_t、y_t分别为BP神经网络的期望输出值、实际输出值。

进一步地，步骤3将用于测试的患病因素数据输入至训练好的PSO-BP神经网络进行预测之前，需要通过最大最小值法对测试数据进行归一化处理。

进一步地，步骤4根据输出结果，通过转换公式获取输入与输出之间关系的权重记为先验概率S_ij，具体为：

转换公式为：

其中，R_ij为相关系数：

R_ij＝|(1-e^-y)/(1+e^-y)|，y＝r_ij

其中，r_ij为相关显著系数：

式中，i为神经网络的输入单元，i＝1,...,m；j为神经网络的输出单元，j＝1,...,n；k为神经网络的输出单元，k＝1,...,p；W_ki为输入层神经元i与隐含层神经元k之间的权系数；W_jk为隐含层神经元k与输出层神经元j之间的权系数。

进一步地，步骤5根据步骤4中获得的先验概率，结合贝叶斯公式获得疾病危险因素，具体为：

步骤5-1、基于贝叶斯公式，由先验概率结合条件概率获得后验概率即各个疾病因素的影响权重，贝叶斯公式为：

式中，P(B_i)、P(A|B_i)、P(B_i|A)分别为先验概率、条件概率和后验概率，其中条件概率是根据实际数据统计获得；

步骤5-2、将所有的P(B_i|A)进行降序排列，选取前n个P(B_i|A)对应的疾病因素作为疾病危险因素。

下面结合实施例对本发明作进一步详细的描述。

实施例

本发明基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，包括以下内容：

1、通过引入自适应权重策略，优化粒子群算法(PSO)，具体为：

粒子群算法的位置公式：

X_id(t+1)＝X_id(t)+V_id(t+1)

在速度公式中引入自适应惯性权重w(t)：

V_id(t+1)＝w(t)V_id(t)+c₁r₁·(P_best-X_id(t))+c₂r₂·(G_best-X_id(t))

其中，自适应惯性权重w(t)为：

2、根据改进的粒子群算法优化BP神经网络，具体内容如下：

(1)根据实验数据，设定输入层节点数是7，输出层节点数是1，隐层节点数通过计算和实验获得值为15，因此模型确定为7-15-1，

具体计算如下：

l＝2m+1(Kolmongorov定理)

式中，l为隐层节点数，m为输入层节点数；

(2)本实施例中共有800例心内科病患资料，其中550是患者，其余250例未诊断心血管病。用于训练的原始数据有410例，测试的有140例，提取的指标特征有七个：性别、年龄、心脏病史、血压、肌钙蛋白、脂蛋白、D-二聚体，结合最大最小方法对数据进行预处理，进行归一化，将数据归一化在[0,1]之间，归一化公式如下：

式中，x是预测数据，x_min和x_max是预测数据中的最大值和最小值，x,y∈Rⁿ；

(3)在[-1,1]之间随机初始化BP神经网络的连接权值和阈值；

(4)结合改进的粒子群算法，初始化粒子群，粒子群规模大小为50，迭代寻优次数为1000，粒子的惯性权重W_start和W_end为0.9和0.4，规定粒子的速度范围为[-1,1]，位置范围为[-5,5]，并在规定的速度和范围内随机初始化50个粒子，学习因子c₁＝c₂＝1.496；

(5)将初始个体与群体最大适应度值作为初始个体与群体极值，并通过计算获得粒子的初始适应度函数值，所用公式为：

通过计算，粒子适应度值在迭代次数为800左右的时候达到最大，适应度值为0.33时，在800和1000之间保持不变，因此最优解对应于粒子适应度值为0.33的位置。

3、将用于测试的患病因素数据输入至训练好的PSO-BP神经网络进行预测，获得危险因素的输出结果，表1所示为输入层的每个节点对于隐含层每个节点的权重值组成的输出矩阵；

表1权重系数矩阵表

4、根据上述3的输出结果，通过转换公式获取输入输出之间关系的权重记为先验概率，具体为：

转换公式为：

其中，R_ij为相关系数：

R_ij＝|(1-e^-y)/(1+e^-y)|，y＝r_ij

其中，r_ij为相关显著系数：

式中，i为神经网络的输入单元，i＝1,...,m'；j为神经网络的输出单元，j＝1,...,n；k为神经网络的输出单元，k＝1,...,p；W_ki为输入层神经元i与隐含层神经元k之间的权系数；W_jk为隐含层神经元k与输出层神经元j之间的权系数。

本实施例中性别、年龄、心脏病史、血压、肌钙蛋白、脂蛋白、D-二聚体的先验概率分别为：P(B1)＝0.08914，P(B2)＝0.06151，P(B3)＝0.07612，P(B4)＝0.01755，P(B5)＝0.51613，P(B6)＝0.04557，P(B7)＝0.34679。

5、根据上述4获得的先验概率，结合条件概率(贝叶斯公式)获得患病危险因素，贝叶斯公式为：

式中，P(B_i)、P(A|B_i)、P(B_i|A)分别为先验概率、条件概率和后验概率，其中条件概率是根据实际数据统计获得。

本实施例中后验概率分别为P(B1|A)＝0.0634，P(B2|A)＝0.0937，P(B3|A)＝0.2965，P(B4|A)＝0.4571，P(B5|A)＝0.0816，P(B6|A)＝0.1158，P(B7|A)＝0.1026，因此本实施例中最终获得的容易引起心血管病疾病危险因素是心脏病史、血压和脂蛋白。

本发明实现了PSO-BP神经网络和贝叶斯方法对疾病危险因素的提取，通过对粒子群算法进行改进，然后对BP神经网络进行优化，接着通过计算获得输入输出数据之间关系的权重(也就是先验概率)；最后将获得的先验概率结合条件概率(贝叶斯公式)计算获得疾病危险因素，充分利用数据之间的关系，保证了评估的准确性、可靠性以及高限制条件下算法的稳定性。

Claims

1.一种基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，其特征在于，包括以下步骤：

步骤1、引入自适应权重策略，优化粒子群算法PSO；

2.根据权利要求1所述的基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，其特征在于，步骤1所述引入自适应权重策略，优化粒子群算法PSO，具体为：

粒子群算法的位置公式：

X_id(t+1)＝X_id(t)+V_id(t+1)

在速度公式中引入自适应惯性权重w(t)：

V_id(t+1)＝w(t)V_id(t)+c₁r₁·(P_best-X_id(t))+c₂r₂·(G_best-X_id(t))

其中，自适应惯性权重w(t)为：

3.根据权利要求2所述的基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，其特征在于，步骤2所述根据改进的粒子群算法PSO以及用于训练的患病因素数据优化训练BP神经网络，具体为：

步骤2-3、初始化BP神经网络连接权值W和阈值θ；

步骤2-4、初始化粒子群规模、空间维数、每个粒子的信息；

步骤2-7、将粒子个体最优适应度值对应的最优连接权值和阈值，以及训练样本集输入至BP神经网络进行训练，获得BP神经网络新的连接权值和阈值；

4.根据权利要求3所述的基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，其特征在于，步骤2-7所述将粒子个体最优适应度值对应的最优连接权值和阈值，以及训练样本集输入至BP神经网络进行训练，获得BP神经网络新的连接权值和阈值，具体为：

其中，f′(B_t)为：

f′(B_t)＝f(B_t)(1-f(B_t))

式中，B_t为输出层的激活值；

θ_j(M+1)＝θ_j(M)+α(o_t-y_t)f′(B_t)

5.根据权利要求1或2所述的基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，其特征在于，步骤3所述将用于测试的患病因素数据输入至训练好的PSO-BP神经网络进行预测之前，需要通过最大最小值法对测试数据进行归一化处理。

6.根据权利要求5所述的基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，其特征在于，步骤4所述根据输出结果，通过转换公式获取输入与输出之间关系的权重记为先验概率S_ij，具体为：

转换公式为：

其中，R_ij为相关系数：

R_ij＝|(1-e^-y)/(1+e^-y)|，y＝r_ij

其中，r_ij为相关显著系数：

7.根据权利要求6所述的基于改进的PSO-BP神经网络和贝叶斯法的疾病因素提取方法，其特征在于，步骤5所述根据步骤4中获得的先验概率，结合贝叶斯公式获得疾病危险因素，具体为：