CN110880369A

CN110880369A - 基于径向基函数神经网络的气体标志物检测方法及应用

Info

Publication number: CN110880369A
Application number: CN201910951544.9A
Authority: CN
Inventors: 张冬至; 薛庆忠; 吴振岭; 王兴伟; 张勇
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-03-13

Abstract

本发明提供一种径向基函数神经网络的呼出气体标志物检测方法及应用，涉及气敏传感检测领域，首先使用气敏传感器对人体呼出气体标志物进行检测与标定，构建多维传感器阵列对模拟患病状态时呼出气体进行测试，获取大量样本数据，其次利用主成分分析‑粒子群优化‑径向基函数神经网络算法模型对样本数据进行预处理，降低变量维度，减少气敏传感器交叉敏感性，最终对人体呼出气体浓度进行精确预测，可靠性好，通用性强。最后将获得的样本数据与对应的疾病状态建立关系，构筑人体疾病诊断数据库模型系统，对呼出气相关疾病预测提供指导。

Description

基于径向基函数神经网络的气体标志物检测方法及应用

技术领域

本发明涉及气敏传感检测技术领域，尤其涉及一种基于径向基函数神经网络的呼出气体标志物检测方法及其在疾病诊断应用中的模型系统。

背景技术

随着社会的发展和生活水平提高，民生健康成为关注重点。在人体代谢过程会产生各种气体，比如挥发性有机气体、一氧化氮、硫化氢等气体。这些气体会通过体内血液循环进入呼吸系统，进而排出体外。如果呼出的某种或者几种标志物气体取样后，检查样本发现浓度超出一定范围，就意味着人体的新陈代谢机制发生了变化，存在着罹患疾病的可能。由人体疾病与呼出气体关系可知，人体患病类型与其呼出气体组分类型与呼出气体的浓度有一定的相关性。

模式识别技术是对感知信号进行分析处理后，对其中的物体、形象、行为等特征进行准确描述、辨识、分类的过程。模式识别技术在气敏传感器阵列检测中具有十分重要的作用，基于气敏传感器阵列数据进行模式识别，能够最终实现对多组分呼出气体浓度定性、定量识别。

然而，现有传感器采集获得的直接响应值往往与拟采集呼出气体浓度之间的数学关系往往不够直观，数据量大、关系复杂。同时，人体呼出气体种类复杂、保存困难易污染、传感器响应之间交叉敏感性严重，导致拟合效果差，可靠性与通用性降低。因此需要对中间参数数据进行处理，以便于获得早期筛查系统能够使用的中间结果数据。

发明内容

为了克服上述现有技术中存在的问题，提供了一种基于径向基函数神经网络的呼出气体标志物检测方法及其在疾病诊断应用中的模型系统。首先使用气敏传感器构建多维传感器阵列对模拟患病状态时呼出气体标志物进行检测与标定，获取大量样本数据；然后利用模式识别技术结合智能算法模型对样本数据进行预处理，降低变量维度，减少气敏传感器交叉敏感性，最终对人体呼出气体浓度进行精确预测，用于构筑人体疾病诊断模型系统。

本发明提供如下技术方案：

基于径向基函数神经网络的气体标志物检测方法，首先，使用气敏传感器对人体呼出气体标志物进行检测与标定，构建多维传感器阵列对模拟患病状态时呼出气体进行测试，获取若干样本数据；然后，利用主成分分析-粒子群优化-径向基函数神经网络(PCA-PSO-RBF)算法模型对样本数据进行预处理，降低变量维度，减少气敏传感器交叉敏感性；最终，对人体呼出气体浓度进行预测。

优选的，在PCA-PSO-RBF算法模型中，通过主成分分析模型对呼出气体样本数据进行主成分分析，根据各个变量的贡献率提取主要成分；将主要成分变量作为粒子群算法优化的RBF神经网络模型的输入对新的样本数据进行学习训练，并基于该优化模型实现对人体呼出气体浓度参数的预测，样本数据预处理步骤具体包括：

(1)对原始样本数据进行标准化处理，通过PCA算法降维后分组为训练样本与测试样本数据；

具体的，PCA算法将原来具有一定相关性的变量按照标准化组合成新的无关变量，其降维的基本思想为通过将原始样本数据进行线性组合，生成新的互不相关的指标信息，从中筛选出少数新的指标，使新的指标包含大部分原始数据信息，进而实现少数指标对原始数据信息的解释；

(2)构建包括输入层、隐含层和输出层的三层径向基函数神经网络，RBF神经网络关系如式(1)所示：

式中i＝1,2,…k，W_i为输出权重；c_i为隐层基函数中心；δ_i为隐层基函数宽度； x为输入数据；

为RBF神经网络输出；k为输入数据样本数；e为自然常数；

初始化粒子群及RBF神经网络，选取输出权重W_i、隐层基函数中心c_i、隐层基函数宽度δ_i作为优化参数进行粒子群算法优化；种群中每个粒子的初始适应度值为样本数据的局部极值，全部种群中粒子的最小适应度值为样本数据的全局极值；

(3)计算各粒子的适应度值，使用神经网络的均方误差作为PSO优化算法的适应函数，适应度函数定义如式(2)所示：

FitnessFunc_i为种群中第i个粒子的适应度值；D(x_i1,x_i2,x_i3,...,x_id)为核函数参数的平均误差平方和；

(4)对种群中每个粒子，将每个粒子的适应度值与每个粒子所经历最好位置的适应度值进行比较，如果更好，更新局部极值P_best；

(5)对种群中每个粒子，将每个粒子的适应度值与群体中所经历最好位置的适应度值进行比较，如果更好，更新全局极值G_best；

(6)根据公式(3)和(4)更新粒子的速度和位置：

v_ij(t+1)＝wv_ij(t)+c₁r₁(p_ij(t)-x_ij(t))+c₂r₂(p_gj(t)-x_ij(t))， (3)

x_ij(t+1)＝x_ij(t)+v_ij(t+1)； (4)

式中i＝1,2,3,…,n；j＝1,2,3,…,d；t为当前PSO算法迭代次数，w为PSO算法惯性权值，c₁，c₂为学习因子；r₁，r₂的取值范围为[0,1]之间均匀分布的随机数； P_i＝(p_i1,p_i2,p_i3,...,p_id)为种群粒子i当前搜索的最优位置， P_g＝(p_g1,p_g2,p_g3,...,p_gd)为整个种群当前搜索的最优位置；v_ij表示种群粒子i在第j维的速度，为了防止陷入局部最优，v_ij取值范围为[-v_max，v_max]；wv_ij为种群粒子当前的活动状态；c₁r₁(p_ij(t)-x_ij(t))为种群粒子对过去的经验进行学习，使得种群中粒子个体逐渐移动到最优的位置；c₂r₂(p_gj(t)-x_ij(t))表示为种群粒子对粒子群搜索经验的学习，进而使得种群中粒子个体移动到种群的最优位置；

(7)当迭代次数或者适应度值满足设定的要求时，跳出循环，否则重复上述步骤(4)-(6)继续进行迭代寻优；

(8)将得到的RBF神经网络最优参数代入到PCA-PSO-RBF网络模型中，选用测试样本进行预测。

在实际检测的处理过程中，多个变量之间可能存在一定的相关性，比如本领域多种呼出气气敏传感器之间存在一定的交叉敏感性，同时当变量的维数比较高、变量之间存在复杂的关系时，加之杂质气体影响，进一步增加了数据分析难度，单纯靠RBF粒子群寻优难于高效获得所需结果。

进一步，在步骤(1)中，设有n个样本，每个样本有p个变量，组成n×p 维矩阵，如式(5)所示：

通过将原始数据X转换为k个主成分，其中k个主成分是原始变量x_i的线性组合，则新变量F₁，F₂，…F_k为原始变量的前k个主成分，因此新变量的数学表达为式(6)：

优选的，PCA算法降维步骤包括：

①为了消除数据量纲和数量级的影响，将原始样本数据进行标准化处理，转化成无量纲的形式：

式中，x_ij′为标准化的数据值；

为原始数据平均值；σ_j为原始数据标准差；

②计算相关系数矩阵：

式中，r_ij(i,j＝1，2，…，p)为原始变量数据x_i和x_j的相关系数，r_ij＝r_ji计算公式如式(9)所示：

③计算特征值与特征向量：

根据特征方程|λI-R|＝0的解，求出特征值λ_i，其中I为单位向量，R为相关系数矩阵；将特征值λ_i按照从大到小的顺序进行排列，分别求出在特征值λ_i下的特征向量u_ij(i＝1，2，…，k；j＝1，2，…，p)；

④选择p个主成分：

分别计算在特征值λ_i下的贡献率与累计贡献率，当计算出的累积贡献率达到90％以上且特征根大于1时，此时特征根对应的第1、第2…第m个主成分，选择前p个主成分可以代替原来的变量，从而实现对原始数据的降维；

⑤计算主成分表达式：

将计算出的u_ij与标准化的x_ij′相乘得到的表达式即为所需要的主成分表达式。

优选的，在粒子群优化算法的寻优过程中，假设在D维样本空间中存在n 个粒子，并且每一个粒子均由位置X_i＝(x_i1,x_i2,...,x_id)、速度V_i＝(v_i1,v_i2,...,v_id) 和适应度值三个基本特征组成；粒子群中每个粒子都是寻优问题的一个可行解，通过采用评价函数计算出相应的适应度值，判断是否达到寻优要求，进而判断是否需要继续迭代寻找最优；另外，P_i＝(p_i1,p_i2,...,p_id)是第i个微粒具有最佳适应度值的位置，即个体的最佳位置为个体极值P_best，所有微粒在寻优过程中的最优位置为种群极值G_best，在搜索粒子的最优过程中，每一次的迭代过程中的速度和位置都是发生改变的，算法公式如下：

v_ij(t+1)＝wv_ij(t)+c₁r₁[p_ij(t)-x_ij(t)]+c₂r₂[g_ij(t)-x_ij(t)]， (10)

x_ij(t+1)＝x_ij(t)+v_ij(t+1)， (11)

式中，i为微粒的序号，i＝1,2,3,…n；j为微粒的维度，j＝1,2,3,…d；t为当前的迭代次数，即x_ij为i号微粒在j维度的位置，v_ij为i号微粒在j维度的速度， p_ij为i号微粒在j维度具有最佳适应度值的位置，g_ij为i号微粒在j维度寻优过程中的最优位置；w为惯性权值；r₁和r₂是0到1之间相互独立的随机函数；c₁和c₂为学习因子，也称作加速常数，从上述的微粒迭代公式(5)和(6)能够得出， c₁是调节微粒到自身最佳位置的步长，c₂是调节微粒到全局最佳位置的步长；微粒的速度v_ij会限定在一定的变化区间：[-v_max，v_max]，防止陷入局部最优，

其中，wv_ij为种群粒子当前的活动状态，c₁r₁(p_ij(t)-x_ij(t))为种群粒子对过去的经验进行学习，使得种群中粒子个体逐渐移动到最优的位置；c₂r₂(p_gj(t)-xi_j(t)) 表示为种群粒子对粒子群搜索经验的学习，进而使得种群中粒子个体移动到种群的最优位置；个体的极值P_best和种群极值G_best的更新与种群粒子的适应度更新有关，最终更新得到的G_best就是经过PSO优化算法运行的结果。更优选在步骤(2)中，设定粒子群大小为n＝20，迭代次数为200次，惯性权值为0.8，学习因子c₁，c₂为1.5，1.7。

本发明还提供一种径向基函数神经网络的呼出气体标志物检测方法在疾病诊断数据库系统构筑中的应用，将上述检测方法预处理获得的样本数据与对应的疾病状态建立关系，构筑人体疾病诊断模型系统。

在本发明的一些实施方式中，人体疾病诊断模型系统采用聚类分析模块对预处理后的标志物进行分析；具体的，所述聚类分析模块中K-均值聚类处理框架的算法如下所述：

(1)假设样本数据集X为X＝{x₁,x₂,...,x_N}，集群数目为k；设I＝1，初始聚类中心为{Z_j:j＝1,2,3,...,k}；

(2)计算样本数据中每个数据点到聚类中心的距离，D(X_i,Z_j(I))，其中 i＝1,2,...,N；j＝1,2,...,k；当D(X_i,Z_j(I))＝min{D(X_i,Z_j(I)):j＝1,2,...,k}，则X_i被分到了t类，记作

(3)计算样本数据中新的聚类中心：

(4)若Z_j(I+1)≠Z_j(I),j＝1,2,...,k，则I＝I+1，返回步骤(2)重新开始计算，否则算法结束。

在本发明的另一些优选实施方式中，人体疾病诊断模型系统采用深度置信神经网络(Deep Belief Net简称DBN)模块对预处理后的样本数据进行分析；具体的，模块中受限玻尔兹曼机(restricted Boltzmann Machine，简称RBM)的能量函数为：

转换为能量公式为：

概率分布表示为：

其中n，m分别表示DBN神经网络可视层和隐藏层的神经元数量；

v,h分别表示DBN神经网络可视层和隐藏层的状态向量；

a,b分别表示DBN神经网络可视层和隐藏层的状态向量；

w表示连接DBN神经网络可视层与隐藏层之间的权值矩阵，θ＝{w，a，b}；

为配分函数；P(v，h；θ)为波尔兹曼函数；

由于RBM中隐层各节点之间是相互独立的，因此P(h|v)＝∏P(h_i|v)，其中对应二进制单元(h_i，v_j∈{0，1})，其激活函数如式(16-18)所示；

其中，DBN神经网络中联合概率分布P(v，h)得到其边缘分布：

其对数似然函数为：

上述公式中，N为样本数，v_i为第i个样本，式(22)为梯度，采用这种方法提高神经网络的训练速度：

随着参数沿着梯度方向不断更新，当似然函数的最大值时，实现对输入数据

的快速预测；参数更新公式如下：

其中t为迭代次数，η为学习速率。

深度置信网络DBN联合概率分布，隐层数为l，如公式(23)所示。

更优选的，深度置信网络由多个限制波尔兹曼机组成，被限制分成为一个可视层和一个隐藏层两种，不同层之间存在连接，但是层内单元间不存在连接；需要针对DBN神经网络系统，对其参数进行初始化；需要初始化的DBN参数主要有RBM模型中连接权重w，可视层与隐藏层偏置a，b；其中三个参数均以极小值随机初始化，利用经验公式可以将上述参数进行初始化：

w＝0.1×randn(n,m) (24)

a＝0.1×randn(1,n) (25)

b＝0.1×randn(1,m)， (26)

式中(24)，(25)及(26)中randn表示可产生标准正态分布的随机数或矩阵的函数，randn(n，m)代表产生n行m列的标准正态分布矩阵，经过多次试验分析，本实施方式DBN算法的学习率α取为5。

与现有技术相比，本发明的有益效果：

(1)针对人体呼出气体响应测试数据维度高、样本数量大且存在交叉敏感特性等特点，采用主成分分析算法融合PSO-RBF预测模型，实现对多种呼出气体浓度的精确预测。通过对比现有BP神经网络、RBF神经网络和GA-RBF神经网络性能，发现PCA-PSO-RBF神经网络模型对多种人体呼出气体浓度有更好的预测效果，为人体疾病早期筛查与诊断提供重要指导依据。

(2)本发明采用主成分分析，将各薄膜传感器获得的涉及多个变量的样本数据进行降维处理，避免了交叉敏感性和变量复杂性的影响，在保证原始信息量的前提下，降低了后续数据分析难度。所采用的粒子群优化算法与现有遗传算法相比，粒子个体具备独特记忆功能，能够动态追踪当前搜索情况，根据搜索状态调整搜索策略，无须交叉变异，一定程度上提高检索效率。上述两种算法相结合为样本数据的初代处理和神经网络优化模型的构建打下了重要基础，改善了算法训练效率。

(3)因人体患病类型与其呼出气体组分类型与呼出气体的浓度有一定的相关性，本发明将多维传感器阵列对模拟患病状态时呼出气体进行测试结果，利用 PCA-PSO-RBF算法模型对样本数据进行预处理，用于构建人体疾病诊断模型系统，以期利用该系统对于呼出气体相关的病症进行初筛和指导。

(4)本发明分别基于聚类分析和深度置信网络构筑应用本发明检测方法的模型系统。结果发现基于聚类分析的模型系统结果具有良好的相关性，能够为疾病诊断提供部分指导意见；基于深度置信的模型系统结果与输入模拟疾病类型基本吻合，系统学习速度快，正确率高。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的主成分分析-粒子群优化-径向基函数(PCA-PSO-RBF)算法模型流程图；

图2是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的PCA-PSO-RBF训练曲线图；

图3是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的PCA-PSO-RBF氨气预测数据图；

图4是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的PCA-PSO-RBF丙酮预测数据图；

图5是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的PCA-PSO-RBF硫化氢预测数据图；

图6是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的PCA-PSO-RBF氨气绝对误差图；

图7是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的PCA-PSO-RBF丙酮绝对误差图；

图8是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的PCA-PSO-RBF硫化氢绝对误差图；

图9是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法的PCA-PSO-RBF预测模型相对误差图。

图10是对比例主成分分析-径向基函数(PCA-RBF)神经网络的呼出气体标志物检测方法训练曲线图；

图11是对比例主成分分析-径向基函数(PCA-RBF)神经网络的呼出气体标志物检测方法预测数据图；

图12是对比例主成分分析-径向基函数(PCA-RBF)神经网络的呼出气体标志物检测方法预测绝对误差图；

图13是对比例主成分分析-径向基函数(PCA-RBF)神经网络的呼出气体标志物检测方法预测相对误差图。

图14是本发明实施例2径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用中所构筑人体疾病诊断模型系统的疾病诊断类型编码图；

图15是本发明实施例2径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用中所构筑人体疾病诊断模型系统的聚类分析疾病诊断流程图。

图16是本发明实施例2径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用中所构筑人体疾病诊断模型系统的聚类分析分类结果曲线。

图17是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用中(a)深度波尔兹曼机(DBM)、(b)深度置信网络(DBN)结构图。

图18是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用中所构筑人体疾病诊断模型系统的DBN神经网络结构示意图。

图19是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用的受限波尔兹曼机(RBM)中神经元个数与正确率关系图。

图20是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用中所构筑人体疾病诊断模型系统的DBN次数与正确率关系图。

图21是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用中所构筑人体疾病诊断模型系统的DBN神经网络流程图。

图22是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在疾病诊断中的应用中所构筑人体疾病诊断模型系统的DBN算法分类结果曲线图。

具体实施方式

由人体疾病与呼出气体关系可知，人体患病类型与其呼出气体组分类型与呼出气体的浓度有一定的相关性，如表1所示。本发明使用多种现有气体传感器对人体呼出气体标志物进行检测与标定，构建多维传感器阵列对模拟患病状态时呼出气体进行测试，获取大量样本数据，利用PCA-PSO-RBF算法模型对样本数据进行预处理，降低变量维度，减少气敏传感器交叉敏感性，最终对人体呼出气体浓度进行精确预测，并应用到疾病诊断模型系统中，以对呼出气体相关疾病进行初筛指导。

表1不同浓度呼出气体对应的疾病类型

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

基于径向基函数神经网络的呼出气体标志物检测方法，首先，使用气敏传感器对人体呼出气体标志物进行检测与标定，构建多维传感器阵列对模拟患病状态时呼出气体进行测试，获取若干样本数据；然后，利用主成分分析-粒子群优化- 径向基函数(简称PCA-PSO-RBF)神经网络算法模型对样本数据进行预处理，降低变量维度，减少气敏传感器交叉敏感性；最终，对人体呼出气体浓度进行预测。

本实施例采用市售的氨气、丙酮、硫化氢三种气体气敏传感器(Digi-Key 电子公司)作为多维传感器阵列构筑元件，用于原始样本数据采集。

在PCA-PSO-RBF算法模型中，通过主成分分析(简称PCA)模型对呼出气体样本数据进行主成分分析，根据各个变量的贡献率提取主要成分；将主要成分变量作为粒子群算法优化的RBF神经网络模型的输入对新的样本数据进行学习训练，并基于该优化模型实现对人体呼出气体浓度参数的预测，如图1所示，样本数据预处理步骤具体包括：

为RBF神经网络输出；k为输入数据样本数；e为自然常数。

(6)根据公式(3)和(4)更新粒子的速度和位置：

v_ij(t+1)＝wv_ij(t)+c₁r₁(p_ij(t)-x_ij(t))+c₂r₂(p_gj(t)-x_ij(t))，（3）

x_ij(t+1)＝x_ij(t)+v_ij(t+1)； (4)

式中i＝1,2,3,…,n；j＝1,2,3,…,d；t为当前PSO算法迭代次数，w为PSO算法惯性权值，c₁，c₂为学习因子。r₁，r₂的取值范围为[0,1]之间均匀分布的随机数。 P_i＝(p_i1,p_i2,p_i3,...,p_id)为种群粒子i当前搜索的最优位置， P_g＝(p_g1,p_g2,p_g3,...,p_gd)为整个种群当前搜索的最优位置。v_ij表示种群粒子i在第j维的速度，为了防止陷入局部最优，v_ij取值范围为[-v_max，v_max]。wv_ij为种群粒子当前的活动状态；c₁r₁(p_ij(t)-x_ij(t))为种群粒子对过去的经验进行学习，使得种群中粒子个体逐渐移动到最优的位置；c₂r₂(p_gj(t)-x_ij(t))表示为种群粒子对粒子群搜索经验的学习，进而使得种群中粒子个体移动到种群的最优位置。

在实际检测的处理过程中，多个变量之间可能存在一定的相关性，比如本领域多种呼出气气敏传感器之间存在一定的交叉敏感性，同时当变量的维数比较高、变量之间存在复杂的关系时，加之杂质气体影响，进一步增加了数据分析难度，单纯靠RBF进行粒子群寻优难于高效获得所需结果。

进一步，在步骤(1)中，设有n个样本，每个样本有p个变量，组成n×p 维矩阵，如公式(5)所示：

通过将原始数据X转换为k个主成分，其中k个主成分是原始变量x_i的线性组合，则新变量F₁，F₂，…F_k为原始变量的前k个主成分，因此新变量的数学表达为：

其中，PCA算法降维步骤包括：

式中，x_ij′为标准化的数据值；

为原始数据平均值；σ_j为原始数据标准差；

②计算相关系数矩阵：

式中，r_ij(i,j＝1，2，…，p)为原始变量数据x_i和x_j的相关系数，r_ij＝r_ji计算公式如下所示：

③计算特征值与特征向量：

④选择p个主成分：

⑤计算主成分表达式：

基于主成分分析的数据特征提取

针对获得的多维变量数据进行PCA数据降维处理。首先根据公式(7)将样本数据标准化处理，得到标准化样本数据。通过式(8)计算变量之间的相关系数矩阵，然后计算矩阵的特征值与对应的特征向量。分别计算出样本数据特征值的贡献率与累计贡献率，当计算出的累积贡献率达到90％以上同时特征根大于1 时，按照上述要求选出主成分，使用Matlab软件计算标准化样本数据的特征值与累计贡献率，其中计算出的相关系数矩阵特征值与累计贡献率如表2所示。基于主成分分析的十个变量分别标记为PCA1、PCA2、PCA3、PCA4、PCA5、PCA6、 PCA7、PCA8、PCA9、PCA10。

从表2可以看出，当标准化样本数据的累计主成分贡献率大于1，同时计算出的特征根大于1时，前四个主成分PCA1、PCA2、PCA3、PCA4的特征值分别为2.763、1.542、1.203、1.001，贡献率分别为39.95、22.3、17.4、14.47，累计贡献率为39.95、62.25、79.65、94.12，因此本实施例选取PCA1、PCA2、PCA3、 PCA4前4个主成分进行数据降维。

表2相关系数矩阵特征值与累计贡献率

在粒子群优化算法的寻优过程中，假设在D维样本空间中存在n个粒子，并且每一个粒子均由位置X_i＝(x_i1,x_i2,...,x_id)、速度V_i＝(v_i1,v_i2,...,v_id)和适应度值三个基本特征组成；粒子群中每个粒子都是寻优问题的一个可行解，通过采用评价函数计算出相应的适应度值，判断是否达到寻优要求，进而判断是否需要继续迭代寻找最优；另外，P_i＝(p_i1,p_i2,...,p_id)是第i个微粒具有最佳适应度值的位置，即个体的最佳位置为个体极值P_best，所有微粒在寻优过程中的最优位置为种群极值G_best，在搜索粒子的最优过程中，每一次的迭代过程中的速度和位置都是发生改变的，算法公式如下：

x_ij(t+1)＝x_ij(t)+vi_j(t+1)， (11)

其中，wv_ij为种群粒子当前的活动状态，c₁r₁(p_ij(t)-x_ij(t))为种群粒子对过去的经验进行学习，使得种群中粒子个体逐渐移动到最优的位置；c₂r₂(p_gj(t)-x_ij(t)) 表示为种群粒子对粒子群搜索经验的学习，进而使得种群中粒子个体移动到种群的最优位置；个体的极值P_best和种群极值G_best的更新与种群粒子的适应度更新有关，最终更新得到的G_best就是经过PSO优化算法运行的结果。更优选在步骤 (2)中，设定粒子群大小为n＝20，迭代次数为200次，惯性权值为0.8，学习因子c₁，c₂为1.5，1.7。

PCA-PSO-RBF神经网络训练曲线如图2所示，与PSO-RBF、PCA-GA-RBF、 PCA-RBF网络模型相比，算法迭代次数减少到45次，证明经过PCA降维和PSO 优化的RBF神经网络模型训练速度更快、更简单。经过PCA-PSO-RBF神经网络训练之后进行人体呼出气体浓度预测的数据如图3、图4、图5所示，人体呼出气体浓度的预测值与测试样本的真实值拟合程度很高，三种气体(氨气、丙酮、硫化氢)的拟合曲线均在y＝x直线附近，表明PCA-PSO-RBF算法模型可以对人体呼出气体样本数据进行准确的学习与预测，针对人体呼出气体样本具有优异的预测性能。

对比研究训练样本中预测值与原始数据具体差值，训练样本中三种呼出气体预测数据与实际样本数据的绝对误差值与相对误差值如图6、图7、图8、图9 所示。从图中可以看出，NH₃气体浓度的预测绝对误差在-0.046ppm～0.045ppm 之间，丙酮气体浓度的预测绝对误差在-0.052ppm～0.061ppm之间，H₂S气体浓度的预测绝对误差在-0.031ppm～0.032ppm之间，三种气体的相对误差在 -0.56％～0.61％之间。综上所述，经过多次训练的PCA-PSO-RBF神经网络对三种气体浓度具有很高的预测精度和较快的迭代速度，可以实现对人体呼出气体浓度的准确预测。

对比例1

本对比例采用如实施例1所述方法进行实施，不同之处在于，不对算法进行粒子群优化，仅采用主成分分析和径向基函数神经网络(PCA-RBF)对样本数据进行处理。PCA-RBF神经网络训练曲线如图10所示，经过418次迭代，预测数据误差达到了设定的精度。经过RBF神经网络得到的预测的数据如图11所示，能够清楚的看到氨气，硫化氢，丙酮模型预测值和实际值之间的差距不大，但训练效率远不如经PSO优化的本发明算法。其中预测数据与实际数据的绝对误差值与相对误差值如图12、图13所示，三种气体的绝对误差在-0.31ppm～0.21ppm 之间，相对误差在-3.1％～2.1％之间。

对比例2

本对比例采用如实施例1所述方法进行实施，不同之处在于，不对原始样本数据进行主成分分析降维，仅采用粒子群优化的径向基函数神经网络(PSO-RBF) 对样本数据进行处理。

对比例3-5

在对比例中，分别采用不同算法组合模型对模拟呼出气体样本数据进行处理分析，以比较其性能优劣。算法模型分别采用主成分分析-BP神经网络(PCA-BP)、遗传算法-径向基函数神经网络(GA-RBF)和主成分分析-遗传算法-径向基神经网络(PCA-PSO-RBF)。

为了更加直观的对比不同智能算法模型对人体呼出气体浓度预测性能，从平均绝对误差(ppm)、平均相对误差(％)、迭代次数等方面对模型性能进行评估，将智能算法模型重复运行50次后，上述五种对比例与本发明实施例六种算法模型的性能对比如表3所示。从表中可以看出，经过PCA-BP算法模型学习训练，氨气、丙酮、硫化氢三种呼出气体的平均绝对相对误差为0.092、0.081、0.069，多次运行后平均相对误差为1.001、0.760、0.741。PCA-RBF算法模型中，氨气、丙酮、硫化氢三种呼出气体的平均绝对相对误差为0.102、0.100、0.081，平均相对误差为1.126、1.102、0.91。GA-RBF算法模型中，氨气、丙酮、硫化氢三种呼出气体的平均绝对相对误差为0.123、0.106、0.093，平均相对误差为1.201、1.120、0.95。PSO-RBF算法模型中，氨气、丙酮、硫化氢三种呼出气体的平均绝对相对误差为0.096、0.082、0.056，平均相对误差为0.785、0.625、0.560。在经过遗传算法优化的PCA-GA-RBF算法模型中，氨气、丙酮、硫化氢三种呼出气体的平均绝对相对误差为0.063、0.059、0.041，平均相对误差为0.671、0.552、 0.480，性能得到了一定程度的提高。本实施例基于PCA降维和PSO算法优化相结合之后，PCA-PSO-RBF模型对氨气、丙酮、硫化氢三种呼出气体的绝对误差分别降低至0.018、0.017、0.015，与此同时，平均相对误差也分别降低至0.175、 0.163、0.149，其中迭代次数也由最初的1849次降低至45次，训练速度明显加快。

表3六种算法模型性能对比表

进一步提供一种径向基函数神经网络的呼出气体标志物检测方法在疾病诊断数据库系统构筑中的应用，将上述PCA-PSO-RBF算法模型的检测方法预处理获得的样本数据与对应的疾病状态建立关系，构筑人体疾病诊断模型系统。

实施例2

在本实施例中，如图14、图15所示，人体疾病诊断模型系统采用聚类分析模块对预处理后的标志物进行分析；具体的，所述聚类分析模块中K-均值聚类处理框架的算法如下所述：

(3)计算样本数据中新的聚类中心：

基于聚类分析的疾病诊断效果

基于聚类分析方法对人体疾病状态进行诊断，其部分聚类分析算法样本数据输入与输出结果如表4所示。30组样本数据测试结果如图16。

表4分聚类分析算法输入与输出数据

从图16以看出，实际样本数据分类与聚类分析算法诊断虽存在少量误差，但其平均正确率可以达到83％，实现了一定程度的分类指导效果。

实施例3

在本实施例中，人体疾病诊断模型系统采用深度置信神经网络(Deep Belief Net简称DBN)模块对预处理后的样本数据进行分析；具体的，模块中受限玻尔兹曼机(restricted Boltzmann Machine，简称RBM)的能量函数为：

转换为能量公式为：

概率分布表示为：

v,h分别表示DBN神经网络可视层和隐藏层的状态向量；

a,b分别表示DBN神经网络可视层和隐藏层的状态向量；

为配分函数；P(v，h；θ)为波尔兹曼函数；

由于RBM中隐层各节点之间是相互独立的，因此P(h|v)＝∏P(h_i|v)，其中对应二进制单元(h_i，v_j∈{0，1})，其激活函数如式(16)所示。

其中，DBN神经网络中联合概率分布P(v，h)得到其边缘分布：

其对数似然函数为：

上述公式中，N为样本数，v_i为第i个样本，公式5-22为梯度，采用这种方法提高神经网络的训练速度：

的快速预测；参数更新公式如下：

其中t为迭代次数，η为学习速率。

如图17所示，深度置信网络由多个限制波尔兹曼机组成，如图18所示，被限制分成为一个可视层和一个隐藏层两种，不同层之间存在连接，但是层内单元间不存在连接；需要针对DBN神经网络系统，对其参数进行初始化；需要初始化的DBN参数主要有RBM模型中连接权重w，可视层与隐藏层偏置a，b；其中三个参数均以极小值随机初始化，利用经验公式可以将上述参数进行初始化：

w＝0.1×randn(n,m) (24)

a＝0.1×randn(1,n) (25)

b＝0.1×randn(1,m)， (26)

式中(24)，(25)及(26)中randn表示可产生标准正态分布的随机数或矩阵的函数，randn(n，m)代表产生n行m列的标准正态分布矩阵，经过多次试验分析，本实施例DBN算法的学习率α取为5。

本实施例神经元个数和DBN迭代次数通过经验和实验的方法确定，由DBN 结构可知，算法输入层节点的个数为呼出气体样本数据的维度，其中算法输出层的节点数为人体患病状态个数。DBN神经网络中间层神经元的数量和迭代次数的确定，本实施例采用试错法进行处理，采用呼出气体的训练样本进行诊断分类的正确率作为评价标准，通过多次测试采集数据，RBM中神经元个数与正确率的关系如图19所示。当中间层的神经元个数为10时，正确率可达到96％以上，同时DBN迭代次数与正确率的关系如图20所示，经过对比测试，本实施例DBN 算法中选择中间层神经元数量为10个，迭代次数为400次。

如图21所示，基于DBN神经网络人体疾病诊断过程分为以下几个步骤：

(1)获取人体疾病状态数据，进行PCA-PSO-RBF预处理，设置训练样本和测试样本。

(2)确定DBN神经网络相关参数，包括学习率、迭代次数、网络层数和各层节点数等，其中DBN神经网络输入层节点数取决于人体疾病样本数据的维数， DBN神经网络输出层的节点数取决于疾病数据的类别数，隐含层的节点数在综合考虑DBN神经网络结构特性、算法稳定性和收敛速度的情况下，通过多次试验调整确定。

(3)逐层训练，将训练样本作为DBN神经网络的底层输入，以无监督的方式逐层训练N个RBM，即将上一级RBM隐藏层的输出作为下一级RBM的输入，直到完成N个RBM的训练。

(4)微调整个网络，利用有监督方式的BP算法反向微调DBN神经网络网络。

(5)利用训练好的DBN模型系统进行人体疾病状态初筛与指导。

基于深度置信网络的疾病诊断效果

表5部分DBN算法输入与输出数据

基于DBN算法对人体疾病状态进行诊断，其分类诊断结果图如图22所示，从图中可以看出，经过DBN算法模型训练诊断，具有很高的识别率与很低的误差率，30组呼出气体样本数据诊断结果与真实结果一致，部分输入输出数据如表5所示，表明DBN神经网络可以准确的识别诊断人体疾病状态。

表6实施例2-3不同算法模型性能对比表

如表6所示为两种不同算法模型针对大量数据样本进行的多次训练学习后，对不同疾病状态进行诊断的结果。从表中可以看出，聚类分析算法模型比较简单，对单一疾病进行诊断效果良好，对患两种疾病或者患三种疾病的诊断效果较差。其中，患单一疾病诊断正确率达到88.9％，患两种疾病诊断正确率达到77.8％，患三种疾病诊断正确率达到77.8％。聚类分析算法针对本文高维数据识别效果差，疾病诊断正确率低。

从表中可以看出，DBN算法模型疾病平均诊断正确率较高，可以达到 96％，具有优异的数据处理分类能力。其中患单一疾病诊断正确率高达98.2％，患两种疾病诊断正确率达到96.6％，患三种疾病诊断正确率达到96.0％。分别针对糖尿病、肾病、口臭、糖尿病/肾病、糖尿病/口臭、口臭/肾病、糖尿病/口臭/肾病表现出良好的诊断效果，实现了基于呼出气体检测得到的数据对人体疾病状态的分类诊断，为人体疾病早期筛查与指导提供了新的大数据处理系统。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然能够对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于径向基函数神经网络的气体标志物检测方法，其特征在于，首先，使用气敏传感器对人体呼出气体标志物进行检测与标定，构建多维传感器阵列对模拟患病状态时呼出气体进行测试，获取若干样本数据；然后，利用主成分分析-粒子群优化-径向基函数神经网络算法模型对样本数据进行预处理，降低变量维度，减少气敏传感器交叉敏感性；最终，对人体呼出气体浓度进行预测。

2.根据权利要求1所述的气体标志物检测方法，其特征在于，在主成分分析-粒子群优化-径向基函数神经网络算法模型中，通过主成分分析模型对呼出气体样本数据进行主成分分析，根据各个变量的贡献率提取主要成分；将主要成分变量作为粒子群算法优化的径向基函数神经网络模型的输入对新的样本数据进行学习训练，并基于该优化模型实现对人体呼出气体浓度参数的预测，样本数据预处理步骤具体包括：

(1)对原始样本数据进行标准化处理，通过主成分分析算法降维后分组为训练样本与测试样本数据；

具体的，主成分分析算法将原来具有一定相关性的变量按照标准化组合成新的无关变量，其降维的基本思想为通过将原始样本数据进行线性组合，生成新的互不相关的指标信息，从中筛选出少数新的指标，使新的指标包含大部分原始数据信息，进而实现少数指标对原始数据信息的解释；

(2)构建包括输入层、隐含层和输出层的三层径向基函数神经网络，径向基函数神经网络关系如式(1)所示：

式中i＝1,2,…k，W_i为输出权重；c_i为隐层基函数中心；δ_i为隐层基函数宽度；x为输入数据；

为径向基函数神经网络输出；k为输入数据样本数；e为自然常数；

初始化粒子群及径向基函数神经网络，选取输出权重W_i、隐层基函数中心c_i、隐层基函数宽度δ_i作为优化参数进行粒子群算法优化；种群中每个粒子的初始适应度值为样本数据的局部极值，全部种群中粒子的最小适应度值为样本数据的全局极值；

(3)计算各粒子的适应度值，使用神经网络的均方误差作为粒子群优化优化算法的适应函数，适应度函数定义如式(2)所示：

(6)根据公式(3)和(4)更新粒子的速度和位置：

v_ij(t+1)＝wv_ij(t)+c₁r₁(p_ij(t)-x_ij(t))+c₂r₂(p_gj(t)-x_ij(t)，) (3)

x_ij(t+1)＝x_ij(t)+v_ij(t+1)； (4)

式中i＝1,2,3,…,n；j＝1,2,3,…,d；t为当前粒子群优化算法迭代次数，w为粒子群优化算法惯性权值，c₁，c₂为学习因子；r₁，r₂的取值范围为[0,1]之间均匀分布的随机数；P_i＝(p_i1,p_i2,p_i3,...,p_id)为种群粒子i当前搜索的最优位置，P_g＝(p_g1,p_g2,p_g3,...,p_gd)为整个种群当前搜索的最优位置；v_ij表示种群粒子i在第j维的速度，为了防止陷入局部最优，v_ij取值范围为[-v_max，v_max]；wv_ij为种群粒子当前的活动状态；c₁r₁(p_ij(t)-x_ij(t))为种群粒子对过去的经验进行学习，使得种群中粒子个体逐渐移动到最优的位置；c₂r₂(p_gj(t)-x_ij(t))表示为种群粒子对粒子群搜索经验的学习，进而使得种群中粒子个体移动到种群的最优位置；

(8)将得到的径向基函数神经网络最优参数代入到主成分分析-粒子群优化-径向基函数网络模型中，选用测试样本进行预测。

3.根据权利要求2所述的气体标志物检测方法，其特征在于：在步骤(1)中，设有n个样本，每个样本有p个变量，组成n×p维矩阵，如式(5)所示：

4.根据权利要求3所述的气体标志物检测方法，其特征在于：主成分分析算法降维步骤包括：

式中，x_ij′为标准化的数据值；

为原始数据平均值；σ_j为原始数据标准差；

②计算相关系数矩阵：

③计算特征值与特征向量：

④选择p个主成分：

⑤计算主成分表达式：

5.根据权利要求4所述的气体标志物检测方法，其特征在于：在粒子群优化算法的寻优过程中，假设在D维样本空间中存在n个粒子，并且每一个粒子均由位置X_i＝(x_i1,x_i2,...,x_id)、速度V_i＝(v_i1,v_i2,...,v_id)和适应度值三个基本特征组成；粒子群中每个粒子都是寻优问题的一个可行解，通过采用评价函数计算出相应的适应度值，判断是否达到寻优要求，进而判断是否需要继续迭代寻找最优；另外，P_i＝(p_i1,p_i2,...,p_id)是第i个微粒具有最佳适应度值的位置，即个体的最佳位置为个体极值P_best，所有微粒在寻优过程中的最优位置为种群极值G_best，在搜索粒子的最优过程中，每一次的迭代过程中的速度和位置都是发生改变的，算法公式如下：

x_ij(t+1)＝x_ij(t)+v_ij(t+1)， (11)

式中，i为微粒的序号，i＝1,2,3,…n；j为微粒的维度，j＝1,2,3,…d；t为当前的迭代次数，即x_ij为i号微粒在j维度的位置，v_ij为i号微粒在j维度的速度，p_ij为i号微粒在j维度具有最佳适应度值的位置，g_ij为i号微粒在j维度寻优过程中的最优位置；w为惯性权值；r₁和r₂是0到1之间相互独立的随机函数；c₁和c₂为学习因子，也称作加速常数，从上述的微粒迭代公式(5)和(6)能够得出，c₁是调节微粒到自身最佳位置的步长，c₂是调节微粒到全局最佳位置的步长；微粒的速度v_ij会限定在一定的变化区间：[-v_max，v_max]，防止陷入局部最优，

其中，wv_ij为种群粒子当前的活动状态，c₁r₁(p_ij(t)-x_ij(t))为种群粒子对过去的经验进行学习，使得种群中粒子个体逐渐移动到最优的位置；c₂r₂(p_gj(t)-x_ij(t))表示为种群粒子对粒子群搜索经验的学习，进而使得种群中粒子个体移动到种群的最优位置；个体的极值P_best和种群极值G_best的更新与种群粒子的适应度更新有关，最终更新得到的G_best就是经过粒子群优化优化算法运行的结果；

优选的，在步骤(2)中，设定粒子群大小为n＝20，迭代次数为200次，惯性权值为0.8，学习因子c₁，c₂为1.5，1.7。

6.一种径向基函数神经网络的呼出气体标志物检测方法在疾病诊断数据库系统构筑中的应用，其特征在于：将如权利要求1-4中任一项所述检测方法预处理获得的样本数据与对应的疾病状态建立关系，构筑人体疾病诊断模型系统。

7.根据权利要求6所述的应用，其特征在于：人体疾病诊断模型系统采用聚类分析模块对预处理后的标志物进行分析；具体的，所述聚类分析模块中K-均值聚类处理框架的算法如下所述：

(2)计算样本数据中每个数据点到聚类中心的距离，D(X_i,Z_j(I))，其中i＝1,2,...,N；j＝1,2,...,k；当D(X_i,Z_j(I))＝min{D(X_i,Z_j(I)):j＝1,2,...,k}，则X_i被分到了t类，记作X_i ^(t)；

(3)计算样本数据中新的聚类中心：

8.根据权利要求6所述的应用，其特征在于：人体疾病诊断模型系统采用深度置信神经网络模块对预处理后的样本数据进行分析；具体的，模块中受限玻尔兹曼机的能量函数为：

转换为能量公式为：

概率分布表示为：

其中n，m分别表示深度置信神经网络可视层和隐藏层的神经元数量；

v,h分别表示深度置信神经网络可视层和隐藏层的状态向量；

a,b分别表示深度置信神经网络可视层和隐藏层的状态向量；

w表示连接深度置信神经网络可视层与隐藏层之间的权值矩阵，θ＝{w，a，b}；

为配分函数；P(v，h；θ)为波尔兹曼函数；

由于受限玻尔兹曼机中隐层各节点之间是相互独立的，因此P(h|v)＝∏P(h_i|v)，其中对应二进制单元(h_i，v_j∈{0，1})，其激活函数如式(16)-式(18)所示；

其中，深度置信神经网络中联合概率分布P(v，h)得到其边缘分布：

其对数似然函数为：

随着参数沿着梯度方向不断更新，当似然函数的最大值时，实现对输入数据的快速预测；参数更新公式如下：

其中t为迭代次数，η为学习速率。

9.根据权利要求8所述的应用，其特征在于：深度置信网络深度置信神经网络联合概率分布，隐层数为l，如公式(23)所示：

10.根据权利要求9所述的应用，其特征在于：深度置信网络由多个限制波尔兹曼机组成，被限制分成为一个可视层和一个隐藏层两种，不同层之间存在连接，但是层内单元间不存在连接；需要针对深度置信神经网络系统，对其参数进行初始化；需要初始化的深度置信神经网络参数主要有受限玻尔兹曼机模型中连接权重w，可视层与隐藏层偏置a，b；其中三个参数均以极小值随机初始化，利用经验公式可以将上述参数进行初始化：

w＝0.1×randn(n,m) (24)

a＝0.1×randn(1,n) (25)

b＝0.1×randn(1,m)， (26)

式中(24)，(25)及(26)中randn表示可产生标准正态分布的随机数或矩阵的函数，randn(n，m)代表产生n行m列的标准正态分布矩阵，深度置信神经网络算法的学习率α取为5。