CN110880369A - 基于径向基函数神经网络的气体标志物检测方法及应用 - Google Patents

基于径向基函数神经网络的气体标志物检测方法及应用 Download PDF

Info

Publication number
CN110880369A
CN110880369A CN201910951544.9A CN201910951544A CN110880369A CN 110880369 A CN110880369 A CN 110880369A CN 201910951544 A CN201910951544 A CN 201910951544A CN 110880369 A CN110880369 A CN 110880369A
Authority
CN
China
Prior art keywords
neural network
particle
population
sample data
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910951544.9A
Other languages
English (en)
Inventor
张冬至
薛庆忠
吴振岭
王兴伟
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201910951544.9A priority Critical patent/CN110880369A/zh
Publication of CN110880369A publication Critical patent/CN110880369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Primary Health Care (AREA)
  • Hematology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种径向基函数神经网络的呼出气体标志物检测方法及应用,涉及气敏传感检测领域,首先使用气敏传感器对人体呼出气体标志物进行检测与标定,构建多维传感器阵列对模拟患病状态时呼出气体进行测试,获取大量样本数据,其次利用主成分分析‑粒子群优化‑径向基函数神经网络算法模型对样本数据进行预处理,降低变量维度,减少气敏传感器交叉敏感性,最终对人体呼出气体浓度进行精确预测,可靠性好,通用性强。最后将获得的样本数据与对应的疾病状态建立关系,构筑人体疾病诊断数据库模型系统,对呼出气相关疾病预测提供指导。

Description

基于径向基函数神经网络的气体标志物检测方法及应用
技术领域
本发明涉及气敏传感检测技术领域,尤其涉及一种基于径向基函数神经网络 的呼出气体标志物检测方法及其在疾病诊断应用中的模型系统。
背景技术
随着社会的发展和生活水平提高,民生健康成为关注重点。在人体代谢过程 会产生各种气体,比如挥发性有机气体、一氧化氮、硫化氢等气体。这些气体会 通过体内血液循环进入呼吸系统,进而排出体外。如果呼出的某种或者几种标志 物气体取样后,检查样本发现浓度超出一定范围,就意味着人体的新陈代谢机制 发生了变化,存在着罹患疾病的可能。由人体疾病与呼出气体关系可知,人体患 病类型与其呼出气体组分类型与呼出气体的浓度有一定的相关性。
模式识别技术是对感知信号进行分析处理后,对其中的物体、形象、行为等 特征进行准确描述、辨识、分类的过程。模式识别技术在气敏传感器阵列检测中 具有十分重要的作用,基于气敏传感器阵列数据进行模式识别,能够最终实现对 多组分呼出气体浓度定性、定量识别。
然而,现有传感器采集获得的直接响应值往往与拟采集呼出气体浓度之间的 数学关系往往不够直观,数据量大、关系复杂。同时,人体呼出气体种类复杂、 保存困难易污染、传感器响应之间交叉敏感性严重,导致拟合效果差,可靠性与 通用性降低。因此需要对中间参数数据进行处理,以便于获得早期筛查系统能够 使用的中间结果数据。
发明内容
为了克服上述现有技术中存在的问题,提供了一种基于径向基函数神经网络 的呼出气体标志物检测方法及其在疾病诊断应用中的模型系统。首先使用气敏传 感器构建多维传感器阵列对模拟患病状态时呼出气体标志物进行检测与标定,获 取大量样本数据;然后利用模式识别技术结合智能算法模型对样本数据进行预处 理,降低变量维度,减少气敏传感器交叉敏感性,最终对人体呼出气体浓度进行 精确预测,用于构筑人体疾病诊断模型系统。
本发明提供如下技术方案:
基于径向基函数神经网络的气体标志物检测方法,首先,使用气敏传感器对 人体呼出气体标志物进行检测与标定,构建多维传感器阵列对模拟患病状态时呼 出气体进行测试,获取若干样本数据;然后,利用主成分分析-粒子群优化-径向 基函数神经网络(PCA-PSO-RBF)算法模型对样本数据进行预处理,降低变量维度, 减少气敏传感器交叉敏感性;最终,对人体呼出气体浓度进行预测。
优选的,在PCA-PSO-RBF算法模型中,通过主成分分析模型对呼出气体样 本数据进行主成分分析,根据各个变量的贡献率提取主要成分;将主要成分变量 作为粒子群算法优化的RBF神经网络模型的输入对新的样本数据进行学习训练, 并基于该优化模型实现对人体呼出气体浓度参数的预测,样本数据预处理步骤具 体包括:
(1)对原始样本数据进行标准化处理,通过PCA算法降维后分组为训练样本 与测试样本数据;
具体的,PCA算法将原来具有一定相关性的变量按照标准化组合成新的无 关变量,其降维的基本思想为通过将原始样本数据进行线性组合,生成新的互不 相关的指标信息,从中筛选出少数新的指标,使新的指标包含大部分原始数据信 息,进而实现少数指标对原始数据信息的解释;
(2)构建包括输入层、隐含层和输出层的三层径向基函数神经网络,RBF神 经网络关系如式(1)所示:
Figure BDA0002225917930000021
式中i=1,2,…k,Wi为输出权重;ci为隐层基函数中心;δi为隐层基函数宽度; x为输入数据;
Figure BDA0002225917930000022
为RBF神经网络输出;k为输入数据样本数;e为自然常数;
初始化粒子群及RBF神经网络,选取输出权重Wi、隐层基函数中心ci、隐 层基函数宽度δi作为优化参数进行粒子群算法优化;种群中每个粒子的初始适应 度值为样本数据的局部极值,全部种群中粒子的最小适应度值为样本数据的全局 极值;
(3)计算各粒子的适应度值,使用神经网络的均方误差作为PSO优化算法的 适应函数,适应度函数定义如式(2)所示:
Figure BDA0002225917930000023
FitnessFunci为种群中第i个粒子的适应度值;D(xi1,xi2,xi3,...,xid)为核函数参数的平均误差平方和;
(4)对种群中每个粒子,将每个粒子的适应度值与每个粒子所经历最好位置 的适应度值进行比较,如果更好,更新局部极值Pbest
(5)对种群中每个粒子,将每个粒子的适应度值与群体中所经历最好位置的 适应度值进行比较,如果更好,更新全局极值Gbest
(6)根据公式(3)和(4)更新粒子的速度和位置:
vij(t+1)=wvij(t)+c1r1(pij(t)-xij(t))+c2r2(pgj(t)-xij(t)), (3)
xij(t+1)=xij(t)+vij(t+1); (4)
式中i=1,2,3,…,n;j=1,2,3,…,d;t为当前PSO算法迭代次数,w为PSO算法 惯性权值,c1,c2为学习因子;r1,r2的取值范围为[0,1]之间均匀分布的随机数; Pi=(pi1,pi2,pi3,...,pid)为种群粒子i当前搜索的最优位置, Pg=(pg1,pg2,pg3,...,pgd)为整个种群当前搜索的最优位置;vij表示种群粒子i在 第j维的速度,为了防止陷入局部最优,vij取值范围为[-vmax,vmax];wvij为种群粒 子当前的活动状态;c1r1(pij(t)-xij(t))为种群粒子对过去的经验进行学习,使得 种群中粒子个体逐渐移动到最优的位置;c2r2(pgj(t)-xij(t))表示为种群粒子对粒 子群搜索经验的学习,进而使得种群中粒子个体移动到种群的最优位置;
(7)当迭代次数或者适应度值满足设定的要求时,跳出循环,否则重复上述 步骤(4)-(6)继续进行迭代寻优;
(8)将得到的RBF神经网络最优参数代入到PCA-PSO-RBF网络模型中,选 用测试样本进行预测。
在实际检测的处理过程中,多个变量之间可能存在一定的相关性,比如本领 域多种呼出气气敏传感器之间存在一定的交叉敏感性,同时当变量的维数比较高、 变量之间存在复杂的关系时,加之杂质气体影响,进一步增加了数据分析难度, 单纯靠RBF粒子群寻优难于高效获得所需结果。
进一步,在步骤(1)中,设有n个样本,每个样本有p个变量,组成n×p 维矩阵,如式(5)所示:
Figure BDA0002225917930000031
通过将原始数据X转换为k个主成分,其中k个主成分是原始变量xi的线性 组合,则新变量F1,F2,…Fk为原始变量的前k个主成分,因此新变量的数学 表达为式(6):
Figure BDA0002225917930000032
优选的,PCA算法降维步骤包括:
①为了消除数据量纲和数量级的影响,将原始样本数据进行标准化处理, 转化成无量纲的形式:
Figure BDA0002225917930000033
式中,xij′为标准化的数据值;
Figure BDA0002225917930000034
为原始数据平均值;σj为原始数据标准差;
②计算相关系数矩阵:
Figure BDA0002225917930000035
式中,rij(i,j=1,2,…,p)为原始变量数据xi和xj的相关系数,rij=rji计算公 式如式(9)所示:
Figure BDA0002225917930000036
③计算特征值与特征向量:
根据特征方程|λI-R|=0的解,求出特征值λi,其中I为单位向量,R为相 关系数矩阵;将特征值λi按照从大到小的顺序进行排列,分别求出在特征值λi下 的特征向量uij(i=1,2,…,k;j=1,2,…,p);
④选择p个主成分:
分别计算在特征值λi下的贡献率与累计贡献率,当计算出的累积贡献率达到90%以上且特征根大于1时,此时特征根对应的第1、第2…第m个主成分,选 择前p个主成分可以代替原来的变量,从而实现对原始数据的降维;
⑤计算主成分表达式:
将计算出的uij与标准化的xij′相乘得到的表达式即为所需要的主成分表达式。
优选的,在粒子群优化算法的寻优过程中,假设在D维样本空间中存在n 个粒子,并且每一个粒子均由位置Xi=(xi1,xi2,...,xid)、速度Vi=(vi1,vi2,...,vid) 和适应度值三个基本特征组成;粒子群中每个粒子都是寻优问题的一个可行解, 通过采用评价函数计算出相应的适应度值,判断是否达到寻优要求,进而判断是 否需要继续迭代寻找最优;另外,Pi=(pi1,pi2,...,pid)是第i个微粒具有最佳适 应度值的位置,即个体的最佳位置为个体极值Pbest,所有微粒在寻优过程中的最 优位置为种群极值Gbest,在搜索粒子的最优过程中,每一次的迭代过程中的速度 和位置都是发生改变的,算法公式如下:
vij(t+1)=wvij(t)+c1r1[pij(t)-xij(t)]+c2r2[gij(t)-xij(t)], (10)
xij(t+1)=xij(t)+vij(t+1), (11)
式中,i为微粒的序号,i=1,2,3,…n;j为微粒的维度,j=1,2,3,…d;t为当 前的迭代次数,即xij为i号微粒在j维度的位置,vij为i号微粒在j维度的速度, pij为i号微粒在j维度具有最佳适应度值的位置,gij为i号微粒在j维度寻优过 程中的最优位置;w为惯性权值;r1和r2是0到1之间相互独立的随机函数;c1和c2为学习因子,也称作加速常数,从上述的微粒迭代公式(5)和(6)能够得出, c1是调节微粒到自身最佳位置的步长,c2是调节微粒到全局最佳位置的步长;微 粒的速度vij会限定在一定的变化区间:[-vmax,vmax],防止陷入局部最优,
其中,wvij为种群粒子当前的活动状态,c1r1(pij(t)-xij(t))为种群粒子对过去 的经验进行学习,使得种群中粒子个体逐渐移动到最优的位置;c2r2(pgj(t)-xij(t)) 表示为种群粒子对粒子群搜索经验的学习,进而使得种群中粒子个体移动到种群 的最优位置;个体的极值Pbest和种群极值Gbest的更新与种群粒子的适应度更新 有关,最终更新得到的Gbest就是经过PSO优化算法运行的结果。更优选在步骤(2)中,设定粒子群大小为n=20,迭代次数为200次,惯性权值为0.8,学习 因子c1,c2为1.5,1.7。
本发明还提供一种径向基函数神经网络的呼出气体标志物检测方法在疾病 诊断数据库系统构筑中的应用,将上述检测方法预处理获得的样本数据与对应的 疾病状态建立关系,构筑人体疾病诊断模型系统。
在本发明的一些实施方式中,人体疾病诊断模型系统采用聚类分析模块对预 处理后的标志物进行分析;具体的,所述聚类分析模块中K-均值聚类处理框架 的算法如下所述:
(1)假设样本数据集X为X={x1,x2,...,xN},集群数目为k;设I=1,初始聚类 中心为{Zj:j=1,2,3,...,k};
(2)计算样本数据中每个数据点到聚类中心的距离,D(Xi,Zj(I)),其中 i=1,2,...,N;j=1,2,...,k;当D(Xi,Zj(I))=min{D(Xi,Zj(I)):j=1,2,...,k},则Xi被分到了t类,记作
Figure BDA0002225917930000051
(3)计算样本数据中新的聚类中心:
Figure BDA0002225917930000052
(4)若Zj(I+1)≠Zj(I),j=1,2,...,k,则I=I+1,返回步骤(2)重新开始计算,否则算法结束。
在本发明的另一些优选实施方式中,人体疾病诊断模型系统采用深度置信神 经网络(Deep Belief Net简称DBN)模块对预处理后的样本数据进行分析;具 体的,模块中受限玻尔兹曼机(restricted Boltzmann Machine,简称RBM)的能 量函数为:
Figure BDA0002225917930000053
转换为能量公式为:
Figure BDA0002225917930000054
概率分布表示为:
Figure BDA0002225917930000055
其中n,m分别表示DBN神经网络可视层和隐藏层的神经元数量;
v,h分别表示DBN神经网络可视层和隐藏层的状态向量;
a,b分别表示DBN神经网络可视层和隐藏层的状态向量;
w表示连接DBN神经网络可视层与隐藏层之间的权值矩阵,θ={w,a,b};
Figure BDA0002225917930000061
为配分函数;P(v,h;θ)为波尔兹曼函数;
由于RBM中隐层各节点之间是相互独立的,因此P(h|v)=∏P(hi|v),其中对 应二进制单元(hi,vj∈{0,1}),其激活函数如式(16-18)所示;
Figure BDA0002225917930000062
Figure BDA0002225917930000063
Figure BDA0002225917930000064
其中,DBN神经网络中联合概率分布P(v,h)得到其边缘分布:
Figure BDA0002225917930000065
其对数似然函数为:
Figure BDA0002225917930000066
上述公式中,N为样本数,vi为第i个样本,式(22)为梯度,采用这种方 法提高神经网络的训练速度:
Figure BDA0002225917930000067
随着参数沿着梯度方向不断更新,当似然函数的最大值时,实现对输入数据
的快速预测;参数更新公式如下:
Figure BDA0002225917930000068
其中t为迭代次数,η为学习速率。
深度置信网络DBN联合概率分布,隐层数为l,如公式(23)所示。
Figure BDA0002225917930000069
更优选的,深度置信网络由多个限制波尔兹曼机组成,被限制分成为一个可 视层和一个隐藏层两种,不同层之间存在连接,但是层内单元间不存在连接;需 要针对DBN神经网络系统,对其参数进行初始化;需要初始化的DBN参数主 要有RBM模型中连接权重w,可视层与隐藏层偏置a,b;其中三个参数均以极 小值随机初始化,利用经验公式可以将上述参数进行初始化:
w=0.1×randn(n,m) (24)
a=0.1×randn(1,n) (25)
b=0.1×randn(1,m), (26)
式中(24),(25)及(26)中randn表示可产生标准正态分布的随机数或矩阵的函数,randn(n,m)代表产生n行m列的标准正态分布矩阵,经过多次试验分析, 本实施方式DBN算法的学习率α取为5。
与现有技术相比,本发明的有益效果:
(1)针对人体呼出气体响应测试数据维度高、样本数量大且存在交叉敏感 特性等特点,采用主成分分析算法融合PSO-RBF预测模型,实现对多种呼出气 体浓度的精确预测。通过对比现有BP神经网络、RBF神经网络和GA-RBF神经 网络性能,发现PCA-PSO-RBF神经网络模型对多种人体呼出气体浓度有更好的 预测效果,为人体疾病早期筛查与诊断提供重要指导依据。
(2)本发明采用主成分分析,将各薄膜传感器获得的涉及多个变量的样本 数据进行降维处理,避免了交叉敏感性和变量复杂性的影响,在保证原始信息量 的前提下,降低了后续数据分析难度。所采用的粒子群优化算法与现有遗传算法 相比,粒子个体具备独特记忆功能,能够动态追踪当前搜索情况,根据搜索状态 调整搜索策略,无须交叉变异,一定程度上提高检索效率。上述两种算法相结合 为样本数据的初代处理和神经网络优化模型的构建打下了重要基础,改善了算法 训练效率。
(3)因人体患病类型与其呼出气体组分类型与呼出气体的浓度有一定的相 关性,本发明将多维传感器阵列对模拟患病状态时呼出气体进行测试结果,利用 PCA-PSO-RBF算法模型对样本数据进行预处理,用于构建人体疾病诊断模型系 统,以期利用该系统对于呼出气体相关的病症进行初筛和指导。
(4)本发明分别基于聚类分析和深度置信网络构筑应用本发明检测方法的 模型系统。结果发现基于聚类分析的模型系统结果具有良好的相关性,能够为疾 病诊断提供部分指导意见;基于深度置信的模型系统结果与输入模拟疾病类型基 本吻合,系统学习速度快,正确率高。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明 的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法 的主成分分析-粒子群优化-径向基函数(PCA-PSO-RBF)算法模型流程图;
图2是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法 的PCA-PSO-RBF训练曲线图;
图3是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法 的PCA-PSO-RBF氨气预测数据图;
图4是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法 的PCA-PSO-RBF丙酮预测数据图;
图5是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法 的PCA-PSO-RBF硫化氢预测数据图;
图6是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法 的PCA-PSO-RBF氨气绝对误差图;
图7是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法 的PCA-PSO-RBF丙酮绝对误差图;
图8是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方法 的PCA-PSO-RBF硫化氢绝对误差图;
图9是本发明实施例1基于径向基函数神经网络的呼出气体标志物检测方 法的PCA-PSO-RBF预测模型相对误差图。
图10是对比例主成分分析-径向基函数(PCA-RBF)神经网络的呼出气体标志 物检测方法训练曲线图;
图11是对比例主成分分析-径向基函数(PCA-RBF)神经网络的呼出气体标志 物检测方法预测数据图;
图12是对比例主成分分析-径向基函数(PCA-RBF)神经网络的呼出气体标志 物检测方法预测绝对误差图;
图13是对比例主成分分析-径向基函数(PCA-RBF)神经网络的呼出气体标志 物检测方法预测相对误差图。
图14是本发明实施例2径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用中所构筑人体疾病诊断模型系统的疾病诊断类型编码图;
图15是本发明实施例2径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用中所构筑人体疾病诊断模型系统的聚类分析疾病诊断流程图。
图16是本发明实施例2径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用中所构筑人体疾病诊断模型系统的聚类分析分类结果曲线。
图17是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用中(a)深度波尔兹曼机(DBM)、(b)深度置信网络(DBN)结构图。
图18是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用中所构筑人体疾病诊断模型系统的DBN神经网络结构示意图。
图19是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用的受限波尔兹曼机(RBM)中神经元个数与正确率关系图。
图20是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用中所构筑人体疾病诊断模型系统的DBN次数与正确率关系图。
图21是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用中所构筑人体疾病诊断模型系统的DBN神经网络流程图。
图22是本发明实施例3径向基函数神经网络的呼出气体标志物检测方法在 疾病诊断中的应用中所构筑人体疾病诊断模型系统的DBN算法分类结果曲线图。
具体实施方式
由人体疾病与呼出气体关系可知,人体患病类型与其呼出气体组分类型与呼 出气体的浓度有一定的相关性,如表1所示。本发明使用多种现有气体传感器对 人体呼出气体标志物进行检测与标定,构建多维传感器阵列对模拟患病状态时呼 出气体进行测试,获取大量样本数据,利用PCA-PSO-RBF算法模型对样本数据 进行预处理,降低变量维度,减少气敏传感器交叉敏感性,最终对人体呼出气体 浓度进行精确预测,并应用到疾病诊断模型系统中,以对呼出气体相关疾病进行 初筛指导。
表1不同浓度呼出气体对应的疾病类型
Figure BDA0002225917930000091
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优 选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
基于径向基函数神经网络的呼出气体标志物检测方法,首先,使用气敏传感 器对人体呼出气体标志物进行检测与标定,构建多维传感器阵列对模拟患病状态 时呼出气体进行测试,获取若干样本数据;然后,利用主成分分析-粒子群优化- 径向基函数(简称PCA-PSO-RBF)神经网络算法模型对样本数据进行预处理,降 低变量维度,减少气敏传感器交叉敏感性;最终,对人体呼出气体浓度进行预测。
本实施例采用市售的氨气、丙酮、硫化氢三种气体气敏传感器(Digi-Key 电子公司)作为多维传感器阵列构筑元件,用于原始样本数据采集。
在PCA-PSO-RBF算法模型中,通过主成分分析(简称PCA)模型对呼出气 体样本数据进行主成分分析,根据各个变量的贡献率提取主要成分;将主要成分 变量作为粒子群算法优化的RBF神经网络模型的输入对新的样本数据进行学习 训练,并基于该优化模型实现对人体呼出气体浓度参数的预测,如图1所示,样 本数据预处理步骤具体包括:
(1)对原始样本数据进行标准化处理,通过PCA算法降维后分组为训练样本 与测试样本数据;
具体的,PCA算法将原来具有一定相关性的变量按照标准化组合成新的无 关变量,其降维的基本思想为通过将原始样本数据进行线性组合,生成新的互不 相关的指标信息,从中筛选出少数新的指标,使新的指标包含大部分原始数据信 息,进而实现少数指标对原始数据信息的解释;
(2)构建包括输入层、隐含层和输出层的三层径向基函数神经网络,RBF神 经网络关系如式(1)所示:
Figure BDA0002225917930000092
式中i=1,2,…k,Wi为输出权重;ci为隐层基函数中心;δi为隐层基函数宽度; x为输入数据;
Figure BDA0002225917930000093
为RBF神经网络输出;k为输入数据样本数;e为自然常数。
初始化粒子群及RBF神经网络,选取输出权重Wi、隐层基函数中心ci、隐 层基函数宽度δi作为优化参数进行粒子群算法优化;种群中每个粒子的初始适应 度值为样本数据的局部极值,全部种群中粒子的最小适应度值为样本数据的全局 极值;
(3)计算各粒子的适应度值,使用神经网络的均方误差作为PSO优化算法的 适应函数,适应度函数定义如式(2)所示:
Figure BDA0002225917930000101
FitnessFunci为种群中第i个粒子的适应度值;D(xi1,xi2,xi3,...,xid)为核函数参数的平均误差平方和;
(4)对种群中每个粒子,将每个粒子的适应度值与每个粒子所经历最好位置 的适应度值进行比较,如果更好,更新局部极值Pbest
(5)对种群中每个粒子,将每个粒子的适应度值与群体中所经历最好位置的 适应度值进行比较,如果更好,更新全局极值Gbest
(6)根据公式(3)和(4)更新粒子的速度和位置:
vij(t+1)=wvij(t)+c1r1(pij(t)-xij(t))+c2r2(pgj(t)-xij(t)), (3)
xij(t+1)=xij(t)+vij(t+1); (4)
式中i=1,2,3,…,n;j=1,2,3,…,d;t为当前PSO算法迭代次数,w为PSO算法 惯性权值,c1,c2为学习因子。r1,r2的取值范围为[0,1]之间均匀分布的随机数。 Pi=(pi1,pi2,pi3,...,pid)为种群粒子i当前搜索的最优位置, Pg=(pg1,pg2,pg3,...,pgd)为整个种群当前搜索的最优位置。vij表示种群粒子i在 第j维的速度,为了防止陷入局部最优,vij取值范围为[-vmax,vmax]。wvij为种群 粒子当前的活动状态;c1r1(pij(t)-xij(t))为种群粒子对过去的经验进行学习,使 得种群中粒子个体逐渐移动到最优的位置;c2r2(pgj(t)-xij(t))表示为种群粒子对 粒子群搜索经验的学习,进而使得种群中粒子个体移动到种群的最优位置。
(7)当迭代次数或者适应度值满足设定的要求时,跳出循环,否则重复上述 步骤(4)-(6)继续进行迭代寻优;
(8)将得到的RBF神经网络最优参数代入到PCA-PSO-RBF网络模型中,选 用测试样本进行预测。
在实际检测的处理过程中,多个变量之间可能存在一定的相关性,比如本领 域多种呼出气气敏传感器之间存在一定的交叉敏感性,同时当变量的维数比较高、 变量之间存在复杂的关系时,加之杂质气体影响,进一步增加了数据分析难度, 单纯靠RBF进行粒子群寻优难于高效获得所需结果。
进一步,在步骤(1)中,设有n个样本,每个样本有p个变量,组成n×p 维矩阵,如公式(5)所示:
Figure BDA0002225917930000111
通过将原始数据X转换为k个主成分,其中k个主成分是原始变量xi的线性 组合,则新变量F1,F2,…Fk为原始变量的前k个主成分,因此新变量的数学 表达为:
Figure BDA0002225917930000112
其中,PCA算法降维步骤包括:
①为了消除数据量纲和数量级的影响,将原始样本数据进行标准化处理,转 化成无量纲的形式:
Figure BDA0002225917930000113
式中,xij′为标准化的数据值;
Figure BDA0002225917930000114
为原始数据平均值;σj为原始数据标准差;
②计算相关系数矩阵:
Figure BDA0002225917930000115
式中,rij(i,j=1,2,…,p)为原始变量数据xi和xj的相关系数,rij=rji计算公 式如下所示:
Figure BDA0002225917930000116
③计算特征值与特征向量:
根据特征方程|λI-R|=0的解,求出特征值λi,其中I为单位向量,R为相 关系数矩阵;将特征值λi按照从大到小的顺序进行排列,分别求出在特征值λi下 的特征向量uij(i=1,2,…,k;j=1,2,…,p);
④选择p个主成分:
分别计算在特征值λi下的贡献率与累计贡献率,当计算出的累积贡献率达到90%以上且特征根大于1时,此时特征根对应的第1、第2…第m个主成分,选 择前p个主成分可以代替原来的变量,从而实现对原始数据的降维;
⑤计算主成分表达式:
将计算出的uij与标准化的xij′相乘得到的表达式即为所需要的主成分表达式。
基于主成分分析的数据特征提取
针对获得的多维变量数据进行PCA数据降维处理。首先根据公式(7)将样 本数据标准化处理,得到标准化样本数据。通过式(8)计算变量之间的相关系 数矩阵,然后计算矩阵的特征值与对应的特征向量。分别计算出样本数据特征值 的贡献率与累计贡献率,当计算出的累积贡献率达到90%以上同时特征根大于1 时,按照上述要求选出主成分,使用Matlab软件计算标准化样本数据的特征值 与累计贡献率,其中计算出的相关系数矩阵特征值与累计贡献率如表2所示。基 于主成分分析的十个变量分别标记为PCA1、PCA2、PCA3、PCA4、PCA5、PCA6、 PCA7、PCA8、PCA9、PCA10。
从表2可以看出,当标准化样本数据的累计主成分贡献率大于1,同时计算 出的特征根大于1时,前四个主成分PCA1、PCA2、PCA3、PCA4的特征值分 别为2.763、1.542、1.203、1.001,贡献率分别为39.95、22.3、17.4、14.47,累 计贡献率为39.95、62.25、79.65、94.12,因此本实施例选取PCA1、PCA2、PCA3、 PCA4前4个主成分进行数据降维。
表2相关系数矩阵特征值与累计贡献率
Figure BDA0002225917930000121
在粒子群优化算法的寻优过程中,假设在D维样本空间中存在n个粒子, 并且每一个粒子均由位置Xi=(xi1,xi2,...,xid)、速度Vi=(vi1,vi2,...,vid)和适应度 值三个基本特征组成;粒子群中每个粒子都是寻优问题的一个可行解,通过采用 评价函数计算出相应的适应度值,判断是否达到寻优要求,进而判断是否需要继 续迭代寻找最优;另外,Pi=(pi1,pi2,...,pid)是第i个微粒具有最佳适应度值的 位置,即个体的最佳位置为个体极值Pbest,所有微粒在寻优过程中的最优位置为 种群极值Gbest,在搜索粒子的最优过程中,每一次的迭代过程中的速度和位置都 是发生改变的,算法公式如下:
vij(t+1)=wvij(t)+c1r1[pij(t)-xij(t)]+c2r2[gij(t)-xij(t)], (10)
xij(t+1)=xij(t)+vij(t+1), (11)
式中,i为微粒的序号,i=1,2,3,…n;j为微粒的维度,j=1,2,3,…d;t为当 前的迭代次数,即xij为i号微粒在j维度的位置,vij为i号微粒在j维度的速度, pij为i号微粒在j维度具有最佳适应度值的位置,gij为i号微粒在j维度寻优过 程中的最优位置;w为惯性权值;r1和r2是0到1之间相互独立的随机函数;c1和c2为学习因子,也称作加速常数,从上述的微粒迭代公式(5)和(6)能够得出, c1是调节微粒到自身最佳位置的步长,c2是调节微粒到全局最佳位置的步长;微 粒的速度vij会限定在一定的变化区间:[-vmax,vmax],防止陷入局部最优,
其中,wvij为种群粒子当前的活动状态,c1r1(pij(t)-xij(t))为种群粒子对过去 的经验进行学习,使得种群中粒子个体逐渐移动到最优的位置;c2r2(pgj(t)-xij(t)) 表示为种群粒子对粒子群搜索经验的学习,进而使得种群中粒子个体移动到种群 的最优位置;个体的极值Pbest和种群极值Gbest的更新与种群粒子的适应度更新 有关,最终更新得到的Gbest就是经过PSO优化算法运行的结果。更优选在步骤 (2)中,设定粒子群大小为n=20,迭代次数为200次,惯性权值为0.8,学习 因子c1,c2为1.5,1.7。
PCA-PSO-RBF神经网络训练曲线如图2所示,与PSO-RBF、PCA-GA-RBF、 PCA-RBF网络模型相比,算法迭代次数减少到45次,证明经过PCA降维和PSO 优化的RBF神经网络模型训练速度更快、更简单。经过PCA-PSO-RBF神经网 络训练之后进行人体呼出气体浓度预测的数据如图3、图4、图5所示,人体呼 出气体浓度的预测值与测试样本的真实值拟合程度很高,三种气体(氨气、丙酮、 硫化氢)的拟合曲线均在y=x直线附近,表明PCA-PSO-RBF算法模型可以对人 体呼出气体样本数据进行准确的学习与预测,针对人体呼出气体样本具有优异的 预测性能。
对比研究训练样本中预测值与原始数据具体差值,训练样本中三种呼出气体 预测数据与实际样本数据的绝对误差值与相对误差值如图6、图7、图8、图9 所示。从图中可以看出,NH3气体浓度的预测绝对误差在-0.046ppm~0.045ppm 之间,丙酮气体浓度的预测绝对误差在-0.052ppm~0.061ppm之间,H2S气体浓度 的预测绝对误差在-0.031ppm~0.032ppm之间,三种气体的相对误差在 -0.56%~0.61%之间。综上所述,经过多次训练的PCA-PSO-RBF神经网络对三种 气体浓度具有很高的预测精度和较快的迭代速度,可以实现对人体呼出气体浓度 的准确预测。
对比例1
本对比例采用如实施例1所述方法进行实施,不同之处在于,不对算法进行 粒子群优化,仅采用主成分分析和径向基函数神经网络(PCA-RBF)对样本数 据进行处理。PCA-RBF神经网络训练曲线如图10所示,经过418次迭代,预测 数据误差达到了设定的精度。经过RBF神经网络得到的预测的数据如图11所示, 能够清楚的看到氨气,硫化氢,丙酮模型预测值和实际值之间的差距不大,但训 练效率远不如经PSO优化的本发明算法。其中预测数据与实际数据的绝对误差 值与相对误差值如图12、图13所示,三种气体的绝对误差在-0.31ppm~0.21ppm 之间,相对误差在-3.1%~2.1%之间。
对比例2
本对比例采用如实施例1所述方法进行实施,不同之处在于,不对原始样本 数据进行主成分分析降维,仅采用粒子群优化的径向基函数神经网络(PSO-RBF) 对样本数据进行处理。
对比例3-5
在对比例中,分别采用不同算法组合模型对模拟呼出气体样本数据进行处理 分析,以比较其性能优劣。算法模型分别采用主成分分析-BP神经网络(PCA-BP)、 遗传算法-径向基函数神经网络(GA-RBF)和主成分分析-遗传算法-径向基神经 网络(PCA-PSO-RBF)。
为了更加直观的对比不同智能算法模型对人体呼出气体浓度预测性能,从平 均绝对误差(ppm)、平均相对误差(%)、迭代次数等方面对模型性能进行评估,将 智能算法模型重复运行50次后,上述五种对比例与本发明实施例六种算法模型 的性能对比如表3所示。从表中可以看出,经过PCA-BP算法模型学习训练,氨 气、丙酮、硫化氢三种呼出气体的平均绝对相对误差为0.092、0.081、0.069,多 次运行后平均相对误差为1.001、0.760、0.741。PCA-RBF算法模型中,氨气、 丙酮、硫化氢三种呼出气体的平均绝对相对误差为0.102、0.100、0.081,平均相 对误差为1.126、1.102、0.91。GA-RBF算法模型中,氨气、丙酮、硫化氢三种 呼出气体的平均绝对相对误差为0.123、0.106、0.093,平均相对误差为1.201、1.120、0.95。PSO-RBF算法模型中,氨气、丙酮、硫化氢三种呼出气体的平均 绝对相对误差为0.096、0.082、0.056,平均相对误差为0.785、0.625、0.560。在 经过遗传算法优化的PCA-GA-RBF算法模型中,氨气、丙酮、硫化氢三种呼出 气体的平均绝对相对误差为0.063、0.059、0.041,平均相对误差为0.671、0.552、 0.480,性能得到了一定程度的提高。本实施例基于PCA降维和PSO算法优化相 结合之后,PCA-PSO-RBF模型对氨气、丙酮、硫化氢三种呼出气体的绝对误差 分别降低至0.018、0.017、0.015,与此同时,平均相对误差也分别降低至0.175、 0.163、0.149,其中迭代次数也由最初的1849次降低至45次,训练速度明显加快。
表3六种算法模型性能对比表
Figure BDA0002225917930000151
进一步提供一种径向基函数神经网络的呼出气体标志物检测方法在疾病诊 断数据库系统构筑中的应用,将上述PCA-PSO-RBF算法模型的检测方法预处理 获得的样本数据与对应的疾病状态建立关系,构筑人体疾病诊断模型系统。
实施例2
在本实施例中,如图14、图15所示,人体疾病诊断模型系统采用聚类分析 模块对预处理后的标志物进行分析;具体的,所述聚类分析模块中K-均值聚类 处理框架的算法如下所述:
(1)假设样本数据集X为X={x1,x2,...,xN},集群数目为k;设I=1,初始聚类 中心为{Zj:j=1,2,3,...,k};
(2)计算样本数据中每个数据点到聚类中心的距离,D(Xi,Zj(I)),其中 i=1,2,...,N;j=1,2,...,k;当D(Xi,Zj(I))=min{D(Xi,Zj(I)):j=1,2,...,k},则Xi被分到了t类,记作
Figure BDA0002225917930000152
(3)计算样本数据中新的聚类中心:
Figure BDA0002225917930000153
(4)若Zj(I+1)≠Zj(I),j=1,2,...,k,则I=I+1,返回步骤(2)重新开始计算, 否则算法结束。
基于聚类分析的疾病诊断效果
基于聚类分析方法对人体疾病状态进行诊断,其部分聚类分析算法样本数据 输入与输出结果如表4所示。30组样本数据测试结果如图16。
表4分聚类分析算法输入与输出数据
Figure BDA0002225917930000161
从图16以看出,实际样本数据分类与聚类分析算法诊断虽存在少量误差, 但其平均正确率可以达到83%,实现了一定程度的分类指导效果。
实施例3
在本实施例中,人体疾病诊断模型系统采用深度置信神经网络(Deep Belief Net简称DBN)模块对预处理后的样本数据进行分析;具体的,模块中受限玻尔 兹曼机(restricted Boltzmann Machine,简称RBM)的能量函数为:
Figure BDA0002225917930000162
转换为能量公式为:
Figure BDA0002225917930000163
概率分布表示为:
Figure BDA0002225917930000164
其中n,m分别表示DBN神经网络可视层和隐藏层的神经元数量;
v,h分别表示DBN神经网络可视层和隐藏层的状态向量;
a,b分别表示DBN神经网络可视层和隐藏层的状态向量;
w表示连接DBN神经网络可视层与隐藏层之间的权值矩阵,θ={w,a,b};
Figure BDA0002225917930000165
为配分函数;P(v,h;θ)为波尔兹曼函数;
由于RBM中隐层各节点之间是相互独立的,因此P(h|v)=∏P(hi|v),其中对 应二进制单元(hi,vj∈{0,1}),其激活函数如式(16)所示。
Figure BDA0002225917930000166
Figure BDA0002225917930000171
Figure BDA0002225917930000172
其中,DBN神经网络中联合概率分布P(v,h)得到其边缘分布:
Figure BDA0002225917930000173
其对数似然函数为:
Figure BDA0002225917930000174
上述公式中,N为样本数,vi为第i个样本,公式5-22为梯度,采用这种方 法提高神经网络的训练速度:
Figure BDA0002225917930000175
随着参数沿着梯度方向不断更新,当似然函数的最大值时,实现对输入数据
的快速预测;参数更新公式如下:
Figure BDA0002225917930000176
其中t为迭代次数,η为学习速率。
深度置信网络DBN联合概率分布,隐层数为l,如公式(23)所示。
Figure BDA0002225917930000177
如图17所示,深度置信网络由多个限制波尔兹曼机组成,如图18所示,被 限制分成为一个可视层和一个隐藏层两种,不同层之间存在连接,但是层内单元 间不存在连接;需要针对DBN神经网络系统,对其参数进行初始化;需要初始 化的DBN参数主要有RBM模型中连接权重w,可视层与隐藏层偏置a,b;其 中三个参数均以极小值随机初始化,利用经验公式可以将上述参数进行初始化:
w=0.1×randn(n,m) (24)
a=0.1×randn(1,n) (25)
b=0.1×randn(1,m), (26)
式中(24),(25)及(26)中randn表示可产生标准正态分布的随机数或矩阵的函数,randn(n,m)代表产生n行m列的标准正态分布矩阵,经过多次试验分析, 本实施例DBN算法的学习率α取为5。
本实施例神经元个数和DBN迭代次数通过经验和实验的方法确定,由DBN 结构可知,算法输入层节点的个数为呼出气体样本数据的维度,其中算法输出层 的节点数为人体患病状态个数。DBN神经网络中间层神经元的数量和迭代次数 的确定,本实施例采用试错法进行处理,采用呼出气体的训练样本进行诊断分类 的正确率作为评价标准,通过多次测试采集数据,RBM中神经元个数与正确率 的关系如图19所示。当中间层的神经元个数为10时,正确率可达到96%以上, 同时DBN迭代次数与正确率的关系如图20所示,经过对比测试,本实施例DBN 算法中选择中间层神经元数量为10个,迭代次数为400次。
如图21所示,基于DBN神经网络人体疾病诊断过程分为以下几个步骤:
(1)获取人体疾病状态数据,进行PCA-PSO-RBF预处理,设置训练样本和测 试样本。
(2)确定DBN神经网络相关参数,包括学习率、迭代次数、网络层数和各层 节点数等,其中DBN神经网络输入层节点数取决于人体疾病样本数据的维数, DBN神经网络输出层的节点数取决于疾病数据的类别数,隐含层的节点数在综 合考虑DBN神经网络结构特性、算法稳定性和收敛速度的情况下,通过多次试 验调整确定。
(3)逐层训练,将训练样本作为DBN神经网络的底层输入,以无监督的方式 逐层训练N个RBM,即将上一级RBM隐藏层的输出作为下一级RBM的输入, 直到完成N个RBM的训练。
(4)微调整个网络,利用有监督方式的BP算法反向微调DBN神经网络网络。
(5)利用训练好的DBN模型系统进行人体疾病状态初筛与指导。
基于深度置信网络的疾病诊断效果
表5部分DBN算法输入与输出数据
Figure BDA0002225917930000181
基于DBN算法对人体疾病状态进行诊断,其分类诊断结果图如图22所 示,从图中可以看出,经过DBN算法模型训练诊断,具有很高的识别率与 很低的误差率,30组呼出气体样本数据诊断结果与真实结果一致,部分输入 输出数据如表5所示,表明DBN神经网络可以准确的识别诊断人体疾病状 态。
表6实施例2-3不同算法模型性能对比表
Figure BDA0002225917930000191
如表6所示为两种不同算法模型针对大量数据样本进行的多次训练学习后, 对不同疾病状态进行诊断的结果。从表中可以看出,聚类分析算法模型比较简单, 对单一疾病进行诊断效果良好,对患两种疾病或者患三种疾病的诊断效果较差。 其中,患单一疾病诊断正确率达到88.9%,患两种疾病诊断正确率达到77.8%, 患三种疾病诊断正确率达到77.8%。聚类分析算法针对本文高维数据识别效果差, 疾病诊断正确率低。
从表中可以看出,DBN算法模型疾病平均诊断正确率较高,可以达到 96%,具有优异的数据处理分类能力。其中患单一疾病诊断正确率高达98.2%, 患两种疾病诊断正确率达到96.6%,患三种疾病诊断正确率达到96.0%。分 别针对糖尿病、肾病、口臭、糖尿病/肾病、糖尿病/口臭、口臭/肾病、糖尿 病/口臭/肾病表现出良好的诊断效果,实现了基于呼出气体检测得到的数据 对人体疾病状态的分类诊断,为人体疾病早期筛查与指导提供了新的大数据 处理系统。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说, 其依然能够对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特 征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、 改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于径向基函数神经网络的气体标志物检测方法,其特征在于,首先,使用气敏传感器对人体呼出气体标志物进行检测与标定,构建多维传感器阵列对模拟患病状态时呼出气体进行测试,获取若干样本数据;然后,利用主成分分析-粒子群优化-径向基函数神经网络算法模型对样本数据进行预处理,降低变量维度,减少气敏传感器交叉敏感性;最终,对人体呼出气体浓度进行预测。
2.根据权利要求1所述的气体标志物检测方法,其特征在于,在主成分分析-粒子群优化-径向基函数神经网络算法模型中,通过主成分分析模型对呼出气体样本数据进行主成分分析,根据各个变量的贡献率提取主要成分;将主要成分变量作为粒子群算法优化的径向基函数神经网络模型的输入对新的样本数据进行学习训练,并基于该优化模型实现对人体呼出气体浓度参数的预测,样本数据预处理步骤具体包括:
(1)对原始样本数据进行标准化处理,通过主成分分析算法降维后分组为训练样本与测试样本数据;
具体的,主成分分析算法将原来具有一定相关性的变量按照标准化组合成新的无关变量,其降维的基本思想为通过将原始样本数据进行线性组合,生成新的互不相关的指标信息,从中筛选出少数新的指标,使新的指标包含大部分原始数据信息,进而实现少数指标对原始数据信息的解释;
(2)构建包括输入层、隐含层和输出层的三层径向基函数神经网络,径向基函数神经网络关系如式(1)所示:
Figure FDA0002225917920000011
式中i=1,2,…k,Wi为输出权重;ci为隐层基函数中心;δi为隐层基函数宽度;x为输入数据;
Figure FDA0002225917920000012
为径向基函数神经网络输出;k为输入数据样本数;e为自然常数;
初始化粒子群及径向基函数神经网络,选取输出权重Wi、隐层基函数中心ci、隐层基函数宽度δi作为优化参数进行粒子群算法优化;种群中每个粒子的初始适应度值为样本数据的局部极值,全部种群中粒子的最小适应度值为样本数据的全局极值;
(3)计算各粒子的适应度值,使用神经网络的均方误差作为粒子群优化优化算法的适应函数,适应度函数定义如式(2)所示:
Figure FDA0002225917920000021
FitnessFunci为种群中第i个粒子的适应度值;D(xi1,xi2,xi3,...,xid)为核函数参数的平均误差平方和;
(4)对种群中每个粒子,将每个粒子的适应度值与每个粒子所经历最好位置的适应度值进行比较,如果更好,更新局部极值Pbest
(5)对种群中每个粒子,将每个粒子的适应度值与群体中所经历最好位置的适应度值进行比较,如果更好,更新全局极值Gbest
(6)根据公式(3)和(4)更新粒子的速度和位置:
vij(t+1)=wvij(t)+c1r1(pij(t)-xij(t))+c2r2(pgj(t)-xij(t),) (3)
xij(t+1)=xij(t)+vij(t+1); (4)
式中i=1,2,3,…,n;j=1,2,3,…,d;t为当前粒子群优化算法迭代次数,w为粒子群优化算法惯性权值,c1,c2为学习因子;r1,r2的取值范围为[0,1]之间均匀分布的随机数;Pi=(pi1,pi2,pi3,...,pid)为种群粒子i当前搜索的最优位置,Pg=(pg1,pg2,pg3,...,pgd)为整个种群当前搜索的最优位置;vij表示种群粒子i在第j维的速度,为了防止陷入局部最优,vij取值范围为[-vmax,vmax];wvij为种群粒子当前的活动状态;c1r1(pij(t)-xij(t))为种群粒子对过去的经验进行学习,使得种群中粒子个体逐渐移动到最优的位置;c2r2(pgj(t)-xij(t))表示为种群粒子对粒子群搜索经验的学习,进而使得种群中粒子个体移动到种群的最优位置;
(7)当迭代次数或者适应度值满足设定的要求时,跳出循环,否则重复上述步骤(4)-(6)继续进行迭代寻优;
(8)将得到的径向基函数神经网络最优参数代入到主成分分析-粒子群优化-径向基函数网络模型中,选用测试样本进行预测。
3.根据权利要求2所述的气体标志物检测方法,其特征在于:在步骤(1)中,设有n个样本,每个样本有p个变量,组成n×p维矩阵,如式(5)所示:
Figure FDA0002225917920000031
通过将原始数据X转换为k个主成分,其中k个主成分是原始变量xi的线性组合,则新变量F1,F2,…Fk为原始变量的前k个主成分,因此新变量的数学表达为式(6):
Figure FDA0002225917920000032
4.根据权利要求3所述的气体标志物检测方法,其特征在于:主成分分析算法降维步骤包括:
①为了消除数据量纲和数量级的影响,将原始样本数据进行标准化处理,转化成无量纲的形式:
Figure FDA0002225917920000033
式中,xij′为标准化的数据值;
Figure FDA0002225917920000034
为原始数据平均值;σj为原始数据标准差;
②计算相关系数矩阵:
Figure FDA0002225917920000035
式中,rij(I,j=1,2,…,p)为原始变量数据xi和xj的相关系数,rij=rji计算公式如式(9)所示:
Figure FDA0002225917920000036
③计算特征值与特征向量:
根据特征方程|λI-R|=0的解,求出特征值λi,其中I为单位向量,R为相关系数矩阵;将特征值λi按照从大到小的顺序进行排列,分别求出在特征值λi下的特征向量uij(i=1,2,…,k;j=1,2,…,p);
④选择p个主成分:
分别计算在特征值λi下的贡献率与累计贡献率,当计算出的累积贡献率达到90%以上且特征根大于1时,此时特征根对应的第1、第2…第m个主成分,选择前p个主成分可以代替原来的变量,从而实现对原始数据的降维;
⑤计算主成分表达式:
将计算出的uij与标准化的xij′相乘得到的表达式即为所需要的主成分表达式。
5.根据权利要求4所述的气体标志物检测方法,其特征在于:在粒子群优化算法的寻优过程中,假设在D维样本空间中存在n个粒子,并且每一个粒子均由位置Xi=(xi1,xi2,...,xid)、速度Vi=(vi1,vi2,...,vid)和适应度值三个基本特征组成;粒子群中每个粒子都是寻优问题的一个可行解,通过采用评价函数计算出相应的适应度值,判断是否达到寻优要求,进而判断是否需要继续迭代寻找最优;另外,Pi=(pi1,pi2,...,pid)是第i个微粒具有最佳适应度值的位置,即个体的最佳位置为个体极值Pbest,所有微粒在寻优过程中的最优位置为种群极值Gbest,在搜索粒子的最优过程中,每一次的迭代过程中的速度和位置都是发生改变的,算法公式如下:
vij(t+1)=wvij(t)+c1r1[pij(t)-xij(t)]+c2r2[gij(t)-xij(t)], (10)
xij(t+1)=xij(t)+vij(t+1), (11)
式中,i为微粒的序号,i=1,2,3,…n;j为微粒的维度,j=1,2,3,…d;t为当前的迭代次数,即xij为i号微粒在j维度的位置,vij为i号微粒在j维度的速度,pij为i号微粒在j维度具有最佳适应度值的位置,gij为i号微粒在j维度寻优过程中的最优位置;w为惯性权值;r1和r2是0到1之间相互独立的随机函数;c1和c2为学习因子,也称作加速常数,从上述的微粒迭代公式(5)和(6)能够得出,c1是调节微粒到自身最佳位置的步长,c2是调节微粒到全局最佳位置的步长;微粒的速度vij会限定在一定的变化区间:[-vmax,vmax],防止陷入局部最优,
其中,wvij为种群粒子当前的活动状态,c1r1(pij(t)-xij(t))为种群粒子对过去的经验进行学习,使得种群中粒子个体逐渐移动到最优的位置;c2r2(pgj(t)-xij(t))表示为种群粒子对粒子群搜索经验的学习,进而使得种群中粒子个体移动到种群的最优位置;个体的极值Pbest和种群极值Gbest的更新与种群粒子的适应度更新有关,最终更新得到的Gbest就是经过粒子群优化优化算法运行的结果;
优选的,在步骤(2)中,设定粒子群大小为n=20,迭代次数为200次,惯性权值为0.8,学习因子c1,c2为1.5,1.7。
6.一种径向基函数神经网络的呼出气体标志物检测方法在疾病诊断数据库系统构筑中的应用,其特征在于:将如权利要求1-4中任一项所述检测方法预处理获得的样本数据与对应的疾病状态建立关系,构筑人体疾病诊断模型系统。
7.根据权利要求6所述的应用,其特征在于:人体疾病诊断模型系统采用聚类分析模块对预处理后的标志物进行分析;具体的,所述聚类分析模块中K-均值聚类处理框架的算法如下所述:
(1)假设样本数据集X为X={x1,x2,...,xN},集群数目为k;设I=1,初始聚类中心为{Zj:j=1,2,3,...,k};
(2)计算样本数据中每个数据点到聚类中心的距离,D(Xi,Zj(I)),其中i=1,2,...,N;j=1,2,...,k;当D(Xi,Zj(I))=min{D(Xi,Zj(I)):j=1,2,...,k},则Xi被分到了t类,记作Xi (t)
(3)计算样本数据中新的聚类中心:
Figure FDA0002225917920000051
(4)若Zj(I+1)≠Zj(I),j=1,2,...,k,则I=I+1,返回步骤(2)重新开始计算,否则算法结束。
8.根据权利要求6所述的应用,其特征在于:人体疾病诊断模型系统采用深度置信神经网络模块对预处理后的样本数据进行分析;具体的,模块中受限玻尔兹曼机的能量函数为:
Figure FDA0002225917920000061
转换为能量公式为:
Figure FDA0002225917920000062
概率分布表示为:
Figure FDA0002225917920000063
其中n,m分别表示深度置信神经网络可视层和隐藏层的神经元数量;
v,h分别表示深度置信神经网络可视层和隐藏层的状态向量;
a,b分别表示深度置信神经网络可视层和隐藏层的状态向量;
w表示连接深度置信神经网络可视层与隐藏层之间的权值矩阵,θ={w,a,b};
Figure FDA0002225917920000064
为配分函数;P(v,h;θ)为波尔兹曼函数;
由于受限玻尔兹曼机中隐层各节点之间是相互独立的,因此P(h|v)=∏P(hi|v),其中对应二进制单元(hi,vj∈{0,1}),其激活函数如式(16)-式(18)所示;
Figure FDA0002225917920000065
Figure FDA0002225917920000066
Figure FDA0002225917920000067
其中,深度置信神经网络中联合概率分布P(v,h)得到其边缘分布:
Figure FDA0002225917920000068
其对数似然函数为:
Figure FDA0002225917920000069
上述公式中,N为样本数,vi为第i个样本,式(22)为梯度,采用这种方法提高神经网络的训练速度:
Figure FDA0002225917920000071
随着参数沿着梯度方向不断更新,当似然函数的最大值时,实现对输入数据的快速预测;参数更新公式如下:
Figure FDA0002225917920000072
其中t为迭代次数,η为学习速率。
9.根据权利要求8所述的应用,其特征在于:深度置信网络深度置信神经网络联合概率分布,隐层数为l,如公式(23)所示:
Figure FDA0002225917920000073
10.根据权利要求9所述的应用,其特征在于:深度置信网络由多个限制波尔兹曼机组成,被限制分成为一个可视层和一个隐藏层两种,不同层之间存在连接,但是层内单元间不存在连接;需要针对深度置信神经网络系统,对其参数进行初始化;需要初始化的深度置信神经网络参数主要有受限玻尔兹曼机模型中连接权重w,可视层与隐藏层偏置a,b;其中三个参数均以极小值随机初始化,利用经验公式可以将上述参数进行初始化:
w=0.1×randn(n,m) (24)
a=0.1×randn(1,n) (25)
b=0.1×randn(1,m), (26)
式中(24),(25)及(26)中randn表示可产生标准正态分布的随机数或矩阵的函数,randn(n,m)代表产生n行m列的标准正态分布矩阵,深度置信神经网络算法的学习率α取为5。
CN201910951544.9A 2019-10-08 2019-10-08 基于径向基函数神经网络的气体标志物检测方法及应用 Pending CN110880369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910951544.9A CN110880369A (zh) 2019-10-08 2019-10-08 基于径向基函数神经网络的气体标志物检测方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910951544.9A CN110880369A (zh) 2019-10-08 2019-10-08 基于径向基函数神经网络的气体标志物检测方法及应用

Publications (1)

Publication Number Publication Date
CN110880369A true CN110880369A (zh) 2020-03-13

Family

ID=69727762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910951544.9A Pending CN110880369A (zh) 2019-10-08 2019-10-08 基于径向基函数神经网络的气体标志物检测方法及应用

Country Status (1)

Country Link
CN (1) CN110880369A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017771A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于精液常规检查数据的疾病预测模型的构建方法及系统
CN112432231A (zh) * 2020-11-16 2021-03-02 东南大学 一种基于有限传感器的智能化通风监控系统及控制方法
CN113192569A (zh) * 2021-05-11 2021-07-30 南京工程学院 基于改进粒子群和误差反馈神经网络的有害气体监测方法
CN113240067A (zh) * 2021-05-14 2021-08-10 江苏科技大学 一种基于改进蝠鲼觅食优化算法的rbf神经网络优化方法
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN113823403A (zh) * 2021-08-05 2021-12-21 山东大学 基于神经网络的早期肺癌呼气组分检测识别系统
CN114875196A (zh) * 2022-07-01 2022-08-09 北京科技大学 一种转炉出钢量的确定方法和系统
CN116543848A (zh) * 2023-07-05 2023-08-04 潍坊学院 基于平行因子和粒子群优化算法的混合物组分定量方法
CN113192569B (zh) * 2021-05-11 2024-05-28 南京工程学院 基于改进粒子群和误差反馈神经网络的有害气体监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106841325A (zh) * 2017-01-18 2017-06-13 西安交通大学 一种基于半导体气敏传感器阵列检测呼出气体装置
CN107767946A (zh) * 2017-09-26 2018-03-06 浙江工业大学 基于pca和pso‑kelm模型的乳腺癌诊断系统
CN109447236A (zh) * 2018-09-28 2019-03-08 重庆邮电大学 一种混合动力汽车热管理系统的故障诊断方法
CN110210680A (zh) * 2019-06-11 2019-09-06 北京农业信息技术研究中心 一种基于温度变化的鱼体新鲜度检测方法和装置
CN110263837A (zh) * 2019-06-13 2019-09-20 河海大学 一种基于多层dbn模型的断路器故障诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106841325A (zh) * 2017-01-18 2017-06-13 西安交通大学 一种基于半导体气敏传感器阵列检测呼出气体装置
CN107767946A (zh) * 2017-09-26 2018-03-06 浙江工业大学 基于pca和pso‑kelm模型的乳腺癌诊断系统
CN109447236A (zh) * 2018-09-28 2019-03-08 重庆邮电大学 一种混合动力汽车热管理系统的故障诊断方法
CN110210680A (zh) * 2019-06-11 2019-09-06 北京农业信息技术研究中心 一种基于温度变化的鱼体新鲜度检测方法和装置
CN110263837A (zh) * 2019-06-13 2019-09-20 河海大学 一种基于多层dbn模型的断路器故障诊断方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017771A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于精液常规检查数据的疾病预测模型的构建方法及系统
CN112017771B (zh) * 2020-08-31 2024-02-27 吾征智能技术(北京)有限公司 一种基于精液常规检查数据的疾病预测模型的构建方法及系统
CN112432231A (zh) * 2020-11-16 2021-03-02 东南大学 一种基于有限传感器的智能化通风监控系统及控制方法
CN112432231B (zh) * 2020-11-16 2021-08-10 东南大学 一种基于有限传感器的智能化通风监控系统及控制方法
CN113192569A (zh) * 2021-05-11 2021-07-30 南京工程学院 基于改进粒子群和误差反馈神经网络的有害气体监测方法
CN113192569B (zh) * 2021-05-11 2024-05-28 南京工程学院 基于改进粒子群和误差反馈神经网络的有害气体监测方法
CN113240067A (zh) * 2021-05-14 2021-08-10 江苏科技大学 一种基于改进蝠鲼觅食优化算法的rbf神经网络优化方法
CN113555118B (zh) * 2021-07-26 2023-03-31 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN113823403A (zh) * 2021-08-05 2021-12-21 山东大学 基于神经网络的早期肺癌呼气组分检测识别系统
CN114875196B (zh) * 2022-07-01 2022-09-30 北京科技大学 一种转炉出钢量的确定方法和系统
CN114875196A (zh) * 2022-07-01 2022-08-09 北京科技大学 一种转炉出钢量的确定方法和系统
CN116543848A (zh) * 2023-07-05 2023-08-04 潍坊学院 基于平行因子和粒子群优化算法的混合物组分定量方法
CN116543848B (zh) * 2023-07-05 2023-09-29 潍坊学院 基于平行因子和粒子群优化算法的混合物组分定量方法

Similar Documents

Publication Publication Date Title
CN110880369A (zh) 基于径向基函数神经网络的气体标志物检测方法及应用
CN111126575B (zh) 基于机器学习的气体传感器阵列混合气体检测方法及装置
CN110097123B (zh) 一种快件物流过程状态检测多分类系统
CN105938116A (zh) 基于模糊划分和模型集成的气体传感器阵列浓度检测方法
CN112557034B (zh) 一种基于pca_cnns的轴承故障诊断方法
CN111046961B (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
CN112597921B (zh) 一种基于注意力机制gru深度学习的人体行为识别方法
CN111638034B (zh) 基于深度学习的应变天平温度梯度误差补偿方法及系统
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN112504682A (zh) 基于粒子群优化算法的底盘发动机故障诊断方法及系统
CN110072205A (zh) 一种用于无线传感网异常数据检测的分层聚合方法
Nugraha et al. Particle Swarm Optimization–Support Vector Machine (PSO-SVM) Algorithm for Journal Rank Classification
Wang et al. Research on air pollution gases recognition method based on lstm recurrent neural network and gas sensors array
CN113705715B (zh) 一种基于lstm和多尺度fcn的时间序列分类方法
CN113987910A (zh) 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置
CN113642255A (zh) 基于多尺度卷积循环神经网络的光伏发电功率预测方法
Liu et al. MRD-NETS: multi-scale residual networks with dilated convolutions for classification and clustering analysis of spacecraft electrical signal
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
Agarwal et al. Crop Prediction Using Ensemble Learning
CN112347162A (zh) 一种基于在线学习的多元时序数据规则挖掘方法
CN111709440B (zh) 基于FSA-Choquet模糊积分的特征选择方法
CN111104950A (zh) 基于神经网络的k-NN算法中k值预测方法及装置
CN114881429B (zh) 基于数据驱动的台区线损量化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200313