具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
本发明实施例方案的主要思路是:血糖预测模型的生成装置获取呼吸样 本数据以及所述呼吸样本数据对应的血糖值,并将所述呼吸样本数据进行预 处理;对预处理后的呼吸样本数据进行特征提取,并根据提取的特征数据生 成特征数据集;根据预设规则和所述特征数据集,生成血糖预测模型。解决 了传统的血糖预测方法具有历史数据依懒性的技术问题,提高了血糖预测数 据的精确性。
参照图1,图1为本发明实施例方案涉及的血糖预测模型的生成方法执行 终端的终端结构示意图。
本发明实施例的运行终端可以是PC,也可以是智能手机、平板电脑、电 子书阅读器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,通信总线1002、 用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现 这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单 元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无 线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI 接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器 (non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立 于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对运行终端的 限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的 部件布置。
继续参照图1,图1中作为一种计算机存储介质的存储器1005可以包括操 作系统、网络通信模块、用户接口模块以及程序。其中,操作系统是管理和 控制血糖预测模型的生成装置与软件资源的程序,支持网络通信模块、用户 接口模块、血糖预测模型的生成程序以及其他程序或软件的运行;网络通信 模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口 1003。
在图1所示的终端中,网络接口1004主要用于连接云服务器,与云服务 器进行数据通信。用户接口1003还可以连接客户端(用户端),与客户端进 行数据通信;本发明终端中的处理器1001、存储器1005可以设置在血糖预测 模型的生成装置中,所述血糖预测模型的生成装置通过处理器1001调用存储 器1005中存储的血糖预测模型的生成程序,并执行以下操作:
获取呼吸样本数据以及所述呼吸样本数据对应的血糖值,并将所述呼吸 样本数据和对应的血糖值进行预处理;
对预处理后的呼吸样本数据进行特征提取,并根据提取的特征数据生成 特征数据集;
根据预设规则、所述呼吸样本数据对应的血糖值和所述特征数据集,生 成血糖预测模型。
进一步的,本发明终端中的处理器1001、存储器1005可以设置在血糖预 测模型的生成装置中,所述血糖预测模型的生成装置通过处理器1001调用存 储器1005中存储的血糖预测模型的生成程序,执行以下操作:
获取所述呼吸样本数据的采集时间和对应的血糖值的采集时间的时间 差;
在所述时间差超过预设时间阈值时,删除所述时间差对应的呼吸样本数 据和血糖值。
进一步的,本发明终端中的处理器1001、存储器1005可以设置在血糖预 测模型的生成装置中,所述血糖预测模型的生成装置通过处理器1001调用存 储器1005中存储的血糖预测模型的生成程序,执行以下操作:
将在预设时间阈值内的时间差对应的呼吸样本数据进行去基线处理,并 将处理后的所述呼吸样本数据进行数据标准化。
进一步的,本发明终端中的处理器1001、存储器1005可以设置在血糖预 测模型的生成装置中,所述血糖预测模型的生成装置通过处理器1001调用存 储器1005中存储的血糖预测模型的生成程序,执行以下操作:
根据预设的特征提取规则,提取所述预处理后对应的呼吸样本数据的几 何特征。
进一步的,本发明终端中的处理器1001、存储器1005可以设置在血糖预 测模型的生成装置中,所述血糖预测模型的生成装置通过处理器1001调用存 储器1005中存储的血糖预测模型的生成程序,执行以下操作:
根据有效特征选择算法对提取的所述几何特征进行筛选以获取有效特征 集;
根据Mitra-Imp算法将所述有效特征集进行重组,以消除所述有效特征集 的冗余数据并生成特征数据集。
进一步的,本发明终端中的处理器1001、存储器1005可以设置在血糖预 测模型的生成装置中,所述血糖预测模型的生成装置通过处理器1001调用存 储器1005中存储的血糖预测模型的生成程序,执行以下操作:
所述呼吸样本数据的几何特征包括所述呼吸样本数据形成的曲线的峰 值、曲线均值、各路曲线的峰值比、相同时间间隔的响应值、多点斜率和分 段积分。
进一步的,本发明终端中的处理器1001、存储器1005可以设置在血糖预 测模型的生成装置中,所述血糖预测模型的生成装置通过处理器1001调用存 储器1005中存储的血糖预测模型的生成程序,执行以下操作:
根据主成分分析规则,降低所述预处理后对应的呼吸样本数据的数据维 度。
进一步的,本发明终端中的处理器1001、存储器1005可以设置在血糖预 测模型的生成装置中,所述血糖预测模型的生成装置通过处理器1001调用存 储器1005中存储的血糖预测模型的生成程序,执行以下操作:
根据所述特征数据集和所述呼吸样本对应的血糖值,并基于特征权重与 模型评分的多特征融合规则,生成血糖预测模型。
基于上述硬件结构,提出本发明血糖预测模型的生成方法实施例。
参照图2,图2为本发明血糖预测模型的生成方法第一实施例的流程示意 图。
本实施例中,所述血糖预测模型的生成方法包括以下步骤:
步骤S10,获取呼吸样本数据以及所述呼吸样本数据对应的血糖值,并将 所述呼吸样本数据和对应的血糖值进行预处理;
本实施例中,所使用的呼吸气体采集系统的设计依据是:大部分疾病患 者的呼出气体中,往往会存在某些生物标记物含量异常的现象,利用气体传 感器敏感特性和处理技术,准确捕捉气体成分含量的变化信息,进而通过信 号处理和机器学习方法,实现无创疾病检测。不同于市场现有的商用“电子 鼻”,该呼吸气体分析仪的功能定位是利用呼吸气体特征进行疾病诊断,而不 是精确检测各种气体。因此,该仪器在传感器组件的选择、数据的处理以及 分析方法上,都需要针对某一种或几种疾病的特点,进行有针对性的研究和 设计。本实施例中系统采样设备主要功能部件是12路传感器阵列,同时辅 以稳压电路、气泵等部件,利用传感器响应生成12路响应信号,实现了呼 吸气体的半自动抽入和响应信号数据的全自动采集处理。该系统标准频率为 8Hz,每0.125秒12路传感器同时进行一次样本采集,以此方式工作144 秒后,完成采样。系统每次采集的样本具有12×8×144=13824个传感器相 应值。具体地,该设备的样本采集过程如下:首先,被测者将呼出气体吹入 气袋至完全充满,如遇呼出气体量小的被测者,可令其多次呼吸,完成后关 闭气袋开关。其次,将气袋插入该系统的气体采集端,确认连接正确后,开 启气袋开关。再次,开启设备配套呼吸气体分析系统的自动采样模式,设备 将匀速地将气体压入反应仓,传感器阵列通过敏感回路产生响应电压。最后, 我们记录所得电压值及其实时变化,这些数据包含了被测呼吸样本中敏感气 体含量的信息。并将此时被测者的血糖浓度,并将所述呼吸样本数据与所述血糖浓度进行对应存储。由于采样条件的限制,血检样本和呼吸样本存在采 样时间不同步的现象。为避免相隔时间过长的数据对实验造成影响,我们设 定时间阈值,即:|Db-Dg|≤C,其中,Db表示呼吸气体样本采集时间(以时 为单位),Dg表示呼吸气体样本采集时间(以时为单位),C为常数,为保证 其有效性,设C为24小时。在实际处理过程中,为了避免某个时间点对应的 响应数据特殊性造成误差,我们采用多点求均值的方式来确定基线水平直至。所得数据被归一化至相同坐标空间。用于采集呼吸样本数据的呼吸气体信号, 在经去基线处理后,还存在不同传感器响应区间不同的状况。这种情况虽不 直接影响分类器性能,但是对于一些特征提取和优化的方法来说,响应幅值 较小的信号特征很有可能被舍弃或者被赋较小的权值,此时我们再将所述呼 吸气体信号进一步进行信号的标准化。
步骤S20,对预处理后的呼吸样本数据进行特征提取,并根据提取的特征 数据生成特征数据集;
具体地,针对呼吸气体数据的特点,可以采用多种特征的提取方法。例 如:通过多种方法提取呼吸气体信号样本的几何特征;或通过快速Fourier变 换将时域数据变换为频域提取特征;或通过Haar小波变换获得时频变换的系 数特征;或通过PCA、LDA等方法降低数据维度获取特征。ReliefF算法优点 在于可以选择与类别间的相关程度高的有效特征;其缺点是无法消除特征间 的冗余。恰恰相反,Mitra算法的对于特征的选择更加注重信息压缩程度和特 征间的相关性,可以充分去除冗余或相似的特征;其缺点是难以保障所选特征为有效特征。将ReliefF算法与Mitra算法思想相结合,先使用ReliefF算法 筛选有效特征数据集,继而使用Mitra-Imp算法剔除冗余特征,最后生成的特 征数据集具备有效性,且能很大程度上已被消除冗余。其中,Mitra-Imp算法 是基于传统Mitra算法改进后的一种算法。传统Mitra算法是一种常被用于高 维数据集的特征选择算法,去冗余能力强,时间复杂度低,在大数据计算时 有着良好表现。其原理是:选出特征在空间中的聚类中心并删除其K近邻。 算法通过设置阈值ε来约束Mitra算法的特征剔除过程。在每次迭代中,计算 选定特征fi与其第K个近邻的距离并与ε比较,若该距离大于ε,则减小K 值;若该距离小于ε,则将该距离赋值给ε,并删除K个近邻特征。
但由于传统的Mitra算法是运用K近邻的方式来消除冗余特征,并通过 阈值迭代的方式来约束消除过程。因此这种设计存在两个问题:(1)中心点 的K近邻被消除,而中心点继续参与下一次迭代,容易导致陷入局部最优; (2)阈值ε被赋值为中心点与第K近邻的距离,容易收敛过快,无法得到最 优解。
针对上述两个问题,本发明通过对Mitra算法过程中的中心点处理和阈值 设置作出改进,采用了改进后的算法即Mitra-Imp算法。该Mitra-Imp算法可 以:(1)每次迭代时,将中心点保存至结果数据集中,将中心点与其K近邻 一起从待选特征集中剔除;(2)不以中心点与K近邻距离来设置阈值,而是 改用每次迭代计算特征距离的均值作为阈值;(3)最终将无法消除的待选集 并入结果数据集。与Mitra-Imp算法结合
ReliefF算法的原理是:在处理多类问题时,每次从训练样本集中随机取 出一个样本R,然后从和样本R同类的样本集中找出R的k个近邻样本(near Hits),从每个R的不同类的样本集中均找出k个近邻样本(near Misses),然后 更新每个特征的权重。ReliefF算法优点在于可以选择与类别间的相关程度高 的有效特征;其缺点是无法消除特征间的冗余。恰恰相反,Mitra算法的对于 特征的选择更加注重信息压缩程度和特征间的相关性,可以充分去除冗余或 相似的特征;其缺点是难以保障所选特征为有效特征。将ReliefF算法与Mitra 算法思想相结合,先使用ReliefF算法筛选有效特征集,继而使用Mitra-Imp 算法剔除冗余特征,最后生成的特征子集具备有效性,且能很大程度上消除 冗余。
对于提取的呼吸样本数据几何特征集,我们将特征集合中全部6种特征 组合成为一个多维几何特征,特征维度为638维,以每一维特征点为计算单 元进行处理。对于上述组合的呼吸样本几何特征,我们利用ReliefF算法和改 进后的Mitra-Imp算法来进行特征选择与重组,以生成误差小的特征数据集。
步骤S30,根据预设规则、所述呼吸样本数据对应的血糖值和所述特征数 据集,生成血糖预测模型。
经特征选择后的得以保留的特征形成的特征数据集,具有相当强的训练 模型预测能力,且无相互冗余的情况。但是由于提取方法不同,维度数量不 同,所以不同特征样本具有不同的表征含义和表达方式。为了更加全面的利 用特征所表达的信息,本实施例中提出了基于特征权重与模型评分的多特征 融合方法,综合评价特征在血糖值多区间分类任务下的历史特性和当前表现, 为呼吸样本多特征融合的血糖预测建立了决策机制。
本实施例提供一种血糖预测模型的生成方法、装置及计算机可读存储介 质,所述血糖预测模型的生成方法通过获取呼吸样本数据以及所述呼吸样本 数据对应的血糖值,并将所述呼吸样本数据进行预处理;对预处理后的呼吸 样本数据进行特征提取,并根据提取的特征数据生成特征数据集;根据预设 规则和所述特征数据集,生成血糖预测模型。通过以上方式,本发明血糖预 测模型的生成方法通过采集整理大量不同呼吸样本数据以及对应的血糖值, 在将所述呼吸样本数据进行预处理后,进一步进行特征提取,生成呼吸样本 数据的特征数据集,并根据该特征数据集生成血糖预测模型。本发明根据采 集的大量呼吸样本,生成具有血糖预测功能的血糖预测模型,解决了传统的 血糖预测方法具有历史数据依懒性的技术问题,提高了血糖预测数据的精确 性。
参照图3,图3为本发明血糖预测模型的生成方法第二实施例的流程示意 图。
本实施例中,基于上述图2所示实施例,所述步骤S10还包括:
步骤S11,获取所述呼吸样本数据的采集时间和对应的血糖值的采集时间 的时间差;
具体地,为避免相隔时间过长的数据对实验造成影响,本实施例中设定 时间阈值,即:|Db-Dg|≤C,其中,Db表示呼吸气体样本采集时间(以时为 单位),Dg表示呼吸气体样本采集时间(以时为单位),C为常数,为保证其 有效性,设C为24小时。
步骤S12,在所述时间差超过预设时间阈值时,删除所述时间差对应的呼 吸样本数据和血糖值。
具体地,在呼吸样本数据的采集时间与所述血糖值采集时间的时间差超 过预先设定的阈值,即该呼吸样本数据的采集时间与对应的血糖值采集时间 的间隔时间过长,应该删除该组呼吸样本数据以及其对应的血糖值数据。
步骤S13,将在预设时间阈值内的时间差对应的呼吸样本数据进行去基线 处理,并将处理后的所述呼吸样本数据进行数据标准化。
具体地,去基线处理的最基本思路是以多路信号前期低响应值的某时间 节点对应的数据为基准,将该时间点视为各路信号的原点,通过将各路信号 数据在内部对该时间点所对应的数据做差,进而完成多路信号的坐标归一化 处理。在实际处理过程中,为了避免该时间点对应的响应数据特殊性所造成 的误差,我们采用多点求均值的方式来确定基线水平。其核心处理方法如下:
Aij=mean(Aij1:Aij2)
其中,Aij表示样本矩阵第i个传感器所对应的第j个数据点,j1和j2表示选定基线区间的两端节点,对j1和j2所夹区间进行求均值运算,从而 得到所确定的基线水平。循环执行上述方法,直至完成去基线处理,所得数 据即已被归一化至相同坐标空间。
呼吸气体信号经去基线处理后,还存在不同传感器响应区间不同的状况。 这种情况虽不直接影响分类器性能,但是对于一些特征提取和优化的方法来 说,响应幅值较小的信号特征很有可能被舍弃或者被赋较小的权值,此时我 们需要进行信号的标准化。所谓信号标准化,就是利用信号本身的特点,通 过较为简单且不影响其相关特性的变换算法,将信号进行全局压缩,进而得 到在一定幅值范围内的相应信号。我们使用了一种相对比例标准化方法 Relative Scale,即
其中,max(A)表示样本A中全部传感器数据中的最大响应值,Aij表 示样本A的第i路信号中的第j个数据点。该方法的特点是在多路信号中 找到一个最大响应值,无论该最大响应值处于哪一路信号之中,都用该值对 全部数据进行标准化。该方法既对多路数据进行了标准化处理和全局压缩, 同时也保留了样本内部不同传感器信号的相对响应特点和比例关系。而波形 整体的趋势和不同传感器响应值之间的距离相对关系并没有改变。已有研究 证明,该标准化方法确实对后续处理具有积极意义。
进一步地,本实施例中,基于上述图3所示实施例,所述血糖预测模型 的生成方法在步骤S20包括:
步骤S21,根据预设的特征提取规则,提取所述预处理后对应的呼吸样本 数据的几何特征。
针对呼吸气体数据的特点,我们探究了多种特征的提取方法。我们通过 多种方法提取了呼吸气体信号样本的几何特征;通过快速Fourier变换将时 域数据变换为频域提取特征;通过Haar小波变换获得时频变换的系数特征; 通过PCA、LDA等方法降低数据维度获取特征。
呼吸样本信号数据是连续的,其多路信号可以表示为多路波形。几何特 征的直观、简约的优点,在波形中得以充分显现。构造几何特征提取方法的 思路主要是将传感器对呼吸气体样本响应强度、反应时间、差异程度、升降 趋势、整体特点等几何特征进行提取。
波形峰值:波形峰值(maxMag)即该样本中各路传感器的最大响应值, 表征各路传感器对样本气体的响应程度。
曲线均值:曲线均值(meanMag)即该样本中各路传感器在有效时间内 响应数据的均值,表征各路传感器对样本气体的整体响应程度。
曲线峰值比:曲线峰值比(maxMagRatio)即不同传感器对呼吸气体响应 曲线的峰值之间的比值,表征传感器阵列对不同气体的差异敏感程度。
相同时间间隔的响应值:相同时间间隔的响应值(manyPoint)是以某相 同时间间隔为准,提取各时刻的传感器响应值,表征传感器对样本气体的单 点即时响应程度。
相同时间间隔的曲线斜率:相同时间间隔的曲线斜率(manySlope)是在 上述相同时间间隔的响应值特征的基础上,计算相邻两点响应值的斜率,表 征在该时间段内传感器响应强度的升降趋势。
相同时间间隔的曲线积分:相同时间间隔的曲线积分(manyIntegral)是 在上述相同时间间隔的响应值特征的基础上,以相邻两点响应值为积分区域, 计算曲线与坐标轴之间所夹图形的面积,表征在该时间段内传感器的响应强 度等。
进一步地,所述呼吸样本数据的几何特征包括所述呼吸样本数据形成的 曲线的峰值、曲线均值、各路曲线的峰值比、相同时间间隔的响应值、多点 斜率和分段积分。
具体地,所提取的几何特征情况如下表所示,所涉及的波形峰值、曲线 均值、各路曲线的峰值比、相同时间间隔的响应值、多点斜率、分段积分等 特征,从几何层面上反映了传感器阵列对呼吸气体样本的响应强度、反应时 间、差异程度、升降趋势以及整体特点。几何特征具备简单、直观、计算代 价小的特点,其可组合性、可变换性和可拓展性都明显优于复杂方法计算所 得特征,并且也符合传感器响应信号设计原理,从理论和实践层面都具有很 大的优势。
进一步地,所述S20步骤还包括:
S22,根据有效特征选择算法对提取的所述几何特征进行筛选以获取有效 特征集;
S23,根据Mitra-Imp算法将所述有效特征集进行重组,以消除所述有效 特征集的冗余数据并生成特征数据集。
具体地,呼吸样本由多路信号组成,我们使用时频分析方法来进行特征 提取。本文使用快速Fourier变换和小波变换方法在时频分析层面进行特征 提取。
快速Fourier变换:由于计算机在运算过程中的离散性,离散Fourier变 换(DFT)在众多方法中,成为信号处理中最常用方法,其核心原理为:
其中,N称为DFT变换区间长度,xn到Xk的转化即为 时频域变换。
FFT是对DFT分解,设原有N个点,分解后形成了两个N/2个点的子 DFT,再将N/2个点的DFT分解为N/4个点的子DFT,以此类推。经过如 此改进,算法的运算包括(N/2)log2N次乘和Nlog2N次加。结果相同,而 时间复杂度由原来的O(N2),优化至O(NlogN)。
Fourier变换也常用来提取电子鼻信号特征[37]。呼吸气体样本信号经预处 理后形成1152×10的矩阵,记为A。设定N=50,A经FFT变换为B,对B 取模,得到50×10=500维的特征。
小波变换:小波变换结合多个领域的思想和方法,较好地解决了局部化 分析和非平稳信号处理的问题,成为时频分析领域中继Fourier变换后的一 个重大突破。小波变换实质是一种对信号或者函数在频域上的局域变换。凭 借其可变分辨率、正交性、方向选择性等优良特性,小波变换成为信号处理 领域中不可或缺的方法,并已被用于提取气体样本信号特征。
小波变换的基本形式是通过平移伸缩等方式,将母小波变换为小波基。 显然,随着平移伸缩等操作以不同组合顺序进行,同一母小波也会产生众多 小波基。Haar小波是最早被使用的小波基之一,其函数形式为:
其对应尺度函数为:
Haar小波函数的有效定义范围在于[0,1]之间,其波形为矩形且不具备连 续性。我们采用较为简单的Haar小波进行5阶小波包分解。经预处理后的 呼吸样本数据由10路信号组成,其信号形状连续平滑,无周期性且幅度变化 相对较慢,故在信号频域中,低频处细节信息更为重要。呼吸气体样本信号 经预处理后形成1152×10的矩阵,记为A。经多次实验,我们发现,当设定 分解层次为5层时,特征效果最佳,即进行5阶小波包分解,取第5层小波 系数作为样本特征,得到(1152/2^5)×10=370维的小波系数特征。
信号和图像的维度往往很高,其主要特征在高维数据中往往不容易被提 取,而且数据维度高将直接导致计算效率下降。主成分分析(PCA)方法以 其保持主成分同时大规模降低数据维度的特性,在信号以及图像等数据处理 中得到了广泛应用,在气体传感器响应信号特征提取中也有较好的效果。线 性判别分析(LDA)方法也是降低数据维度的常用方法,其运算本质是对 Fisher准则函数计算极限值,获取最佳方向并投影,由高维空间到低维空间 实现降低维度的效果,且计算所得数据的离散度具有类间最大和类内最小的 特点。
进一步地,步骤S21之前,还包括:
步骤S24,根据主成分分析规则,降低所述预处理后对应的呼吸样本数据 的数据维度。
具体地,PCA降维:我们根据PCA的算法原理计算样本数据训练集的 成分分析空间。将测试样本数据集投射至上述空间,便得到了测试样本数据 集的主要特征。PCA方法在选择主成分时的遵循如下准则:
其中,λi表示第i大特征值,rλ为该成分对空间的贡献度,n为特征值总 量,p为主成分数。通过进行贡献和值自适应的相关设计,设定特征值的贡献 和值为99.99%,以此来自适应地提取样本的主要特征。通过上述方法处理原 始数据所获得的特征,其维度将随着样本集差异而变化,但该方法所构造的 主成分空间,很大程度上保持了原数据的特征,对呼吸样本信号数据具有较 强的表征能力。
LDA降维:LDA在处理过程中使用分类标签对训练样本进行降维,并 且可以作为分类器对样本特征进行训练和分类。LDA在求解形式上与PCA 相似,二者目标都是寻找出符合求解条件的方向向量,然后将数据由高维空 间投射至低维空间,进而能够实现对数据维度的降低。LDA在实现数据投影 达到降低维度的同时,也实现了不同类别的间距尽可能大,类间稀疏,相同 类别样本间距尽可能小,类内紧凑,完成了通过距离进行分类的准备,在通常距离计算条件下,提取了样本可分度高的低维特征。通过LDA方法降低 维度获得的数据低维特征,因其计算过程含有对样本数据类别判定的信息, 所以更加有利于后期的分类处理等。二类LDA的目标函数为:
其中,a是投影向量,μ是同类点计算均值所得的质心,表示映射完成 后的中心,表示各样本点到的距离。
考虑到LDA处理后的特征具有同类元素距离小、异类元素距离大的优势, 我们将呼吸气体信号用LDA方法来提取样本特征。由于血糖分级预测工作是 一个多分类的问题,运用多类LDA降低数据维度,须在原有二类基础上进行 拓展,其目标函数为
其中,
其中,a是投影向量,μ是同类点计算均值所得的质心,SW表示类间距, SB表示类内距离。
呼吸气体样本原始数据表示为A,样本矩阵大小为m×n,m是气体样本 的数量,n是数据维度。我们希望找出投影向量,使得完成投影运算Aa后, 所得到的样本特征数据点能够使相同类别尽量接近,不同类别尽量分开。设 样本类别数为nClass,通过上述公式计算样本数据的类间散布矩阵SW和类 内散布矩阵SB,运用矩阵除法SW/SB计算得到Atmp,求Atmp的特征值, 排序这些特征值并选出前nClass-1个,将与之对应的特征向量组成特征算子 矩阵,用以处理样本,最终得到nClass-1维样本特征。
P-L降维,通过实验我们发现,严格按照LDA方法处理样本,所提取到 的特征维度很低,只有nClass-1维,可以为后期模型训练提高效率。但是, 基于LDA的特征提取方法在后期分类上的表现很差,以LDA方法直接参与 模型构建,没有实际意义。
究其原因,本课题数据样本维度过高,导致依据LDA方法进行的降维, 在处理样本数少于样本维数的奇异值问题时,出现了无法调和的问题。而且 LDA方法直接对样本数据进行降低维度时,需要的运算时间很长,在算法效 率上也不及其他特征提取方法。
PCA的特点在于尽可能地保持原始数据信息,为此可能以升高维度为代 价;而LDA算法的优势在于实现类别差异,其处理后的特征更加有利于类别 的区分,而在对原始数据信息的保留程度上远不及PCA。
根据中间过渡子空间方法,我们实现了PCA与LDA相结合的降低数据 维度方法,记为P-L算法。该方法的数学表达为
其中,xi表示第个原始数据,表示PCA方法,表示LDA方法, zi表示对xi完成PCA和LDA变换后的数据特征。
在使用P-L算法进行数据处理的过程中,使用PCA方法将原1152维数 据空间迭代降低至56维,形成56维的过渡子空间,在子空间上使用LDA方 法,最终形成nClass-1维的特征子空间,完成P-L算法的特征提取。
运用P-L算法提取的特征,在维度上继承了LDA维度低且易分类的特点, 同时还具备了PCA运算效率高的优势。经实验验证,其单一特征分类准确率, 比单纯使用LDA所得特征要高,以及同维度PCA特征都有较为显著的提升。
进一步地,所述步骤S30还包括:
步骤S31,根据所述特征数据集和所述呼吸样本对应的血糖值,并基于特 征权重与模型评分的多特征融合规则,生成血糖预测模型。
具体地,Relief算法是一个能从特征集里选择有效特征的算法,具有简单 高效的优点。其拓展的ReliefF算法尤其适合目标为连续值属性和多类别处理 的问题。该算法在处理多分类时的基本思想是:随机在训练样本集中选出一 个标记样本R,运用K近邻计算方式,从样本R所在类别SL中选出k个样 本,从与R不同类别的DLi中分别选出k个样本;计算特征fi在R与SL和 DLi中样本的差异度,更新特征fi的权重值,从而进行类别与特征的相关性度量。逐步更新特征的权重表,直至遍历样本集中所有样本,完成特征权重 的计算。ReliefF算法特征权重更新的计算方法如下:
其中,P(DLi)表示DLi类别在总体样本上的分布概率,class(R)表示 样本R所在的类别,D(SL,fj)表示与样本R类别相同的样本与R在特征 fj上差异,D(DLi,fj)表示在与样本R相异类别上的特征差异,二者计算 方法一致,我们可以通过统一形式为D(XL,fj)进行如下:
其中,m表示在训练样本集中抽样次数,dif表示不同类别样本特征之间 的差异,对于离散样本:
对于连续样本:
我们利用ReliefF算法对几何特征集进行有效性筛选.ReliefF算法是通过 弱化同类差异度,强化异类差异度的权重调整方法,有监督地选择更有利于 区分类别的有效特征。但该算法没有对特征间的相关性进行处理,使得所选 择的特征无法消除冗余的影响。
Mitra算法是一种常被用于高维数据集的特征选择算法,去冗余能力强, 时间复杂度低,在大数据计算时有着良好表现。其基本思想是:选出特征在 空间中的聚类中心并删除其K近邻。算法通过设置阈值ε来约束Mitra算法 的特征剔除过程。在每次迭代中,计算选定特征fi与其第K个近邻的距离并 与ε比较,若该距离大于ε,则减小K值;若该距离小于ε,则将该距离赋 值给ε,并删除K个近邻特征。
传统的Mitra算法运用K近邻的方式来消除冗余特征,并通过阈值迭代 的方式来约束消除过程。这种设计存在两个问题:(1)中心点的K近邻被消 除,而中心点继续参与下一次迭代,容易导致陷入局部最优;(2)阈值ε被 赋值为中心点与第K近邻的距离,容易收敛过快,无法得到最优解。
针对上述两个问题,我们对Mitra算法过程中的中心点处理和阈值设置作 出改进:(1)每次迭代时,将中心点保存至结果数据集中,将中心点与其K 近邻一起从待选特征集中剔除;(2)不以中心点与K近邻距离来设置阈值, 而是改用每次迭代计算特征距离的均值作为阈值;(3)最终将无法消除的待 选集并入结果数据集。改进后的算法记为Mitra-Imp。
Mitra-Imp算法利用特征点在样本空间分布的距离关系,后向生成特征子 集,从而达到去除冗余特征的目的,同时解决了原Mitra算法容易陷入局部最 优的问题。但由于Mitra算法思想本身并非监督性设计,Mitra-Imp算法即使 做出了改进,也无法度量所选特征的有效性。
ReliefF算法优点在于可以选择与类别间的相关程度高的有效特征;其缺 点是无法消除特征间的冗余。恰恰相反,Mitra算法的对于特征的选择更加注 重信息压缩程度和特征间的相关性,可以充分去除冗余或相似的特征;其缺 点是难以保障所选特征为有效特征。将ReliefF算法与Mitra算法思想相结合, 先使用ReliefF算法筛选有效特征集,继而使用Mitra-Imp算法剔除冗余特征, 最后生成的特征子集具备有效性,且能很大程度上消除冗余。
对于提取的呼吸样本数据几何特征集,我们将特征集合中全部6种特征 组合成为一个多维几何特征,特征维度为638维,以每一维特征点为计算单 元进行处理。对于上述组合的呼吸样本几何特征,我们利用ReliefF算法和改 进后的Mitra-Imp算法来进行特征选择与重组。
传统的特征前向选择法是通过迭代的方式逐步增加特征子集的特征,以 寻求最佳特征子集,其主要算法流程为:建立一个特征子集S,迭代加入能使 当前S∪fi的分类性能最佳的特征fi,每次迭代后保留中间特征子集S∪fi记为 Sj,用尽所有特征后迭代终止,在所有中间特征子集Sj中选取最佳的子集作为 算法选定的特征子集。
本文运用前向选择法的思想,对其算法流程进行改进,使得最终输出结 果由单一子集,变为预选特征子集,并在算法中间过程中加入个数为L的备 选子集,对子集选取和特征增加做了全局考虑,防止由于贪心陷入局部最优。 改进后的算法记为FS-Imp。
经特征选择后的得以保留的特征,具有相当强的训练模型预测能力,且 无相互冗余的情况。它们的提取方法不同,维度数量不同,对于样本也有着 不同的表征含义和表达方式。
为了更加全面的利用特征所表达的信息,我们分别探讨了基于判别模型 评分的投票决策机制和基于特征历史表现的权重计算方法,继而将特征权重 与模型对特征的评分相结合,提出了基于特征权重与模型评分的多特征融合 方法,综合评价了特征在血糖值多区间分类任务下的历史特性和当前表现, 为呼吸样本多特征融合的血糖预测建立了决策机制。
所谓判别模型评分,是指判别模型对不同类别给出的相似度评分。基于 判别模型评分的投票,即在同一判别模型下,分别对特征在不同类别上的评 分求和,最终以不同类别所得的评分和高低来分类。设类别数为nClass,特 征数为t,则基于判别模型评分的投票结果计算方式为
其中,j{1,nClass},score(fi,classj)表示特征在类别特征classj上的评 分,T1表示该方法对应的算子,为t维的全1列向量,形式如下:
T1=(1,...,1).
该投票决策机制所表达的意义是:各特征在各类别上以相同权值进行评 分投票,累计得分总高的类别即为该模型分类判别的结果。显然,这可以作 为一种多特征融合方法。但该方法以单一特征单次决策评分为唯一考核标准, 即只考虑特征当前表现,忽略了特征在大样本数据下的权重信息。
基于特征历史表现权重的核心思想是以特征重要度度量值作为权值,进 行决策投票。每个特征在模型分类时都会对某一类别做出结果为1的判别, 而对其他类别判别结果为0,从而形成了一个判别向量。我们用特征重要度度 量值与其对应的判别向量做积运算,所得结果分类别求和,比较各类别得分 高低,做出分类决策。
其中,j{1,nClass},vote(fi,classj)表示特征在类别特征classj上的投票 结果为1或0,T2表示该方法对应的算子。T2是一个t维的列向量,对应特 征重要度,形式如下:
T2=(Coef1,...,Coeft)
为了更好地理解融合决策,我们将整个过程分为三个阶段:单一特征的 多类分类阶段,多个特征的单一类别投票,多个特征的多类分类决策。本文 所提出的多特征融合方法,实质上是计算每个特征在每种类别上的分类准确 率矩阵,通过交叉验证方式求权重系数矩阵,进而对多个特征进行融合。下 面详细介绍该多特征融合的过程。
对于最优特征子集F’中的特征fi,我们使用每一种特征分别训练随机森 林分类器,然后逐一使用训练好分类器对测试样本集分类,计算特征fi在类 别j上的分类准确率pji,构造准确率矩阵P。不难发现,P的行向量代表单一 特征对各个类别的分类准确率,其结果由多个训练好的分类器给出,而P的 列向量将用于下一步的系数计算中。
矩阵P的列向量代表各个特征对于单一类别的分类准确率,其意义在于 可以评价多个特征对于同类别的判别能力。本文采用10折交叉方式,得出10 个矩阵Pk,其中k=10进而由计算各特征对于单一类别判别产生的融合权重 系数,计算公式为:
其中,m为特征数,pjik为特征fi对类别j在第k次交叉验证时的准确率。
至此,每个特征在每个类别上所对应的融合权重矩阵已经得出。为了便 于对权重矩阵的理解,我们将多分类问题理解成分类器在每个类别上做1或0 的二分类判别。在此理解的基础上,分类器每次做出的多分类判断,都可以 看作是分类在某一类别上判别为1,其他类别上判别为0。对同一类别,我们 通过使用权重矩阵的列向量融合多特征,按其加权和计算融合特征对该类别 的分类评分。对同一样本,计算多类的加权和评分,择其最高分类别判为1, 其他为0。
该权重计算方法所表达的意义是:在各特征完成类别投票后,以特征重 要度作为权值去评价投票,累计得分最高的类别即为该模型分类判别的结果。 该方法也可以独立完成决策,但它完全依赖特征的历史表现,而样本本身的 评分信息并没有得到充分利用。
我们在分析了基于判别模型评分的投票决策机制和基于特征历史表现的 权重计算方法的基础上,将代表特征历史特性的权重值与代表特征当前表现 的模型评分相结合,提出了基于特征权重与模型评分的多特征融合方法,综 合评价了特征在血糖值多区间分类任务下的历史特性和当前表现,为呼吸样 本多特征融合的血糖预测建立了决策机制。对于特征权重和模型评分这两种 关键信息,我们通过系数矩阵计算的方式完成投票。其计算形式如下:
其中,j{1,nClass},score(fi,classj)表示特征在类别特征classj上的评 分,T3表示该方法对应的算子,为t×nClass维的系数矩阵,形式如下:
其中,ωij即为特征fi在类别nClassi上的融合权重系数。
该方法所表达的意义是:各特征在各类别上完成特征评分以后,以该特 征对于该类别重要度作为权值去评价评分的可信度,将所有经过可信度评价 的分数和值进行统计,累计得分最高的类别即为该模型分类判别的结果。我 们将该方法记为F-WS法。我们提出的F-WS多特征融合方法,是建立在对模 型评分矩阵和特征权重矩阵计算的基础上的。相对于单纯的模型评分,该方 法以系数矩阵来评价分类器对于当前样本特征的评分,在对模型评分完成评 价的基础上做出决策,在分类的同时,兼顾了历史特征表现。相对于单纯的 特征权重,该方法打破0-1分类的评分办法,参考评分投票的原理,选择当前 分类器评分作为投票的基础分数,有效的利用了模型对特征的评分信息。该 方法的优点在于以当前分类器评分为主要参考值,辅以体现特征历史表现的 重要度权重,兼顾特征当前评分和以历史表现,进而得出更加全面的决策结 果。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有血糖预测模型的生成程序,所述血 糖预测模型的生成程序被处理器执行时实现如上述血糖预测模型的生成方法 的步骤。
其中,血糖预测模型的生成程序被执行时所实现的方法可参照本发明血 糖预测模型的生成方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系 统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物 品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、 磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机, 服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是 利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。