CN113008860A

CN113008860A - 血脂分类方法、系统、储存介质及计算机设备

Info

Publication number: CN113008860A
Application number: CN202110463408.2A
Authority: CN
Inventors: 胡铃越; 凌永权; 赵楷龙; 刘庆; 林堉欣; 韦怡婷; 孙百良
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-06-22
Anticipated expiration: 2041-04-25
Also published as: CN113008860B

Abstract

本发明针对荧光蛋白信号在采集过程中极易受到各种噪声干扰而影响血脂分类精度的技术问题，提出了一种血脂分类方法、系统、储存介质及计算机设备，本发明在训练血脂分类模型的过程中，对训练数据进行经验模式分解得到样本信号的IMF，通过K均值聚类的方法，滤除高频噪声；再通过奇异谱分析对样本信号进行多重去噪，达到最优的多分辨率分析效果，能够训练出准确度高的血脂分类器，从而实现对血脂的高精度分类。

Description

血脂分类方法、系统、储存介质及计算机设备

技术领域

本发明涉及医学体征检测技术领域，具体涉及数据处理以及机器学习技术在血脂分类方面的应用，更具体地，涉及一种血脂分类方法、系统、储存介质及计算机设备。

背景技术

近年来，全球心血管疾病的患病率逐年上升，心血管类疾病是我国死亡率最高的疾病，占居民疾病死亡构成的40％以上。其中，血脂异常会导致血管提早出现老化，是导致心血管疾病的重要因素。因此，通过对人体信号进行血脂研究是十分重要的。

现有技术中，可通过对荧光蛋白信号进行处理得到血脂亚组分含量，但该信号进行预处理后效果仍然不太理想，使荧光蛋白信号的应用有一定的局限性。在微流控电泳仪采集荧光蛋白信号的过程中，首先采集血清样品，利用微流控电泳仪将各血脂亚组分进行分离分析。如公开日为2012.10.17，公布号为CN102735763A的中国申请专利：基于血脂蛋白快速分离的脂质荧光检测技术所示：首先基于FPGA控制的数据采集硬件电路，利用发光二极管刺激血清中的荧光蛋白发光；然后，使用激光诱导的荧光检测法收集各血脂亚组分对应的荧光蛋白信号；最后通过对荧光蛋白信号进行处理得到血脂亚组分含量。但是，在对荧光蛋白信号进行采集处理的过程中，经常会出现谱峰重叠的现象，加上人体信号和人体健康指标的高度非线性不知明的关系，给信号处理和分类、回归估算造成极大的困难。

发明内容

针对现有技术的局限，本发明提出一种血脂分类方法、系统、储存介质及计算机设备，本发明采用的技术方案是：

一种血脂分类方法，包括以下步骤：

S1，获取待检测血清，采集所述待检测血清的荧光蛋白信号；

S2，通过运用随机森林血脂分类模型对所述荧光蛋白信号进行分类，获取所述待检测血清的血脂亚组分含量；所述随机森林血脂分类模型根据经过经验模式分解、K均值聚类以及奇异谱分析的样本荧光蛋白信号，采用随机森林算法进行训练获得。

相较于现有技术，本发明在训练血脂分类模型的过程中，对训练数据进行经验模式分解得到样本信号的IMF，通过K均值聚类的方法，滤除高频噪声；再通过奇异谱分析对样本信号进行多重去噪，达到最优的多分辨率分析效果，能够训练出准确度高的血脂分类器，从而实现对血脂的高精度分类。

作为一种优选方案，所述随机森林血脂分类模型通过以下步骤获得：

T1，获取若干样本荧光蛋白信号，对各样本荧光蛋白信号分别进行经验模式分解，获得若干组与所述样本荧光蛋白信号对应的本征模态函数；

T2，分别对各组本征模态函数进行K均值聚类，滤除各聚类结果中包含最高频部分的簇，对各组本征模态函数的剩余部分进行重构获得若干与所述样本荧光蛋白信号对应的荧光蛋白第一重构信号；

T3，通过对所述荧光蛋白第一重构信号进行奇异谱分析，将奇异谱分析获得的分量中的噪声成分滤除后，对剩余的分量进行重构获得若干与所述样本荧光蛋白信号对应的荧光蛋白第二重构信号；

T4，提取所述荧光蛋白第二重构信号的波峰信息，以所述荧光蛋白第二重构信号的波峰信息作为特征参数，采用随机森林算法进行训练，获得随机森林血脂分类模型。

进一步的，在所述步骤T1中，以所述样本荧光蛋白信号作为待分解信号，对各样本荧光蛋白信号分别循环以下经验模式分解步骤：

T11，找出待分解信号所有的局部极大值点和局部极小值点；运用三次样条函数，连接各局部极大值点作为上包络线，连接各局部极小值点作为下包络线；

T12，计算所述上包络线与所述下包络线的均值m以及待分解信号与m之间的差H；

T13，判断H是否满足IMF条件，若满足，则将H作为该样本荧光蛋白信号的IMF分量，执行步骤T14；否则以H作为待分解信号返回所述步骤T11；

T14，通过从该样本荧光蛋白信号剔除所述步骤T13判定的各项IMF分量，获得信号剩余部分r；

T15，判断r是否为单调函数或极小常量，若是则停止该样本荧光蛋白信号的经验模式分解，输出由各项IMF分量IMF₁,…,IMF_K组成的本征模态函数；否则以r作为待分解信号返回所述步骤T11。

更进一步的，所述样本荧光蛋白信号在循环经验模式分解步骤过程中获得的第一项IMF分量IMF₁为该样本荧光蛋白信号的最高频部分。

更进一步的，在所述步骤T2中，对各组本征模态函数分别执行以下步骤：

T21，以所述本征模态函数IMF₁,…,IMF_K作为样本点，从中随机选取N个样本点作为聚类中心；

T22，计算所述聚类中心以外其余样本点到各聚类中心的欧式距离，根据样本点到各聚类中心的欧式距离的最小值对样本点进行归类形成N个簇；

T23，滤除包含IMF₁的簇，将所述本征模态函数的剩余部分相加重构成与所述样本荧光蛋白信号X对应的荧光蛋白第一重构信号X′。

进一步的，在所述步骤T3中，对各荧光蛋白第一重构信号X′分别执行以下步骤：

T31，建立所述荧光蛋白第一重构信号X′＝(x₁,…,x_M)的轨迹矩阵W：

其中，M表示所述荧光蛋白第一重构信号的信号长度，L_X′表示滑动窗口长度，矩阵列数Y_X′＝M-L_X′+1；

T32，对所述轨迹矩阵W进行奇异值分解，获得左矩阵U＝(U₁,…,U_i)、右矩阵V＝(V₁,…,V_i)以及奇异值λ_i；

T33，通过对所述左矩阵以及右矩阵进行对角平均，重构出X′的奇异谱分析分量

根据奇异值λ_i，判别出奇异谱分析分量X′_i中的有用成分I_m和噪声成分I_n；

T34，滤除所述噪声成分I_n，根据奇异谱分析分量X′_i的有用成分I_m重构出与所述样本荧光蛋白信号X对应的荧光蛋白第二重构信号

进一步的，所述步骤T4包括以下步骤：

T41，通过小波基线与形态学的特征提取方法计算脊线线信息，提取出所述荧光蛋白第二重构信号波峰的峰高、峰宽、峰位置、峰面积及峰占比；

T42，以所述峰高、峰宽、峰位置、峰面积及峰占比作为血脂分类的特征，结合所述样本荧光蛋白信号预设的血脂标签，采用随机森林算法进行训练，获得随机森林血脂分类模型。

本发明还提供以下内容：

一种血脂分类系统，包括相互连接的荧光蛋白信号采集模块以及血脂亚组分含量获取模块；其中：

所述荧光蛋白信号采集模块用于获取待检测血清，采集所述待检测血清的荧光蛋白信号；

所述血脂亚组分含量获取模块用于通过运用随机森林血脂分类模型对所述荧光蛋白信号进行分类，获取所述待检测血清的血脂亚组分含量；所述随机森林血脂分类模型根据经过经验模式分解、K均值聚类以及奇异谱分析的样本荧光蛋白信号，采用随机森林算法进行训练获得。

一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述的血脂分类方法的步骤。

一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述血脂分类方法的步骤。

附图说明

图1为本发明实施例1提供的血脂分类方法的流程示意图；

图2为本发明实施例1提供的随机森林血脂分类模型获取步骤的流程示意图；

图3为本发明实施例1提供的步骤T1的流程示意图；

图4为本发明实施例1提供的步骤T2的流程示意图；

图5为本发明实施例1提供的步骤T3的流程示意图；

图6为本发明实施例1提供的步骤T4的流程示意图；

图7本发明实施例提供的血脂分类系统示意图；

附图标记说明：1、荧光蛋白信号采集模块；2、血脂亚组分含量获取模块。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。

为了解决现有技术的局限性，本实施例提供了一种技术方案，下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种血脂分类方法，请参考图1，包括以下步骤：

具体的，随机森林(Random Forest，RF)是一种高度灵活的机器学习算法，通过集成学习的思想将多棵决策树集成，对样本进行训练并预测。

经验模式分解(Empirical Mode Decomposition，EMD)是一种自适应信号时频处理方法，特别适用于非线性非平稳信号的分析处理，其依据数据自身的时间尺度特征来进行信号分解，无须预先设定任何基函数。

K均值聚类(K-means clustering algorithm)是一种迭代求解的聚类分析算法，其预将数据分为若干组，则随机选取对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

奇异谱分析(Singular Spectrum Analysis，SSA)是一种处理非线性时间序列数据的方法，通过对所要研究的时间序列的轨迹矩阵进行分解、重构等操作，提取出时间序列中的不同成分序列(长期趋势，季节趋势，噪声等)，从而进行对时间序列进行分析或去噪并用于其他一些任务。

作为一种优选实施例，请参考图2，所述随机森林血脂分类模型通过以下步骤获得：

具体的，若需要对所述随机森林血脂分类模型的性能进行验证，可以在获取所述样本荧光蛋白信号后，随机选取70％的样本荧光蛋白信号作为训练集用于参与采用随机森林算法进行训练，将剩余30％的样本荧光蛋白信号作为测试集用于验证所述随机森林血脂分类模型的性能。

进一步的，请参考图3，在所述步骤T1中，以所述样本荧光蛋白信号作为待分解信号，对各样本荧光蛋白信号分别循环以下经验模式分解步骤：

具体的，在所述步骤T12中，均值m＝(U_N+L_N)/2，其中U_N表示所述上包络线，L_N表示所述下包络线；待分解信号与m之间的差H＝x(t)-m，x(t)表示待分解信号；

在所述步骤T13中提到的IMF条件如下：

条件1、在整个信号上，极值点个数和过零点个数相等或至多相差一个；

条件2、在任意时刻，由局部极大值和局部极小值点分别形成的上下包络线的均值为零。

在所述步骤T14中，r＝X-IMF₁-IMF₂…；

对所述样本荧光蛋白信号X₁,…,X_n分别进行经验模式分解后，得到所述样本荧光蛋白信号各自的一组本征模态函数，各组本征模态函数中IMF的个数分别为K₁,…,K_n。以样本荧光蛋白信号X₁为例，其分解得到的本征模态函数可表示为

具体的，在经验模式分解过程中，第一个得到的IMF分量IMF₁即代表该信号中的高频噪声信号，迭代次数越靠后，所述步骤T13判定的IMF分量频率越低。

更进一步的，请参考图4，在所述步骤T2中，对各组本征模态函数分别执行以下步骤：

具体的，N的值可以按以下公式计算：

欧式距离D可以通过以下公式计算：

其中，d_i表示待求解欧式聚类的样本点，c_j＝{c₁,…,c_N}表示聚类中心。

通过聚类可以将同为噪声信号的分量滤除；所述步骤T2完成后即得到与所述样本荧光蛋白信号X₁,…,X_n对应的荧光蛋白第一重构信号X₁′,…,X_n′。

进一步的，请参考图5，在所述步骤T3中，对各荧光蛋白第一重构信号X′分别执行以下步骤：

具体的，由于大小不同的奇异值SSA分量代表着不同的成分，有用成分I_m和噪声成分I_n；其中，奇异值较小的分量被认为是噪声成分；因此，所述荧光蛋白第一重构信号X′即可分解为：

以

为例，则其轨迹矩阵W₁为：

X₁′信号长度为M₁，滑动窗口长度为

奇异谱分析分量

矩阵列数

X₁′即可分解为：

与X₁′对应的荧光蛋白第二重构信号

在所述步骤T3完成后得到与所述样本荧光蛋白信号X₁,…,X_n对应的荧光蛋白第二重构信号X₁″,…,X_n″。

进一步的，请参阅图6，所述步骤T4包括以下步骤：

具体的，所述样本荧光蛋白信号对应人群的标签可分为高血脂、正常血脂以及低血脂。所述荧光蛋白第二重构信号X₁″,…,X_n″中每个样本有P个属性，则随机森林算法模型的生成过程，在于重复以下步骤，建立大量的决策树，形成一个随机森林作为用于对荧光蛋白信号进行血脂分类的分类器：

随机选择p个属性，使p<<P满足，选择p属性的个数经验值一般是原属性个数P的平方根或原属性个数的三分之一；采用信息增益等策略对这p个属性进行评价；其中，决策树的每个节点都需要分割，并选择一个属性作为节点的split属性；在决策树形成过程中，按照前述步骤对每个节点进行拆分，此处选择使用ID3算法进行拆分：使用信息增益作为分裂规则，直到不能再拆分为止。

实施例2

一种血脂分类系统，请参阅图7，包括相互连接的荧光蛋白信号采集模块1以及血脂亚组分含量获取模块2；其中：

所述荧光蛋白信号采集模块1用于获取待检测血清，采集所述待检测血清的荧光蛋白信号；

所述血脂亚组分含量获取模块2用于通过运用随机森林血脂分类模型对所述荧光蛋白信号进行分类，获取所述待检测血清的血脂亚组分含量；所述随机森林血脂分类模型根据经过经验模式分解、K均值聚类以及奇异谱分析的样本荧光蛋白信号，采用随机森林算法进行训练获得。

实施例3

一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现实施例1中的血脂分类方法的步骤。

实施例4

一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现实施例1中的血脂分类方法的步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种血脂分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的血脂分类方法，其特征在于，所述随机森林血脂分类模型通过以下步骤获得：

3.根据权利要求2所述的血脂分类方法，其特征在于，在所述步骤T1中，以所述样本荧光蛋白信号作为待分解信号，对各样本荧光蛋白信号分别循环以下经验模式分解步骤：

4.根据权利要求3所述的血脂分类方法，其特征在于，所述样本荧光蛋白信号在循环经验模式分解步骤过程中获得的第一项IMF分量IMF₁为该样本荧光蛋白信号的最高频部分。

5.根据权利要求4所述的血脂分类方法，其特征在于，在所述步骤T2中，对各组本征模态函数分别执行以下步骤：

6.根据权利要求2所述的血脂分类方法，其特征在于，在所述步骤T3中，对各荧光蛋白第一重构信号X′分别执行以下步骤：

7.根据权利要求2所述的血脂分类方法，其特征在于，所述步骤T4包括以下步骤：

8.一种血脂分类系统，其特征在于，包括相互连接的荧光蛋白信号采集模块(1)以及血脂亚组分含量获取模块(2)；其中：

所述荧光蛋白信号采集模块(1)用于获取待检测血清，采集所述待检测血清的荧光蛋白信号；

所述血脂亚组分含量获取模块(2)用于通过运用随机森林血脂分类模型对所述荧光蛋白信号进行分类，获取所述待检测血清的血脂亚组分含量；所述随机森林血脂分类模型根据经过经验模式分解、K均值聚类以及奇异谱分析的样本荧光蛋白信号，采用随机森林算法进行训练获得。

9.一种储存介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的血脂分类方法的步骤。

10.一种计算机设备，其特征在于：包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的血脂分类方法的步骤。