CN106503733A

CN106503733A - 基于na‑memd和gmm聚类的有用信号识别方法

Info

Publication number: CN106503733A
Application number: CN201610893229.1A
Authority: CN
Inventors: 佘青山; 马玉良; 张启忠; 罗志增
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2017-03-15
Anticipated expiration: 2036-10-13
Also published as: CN106503733B

Abstract

本发明公开了一种基于NA‑MEMD和GMM聚类的有用信号识别方法。目前经验模式分解方法将多变量信号分解出若干尺度上的内蕴模式函数分量之后，如何在各个尺度上准确地识别出包含有用信息的IMF分量仍然存在依赖于先验知识、识别率较低等问题。本发明首先采用NA‑MEMD算法分解多变量信号以得到不同尺度上的IMF分量，其次采用谱回归降维算法将各个尺度上的IMF分量映射到一个低维子空间以抽取出对应的低维特征向量，然后在每个尺度上采用GMM聚类算法对低维特征向量进行聚类分析，最后根据聚类结果识别出包含有用信息的IMF分量。该方法在脑电信号处理、神经数据分析中具有广阔的应用前景。

Description

基于NA-MEMD和GMM聚类的有用信号识别方法

技术领域

本发明属于脑电信号处理领域，涉及一种脑电信号有用分量识别方法，特别涉及一种基于噪声辅助多变量经验模式分解和高斯混合模型聚类的有用信号分量识别方法。

背景技术

脑电信号(Electroencephalogram，EEG)是大脑内部的神经细胞活动在大脑皮层的综合反映，包含着与大脑状况、思维过程等方面的相关信息。由于非植入式EEG相对简单快速，对人无损，同时具有较高的时间分辨率，因而成为脑电信号处理与应用中最重要的信号获取手段之一。但是，EEG通过头皮电极获取，信号非常微弱且背景噪声强，因而从非线性、非平稳的EEG信号中准确快速地提取特定任务相关的有用信息具有重要意义。

1998年，Huang等人提出了一种完全由数据驱动的自适应的时-频分析方法——经验模式分解(Empirical Mode Decomposition，EMD)，在生物电信号处理领域得到了广泛研究，但会产生模式混叠现象。为了解决该问题，Wu和Huang提出了一种噪声辅助的改进算法EEMD(Ensemble EMD)。它利用白噪声具有频率均匀分布的统计特性，当信号加入白噪声后，改变了信号极值点的特性，使信号在不同尺度上具有连续性从而有效的避免模式混叠。但是，EEMD和EMD都只能处理一维信号，不适合分析多通道数据。2010年，Rehman等人改进了经典的EMD算法，提出了多变量经验模式分解(Multivariate EMD，MEMD)算法，可同时对多通道数据进行分解，能够避免各变量分解出的内蕴模式函数(Intrinsic Mode Functions,IMFs)个数、频率不匹配问题，但仍然存在模式混叠问题。最近，Rehman等人结合EEMD和MEMD的优点，又提出了噪声辅助的多变量经验模式分解(Noise-Assisted MEMD，NA-MEMD)方法，能很好地解决这些问题。

尽管EMD及其扩展方法得到了广泛研究和应用，如何判定包含有用信息的IMF分量是影响EMD及其拓展方法应用效果的关键因素之一。目前研究大多数利用先验知识，根据研究对象已知的频率成分对IMFs进行选取。Luo等人根据IMF分量的瞬时频率衡量对应阶分量的有效度，选取有效度最高的分量建立自回归(AR)模型，用于手部运动识别。Park等人先用MEMD方法对信号和独立高斯白噪声通道分解出若干阶次(尺度)的IMF分量，计算各尺度IMF分量的平均功率谱，然后根据运动想象脑电信号相关频率的先验信息选取有用的IMF分量，取得了优于EMD、连续小波变换和短时傅里叶变换的结果。Change等人根据与Beta节律相关的神经元振荡活动规律，通过研究Beta频带的IMFs的平均频率来选择重要的IMF分量。最近，Hu等人提出了一个不依赖先验知识的、基于统计的IMF分量识别方法，使用Wasserstein距离度量各尺度上信号IMF分量与噪声IMF分量之间的相似性来选取有用信息，在仿真数据和视觉皮层的局部场电位(Local Field Potentials，LFP)神经数据中取得了较好的实验结果。

综上所述，在使用EMD及其改进方法对多通道脑电信号分解出若干尺度上的IMF分量之后，如何在各个尺度上准确地识别出包含有用信息的IMF分量，这一问题没有得到有效解决。

发明内容

本发明的目的就是针对现有的基于EMD的有用信息识别方法依赖于先验知识、识别率较低等问题，提供一种基于噪声辅助多变量经验模式分解(Noise-AssistedMultivariate Empirical Mode Decomposition，NA-MEMD)和高斯混合模型(GaussianMixture Model，GMM)聚类的有用信号分量识别方法。

本发明提出一种基于NA-MEMD和GMM聚类的有用信号分量识别方法。首先采用NA-MEMD算法分解多通道原始信号以得到不同尺度上的IMF分量，其次采用谱回归(SpectralRegression，SR)降维算法将各个尺度上的IMF分量映射到一个低维子空间以抽取出对应的低维特征向量，然后在每个尺度上采用GMM聚类算法对低维特征向量进行聚类分析，最后根据聚类结果识别出包含有用信息的IMF分量。

为了实现以上目的，本发明方法主要包括以下步骤：

步骤(1)由n通道原始信号和l通道不相关的高斯白噪声时间序列组成一个(n+l)通道的多变量信号，使用噪声辅助的多变量经验模式分解(NA-MEMD)算法对该(n+l)变量信号进行分解，得到若干尺度上的内蕴模式函数(IMF)分量，记为一个(n+l)×J×L矩阵，其中J表示分解尺度的个数，L是每个通道的采样点数。

步骤(2)在第j(j＝1,…,J)个尺度上，将来自每个信号通道的IMF分量与来自噪声的IMF分量联合，得到n组包含(l+1)变量的复合数据，记为一个n×(l+1)×L矩阵。

步骤(3)在第j(j＝1,…,J)个尺度上，采用谱回归(SR)算法对第i(i＝1,…,n)组复合数据进行降维，产生n组低维特征向量，记为一个n×(l+1)×M矩阵，其中M是数据降维之后的维数。

步骤(4)在第j(j＝1,…,J)个尺度上，采用高斯混合模型(GMM)聚类算法估计出每组低维特征向量的最优聚类数目然后采用最大似然分类法将每组低维特征向量分成个类别。

步骤(5)在第j(j＝1,…,J)个尺度上，根据步骤(4)得到的聚类结果识别出包含有用信息的IMF分量，具体为：如果来自任何一个单独信号通道的IMF分量与来自噪声通道的IMF分量被分类到同一聚类中，那么该信号通道的IMF分量被认为是不包含有用信息的，否则被认为是包含有用信息的。

本发明与已有的基于EMD的有用信号分量识别方法相比，具有如下特点：

1、不依赖于先验信息，具有尺度依赖性

本发明采用完全数据驱动的噪声通道辅助多变量模式分解方法和，不需要根据研究对象的先验知识对IMF分量进行选取，能够识别每个信号通道在各个尺度上的有用IMF分量。

2、基于谱回归的低维表达

本发明采用谱回归方法降低NA-MEMD分解出的IMF分量的维数，构建一个近邻图来刻画它们的内在结构，从而获得IMF分量的低维表达，可以减少聚类分析的计算量和提高聚类性能。

3、基于GMM聚类的有用信息分量识别

本发明采用GMM聚类算法先对来自原始信号和噪声的低维IMF分量的概率密度函数进行建模，然后自适应地选择最优的聚类数目及其模型参数，采用最大似然分类法鉴别包含有用信息的IMF分量。

本发明方法可以较好地识别多变量信号在不同尺度上的有用信息成分，在脑电信号处理、神经数据分析、脑-机接口等领域具有广阔的应用前景。

附图说明

图1为本发明的实施流程图。

具体实施方式

下面结合附图详细描述本发明所提的基于噪声辅助多变量经验模式分解(NA-MEMD)和高斯混合模型(GMM)聚类的有用信号分量识别方法，图1为实施流程图。

如图1，本发明方法的实施主要包括五个步骤，下面逐一对各步骤进行详细说明。

步骤一：由n通道原始信号和l通道不相关的高斯白噪声时间序列组成一个(n+l)通道的多变量信号，使用噪声辅助多变量经验模式分解算法对该(n+l)变量信号进行分解。具体过程如下：

(1)随机生成l通道不相关高斯白噪声信号，其长度与n通道原始信号等长，长度都为L。

(2)将生成的l通道噪声信号加入到n通道原始信号中，构成(n+l)通道的多变量信号s(t)。

(3)采用多变量经验模式分解(MEMD)算法对信号s(t)进行分解，产生J个不同尺度上的IMF分量和一个残余分量，公式如下：

其中，d_j(t)为第j个尺度IMF分量，r(t)是残余分量。经分解后，可以得到一系列尺度上的IMF分量，记为一个(n+l)×J×L矩阵。

步骤二：在第j(j＝1,…,J)尺度上，将来自每个信号通道的IMF分量与来自噪声的l通道IMF分量联合，得到n组包含(l+1)变量的复合数据，记为一个n×(l+1)×L矩阵。

步骤三：在第j(j＝1,…,J)尺度上，采用谱回归(Spectral Regression，SR)算法对第i(i＝1,…,n)组复合数据进行降维，产生n组低维特征向量，记为一个n×(l+1)×M矩阵，其中M是数据降维之后的维数。

下面简单介绍SR降维的算法原理。它把对高维数据映射为低维数据的线性稀疏投影矩阵的学习，引入到稀疏回归模型中，有效避免了传统流行学习中出现的稠密矩阵的特征值分解问题，在获得最优投影矩阵后，依据此矩阵评估每个特征的重要性，从而选择最重要的较少个数特征来表征原特征集合。假设有N个数据点降维的目的是寻找一个低维的表示M＜＜L。给定一个具有N个顶点的p-近邻图G，其中第i个顶点对应于数据点x_i。让W表示一个对称的N×N矩阵，W_ij为连接顶点i和j的边的权值。

从图到实线的映射定义为v＝[v₁,…,v_N]^T，其中符号T表示转置。在图嵌入方法中，引入一个线性函数v_i＝f(x_i)＝a^Tx_i，可以得到X^Ta＝v，其中a＝[a₁,…,a_N]^T。最优嵌入v由下面广义特征问题的最大特征值所对应的特征向量决定：

XWX^Ta＝λXDX^Ta (2)

其中，λ表示特征值，对角矩阵D的元素是W中各列的和，即D_ii＝Σ_jW_ji。该优化问题可以通过带正则项的回归方法求解，其解表示为：

其中，v_i是v的第i个元素，||·||₂表示L₂范数，||·||₁表示L₁范数，α是L₂范数参数，β为L₁范数参数。根据实际应用中约减子空间的期望维数，选取a中最大的M个特征向量，于是得到样本矩阵X的低维表示，即Z＝X^Ta。

与线性回归类似，通过在再生核希尔伯特(RKHS)空间定义一个非线性嵌入函数其中K(x,x_i)是Mercer核函数，K(x)＝[K(x,x₁),…,K(x,x_N)]^T，线性谱回归方法可以被推广至核谱回归(Kernel SR)。

步骤四：在第j(j＝1,…,J)尺度上，采用GMM聚类算法估计出每组低维特征向量的最优聚类数目然后在和相应的GMM参数基础上，采用最大似然(Maximum Likelihood，ML)分类法将低维特征向量分成个类别。

下面简单介绍GMM聚类算法的原理。作为一种概率建模方法，GMM被广泛用来解决无监督学习问题。以期望最大法和使用最小描述长度(Minimum Description Length，MDL)准则的聚合聚类(Agglomerative Clustering)策略为基础，基于GMM的聚类方法被提出并用来估计最优的聚类个数。该方法从一个初始的聚类数目开始，然后迭代地合并集合，直到只剩下一个聚类。

定义为一组属于不同类别的M维样本，y＝[y₁,…,y_N]是每个样本的类别标号，其中y_i∈{1,…,c}，c是类别数。GMM聚类算法的具体步骤如下：

(1)初始化参数，包括初始聚类个数c_o和高斯模型参数其中μ_k是均值向量，Σ_k是第k个高斯分布的协方差矩阵，π_k是第k个成分生成的数据点的先验概率，k＝1,…,c。在实际应用中，应该根据具体情况选择合适的初始聚类个数。

(2)采用迭代的期望最大算法，直到MDL标准(MDL(K,Ω))的变化小于一个阈值ε，这里ε＝0.01×(1+M+(M+1)M/2)×log(NM)。

其中，是假设y_i＝k下样本z_i的条件概率密度函数，log(·)表示对数变换，υ是用来设定模型参数的连续实数的个数，υ＜1/(2NM)。

(3)记录模型参数和值，其中i_final表示每个c值下期望最大法更新过程的最终迭代次数。

(4)如果聚类个数大于1，应用聚合聚类法来减少聚类数目，让c减1，重复步骤(2)。

(5)挑选出最小化MDL标准的值和模型参数

(6)根据步骤(5)得到的优化参数和采用最大似然分类法将样本向量分成个类别。

步骤五：在第j(j＝1,…,J)尺度上，根据步骤四得到的聚类结果识别出包含有用信息的IMF分量，具体为：如果来自任何一个单独信号通道的IMF分量与来自噪声通道的IMF分量被分类到同一聚类中，那么该IMF分量被认为是不包含有用信息的，否则被认为是包含有用信息的。

Claims

1.基于NA-MEMD和GMM聚类的有用信号识别方法，其特征在于，该方法具体包括以下步骤：

步骤(1)由n通道原始信号和l通道不相关的高斯白噪声时间序列组成一个(n+l)通道的多变量信号，使用噪声辅助的多变量经验模式分解算法对该(n+l)变量信号进行分解，得到若干尺度上的内蕴模式函数分量，记为一个(n+l)×J×L矩阵，其中J表示分解尺度的个数，L是每个通道的采样点数；

步骤(2)在第j个尺度上，j＝1,…,J，将来自每个信号通道的内蕴模式函数分量与来自噪声的内蕴模式函数分量联合，得到n组包含(l+1)变量的复合数据，记为一个n×(l+1)×L矩阵；

步骤(3)在第j个尺度上，j＝1,…,J，采用谱回归算法对第i组复合数据进行降维，i＝1,…,n，产生n组低维特征向量，记为一个n×(l+1)×M矩阵，其中M是数据降维之后的维数；

步骤(4)在第j个尺度上，j＝1,…,J，采用高斯混合模型聚类算法估计出每组低维特征向量的最优聚类数目然后采用最大似然分类法将每组低维特征向量分成个类别；

步骤(5)在第j个尺度上，j＝1,…,J，根据步骤(4)得到的聚类结果识别出包含有用信息的内蕴模式函数分量，具体为：如果来自任何一个单独信号通道的内蕴模式函数分量与来自噪声通道的内蕴模式函数分量被分类到同一聚类中，那么该信号通道的内蕴模式函数分量被认为是不包含有用信息的，否则被认为是包含有用信息的。