CN113705437B

CN113705437B - 一种基于多流形嵌入式分布对齐的领域自适应方法

Info

Publication number: CN113705437B
Application number: CN202110993172.3A
Authority: CN
Inventors: 高云园; 刘易赐; 范凌霄; 佘青山; 张卷卷
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2024-03-12
Anticipated expiration: 2041-08-25
Also published as: CN113705437A

Abstract

本发明公开了一种针对于脑机接口的跨域脑电信号识别方法，本发明是在特征层面处理数据，利用黎曼流形的空间性和可计算性来提取不同受试者的脑电信号的切空间特征，然后将其映射到格拉斯曼流形上进行深层次的领域自适应操作。在域适应中，同时考虑源域和目标域数据的几何和统计属性，首次使用了伪标签更新目标域散度矩阵使类间距离最大化和类内距离最小化。来自BCI的数据集用于验证该发明的有效性。在这两种实验范例下，该发明获得了优秀的结果。跨域脑电信号识别是未来脑机接口走向实践的一个富有潜力的方向，在此方面本发明具有一定的积极意义。

Description

一种基于多流形嵌入式分布对齐的领域自适应方法

技术领域

本发明属于生物信号处理领域，涉及一种针对于脑机接口的跨域脑电信号识别方法。

背景技术

脑机接口(BCI)逐渐成为一种新的通信途径，通过直接将人们的神经元活动解码成特定的命令来操纵外部硬件设备。在头皮脑电信号(EEG)中，通常缺乏大量有标签样本来用于传统机器学习中的训练模型，进行数据标注时费时费力，给我们带来了很大的阻碍。并且，不同的用户对相同的刺激也有不同的神经反应，即使是相同的用户也可以在不同的时间和地点对相同的刺激有不同的神经反应。对于如何解决不同脑电信号差异性，将他人的脑电数据能够用于其他人的训练是一个富有挑战性的问题。

迁移学习不同于传统机器学习，它取消了训练和测试样本位于相同的特征空间中，并具有相同分布的假设。它的核心是利用算法来最大限度地利用有标注的领域知识，来辅助目标领域的知识获取和学习。简而言之就是寻找到源域和目标域的相似性。因此能够解决不同脑电信号差异性问题，在EEG领域中得到广泛的关注。

迁移学习面临着如何迁移的问题，即如何有效地适应另一个领域。脑电信号中通常有更多的通道，但这导致了维度冗余，使得脑机接口的迁移学习变得困难。针对这一问题，本发明提出了一种基于多流形嵌入分布式对齐EEG识别算法，该算法在高维空间中具有低维流形结构，可以很好地近似源域和目标域的分布。因此，本发明提取每个主体的黎曼流形的切线空间特征(而不是统一在一个切线空间中)。随后，将其映射到格拉斯曼流形，在映射到格拉斯曼流形之前，对特征进行主成分分析，以确保算法的计算性能。在这个框架下，再进行更深层次的自适应分布适应。最后，在格拉斯曼流形空间中学习了一个与主题相适应的特征。

发明内容

本发明公开了一种基于多流形嵌入式分布对齐的领域自适应脑电信号识别方法。我们所做的是在EEG运动想象(MI)数据集上分别提取每个人的黎曼流形的切空间特征，而不是统一在一个切空间中。此时再映射到格拉斯曼流形中，将黎曼切空间得到的特征经过主成分分析后的数据作为子空间，每个子空间在格拉斯曼流形中看作一个点，在此框架下再进行更深层次的自适应分布适配，最终在格拉斯曼流形空间中学习到一个适应于受试者的特征。

本发明提供一种基于多流形嵌入式分布对齐的领域自适应方法，包括以下步骤：给定一个源域有标签数据集D_s＝{X_S，Y_S}和目标域的一个无标签数据集D_t＝{X_T}，其中X_S表示源域数据，Y_S表示源域标签；n_s，n_t分别用来表示源域和目标域的样本数，D是数据实例的维数；并且用A，B表示子空间映射后的源域和目标域；设定假设条件为在特征空间上X_S＝X_T，在标签空间上Y_S＝Y_T，但在边际概率上P_S(X_S)≠P_T(X_T)和条件概率上Q_S(Y_S|X_S)≠Q_T(Y_T|X_T)；经过格拉斯曼流形的映射后源域依旧使用X_S来表示，目标域用X_T来表示；

步骤一，将原始信号在黎曼流形中进行质心对齐并且提取各域的切空间特征。

在提取黎曼流形的切空间特征时需要利用黎曼均值与切线空间映射。在黎曼几何中两个SPD矩阵SPD₁和SPD₂之间的黎曼距离为：

其中||·||_F是F范数。

的黎曼均值为：

在切空间映射中它将每一个协方差矩阵P_i投影到黎曼均值上的黎曼流形的切空间上：

其中，upper为取矩阵上三角元素；

步骤二，将各自域的切空间特征统一映射入格拉斯曼流形中。

格拉斯曼流形问题设定为：假如W是n维向量空间，考虑W中全体k维子空间构成的集合G＝Grass(k，W)，因为G上有自然的流形结构，因此它被称为格拉斯曼流形；流形空间中的特征被表示为z＝φ(t)^Tx，其中φ(t)^T为投影矩阵；变换后的特征Z_i和Z_j的内积定义了一个半正定的测地线流式核：

步骤三，在统一的流形空间内进行域适应操作。

域适应方法具体如下：

1)目标域类内类间散度矩阵保持数据差异属性；在子空间的映射过程中，根据流形的假设，两个不同的样本在原始空间的距离关系与映射空间的距离关系保持一致，通过下式来保留目标域数据的可区分性：

其中，S_w1为目标域的类内散射矩阵，S_b1为源域的类间散射矩阵，其定义如下：

其中是属于e类的目标域数据集，/> 是e类的数据中心矩阵，/>为中心矩阵，/>是所有矩阵的列向量，n_t ^(e)是e类中的目标样本的数量；

2)源域类内类间散度矩阵保持数据差异属性；和目标域的可区分性保留一致，得到源域的保留条件：

其中，S_b2为源域的类间散度矩阵，S_w2为源域的类内散度矩阵，定义与目标域散度矩阵一致；

3)目标域构造拉普拉斯图保持局部信息；图的正则化试图在低维空间中保留当地的相邻关系，在格拉斯曼流形中能够起到很好的作用，因此本文加入拉普拉斯正则化项来进一步利用流形G中最近点的相似几何性质；将具有成对的亲和力矩阵表示为

其中，N_p(x_i)是x_i的p-最邻域集合，σ为范围参数，通常为1；这里使用归一化图拉普拉斯矩阵L_t＝I-D^-1/2VD^-1/2，其中D是对角矩阵，其中得到图的正则化形式为：

其中f(x_i)，f(x_j)为在流形空间中的数据表达形式；

4)正则化与域漂移；将黎曼切空间特征映射到格拉斯曼流形中后，目标域和源域拥有了相同特征空间，利用CA让它们的概率分布逼近，同时优化A和B，来保留源类信息和目标域方差，与/>有着不同比例的关系，所以设置β参数来获得最佳的比例；使用以下方法将A，B子空间逼近：

5)目标域方差最大化

将共同投影后的目标域做方差最大化，实现方式为：

max_BTr(B^TS_tB) (14)

其中为目标域的中心矩阵，/>是全为1的矩阵；

6)适配概率分布自适应；使用MMD距离来衡量各域之间的分布差异性，MMD计算的是k维嵌入后源域的样本均值和目标域之间的距离，如下式：

其中φ(·)为映射函数。

在目标域的条件分布表示上，利用源域数据训练得到的分类器直接预测目标域数据来得到伪标签，用伪标签来表示目标域的类条件分布；利用多次迭代更新目标域的伪标签，逐渐缩小两个域之间的条件分布差异；通过下式实现：

其中，

其中O_tO_s为全一矩阵，c为所属的类别。

本发明与已有的诸多迁移学习方法相比，具有如下特点：

在分析方法上，本发明利用流形空间中的低维结构特性，首次采用多流形嵌入的方式来进行领域自适应。利用多流形的目的是能够得到低维结构中的信息和剔除多余信息，并且保持很好的可计算性。此外本发明首次采用了利用训练所得到的伪标签来迭代更新目标域的散度矩阵。在最大化类间距离的同时，最小化类内距离。本发明对于脑机接口领域的跨域分析具有积极意义。

在验证本发明的有效性上，采用了三个脑电数据集进行科学的验证，并分别做了单源测试和多源测试，证明了本发明在不同数据集上的效果一样显著，并且本发明不仅在脑机接口领域有效，在其他领域同样适用，可在图像，文本，语音等领域进行延伸。

附图说明

图1所示为格拉斯曼流形迁移学习方法示意图；

图2所示为数据集采集过程图

图3(a)所示为MI2中S1，S2的t-SNE可视化：原始信号进行共空间模式滤波；

图3(b)所示为MI2中S1，S2的t-SNE可视化：原始信号进行质心对齐；

图3(c)所示为MI2中S1，S2的t-SNE可视化：原始信号使用多流形嵌入式分布对齐的领域自适应算法。

具体实施方式

下面结合图和表格对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。

本实施例的具体实现流程如图1所示。

在数据预处理阶段，首先将MI1，MI2，MI3进行8-30Hz滤波处理，来获得实验所用的信号，再将整体信号做分段处理，选取新线索后的0.5-3.5S时间段来做实验。数据集的采集实验范式如图2所示。

接下来，对于三个MI数据集，使用了CSP筛选试验的六个对数方差特性作为基础特征。再利用协方差矩阵质心对齐方法获得对齐后的协方差矩阵，即在预处理阶段进行了初步的数据边缘概率分布差异的缩小。

最后，将得到的子空间特征进行领域自适应操作，得到变换后的可跨域特征，将此特征用于分类器的分类。特征变换过程中维度发生了多次改变，具体如表1所示。

表1不同数据集的空间输入维度；

	MI1	MI2	MI3
				Tangent Space	200×200	253×144	×280
Riemannian	59×59×200	22×22x144	188×188×280
				Grassmann	25×200	25×144	25×280

针对MI的迁移特性，本发明将进行单源与多源的相关实验，在单源的本方法中，采用单个被试者为目标域，同时数据集中单个被试者作为源域。设V是一个数据集中的主题的数量。拥有V(V-1)个不同的实验。在多源的本方法中，单个受试者作为目标域，数据集中其他的受试者作为源域共同训练，拥有V个不同的实验。以MI2为例，MI2拥有9名受试者，因此在单源实验中，拥有9×8＝72次不同的实验。多源实验中，当以S1作为目标域时，S1→S2，S3，S4，S5，S6，S7，S8，S9，其中S2，S3，S4，S5，S6，S7，S8，S9共同作为源域。由于S2，S3，S4，S5，S6，S7，S8，S9都可分别做源域，因此有9次不同的实验。

采用平衡分类精度(BCA)作为性能指标：

其中tp_k和n_k分别是类别k中的正确分类的数量和样本的数量。

本发明的目标是降低目标域与源域之间的差异性和增强类别之间的差异性，利用t-SNE可视化来展现本发明在EEG信号中迁移学习的优势，以MI2数据集中S1，S2为例，并画出原始信号的各域分布和类别的分布进行对比，如图3(a)，图3(b)，图3(c)所示。

图3(a)为原始信号经过CSP空间滤波处理后的分布图，原始图为红蓝两色，其中红色部分由实线框起，为target class，并且可见source class的源域与target class的目标域的界限十分明显，在类别上具有区分度，但对于得到的模型，明显不具有良好的泛化能力；图3(b)为原始信号经过CA对齐目标域与源域协方差矩阵，在黎曼空间中提取切空间特征的分布图，经过预处理后的数据边缘分布有了进一步的逼近，但是泛化能力依旧不足，类间的差异性并没被很好的体现出来；图3(c)为经过预处理后的数据通过本发明得到的分布图，在该算法下，目标域与源域的边缘分布与条件分布得到了很好的对齐，消除了域间差异，模型具有较强的泛化能力，并在类别的差异上被充分体现出来。

本发明在三个运动想象的数据集上分别进行单源迁移学习和多源迁移学习来验证算法的可靠性。采用平衡分类精度BCA作为指标，并且在所有方案中固定参数α＝0.01，μ＝0.86，β＝0.1，ρ＝20，将伪标签迭代次数设置为4，实验结果如表2(a)，表2(b)所示：

表2(a)本发明进行单源实验在各数据集的平均准确率

表2(b)本发明进行多源实验在各数据集的平均准确率

表中最终的平均准确率采用黑体加粗。在与其他最新迁移学习方法的比较中，本发明在单源迁移和多源迁移中均取得了平均最佳结果。

Claims

1.一种基于多流形嵌入式分布对齐的领域自适应方法，其特征在于，该方法具体包括以下步骤：

给定一个源域有标签数据集D_s＝{X_S，Y_S}和目标域的一个无标签数据集D_t＝{X_T}，其中X_S表示源域数据，Y_S表示源域标签；n_s，n_t分别用来表示源域和目标域的样本数，D是数据实例的维数；并且用A，B表示子空间映射后的源域和目标域；设定假设条件为在特征空间上X_S＝X_T，在标签空间上Y_S＝Y_T，但在边际概率上P_S(X_S)≠P_T(X_T)和条件概率上Q_S(Y_S|X_S)≠Q_T(Y_T|X_T)；经过格拉斯曼流形的映射后源域依旧使用X_S来表示，目标域用X_T来表示；

步骤一，将原始信号在黎曼流形中进行质心对齐并且提取各域的切空间特征；在提取黎曼流形的切空间特征时需要利用黎曼均值与切线空间映射；

在黎曼几何中两个SPD矩阵SPD₁和SPD₂之间的黎曼距离为：

其中‖·‖_F是F范数；

的黎曼均值为:

在切空间映射中将每一个协方差矩阵P_i投影到黎曼均值上的黎曼流形的切空间上：

其中，upper为取矩阵上三角元素；

步骤二，将各自域的切空间特征统一映射入格拉斯曼流形中；

格拉斯曼流形问题设定为：假如W是w维向量空间，考虑W中全体k维子空间构成的集合G＝Grass(k，W)，因为G上有自然的流形结构，因此它被称为格拉斯曼流形；

流形空间中的特征被表示为z＝φ(t)^T x，其中φ(t)^T为投影矩阵；变换后的特征Z_i和Z_j的内积定义了一个半正定的测地线流式核:

步骤三，在统一的流形空间内进行域适应操作；

域适应方法具体如下：

其中是属于e类的目标域数据集，/> 是e类的数据中心矩阵，/>为中心矩阵，是所有矩阵的列向量，n_t ^(e)是e类中的目标样本的数量；

其中，N_p(x_i)是x_i的p-最邻域集合，σ为范围参数，它为1；这里使用归一化图拉普拉斯矩阵L_t＝I-D^-1/2VD^-1/2，其中D是对角矩阵，其中得到图的正则化形式为：

其中f(x_i)，f(x_j)为在流形空间中的数据表达形式；

4)正则化与域漂移；将黎曼切空间特征映射到格拉斯曼流形中后，目标域和源域拥有了相同特征空间，利用利用质心对齐算法CA让它们的概率分布逼近，同时优化A和B，来保留源类信息和目标域方差，与/>有着不同比例的关系，所以设置β参数来获得最佳的比例；使用以下方法将A，B子空间逼近：

5)目标域方差最大化

将共同投影后的目标域做方差最大化，实现方式为：

max_BTr(B^TS_tB)(14)

其中为目标域的中心矩阵,/>是全为1的矩阵；

其中φ(·)为映射函数；

其中，

其中O_tO_s为全一矩阵，c为所属的类别。