CN116343261A

CN116343261A - 基于多模态特征融合与小样本学习的手势识别方法和系统

Info

Publication number: CN116343261A
Application number: CN202310234553.2A
Authority: CN
Inventors: 毕宿志; 陈新裕; 林晓辉; 郑莉莉
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-27

Abstract

本发明涉及一种基于多模态特征融合与小样本学习的手势识别方法和系统。该方法包括：获取手势识别的源域数据和目标域数据；采用来自不同链路的所述源域数据分别训练第一特征提取器和第二特征提取器并获取第一特征和第二特征，并将所述第一特征和所述第二特征输入多模态特征融合器以进行特征融合以获得多模态融合特征；基于所述多模态特征融合器融合获取所述目标域数据的训练特征，基于所述训练特征训练分类器，再基于训练好的分类器进行手势识别。本发明利用多模态特征融合可以将多对收发设备收到的数据进行特征融合，从而增强特征，因此利用小样本学习的方法，只需要采集少量的目标域数据就可以实现高准确率的跨域手势识别。

Description

基于多模态特征融合与小样本学习的手势识别方法和系统

技术领域

本发明涉及手势识别领域，更具体地说，涉及一种基于多模态特征融合与小样本学习的手势识别方法和系统。

背景技术

作为人机交互的核心技术之一，手势识别在智能家居、VR等人机交互领域有着广泛的应用。传统的手势识别研究方法主要包括基于视觉的手势识别技术和基于传感器的手势识别技术，这两种方法虽然能够达到较高的估计精度，但存在各自的不足。

基于视觉的手势识别技术，由于不需要用户另外携带设备，所以可以在不干扰用户的情况下对所需的数据进行采集。因此从手势样本采集的角度来说，这种方式比基于传感器的方式要更为方便，更有利于长时间的数据采集工作。但是当环境中处于非视距条件、且有相近的背景时，数据的采集会受到很大的干扰。与此同时，对手势的视觉识别可能会侵犯用户的隐私，在某些特殊场合(如浴室或卧室)并不适用。

基于传感器的手势识别需要检测目标每时每刻携带安装有传感器的设备来采集数据，其特点是采集数据量少、传输速度快。采集到的数据中包含了手指的位置、运动方向和手腕弯曲程度等信息，因此能够实时识别各种手部动作。此外，此方法在采集数据时不依赖于光照等环境条件，抗干扰性非常好。然而，这种方法需要用户一直佩戴相关设备，这对于用户来说是十分不方便的，也不现实。与此同时，这类设备通常价格高昂，难以大规模部署。

与上述两个方法相比，基于WiFi的手势识别技术所需的设备成本低廉，又因为如今基本上家家户户都有WiFi设备，也不需要用户时时刻刻携带采集设备，造成使用上的不方便。与此同时，WiFi信号不同于摄像头，工作时，这种技术不受视距等因素的影响，也不会造成用户的隐私泄露。

基于WiFi的手势识别所使用的数据形式主要包括接收的信号强度指示(ReceivedSignal Strength Indication，RSSI)和信道状态信息(channel state information，CSI)。RSSI表示的是一段时间内，接收信号的强度信息，反映了多径叠加的总幅度，属于粗粒度信息。相比于RSSI，CSI呈现了不同频率(对应不同子载波)下多径传播的幅度与相位，从而可以更加精确地表示具有频率选择性衰落特性的信道，属于细粒度信息。因此对于手势识别的判断来讲，CSI比RSSI能够取得更加高的准确率。

目前，基于WiFi信号的手势识别技术可分为基于模型的方法和基于机器学习算法的方法，前者需要对手势数据进行模型构建以提取特征，然后使用分类算法(如最近邻算法，支持向量机，逻辑回归，随机森林等)对特征进行识别分类。此方法虽然无需大量的样本，但是需要计算波达角(Arrival of Angle，AoA)、飞行时间(Time of Flight，ToF)或者多普勒频移(Doppler Frequency Shift，DFS)这类参数。而这类参数通常难以计算，同时精度不足。后者使用深度学习神经网络来完成手势的特征提取与识别，然而该方法需要采集大量的样本用于模型训练，同时，由于对于同一种手势，实验环境的变化(如变更实验场所、实验人员、收发设备位置、实验地点以及人员方向等)都可能导致相应的CSI测量值变化模式的不同，从而使得模型跨域识别准确率急速下降。

发明内容

本发明的目的在于，提供一种多模态特征融合与小样本学习的手势识别方法和系统，旨在解决现有技术中的实验人员的手势执行的方向与位置与训练模型时的样本不同时，手势识别的准确率会大幅度下降导致模型鲁棒性差，以及需要采集大量的样本来完成深度学习的特征提取工作的缺陷。

根据本发明的第一方面，提供了一种基于多模态特征融合与小样本学习的手势识别方法，包括：

S1、获取手势识别的源域数据和目标域数据；

S2、采用来自不同链路的所述源域数据分别训练第一特征提取器和第二特征提取器并获取第一特征和第二特征，并将所述第一特征和所述第二特征输入多模态特征融合器以进行特征融合以获得多模态融合特征；

S3、基于所述多模态特征融合器融合获取所述目标域数据的训练特征，基于所述训练特征训练分类器，再基于训练好的分类器进行手势识别。

在本发明的优选实施例中，所述步骤S2进一步包括：

S21、将来自第一链路的所述源域数据作为第一训练集训练所述第一特征提取器以获取所述第一特征，将来自第二链路的所述源域数据作为第二训练集训练所述第二特征提取器以获取所述第二特征，其中所述第一特征提取器和所述第二特征提取器独自训练；

S22、将所述第一特征和所述第二特征输入所述多模态特征融合器以进行特征融合以获得多模态融合特征，其中所述多模态融合特征为所述第一特征和所述第二特征的元素乘积。

在本发明的优选实施例中，所述第一特征提取器和所述第二特征提取器分别包括一个一维CNN层和三个二维CNN层以及两个全连接层。

在本发明的优选实施例中，所述一维CNN层包含256个大小为2的卷积核，一个标准化层，一个ReLU激活函数以及一个池化层；

第一个二维CNN层包括256个3×3大小的卷积核，一个批量标准化层和一个Relu激活函数，以及一个池化层；第二个二维CNN层包括128个2×2大小的卷积核，一个批量标准化层和一个Relu激活函数，以及一个池化层；第三个二维CNN层包含有64个2×2大小的卷积核，一个批量标准化层和一个Relu激活函数，以及一个池化层。

在本发明的优选实施例中，所述多模态特征融合器包括第一展平层、第二展平层、第一线性层、第二线性层和元素乘积层，所述第一展平层和所述第二展平层分别连接所述第一特征提取器和所述第二特征提取器的第二个二维CNN层的输出以获取并融合所述第一特征和所述第二特征；

所述多模态融合特征

表示为/>

°表示Hadmard乘积，/>

为双线性模型输出，a和/>

分别表示所述第一特征和所述第二特征。

在本发明的优选实施例中，所述多模态特征融合器进一步包括求和池化层和归一化层，所述多模态融合特征经过所述求和池化层求和处理以获得收敛特征

其中函数sumpooling(X,P)表示使用大小为P的1维非重叠窗口来实现X上的求和池化，k表示所述源域数据和所述目标域数据的矩阵维数。

在本发明的优选实施例中，所述步骤S1进一步包括：S11、采用至少两个信号接收器采集不同位置和不同方向上的手势识别信号；S12、对所述手势识别信号进行预处理；S13、基于所述手势识别信号的位置信息将其划分成所述源域数据和所述目标域数据。

在本发明的优选实施例中，所述手势识别信号为CSI数据，所述预处理包括归一化处理、去除静态部分处理、分片PCA处理、重建处理和平滑处理。

在本发明的优选实施例中，所述归一化处理包括将CSI数据流在子载波维度进行归一化：

其中

表示归一化后CSI数据流，x_max和x_min是每个时间点采集到的CSI数据中56个子载波的最大值和最小值，/>

和/>

是指归一化后数据最小值和最大值，分别设置为-1和1。

根据本发明的第一方面，提供了一种基于多模态特征融合与小样本学习的手势识别系统，包括：

数据获取模块，用于获取手势识别的源域数据和目标域数据；

多模态融合模块，用于采用来自不同链路的所述源域数据分别训练第一特征提取器和第二特征提取器并获取第一特征和第二特征，并将所述第一特征和所述第二特征输入多模态特征融合器以进行特征融合以获得多模态融合特征；

手势识别模块，用于基于所述多模态特征融合器融合获取所述目标域数据的训练特征，基于所述训练特征训练分类器，再基于训练好的分类器进行手势识别。

本发明的基于多模态特征融合与小样本学习的手势识别方法，利用多模态特征融合可以将多对收发设备收到的数据进行特征融合，从而增强特征。再利用小样本学习的方法，只需要采集少量的目标域数据就可以实现高准确率的跨域手势识别，因此能够解决基于WiFi的手势识别技术的位置方向依赖导致的导向变化影响手势识别的准确率的问题，同时减少新环境下模型训练对大量样本的需求并提高了模型的鲁棒性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明的优选实施例的基于多模态特征融合与小样本学习的手势识别方法的流程图；

图2是根据本发明优选实施例的源域数据获取的示意图；

图3是根据本发明优选实施例的目标域数据获取的示意图；

图4是本发明的又一优选实施例的基于多模态特征融合与小样本学习的手势识别方法的逻辑流程图；

图5是图4所示的基于多模态特征融合与小样本学习的手势识别方法的数据预处理的流程示意图；

图6是根据本发明的优选实施例的多模态融合特征获取步骤的流程图；

图7是根据本发明的优选实施例的特征提取器的模型示意图；

图8是根据本发明的优选实施例的多模态特征融合器的模型示意图；

图9是采用本发明的优选实施例的基于多模态特征融合与小样本学习的手势识别方法同一位置不同方向上的识别准确率的示意图；

图10是采用本发明的优选实施例的基于多模态特征融合与小样本学习的手势识别方法在不同位置的单个手势的分类结果示意图；

图11A-B是采用本发明的优选实施例的基于多模态特征融合与小样本学习的手势识别方法在不同实验人员在相同位置的单个手势的分类结果示意图；

图12是本发明的优选实施例的基于多模态特征融合与小样本学习的手势识别系统的原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明设计了一种基于多模态特征融合与小样本学习的手势识别方法。目前，基于Wi-Fi手势识别技术中对手势执行位置和执行人方向的依赖性问题是需要解决的重点，即：当实验人员的执行手势的位置与方向和训练模型时的样本不同时，手势识别的准确率会大幅度下降。我们将手势执行的不同位置和不同方向上所采集到的数据分别划分为源域和目标域数据。其中源域的数据为任一位置的4个方向上的数据。同时，为了增强特征，提高识别的准确率，我们采用了多模态特征融合方法，将这些不同收发设备的数据进行特征融合。采用这一方法提取的特征包含更丰富的信息，因此显著提高了后续模型的检测准确度，进而解决了现有技术中的实验人员的手势执行的方向与位置与训练模型时的样本不同时，手势识别的准确率会大幅度下降导致模型鲁棒性差的问题。并且，为了减少样本的采集工作，本发明采用了小样本学习的思路，使得整个模型的训练只需要少量的样本。对于目标域(不同的位置和方向上执行的手势)的识别只需要依靠少量的训练样本(每个方向每个手势类型1个样本)，就能实现对目标域的高准确率识别效果。

下面将结合具体实施例对本发明的基于多模态特征融合与小样本学习的手势识别方法说明如下。图1是本发明的优选实施例的基于多模态特征融合与小样本学习的手势识别方法的流程图。应理解，所述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图1所示，在步骤S1中，获取手势识别的源域数据和目标域数据。图2是根据本发明优选实施例的源域数据获取的示意图。图3是根据本发明优选实施例的目标域数据获取的示意图。如图2所示，实验场景为一个会议室，我们分别采用接收器1和接收器2采集会议室中的任一位置的4个方向(上下左右)的6种手势的数据作为源域数据。如图3所示，实验场景为同一个会议室，我们分别采用接收器1和接收器2采集会议室的另一个位置的4个方向的数据作为目标域数据。这样，我们可以根据实验人员的手势执行位置不同和手势执行方向不同划分为源域数据(实验人员在位置1处实验时，接收器1和接收器2的数据)与目标域数据(实验人员在其他位置实验时，接收器1和接收器2的数据)。源域数据将用于训练我们的特征融合器，以通过特征融合器进行源域数据进行特征融合，从而提取包含更丰富信息的特征，以便提高后续模型的检测准确度。然后目标域数据将输入到特征融合器中得到分类器训练手势特征，再使用此特征来训练一个分类器。此时，训练分类器仅需要使用少量样本(每种动作的类别在不同方向上选取1个样本)。

在步骤S2中，采用来自不同链路的所述源域数据分别训练第一特征提取器和第二特征提取器并获取第一特征和第二特征，并将所述第一特征和所述第二特征输入多模态特征融合器以进行特征融合以获得多模态融合特征。

在本发明的优选实施例中，来着不同的链路的源域数据可以是来自不同收发设备的源域数据，比如来自接收器1和其对应的发送器的源域数据可以为来自第一链路的源域数据，来自接收器2和其对应的发送器的源域数据可以为来自第二链路的源域数据。

在本申请中，我们首先利用多模态特征融合的思想，我们第一阶段目标是训练多模态特征融合器f_θ，多模态特征融合器能将从两个不同来源(两台采集链路)的采集到的相同手势下的CSI信息融合成一个特征，这种融合的原因是在不同链路下，同一手势对CSI信息造成的影响不同，但他们之间也存在着信息的交叉，互补现象，因此，多模块融合的特征要比单个特征更加优秀，也蕴含更多的特征信息，有利于后续的分类工作。

在步骤S3中，基于所述多模态特征融合器融合获取所述目标域数据的训练特征，基于所述训练特征训练分类器，再基于训练好的分类器进行手势识别。

在本步骤中，其目的是利用元学习的知识迁移的思想，当我们从源域中训练得到性能优越的多模态特征融合器f_θ后，只需要从目标域中采集在不同方向上每种手势的1个样本既可实现优越的分类性能。

在本申请中，我们进一步考虑到了一般的机器学习算法训练模型需要大量样本，而手势的样本采集需要大量时间，于是采用了元学习的方式，在源域采用源域数据训练好特征提取器，并组合成为多模态特征融合器后，模型的参数将不再改动，再将目标域中的目标域数据使用此特征融合器完成特征的提取与融合工作，之后使用集成训练的方法，将支持向量机(Support Vector Machine，SVM)，逻辑回归算法(Logistic Regression，LR)、随机森林算法(Random Forest，RF)和临近算法(K-NearestNeighbor，KNN)等4种分类器各自独立的学习训练，并做出预测，再将这些预测结合成组合预测来完成手势的分类工作。在分类器训练好后，基于其进行后续的手势识别，对于本领域技术人员来说，是显而易见的，因此就不进行累述了。

图4是本发明的又一优选实施例的基于多模态特征融合与小样本学习的手势识别方法的逻辑流程图。下面将结合图4对本发明的优选实施例的基于多模态特征融合与小样本学习的手势识别方法说明如下。

首先，我们可以采用普通商用Wi-Fi完成数据的采集工作，对比于雷达，商用Wi-Fi成本低廉，易于推广与大面积使用。如图2-3所示，可以采用至少两个信号接收器采集不同位置和不同方向上的手势识别信号。在本发明中，手势识别信号通过线信号获取需要进行检测的场景中的信道状态信息，根据信道状态信息进行手势检测。需要说明的是，信道状态信息(CSI，Channel State Information)是通信链路的属性，反映了无线信道随着环境的变化，如散射、衰落等。环境中人数、人体的动作等都会对无线信道产生影响，从而引起信道状态信息的变化，因此本发明中可以通过监测信道状态信息的变化检测出手势变化。即在本申请中，可以理解为，手势识别信号即CSI数据。

在本发明的优选实施例中，可以对所述手势识别信号，即对CSI数据进行预处理。图5是图4所示的基于多模态特征融合与小样本学习的手势识别方法的数据预处理的流程示意图。

信道状态信息表示的是无线信道的系数，在使用正交频分复用(OrthogonalFrequency-Division Multiplexing，OFDM)技术调制的Wi-Fi系统中，每一个子载波的CSI都是一个复数。我们使用了Atheros CSI Tool作为采集软件。因此，我们所采集到原始CSI数据为一个三维的复数矩阵

其中，M是接收天线数量，N是发射天线数量，N_sc是子载波数量(20MHz信道带宽下为56个子载波，40MHz下为114个子载波)。对于采集到的CSI数据，我们对其幅值进行后续的预处理。

具体处理流程如图5所示，我们对接收到的CSI数据在时间上进行排序后，即，将原始CSI数据组成CSI数据流(

T为时间维度)。再对CSI数据流进行预处理，去除数据中存在的大量噪声。

一、归一化处理：

我们将原始CSI数据流在子载波维度进行归一化。这一操作以公式(1)表达：

其中，其中

是归一化后CSI流，x_max和x_min是每个时间点采集到的CSI数据中56个子载波的最大值和最小值，/>

和/>

是指归一化后数据最小值和最大值，在我们的测量中，我们将其设置为-1和1。

二、去除静态部分处理

CSI数据可以分为两部分，一部分是由环境中的人的运动或其他动作引起的动态部分，另一部分是由于环境中的静态对象引起的静态部分。事实上，静态部分对CSI的影响将远远大于由执行手势引起的相对轻微的行为对CSI产生的影响。因此，有必要首先移除静态部分，然后单独处理动态部分。在我们的方法中，我们通过减去相应的系数

来消除静态部分的影响。该系数的大小为每0.1秒的平均CSI幅度。

三、分片PCA处理

去除静态部分后，我们将CSI数据切割成一个新的矩阵

因为其中切割的窗口大小为0.1s且发送频率为100Hz，所以t为10。K为56，表示收集的子载波数。然后计算协方差矩阵/>

其维数为k×k。在下一步中，我们应该计算协方差矩阵/>

的特征向量矩阵/>

然后我们需要找到第一个最大的特征向量ε^K×i＝{e₁,…,e_i}i∈[1,k]，它可以表示特征向量矩阵中大于90％的累积贡献。我们可以通过矩阵乘法/>

获得降维数据，即CSI动态部分的主要特征分量。

四、重建处理

通过使用PCA降维来提取CSI动态部分的主要特征分量，我们可以使用它来重建CSI。步骤如下，我们首先使用方程

然后通过加上上一步骤中移除的相应系数/>

来恢复静态部分。

四、平滑处理

最后，我们采用低通滤波器对数据进行平滑处理。该滤波器的参数如下：通带频率为10Hz，阻带频率为100Hz，通带纹波为1dB，阻带衰减为20dB。

在本优选实施例中，首先要从子载波维度对幅值信号进行归一化处理(不能从时间维度)，在采用保留90％贡献度的分片主成分分析法去除其余大部分噪声，之后使用低通滤波器进行数据平滑，使得特征更有辨识度；

在完成预处理之后，我们基于所述手势识别信号的位置信息将其划分成所述源域数据和所述目标域数据。具体地，将数据经过预处理步骤后，我们对每个样本打上标签，将样本保存为(x_i,y_i)，其中

为CSI幅值矩阵，y_i为标签。由于手势识别技术对方向和位置依赖性问题，我们需要将不同的方向或者不同的位置视为不同的域。

结合图2-3所示可知，我们分别采用接收器1和接收器2采集会议室中的任一位置的4个方向(上下左右)的6种手势的数据作为源域数据。采用接收器1和接收器2采集会议室的另一个位置的4个方向的数据作为目标域数据。

针对不同的位置，不同实验人员，不同动作采集的数据，将会划分不同的训练集和测试集。例如可以采用如下实验：

更换实验人员：仅将实验人员1号在位置1处4个方向的数据作为源域数据，其余实验人员在位置2的4个方向所执行的手势数据作为目标域数据；

更换源域数据：使用实验人员2号在位置1处4个方向的数据作为源域数据，其余3个实验人员在位置2的4个方向所执行的手势数据作为目标域数据。

返回参见图4可知，在获得源域数据和目标域数据之后，我们将源域数据用于训练我们的多模态特征融合器；然后将我们在目标域采集到的数据输入到多模态特征融合器中得到新的手势特征，再使用此特征来训练一个分类器。其中，训练分类器仅需要使用少量样本(每种动作的类别在不同方向上选取1个样本)。我们从数据集的四个方向中的每一个方向的每类手势随机选择一个样本作为训练分类器的数据集合。为了降低随机选择样本对最后准确率造成的影响，最终的结果来自十次实验的平均值。

具体地，我们首先利用多模态特征融合的思想，我们第一阶段目标是训练多模态特征融合器f_θ，多模态特征融合器能将从两个不同来源(两台采集链路)的采集到的相同手势下的CSI信息融合成一个特征，这种融合的原因是在不同链路下，同一手势对CSI信息造成的影响不同，但他们之间也存在着信息的交叉，互补现象，因此，多模块融合的特征要比单个特征更加优秀，也蕴含更多的特征信息，有利于后续的分类工作。我们第二阶段的目的是利用元学习的知识迁移的思想，当我们从源域中训练得到性能优越的多模态特征融合器f_θ后，只需要从目标域中采集在不同方向上每种手势的1个样本既可实现优越的分类性能。

首先，在本申请中，我们数据集分类如下：

训练数据集：训练数据集分为两类，一类是源域训练数据集，其中包含来自源域数据的两个采集链路的源域数据

用于多模态特征融合器。其中，/>

和/>

分别指采集链路1和采集链路2的采集到的源域数据，/>

和/>

分别指对应的标签；另一类是交叉训练数据集/>

其具有很少的标记目标域样本，用于训练分类器。

测试数据集：测试数据集也分为两类，一类是验证数据集，其中包含来自源域数据的少量双链路数据

另一个是查询数据集

包含未标记的目标域样本，用于验证分类器在跨域手势识别中的功能。

图6是根据本发明的优选实施例的多模态融合特征获取步骤的流程图。具体步骤说明如下。在步骤S21中，将来自第一链路的所述源域数据作为第一训练集训练所述第一特征提取器以获取所述第一特征，将来自第二链路的所述源域数据作为第二训练集训练所述第二特征提取器以获取所述第二特征。

在本发明的优选实施例中，所述第一特征提取器和所述第二特征提取器可以采用任何适合的特征提取器构建，例如卷积神经网络(Convolutional Neural Networks,CNN)、深度学习模型(LSTM(long short-term memory)，GRU(Gate Recurrent Unit)等等。

在本发明的优选实施例中，所述第一特征提取器和所述第二特征提取器采用CNN模型。图7是根据本发明的优选实施例的特征提取器的模型示意图。如图7所示，所述第一特征提取器和所述第二特征提取器分别包括一个一维CNN层和三个二维CNN层以及两个全连接层。所述一维CNN层包含256个大小为2的卷积核，一个标准化层，一个ReLU激活函数以及一个池化层；第一个二维CNN层包括256个3×3大小的卷积核，一个批量标准化层和一个Relu激活函数，以及一个池化层；第二个二维CNN层包括128个2×2大小的卷积核，一个批量标准化层和一个Relu激活函数，以及一个池化层；第三个二维CNN层包含有64个2×2大小的卷积核，一个批量标准化层和一个Relu激活函数，以及一个池化层。

在源域的目的是训练特征提取器

即/>

其中，/>

为交叉熵损失函数，/>

表示训练集。在本申请中，由于采用两条链路的源域数据分别训练第一特征提取器和第二特征提取器，因此第一特征提取器/>

用于提取链路1的CSI数据的幅值特征，第二特征提取器/>

则用于提取链路2的CSI数据的幅值特征。同时，他们都是独自训练的。在提取阶段，我们将使用源域中两条链路的数据集分别训练好两个独立的第一和第二特征提取器，之后这两个特征提取器中的参数将不再改变。然后我们进入融合步骤。

当然，在本发明的其他优选实施例中，可以更改CNN的层数或使用其他的模型，例如深度学习模型(LSTM(long short-term memory)，GRU(Gate Recurrent Unit)等等。

在步骤S22中，将所述第一特征和所述第二特征输入所述多模态特征融合器以进行特征融合以获得多模态融合特征，其中所述多模态融合特征为所述第一特征和所述第二特征的元素乘积。

图8是根据本发明的优选实施例的多模态特征融合器的模型示意图。如图8所示，所述多模态特征融合器为多模态双线性池化模型，其包括第一展平层、第二展平层、第一线性层、第二线性层、元素乘积层、求和池化层和归一化层。所述第一展平层和所述第二展平层分别连接所述第一特征提取器和所述第二特征提取器的第二个二维CNN层的输出，所述第一线性层和所述第二线性层分别连接所述第一展平层和所述第二展平层。所述第一线性层和所述第二线性层同时连接到元素乘积层，进入元素融合阶段。

在融合阶段，我们的目标是融合分别从两条链路中提取的特征，以构建具有比以前更丰富信息的新特征。前一阶段已将两条原始链路数据转换为具有独特性的特征，然后将两者以元素乘法进行集成。详细来讲，我们假设有两个来自不同模态的特征表示，即不同收发机设备接收的CSI特征，即第一特征和第二特征，并将它们表示为从特征向量

和/>

导出的/>

和/>

因此，最简单的多模态双线性模态，即前述多模态融合特征可以如下给出：/>

°指的是Hadmard乘积，/>

是双线性模型的输出即为多模态融合特征，a和/>

分别表示所述第一特征和所述第二特征。

为了收敛分类算法并克服过拟合，我们在元素乘积层之后连接了求和池化层，采用求和池化函数sumpooling(X,P)，令

其中，函数sumpooling(X,P)表示使用大小为P的1维非重叠窗口来实现X上的求和池化。

即为使用所述源域数据和所述目标域数据的矩阵维数k的1维非重叠窗口来实现/>

求和池化。为了克服过拟合，我们还在求和池化层之后增加了归一化层。

在本优选实施例中，提出了以CNN为基础的多模态双线性池化模型(Multi-ModalFactorized Bilinear Pooling，MFB)作为CSI信号的特征融合器，分别设置了2个单独训练的模型从两条收发链路分别提取CSI的幅值信息，再将其融合成为新的特征。使用本发明提出的MFB特征融合器提取的特征包含更丰富的信息，提高了后续模型的检测准确度。

返回参照图4，在训练好特征提取器和多模态特征融合器之后，基于所述多模态特征融合器融合获取所述目标域数据的训练特征，基于所述训练特征训练分类器，再基于训练好的分类器进行手势识别。

在本发明的一个优选实施例中，可以采用第一特征提取器和/或所述第二特征提取器对所述目标域数据进行特征提取，然后基于所述多模态特征融合器融合获取所述目标域数据的训练特征。然后，基于所述训练特征训练分类器，再基于训练好的分类器用于手势识别。

考虑到一般的机器学习算法训练模型需要大量样本，而手势的样本采集需要大量时间，于是采用了元学习的方式，在源域训练好特征提取器和多模态特征融合器之后，整个模型的参数将不再改动，再将目标域中的数据使用该模型完成特征的提取与融合工作，之后使用集成训练的方法，将支持向量机(Support Vector Machine,SVM)，逻辑回归算法(Logistic Regression,LR)、随机森林算法(Random Forest,RF)和临近算法(K-NearestNeighbor，KNN)等4种分类器各自独立的学习训练，并做出预测，再将这些预测结合成组合预测来完成手势的分类工作。

在本发明的进一步的优选实施例中，在小样本学习之前加入一个生成对抗网络(Generative Adversarial Network,GAN)模块，先将目标域的样本放入GAN模型中进行数据增强，之后再对增强后的数据进行小样本学习。本发明提出使用小样本学习的思想，只需要采集不同位置不同方向上的一个样本即可训练出具有高跨域手势识别率的模型，能够在一定程度上解决深度学习模型在跨域识别性能下降的鲁棒性问题，同时也减少了样本的采集数量，降低了模型的训练成本。

在本申请中，我们将手势执行的不同位置和不同方向上所采集到的数据分别划分为源域和目标域数据。其中源域数据为任一位置的4个方向上的数据。同时，为了增强特征，提高识别的准确率，我们采用了多模态双线性矩阵分解池化方法，将这些不同收发设备的数据进行特征融合。并且，为了减少样本的采集工作，本发明采用了小样本学习的思路，使得整个模型的训练只需要少量的样本。对于目标域(不同的位置和方向上执行的手势)的识别只需要依靠少量的训练样本(每个方向每个手势类型1个样本)，就能实现对目标域的高准确率识别效果。实验结果表明，目标域的测试集使用每个方向每个手势类型1个样本的情况下，平均识别准确率能达到98％以上。

下面将采用具体实验和数据说明本发明的基于多模态特征融合与小样本学习的手势识别方法的具体过程和有益效果。

我们采集了多个实验人员在1个场景中不同位置的包括：1、推拉手势，2、滑动手势，3、挥动手势，4、画Z手势，5、画圈手势，以及6、鼓掌手势等6类手势的样本。如前所述，在源域，本发明首先使用两对收发设备采集实验人员4个方向上的CSI样本，并对采集到的CSI幅度进行了预处理(归一化处理、去除静态部分处理、分片PCA处理、重建处理和平滑处理)。随后使用处理好的两对收发设备的数据分别训练两个卷积神经网络，提取CSI幅度的特征，然后输入所述多模态特征融合器以进行特征融合以获得多模态融合特征。在目标域，将少量(每个方向上每类手势1个)带标签样本输入所述多模态特征融合器以进行特征融合以获得训练特征，然后将其用于训练针对目标域的分类器以实现对目标域中样本进行分类。经过实验验证，在实验人员位置与方向变换的情况下，只需要采集变换位置后，不同方向上的1个样本，就可以快速训练出效果很好的网络模型。在同一场景下更换实验人员1的位置上的4个方向上的数据集作为测试集的实验结果可知，在1次数据获取的情况下，如图9所示，方位1、2、3和4的针对6类手势的识别准确率可以达到100％、99.04％、100％和99.82％的平均精度。

由于手势识别技术对方向和位置依赖性问题，我们需要将不同的方向视为不同的域。因此，我们从数据集的四个方向中的每一个方向的每类手势随机选择一个样本作为训练分类器的数据集合。为了降低随机选择样本对最后准确率造成的影响，最终的结果来自十次实验的平均值。图10显示了同一个人在位置2处的单个手势的分类结果。我们可以看到，采用本发明的基于多模态特征融合与小样本学习的手势识别方法在不同位置可以达到98.38％的平均精度。

同时，我们还考虑了其他实验人员对系统的鲁棒性造成的影响。我们采集了其他2位实验人员在位置2处的4个方向上的数据，如图11A和11B所示，不同实验人员在位置2处的单个手势的分类结果，平均准确率分别为98.55％和99.71％。因此，实验人员改变的情况下，我们依然可以取得不错准确率。

因此，本发明设计了一种基于多模态特征融合与小样本学习的手势识别方法，利用多模态特征融合可以将多对收发设备收到的数据进行特征融合，从而增强特征。再利用小样本学习的方法，只需要采集少量的目标域数据就可以实现高准确率的跨域手势识别，该方法能够解决基于WiFi的手势识别技术的位置方向依赖问题，同时减少新环境下模型训练对大量样本的需求并提高了模型的鲁棒性。经过实验验证，在实验人员位置与方向变换的情况下，只需要采集变换位置后，不同方向上的1个样本，就可以快速训练出效果很好的网络模型。实验结果表明，本发明可获得最高可达98％以上的跨域手势识别准确度。本发明实现了位置独立以及方向独立的手势识别，解决了同一手势执行方向不同与实验人员所处位置不同时对识别准确度的影响。此外，采用的数据预处理的方法能够十分有效地对原始数据进行去噪，这为后续模型的训练奠定了良好基础。

图12是本发明的优选实施例的基于多模态特征融合与小样本学习的手势识别系统的原理框图。如图12所示，所述基于多模态特征融合与小样本学习的手势识别系统包括数据获取模块100、多模态融合模块200和手势识别模块300。所述数据获取模块100用于获取手势识别的源域数据和目标域数据。如前所述，所述数据获取模块100可以包括多组收发设备，例如接收器1和其对应的发送器，接收器2和其对应的发送器，其可以用于获取手势识别的源域数据和目标域数据。手势识别的源域数据和目标域数据的获取过程可以参照现有技术，在此就不再累述了。

所述多模态融合模块200，可以用于采用来自不同链路的所述源域数据分别训练第一特征提取器和第二特征提取器并获取第一特征和第二特征，并将所述第一特征和所述第二特征输入多模态特征融合器以进行特征融合以获得多模态融合特征。

所述手势识别模块300，用于基于所述多模态特征融合器融合获取所述目标域数据的训练特征，基于所述训练特征训练分类器，再基于训练好的分类器进行手势识别。

在此，所述数据获取模块100、多模态融合模块200和手势识别模块300可以参照图1-11B中所示的基于多模态特征融合与小样本学习的手势识别方法构造，其具体实现方式和有益效果也可以参照前述方法构造，在此就不再累述了。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以所述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将所述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。所述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在所述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现所述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现所述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

虽然本发明是通过具体实施例进行说明的，本领域技术人员应当明白，在不脱离本发明范围的情况下，还可以对本发明进行各种变换及等同替代。另外，针对特定情形或材料，可以对本发明做各种修改，而不脱离本发明的范围。因此，本发明不局限于所公开的具体实施例，而应当包括落入本发明权利要求范围内的全部实施方式。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态特征融合与小样本学习的手势识别方法，其特征在于，包括：

S1、获取手势识别的源域数据和目标域数据；

2.根据权利要求1所述的基于多模态特征融合与小样本学习的手势识别方法，其特征在于，所述步骤S2进一步包括：

3.根据权利要求2所述的基于多模态特征融合与小样本学习的手势识别方法，其特征在于，所述第一特征提取器和所述第二特征提取器分别包括一个一维CNN层和三个二维CNN层以及两个全连接层。

4.根据权利要求3所述的基于多模态特征融合与小样本学习的手势识别方法，其特征在于，所述一维CNN层包含256个大小为2的卷积核，一个标准化层，一个ReLU激活函数以及一个池化层；

5.根据权利要求2-4中任意一项所述的基于多模态特征融合与小样本学习的手势识别方法，其特征在于，所述多模态特征融合器包括第一展平层、第二展平层、第一线性层、第二线性层和元素乘积层，所述第一展平层和所述第二展平层分别连接所述第一特征提取器和所述第二特征提取器的第二个二维CNN层的输出以获取并融合所述第一特征和所述第二特征；

所述多模态融合特征