CN117592003B

CN117592003B - 基于多模态双线性池化的运动模式识别方法、装置及介质

Info

Publication number: CN117592003B
Application number: CN202410071684.8A
Authority: CN
Inventors: 俞菲; 黄琛; 万志国; 王海涛
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-05-24
Anticipated expiration: 2044-01-18
Also published as: CN117592003A

Abstract

本发明公开一种基于多模态双线性池化的运动模式识别方法、装置及介质，包括：获取用户的多模态传感器数据；从所述多模态传感器数据中提取多个单模态传感器数据特征；将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列；将多模态特征序列输入LSTM，得到多模态时序特征序列，然后，通过软注意力机制，将多模态特征序列与多模态时序特征序列进行加权以及信息融合；将融合了时序信息的多模态特征输入多层感知机，预测运动模式。本发明提出多模态双线性注意力池化对多模态感知数据进行特征融合，通过利用模态间的信息增强、互补性来指导多运动模式识别；解决了多模态特征学习中面向复杂场景理解的信息间可信互补和增强问题。

Description

基于多模态双线性池化的运动模式识别方法、装置及介质

技术领域

本发明属于计算机领域，尤其涉及一种基于多模态双线性池化的运动模式识别方法、装置及介质。

背景技术

本发明是为了解决物理世界中多模态感知和环境理解的问题。当前已经有各种多模态传感器通过模拟人类的感官感知和认知能力，无论是在机器人上部署的视觉、听觉、触觉等传感器，还是可穿戴式传感器均是为了通过多传感器感知环境，然后，通过对传感器数据进行知识挖掘，以此推测和理解场景状态。然而，随着智能手机的快速发展以及广泛应用，智能手机已经成为集多种传感器与一体的“半穿戴式传感器集合体”。由于，人类对场景理解和环境感知具有自主的驱动力，所以，以人类作为多传感器的携带主体，可以助力多模态传感器对物理世界中环境的感知和理解。虽然，已有关于多模态传感器感知能力的研究和发明，但是，基于人类多感官感知和理解环境时感官之间是相互协作（这种协作过程称为“联觉”），已有的研究和发明均忽略了相互协作的过程，以及模态之间不是单存的拼接组合关系，而是存在复杂的相互增强与去冗的过程。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于多模态双线性池化的运动模式识别方法、装置及介质，以解决面向场景理解中多模态感知数据间信息互补和增强问题。

本发明的目的是通过以下技术方案来实现的：一种基于多模态双线性池化的运动模式识别方法，包括：

获取用户的多模态传感器数据；

从所述多模态传感器数据中提取多个单模态传感器数据特征；

将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列；

将多模态特征序列输入LSTM，得到多模态时序特征序列，然后，通过软注意力机制，将多模态特征序列与多模态时序特征序列进行加权以及信息融合；

将融合了时序信息的多模态特征输入多层感知机，预测运动模式。

进一步地，所述传感器包括加速度传感器、陀螺仪、磁力计和气压计。

进一步地，在提取多个单模态传感器数据特征之前，还需对所述多模态传感器数据进行预处理；所述预处理包括：移除脏数据、去噪、归一化和使用滑动窗口进行分割。

进一步地，所述从所述多模态传感器数据中提取多个单模态传感器数据特征具体为：将所述多模态传感器数据输入残差层，通过卷积神经网络提取多个单模态传感器数据特征。

进一步地，所述融合操作包括：模态内融合和模态间融合。

进一步地，所述模态内融合为：将同一传感器内的不同维度数据特征进行两两融合，将不同组合融合后的特征进行注意力加权融合。

所述模态间融合：将经过同一传感器内多维数据融合后的所有特征融合；若单模态传感器数据特征为一维数据特征，则直接与将经过同一传感器内多维数据融合的特征融合。

进一步地，所述融合操作具体为：将每个单模态内的不同维度进行两两分组，将分组后每一组中的两维度数据特征使用Count Sketch投影到低维空间，将Count Sketch投影变换后的两个向量进行快速傅里叶变换并进行元素乘积，之后进行快速傅里叶逆变换得到3组两两融合后的多模态数据；再将多模态数据通过软性注意力机制为每个两两组合分配权重，其中，每个维度的数据特征均被计算了两次，则每个维度的数据特征的融合权重为其所在的所有两两组合的注意力权重和的平均，即AMCBP；然后，将每个维度的数据特征同AMCBP得到的权重进行加权融合；最后，将所有模态的融合后的特征通过卷积层后拼接为一个多模态特征序列。

本发明还提供了一种基于多模态双线性池化的运动模式识别装置，包括：

多模态传感数据获取模块，用于获取多模态传感器数据；

多模态数据预处理模块：用于对所述多模态传感器数据进行预处理；所述预处理包括移除脏数据、去噪、归一化和使用滑动窗口进行分割；

单模态传感器数据特征提取模块，用于从预处理后的多模态传感器数据中提取多个单模态传感器数据特征；

多模态特征融合模块，用于将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列；

多模态时序特征获取模块，用于将多模态特征序列输入LSTM，得到多模态时序特征序列，然后，通过软注意力机制，将多模态特征序列与多模态时序特征序列进行加权以及信息融合；

运动模式识别模块，用于将融合了时序信息的多模态特征输入多层感知机，预测运动模式。

本发明还提供了一种基于多模态双线性池化的运动模式识别装置，包括一个或多个处理器，用于实现上述的一种基于多模态双线性池化的运动模式识别方法。

本发明还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的一种基于多模态双线性池化的运动模式识别方法。

本发明的有益效果是：本发明基于具体应用场景中多模态传感器数据，多模态感知数据是通过应用场景中的多模态传感器感知环境得到的，所以，通过挖掘多模态感知数据中的多模态知识，从而能够对识别运动模式有很好的帮助。本发明提出多模态双线性注意力池化对多模态感知数据进行特征融合，通过利用模态间的信息增强、互补性来指导多运动模式识别；解决了多模态特征学习中面向复杂场景理解的信息间可信互补和增强问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多模态双线性池化的运动模式识别方法的流程示意图；

图2为本发明实施例中的模态内融合操作示意图；

图3为本发明实施例提供的一种基于多模态双线性池化的运动模式识别装置的模块示意图；

图4为本发明实施例提供的一种硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本发明的一种基于多模态双线性池化的运动模式识别方法，如图1所示，包括以下步骤：

（1）获取多模态传感器数据；

在一实施例中，所述传感器包括加速度传感器、陀螺仪、磁力计和气压计；

在具体的场景（如：火车站，公交车，地铁站，电梯，楼梯等）中，通过手机内置多个传感器（线性加速度传感器、陀螺仪、磁力计、压力传感器）并将手机置于用户身上，例如：放在裤子后口袋(臀部)；采样收集用户在不同运动模式中的数据，采样周期为100Hz采样频率，以时间序列数据保存。其中，线性加速度传感器、陀螺仪、磁力计获取的数据包含x轴，y轴，z轴三个维度信息，气压计获取的数据只有一个维度信息，各传感器获取的数据名称依次分别为lacc_x, lacc_y, lacc_z, gyr_x, gyr_y, gyr_z, mag_x, mag_y, mag_z,pressure。标签为1-8，分别代表1-静止，2-走路，3-跑步，4-自行车，5-汽车，6-公交车，7-火车，8-地铁。

（2）对所述多模态传感器数据进行预处理；所述预处理包括移除脏数据、去噪、归一化和使用滑动窗口进行分割；

移除脏数据：对于传感器中存在某一维度信息缺失或异常的数据，采取直接移除的方法，确保每个传感器都有相应维度的数据；

去噪：对每个模态的时间序列数据进行去噪处理，减少环境噪声对数据的影响；

归一化：对于不同传感器获取的数据范围大小不一致的问题，利用Z-分数归一化各模态数据；

使用滑动窗口进行分割：对每个模态的时间序列数据按照滑动窗口进行分割，窗口大小为，重合比例为/>。

（3）从预处理后的多模态传感器数据中提取多个单模态传感器数据特征；

将预处理后的时间序列数据输入到残差层之中，提取其特征。其中，残差层由3个级联的卷积层和1个跨层的直连边组成，直连边使用大小的卷积将输入特征图的通道数映射为与级联卷积输出特征图的一致通道数，并与第二个卷积层输出结果相加，之后一起进入第三个卷积层。

（4）将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列；

所述融合操作包括：模态内融合和模态间融合。

所述模态内融合：将同一传感器内的不同维度数据特征进行两两融合，将不同组合融合后的特征进行注意力加权融合。

所述融合操作具体为：单个传感器（模态内）进行（x轴，y轴，z轴）3个维度的特征融合（模态内融合）；多个传感器（模态间）进行传感器间的特征融合（模态间融合）。由于加速度传感器、陀螺仪、磁力计有3个维度的数据，而压力计只有1个维度的数据，所以进行模态内融合时，只处理加速度传感器、陀螺仪、磁力计的数据。

首先进行模态内融合，如图2所示，将单个传感器中经过步骤（3）处理后的数据按照不同维度（x轴，y轴，z轴）分别记作向量X，Y，Z，并使用Count Sketch方法投影到低维空间。接着按不同维度（x轴，y轴，z轴）进行两两组合，分别得到3组数据，每组数据中包含两个不同维度信息的向量。接着，将这两个向量进行快速傅里叶变换后进行乘积，之后再进行快速傅里叶逆变换，最终得到3组两两融合后的多模态数据，这个过程称为双线性池化。

接下来将多模态双线性池化后的特征再通过软性注意力机制为每个两两组合分配权重；具体地，利用自注意力机制，学习多模态数据/>的重要性分数/>：

其中与/>是隐藏层的权重与偏置。

由于在进行双线性池化时，每个维度的数据特征序列均被计算了两次，由此，在进行多维度的特征融合时，每个维度的特征序列的融合权重为其所在的所有两两组合的注意力权重和的平均（这里称为Attention Multimodal Compact Bilinear Pooling, AMCBP)：

其中，、/>、/>分别表示X、Y、Z维度上的特征序列的权重。

然后，将每个维度的特征序列X、Y、Z同AMCBP得到的权重进行加权融合：

其中，表示多维度数据融合特征；

最后进行模态间融合，将经过模态内融合的加速度传感器、陀螺仪、磁力计的特征通过卷积层，并与通过步骤（3）处理的气压计特征拼接为一个多模态特征序列。

（5）将多模态特征序列输入LSTM（长短期记忆网络），得到多模态时序特征序列，然后，通过软注意力机制，将多模态特征与时序特征序列进行加权以及信息融合；

首先，将多模态特征序列输入LSTM层，学习数据在窗口长度为d的长期特征；在LSTM层包含多个模态内融合后的时间特征序列，利用LSTM单元获取在时间步长、时间步长/>和时间步长/>时的特征数据流入和流出关系；

然后，利用注意力层获取从LSTM层学习特征和时间步长的重要性，对更重要的特征和时间步长赋予更大的权重，得到融合了时序信息的多模态特征：

（6）将融合了时序信息的多模态特输入多层感知机，预测运动模式。

具体的，将融合了时序信息的多模态特征通过5个全连接层，最后通过Softmax（归一化指数函数）进行分类，得到属于各个交通模式的类别概率，从而进行运动模式识别，其过程形式化为：

其中FC表示全连接层，为融合了时序信息的多模态特征。训练时，采用交叉熵损失函数。

运动模式识别的最终输出为，分别为属于每个类别的概率。

本发明实施例的一种基于多模态双线性池化的运动模式识别方法，一方面对传感器数据进行特征提取之前使用滑动窗口进行分割，作为预处理；第二方面提出了基于多模态双线性池化的多模态融合方法，通过快速傅里叶变换后的逐元素积来替代卷积运算，提升了计算效率。并通过注意力机制选出重要的部分进行融合；第三方面提出了运动模式识别方法，通过对融合了多传感器信息的特征与融合了时序特征的数据进行分类，得到最终的预测结果。

本发明还提供了一种基于多模态双线性池化的运动模式识别装置，如图3所示，包括：

多模态传感数据获取模块，用于获取多模态传感器数据；

需要说明的是，本实施例中示出的装置实施例与上述方法实施例的内容相匹配，可以参考上述方法实施例的内容，在此不再赘述。

与前述的一种基于多模态双线性池化的运动模式识别方法的实施例相对应，本发明还提供了一种基于多模态双线性池化的运动模式识别装置的实施例。

参见图4，本发明实施例提供的一种基于多模态双线性池化的运动模式识别装置，包括一个或多个处理器，用于实现上述实施例中的一种基于多模态双线性池化的运动模式识别方法。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明的一种基于多模态双线性池化的运动模式识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明的一种基于多模态双线性池化的运动模式识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于多模态双线性池化的运动模式识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于多模态双线性池化的运动模式识别方法，其特征在于，包括：

获取多模态传感器数据；

所述融合操作包括：模态内融合和模态间融合；

所述模态内融合为：将同一传感器内的不同维度数据特征进行两两融合，将不同组合融合后的特征进行注意力加权融合；

所述模态间融合：将经过同一传感器内多维数据融合后的所有特征融合；若单模态传感器数据特征为一维数据特征，则直接与将经过同一传感器内多维数据融合的特征融合；

所述融合操作具体为：将每个单模态内的不同维度进行两两分组，将分组后每一组中的两维度数据特征使用Count Sketch投影到低维空间，将Count Sketch投影变换后的两个向量进行快速傅里叶变换并进行元素乘积，之后进行快速傅里叶逆变换得到3组两两融合后的多模态数据；再将多模态数据通过软性注意力机制为每个两两组合分配权重，其中，每个维度的数据特征均被计算了两次，则每个维度的数据特征的融合权重为其所在的所有两两组合的注意力权重和的平均，即AMCBP；然后，将每个维度的数据特征同AMCBP得到的权重进行加权融合；最后，将所有模态的融合后的特征通过卷积层后拼接为一个多模态特征序列；

2.根据权利要求1所述的方法，其特征在于，所述传感器包括加速度传感器、陀螺仪、磁力计和气压计。

3.根据权利要求1所述的方法，其特征在于，在提取多个单模态传感器数据特征之前，还需对所述多模态传感器数据进行预处理；所述预处理包括：移除脏数据、去噪、归一化和使用滑动窗口进行分割。

4.根据权利要求1所述的方法，其特征在于，所述从所述多模态传感器数据中提取多个单模态传感器数据特征具体为：将所述多模态传感器数据输入残差层，通过卷积神经网络提取多个单模态传感器数据特征。

5.一种基于多模态双线性池化的运动模式识别装置，其特征在于，用于实现权利要求1所述的方法，包括：

多模态传感数据获取模块，用于获取多模态传感器数据；

6.一种基于多模态双线性池化的运动模式识别装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-4中任一项所述的一种基于多模态双线性池化的运动模式识别方法。

7.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-4中任一项所述的一种基于多模态双线性池化的运动模式识别方法。