CN117592003B - 基于多模态双线性池化的运动模式识别方法、装置及介质 - Google Patents
基于多模态双线性池化的运动模式识别方法、装置及介质 Download PDFInfo
- Publication number
- CN117592003B CN117592003B CN202410071684.8A CN202410071684A CN117592003B CN 117592003 B CN117592003 B CN 117592003B CN 202410071684 A CN202410071684 A CN 202410071684A CN 117592003 B CN117592003 B CN 117592003B
- Authority
- CN
- China
- Prior art keywords
- mode
- data
- sensor data
- fusion
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000011176 pooling Methods 0.000 title claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000003909 pattern recognition Methods 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012567 pattern recognition method Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001217 buttock Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000021317 sensory perception Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开一种基于多模态双线性池化的运动模式识别方法、装置及介质,包括:获取用户的多模态传感器数据;从所述多模态传感器数据中提取多个单模态传感器数据特征;将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列;将多模态特征序列输入LSTM,得到多模态时序特征序列,然后,通过软注意力机制,将多模态特征序列与多模态时序特征序列进行加权以及信息融合;将融合了时序信息的多模态特征输入多层感知机,预测运动模式。本发明提出多模态双线性注意力池化对多模态感知数据进行特征融合,通过利用模态间的信息增强、互补性来指导多运动模式识别;解决了多模态特征学习中面向复杂场景理解的信息间可信互补和增强问题。
Description
技术领域
本发明属于计算机领域,尤其涉及一种基于多模态双线性池化的运动模式识别方法、装置及介质。
背景技术
本发明是为了解决物理世界中多模态感知和环境理解的问题。当前已经有各种多模态传感器通过模拟人类的感官感知和认知能力,无论是在机器人上部署的视觉、听觉、触觉等传感器,还是可穿戴式传感器均是为了通过多传感器感知环境,然后,通过对传感器数据进行知识挖掘,以此推测和理解场景状态。然而,随着智能手机的快速发展以及广泛应用,智能手机已经成为集多种传感器与一体的“半穿戴式传感器集合体”。由于,人类对场景理解和环境感知具有自主的驱动力,所以,以人类作为多传感器的携带主体,可以助力多模态传感器对物理世界中环境的感知和理解。虽然,已有关于多模态传感器感知能力的研究和发明,但是,基于人类多感官感知和理解环境时感官之间是相互协作(这种协作过程称为“联觉”),已有的研究和发明均忽略了相互协作的过程,以及模态之间不是单存的拼接组合关系,而是存在复杂的相互增强与去冗的过程。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多模态双线性池化的运动模式识别方法、装置及介质,以解决面向场景理解中多模态感知数据间信息互补和增强问题。
本发明的目的是通过以下技术方案来实现的:一种基于多模态双线性池化的运动模式识别方法,包括:
获取用户的多模态传感器数据;
从所述多模态传感器数据中提取多个单模态传感器数据特征;
将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列;
将多模态特征序列输入LSTM,得到多模态时序特征序列,然后,通过软注意力机制,将多模态特征序列与多模态时序特征序列进行加权以及信息融合;
将融合了时序信息的多模态特征输入多层感知机,预测运动模式。
进一步地,所述传感器包括加速度传感器、陀螺仪、磁力计和气压计。
进一步地,在提取多个单模态传感器数据特征之前,还需对所述多模态传感器数据进行预处理;所述预处理包括:移除脏数据、去噪、归一化和使用滑动窗口进行分割。
进一步地,所述从所述多模态传感器数据中提取多个单模态传感器数据特征具体为:将所述多模态传感器数据输入残差层,通过卷积神经网络提取多个单模态传感器数据特征。
进一步地,所述融合操作包括:模态内融合和模态间融合。
进一步地,所述模态内融合为:将同一传感器内的不同维度数据特征进行两两融合,将不同组合融合后的特征进行注意力加权融合。
所述模态间融合:将经过同一传感器内多维数据融合后的所有特征融合;若单模态传感器数据特征为一维数据特征,则直接与将经过同一传感器内多维数据融合的特征融合。
进一步地,所述融合操作具体为:将每个单模态内的不同维度进行两两分组,将分组后每一组中的两维度数据特征使用Count Sketch投影到低维空间,将Count Sketch投影变换后的两个向量进行快速傅里叶变换并进行元素乘积,之后进行快速傅里叶逆变换得到3组两两融合后的多模态数据;再将多模态数据通过软性注意力机制为每个两两组合分配权重,其中,每个维度的数据特征均被计算了两次,则每个维度的数据特征的融合权重为其所在的所有两两组合的注意力权重和的平均,即AMCBP;然后,将每个维度的数据特征同AMCBP得到的权重进行加权融合;最后,将所有模态的融合后的特征通过卷积层后拼接为一个多模态特征序列。
本发明还提供了一种基于多模态双线性池化的运动模式识别装置,包括:
多模态传感数据获取模块,用于获取多模态传感器数据;
多模态数据预处理模块:用于对所述多模态传感器数据进行预处理;所述预处理包括移除脏数据、去噪、归一化和使用滑动窗口进行分割;
单模态传感器数据特征提取模块,用于从预处理后的多模态传感器数据中提取多个单模态传感器数据特征;
多模态特征融合模块,用于将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列;
多模态时序特征获取模块,用于将多模态特征序列输入LSTM,得到多模态时序特征序列,然后,通过软注意力机制,将多模态特征序列与多模态时序特征序列进行加权以及信息融合;
运动模式识别模块,用于将融合了时序信息的多模态特征输入多层感知机,预测运动模式。
本发明还提供了一种基于多模态双线性池化的运动模式识别装置,包括一个或多个处理器,用于实现上述的一种基于多模态双线性池化的运动模式识别方法。
本发明还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的一种基于多模态双线性池化的运动模式识别方法。
本发明的有益效果是:本发明基于具体应用场景中多模态传感器数据,多模态感知数据是通过应用场景中的多模态传感器感知环境得到的,所以,通过挖掘多模态感知数据中的多模态知识,从而能够对识别运动模式有很好的帮助。本发明提出多模态双线性注意力池化对多模态感知数据进行特征融合,通过利用模态间的信息增强、互补性来指导多运动模式识别;解决了多模态特征学习中面向复杂场景理解的信息间可信互补和增强问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多模态双线性池化的运动模式识别方法的流程示意图;
图2为本发明实施例中的模态内融合操作示意图;
图3为本发明实施例提供的一种基于多模态双线性池化的运动模式识别装置的模块示意图;
图4为本发明实施例提供的一种硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明的一种基于多模态双线性池化的运动模式识别方法,如图1所示,包括以下步骤:
(1)获取多模态传感器数据;
在一实施例中,所述传感器包括加速度传感器、陀螺仪、磁力计和气压计;
在具体的场景(如:火车站,公交车,地铁站,电梯,楼梯等)中,通过手机内置多个传感器(线性加速度传感器、陀螺仪、磁力计、压力传感器)并将手机置于用户身上,例如:放在裤子后口袋(臀部);采样收集用户在不同运动模式中的数据,采样周期为100Hz采样频率,以时间序列数据保存。其中,线性加速度传感器、陀螺仪、磁力计获取的数据包含x轴,y轴,z轴三个维度信息,气压计获取的数据只有一个维度信息,各传感器获取的数据名称依次分别为lacc_x, lacc_y, lacc_z, gyr_x, gyr_y, gyr_z, mag_x, mag_y, mag_z,pressure。标签为1-8,分别代表1-静止,2-走路,3-跑步,4-自行车,5-汽车,6-公交车,7-火车,8-地铁。
(2)对所述多模态传感器数据进行预处理;所述预处理包括移除脏数据、去噪、归一化和使用滑动窗口进行分割;
移除脏数据:对于传感器中存在某一维度信息缺失或异常的数据,采取直接移除的方法,确保每个传感器都有相应维度的数据;
去噪:对每个模态的时间序列数据进行去噪处理,减少环境噪声对数据的影响;
归一化:对于不同传感器获取的数据范围大小不一致的问题,利用Z-分数归一化各模态数据;
使用滑动窗口进行分割:对每个模态的时间序列数据按照滑动窗口进行分割,窗口大小为,重合比例为/>。
(3)从预处理后的多模态传感器数据中提取多个单模态传感器数据特征;
将预处理后的时间序列数据输入到残差层之中,提取其特征。其中,残差层由3个级联的卷积层和1个跨层的直连边组成,直连边使用大小的卷积将输入特征图的通道数映射为与级联卷积输出特征图的一致通道数,并与第二个卷积层输出结果相加,之后一起进入第三个卷积层。
(4)将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列;
所述融合操作包括:模态内融合和模态间融合。
所述模态内融合:将同一传感器内的不同维度数据特征进行两两融合,将不同组合融合后的特征进行注意力加权融合。
所述模态间融合:将经过同一传感器内多维数据融合后的所有特征融合;若单模态传感器数据特征为一维数据特征,则直接与将经过同一传感器内多维数据融合的特征融合。
所述融合操作具体为:单个传感器(模态内)进行(x轴,y轴,z轴)3个维度的特征融合(模态内融合);多个传感器(模态间)进行传感器间的特征融合(模态间融合)。由于加速度传感器、陀螺仪、磁力计有3个维度的数据,而压力计只有1个维度的数据,所以进行模态内融合时,只处理加速度传感器、陀螺仪、磁力计的数据。
首先进行模态内融合,如图2所示,将单个传感器中经过步骤(3)处理后的数据按照不同维度(x轴,y轴,z轴)分别记作向量X,Y,Z,并使用Count Sketch方法投影到低维空间。接着按不同维度(x轴,y轴,z轴)进行两两组合,分别得到3组数据,每组数据中包含两个不同维度信息的向量。接着,将这两个向量进行快速傅里叶变换后进行乘积,之后再进行快速傅里叶逆变换,最终得到3组两两融合后的多模态数据,这个过程称为双线性池化。
接下来将多模态双线性池化后的特征再通过软性注意力机制为每个两两组合分配权重;具体地,利用自注意力机制,学习多模态数据/>的重要性分数/>:
其中与/>是隐藏层的权重与偏置。
由于在进行双线性池化时,每个维度的数据特征序列均被计算了两次,由此,在进行多维度的特征融合时,每个维度的特征序列的融合权重为其所在的所有两两组合的注意力权重和的平均(这里称为Attention Multimodal Compact Bilinear Pooling, AMCBP):
其中,、/>、/>分别表示X、Y、Z维度上的特征序列的权重。
然后,将每个维度的特征序列X、Y、Z同AMCBP得到的权重进行加权融合:
其中,表示多维度数据融合特征;
最后进行模态间融合,将经过模态内融合的加速度传感器、陀螺仪、磁力计的特征通过卷积层,并与通过步骤(3)处理的气压计特征拼接为一个多模态特征序列。
(5)将多模态特征序列输入LSTM(长短期记忆网络),得到多模态时序特征序列,然后,通过软注意力机制,将多模态特征与时序特征序列进行加权以及信息融合;
首先,将多模态特征序列输入LSTM层,学习数据在窗口长度为d的长期特征;在LSTM层包含多个模态内融合后的时间特征序列,利用LSTM单元获取在时间步长、时间步长/>和时间步长/>时的特征数据流入和流出关系;
然后,利用注意力层获取从LSTM层学习特征和时间步长的重要性,对更重要的特征和时间步长赋予更大的权重,得到融合了时序信息的多模态特征:
(6)将融合了时序信息的多模态特输入多层感知机,预测运动模式。
具体的,将融合了时序信息的多模态特征通过5个全连接层,最后通过Softmax(归一化指数函数)进行分类,得到属于各个交通模式的类别概率,从而进行运动模式识别,其过程形式化为:
其中FC表示全连接层,为融合了时序信息的多模态特征。训练时,采用交叉熵损失函数。
运动模式识别的最终输出为,分别为属于每个类别的概率。
本发明实施例的一种基于多模态双线性池化的运动模式识别方法,一方面对传感器数据进行特征提取之前使用滑动窗口进行分割,作为预处理;第二方面提出了基于多模态双线性池化的多模态融合方法,通过快速傅里叶变换后的逐元素积来替代卷积运算,提升了计算效率。并通过注意力机制选出重要的部分进行融合;第三方面提出了运动模式识别方法,通过对融合了多传感器信息的特征与融合了时序特征的数据进行分类,得到最终的预测结果。
本发明还提供了一种基于多模态双线性池化的运动模式识别装置,如图3所示,包括:
多模态传感数据获取模块,用于获取多模态传感器数据;
多模态数据预处理模块:用于对所述多模态传感器数据进行预处理;所述预处理包括移除脏数据、去噪、归一化和使用滑动窗口进行分割;
单模态传感器数据特征提取模块,用于从预处理后的多模态传感器数据中提取多个单模态传感器数据特征;
多模态特征融合模块,用于将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列;
多模态时序特征获取模块,用于将多模态特征序列输入LSTM,得到多模态时序特征序列,然后,通过软注意力机制,将多模态特征序列与多模态时序特征序列进行加权以及信息融合;
运动模式识别模块,用于将融合了时序信息的多模态特征输入多层感知机,预测运动模式。
需要说明的是,本实施例中示出的装置实施例与上述方法实施例的内容相匹配,可以参考上述方法实施例的内容,在此不再赘述。
与前述的一种基于多模态双线性池化的运动模式识别方法的实施例相对应,本发明还提供了一种基于多模态双线性池化的运动模式识别装置的实施例。
参见图4,本发明实施例提供的一种基于多模态双线性池化的运动模式识别装置,包括一个或多个处理器,用于实现上述实施例中的一种基于多模态双线性池化的运动模式识别方法。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明的一种基于多模态双线性池化的运动模式识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明的一种基于多模态双线性池化的运动模式识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于多模态双线性池化的运动模式识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (7)
1.一种基于多模态双线性池化的运动模式识别方法,其特征在于,包括:
获取多模态传感器数据;
从所述多模态传感器数据中提取多个单模态传感器数据特征;
将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列;
所述融合操作包括:模态内融合和模态间融合;
所述模态内融合为:将同一传感器内的不同维度数据特征进行两两融合,将不同组合融合后的特征进行注意力加权融合;
所述模态间融合:将经过同一传感器内多维数据融合后的所有特征融合;若单模态传感器数据特征为一维数据特征,则直接与将经过同一传感器内多维数据融合的特征融合;
所述融合操作具体为:将每个单模态内的不同维度进行两两分组,将分组后每一组中的两维度数据特征使用Count Sketch投影到低维空间,将Count Sketch投影变换后的两个向量进行快速傅里叶变换并进行元素乘积,之后进行快速傅里叶逆变换得到3组两两融合后的多模态数据;再将多模态数据通过软性注意力机制为每个两两组合分配权重,其中,每个维度的数据特征均被计算了两次,则每个维度的数据特征的融合权重为其所在的所有两两组合的注意力权重和的平均,即AMCBP;然后,将每个维度的数据特征同AMCBP得到的权重进行加权融合;最后,将所有模态的融合后的特征通过卷积层后拼接为一个多模态特征序列;
将多模态特征序列输入LSTM,得到多模态时序特征序列,然后,通过软注意力机制,将多模态特征序列与多模态时序特征序列进行加权以及信息融合;
将融合了时序信息的多模态特征输入多层感知机,预测运动模式。
2.根据权利要求1所述的方法,其特征在于,所述传感器包括加速度传感器、陀螺仪、磁力计和气压计。
3.根据权利要求1所述的方法,其特征在于,在提取多个单模态传感器数据特征之前,还需对所述多模态传感器数据进行预处理;所述预处理包括:移除脏数据、去噪、归一化和使用滑动窗口进行分割。
4.根据权利要求1所述的方法,其特征在于,所述从所述多模态传感器数据中提取多个单模态传感器数据特征具体为:将所述多模态传感器数据输入残差层,通过卷积神经网络提取多个单模态传感器数据特征。
5.一种基于多模态双线性池化的运动模式识别装置,其特征在于,用于实现权利要求1所述的方法,包括:
多模态传感数据获取模块,用于获取多模态传感器数据;
多模态数据预处理模块:用于对所述多模态传感器数据进行预处理;所述预处理包括移除脏数据、去噪、归一化和使用滑动窗口进行分割;
单模态传感器数据特征提取模块,用于从预处理后的多模态传感器数据中提取多个单模态传感器数据特征;
多模态特征融合模块,用于将每个所述单模态传感器数据特征进行融合操作并拼接为一个多模态特征序列;
多模态时序特征获取模块,用于将多模态特征序列输入LSTM,得到多模态时序特征序列,然后,通过软注意力机制,将多模态特征序列与多模态时序特征序列进行加权以及信息融合;
运动模式识别模块,用于将融合了时序信息的多模态特征输入多层感知机,预测运动模式。
6.一种基于多模态双线性池化的运动模式识别装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-4中任一项所述的一种基于多模态双线性池化的运动模式识别方法。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,用于实现权利要求1-4中任一项所述的一种基于多模态双线性池化的运动模式识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410071684.8A CN117592003B (zh) | 2024-01-18 | 2024-01-18 | 基于多模态双线性池化的运动模式识别方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410071684.8A CN117592003B (zh) | 2024-01-18 | 2024-01-18 | 基于多模态双线性池化的运动模式识别方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117592003A CN117592003A (zh) | 2024-02-23 |
CN117592003B true CN117592003B (zh) | 2024-05-24 |
Family
ID=89911913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410071684.8A Active CN117592003B (zh) | 2024-01-18 | 2024-01-18 | 基于多模态双线性池化的运动模式识别方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117592003B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150000237A (ko) * | 2013-06-24 | 2015-01-02 | 인하대학교 산학협력단 | 퓨전 센서를 이용한 보행 패턴 인식 시스템 |
CN114021629A (zh) * | 2021-10-26 | 2022-02-08 | 之江实验室 | 一种基于均值动态时间规整的车辆轨迹运动模式提取方法 |
CN114332573A (zh) * | 2021-12-18 | 2022-04-12 | 中国科学院深圳先进技术研究院 | 基于注意力机制的多模态信息融合识别方法及系统 |
CN114491410A (zh) * | 2022-01-17 | 2022-05-13 | 广东瑞芯智能科技有限公司 | 运动模式的识别方法、系统、智能穿戴设备及存储介质 |
CN115374854A (zh) * | 2022-08-22 | 2022-11-22 | 湖南大学深圳研究院 | 多模态情感识别方法、装置及计算机可读存储介质 |
CN115439934A (zh) * | 2022-09-09 | 2022-12-06 | 上海工程技术大学 | 一种基于cnn-lstm运动模式识别的自适应步频检测方法 |
CN116956222A (zh) * | 2023-07-26 | 2023-10-27 | 山东大学 | 一种基于自适应特征提取的多复杂度行为识别系统及方法 |
CN117237415A (zh) * | 2023-09-28 | 2023-12-15 | 重庆赛力斯新能源汽车设计院有限公司 | 基于自适应特征聚合的多模态目标跟踪方法、装置及介质 |
-
2024
- 2024-01-18 CN CN202410071684.8A patent/CN117592003B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150000237A (ko) * | 2013-06-24 | 2015-01-02 | 인하대학교 산학협력단 | 퓨전 센서를 이용한 보행 패턴 인식 시스템 |
CN114021629A (zh) * | 2021-10-26 | 2022-02-08 | 之江实验室 | 一种基于均值动态时间规整的车辆轨迹运动模式提取方法 |
CN114332573A (zh) * | 2021-12-18 | 2022-04-12 | 中国科学院深圳先进技术研究院 | 基于注意力机制的多模态信息融合识别方法及系统 |
CN114491410A (zh) * | 2022-01-17 | 2022-05-13 | 广东瑞芯智能科技有限公司 | 运动模式的识别方法、系统、智能穿戴设备及存储介质 |
CN115374854A (zh) * | 2022-08-22 | 2022-11-22 | 湖南大学深圳研究院 | 多模态情感识别方法、装置及计算机可读存储介质 |
CN115439934A (zh) * | 2022-09-09 | 2022-12-06 | 上海工程技术大学 | 一种基于cnn-lstm运动模式识别的自适应步频检测方法 |
CN116956222A (zh) * | 2023-07-26 | 2023-10-27 | 山东大学 | 一种基于自适应特征提取的多复杂度行为识别系统及方法 |
CN117237415A (zh) * | 2023-09-28 | 2023-12-15 | 重庆赛力斯新能源汽车设计院有限公司 | 基于自适应特征聚合的多模态目标跟踪方法、装置及介质 |
Non-Patent Citations (3)
Title |
---|
Research on motion pattern recognition of exoskeleton robot based on multimodal machine learning model;Yi Zheng et al;《Neural Computing And Applications》;20191017;1869-1877 * |
Soft Spatial Attention-Based Multimodal Driver Action Recognition Using Deep Learning;Imen Jegham et al;《IEEE Sensors Journal》;20210115;第21卷(第2期);1918-1925 * |
基于卷积神经网络的雪橇运动模式识别研究;金亦聪等;《2023年第十届"中国体能训练科学大会》;20231202;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117592003A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108710830B (zh) | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 | |
US20190130250A1 (en) | Method and apparatus with neural network performing convolution | |
CN111401406B (zh) | 一种神经网络训练方法、视频帧处理方法以及相关设备 | |
CN109522945B (zh) | 一种群体情感识别方法、装置、智能设备及存储介质 | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN111597884A (zh) | 面部动作单元识别方法、装置、电子设备及存储介质 | |
CN112766229B (zh) | 基于注意力机制的人脸点云图像智能识别系统及方法 | |
CN115311730B (zh) | 一种人脸关键点的检测方法、系统和电子设备 | |
CN110222780A (zh) | 物体检测方法、装置、设备和存储介质 | |
US20240005164A1 (en) | Neural Network Training Method and Related Device | |
CN112085088A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113139499A (zh) | 一种基于轻量注意力卷积神经网络的步态识别方法和系统 | |
CN111091182A (zh) | 数据处理方法、电子设备及存储介质 | |
CN113822207A (zh) | 高光谱遥感图像识别方法、装置、电子设备及存储介质 | |
CN114821096A (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
KR20200080419A (ko) | 인공신경망 기반 손동작 인식 방법 및 장치 | |
CN117058517A (zh) | 一种基于YOLOv5优化模型的安全帽检测方法、装置和介质 | |
CN112990213B (zh) | 一种基于深度学习的数字万用表字符识别系统和方法 | |
CN112749576B (zh) | 图像识别方法和装置、计算设备以及计算机存储介质 | |
EP3588441A1 (en) | Imagification of multivariate data sequences | |
CN117592003B (zh) | 基于多模态双线性池化的运动模式识别方法、装置及介质 | |
CN112580529A (zh) | 移动机器人感知识别方法、装置、终端及存储介质 | |
CN112734772A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN116205927A (zh) | 一种基于边界增强的图像分割方法 | |
US20230410496A1 (en) | Omni-scale convolution for convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |