CN117409264B

CN117409264B - 基于transformer的多传感器数据融合机器人地形感知方法

Info

Publication number: CN117409264B
Application number: CN202311732270.7A
Authority: CN
Inventors: 郭敏; 张英龙; 李寒
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2023-12-16
Filing date: 2023-12-16
Publication date: 2024-03-08
Anticipated expiration: 2043-12-16
Also published as: CN117409264A

Abstract

本发明提供一种基于transformer的多传感器数据融合机器人地形感知方法，涉及地形感知技术领域，包括：获取移动机器人的本体数据；构建地形感知框架，包括特征提取模块、transformer模块和地形分类器；将第一时频图、第二时频图和第三时频图输入地形感知框架，得到第一特征向量、第二特征向量和第三特征向量；利用transformer模块学习第一时频图、第二时频图和第三时频图之间的关系信息，得到关系向量；将关系向量、第一特征、第二特征和第三特征进行融合，得到输出向量；将输出向量输入地形分类器中，得到分类结果。本发明可以提升地形分类的性能，提高分类准确率和召回率，提供更精确的地形感知结果。

Description

基于transformer的多传感器数据融合机器人地形感知方法

技术领域

本发明涉及地形感知技术领域，具体涉及一种基于transformer的多传感器数据融合机器人地形感知方法。

背景技术

机器人地形感知任务是指让机器人利用各种传感器和技术，获取其周围环境的地表信息，以便能够在复杂、不可预测的地形中行动和导航。这项任务是机器人导航和环境感知的基础，对于让机器人能够在各种复杂环境下工作具有重要意义。机器人地形感知任务的目标是使机器人能够在各种复杂的地形环境中行动，包括室内、室外、不平坦地形等，从而扩展了机器人应用的范围，例如在野外探测、搜救、军事任务等领域的应用。

目前机器人地形感知技术可以大致分为基于视觉的地形感知技术以及非视觉的地形感知技术，基于视觉的方法往往会使用深度相机或者激光雷达，显然基于视觉的方法是为地形感知技术提供了十分有力的帮助，通过分析路面的视觉特征来对路面有一个直接的，非接触性的判断，但同时，不可否认基于视觉的路面感知技术往往会受到光照、天气、以及路面遮挡物的影响，导致对于路面的判断失准，这是基于视觉的路面感知技术所固有的缺陷；而非视觉的方法则几乎和前者的特性相反，非视觉的方法往往是通过足底感知器或者与其他来源的融合对机器人当前所处地形做出判断，所以使用非视觉的方法对当前地形进行感知所受到的环境影响比基于视觉的方法少得多。

中国申请号为202010070559.7的发明专利公开了一种基于虚拟传感器的足式机器人地形感知方法，其建立触地检测神经网络模型和土壤分类机器学习模型；在不同地形、不同步态条件下，采集足式机器人的腿关节的角度、腿关节的角速度、电机电流、腿与地面的接触力数据作为样本；利用采集的样本，对触地检测神经网络模型和土壤分类机器学习模型进行训练；将训练后的触地检测神经网络模型和土壤分类机器学习模型作为足式机器人的地形感知系统，用于地形感知。但该现有技术是手工选择的特征，其选择腿关节信息作为样本，提取的特征为腿关节的角度、角速度和电机电流，通过三种特征的归一化拼接，然后输入多个SVM进行多个二分类预测，其预测的仅是土壤类型，因此，该现有技术所采用的方法由于是手工选择的几个特征做分类，其鲁棒性有限，且分类结果仅为土壤类型，并不能完全描述地形状态，且该方法中，若某个传感器数据缺失，例如腿关节的角度的特征无法提取，则会极大影响分类结果的准确性。

发明内容

有鉴于此，本发明提供一种基于transformer的多传感器数据融合机器人地形感知方法，相比于基于视觉的方法，其所受环境影响更小，鲁棒性更强；使用transformer寻找不同数据在多个阶段的特征关系，而非简单的将特征进行卷积后融合；显式建模地面状态，通过多个物理量标签来描述地面状态。

本发明的技术目的是这样实现的：

本发明提供一种基于transformer的多传感器数据融合机器人地形感知方法，包括以下步骤：

S1 获取移动机器人的本体数据，包括第一数据、第二数据和第三数据；

S2 将本体数据转换为带有时间、频率和幅值信息的时频图，得到第一时频图、第二时频图和第三时频图；

S3 构建地形感知框架，包括特征提取模块、transformer模块、融合模块和地形分类器；

S4 将第一时频图、第二时频图和第三时频图输入地形感知框架，通过特征提取模块分别提取第一时频图、第二时频图和第三时频图的特征信息，得到第一特征向量、第二特征向量和第三特征向量；

S5利用transformer模块学习第一时频图、第二时频图和第三时频图之间的关系信息，得到关系向量；

S6 将关系向量、第一特征向量、第二特征向量和第三特征向量输入融合模块中进行融合，得到输出向量；

S7 将输出向量输入地形分类器中，得到分类结果。

在上述技术方案的基础上，优选的，步骤S3包括：

特征提取模块包括三个特征提取子模块，分别为第一特征提取子模块、第二特征提取子模块和第三特征提取子模块，每个特征提取子模块均设计三个网络阶段，每个网络阶段为残差块，每个特征提取子模块包括第一残差块、第二残差块、第三残差块和第四残差块；

transformer模块包括四个transformer组件，分别为第一transformer组件、第二transformer组件、第三transformer组件和第四transformer组件，其中，第一transformer组件包括编码器，第二transformer组件、第三transformer组件和第四transformer组件包括编码器和解码器；

地形分类器为多标签分类器。

在上述技术方案的基础上，优选的，步骤S4包括：

将第一时频图、第二时频图和第三时频图分别输入第一特征提取子模块、第二特征提取子模块和第三特征提取子模块，利用每个特征提取子模块的第一残差块、第二残差块、第三残差块、第四残差块分别提取三个时频图的第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征，将三个时频图的第四阶段特征输入对应的全连接层，得到第一特征向量、第二特征向量和第三特征向量。

在上述技术方案的基础上，优选的，步骤S5包括：

S51 采用特征处理方法将三个时频图的第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征均进行全局处理，得到三个时频图的第一全局向量、第二全局向量、第三全局向量和第四全局向量；

S52 将三个时频图的第一全局向量输入第一transformer组件的编码器中，通过编码器的自注意力机制重新分配权重后得到三个时频图的第一transformer向量；

S53 将三个时频图的第二全局向量输入第二transformer组件的编码器中，通过编码器的自注意力机制重新分配权重后得到三个时频图的第一编码向量，将三个时频图的第一编码向量和三个时频图的第一transformer向量输入第二transformer组件的解码器中，通过解码器的自注意力机制重新分配权重后得到三个时频图的第二transformer向量；

S54 将三个时频图的第三全局向量输入第三transformer组件的编码器中，通过编码器的自注意力机制重新分配权重后得到三个时频图的第二编码向量，将三个时频图的第二编码向量和三个时频图的第二transformer向量输入第三transformer组件的解码器中，通过解码器的自注意力机制重新分配权重后得到三个时频图的第三transformer向量；

S55 将三个时频图的第四全局向量输入第四transformer组件的编码器中，通过编码器的自注意力机制重新分配权重后得到三个时频图的第三编码向量，将三个时频图的第三编码向量和三个时频图的第三transformer向量输入第四transformer组件的解码器中，通过解码器的自注意力机制重新分配权重后得到三个时频图的第四transformer向量；

S56 将三个时频图的第四transformer向量作为第一关系向量、第二关系向量和第三关系向量。

在上述技术方案的基础上，优选的，步骤S51中，对三个时频图的第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征进行全局处理的方式相同，所述特征处理方法对第一时频图的第一阶段特征进行全局处理的过程包括：

第一时频图的第一阶段特征为C×W×H的三维张量，将第一时频图的第一阶段特征输入一个嵌入模块中，嵌入模块包括全局平均池化层和线性层；

将C×W×H的第一阶段特征进行全局平均池化形成维度为C的中间向量，利用线性层对中间向量升维以匹配相应transformer组件的输出维度，得到第一时频图的第一全局向量。

在上述技术方案的基础上，优选的，自注意力机制的公式为：

；

式中，d表示自注意力机制中的维度数，k表示注意力头的数量，Q是查询矩阵，K是键矩阵，K^T表示K的转置，V是值矩阵，attention value是通过自注意力机制计算得到的加权值；

其中，在编码器中，Q、K、V均为当前网络阶段对应的三个全局向量组成的矩阵；在解码器中，K、V为上一个网络阶段的transformer组件输出的三个transformer向量组成的矩阵，Q为当前网络阶段的三个全局向量组成的矩阵。

在上述技术方案的基础上，优选的，步骤S6包括：

将第一特征向量、第二特征向量和第三特征向量进行降维以匹配第一关系向量、第二关系向量、第三关系向量的维度，得到降维后的第一特征向量、第二特征向量和第三特征向量；

将降维后的第一特征向量、第二特征向量和第三特征向量组成特征向量矩阵；

将第一关系向量、第二关系向量和第三关系向量组成关系向量矩阵；

采用交叉自注意力原理，令特征向量矩阵和关系向量矩阵做自注意力加权，加权后将特征向量矩阵和关系向量矩阵以通道方向进行向量拼接，得到第一拼接向量和第二拼接向量；

将第一拼接向量和第二拼接向量输入1×1卷积层进行融合，得到输出向量。

在上述技术方案的基础上，优选的，步骤S7包括：

地形分类器为多标签分类模型，根据多个物理量标签来描述地面状态并建立多标签分类模型，采用二元交叉熵损失函数对多标签分类模型进行训练；

将输出向量输入训练后的多标签分类模型中，进行物理量标签的预测，得到多标签的分类结果。

在上述技术方案的基础上，优选的，步骤S1中，第一数据为IMU数据，第二数据为关节编码数据，第三数据为速度数据。

在上述技术方案的基础上，优选的，步骤S2中，采用短时傅里叶变换方法或连续小波变换方法将本体数据转换为带有时间、频率和幅值信息的时频图。

本发明的方法相对于现有技术具有以下有益效果：

（1）本发明采用基于本体感知的地形分类方法，相比于基于视觉的方法，其所受环境影响更小，鲁棒性更强；使用transformer寻找不同数据在多个阶段的特征关系，而非简单的将特征进行卷积后融合；显式建模地面状态，通过多个物理量标签来描述地面状态；

（2）本发明采用的方法结合了深度学习算法和transformer机制，由于transformer本身具有处理任意长度输入序列的特性，使得即使在缺少某一传感器数据的情况下依然能够继续计算以及判断，这是因为在自注意力机制（Self-Attention）中，每个位置都可以关注到序列中的所有其他位置，而不受序列长度的限制，因此即使因为各种原因导致某一传感器发生故障而无法获得该通道数据，依然可以使用该模型进行地形感知，获得到不错的分类效果；

（3）本发明使用基于transformer的组件，通过自注意力机制，自动学习不同信息源之间的关联性和重要性，从而更好地融合不同信息源的特征，自注意力机制能够捕捉到全局的上下文信息，对于地形分类任务也能够更好地捕捉地形的全局特征，可以提升地形分类的性能，提高分类准确率和召回率，提供更精确的地形感知结果；

（4）本发明使用时频图作为深度学习算法的输入，时频图将时域信号转换成带有时间、频率和幅值信息的图像，能够提供更加丰富和详细的信息量，这些时频图之间的关系可以描述当前机器人所处地形的重要信息。通过将时频图作为深度学习算法的输入，可以学习到不同传感器之间的关联性和重要性，从而更好地捕捉地形的特征和关系；

（5）本发明通过多层残差和transformer处理时频图和全局视野向量，可以提取出丰富的语义知识。这些处理可以捕捉到地形中的细微特征和关系，从而更好地理解地形的状态和特征。通过将这些知识编码为特征向量和关系向量，可以提供更多的地形信息，使得地形分类器能够更准确地判断不同地形的物理量和状态；

（6）本发明通过显式地对地形进行建模，将地形分类建模为多标签任务，每个标签代表不同的物理量，使标签携带更多的信息量，从而更好地捕捉地形的细微差别和特征，提高地形分类的准确性和鲁棒性，且各个标签之间是独立的，地形的各个物理量之间不存在依赖关系，因此设计多标签的损失函数为二元交叉熵损失函数，使得每个标签的预测不影响其他标签的预测，提高模型的训练效果和性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的地形感知框架示意图；

图3为本发明实施例的残差块的结构示意图；

图4为本发明实施例的transformer组件中编码器的结构示意图；

图5为本发明实施例的transformer组件中解码器的结构示意图；

图6为本发明实施例的融合模块的结构示意图；

图7为本发明实施例的地形分类器的示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，本发明提供一种基于transformer的多传感器数据融合机器人地形感知方法，包括以下步骤：

具体地，在该步骤中，控制机器人在不同地形下移动以获取移动机器人的本体数据，本体数据包括第一数据、第二数据和第三数据；

在本发明一实施例中，第一数据为IMU数据，第二数据为关节编码数据，第三数据为速度数据。

具体地，可以通过安装IMU传感器获取加速度和角速度数据，通过安装关节编码器传感器获取关节角度或位置数据，并通过对这些数据进行适当的计算和处理，得到机器人的速度数据。这些数据可以在机器人的主控制器上进行读取、解析和处理，以供后续的地形感知任务。

本实施例中，三个通道的数据分别是通过imu传感器获得的三轴振动数据、通过位移传感器获得的速度数据以及通过关节编码器获得的足端相对速度数据。具体地，第一数据、第二数据、第三数据可以包括多个传感器采集的数据，将同一类型的不同传感器获取的数据进行归类，从而得到第一数据、第二数据和第三数据。

具体地，每张时频图都经过处理成为分辨率为224×224的RGB图片，并以此建立地形感知算法所需的时频图数据库；

S7 将输出向量输入地形分类器中，得到分类结果。

具体地，本发明一实施例中，步骤S2包括：

采用短时傅里叶变换方法或连续小波变换方法将本体数据转换为带有时间、频率和幅值信息的时频图，得到第一时频图、第二时频图和第三时频图。

短时傅里叶变换（Short-Time Fourier Transform, STFT）：STFT是一种常用的时频分析方法，可以将时域信号分解为不同频率的成分，并显示它们随时间的变化。STFT通过将信号分成多个时间窗口，并对每个窗口应用傅里叶变换来实现。例如：根据信号的特性和所需的时频分辨率，选择合适的时间窗口大小和重叠率；将每个时间窗口内的信号应用傅里叶变换，得到频域表示；将每个时间窗口的频域表示合并起来，形成时频图。

连续小波变换（Continuous Wavelet Transform, CWT）：CWT是一种基于小波分析的时频分析方法，可以提供更好的时间和频率分辨率。CWT通过将信号与不同尺度的小波函数进行卷积来实现。例如：根据信号的特性和所需的时频分辨率，选择合适的小波函数和尺度；将信号与不同尺度的小波函数进行卷积，得到时频表示。

具体地，本实施例中，当第一数据、第二数据、第三数据为多种数据归类得到时，可将多种第一数据做预处理，提取其时频信息，将多种第一数据的时频信息叠加至同一张第一时频图中，这是为了方便后续输入模型进行特征提取，模型输入均是一张张的图片，因此在此做一定的预处理能提高模型处理的效率。以此类推，第二数据、第三数据也可做预处理后得到单张的第二时频图和单张的第三时频图。

请参阅图2，本发明一实施例中，步骤S3包括：

特征提取模块包括三个特征提取子模块，分别为第一特征提取子模块、第二特征提取子模块和第三特征提取子模块，每个特征提取子模块均设计四个网络阶段，每个网络阶段包含残差块，每个特征提取子模块包括第一残差块、第二残差块、第三残差块和第四残差块；

地形分类器为多标签分类器。

需要说明的是，本发明中的地形感知框架具体为一个深度学习模型，因此需要对该模型进行预训练，在一个实施例中，模型训练的过程包括：

操控机器人在选择地形上进行操纵，包括启动，移动，制动；收集操纵机器人时所需的传感器数据，由于收集到的传感器数据往往是时域信号，那么必须对收集到的信号进行处理，通过小波变换转换成为时频图，并以此为基础建立用于模型训练的数据库；

通过上述数据库对模型进行训练，训练时采用二元交叉熵损失函数来判断并将每个标签是否存在，并且通过观察训练损失来判断模型是否收敛，利用前向传播算法计算损失函数并进行反向传播更新模型参数，模型参数包括学习率、正则化参数、网络结构等，为了防止模型过拟合，还可采用L1正则化限制模型的复杂度，并采取Adam优化器加速模型收敛过程；

模型训练完成后，采用交叉验证方法对模型进行评估；

算法训练完毕后在待识别路面上采集所需的传感器数据完成分类。

具体地，在本发明一实施例中，步骤S3中所构建的框架说明如下：

三个通道的特征提取模块架构相同，此处着重描述第一个特征提取通道的架构。第一个特征提取通道的架构由ResNet-50组成，具体由四个阶段的残差块和最后的线性层构成，而每个阶段中包含有多个残差块，每个残差块主要由两个1×1的卷积层和一个3×3的卷积层以及其他归一化层构成，具体框架请参考图3。

transformer模块主要由编码器和解码器构成，除了第一个阶段和最后的融合阶段用的transformer编码器，其他阶段用的都是解码器。编码器和解码器架构都是根据多头自注意力机制所建立的，主要目的就是为了获得代表着各个通道信息的全局向量之间的关系。编码器主要由一个多头注意力模块和前馈神经网络模块构成，具体框架参考图4；多头注意力机制的公式如下所示：

式中，head_i为某个注意力头的输出结果，W^O为线性层，该公式意味着将每个头的输出结果拼接成一个向量后再降维成原始的维度。

解码器由两个多头注意力模块构成，第一个多头注意力模块用于编码本阶段的全局向量获得包含当前阶段各个通道之间关系的transformer向量，第二个多头注意力模块利则利用本阶段的transformer向量之间的关系对上一个阶段的transformer向量进行修改，具体架构参考图5。

融合模块架构由交叉自注意力模块构成，基原理与自注意力机制相同，只是将特征向量组与关系向量组做彼此的查询矩阵，并且以此来修改各自的值，然后将修改后的特征向量组与关系向量组看作两个二维张量，并在通道维度进行堆叠，形成2×H×W的特征图，最后用一个1×1卷积层将特征图的通道数降为1，完成融合操作。

地形分类器由多层全连接层构成，以及最后的每个标签的二分类器构成，激活函数采用sigmoid函数，每个二分类器输出一个0-1范围内的数，并且设置阈值为0.5，当二分类器输出值大于0.5则输出该标签，反之则不输出该标签。

具体地，本发明一实施例中，步骤S4包括：

将第一时频图、第二时频图和第三时频图分别输入第一特征提取子模块、第二特征提取子模块和第三特征提取子模块，利用每个特征提取子模块的第一残差块、第二残差块、第三残差块、第四残差块分别提取三个时频图的第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征，将三个时频图的第四阶段特征输入对应的全连接层，得到第一特征向量、第二特征向量和第三特征向量，在上述过程中输入的时频图维度为3×224×224，经过第一阶段的残差块之后的第一阶段特征维度为56×56×256，第二阶段特征维度为28×28×512，第三阶段特征14×14×1024，第四阶段特征维度为7×7×2048，特征向量维度为2048。

具体地，本发明一实施例中，步骤S5包括：

S51 采用特征处理方法将三个时频图的第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征均进行全局处理，得到三个时频图的第一全局向量、第二全局向量、第三全局向量和第四全局向量；第一全局向量维度为256，第二全局向量维度512，第三全局向量维度为1024，第四全局向量维度为2048；

S52 将三个时频图的第一全局向量输入第一transformer组件的编码器中，通过编码器的自注意力机制重新分配权重后得到三个时频图的第一transformer向量，第一阶段transformer编码器输出向量维度256；

S53 将三个时频图的第二全局向量输入第二transformer组件的编码器中，通过编码器的自注意力机制重新分配权重后得到三个时频图的第一编码向量，将三个时频图的第一编码向量和三个时频图的第一transformer向量输入第二transformer组件的解码器中，通过解码器的自注意力机制重新分配权重后得到三个时频图的第二transformer向量，第二阶段transformer解码器输出向量维度为512；

S54 将三个时频图的第三全局向量输入第三transformer组件的编码器中，通过编码器的自注意力机制重新分配权重后得到三个时频图的第二编码向量，将三个时频图的第二编码向量和三个时频图的第二transformer向量输入第三transformer组件的解码器中，通过解码器的自注意力机制重新分配权重后得到三个时频图的第三transformer向量，第三阶段解码器输出向量维度为1024；

S55 将三个时频图的第四全局向量输入第四transformer组件的编码器中，通过编码器的自注意力机制重新分配权重后得到三个时频图的第三编码向量，将三个时频图的第三编码向量和三个时频图的第三transformer向量输入第四transformer组件的解码器中，通过解码器的自注意力机制重新分配权重后得到三个时频图的第四transformer向量，第四阶段解码器输出向量为2048；

本发明的地形感知框架如图2所示，其中，q1、q2、q3分别表示第一时频图、第二时频图和第三时频图，其为框架的最初输入，每个时频图横向的处理可看做是一个通道，经过全局池化层和全连接层后得到的第一特征向量、第二特征向量、第三特征向量为通道特征。即输入的时频图（q1，q2，q3）分别经过各自的通道，每个通道上有四个残差块和一个全连接层，每经过一个残差块，算法都将学习到不同阶段的特征信息，在初始卷积过程算法可能会学习到关于颜色的区别，在时频图上表现为信号的幅值信息，随着多层卷积的进行，更高阶段的卷积可能学习到更复杂更抽象的语义信息，因此本实施例设计了4个网络阶段的残差块。

但是通道层仅仅只学习到了三个信息源中蕴含的信息，如果只在最后将学习到的特征向量进行拼接，那将无法学习到不同信息源之间是如何配合获得地形信息的，为此本实施例特意设计了基于交叉自注意力机制的融合模块。

请参阅图2中虚线所指的部分，在将每个网络阶段提取的阶段特征输入transformer之前，还会对特征进行全局处理，具体地，对三个时频图的第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征进行全局处理的方式相同，所述特征处理方法对第一时频图的第一阶段特征进行全局处理的过程包括：

具体地，在本发明另外一个实施例中，特征处理方法还可以是：

第一时频图的第一阶段特征为C×W×H的三维张量，将第一时频图的第一阶段特征进行reshape操作，转换成C×N的二维张量，其中N=W×H；

将转换后的第一时频图的第一阶段特征经过一个线性层，将二维张量线性变换为第一时频图的第一全局向量。

以图2为例，初始的第一时频图维度为224×224×3，通过第一残差块提取的第一阶段特征的维度为56×56×256，即C为56，W为56，H为256，之后依次通过第二残差块提取第二阶段特征的维度为28×28×512、通过第三残差块提取的第三阶段特征的维度为14×14×1024、通过第四残差块提取的第阶段特征的维度为7×7×2048，经过全局池化层变成维度为2048的向量，最后输入一个全连接层，全连接层用来提高特征之间的非线性组合，维度不变，得到第一特征向量。

根据图2所示，在第一时频图、第二时频图、第三时频图，即q1、q2、q3输入算法框架后，q1、q2、q3均会经过四个残差块和一个全连接层来得到第一特征向量、第二特征向量和第三特征向量。

具体地，本实施例中，自注意力机制的公式为：

本实施例中，transformer组件的编码器结构如图4所示，解码器结构如图5所示，编码器包括两个标准化层、多头自注意力机制和多层感知器，解码器包括三个标准化层、两个多头自注意力机制和一个多层感知器，其中第二个多头自注意力机制中的K、V是来自上一网络阶段的transformer组件输出的三个transformer向量组成的矩阵。

例如，图2中的第一列下方即为第一个transformer，其仅包括编码器，没有解码器，此处自注意力机制中的Q、K、V是由第一列的三个残差块提取的阶段特征做全局处理后得到的全局向量。而第二列下方为第二transformer组件，其包括编码器和解码器，编码器的自注意力机制的Q、K、V是由第二列的三个残差块提取的阶段特征做全局处理后得到的全局向量，解码器的自注意力机制的Q也是来自当前网络阶段的全局向量，但K、V是来自上一网络阶段的transformer组件输出的三个transformer向量组成的矩阵，由于上一个网络阶段中包含了信息源之间的关系向量，所以以此为基础的K、V将指导当前网络阶段中的新全局视野向量进行此次网络阶段的特征相关性学习，最终，经过自注意力机制重新分配权重的三个全局视野向量经过线性层降维之后将会同时携带当前网络阶段以及之前所有网络阶段的不同信息之间的相关性信息继续指导下一个网络阶段。

以q1的横向通道为例，q1在经过第一个残差块会得到一个第一阶段特征，这个第一阶段特征会进行特征全局处理，即利用图2所示第一列残差块下方的嵌入模块来得到第一全局向量，将这个第一全局向量输入下方的编码器中进行自注意力机制的加权处理，同时，这个第一阶段特征也会被送入第一行的第二个残差块中，继续提取第二阶段特征，与上述同理，第二阶段特征会被全局处理后送入第二列下方的transformer中，这个transformer的输入不仅有第二阶段特征，还包括上一个编码器输出的加权后的特征，同时，第二阶段特征也会被送入第一行的第三个残差块中，提取第三阶段特征，之后第三阶段特征同时输入第四残差块和第三列下方的transformer中，提取第四阶段特征，第四阶段特征输入全连接层得到第一特征向量，同时第四阶段特征全局处理后输入第四列下方的transformer中，利用上一个transformer解码器输出的加权特征，得到第一关系向量。

根据上述内容以此类推，q2、q3的处理过程与q1相同，最终得到q1、q2、q3的通道特征和关系向量，将这些通道特征和关系向量输入融合模块中进行融合，如图6所示，即步骤S6包括：

采用交叉自注意力原理，令特征向量矩阵和关系向量矩阵做自注意力加权，加权后将特征向量矩阵和关系向量矩阵以通道方向进行向量堆叠，将每个矩阵看作是一张特征图得到通道数为2的特征图；

将上述特征特征图输入1×1卷积层进行融合，通道数降为1，完成融合过程，获得由三个向量组成的融合矩阵。最终经过多层残差块的通道特征图经过降维后获得有丰富语义知识的通道向量，而经过多层transformer处理的全局视野向量将会携带不同通道间的关系成为关系向量，并在最后将两者融合之后的融合矩阵维度为3×2048，将每行向量拼接为一个维度为6144（3×2048）的向量后作为地形分类器的输入向量完成地形判断。

具体地，本发明一实施例中，步骤S7包括：

地形分类器为多标签分类模型，根据多个物理量标签来描述地面状态并建立多标签分类模型，采用二元交叉熵损失函数对多标签分类模型进行训练；具体损失函数公式如下：

式中y_j是表示第j个样本的标签(0或1)，p_j表示第j个样本的预测值，i代表第几个标签，N代表一个batch中的所有样本数。

如图7所示，本实施例中的地形分类器为多标签分类器，其本意是用参数化的标签对地形进行描述，以适应多种复杂路面状态相互耦合的地形，具体参数化标签为“凹凸程度”、“软硬程度”、“柔韧程度”、“湿滑程度”以及“坡度”，通过上述多标签分类器即可对每一种由不同路面状态耦合而成的复杂地形进行描述。

具体的，本实施例显式的将地形进行建模，以凹凸程度、软硬程度、坡度、湿滑程度、坚韧程度等物理量来描述地面状态，如凹凸程度为凹凸不平，则标签取值为1，若凹凸程度为平整，则标签取值为0；若打滑程度为地面湿滑，则标签取值为1，若打滑程度为地面不湿滑，则标签取值为0；若软硬程度为软，则标签取值为1，硬则标签取值为0；若柔韧程度为地面易破碎，则标签取值为1，不易破碎，则标签取值为0；若坡度为有坡度，则标签取值为1，若坡度为无坡度，则标签取值为0。如此建立的地形分类模型不仅仅标签上携带有更多的信息量，而且鲁棒性更强，在多种路况交错耦合的状态下也能完成地形感知任务。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于transformer的多传感器数据融合机器人地形感知方法，其特征在于，包括以下步骤：

S1 获取移动机器人的本体数据，包括第一数据、第二数据和第三数据；其中，第一数据为IMU数据，第二数据为关节编码数据，第三数据为速度数据；

步骤S3包括：

地形分类器为多标签分类器；

步骤S4包括：

将第一时频图、第二时频图和第三时频图分别输入第一特征提取子模块、第二特征提取子模块和第三特征提取子模块，利用每个特征提取子模块的第一残差块、第二残差块、第三残差块、第四残差块分别提取三个时频图的第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征，将三个时频图的第四阶段特征输入对应的全连接层，得到第一特征向量、第二特征向量和第三特征向量；

步骤S5包括：

S56 将三个时频图的第四transformer向量作为第一关系向量、第二关系向量和第三关系向量；

S7 将输出向量输入地形分类器中，得到分类结果。

2.如权利要求1所述的基于transformer的多传感器数据融合机器人地形感知方法，其特征在于，步骤S51中，对三个时频图的第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征进行全局处理的方式相同，所述特征处理方法对第一时频图的第一阶段特征进行全局处理的过程包括：

3.如权利要求1所述的基于transformer的多传感器数据融合机器人地形感知方法，其特征在于，自注意力机制的公式为：

；

4.如权利要求3所述的基于transformer的多传感器数据融合机器人地形感知方法，其特征在于，步骤S6包括：

5.如权利要求4所述的基于transformer的多传感器数据融合机器人地形感知方法，其特征在于，步骤S7包括：

6.如权利要求1所述的基于transformer的多传感器数据融合机器人地形感知方法，其特征在于，步骤S2中，采用短时傅里叶变换方法或连续小波变换方法将本体数据转换为带有时间、频率和幅值信息的时频图。