CN112288870A

CN112288870A - 基于移动机器人与地面交互声音的地形识别方法及装置

Info

Publication number: CN112288870A
Application number: CN202011555269.8A
Authority: CN
Inventors: 李小倩; 李月华; 朱世强; 谢天; 何伟; 陈烨恒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-01-29
Anticipated expiration: 2040-12-24
Also published as: CN112288870B

Abstract

本申请公开了一种基于移动机器人与地面交互声音的地形识别方法及装置，包括：在已选择的各地形中，采集移动机器人与各地面交互的音频数据，并对所述音频数据进行处理，构建得到用于模型训练的地形数据库；基于所述地形数据库，构建基于注意力机制的地形分类网络模型；在待识别地形中，采集移动机器人与待识别地形地面交互的音频数据，通过所述地形分类网络模型识别该地形。利用移动机器人与地面的交互声音的方法充分地排除了光照变化等环境对系统探测的影响，不仅可以仅凭声音独立识别地形，也可以与基于视觉的地形识别方案互为补充，进一步提升系统的鲁棒性。

Description

基于移动机器人与地面交互声音的地形识别方法及装置

技术领域

本发明涉及机器人环境感知技术领域，尤其涉及一种基于移动机器人与地面交互声音的地形识别方法及装置。

背景技术

目前大部分地形分类方法都基于视觉，但基于视觉的方法容易受到外观变化和光照变化等影响，导致系统不稳定。移动机器人与不同类型地面进行交互产生的声音具有各自独特的音频特征，可利用此特征进行地形分类，且不受光照、抖动等影响。已有的少量声学识别方法多为主动式声波而非接触式声响，且识别对象多为具体目标而非场景地形，对功耗、使用环境也都有一定限制。

发明内容

本发明实施例的目的是提出一种基于移动机器人与地面交互声音的地形识别方法及装置，以解决相关技术对地形语义感知能力不足的问题。

根据本发明实施例的第一方面，提供一种基于移动机器人与地面交互声音的地形识别方法，包括：

在已选择的各地形中，采集移动机器人与各地面交互的音频数据，并对所述音频数据进行处理，构建得到用于模型训练的地形数据库；

基于所述地形数据库，构建基于注意力机制的地形分类网络模型；

在待识别地形中，采集移动机器人与待识别地形地面交互的音频数据，通过所述地形分类网络模型识别该地形。

进一步地，所述各地形包括基岩地、土壤地、沙地、碎石地。

进一步地，在已选择的各地形中，采集移动机器人与各地面交互的音频数据，并对所述音频数据进行处理，构建得到用于模型训练的地形数据库，包括：

控制移动机器人以不同的速度在已选择的各地形上移动，通过麦克风采集各地形下移动机器人与地面交互的音频数据；

对所述音频数据进行预处理，提取得到声谱图；

将所述声谱图进行数据处理，整合构建成地形数据库。

进一步地，基于所述地形数据库，构建基于注意力机制的地形分类网络模型，包括：

将所述声谱图进行水平切片，得到不同频段的子谱图，利用深度学习方法获取不同子谱图的图像特征；

通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数，利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合，得到强化后的特征；

将所述强化后的特征通过全连接层和分类器处理，得到基于注意力机制的学习网络；

使用所述地形数据库对所述学习网络进行训练，得到最终的基于注意力机制的地形分类网络模型。

针对声谱图的识别与分类，本发明通过水平切片，将声谱图分成不同频段的子谱图，并利用注意力机制确定不同子谱图特征对全局声谱图的注意力权重系数，对深度学习模型输出的特征进行加权线性组合，得到最终特征，可以大大提升模型对地形识别的准确性。

根据本发明实施例的第二方面，提供一种基于移动机器人与地面交互声音的地形识别装置，包括：

数据库构建模块，用于在已选择的各地形中，采集移动机器人与各地面交互的音频数据，并对所述音频数据进行处理，构建得到用于模型训练的地形数据库；

模型构建模块，用于基于所述地形数据库，构建基于注意力机制的地形分类网络模型；

识别模块，用于在待识别地形中，采集移动机器人与待识别地形地面交互的音频数据，通过所述地形分类网络模型识别该地形。

进一步地，数据库构建模块，包括：

采集子模块，用于控制移动机器人以不同的速度在已选择的各地形上移动，通过麦克风采集各地形下移动机器人与地面交互的音频数据；

预处理子模块，用于对所述音频数据进行预处理，提取得到声谱图；

构建子模块，用于将所述声谱图进行数据处理，整合构建成地形数据库。

进一步地，模型构建模块，包括：

切片子模块，用于将所述声谱图进行水平切片，得到不同频段的子谱图，利用深度学习方法获取不同子谱图的图像特征；

强化子模块，用于通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数，利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合，得到强化后的特征；

处理子模块，用于将所述强化后的特征通过全连接层和分类器处理，得到基于注意力机制的学习网络；

训练子模块，用于使用所述地形数据库对所述学习网络进行训练，得到最终的基于注意力机制的地形分类网络模型。

根据本发明实施例的第三方面，提供一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如第一方面所述的方法。

根据以上技术方案，本发明实施例的有益效果是：利用移动机器人与地面的交互声音的方法充分地排除了光照变化等环境对系统探测的影响，不仅可以仅凭声音独立识别地形，也可以与基于视觉的地形识别方案互为补充，进一步提升系统的鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为根据一示例性实施例示出的一种基于移动机器人与地面交互声音的地形识别方法的流程图。

图2为根据一示例性实施例示出的步骤S101的流程图。

图3为根据一示例性实施例示出的步骤S103的流程图。

图4为根据一示例性实施例示出的基于注意力机制的地形分类网络架构图。

图5为根据一示例性实施例示出的一种基于移动机器人与地面交互声音的地形识别装置的框图。

图6为根据一示例性实施例示出的数据库构建模块10的框图。

图7为根据一示例性实施例示出的模型构建模块30的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

为了更好地理解本发明，以下详细阐述一个基于移动机器人与地面交互声音的地形识别方法的应用实例。

图1为根据一示例性实施例示出的一种基于移动机器人与地面交互声音的地形识别方法的流程图。如图1所示，该方法可包括以下步骤：

步骤S101，在已选择的各地形中，采集移动机器人与各地面交互的音频数据，并对所述音频数据进行处理，构建得到用于模型训练的地形数据库；

步骤S1013，基于所述地形数据库，构建基于注意力机制的地形分类网络模型；

步骤S105，在待识别地形中，采集移动机器人与待识别地形地面交互的音频数据，通过所述地形分类网络模型识别该地形。

本实施例利用移动机器人与地面的交互声音的方法充分地排除了光照变化等环境对系统探测的影响，不仅可以仅凭声音独立识别地形，也可以与基于视觉的地形识别方案互为补充，进一步提升系统的鲁棒性。本发明实施例的方法具备对地形种类的有效识别能力，从而为移动机器人提供对地形环境的语义感知。

下面对上述各步骤做详细描述。

图2为根据一示例性实施例示出的步骤S101的流程图。针对上述步骤S101，在已选择的各地形中，采集移动机器人与各地面交互的音频数据，并对所述音频数据进行处理，构建得到用于模型训练的地形数据库，该步骤可以包括以下子步骤：

步骤S1011，控制移动机器人以不同的速度在已选择的各地形上移动，通过麦克风采集各地形下移动机器人与地面交互的音频数据；

具体地，在数据采集运行期间，移动机器人以0.1m/s到1.0m/s不等的速度在步骤一中所确定的地形中行驶。将麦克风RODE VideoMic Pro+安装在移动机器人底盘附件，收集移动机器人行驶过程中与地面交互的音频数据，数据以44.1kHz的无损耗16位WAV格式存储。

上述各地形包括基岩地、土壤地、沙地、碎石地。其中，基岩地是较大块完整或龟裂的基岩平地；土壤地是紧实泥土地；沙地是松软沙子地；碎石地是密集的小型碎石地。

步骤S1012，对所述音频数据进行预处理，提取得到声谱图；

具体地，为了保证数据的稳定，将移动机器人启动、停止以及转弯等时候采集的音频信号去掉，保留中间段行驶部分的音频数据。首先将音频数据进行预加重、分帧和加窗等预处理操作，再对每一帧进行傅里叶变换（FFT），将每一帧的变换结果沿另一个维度堆叠起来，得到声谱图。

步骤S1013，将所述声谱图进行数据处理，整合构建成地形数据库。

具体地，使用波形分析仪剔除声谱图中显著的干扰，并使用时间拉伸、调制速度、增加和减少音量增益来增加样本的数量；通过查看音频数据时间戳手动标记数据，将所有音频数据整合构成地形数据库，每一音频数据分别与一地形相对应；选择地形数据库中80%的音频数据作为训练样本集，剩余的20%数据测试样本集。

图3为根据一示例性实施例示出的步骤S103的流程图。针对步骤S103，基于所述地形数据库，构建基于注意力机制的地形分类网络模型，可以包括以下子步骤：

步骤S1031，将所述声谱图进行水平切片，得到不同频段的子谱图，利用深度学习方法获取不同子谱图的图像特征；

本实施例中，将声谱图水平切片为三份子谱图，子网络层选用ResNet-50分别提取子谱图特征Z _t；

步骤S1032，通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数，利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合，得到强化后的特征；

本实施例中，通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数λ _t，注意力权重系数λ _t由子谱图特征Z _t经过注意力网络计算得到。注意力网络计算过程如下：

设定的能量系数q _t:

其中，

、

表示权重矩阵；

表示偏置项；

、

、

均为学习参数。

进一步地，确定不同子谱图特征对全局子谱图影响的注意力权重系数

：

衡量了不同子谱图特征对于输出地形类别的重要程度。

利用确定的注意力权重系数

对子网络层提取的子谱图特征进行加权线性组合，得到强化后的特征T:

步骤S1033，将所述强化后的特征通过全连接层和分类器处理，得到基于注意力机制的学习网络；

本实例中，经过一个全连接层和一个Softmax分类器处理，实现对地形的识别：

其中，表示权重矩阵，

表示偏置项，

均为学习参数；

表示向量Y的第i 各分量；

表示样本属于第i类地形的概率。

基于注意力机制的学习网络，其架构图如图4所示。

步骤S1034，使用所述地形数据库对所述学习网络进行训练，得到最终的基于注意力机制的地形分类网络模型。

针对声谱图的识别与分类，本发明通过水平切片，将声谱图分成不同频段的子谱图，并利用注意力机制确定不同子谱图特征对全局声谱图的注意力权重系数，较好地反映了不同频段子谱图对于全局谱图影响的程度，对深度学习模型输出的特征进行加权线性组合，得到最终特征，可以大大提升模型对地形识别的准确性。

与前述的基于移动机器人与地面交互声音的地形识别方法的实施例相对应，本申请还提供了基于移动机器人与地面交互声音的地形识别装置的实施例。

图5是根据一示例性实施例示出的一种基于移动机器人与地面交互声音的地形识别装置框图。参照图5，该装置包括：

数据库构建模块10，用于在已选择的各地形中，采集移动机器人与各地面交互的音频数据，并对所述音频数据进行处理，构建得到用于模型训练的地形数据库；

模型构建模块30，用于基于所述地形数据库，构建基于注意力机制的地形分类网络模型；

识别模块50，用于在待识别地形中，采集移动机器人与待识别地形地面交互的音频数据，通过所述地形分类网络模型识别该地形。

图6为根据一示例性实施例示出的数据库构建模块10的框图。本实施例中，所述数据库构建模块10，包括：

采集子模块11，用于控制移动机器人以不同的速度在已选择的各地形上移动，通过麦克风采集各地形下移动机器人与地面交互的音频数据；

预处理子模块12，用于对所述音频数据进行预处理，提取得到声谱图；

构建子模块13，用于将所述声谱图进行数据处理，整合构建成地形数据库。

图7为根据一示例性实施例示出的模型构建模块30的框图。本实施例中，所述模型构建模块30，包括：

切片子模块31，用于将所述声谱图进行水平切片，得到不同频段的子谱图，利用深度学习方法获取不同子谱图的图像特征；

强化子模块32，用于通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数，利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合33，得到强化后的特征；

处理子模块34，用于将所述强化后的特征通过全连接层和分类器处理，得到基于注意力机制的学习网络；

训练子模块35，用于使用所述地形数据库对所述学习网络进行训练，得到最终的基于注意力机制的地形分类网络模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如上述的方法。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于移动机器人与地面交互声音的地形识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于移动机器人与地面交互声音的地形识别方法，其特征在于，所述各地形包括基岩地、土壤地、沙地、碎石地。

3.根据权利要求1所述的一种基于移动机器人与地面交互声音的地形识别方法，其特征在于，在已选择的各地形中，采集移动机器人与各地面交互的音频数据，并对所述音频数据进行处理，构建得到用于模型训练的地形数据库，包括：

对所述音频数据进行预处理，提取得到声谱图；

将所述声谱图进行数据处理，整合构建成地形数据库。

4.根据权利要求3所述的一种基于移动机器人与地面交互声音的地形识别方法，其特征在于，基于所述地形数据库，构建基于注意力机制的地形分类网络模型，包括：

5.一种基于移动机器人与地面交互声音的地形识别装置，其特征在于，包括：

6.根据权利要求5所述的一种基于移动机器人与地面交互声音的地形识别装置，其特征在于，所述各地形包括基岩地、土壤地、沙地、碎石地。

7.根据权利要求5所述的一种基于移动机器人与地面交互声音的地形识别装置，其特征在于，数据库构建模块，包括：

8.根据权利要求7所述的一种基于移动机器人与地面交互声音的地形识别装置，模型构建模块，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-4中任一项所述的方法。