CN112288870A - 基于移动机器人与地面交互声音的地形识别方法及装置 - Google Patents

基于移动机器人与地面交互声音的地形识别方法及装置 Download PDF

Info

Publication number
CN112288870A
CN112288870A CN202011555269.8A CN202011555269A CN112288870A CN 112288870 A CN112288870 A CN 112288870A CN 202011555269 A CN202011555269 A CN 202011555269A CN 112288870 A CN112288870 A CN 112288870A
Authority
CN
China
Prior art keywords
terrain
mobile robot
ground
audio data
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011555269.8A
Other languages
English (en)
Other versions
CN112288870B (zh
Inventor
李小倩
李月华
朱世强
谢天
何伟
陈烨恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202011555269.8A priority Critical patent/CN112288870B/zh
Publication of CN112288870A publication Critical patent/CN112288870A/zh
Application granted granted Critical
Publication of CN112288870B publication Critical patent/CN112288870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C7/00Tracing profiles
    • G01C7/02Tracing profiles of land surfaces
    • G01C7/04Tracing profiles of land surfaces involving a vehicle which moves along the profile to be traced
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Geometry (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Graphics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于移动机器人与地面交互声音的地形识别方法及装置,包括:在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库;基于所述地形数据库,构建基于注意力机制的地形分类网络模型;在待识别地形中,采集移动机器人与待识别地形地面交互的音频数据,通过所述地形分类网络模型识别该地形。利用移动机器人与地面的交互声音的方法充分地排除了光照变化等环境对系统探测的影响,不仅可以仅凭声音独立识别地形,也可以与基于视觉的地形识别方案互为补充,进一步提升系统的鲁棒性。

Description

基于移动机器人与地面交互声音的地形识别方法及装置
技术领域
本发明涉及机器人环境感知技术领域,尤其涉及一种基于移动机器人与地面交互声音的地形识别方法及装置。
背景技术
目前大部分地形分类方法都基于视觉,但基于视觉的方法容易受到外观变化和光照变化等影响,导致系统不稳定。移动机器人与不同类型地面进行交互产生的声音具有各自独特的音频特征,可利用此特征进行地形分类,且不受光照、抖动等影响。已有的少量声学识别方法多为主动式声波而非接触式声响,且识别对象多为具体目标而非场景地形,对功耗、使用环境也都有一定限制。
发明内容
本发明实施例的目的是提出一种基于移动机器人与地面交互声音的地形识别方法及装置,以解决相关技术对地形语义感知能力不足的问题。
根据本发明实施例的第一方面,提供一种基于移动机器人与地面交互声音的地形识别方法,包括:
在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库;
基于所述地形数据库,构建基于注意力机制的地形分类网络模型;
在待识别地形中,采集移动机器人与待识别地形地面交互的音频数据,通过所述地形分类网络模型识别该地形。
进一步地,所述各地形包括基岩地、土壤地、沙地、碎石地。
进一步地,在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库,包括:
控制移动机器人以不同的速度在已选择的各地形上移动,通过麦克风采集各地形下移动机器人与地面交互的音频数据;
对所述音频数据进行预处理,提取得到声谱图;
将所述声谱图进行数据处理,整合构建成地形数据库。
进一步地,基于所述地形数据库,构建基于注意力机制的地形分类网络模型,包括:
将所述声谱图进行水平切片,得到不同频段的子谱图,利用深度学习方法获取不同子谱图的图像特征;
通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数,利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合,得到强化后的特征;
将所述强化后的特征通过全连接层和分类器处理,得到基于注意力机制的学习网络;
使用所述地形数据库对所述学习网络进行训练,得到最终的基于注意力机制的地形分类网络模型。
针对声谱图的识别与分类,本发明通过水平切片,将声谱图分成不同频段的子谱图,并利用注意力机制确定不同子谱图特征对全局声谱图的注意力权重系数,对深度学习模型输出的特征进行加权线性组合,得到最终特征,可以大大提升模型对地形识别的准确性。
根据本发明实施例的第二方面,提供一种基于移动机器人与地面交互声音的地形识别装置,包括:
数据库构建模块,用于在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库;
模型构建模块,用于基于所述地形数据库,构建基于注意力机制的地形分类网络模型;
识别模块,用于在待识别地形中,采集移动机器人与待识别地形地面交互的音频数据,通过所述地形分类网络模型识别该地形。
进一步地,数据库构建模块,包括:
采集子模块,用于控制移动机器人以不同的速度在已选择的各地形上移动,通过麦克风采集各地形下移动机器人与地面交互的音频数据;
预处理子模块,用于对所述音频数据进行预处理,提取得到声谱图;
构建子模块,用于将所述声谱图进行数据处理,整合构建成地形数据库。
进一步地,模型构建模块,包括:
切片子模块,用于将所述声谱图进行水平切片,得到不同频段的子谱图,利用深度学习方法获取不同子谱图的图像特征;
强化子模块,用于通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数,利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合,得到强化后的特征;
处理子模块,用于将所述强化后的特征通过全连接层和分类器处理,得到基于注意力机制的学习网络;
训练子模块,用于使用所述地形数据库对所述学习网络进行训练,得到最终的基于注意力机制的地形分类网络模型。
根据本发明实施例的第三方面,提供一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如第一方面所述的方法。
根据以上技术方案,本发明实施例的有益效果是:利用移动机器人与地面的交互声音的方法充分地排除了光照变化等环境对系统探测的影响,不仅可以仅凭声音独立识别地形,也可以与基于视觉的地形识别方案互为补充,进一步提升系统的鲁棒性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为根据一示例性实施例示出的一种基于移动机器人与地面交互声音的地形识别方法的流程图。
图2为根据一示例性实施例示出的步骤S101的流程图。
图3为根据一示例性实施例示出的步骤S103的流程图。
图4为根据一示例性实施例示出的基于注意力机制的地形分类网络架构图。
图5为根据一示例性实施例示出的一种基于移动机器人与地面交互声音的地形识别装置的框图。
图6为根据一示例性实施例示出的数据库构建模块10的框图。
图7为根据一示例性实施例示出的模型构建模块30的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
为了更好地理解本发明,以下详细阐述一个基于移动机器人与地面交互声音的地形识别方法的应用实例。
图1为根据一示例性实施例示出的一种基于移动机器人与地面交互声音的地形识别方法的流程图。如图1所示,该方法可包括以下步骤:
步骤S101,在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库;
步骤S1013,基于所述地形数据库,构建基于注意力机制的地形分类网络模型;
步骤S105,在待识别地形中,采集移动机器人与待识别地形地面交互的音频数据,通过所述地形分类网络模型识别该地形。
本实施例利用移动机器人与地面的交互声音的方法充分地排除了光照变化等环境对系统探测的影响,不仅可以仅凭声音独立识别地形,也可以与基于视觉的地形识别方案互为补充,进一步提升系统的鲁棒性。本发明实施例的方法具备对地形种类的有效识别能力,从而为移动机器人提供对地形环境的语义感知。
下面对上述各步骤做详细描述。
图2为根据一示例性实施例示出的步骤S101的流程图。针对上述步骤S101,在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库,该步骤可以包括以下子步骤:
步骤S1011,控制移动机器人以不同的速度在已选择的各地形上移动,通过麦克风采集各地形下移动机器人与地面交互的音频数据;
具体地,在数据采集运行期间,移动机器人以0.1m/s到1.0m/s不等的速度在步骤一中所确定的地形中行驶。将麦克风RODE VideoMic Pro+安装在移动机器人底盘附件,收集移动机器人行驶过程中与地面交互的音频数据,数据以44.1kHz的无损耗16位WAV格式存储。
上述各地形包括基岩地、土壤地、沙地、碎石地。其中,基岩地是较大块完整或龟裂的基岩平地;土壤地是紧实泥土地;沙地是松软沙子地;碎石地是密集的小型碎石地。
步骤S1012,对所述音频数据进行预处理,提取得到声谱图;
具体地,为了保证数据的稳定,将移动机器人启动、停止以及转弯等时候采集的音频信号去掉,保留中间段行驶部分的音频数据。首先将音频数据进行预加重、分帧和加窗等预处理操作,再对每一帧进行傅里叶变换(FFT),将每一帧的变换结果沿另一个维度堆叠起来,得到声谱图。
步骤S1013,将所述声谱图进行数据处理,整合构建成地形数据库。
具体地,使用波形分析仪剔除声谱图中显著的干扰,并使用时间拉伸、调制速度、增加和减少音量增益来增加样本的数量;通过查看音频数据时间戳手动标记数据,将所有音频数据整合构成地形数据库,每一音频数据分别与一地形相对应;选择地形数据库中80%的音频数据作为训练样本集,剩余的20%数据测试样本集。
图3为根据一示例性实施例示出的步骤S103的流程图。针对步骤S103,基于所述地形数据库,构建基于注意力机制的地形分类网络模型,可以包括以下子步骤:
步骤S1031,将所述声谱图进行水平切片,得到不同频段的子谱图,利用深度学习方法获取不同子谱图的图像特征;
本实施例中,将声谱图水平切片为三份子谱图,子网络层选用ResNet-50分别提取子谱图特征Z t
步骤S1032,通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数,利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合,得到强化后的特征;
本实施例中,通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数λ t ,注意力权重系数λ t 由子谱图特征Z t 经过注意力网络计算得到。注意力网络计算过程如下:
设定的能量系数q t :
Figure 244808DEST_PATH_IMAGE001
其中,
Figure 755424DEST_PATH_IMAGE002
Figure 4003DEST_PATH_IMAGE003
表示权重矩阵;
Figure 133633DEST_PATH_IMAGE004
表示偏置项;
Figure 807060DEST_PATH_IMAGE002
Figure 363943DEST_PATH_IMAGE003
Figure 365397DEST_PATH_IMAGE004
均为学习参数。
进一步地,确定不同子谱图特征对全局子谱图影响的注意力权重系数
Figure 298718DEST_PATH_IMAGE005
Figure 826651DEST_PATH_IMAGE006
Figure 554436DEST_PATH_IMAGE005
衡量了不同子谱图特征对于输出地形类别的重要程度。
利用确定的注意力权重系数
Figure 43186DEST_PATH_IMAGE005
对子网络层提取的子谱图特征进行加权线性组合, 得到强化后的特征T:
Figure 514619DEST_PATH_IMAGE007
步骤S1033,将所述强化后的特征通过全连接层和分类器处理,得到基于注意力机制的学习网络;
本实例中,经过一个全连接层和一个Softmax分类器处理,实现对地形的识别:
Figure 718347DEST_PATH_IMAGE008
其中,表示权重矩阵,
Figure 858659DEST_PATH_IMAGE010
表示偏置项,
Figure 868203DEST_PATH_IMAGE011
均为学习参数;
Figure 370729DEST_PATH_IMAGE012
表示向量Y的第i 各分量;
Figure 705895DEST_PATH_IMAGE013
表示样本属于第i类地形的概率。
基于注意力机制的学习网络,其架构图如图4所示。
步骤S1034,使用所述地形数据库对所述学习网络进行训练,得到最终的基于注意力机制的地形分类网络模型。
针对声谱图的识别与分类,本发明通过水平切片,将声谱图分成不同频段的子谱图,并利用注意力机制确定不同子谱图特征对全局声谱图的注意力权重系数,较好地反映了不同频段子谱图对于全局谱图影响的程度,对深度学习模型输出的特征进行加权线性组合,得到最终特征,可以大大提升模型对地形识别的准确性。
与前述的基于移动机器人与地面交互声音的地形识别方法的实施例相对应,本申请还提供了基于移动机器人与地面交互声音的地形识别装置的实施例。
图5是根据一示例性实施例示出的一种基于移动机器人与地面交互声音的地形识别装置框图。参照图5,该装置包括:
数据库构建模块10,用于在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库;
模型构建模块30,用于基于所述地形数据库,构建基于注意力机制的地形分类网络模型;
识别模块50,用于在待识别地形中,采集移动机器人与待识别地形地面交互的音频数据,通过所述地形分类网络模型识别该地形。
本实施例利用移动机器人与地面的交互声音的方法充分地排除了光照变化等环境对系统探测的影响,不仅可以仅凭声音独立识别地形,也可以与基于视觉的地形识别方案互为补充,进一步提升系统的鲁棒性。本发明实施例的方法具备对地形种类的有效识别能力,从而为移动机器人提供对地形环境的语义感知。
图6为根据一示例性实施例示出的数据库构建模块10的框图。本实施例中,所述数据库构建模块10,包括:
采集子模块11,用于控制移动机器人以不同的速度在已选择的各地形上移动,通过麦克风采集各地形下移动机器人与地面交互的音频数据;
预处理子模块12,用于对所述音频数据进行预处理,提取得到声谱图;
构建子模块13,用于将所述声谱图进行数据处理,整合构建成地形数据库。
图7为根据一示例性实施例示出的模型构建模块30的框图。本实施例中,所述模型构建模块30,包括:
切片子模块31,用于将所述声谱图进行水平切片,得到不同频段的子谱图,利用深度学习方法获取不同子谱图的图像特征;
强化子模块32,用于通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数,利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合33,得到强化后的特征;
处理子模块34,用于将所述强化后的特征通过全连接层和分类器处理,得到基于注意力机制的学习网络;
训练子模块35,用于使用所述地形数据库对所述学习网络进行训练,得到最终的基于注意力机制的地形分类网络模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的方法。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于移动机器人与地面交互声音的地形识别方法,其特征在于,包括:
在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库;
基于所述地形数据库,构建基于注意力机制的地形分类网络模型;
在待识别地形中,采集移动机器人与待识别地形地面交互的音频数据,通过所述地形分类网络模型识别该地形。
2.根据权利要求1所述的一种基于移动机器人与地面交互声音的地形识别方法,其特征在于,所述各地形包括基岩地、土壤地、沙地、碎石地。
3.根据权利要求1所述的一种基于移动机器人与地面交互声音的地形识别方法,其特征在于,在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库,包括:
控制移动机器人以不同的速度在已选择的各地形上移动,通过麦克风采集各地形下移动机器人与地面交互的音频数据;
对所述音频数据进行预处理,提取得到声谱图;
将所述声谱图进行数据处理,整合构建成地形数据库。
4.根据权利要求3所述的一种基于移动机器人与地面交互声音的地形识别方法,其特征在于,基于所述地形数据库,构建基于注意力机制的地形分类网络模型,包括:
将所述声谱图进行水平切片,得到不同频段的子谱图,利用深度学习方法获取不同子谱图的图像特征;
通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数,利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合,得到强化后的特征;
将所述强化后的特征通过全连接层和分类器处理,得到基于注意力机制的学习网络;
使用所述地形数据库对所述学习网络进行训练,得到最终的基于注意力机制的地形分类网络模型。
5.一种基于移动机器人与地面交互声音的地形识别装置,其特征在于,包括:
数据库构建模块,用于在已选择的各地形中,采集移动机器人与各地面交互的音频数据,并对所述音频数据进行处理,构建得到用于模型训练的地形数据库;
模型构建模块,用于基于所述地形数据库,构建基于注意力机制的地形分类网络模型;
识别模块,用于在待识别地形中,采集移动机器人与待识别地形地面交互的音频数据,通过所述地形分类网络模型识别该地形。
6.根据权利要求5所述的一种基于移动机器人与地面交互声音的地形识别装置,其特征在于,所述各地形包括基岩地、土壤地、沙地、碎石地。
7.根据权利要求5所述的一种基于移动机器人与地面交互声音的地形识别装置,其特征在于,数据库构建模块,包括:
采集子模块,用于控制移动机器人以不同的速度在已选择的各地形上移动,通过麦克风采集各地形下移动机器人与地面交互的音频数据;
预处理子模块,用于对所述音频数据进行预处理,提取得到声谱图;
构建子模块,用于将所述声谱图进行数据处理,整合构建成地形数据库。
8.根据权利要求7所述的一种基于移动机器人与地面交互声音的地形识别装置,模型构建模块,包括:
切片子模块,用于将所述声谱图进行水平切片,得到不同频段的子谱图,利用深度学习方法获取不同子谱图的图像特征;
强化子模块,用于通过注意力机制层确定不同子谱图特征对全局声谱图的注意力权重系数,利用确定的注意力权重系数对深度学习模型输出的特征进行加权线性组合,得到强化后的特征;
处理子模块,用于将所述强化后的特征通过全连接层和分类器处理,得到基于注意力机制的学习网络;
训练子模块,用于使用所述地形数据库对所述学习网络进行训练,得到最终的基于注意力机制的地形分类网络模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN202011555269.8A 2020-12-24 2020-12-24 基于移动机器人与地面交互声音的地形识别方法及装置 Active CN112288870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011555269.8A CN112288870B (zh) 2020-12-24 2020-12-24 基于移动机器人与地面交互声音的地形识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011555269.8A CN112288870B (zh) 2020-12-24 2020-12-24 基于移动机器人与地面交互声音的地形识别方法及装置

Publications (2)

Publication Number Publication Date
CN112288870A true CN112288870A (zh) 2021-01-29
CN112288870B CN112288870B (zh) 2021-04-27

Family

ID=74426108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011555269.8A Active CN112288870B (zh) 2020-12-24 2020-12-24 基于移动机器人与地面交互声音的地形识别方法及装置

Country Status (1)

Country Link
CN (1) CN112288870B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242183A (zh) * 2020-01-03 2020-06-05 北京交通大学 基于注意力机制的图像识别分类方法及装置
CN111582397A (zh) * 2020-05-14 2020-08-25 杭州电子科技大学 一种基于注意力机制的cnn-rnn图像情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242183A (zh) * 2020-01-03 2020-06-05 北京交通大学 基于注意力机制的图像识别分类方法及装置
CN111582397A (zh) * 2020-05-14 2020-08-25 杭州电子科技大学 一种基于注意力机制的cnn-rnn图像情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A. VALADA等: "Deep Spatiotemporal Models for Robust Proprioceptive Terrain Classification", 《THE INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH (IJRR)》 *

Also Published As

Publication number Publication date
CN112288870B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN110782878B (zh) 一种基于注意力机制的多尺度音频场景识别方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN109767785A (zh) 基于卷积神经网络的环境噪声识别分类方法
CN110600054B (zh) 基于网络模型融合的声场景分类方法
CN110246490A (zh) 语音关键词检测方法及相关装置
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN112735473B (zh) 基于声音识别无人机的方法及系统
CN110245608A (zh) 一种基于半张量积神经网络的水下目标识别方法
CN111508480B (zh) 音频识别模型的训练方法、音频识别方法、装置及设备
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN114863937B (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN107507625A (zh) 声源距离确定方法及装置
CN115545086B (zh) 一种可迁移的特征自动选取声学诊断方法及系统
CN109584904A (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN113936667A (zh) 一种鸟鸣声识别模型训练方法、识别方法及存储介质
CN112710987A (zh) 一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统
CN117275510A (zh) 一种基于多梯度流网络的小样本水声目标识别方法及系统
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN117831543A (zh) 一种基于EC-EfficientNet的轻量化鸟鸣识别方法
CN113990303A (zh) 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法
CN112288870B (zh) 基于移动机器人与地面交互声音的地形识别方法及装置
CN110580915B (zh) 基于可穿戴式设备的声源目标识别系统
CN111564064A (zh) 基于游戏互动的智能教育系统与方法
CN116884435A (zh) 一种基于音频提示学习的声音事件检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant