CN114029963B - 一种基于视觉听觉融合的机器人操作方法 - Google Patents

一种基于视觉听觉融合的机器人操作方法 Download PDF

Info

Publication number
CN114029963B
CN114029963B CN202210029154.8A CN202210029154A CN114029963B CN 114029963 B CN114029963 B CN 114029963B CN 202210029154 A CN202210029154 A CN 202210029154A CN 114029963 B CN114029963 B CN 114029963B
Authority
CN
China
Prior art keywords
features
auditory
robot
signal
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210029154.8A
Other languages
English (en)
Other versions
CN114029963A (zh
Inventor
袁小虎
王业飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youshen Intelligent Technology Co ltd
Original Assignee
Beijing Youshen Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youshen Intelligent Technology Co ltd filed Critical Beijing Youshen Intelligent Technology Co ltd
Priority to CN202210029154.8A priority Critical patent/CN114029963B/zh
Publication of CN114029963A publication Critical patent/CN114029963A/zh
Application granted granted Critical
Publication of CN114029963B publication Critical patent/CN114029963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于视觉听觉融合的机器人操作方法,该机器人操作方法包括以下步骤:S1生成视觉场景图像;S2生成自然语言操作指令;S3构建听觉数据集;S4构建指示表达模型;S5构建听觉预测模型;S6构建听觉识别器;S7构建操作模型;S8重复S5‑S7,循环生成多个机械臂的动作序列。该机器人操作方法通过构建视觉定位模型和听觉检测模型集成到机械臂操作模型上,使机器人系统不仅能获取视觉信息,还能理解自然语言中的高级语义信息定位到带有指示表达关系的目标,依靠听觉信息分辨视觉上难以辨别的物体,执行相应操作,实现机械人多模态数据处理能力、机器人自主操作与环境交互能力,提升多模态机器人系统的交互性和智能性。

Description

一种基于视觉听觉融合的机器人操作方法
技术领域
本发明涉及机器人控制技术领域,具体来说,涉及一种基于视觉听觉融合的机器人操作方法。
背景技术
近年来,随着人工智能技术的不断发展,各种先进的算法都被集成到机器人上,使得机器人更加的智能化。越来越多的行业可以看到服务机器人应用于生产生活,如医疗机器人、酒店送餐机器人、物流运输机器人等,这也导致了人们对机器人提出了更高的要求,开始逐步要求机器人不断的理解现实世界的场景,甚至是能够根据人类的自然语言指令完成任务。但是,人类的自然语言包含着不确定性,现实场景也是复杂多变的,仅仅单一模态的数据只能使机器人完成定向简单的任务,对于不同的目标的操作任务,就需要特定的传感器收集更多信息应对不同的任务场景和操作需求。因此,构建一个多样化、智能化的机器人系统是当下社会迫切需求的,这将极大提高机器人的利用率和使用效率。
而目前先进的人工智能技术大都应用在仿真环境的机器人中,例如具身智能问答系统,主要技术手段是利用标注好的视觉图像场景和自然语言问题建立数据库问答对,并且设定先验知识构建认知模型完成具身问答任务。目前的具身智能机器人系统主要局限于仿真环境,对于机器人在仿真环境进行各项模拟实验来说,通过各项设备的理想性大大的避免了数据的收集成本以及保证了整个机器人实验的稳定性,因此有助于整个实验过程的顺利,但是对于真实世界的机器人学习探索来说,存在巨大的物理限制,鲜有应用多模态信息在机器人上研究。当面对多个场景目标时,人类的自然语言往往包含着高级语义信息,机器人对于此只能实现简单语言信息处理和反馈,无法精准定位目标。而且在现实物理环境中,存在着复杂多变的任务需求,依靠单模态信息不足以完成所有任务,对于多个模态信息,现有技术中缺乏能够实现同一机器人收集不同模态处理的能力的系统。对于真实的物理系统,现有方法也不能无限制验证其系统功能。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于视觉听觉融合的机器人操作方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于视觉听觉融合的机器人操作方法,包括以下步骤:
S1生成视觉场景图像:收集物理操作平台的场景图,场景图由物体的位置关系、物体的属性关系、和其他特定物体的关系分为三类场景图,采用数据增强方法,对三类场景图进行裁剪、旋转、变形、缩放,得到增强后的三类场景图像(
Figure 868160DEST_PATH_IMAGE001
);
S2生成自然语言操作指令:构建自然语言生成函数,由S1得到的三类场景图像根据语言生成函数生成对应的三类型的自然语言操作指令(
Figure 660667DEST_PATH_IMAGE002
),指令中包含物体的位置关系、属性关系以及和其他物体的关系;
S3构建听觉数据集:由机械臂的不同姿态设定四种类型的摇晃动作,由四种摇晃动作收集12类物品的音频数据S,采样频率设置为44100hz,采集时长为6s;
S4构建指示表达模型:将S1和S2生成的场景图像I和自然语言操作指令E送入指示表达模型中,得到关于自然语言指令中涉及的图像的相关目标或者区域;
S5构建听觉预测模型:利用S3的音频数据提取其音频特征,构建双向GRU网络分类器,包括以下步骤:
S51将S3的原始音频信号
Figure 315770DEST_PATH_IMAGE003
送入高通滤波器中,提高高频信号分量、滤除低频噪声,补偿的高频分量变换如下:
Figure 586346DEST_PATH_IMAGE004
其中
Figure 276084DEST_PATH_IMAGE005
是滤波系数,t是时刻,取值范围为0.95~0.97;
S52将步骤S51音频信号
Figure 973913DEST_PATH_IMAGE006
进行分割,每段取20ms,利用汉明窗进行分帧,把每一帧的信号乘以窗口函数,获取加窗后的信号
Figure 240946DEST_PATH_IMAGE007
,防止信号泄露,增加后续傅里叶变换的频率空间信号的信噪比:
Figure 315213DEST_PATH_IMAGE008
其中N是窗函数的宽度;
S53对加窗后的音频信号
Figure 984091DEST_PATH_IMAGE009
进行短时傅里叶变换,得到信号在频率上的分布,将其在能量谱上应用梅尔尺度滤波器组,获取对数频率尺度的特征
Figure 852821DEST_PATH_IMAGE010
,梅尔尺度m和频率尺度f转换关系:
Figure 482517DEST_PATH_IMAGE011
其中f取采样频率44100Hz,m最低值取0,梅尔滤波器组为:
Figure 94895DEST_PATH_IMAGE012
其中,m代表第m个滤波器,自变量k代表横轴坐标,f(m)代表第m个滤波器的中心点的横坐标值;
S54将提取的分帧信号功率谱梅尔滤波后的特征
Figure 618280DEST_PATH_IMAGE013
进行一次离散余弦变换,并把
Figure 48125DEST_PATH_IMAGE014
信号特征减去信号对于时间的平均,得到去均值后的特征,即梅尔倒谱系数特征;
S6构建听觉识别器:将S54提取的梅尔倒谱系数特征送入双向GRU中,生成细粒度的音频特征,增加一条残差边将MFCC特征与输出的细粒度音频特征相连,将相连的特征经过全连接层后添加ReLU函数作为非线性激活函数的激活层,并且添加一层2*2大小池化核进行最大池化,将池化后的特征压平继续进行经过全连接层提取特征,将提取后的特征添加softmax函数进行分类,分类取12类;
S7构建操作模型:根据机器人末端姿态不同的旋转角设定机器人的动作空间{拿,旋转,摇晃1,摇晃2,摇晃3,放置},给对应的动作封装成可以操控机械臂的各个函数;
S8重复S5-S7,循环生成多个机械臂的动作序列,实现基于听觉视觉融合的机器人操作方法。
进一步的,所述S1中增强后的三类场景图像的尺寸为416*416*3,并对其进行归一化处理。
进一步的,所述S4包括以下步骤:
S41构建一个图像特征提取网络,该网络由残差网络和特征金字塔网络组成,首先将场景图像经过一个卷积核大小为3*3步长为2的卷积获取图像特征,将图像特征进行一次1*1步长为1的卷积和3*3步长为1的卷积之后在与原先的图像特征进行相加得到图像残差特征,每一个卷积部分都使用了批标准化以及Leaky ReLU激活函数作为非线性函数的激活层;
S42重复S41的残差特征提取过程5次,获取不同大小的残差图像特征,后三层残差图像特征大小分别为P1(52,52,256),P2(26,26,512),P3(13,13,1024),对P3进行5次卷积以及上采样与P2进行相加,得到更新后的P3特征,大小为(13,13,512),与P2相加后的特征继续进行5次卷积得到更新后的P2特征(26,26,256),并且进行上采样与P1进行相加之后继续进行5次卷积得到更新后的P1特征(52,52,128),利用卷积核大小为1*1步长为1的卷积将P1,P2,P3特征通道数进行调整,得到不同尺度的特征
Figure 165116DEST_PATH_IMAGE015
(52,52,75),
Figure 440240DEST_PATH_IMAGE016
(26,26,75),
Figure 959077DEST_PATH_IMAGE017
(13,13,75);
S43构建语言特征提取网络,使用双向GRU网络对自然语言操作指令中的单词进行编码,然后使用自注意力机制为每个单词在句子中的重要性赋予权值,权值越大表明该单词越重要,获取语言独热向量特征:
Figure 294243DEST_PATH_IMAGE018
,其中,
Figure 898531DEST_PATH_IMAGE019
为操作指令I中的单词,t代表句子中的单词序数,One-hot是将单词转换成独热向量的格式,将独热向量送入双向GRU网络中,获取隐藏状态特征:
Figure 852712DEST_PATH_IMAGE020
Figure 350689DEST_PATH_IMAGE021
Figure 997702DEST_PATH_IMAGE022
其中,
Figure 948341DEST_PATH_IMAGE023
是将单词正序输入模型中的特征,
Figure 830846DEST_PATH_IMAGE024
是将单词逆序输入模型中的特征,
Figure 35259DEST_PATH_IMAGE025
为两者特征的拼接,将自然语言指令E按照注意力权重分成三类成分
Figure 977807DEST_PATH_IMAGE026
Figure 291108DEST_PATH_IMAGE027
分别表示主语成分、位置成分以及关系成分,根据不同成分设定句子的注意力权重:
Figure 711725DEST_PATH_IMAGE028
操作指令的特征向量由其提取的权重与
Figure 59661DEST_PATH_IMAGE029
进行加权和得到:
Figure 173110DEST_PATH_IMAGE030
将不同单词成分的三类特征进行拼接获取最终的文本指令特征
Figure 973707DEST_PATH_IMAGE031
S44将S42和S43得到的图像特征和文本指令特征进行融合:
Figure 198015DEST_PATH_IMAGE032
其中
Figure 259512DEST_PATH_IMAGE033
为非线性激活函数Leaky ReLU,
Figure 419229DEST_PATH_IMAGE034
Figure 831756DEST_PATH_IMAGE035
为对应向量的学习参数,
Figure 735121DEST_PATH_IMAGE036
为点乘,对与不同尺度的图像特征,利用上采样将其映射到相同的维度进行融合;
S45利用目标检测器提取出现的候选特征区域
Figure 916704DEST_PATH_IMAGE037
,将步骤S44的融合特征与其进行匹配,计算注意力权重t,得到得分最高的区域作为最终的目标区域:
Figure 981743DEST_PATH_IMAGE038
其中
Figure 881566DEST_PATH_IMAGE039
Figure 447676DEST_PATH_IMAGE040
是对应向量的学习参数,
Figure 624711DEST_PATH_IMAGE041
Figure 985285DEST_PATH_IMAGE042
是对应的偏置系数,
Figure 247770DEST_PATH_IMAGE043
为矩阵相乘,
Figure 617572DEST_PATH_IMAGE044
是相应的激活函数,之后获取相应的概率分布系数
Figure 383533DEST_PATH_IMAGE045
与融合特征进行匹配的得到候选区域
Figure 180588DEST_PATH_IMAGE046
,最终取得分最高的区域作为最终的目标区域
Figure 664790DEST_PATH_IMAGE047
,其中
Figure 838283DEST_PATH_IMAGE048
为取两者得分最高,
最终生成的目标区域用一个组合向量{tx, ty, tw, th}表示,分别代表了预测框的坐标及尺寸。
进一步的,所述S7包括以下步骤:
S71根据S1生成的场景设定场景状态{瓶子1,瓶子2,瓶子3,碗1,碗2};
S72利用S45生成的视觉坐标控制机械臂的行为,并且根据S6的判别结果,调用动作空间中的完成剩余行为,最终生成机械臂的动作序列;
S73设定场景中目标状态池,结合目标检测器和听觉识别器更新目标状态。
进一步的,所述S53中滤波器组取40个,中心频率点响应值为1。
本发明的有益效果:本发明的基于视觉听觉融合的机器人操作方法通过构建视觉定位模型和听觉检测模型集成到机械臂的操作模型上,使得机器人系统不仅能够获取视觉上的信息,并且能够理解自然语言中的高级语义信息定位到带有指示表达关系的目标,依靠听觉信息分辨出视觉上难以辨别的物体,执行相应的操作,实现了机械人多模态数据处理能力、机器人自主操作与环境交互的能力,提升了多模态机器人系统的交互性和智能性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的流程图;
图2是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的指示表达网络架构示意图;
图3是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的音频识别网络架构示意图;
图4是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的硬件架构图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,根据本发明实施例所述的基于视觉听觉融合的机器人操作方法,包括以下步骤:
S1生成视觉场景图像:收集物理操作平台的场景图,场景图由物体的位置关系、物体的属性关系、和其他特定物体的关系分为三类场景图,采用数据增强方法,对三类场景图进行裁剪、旋转、变形、缩放,得到增强后的三类场景图像(
Figure 848964DEST_PATH_IMAGE049
);
S2生成自然语言操作指令:构建自然语言生成函数,由S1得到的三类场景图像根据语言生成函数生成对应的三类型的自然语言操作指令(
Figure 163111DEST_PATH_IMAGE050
),指令中包含物体的位置关系、属性关系以及和其他物体的关系;
S3构建听觉数据集:由机械臂的不同姿态设定四种类型的摇晃动作,由四种摇晃动作收集12类物品的音频数据S,采样频率设置为44100hz,采集时长为6s;
S4构建指示表达模型:将S1和S2生成的场景图像I和自然语言操作指令E送入指示表达模型中,得到关于自然语言指令中涉及的图像的相关目标或者区域;
S5构建听觉预测模型:利用S3的音频数据提取其音频特征,构建双向GRU网络分类器,包括以下步骤:
S51将S3的原始音频信号
Figure 259243DEST_PATH_IMAGE051
送入高通滤波器中,提高高频信号分量、滤除低频噪声,补偿的高频分量变换如下:
Figure 846214DEST_PATH_IMAGE052
其中
Figure 711401DEST_PATH_IMAGE053
是滤波系数,t是时刻,取值范围为0.95~0.97;
S52将步骤S51音频信号
Figure 725625DEST_PATH_IMAGE054
进行分割,每段取20ms,利用汉明窗进行分帧,把每一帧的信号乘以窗口函数,获取加窗后的信号
Figure 309053DEST_PATH_IMAGE055
,防止信号泄露,增加后续傅里叶变换的频率空间信号的信噪比:
Figure 434135DEST_PATH_IMAGE056
其中N是窗函数的宽度;
S53对加窗后的音频信号
Figure 294775DEST_PATH_IMAGE057
进行短时傅里叶变换,得到信号在频率上的分布,将其在能量谱上应用梅尔尺度滤波器组,获取对数频率尺度的特征
Figure 604533DEST_PATH_IMAGE058
,梅尔尺度m和频率尺度f转换关系:
Figure 675258DEST_PATH_IMAGE059
其中f取采样频率44100Hz,m最低值取0,梅尔滤波器组为:
Figure 604030DEST_PATH_IMAGE060
其中,m代表第m个滤波器,自变量k代表横轴坐标,f(m)代表第m个滤波器的中心点的横坐标值;
S54将提取的分帧信号功率谱梅尔滤波后的特征
Figure 443810DEST_PATH_IMAGE061
进行一次离散余弦变换,并把
Figure 799837DEST_PATH_IMAGE062
信号特征减去信号对于时间的平均,得到去均值后的特征,即梅尔倒谱系数特征(Mel-scale Frequency Cepstral Coefficients,MFCC),这样可以有效减少线性相关,压缩滤波器系数,提高深度学习模型识别效果;
S6构建听觉识别器:将S54提取的梅尔倒谱系数特征送入双向GRU中,生成细粒度的音频特征,增加一条残差边将MFCC特征与输出的细粒度音频特征相连,将相连的特征经过全连接层后添加ReLU函数作为非线性激活函数的激活层,并且添加一层2*2大小池化核进行最大池化,将池化后的特征压平继续进行经过全连接层提取特征,将提取后的特征添加softmax函数进行分类,分类取12类;
S7构建操作模型:根据机器人末端姿态不同的旋转角设定机器人的动作空间{拿(Pick),旋转(Roll),摇晃1(Yaw),摇晃2(Pitch),摇晃3(Shake),放置(Place)},给对应的动作封装成可以操控机械臂的各个函数;
S8重复S5-S7,循环生成多个机械臂的动作序列,实现基于听觉视觉融合的机器人操作方法。
进一步的,所述S1中增强后的三类场景图像的尺寸为416*416*3,并对其进行归一化处理。
进一步的,所述S4包括以下步骤:
S41构建一个图像特征提取网络,该网络由残差网络和特征金字塔网络组成,首先将场景图像经过一个卷积核大小为3*3步长为2的卷积获取图像特征,将图像特征进行一次1*1步长为1的卷积和3*3步长为1的卷积之后在与原先的图像特征进行相加得到图像残差特征,每一个卷积部分都使用了批标准化以及Leaky ReLU激活函数作为非线性函数的激活层;
S42重复S41的残差特征提取过程5次,获取不同大小的残差图像特征,后三层残差图像特征大小分别为P1(52,52,256),P2(26,26,512),P3(13,13,1024),对P3进行5次卷积以及上采样与P2进行相加,得到更新后的P3特征,大小为(13,13,512),与P2相加后的特征继续进行5次卷积得到更新后的P2特征(26,26,256),并且进行上采样与P1进行相加之后继续进行5次卷积得到更新后的P1特征(52,52,128),利用卷积核大小为1*1步长为1的卷积将P1,P2,P3特征通道数进行调整,得到不同尺度的特征
Figure 92278DEST_PATH_IMAGE063
(52,52,75),
Figure 824741DEST_PATH_IMAGE064
(26,26,75),
Figure 519028DEST_PATH_IMAGE065
(13,13,75);
S43构建语言特征提取网络,使用双向GRU网络对自然语言操作指令中的单词进行编码,然后使用自注意力机制为每个单词在句子中的重要性赋予权值,权值越大表明该单词越重要,获取语言独热向量特征:
Figure 45955DEST_PATH_IMAGE066
,其中,
Figure 91272DEST_PATH_IMAGE067
为操作指令I中的单词,t代表句子中的单词序数,One-hot是将单词转换成独热向量的格式,将独热向量送入双向GRU网络中,获取隐藏状态特征:
Figure 361847DEST_PATH_IMAGE068
Figure 910640DEST_PATH_IMAGE069
Figure 998682DEST_PATH_IMAGE070
其中,
Figure 141081DEST_PATH_IMAGE071
是将单词正序输入模型中的特征,
Figure 339982DEST_PATH_IMAGE072
是将单词逆序输入模型中的特征,
Figure 618647DEST_PATH_IMAGE073
为两者特征的拼接,将自然语言指令E按照注意力权重分成三类成分
Figure 877590DEST_PATH_IMAGE074
Figure 507286DEST_PATH_IMAGE075
分别表示主语成分、位置成分以及关系成分,根据不同成分设定句子的注意力权重:
Figure 244298DEST_PATH_IMAGE076
操作指令的特征向量由其提取的权重与
Figure 767683DEST_PATH_IMAGE077
进行加权和得到:
Figure 72894DEST_PATH_IMAGE078
将不同单词成分的三类特征进行拼接获取最终的文本指令特征
Figure 48940DEST_PATH_IMAGE079
S44将S42和S43得到的图像特征和文本指令特征进行融合:
Figure 465009DEST_PATH_IMAGE080
其中
Figure 108480DEST_PATH_IMAGE081
为非线性激活函数Leaky ReLU,
Figure 319012DEST_PATH_IMAGE082
Figure 47934DEST_PATH_IMAGE083
为对应向量的学习参数,
Figure 126748DEST_PATH_IMAGE084
为点乘,对与不同尺度的图像特征,利用上采样将其映射到相同的维度进行融合;
S45利用目标检测器提取出现的候选特征区域
Figure 500092DEST_PATH_IMAGE085
,将步骤S44的融合特征与其进行匹配,计算注意力权重t,得到得分最高的区域作为最终的目标区域:
Figure 6160DEST_PATH_IMAGE086
其中
Figure 222377DEST_PATH_IMAGE087
Figure 980249DEST_PATH_IMAGE088
是对应向量的学习参数,
Figure 332733DEST_PATH_IMAGE089
Figure 150647DEST_PATH_IMAGE090
是对应的偏置系数,
Figure 588582DEST_PATH_IMAGE091
为矩阵相乘,
Figure 884565DEST_PATH_IMAGE092
是相应的激活函数,之后获取相应的概率分布系数
Figure 357135DEST_PATH_IMAGE093
与融合特征进行匹配的得到候选区域
Figure 205005DEST_PATH_IMAGE094
,最终取得分最高的区域作为最终的目标区域
Figure 5602DEST_PATH_IMAGE095
,其中
Figure 229910DEST_PATH_IMAGE096
为取两者得分最高,
最终生成的目标区域用一个组合向量{tx, ty, tw, th}表示,分别代表了预测框的坐标及尺寸。
进一步的,所述S7包括以下步骤:
S71根据S1生成的场景设定场景状态{瓶子1(bottle1),瓶子2 (bottle1),瓶子3(bottle1),碗1 (bottle1),碗2 (bottle1)};
S72利用S45生成的视觉坐标控制机械臂的行为,并且根据S6的判别结果,调用动作空间中的完成剩余行为,最终生成机械臂的动作序列;
S73设定场景中目标状态池,结合目标检测器和听觉识别器更新目标状态。
进一步的,所述S53中滤波器组取40个,中心频率点响应值为1。
本发明的一个实施例的硬件架构系统方法如图4所示,结合ROS操作平台可以在实际物理环境下实施视听融合的操作过程,具有较好的任务性能和广泛的应用前景。
本发明的基于视觉听觉融合的机器人操作方法,通过引入指示表达类的目标检测器,可以根据自然语言指令中物体的位置关系、自身属性关系和其他物体的位置关系定位到具体目标,使得机器人能够理解场景和语言的高级语义信息,加强机器人应对复杂场景中的智能化操作能力;
本发明的基于视觉听觉融合的机器人操作方法增加了对现实物理世界的其他模态信息处理的能力,通过构建的听觉识别判别器融合进机器人的操作模型当中,根据不同的机械臂动作收集信息并进行识别预测,解决了机器人依靠单纯的视觉信息不足以识别目标的问题,并且在听觉模型中引入残差结构,加强了听觉识别能力;
本发明的基于视觉听觉融合的机器人操作方法通过各类传感器构建了一个完整的视听实验的平台,并且通过收集离线数据,可以无限制的验证系统功能,在实际环境下也进行了对比验证,实现了机器人自主操作与环境交互的能力,提升了多模态机器人系统的交互性和智能性,在未来复杂动态的工业环境下有着广泛的应用前景。
综上所述,借助于本发明的上述技术方案,通过构建视觉定位模型和听觉检测模型集成到机械臂的操作模型上,使得机器人系统不仅能够获取视觉上的信息,并且能够理解自然语言中的高级语义信息定位到带有指示表达关系的目标,依靠听觉信息分辨出视觉上难以辨别的物体,执行相应的操作,实现了机械人多模态数据处理能力、机器人自主操作与环境交互的能力,提升了多模态机器人系统的交互性和智能性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于视觉听觉融合的机器人操作方法,其特征在于,包括以下步骤:
S1生成视觉场景图像:收集物理操作平台的场景图,场景图由物体的位置关系、物体的属性关系、和其他特定物体的关系分为三类场景图,采用数据增强方法,对三类场景图进行裁剪、旋转、变形、缩放,得到增强后的三类场景图像
Figure DEST_PATH_IMAGE001
S2生成自然语言操作指令:构建自然语言生成函数,由S1得到的三类场景图像根据语言生成函数生成对应的三类型的自然语言操作指令
Figure 416516DEST_PATH_IMAGE002
,指令中包含物体的位置关系、属性关系以及和其他物体的关系;
S3构建听觉数据集:由机械臂的不同姿态设定四种类型的摇晃动作,由四种摇晃动作收集12类物品的音频数据S,采样频率设置为44100hz,采集时长为6s;
S4构建指示表达模型:将S1和S2生成的场景图像I和自然语言操作指令E送入指示表达模型中,得到关于自然语言指令中涉及的图像的相关目标或者区域;
S5构建听觉预测模型:利用S3的音频数据提取其音频特征,构建双向GRU网络分类器,包括以下步骤:
S51将S3的原始音频信号
Figure DEST_PATH_IMAGE003
送入高通滤波器中,提高高频信号分量、滤除低频噪声,补偿的高频分量变换如下:
Figure 168571DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE005
是滤波系数,t是时刻,取值范围为0.95~0.97;
S52将步骤S51音频信号
Figure 928717DEST_PATH_IMAGE006
进行分割,每段取20ms,利用汉明窗进行分帧,把每一帧的信号乘以窗口函数,获取加窗后的信号
Figure DEST_PATH_IMAGE007
,防止信号泄露,增加后续傅里叶变换的频率空间信号的信噪比:
Figure 631968DEST_PATH_IMAGE008
其中N是窗函数的宽度;
S53对加窗后的音频信号
Figure DEST_PATH_IMAGE009
进行短时傅里叶变换,得到信号在频率上的分布,将其在能量谱上应用梅尔尺度滤波器组,获取对数频率尺度的特征
Figure 768551DEST_PATH_IMAGE010
,梅尔尺度m和频率尺度f转换关系:
Figure DEST_PATH_IMAGE011
其中f取采样频率44100Hz,m最低值取0,梅尔尺度滤波器组:
Figure 375113DEST_PATH_IMAGE012
其中,m代表第m个滤波器,自变量k代表横轴坐标,f(m)代表第m个滤波器的中心点的横坐标值;
S54将提取的分帧信号功率谱梅尔滤波后的特征
Figure DEST_PATH_IMAGE013
进行一次离散余弦变换,并把
Figure 306160DEST_PATH_IMAGE014
信号特征减去信号对于时间的平均,得到去均值后的特征,即梅尔倒谱系数特征;
S6构建听觉识别器:将S54提取的梅尔倒谱系数特征送入双向GRU中,生成细粒度的音频特征,增加一条残差边将MFCC特征与输出的细粒度音频特征相连,将相连的特征经过全连接层后添加ReLU函数作为非线性激活函数的激活层,并且添加一层2*2大小池化核进行最大池化,将池化后的特征压平继续进行经过全连接层提取特征,将提取后的特征添加softmax函数进行分类,分类取12类;
S7构建操作模型:根据机器人末端姿态不同的旋转角设定机器人的动作空间{拿,旋转,摇晃1,摇晃2,摇晃3,放置},给对应的动作封装成可以操控机械臂的各个函数;
S8重复S5-S7,循环生成多个机械臂的动作序列,实现基于听觉视觉融合的机器人操作方法。
2.根据权利要求1所述的机器人操作方法,其特征在于,所述S1中增强后的三类场景图像的尺寸为416*416*3,并对其进行归一化处理。
3.根据权利要求1所述的机器人操作方法,其特征在于,所述S4包括以下步骤:
S41构建一个图像特征提取网络,该网络由残差网络和特征金字塔网络组成,首先将场景图像经过一个卷积核大小为3*3步长为2的卷积获取图像特征,将图像特征进行一次1*1步长为1的卷积和3*3步长为1的卷积之后在与原先的图像特征进行相加得到图像残差特征,每一个卷积部分都使用了批标准化以及Leaky ReLU激活函数作为非线性函数的激活层;
S42重复S41的残差特征提取过程5次,获取不同大小的残差图像特征,后三层残差图像特征大小分别为P1(52,52,256),P2(26,26,512),P3(13,13,1024),对P3进行5次卷积以及上采样与P2进行相加,得到更新后的P3特征,大小为(13,13,512),与P2相加后的特征继续进行5次卷积得到更新后的P2特征(26,26,256),并且进行上采样与P1进行相加之后继续进行5次卷积得到更新后的P1特征(52,52,128),利用卷积核大小为1*1步长为1的卷积将P1,P2,P3特征通道数进行调整,得到不同尺度的特征
Figure 60489DEST_PATH_IMAGE015
S43构建语言特征提取网络,使用双向GRU网络对自然语言操作指令中的单词进行编码,然后使用自注意力机制为每个单词在句子中的重要性赋予权值,权值越大表明该词汇越重要,获取语言独热向量特征:
Figure DEST_PATH_IMAGE016
,其中,
Figure 233720DEST_PATH_IMAGE017
为操作指令I中的单词,t代表句子中的单词序数,Onehot是将单词转换成独热向量的格式,将独热向量送入双向GRU网络中,获取隐藏状态特征:
Figure DEST_PATH_IMAGE018
Figure 694788DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
其中,
Figure 62315DEST_PATH_IMAGE021
是将单词正序输入模型中的特征,
Figure 303941DEST_PATH_IMAGE022
是将单词逆序输入模型中的特征,
Figure 579064DEST_PATH_IMAGE023
为两者特征的拼接,将自然语言指令E按照注意力权重分成三类成分
Figure DEST_PATH_IMAGE024
分别表示主语成分、位置成分以及关系成分,根据不同成分设定句子的注意力权重:
Figure 160218DEST_PATH_IMAGE025
操作指令的特征向量由其提取的权重与
Figure DEST_PATH_IMAGE026
进行加权和得到:
Figure 955041DEST_PATH_IMAGE027
将不同单词成分的三类特征进行拼接获取最终的文本指令特征
Figure DEST_PATH_IMAGE028
S44将S42和S43得到的图像特征和文本指令特征进行融合:
Figure 621645DEST_PATH_IMAGE029
其中
Figure DEST_PATH_IMAGE030
为非线性激活函数Leaky ReLU,
Figure 638143DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
为对应向量的学习参数,
Figure 73803DEST_PATH_IMAGE033
为点乘,对与不同尺度的图像特征,利用上采样将其映射到相同的维度进行融合;
S45利用目标检测器提取出现的候选特征区域
Figure DEST_PATH_IMAGE034
,将步骤S44的融合特征与其进行匹配,计算注意力权重t,得到得分最高的区域作为最终的目标区域:
Figure 281669DEST_PATH_IMAGE035
其中
Figure DEST_PATH_IMAGE036
Figure 232307DEST_PATH_IMAGE037
是对应向量的学习参数,
Figure DEST_PATH_IMAGE038
Figure 52495DEST_PATH_IMAGE039
是对应的偏置系数,
Figure DEST_PATH_IMAGE040
为矩阵相乘,
Figure 342663DEST_PATH_IMAGE041
是相应的激活函数,之后获取相应的概率分布系数
Figure DEST_PATH_IMAGE042
与融合特征进行匹配的得到候选区域
Figure 222894DEST_PATH_IMAGE043
,最终取得分最高的区域作为最终的目标区域
Figure DEST_PATH_IMAGE044
,其中
Figure 97047DEST_PATH_IMAGE045
为取两者得分最高,
最终生成的目标区域用一个组合向量{tx, ty, tw, th}表示,分别代表了预测框的坐标及尺寸。
4.根据权利要求3所述的机器人操作方法,其特征在于,所述S7包括以下步骤:
S71根据S1生成的场景设定场景状态{瓶子1,瓶子2,瓶子3,碗1,碗2};
S72利用S45生成的视觉坐标控制机械臂的行为,并且根据S6的判别结果,调用动作空间中的完成剩余行为,最终生成机械臂的动作序列;
S73设定场景中目标状态池,结合目标检测器和听觉识别器更新目标状态。
5.根据权利要求1所述的机器人操作方法,其特征在于,所述S53中滤波器组取40个,中心频率点响应值为1。
CN202210029154.8A 2022-01-12 2022-01-12 一种基于视觉听觉融合的机器人操作方法 Active CN114029963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210029154.8A CN114029963B (zh) 2022-01-12 2022-01-12 一种基于视觉听觉融合的机器人操作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210029154.8A CN114029963B (zh) 2022-01-12 2022-01-12 一种基于视觉听觉融合的机器人操作方法

Publications (2)

Publication Number Publication Date
CN114029963A CN114029963A (zh) 2022-02-11
CN114029963B true CN114029963B (zh) 2022-03-29

Family

ID=80141569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210029154.8A Active CN114029963B (zh) 2022-01-12 2022-01-12 一种基于视觉听觉融合的机器人操作方法

Country Status (1)

Country Link
CN (1) CN114029963B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113534678B (zh) * 2021-06-03 2023-05-30 清华大学 一种操作问答任务的仿真到物理系统的迁移方法
CN115730236B (zh) * 2022-11-25 2023-09-22 杭州电子科技大学 一种基于人机交互药物识别获取方法、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018053100A1 (en) * 2016-09-14 2018-03-22 Irobot Corporation Systems and methods for configurable operation of a robot based on area classification
CN112861726A (zh) * 2021-02-09 2021-05-28 北京工业大学 基于规则意图表决器的d-s证据理论多模态融合人机交互方法
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法
CN113420606B (zh) * 2021-05-31 2022-06-14 华南理工大学 一种基于自然语言和机器视觉实现机器人自主导航的方法
CN113534678B (zh) * 2021-06-03 2023-05-30 清华大学 一种操作问答任务的仿真到物理系统的迁移方法

Also Published As

Publication number Publication date
CN114029963A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
EP3404578B1 (en) Sensor transformation attention network (stan) model
WO2021135577A9 (zh) 音频信号处理方法、装置、电子设备及存储介质
CN114029963B (zh) 一种基于视觉听觉融合的机器人操作方法
Glodek et al. Multiple classifier systems for the classification of audio-visual emotional states
CN107358951A (zh) 一种语音唤醒方法、装置以及电子设备
CN112216307B (zh) 语音情感识别方法以及装置
CN112883149B (zh) 一种自然语言处理方法以及装置
CN115169507B (zh) 类脑多模态情感识别网络、识别方法及情感机器人
CN113421547B (zh) 一种语音处理方法及相关设备
Chiarella et al. Gesture-based language for diver-robot underwater interaction
CN115221846A (zh) 一种数据处理方法及相关设备
KR20180126353A (ko) 센서 변환 집중 네트워크 모델
CN115641533A (zh) 目标对象情绪识别方法、装置和计算机设备
CN114495916A (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN113420783B (zh) 一种基于图文匹配的智能人机交互方法及装置
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
Choudhary et al. An Optimized Sign Language Recognition Using Convolutional Neural Networks (CNNs) and Tensor-Flow
CN116311493A (zh) 一种基于编码解码架构的两阶段人-物交互检测方法
CN115937662A (zh) 智能家居系统控制方法、装置、服务器及存储介质
CN115116470A (zh) 音频处理方法、装置、计算机设备和存储介质
Najnin et al. Improved speech inversion using general regression neural network
Shane et al. Sign Language Detection Using Faster RCNN Resnet
CN115879524A (zh) 一种模型训练方法及其相关设备
Nakamura et al. Fast robot voice interface through optimum-path forest
Fenghour et al. Contour mapping for speaker-independent lip reading system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant