CN114029963B - 一种基于视觉听觉融合的机器人操作方法 - Google Patents
一种基于视觉听觉融合的机器人操作方法 Download PDFInfo
- Publication number
- CN114029963B CN114029963B CN202210029154.8A CN202210029154A CN114029963B CN 114029963 B CN114029963 B CN 114029963B CN 202210029154 A CN202210029154 A CN 202210029154A CN 114029963 B CN114029963 B CN 114029963B
- Authority
- CN
- China
- Prior art keywords
- features
- auditory
- robot
- signal
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于视觉听觉融合的机器人操作方法,该机器人操作方法包括以下步骤:S1生成视觉场景图像;S2生成自然语言操作指令;S3构建听觉数据集;S4构建指示表达模型;S5构建听觉预测模型;S6构建听觉识别器;S7构建操作模型;S8重复S5‑S7,循环生成多个机械臂的动作序列。该机器人操作方法通过构建视觉定位模型和听觉检测模型集成到机械臂操作模型上,使机器人系统不仅能获取视觉信息,还能理解自然语言中的高级语义信息定位到带有指示表达关系的目标,依靠听觉信息分辨视觉上难以辨别的物体,执行相应操作,实现机械人多模态数据处理能力、机器人自主操作与环境交互能力,提升多模态机器人系统的交互性和智能性。
Description
技术领域
本发明涉及机器人控制技术领域,具体来说,涉及一种基于视觉听觉融合的机器人操作方法。
背景技术
近年来,随着人工智能技术的不断发展,各种先进的算法都被集成到机器人上,使得机器人更加的智能化。越来越多的行业可以看到服务机器人应用于生产生活,如医疗机器人、酒店送餐机器人、物流运输机器人等,这也导致了人们对机器人提出了更高的要求,开始逐步要求机器人不断的理解现实世界的场景,甚至是能够根据人类的自然语言指令完成任务。但是,人类的自然语言包含着不确定性,现实场景也是复杂多变的,仅仅单一模态的数据只能使机器人完成定向简单的任务,对于不同的目标的操作任务,就需要特定的传感器收集更多信息应对不同的任务场景和操作需求。因此,构建一个多样化、智能化的机器人系统是当下社会迫切需求的,这将极大提高机器人的利用率和使用效率。
而目前先进的人工智能技术大都应用在仿真环境的机器人中,例如具身智能问答系统,主要技术手段是利用标注好的视觉图像场景和自然语言问题建立数据库问答对,并且设定先验知识构建认知模型完成具身问答任务。目前的具身智能机器人系统主要局限于仿真环境,对于机器人在仿真环境进行各项模拟实验来说,通过各项设备的理想性大大的避免了数据的收集成本以及保证了整个机器人实验的稳定性,因此有助于整个实验过程的顺利,但是对于真实世界的机器人学习探索来说,存在巨大的物理限制,鲜有应用多模态信息在机器人上研究。当面对多个场景目标时,人类的自然语言往往包含着高级语义信息,机器人对于此只能实现简单语言信息处理和反馈,无法精准定位目标。而且在现实物理环境中,存在着复杂多变的任务需求,依靠单模态信息不足以完成所有任务,对于多个模态信息,现有技术中缺乏能够实现同一机器人收集不同模态处理的能力的系统。对于真实的物理系统,现有方法也不能无限制验证其系统功能。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于视觉听觉融合的机器人操作方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于视觉听觉融合的机器人操作方法,包括以下步骤:
S1生成视觉场景图像:收集物理操作平台的场景图,场景图由物体的位置关系、物体的属性关系、和其他特定物体的关系分为三类场景图,采用数据增强方法,对三类场景图进行裁剪、旋转、变形、缩放,得到增强后的三类场景图像();
S3构建听觉数据集:由机械臂的不同姿态设定四种类型的摇晃动作,由四种摇晃动作收集12类物品的音频数据S,采样频率设置为44100hz,采集时长为6s;
S4构建指示表达模型:将S1和S2生成的场景图像I和自然语言操作指令E送入指示表达模型中,得到关于自然语言指令中涉及的图像的相关目标或者区域;
S5构建听觉预测模型:利用S3的音频数据提取其音频特征,构建双向GRU网络分类器,包括以下步骤:
其中N是窗函数的宽度;
其中f取采样频率44100Hz,m最低值取0,梅尔滤波器组为:
其中,m代表第m个滤波器,自变量k代表横轴坐标,f(m)代表第m个滤波器的中心点的横坐标值;
S6构建听觉识别器:将S54提取的梅尔倒谱系数特征送入双向GRU中,生成细粒度的音频特征,增加一条残差边将MFCC特征与输出的细粒度音频特征相连,将相连的特征经过全连接层后添加ReLU函数作为非线性激活函数的激活层,并且添加一层2*2大小池化核进行最大池化,将池化后的特征压平继续进行经过全连接层提取特征,将提取后的特征添加softmax函数进行分类,分类取12类;
S7构建操作模型:根据机器人末端姿态不同的旋转角设定机器人的动作空间{拿,旋转,摇晃1,摇晃2,摇晃3,放置},给对应的动作封装成可以操控机械臂的各个函数;
S8重复S5-S7,循环生成多个机械臂的动作序列,实现基于听觉视觉融合的机器人操作方法。
进一步的,所述S1中增强后的三类场景图像的尺寸为416*416*3,并对其进行归一化处理。
进一步的,所述S4包括以下步骤:
S41构建一个图像特征提取网络,该网络由残差网络和特征金字塔网络组成,首先将场景图像经过一个卷积核大小为3*3步长为2的卷积获取图像特征,将图像特征进行一次1*1步长为1的卷积和3*3步长为1的卷积之后在与原先的图像特征进行相加得到图像残差特征,每一个卷积部分都使用了批标准化以及Leaky ReLU激活函数作为非线性函数的激活层;
S42重复S41的残差特征提取过程5次,获取不同大小的残差图像特征,后三层残差图像特征大小分别为P1(52,52,256),P2(26,26,512),P3(13,13,1024),对P3进行5次卷积以及上采样与P2进行相加,得到更新后的P3特征,大小为(13,13,512),与P2相加后的特征继续进行5次卷积得到更新后的P2特征(26,26,256),并且进行上采样与P1进行相加之后继续进行5次卷积得到更新后的P1特征(52,52,128),利用卷积核大小为1*1步长为1的卷积将P1,P2,P3特征通道数进行调整,得到不同尺度的特征 (52,52,75),(26,26,75), (13,13,75);
S43构建语言特征提取网络,使用双向GRU网络对自然语言操作指令中的单词进行编码,然后使用自注意力机制为每个单词在句子中的重要性赋予权值,权值越大表明该单词越重要,获取语言独热向量特征:
其中,是将单词正序输入模型中的特征,是将单词逆序输入模型中的特征,为两者特征的拼接,将自然语言指令E按照注意力权重分成三类成分,分别表示主语成分、位置成分以及关系成分,根据不同成分设定句子的注意力权重:
S44将S42和S43得到的图像特征和文本指令特征进行融合:
其中和是对应向量的学习参数,和是对应的偏置系数,为矩阵相乘,是相应的激活函数,之后获取相应的概率分布系数与融合特征进行匹配的得到候选区域,最终取得分最高的区域作为最终的目标区域,其中为取两者得分最高,
最终生成的目标区域用一个组合向量{tx, ty, tw, th}表示,分别代表了预测框的坐标及尺寸。
进一步的,所述S7包括以下步骤:
S71根据S1生成的场景设定场景状态{瓶子1,瓶子2,瓶子3,碗1,碗2};
S72利用S45生成的视觉坐标控制机械臂的行为,并且根据S6的判别结果,调用动作空间中的完成剩余行为,最终生成机械臂的动作序列;
S73设定场景中目标状态池,结合目标检测器和听觉识别器更新目标状态。
进一步的,所述S53中滤波器组取40个,中心频率点响应值为1。
本发明的有益效果:本发明的基于视觉听觉融合的机器人操作方法通过构建视觉定位模型和听觉检测模型集成到机械臂的操作模型上,使得机器人系统不仅能够获取视觉上的信息,并且能够理解自然语言中的高级语义信息定位到带有指示表达关系的目标,依靠听觉信息分辨出视觉上难以辨别的物体,执行相应的操作,实现了机械人多模态数据处理能力、机器人自主操作与环境交互的能力,提升了多模态机器人系统的交互性和智能性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的流程图;
图2是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的指示表达网络架构示意图;
图3是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的音频识别网络架构示意图;
图4是根据本发明实施例所述的基于视觉听觉融合的机器人操作方法的硬件架构图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,根据本发明实施例所述的基于视觉听觉融合的机器人操作方法,包括以下步骤:
S1生成视觉场景图像:收集物理操作平台的场景图,场景图由物体的位置关系、物体的属性关系、和其他特定物体的关系分为三类场景图,采用数据增强方法,对三类场景图进行裁剪、旋转、变形、缩放,得到增强后的三类场景图像();
S3构建听觉数据集:由机械臂的不同姿态设定四种类型的摇晃动作,由四种摇晃动作收集12类物品的音频数据S,采样频率设置为44100hz,采集时长为6s;
S4构建指示表达模型:将S1和S2生成的场景图像I和自然语言操作指令E送入指示表达模型中,得到关于自然语言指令中涉及的图像的相关目标或者区域;
S5构建听觉预测模型:利用S3的音频数据提取其音频特征,构建双向GRU网络分类器,包括以下步骤:
其中N是窗函数的宽度;
其中f取采样频率44100Hz,m最低值取0,梅尔滤波器组为:
其中,m代表第m个滤波器,自变量k代表横轴坐标,f(m)代表第m个滤波器的中心点的横坐标值;
S54将提取的分帧信号功率谱梅尔滤波后的特征进行一次离散余弦变换,并把信号特征减去信号对于时间的平均,得到去均值后的特征,即梅尔倒谱系数特征(Mel-scale Frequency Cepstral Coefficients,MFCC),这样可以有效减少线性相关,压缩滤波器系数,提高深度学习模型识别效果;
S6构建听觉识别器:将S54提取的梅尔倒谱系数特征送入双向GRU中,生成细粒度的音频特征,增加一条残差边将MFCC特征与输出的细粒度音频特征相连,将相连的特征经过全连接层后添加ReLU函数作为非线性激活函数的激活层,并且添加一层2*2大小池化核进行最大池化,将池化后的特征压平继续进行经过全连接层提取特征,将提取后的特征添加softmax函数进行分类,分类取12类;
S7构建操作模型:根据机器人末端姿态不同的旋转角设定机器人的动作空间{拿(Pick),旋转(Roll),摇晃1(Yaw),摇晃2(Pitch),摇晃3(Shake),放置(Place)},给对应的动作封装成可以操控机械臂的各个函数;
S8重复S5-S7,循环生成多个机械臂的动作序列,实现基于听觉视觉融合的机器人操作方法。
进一步的,所述S1中增强后的三类场景图像的尺寸为416*416*3,并对其进行归一化处理。
进一步的,所述S4包括以下步骤:
S41构建一个图像特征提取网络,该网络由残差网络和特征金字塔网络组成,首先将场景图像经过一个卷积核大小为3*3步长为2的卷积获取图像特征,将图像特征进行一次1*1步长为1的卷积和3*3步长为1的卷积之后在与原先的图像特征进行相加得到图像残差特征,每一个卷积部分都使用了批标准化以及Leaky ReLU激活函数作为非线性函数的激活层;
S42重复S41的残差特征提取过程5次,获取不同大小的残差图像特征,后三层残差图像特征大小分别为P1(52,52,256),P2(26,26,512),P3(13,13,1024),对P3进行5次卷积以及上采样与P2进行相加,得到更新后的P3特征,大小为(13,13,512),与P2相加后的特征继续进行5次卷积得到更新后的P2特征(26,26,256),并且进行上采样与P1进行相加之后继续进行5次卷积得到更新后的P1特征(52,52,128),利用卷积核大小为1*1步长为1的卷积将P1,P2,P3特征通道数进行调整,得到不同尺度的特征 (52,52,75),(26,26,75), (13,13,75);
S43构建语言特征提取网络,使用双向GRU网络对自然语言操作指令中的单词进行编码,然后使用自注意力机制为每个单词在句子中的重要性赋予权值,权值越大表明该单词越重要,获取语言独热向量特征:
其中,是将单词正序输入模型中的特征,是将单词逆序输入模型中的特征,为两者特征的拼接,将自然语言指令E按照注意力权重分成三类成分,分别表示主语成分、位置成分以及关系成分,根据不同成分设定句子的注意力权重:
S44将S42和S43得到的图像特征和文本指令特征进行融合:
其中和是对应向量的学习参数,和是对应的偏置系数,为矩阵相乘,是相应的激活函数,之后获取相应的概率分布系数与融合特征进行匹配的得到候选区域,最终取得分最高的区域作为最终的目标区域,其中为取两者得分最高,
最终生成的目标区域用一个组合向量{tx, ty, tw, th}表示,分别代表了预测框的坐标及尺寸。
进一步的,所述S7包括以下步骤:
S71根据S1生成的场景设定场景状态{瓶子1(bottle1),瓶子2 (bottle1),瓶子3(bottle1),碗1 (bottle1),碗2 (bottle1)};
S72利用S45生成的视觉坐标控制机械臂的行为,并且根据S6的判别结果,调用动作空间中的完成剩余行为,最终生成机械臂的动作序列;
S73设定场景中目标状态池,结合目标检测器和听觉识别器更新目标状态。
进一步的,所述S53中滤波器组取40个,中心频率点响应值为1。
本发明的一个实施例的硬件架构系统方法如图4所示,结合ROS操作平台可以在实际物理环境下实施视听融合的操作过程,具有较好的任务性能和广泛的应用前景。
本发明的基于视觉听觉融合的机器人操作方法,通过引入指示表达类的目标检测器,可以根据自然语言指令中物体的位置关系、自身属性关系和其他物体的位置关系定位到具体目标,使得机器人能够理解场景和语言的高级语义信息,加强机器人应对复杂场景中的智能化操作能力;
本发明的基于视觉听觉融合的机器人操作方法增加了对现实物理世界的其他模态信息处理的能力,通过构建的听觉识别判别器融合进机器人的操作模型当中,根据不同的机械臂动作收集信息并进行识别预测,解决了机器人依靠单纯的视觉信息不足以识别目标的问题,并且在听觉模型中引入残差结构,加强了听觉识别能力;
本发明的基于视觉听觉融合的机器人操作方法通过各类传感器构建了一个完整的视听实验的平台,并且通过收集离线数据,可以无限制的验证系统功能,在实际环境下也进行了对比验证,实现了机器人自主操作与环境交互的能力,提升了多模态机器人系统的交互性和智能性,在未来复杂动态的工业环境下有着广泛的应用前景。
综上所述,借助于本发明的上述技术方案,通过构建视觉定位模型和听觉检测模型集成到机械臂的操作模型上,使得机器人系统不仅能够获取视觉上的信息,并且能够理解自然语言中的高级语义信息定位到带有指示表达关系的目标,依靠听觉信息分辨出视觉上难以辨别的物体,执行相应的操作,实现了机械人多模态数据处理能力、机器人自主操作与环境交互的能力,提升了多模态机器人系统的交互性和智能性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于视觉听觉融合的机器人操作方法,其特征在于,包括以下步骤:
S1生成视觉场景图像:收集物理操作平台的场景图,场景图由物体的位置关系、物体的属性关系、和其他特定物体的关系分为三类场景图,采用数据增强方法,对三类场景图进行裁剪、旋转、变形、缩放,得到增强后的三类场景图像;
S3构建听觉数据集:由机械臂的不同姿态设定四种类型的摇晃动作,由四种摇晃动作收集12类物品的音频数据S,采样频率设置为44100hz,采集时长为6s;
S4构建指示表达模型:将S1和S2生成的场景图像I和自然语言操作指令E送入指示表达模型中,得到关于自然语言指令中涉及的图像的相关目标或者区域;
S5构建听觉预测模型:利用S3的音频数据提取其音频特征,构建双向GRU网络分类器,包括以下步骤:
其中N是窗函数的宽度;
其中f取采样频率44100Hz,m最低值取0,梅尔尺度滤波器组:
其中,m代表第m个滤波器,自变量k代表横轴坐标,f(m)代表第m个滤波器的中心点的横坐标值;
S6构建听觉识别器:将S54提取的梅尔倒谱系数特征送入双向GRU中,生成细粒度的音频特征,增加一条残差边将MFCC特征与输出的细粒度音频特征相连,将相连的特征经过全连接层后添加ReLU函数作为非线性激活函数的激活层,并且添加一层2*2大小池化核进行最大池化,将池化后的特征压平继续进行经过全连接层提取特征,将提取后的特征添加softmax函数进行分类,分类取12类;
S7构建操作模型:根据机器人末端姿态不同的旋转角设定机器人的动作空间{拿,旋转,摇晃1,摇晃2,摇晃3,放置},给对应的动作封装成可以操控机械臂的各个函数;
S8重复S5-S7,循环生成多个机械臂的动作序列,实现基于听觉视觉融合的机器人操作方法。
2.根据权利要求1所述的机器人操作方法,其特征在于,所述S1中增强后的三类场景图像的尺寸为416*416*3,并对其进行归一化处理。
3.根据权利要求1所述的机器人操作方法,其特征在于,所述S4包括以下步骤:
S41构建一个图像特征提取网络,该网络由残差网络和特征金字塔网络组成,首先将场景图像经过一个卷积核大小为3*3步长为2的卷积获取图像特征,将图像特征进行一次1*1步长为1的卷积和3*3步长为1的卷积之后在与原先的图像特征进行相加得到图像残差特征,每一个卷积部分都使用了批标准化以及Leaky ReLU激活函数作为非线性函数的激活层;
S42重复S41的残差特征提取过程5次,获取不同大小的残差图像特征,后三层残差图像特征大小分别为P1(52,52,256),P2(26,26,512),P3(13,13,1024),对P3进行5次卷积以及上采样与P2进行相加,得到更新后的P3特征,大小为(13,13,512),与P2相加后的特征继续进行5次卷积得到更新后的P2特征(26,26,256),并且进行上采样与P1进行相加之后继续进行5次卷积得到更新后的P1特征(52,52,128),利用卷积核大小为1*1步长为1的卷积将P1,P2,P3特征通道数进行调整,得到不同尺度的特征
S43构建语言特征提取网络,使用双向GRU网络对自然语言操作指令中的单词进行编码,然后使用自注意力机制为每个单词在句子中的重要性赋予权值,权值越大表明该词汇越重要,获取语言独热向量特征:
其中,是将单词正序输入模型中的特征,是将单词逆序输入模型中的特征,为两者特征的拼接,将自然语言指令E按照注意力权重分成三类成分分别表示主语成分、位置成分以及关系成分,根据不同成分设定句子的注意力权重:
S44将S42和S43得到的图像特征和文本指令特征进行融合:
其中和是对应向量的学习参数,和是对应的偏置系数,为矩阵相乘,是相应的激活函数,之后获取相应的概率分布系数与融合特征进行匹配的得到候选区域,最终取得分最高的区域作为最终的目标区域,其中为取两者得分最高,
最终生成的目标区域用一个组合向量{tx, ty, tw, th}表示,分别代表了预测框的坐标及尺寸。
4.根据权利要求3所述的机器人操作方法,其特征在于,所述S7包括以下步骤:
S71根据S1生成的场景设定场景状态{瓶子1,瓶子2,瓶子3,碗1,碗2};
S72利用S45生成的视觉坐标控制机械臂的行为,并且根据S6的判别结果,调用动作空间中的完成剩余行为,最终生成机械臂的动作序列;
S73设定场景中目标状态池,结合目标检测器和听觉识别器更新目标状态。
5.根据权利要求1所述的机器人操作方法,其特征在于,所述S53中滤波器组取40个,中心频率点响应值为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210029154.8A CN114029963B (zh) | 2022-01-12 | 2022-01-12 | 一种基于视觉听觉融合的机器人操作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210029154.8A CN114029963B (zh) | 2022-01-12 | 2022-01-12 | 一种基于视觉听觉融合的机器人操作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114029963A CN114029963A (zh) | 2022-02-11 |
CN114029963B true CN114029963B (zh) | 2022-03-29 |
Family
ID=80141569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210029154.8A Active CN114029963B (zh) | 2022-01-12 | 2022-01-12 | 一种基于视觉听觉融合的机器人操作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114029963B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113534678B (zh) * | 2021-06-03 | 2023-05-30 | 清华大学 | 一种操作问答任务的仿真到物理系统的迁移方法 |
CN115730236B (zh) * | 2022-11-25 | 2023-09-22 | 杭州电子科技大学 | 一种基于人机交互药物识别获取方法、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018053100A1 (en) * | 2016-09-14 | 2018-03-22 | Irobot Corporation | Systems and methods for configurable operation of a robot based on area classification |
CN112861726A (zh) * | 2021-02-09 | 2021-05-28 | 北京工业大学 | 基于规则意图表决器的d-s证据理论多模态融合人机交互方法 |
CN113298151A (zh) * | 2021-05-26 | 2021-08-24 | 中国电子科技集团公司第五十四研究所 | 一种基于多级特征融合的遥感图像语义描述方法 |
CN113420606B (zh) * | 2021-05-31 | 2022-06-14 | 华南理工大学 | 一种基于自然语言和机器视觉实现机器人自主导航的方法 |
CN113534678B (zh) * | 2021-06-03 | 2023-05-30 | 清华大学 | 一种操作问答任务的仿真到物理系统的迁移方法 |
-
2022
- 2022-01-12 CN CN202210029154.8A patent/CN114029963B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114029963A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3404578B1 (en) | Sensor transformation attention network (stan) model | |
WO2021135577A9 (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN114029963B (zh) | 一种基于视觉听觉融合的机器人操作方法 | |
Glodek et al. | Multiple classifier systems for the classification of audio-visual emotional states | |
CN107358951A (zh) | 一种语音唤醒方法、装置以及电子设备 | |
CN112216307B (zh) | 语音情感识别方法以及装置 | |
CN112883149B (zh) | 一种自然语言处理方法以及装置 | |
CN115169507B (zh) | 类脑多模态情感识别网络、识别方法及情感机器人 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
Chiarella et al. | Gesture-based language for diver-robot underwater interaction | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
KR20180126353A (ko) | 센서 변환 집중 네트워크 모델 | |
CN115641533A (zh) | 目标对象情绪识别方法、装置和计算机设备 | |
CN114495916A (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
CN113420783B (zh) | 一种基于图文匹配的智能人机交互方法及装置 | |
CN116312512A (zh) | 面向多人场景的视听融合唤醒词识别方法及装置 | |
Choudhary et al. | An Optimized Sign Language Recognition Using Convolutional Neural Networks (CNNs) and Tensor-Flow | |
CN116311493A (zh) | 一种基于编码解码架构的两阶段人-物交互检测方法 | |
CN115937662A (zh) | 智能家居系统控制方法、装置、服务器及存储介质 | |
CN115116470A (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
Najnin et al. | Improved speech inversion using general regression neural network | |
Shane et al. | Sign Language Detection Using Faster RCNN Resnet | |
CN115879524A (zh) | 一种模型训练方法及其相关设备 | |
Nakamura et al. | Fast robot voice interface through optimum-path forest | |
Fenghour et al. | Contour mapping for speaker-independent lip reading system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |