CN111914777A - 一种跨模态识别机器人指令的方法及系统 - Google Patents

一种跨模态识别机器人指令的方法及系统 Download PDF

Info

Publication number
CN111914777A
CN111914777A CN202010789075.8A CN202010789075A CN111914777A CN 111914777 A CN111914777 A CN 111914777A CN 202010789075 A CN202010789075 A CN 202010789075A CN 111914777 A CN111914777 A CN 111914777A
Authority
CN
China
Prior art keywords
instruction
modal
features
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010789075.8A
Other languages
English (en)
Other versions
CN111914777B (zh
Inventor
刘文印
王思涵
陈俊洪
林大润
朱展模
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010789075.8A priority Critical patent/CN111914777B/zh
Publication of CN111914777A publication Critical patent/CN111914777A/zh
Application granted granted Critical
Publication of CN111914777B publication Critical patent/CN111914777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本申请提供了一种跨模态识别机器人指令的方法与系统,包括:将获取的各模态数据作为训练集输入至神经网络中,经过训练确立机器人指令识别模型;将待识别的各模态数据输入至所述机器人指令识别模型中,输出机器人指令。本发明提供的方法及系统,可以基于跨模态准确地识别出机器人指令,训练模型所需的训练集数据量小,在输入中缺失任一模态或任一模态数据不平衡的情况下,本方法与系统仍能正常识别出机器人指令,人工标记的工作量小,实用性较强。

Description

一种跨模态识别机器人指令的方法及系统
技术领域
本发明涉及信息技术领域,尤其涉及一种跨模态识别机器人指令的方法及系统。
背景技术
随着机器人技术的不断发展,智能机器人逐渐被运用至人们的日常生活中。机器人需要根据从视频或语音不同跨模态中识别出的指令执行相应的动作。
现有的跨模态识别方法主要为以下三种:一是基于跨模态特征融合进行指令识别的方法;二是跨模态在特定少数指令上的指令识别的方法;三是基于跨模态局部特征的融合识别指令的方法。基于跨模态特征融合进行指令识别的方法需要同时拥有庞大视频和音频数据集,并且如果任意一种模态的数据较少或者缺失,都将导致系统无法使用。跨模态在特定少数指令上的指令识别的方法虽然需求的数据量较少,但是在真实使用场景中的人机交互性并不好,而且稳定性较差。基于跨模态局部特征的融合识别指令虽然在一些场景下能取得较好成绩,但是他们所需要的人工标记工作量巨大,不太可能在现实场景中使用。
发明内容
基于此,本发明提供一种跨模态识别机器人指令的方法及系统,即使缺失任一模态,或者在数据不平衡的条件下也可以实现机器人指令的识别与提取。
为了达到上述发明目的,本申请采用如下技术方案:
第一方面,本申请公开一种跨模态识别机器人指令的方法,包括:
S1、将获取的各模态数据作为训练集输入至神经网络中,经过训练确立机器人指令识别模型;
S2、将待识别的各模态数据输入至所述机器人指令识别模型中,输出机器人指令。
优选地,所述步骤S1中,所述机器人指令识别模型具体包括:
各模态低级特征提取模型、各模态指令特征提取模型、各模态特征选择模型、特征融合模型。
优选地,所述步骤S1中,所述将获取的各模态数据作为训练集输入至神经网络中,经过训练确立机器人指令识别模型,包括:
S11、将获取的各模态数据输入至对应的各模态低级特征提取模型中,提取所述各模态数据对应的各模态低级特征,输出所述各模态低级特征;
S12、将所述各模态低级特征输入至对应的各模态指令特征提取模型中,提取所述各模态低级特征对应的各模态指令特征,并将所述各模态指令特征转化为相同维度,输出所述各模态指令特征;
S13、将所述各模态指令特征输入至对应的各模态特征选择模型中,对所述各模态指令特征进行拟合选择,输出各模态拟合选择后的指令特征;
S14、将所述各模态拟合选择后的指令特征输入至特征融合模型中,对所述各模态拟合选择后的指令特征进行特征融合,输出高级指令特征;
S15、将所述高级指令特征输入至识别分类模型中,对所述高级指令特征进行识别分类,并将识别分类结果转译成机器人指令;
S16、获取已标记的真实机器人指令,将所述机器人指令与所述已标记的真实机器人指令输入至判决模型中,计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数,将所述损失函数反馈至各模态低级特征提取模型、各模态指令特征提取模型、选择模型;
S17、利用所述损失函数调整各模态低级特征提取模型、各模态指令特征提取模型、选择模型的参数,更新各模态低级特征提取模型、各模态指令特征提取模型、选择模型。
优选地,所述步骤S11中,作为训练集输入至神经网络中的各模态数据,在不同模态之间的数据为一一对应的关系,若缺失其中一个模态的数据,则将该模态置为无。
优选地,所述步骤S2中,输入至机器人指令识别模型的待识别的各模态数据,在不同模态之间的数据为一一对应的关系,若缺失其中一个模态的数据,则将该模态置为无。
优选地,所述步骤S13中,所述将所述对各模态指令特征进行拟合选择,包括:
将各模态指令特征进行逐个比较,从各模态指令特征中各选择出一个最接近真实指令特性的指令特征。
优选地,所述各模态数据,包括:
视频数据、语音数据、图像数据、文本数据中的任意两个模态数据、任意三个模态数据或四个模态数据。
优选地,若所述模态数据中包括视频数据时,先对将视频数据逐帧拆分成图像数据,或者将视频数据以一定的采样间隔拆分成图像数据,再将处理后的数据输入至机器人指令识别模型。
优选地,所述各模态低级特征提取模型,包括:针对视频数据与图像数据,使用卷积神经网络构成的视频低级特征提取模型与图像低级特征提取模型。
优选地,所述各模态指令特征提取模型,包括:针对视频数据与图像数据,使用双流三维卷积神经网络构成的视频指令特征提取模型与图像指令特征提取模型;针对语音序列数据,使用自注意力机制与循环神经网络构成的语音指令特征提取模型。
优选地,所述各模态特征选择模型,包括:卷积神经网络与线性方程构成的所述各模态特征选择模型。
优选地,所述判决模型,包括:门控循环单元网络与分类器网络构成的所述判决模型。
第二方面,本申请公开一种基于跨模态识别机器人指令的系统,包括:
各模态数据获取模块,用于获取各模态数据;
各模态特征提取模块,用于将获取的各模态数据输入至对应的各模态低级特征提取模型中,提取所述各模态数据对应的各模态低级特征,输出所述各模态低级特征;将所述各模态低级特征输入至对应的各模态指令特征提取模型中,提取所述各模态低级特征对应的各模态指令特征,并将所述各模态指令特征转化为相同维度,输出所述各模态指令特征;
选择模块,用于将所述各模态指令特征输入至对应的各模态特征选择模型中,对所述各模态指令特征进行拟合选择,输出各模态拟合选择后的指令特征;
融合模块,用于将所述各模态拟合选择后的指令特征输入至特征融合模型中,对所述各模态拟合选择后的指令特征进行特征融合,输出高级指令特征;
识别分类模块,用于将所述高级指令特征输入至识别分类模型中,对所述高级指令特征进行识别分类,并将识别分类结果转译成机器人指令;
判决模块,用于计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数;将所述损失函数反馈至各模态特征提取模块中的各模态低级特征提取模型与各模态指令特征提取模型、选择模块中的选择模型;
输出模块,输出所述机器人指令。
优选地,所述各模态特征提取模块,包括:
各模态低级特征提取模块,用于将获取的各模态数据输入至对应的各模态低级特征提取模型中,提取所述各模态数据对应的各模态低级特征,输出所述各模态低级特征;
各模态指令特征提取模块,用于将所述各模态低级特征输入至对应的各模态指令特征提取模型中,提取所述各模态低级特征对应的各模态指令特征,并将所述各模态指令特征转化为相同维度,输出所述各模态指令特征。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的一种跨模态识别机器人指令的方法及系统,在输入至神经网络中的各模态数据中,不同模态之间的数据为一一对应的关系,若缺失其中一个模态的数据,则将该模态置为无,只输入其他模块;与现有技术需要大量训练数据集、只能输入特定的少数集中指令的技术缺点相比,通过本技术方案能够达到在训练机器人指令识别模型时,用于训练的数据量翻倍,并且在数据不平衡的情况下,也能对模型进行训练的效果。本发明的技术方案中,在输入至机器人指令识别模型的待识别的各模态数据中,不同模态之间的数据为一一对应的关系,若缺失其中一个模态的数据,则将该模态置为无,只输入其他模块;与现有技术输入的待识别数据中若缺失任一模态数据,将导致系统无法识别机器人指令,并且无法处理任一输入模态数据不平衡的问题的技术缺点相比,本技术方案能够达到在识别机器人指令时,即使缺失任一模态的数据,依然能够识别出机器人指令的效果。本发明的技术方案中利用识别出的机器人指令与已标记的真实机器人指令对应的损失函数,调整机器人指令识别模型中的各模态低级特征提取模型、各模态指令特征提取模型、选择模型的参数,与现有技术需要大量人工标记相比,本技术方案不需要局部人工标记就能够实现特征最大化提取的方法,减少了人工标记的工作量,提高了实用性。综上所述,本发明提供的一种跨模态识别机器人指令的方法及系统,可以基于跨模态准确地识别出机器人指令,训练模型所需的训练集数据量小,在输入中缺失任一模态或任一模态数据不平衡的情况下,本方法与系统仍能正常识别出机器人指令,人工标记的工作量小,实用性较强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种实施例中跨模态识别机器人指令的方法流程图;
图2为本发明一种实施例中跨模态识别机器人指令的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体的,本发明实施例提供了一种跨模态识别机器人指令的方法及系统,
请参考图1,本实施例中选择对视频数据与音频数据进行跨模态识别机器人指令,本实施例中方法的具体步骤:
S1、将获取的视频数据与语音数据作为训练集输入至神经网络中,经过训练确立机器人指令识别模型;其中,作为训练集输入至神经网络中的各模态数据,在不同模态之间的数据为一一对应的关系,若缺失其中一个模态的数据,则将该模态置为无。先对将视频数据逐帧拆分成图像数据,或者将视频数据以一定的采样间隔拆分成图像数据,得到处理后的视频数据,再将处理后的视频数据输入至机器人指令识别模型。
S11、将处理后的视频数据输入至卷积神经网络构成的视频低级特征提取模型,提取所述视频数据的视频低级特征;将获取的语音数据输入至语音低级特征提取模型中,提取所述语音数据的MFCC梅尔频率倒谱系数构成的语音低级特征,输出所述视频低级特征与语音低级特征;
S12、将所述视频低级特征输入至双流三维卷积神经网络构成的视频指令特征提取模型中,提取视频指令特征;将所述语音低级特征输入至自注意力机制与循环神经网络构成的语音指令特征提取模型中,提取语音指令特征;并将所述视频指令特征与语音指令特征转化为相同维度,输出所述视频指令特征与语音指令特征;
S13、将所述视频指令特征输入至视频特征选择模型中,对所述视频指令特征进行拟合选择,输出拟合选择后的视频指令特征;将所述语音指令特征输入至语音特征选择模型中,对所述语音指令特征进行拟合选择,输出拟合选择后的语音指令特征;其中,所述对各模态指令特征进行拟合选择,包括:将各模态指令特征进行逐个比较,从各模态指令特征中各选择出一个最接近真实指令特性的指令特征。
S14、将所述拟合选择后的语视频指令特征与拟合选择后的语音指令特征输入至特征融合模型中,对所述拟合选择后的语视频指令特征与拟合选择后的语音指令特征进行特征融合,输出高级指令特征;
S15、将所述高级指令特征输入至识别分类模型中,对所述高级指令特征进行识别分类,并将识别分类结果转译成机器人指令;
S16、获取已标记的真实机器人指令,将所述机器人指令与所述已标记的真实机器人指令输入至判决模型中,计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数,将所述损失函数反馈至视频低级特征提取模型与语音低级特征提取模型、视频指令特征提取模型与语音指令特征提取模型、视频特征选择模型与语音特征选择模型;
S17、利用所述损失函数调整视频低级特征提取模型与语音低级特征提取模型、视频指令特征提取模型与语音指令特征提取模型、视频特征选择模型与语音特征选择模型的参数,更新视频低级特征提取模型与语音低级特征提取模型、视频指令特征提取模型与语音指令特征提取模型、视频特征选择模型与语音特征选择模型。
S2、将获取的待识别视频数据与语音数据输入至所述机器人指令识别模型中,输出机器人指令。其中,输入至机器人指令识别模型的待识别的各模态数据,在不同模态之间的数据为一一对应的关系,若缺失其中一个模态的数据,则将该模态置为无。
请参考图2,本实施例中的系统包括:
各模态数据获取模块1,包括视频数据获取模块101与语音数据获取模块102,用于获取视频数据与语音数据;
各模态特征提取模块2,包括视频低级特征提取模块2101与语音低级特征提取模块2102,用于将获取的视频数据输入至视频低级特征提取模型,将获取的语音数据输入至语音低级特征提取模型中,提取所述视频数据与语音数据对应的视频低级特征与视频低级特征,输出所述视频低级特征与视频低级特征;视频低级特征提取模块2201与语音指令特征提取模块2202,用于将所述视频低级特征输入至视频指令特征提取模型,将所述语音低级特征输入至语音指令特征提取模型中,提取所述视频低级特征与语音低级特征对应的视频指令特征与语音指令特征,并将所述视频指令特征与语音指令特征转化为相同维度,输出所述视频指令特征与语音指令特征;
选择模块3,包括视频特征选择模块301与语音特征选择模块302,用于将所述视频指令特征输入至视频特征选择模型中,将所述语音指令特征输入至语音特征选择模型中,对所述视频指令特征与语音指令特征进行拟合选择,输出拟合选择后的视频指令特征与语音指令特征;
融合模块4,用于将所述拟合选择后的视频指令特征与语音指令特征输入至特征融合模型中,对所述各模态拟合选择后的指令特征进行特征融合,输出高级指令特征;
识别分类模块5,用于将所述高级指令特征输入至识别分类模型中,对所述高级指令特征进行识别分类,并将识别分类结果转译成机器人指令;
判决模块6,用于计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数;将所述损失函数反馈至各模态特征提取模块2中的各模态低级特征提取模型与各模态指令特征提取模型、选择模块3中的选择模型;
输出模块7,输出所述机器人指令。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种跨模态识别机器人指令的方法,其特征在于,包括:
S1、将获取的各模态数据作为训练集输入至神经网络中,经过训练确立机器人指令识别模型;
S2、将待识别的各模态数据输入至所述机器人指令识别模型中,输出机器人指令。
2.根据权利要求1所述的一种跨模态识别机器人指令的方法,其特征在于,所述步骤S1中的机器人指令识别模型具体包括:
各模态低级特征提取模型、各模态指令特征提取模型、各模态特征选择模型、特征融合模型。
3.根据权利要求1所述的一种跨模态识别机器人指令的方法,其特征在于,所述步骤S1包括:
S11、将获取的各模态数据输入至对应的各模态低级特征提取模型中,提取所述各模态数据对应的各模态低级特征,输出所述各模态低级特征;
S12、将所述各模态低级特征输入至对应的各模态指令特征提取模型中,提取所述各模态低级特征对应的各模态指令特征,并将所述各模态指令特征转化为相同维度,输出所述各模态指令特征;
S13、将所述各模态指令特征输入至对应的各模态特征选择模型中,对所述各模态指令特征进行拟合选择,输出各模态拟合选择后的指令特征;
S14、将所述各模态拟合选择后的指令特征输入至特征融合模型中,对所述各模态拟合选择后的指令特征进行特征融合,输出高级指令特征;
S15、将所述高级指令特征输入至识别分类模型中,对所述高级指令特征进行识别分类,并将识别分类结果转译成机器人指令;
S16、获取已标记的真实机器人指令,将所述机器人指令与所述已标记的真实机器人指令输入至判决模型中,计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数,将所述损失函数反馈至各模态低级特征提取模型、各模态指令特征提取模型、选择模型;
S17、利用所述损失函数调整各模态低级特征提取模型、各模态指令特征提取模型、选择模型的参数,更新各模态低级特征提取模型、各模态指令特征提取模型、选择模型。
4.根据权利要求3所述的一种跨模态识别机器人指令的方法,其特征在于,所述步骤S11中输入至神经网络中的各模态数据在不同模态之间的数据为一一对应的关系,若缺失其中一个模态的数据,则将该模态置为无。
5.根据权利要求1所述的一种跨模态识别机器人指令的方法,其特征在于,所述步骤S2中输入至机器人指令识别模型的待识别的各模态数据,在不同模态之间的数据为一一对应的关系,若缺失其中一个模态的数据,则将该模态置为无。
6.根据权利要求3所述的一种跨模态识别机器人指令的方法,其特征在于,所述步骤S13中的对所述各模态指令特征进行拟合选择包括:
将所述各模态指令特征进行逐个比较,从各模态指令特征中各选择出一个最接近真实指令特性的指令特征。
7.根据权利要求1所述的一种跨模态识别机器人指令的方法,其特征在于,所述各模态数据包括:
视频数据、语音数据、图像数据、文本数据中的至少两项。
8.根据权利要求7所述的一种跨模态识别机器人指令的方法,其特征在于,若所述模态数据中包括视频数据时,先对将视频数据逐帧拆分成图像数据,或者将视频数据以一定的采样间隔拆分成图像数据,再将处理后的数据输入至机器人指令识别模型。
9.根据权利要求2所述的一种跨模态识别机器人指令的方法,其特征在于,所述各模态低级特征提取模型包括:针对视频数据与图像数据,使用卷积神经网络构成的视频低级特征提取模型与图像低级特征提取模型;
所述各模态指令特征提取模型包括:
针对视频数据与图像数据,使用双流三维卷积神经网络构成的视频指令特征提取模型与图像指令特征提取模型;针对语音序列数据,使用自注意力机制与循环神经网络构成的语音指令特征提取模型;
所述各模态特征选择模型,包括:卷积神经网络与线性方程构成的所述各模态特征选择模型;
所述判决模型,包括:门控循环单元网络与分类器网络构成的所述判决模型。
10.一种基于跨模态识别机器人指令的系统,其特征在于,包括:
各模态数据获取模块,用于获取各模态数据;
各模态特征提取模块,用于将获取的各模态数据输入至对应的各模态低级特征提取模型中,提取所述各模态数据对应的各模态低级特征,输出所述各模态低级特征;将所述各模态低级特征输入至对应的各模态指令特征提取模型中,提取所述各模态低级特征对应的各模态指令特征,并将所述各模态指令特征转化为相同维度,输出所述各模态指令特征;
选择模块,用于将所述各模态指令特征输入至对应的各模态特征选择模型中,对所述各模态指令特征进行拟合选择,输出各模态拟合选择后的指令特征;
融合模块,用于将所述各模态拟合选择后的指令特征输入至特征融合模型中,对所述各模态拟合选择后的指令特征进行特征融合,输出高级指令特征;
识别分类模块,用于将所述高级指令特征输入至识别分类模型中,对所述高级指令特征进行识别分类,并将识别分类结果转译成机器人指令;
判决模块,用于计算所述机器人指令与所述已标记的真实机器人指令对应的损失函数;将所述损失函数反馈至各模态特征提取模块中的各模态低级特征提取模型与各模态指令特征提取模型、选择模块中的选择模型;
输出模块,输出所述机器人指令。
CN202010789075.8A 2020-08-07 2020-08-07 一种跨模态识别机器人指令的方法及系统 Active CN111914777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010789075.8A CN111914777B (zh) 2020-08-07 2020-08-07 一种跨模态识别机器人指令的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010789075.8A CN111914777B (zh) 2020-08-07 2020-08-07 一种跨模态识别机器人指令的方法及系统

Publications (2)

Publication Number Publication Date
CN111914777A true CN111914777A (zh) 2020-11-10
CN111914777B CN111914777B (zh) 2021-07-06

Family

ID=73284338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010789075.8A Active CN111914777B (zh) 2020-08-07 2020-08-07 一种跨模态识别机器人指令的方法及系统

Country Status (1)

Country Link
CN (1) CN111914777B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107340859A (zh) * 2017-06-14 2017-11-10 北京光年无限科技有限公司 多模态虚拟机器人的多模态交互方法和系统
CN108052911A (zh) * 2017-12-20 2018-05-18 上海海洋大学 基于深度学习的多模态遥感影像高层特征融合分类方法
CN108510000A (zh) * 2018-03-30 2018-09-07 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
US20180373964A1 (en) * 2017-06-27 2018-12-27 Hitachi, Ltd. Information processing apparatus and processing method for image data
CN109434844A (zh) * 2018-09-17 2019-03-08 鲁班嫡系机器人(深圳)有限公司 食材处理机器人控制方法、装置、系统、存储介质及设备
CN109977258A (zh) * 2019-02-21 2019-07-05 中国科学院西安光学精密机械研究所 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN110795973A (zh) * 2018-08-03 2020-02-14 北京大学 多模态融合的动作识别方法、装置及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107340859A (zh) * 2017-06-14 2017-11-10 北京光年无限科技有限公司 多模态虚拟机器人的多模态交互方法和系统
US20180373964A1 (en) * 2017-06-27 2018-12-27 Hitachi, Ltd. Information processing apparatus and processing method for image data
CN108052911A (zh) * 2017-12-20 2018-05-18 上海海洋大学 基于深度学习的多模态遥感影像高层特征融合分类方法
CN108510000A (zh) * 2018-03-30 2018-09-07 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CN110795973A (zh) * 2018-08-03 2020-02-14 北京大学 多模态融合的动作识别方法、装置及计算机可读存储介质
CN109434844A (zh) * 2018-09-17 2019-03-08 鲁班嫡系机器人(深圳)有限公司 食材处理机器人控制方法、装置、系统、存储介质及设备
CN109977258A (zh) * 2019-02-21 2019-07-05 中国科学院西安光学精密机械研究所 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QIXIANG ZHANG等: "An Object Attribute Guided Framework for Robot Learning Manipulations from Human Demonstration Videos", 《2019 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS(IROS)》 *
王思远等: "基于词向量与 SVM 的移动机器人自然语言导航指令识别", 《计算机与现代化》 *
高胜男等: "家庭服务机器人语音指令深层信息识别", 《小型微型计算机系统》 *

Also Published As

Publication number Publication date
CN111914777B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN112818906B (zh) 一种基于多模态信息融合理解的全媒体新闻智能编目方法
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN105512348A (zh) 用于处理视频和相关音频的方法和装置及检索方法和装置
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
CN110570873A (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
CN113327621A (zh) 模型训练方法、用户识别方法、系统、设备及介质
CN114245203A (zh) 基于剧本的视频剪辑方法、装置、设备及介质
CN115910066A (zh) 用于区域配电网的智能调度指挥与运营系统
US11881224B2 (en) Multilingual speech recognition and translation method and related system for a conference which determines quantity of attendees according to their distances from their microphones
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
CN114065720A (zh) 会议纪要生成方法、装置、存储介质及电子设备
CN113053361A (zh) 语音识别方法、模型训练方法、装置、设备及介质
CN111914777B (zh) 一种跨模态识别机器人指令的方法及系统
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN113658582B (zh) 一种音视协同的唇语识别方法及系统
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
CN112863485A (zh) 口音语音识别方法、装置、设备及存储介质
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
CN117718969B (zh) 基于视觉听觉融合的家用机器人控制系统及其方法
CN112820274B (zh) 一种语音信息识别校正方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant