CN111783892B - 一种机器人指令识别方法、装置及电子设备和存储介质 - Google Patents
一种机器人指令识别方法、装置及电子设备和存储介质 Download PDFInfo
- Publication number
- CN111783892B CN111783892B CN202010639967.XA CN202010639967A CN111783892B CN 111783892 B CN111783892 B CN 111783892B CN 202010639967 A CN202010639967 A CN 202010639967A CN 111783892 B CN111783892 B CN 111783892B
- Authority
- CN
- China
- Prior art keywords
- voice
- neural network
- instruction
- training
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000013528 artificial neural network Methods 0.000 claims abstract description 75
- 239000012634 fragment Substances 0.000 claims description 22
- 230000009471 action Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 238000012937 correction Methods 0.000 abstract description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 35
- 238000004891 communication Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Manipulator (AREA)
Abstract
本申请公开了一种机器人指令识别方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取训练视频和所述训练视频对应的语音片段,并预测所述训练视频对应的指令标签;从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络;利用训练完成的神经网络进行指令识别。本申请提供的机器人指令识别方法,利用训练视频预测语音片段的指令标签,基于指令标签和语音特征进行神经网络的训练。在训练过程中,不需要过多的数据集,操作人员不需要拥有专业的知识背景。在识别阶段,可以通过完整语音直接识别机器人指令,不需要其他输入,可以很随意的切换语种而不需要额外的人工修正数据集,减少制作数据集的工作量。
Description
技术领域
本申请涉及机器人技术领域,更具体地说,涉及一种机器人指令识别方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
在相关技术中,通过输入特定的编程的文字和机器人指令,使机器人做出对应的动作。而语音输入作为指令仍然是业内的一个难点,现有的语音交互方案现行的技术存在以下几种:基于完整语句语音识别后进行文字处理、基于特定少数指令做语音智能学习处理、基于特定音素提取从而获取指令的方法。基于完整语句语音识别后进行文字处理的方案需要庞大的数据集并且同时需要庞大的校对和打数据标签等以供机器可以学习。基于特定少数指令做语音智能学习处理虽然需求的数据量较少,但是在真实使用中人机交互性并不好,它只能识别特定少数的短语音指令。基于特定音素提取从而获取指令的方法为传统的方法,但是其需要很强的专业背景,故不适合大规模使用。除此之外,现行的机器人还存在从一种语言切换到另外一种语言便无法运行的情况。
因此,如何在不需要专业的技术背景的前提下,只需少量操作便可学习其他语言的语音、提取机器人动作指令是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种机器人指令识别方法、装置及一种电子设备和一种计算机可读存储介质,在不需要专业的技术背景的前提下,只需少量操作便可学习其他语言的语音、提取机器人动作指令。
为实现上述目的,本申请提供了一种机器人指令识别方法,包括:
获取训练视频和所述训练视频对应的语音片段,并预测所述训练视频对应的指令标签;
从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络;
利用训练完成的神经网络进行指令识别。
其中,所述预测所述训练视频对应的指令标签,包括:
将所述训练视频以预设采样间隔输入卷积神经网络中以便提取所述训练视频的视频特征;
利用双流三维卷积神经网络对所述视频特征进行动作预测,将预测得到的动作类型作为所述训练视频对应的指令标签。
其中,所述神经网络包括编码器-解码器神经网络,所述编码器具体为双向长短期记忆网络,所述解码器具体为门控循环单元网络。
其中,从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络,包括:
将所述语音片段转换为MFCC特征,将所述MFCC特征输入神经网络中以便提取所述语音片段对应的语音特征;
将所述语音特征输入分类器中得到语音预测结果,根据所述语音预测结果和所述指令标签计算损失函数;
利用所述损失函数训练所述神经网络得到训练完成的神经网络。
其中,所述利用训练完成的神经网络进行指令识别,包括:
获取目标语音片段,将所述语音片段转换为目标MFCC特征;
将所述目标MFCC特征输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征;
将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。
为实现上述目的,本申请提供了一种机器人指令识别装置,包括:
预测模块,用于获取训练视频和所述训练视频对应的语音片段,并预测所述训练视频对应的指令标签;
训练模块,用于从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络;
识别模块,用于利用训练完成的神经网络进行指令识别。
其中,所述训练模块包括:
第一提取单元,用于通过MFCC将所述语音片段转换为特征向量,将所述特征向量输入神经网络中以便提取所述语音片段对应的语音特征;
计算单元,用于将所述语音特征输入分类器中得到语音预测结果,根据所述语音预测结果和所述指令标签计算损失函数;
训练单元,用于利用所述损失函数训练所述神经网络得到训练完成的神经网络。
其中,所述识别模块包括:
转换单元,用于获取目标语音片段,通过MFCC将所述目标语音片段转换为目标特征向量;
第二提取单元,用于将所述目标特征向量输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征;
识别单元,用于将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述机器人指令识别方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述机器人指令识别方法的步骤。
通过以上方案可知,本申请提供的一种机器人指令识别方法,包括:获取训练视频和所述训练视频对应的语音片段,并预测所述训练视频对应的指令标签;从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络;利用训练完成的神经网络进行指令识别。
本申请提供的机器人指令识别方法,利用训练视频预测语音片段的指令标签,基于指令标签和语音特征进行神经网络的训练。在训练过程中,不需要过多的数据集,操作人员不需要拥有专业的知识背景。无论有多少句语音数据,只要是描述视频中的指令,只需要一个视频便可完成多个语音的标注的系统,即多个语音对应于一个视频标签。在识别阶段,可以通过完整语音直接识别机器人指令,不需要其他输入,可以很随意的切换语种而不需要额外的人工修正数据集,减少制作数据集的工作量。本申请还公开了一种机器人指令识别装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种机器人指令识别方法的流程图;
图2为根据一示例性实施例示出的一种机器人指令识别装置的结构图;
图3为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种机器人指令识别方法,在不需要专业的技术背景的前提下,只需少量操作便可学习其他语言的语音、提取机器人动作指令。
参见图1,根据一示例性实施例示出的一种机器人指令识别方法的流程图,如图1所示,包括:
S101:获取训练视频和所述训练视频对应的语音片段,并预测所述训练视频对应的指令标签;
在本实施例中,通过视频辅助语音进行机器人指令识别,具体的,利用训练视频预测语音片段的指令标签,从而辅助训练神经网络。作为一种可行的实施方式,所述预测所述训练视频对应的指令标签,包括:将所述训练视频以预设采样间隔输入卷积神经网络中以便提取所述训练视频的视频特征;利用双流三维卷积神经网络对所述视频特征进行动作预测,将预测得到的动作类型作为所述训练视频对应的指令标签。
在具有实施中,视频辅助生成机器人指令标签就是给定一个视频序列,在每个视频中预测其视频中对应的机器人指令标签,视频可以通过预训练好的网络进行少量的视频训练,获取视频预测的标签。此处可以采用双流三维卷积神经网络,迁移现行已经有庞大训练集训练过的神经网络。使用支持向量机分类算法、随机森林或神经网络等分类方法对动作进行分类,得到训练视频的动作预测结果,即指令标签。
S102:从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络;
在本步骤中,从语音片段中提取语音特征,基于语音片段的语音特征和该语音片段对应的指令标签训练神经网络。作为一种可行的实施方式,本步骤可以包括:将所述语音片段转换为MFCC特征,将所述MFCC特征输入神经网络中以便提取所述语音片段对应的语音特征;将所述语音特征输入分类器中得到语音预测结果,根据所述语音预测结果和所述指令标签计算损失函数;用所述损失函数训练所述神经网络得到训练完成的神经网络。
在具体实施中,获得与视频对应的语音片段通过MFCC(Mel频率倒谱系数)转换为特征,即一段或者几段描述该视频动作的交互式语音转换带一定信息的特征向量。神经网络进行以视频预测的指令标签为训练标签的训练。此处的神经网络包括编码器-解码器神经网络,所述编码器具体为双向长短期记忆网络,所述解码器具体为门控循环单元网络。其中,编码器为双向长短期记忆网络,后使用修正现行单元做激活函数,在训练期间附加drop-out(神经元随机缺失)以提高训练效果。之后,把编码器部分的权重输入解码器中,解码器部分使用门控循环单元网络,后使用修正现行单元做激活函数,在训练期间附加drop-out以提高训练效果。使用逻辑回归做最后的分类器识别具体实施的动作。将语音模型预测出来的结果和视频模型预测的结果进行损失函数的计算,最终通过视频预测的指令标签的结果修正语音模型的神经网络。
S103:利用训练完成的神经网络进行指令识别。
在本步骤中,可以利用训练完成的神经网络进行指令识别。作为一种可行的实施方式,本步骤可以包括:获取目标语音片段,将所述语音片段转换为目标MFCC特征;将所述目标MFCC特征输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征;将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。
需要说明的是,与训练阶段不同,在识别阶段不需要视频的辅助。在识别阶段,只需要语音片段作为输入,神经网络仍然使用编码器-解码器神经网络,但是会移除掉drop-out单元,最后通过逻辑回归做最后的分类器识别具体的指令。
本申请实施例提供的机器人指令识别方法,利用训练视频预测语音片段的指令标签,基于指令标签和语音特征进行神经网络的训练。在训练过程中,不需要过多的数据集,操作人员不需要拥有专业的知识背景。无论有多少句语音数据,只要是描述视频中的指令,只需要一个视频便可完成多个语音的标注的系统,即多个语音对应于一个视频标签。在识别阶段,可以通过完整语音直接识别机器人指令,不需要其他输入,可以很随意的切换语种而不需要额外的人工修正数据集,减少制作数据集的工作量。
下面介绍本申请提供的一种应用实施例,具体可以包括以下步骤:
步骤1:将待处理长视频逐帧(或者以一定的采样间隔)输入到卷积神经网络中,提取图像特征;
步骤2:以提取的视频图像特征序列作为输入,使用预先训练的双流三维卷积神经网络模型,对视频特征序列进行机器人指令预测,得到长视频的预测机器人序列;
步骤3:获得与视频片段对应的语音输入片段。以语音片段作为输入编码器-解码器神经网络中,提取语音片段的特征;
步骤4:输入语音片段的特征到分类器中,获得语音的识别机器人序列;
步骤5:对比视频的预测动作序列和语音的识别机器人序列的结果,计算他们对应的损失函数并在训练阶段持续训练神经网络,即持续3-5步骤;
步骤6:获得任意的语音片段(不需要出现在视频中),同步骤3一样,输入训练好的编码器-解码器神经网络,获得语音片段的特征;
步骤7:将语音片段的特征输入分类器中,进行机器人指令的识别。
可见,本实施例通过视频辅助语音的方法进行语音动作识别,直接通过视频做软标签,而不依赖于文本的标签,生成机器人指令。无论有多少句语音数据,只要是描述视频中的指令,只需要一个视频便可完成多个语音的标注的系统,即多个语音对应于一个视频标签。在识别阶段,可以通过完整语音直接识别机器人指令,可以很随意的切换语种而不需要额外的人工修正数据集的系统。
下面对本申请实施例提供的一种机器人指令识别装置进行介绍,下文描述的一种机器人指令识别装置与上文描述的一种机器人指令识别方法可以相互参照。
参见图2,根据一示例性实施例示出的一种机器人指令识别装置的结构图,如图2所示,包括:
预测模块201,用于获取训练视频和所述训练视频对应的语音片段,并预测所述训练视频对应的指令标签;
训练模块202,用于从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络;
识别模块203,用于利用训练完成的神经网络进行指令识别。
本申请实施例提供的机器人指令识别装置,利用训练视频预测语音片段的指令标签,基于指令标签和语音特征进行神经网络的训练。在训练过程中,不需要过多的数据集,操作人员不需要拥有专业的知识背景。无论有多少句语音数据,只要是描述视频中的指令,只需要一个视频便可完成多个语音的标注的系统,即多个语音对应于一个视频标签。在识别阶段,可以通过完整语音直接识别机器人指令,不需要其他输入,可以很随意的切换语种而不需要额外的人工修正数据集,减少制作数据集的工作量。
在上述实施例的基础上,作为一种优选实施方式,所述预测模块201包括:
获取单元,用于获取训练视频和所述训练视频对应的语音片段;
输入单元,用于将所述训练视频以预设采样间隔输入卷积神经网络中以便提取所述训练视频的视频特征;
预测单元,用于利用双流三维卷积神经网络对所述视频特征进行动作预测,将预测得到的动作类型作为所述训练视频对应的指令标签。
在上述实施例的基础上,作为一种优选实施方式,所述神经网络包括编码器-解码器神经网络,所述编码器具体为双向长短期记忆网络,所述解码器具体为门控循环单元网络。
在上述实施例的基础上,作为一种优选实施方式,所述训练模块202包括:
第一提取单元,用于通过MFCC将所述语音片段转换为特征向量,将所述特征向量输入神经网络中以便提取所述语音片段对应的语音特征;
计算单元,用于将所述语音特征输入分类器中得到语音预测结果,根据所述语音预测结果和所述指令标签计算损失函数;
训练单元,用于利用所述损失函数训练所述神经网络得到训练完成的神经网络。
在上述实施例的基础上,作为一种优选实施方式,所述识别模块203包括:
转换单元,用于获取目标语音片段,通过MFCC将所述目标语音片段转换为目标特征向量;
第二提取单元,用于将所述目标特征向量输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征;
识别单元,用于将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图3,本申请实施例提供的一种电子设备300的结构图,如图3所示,可以包括处理器11和存储器12。该电子设备300还可以包括多媒体组件13,输入/输出(I/O)接口14,以及通信组件15中的一者或多者。
其中,处理器11用于控制该电子设备300的整体操作,以完成上述的机器人指令识别方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件15可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的机器人指令识别方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述机器人指令识别方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器12,上述程序指令可由电子设备300的处理器11执行以完成上述的机器人指令识别方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (7)
1.一种机器人指令识别方法,其特征在于,包括:
获取训练视频和所述训练视频对应的语音片段,并预测所述训练视频对应的指令标签;
从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络,所述神经网络包括编码器-解码器神经网络,所述编码器具体为双向长短期记忆网络,所述解码器具体为门控循环单元网络;
利用训练完成的神经网络进行指令识别;
其中,从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络,包括:
将所述语音片段转换为MFCC特征,将所述MFCC特征输入神经网络中以便提取所述语音片段对应的语音特征;
将所述语音特征输入分类器中得到语音预测结果,根据所述语音预测结果和所述指令标签计算损失函数;
利用所述损失函数训练所述神经网络得到训练完成的神经网络。
2.根据权利要求1所述机器人指令识别方法,其特征在于,所述预测所述训练视频对应的指令标签,包括:
将所述训练视频以预设采样间隔输入卷积神经网络中以便提取所述训练视频的视频特征;
利用双流三维卷积神经网络对所述视频特征进行动作预测,将预测得到的动作类型作为所述训练视频对应的指令标签。
3.根据权利要求1所述机器人指令识别方法,其特征在于,所述利用训练完成的神经网络进行指令识别,包括:
获取目标语音片段,将所述语音片段转换为目标MFCC特征;
将所述目标MFCC特征输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征;
将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。
4.一种机器人指令识别装置,其特征在于,包括:
预测模块,用于获取训练视频和所述训练视频对应的语音片段,并预测所述训练视频对应的指令标签;
训练模块,用于从所述语音片段中提取语音特征,并基于所述语音特征和所述指令标签训练神经网络,所述神经网络包括编码器-解码器神经网络,所述编码器具体为双向长短期记忆网络,所述解码器具体为门控循环单元网络;
识别模块,用于利用训练完成的神经网络进行指令识别;
其中,所述训练模块包括:
第一提取单元,用于通过MFCC将所述语音片段转换为特征向量,将所述特征向量输入神经网络中以便提取所述语音片段对应的语音特征;
计算单元,用于将所述语音特征输入分类器中得到语音预测结果,根据所述语音预测结果和所述指令标签计算损失函数;
训练单元,用于利用所述损失函数训练所述神经网络得到训练完成的神经网络。
5.根据权利要求4所述机器人指令识别装置,其特征在于,所述识别模块包括:
转换单元,用于获取目标语音片段,通过MFCC将所述目标语音片段转换为目标特征向量;
第二提取单元,用于将所述目标特征向量输入训练完成的神经网络中以便提取所述目标语音片段对应的目标语音特征;
识别单元,用于将所述目标语音特征输入所述分类器中以便识别所述目标语音片段对应的指令。
6.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述机器人指令识别方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述机器人指令识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639967.XA CN111783892B (zh) | 2020-07-06 | 2020-07-06 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639967.XA CN111783892B (zh) | 2020-07-06 | 2020-07-06 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783892A CN111783892A (zh) | 2020-10-16 |
CN111783892B true CN111783892B (zh) | 2021-10-01 |
Family
ID=72758888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010639967.XA Active CN111783892B (zh) | 2020-07-06 | 2020-07-06 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783892B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN102467327A (zh) * | 2010-11-10 | 2012-05-23 | 上海无戒空间信息技术有限公司 | 手势对象的生成、编辑方法和音频数据的操作方法 |
CN103607556A (zh) * | 2013-11-25 | 2014-02-26 | 广东威创视讯科技股份有限公司 | 视频会议系统及其实现方法 |
CN104537358A (zh) * | 2014-12-26 | 2015-04-22 | 安徽寰智信息科技股份有限公司 | 基于深度学习的唇语识别唇形训练数据库的生成方法 |
CN106981238A (zh) * | 2017-03-20 | 2017-07-25 | 南昌大学 | 一种基于计算机视觉的手语交流装置 |
CN108304130A (zh) * | 2018-01-03 | 2018-07-20 | 佛山杰致信息科技有限公司 | 一种应用于音频的标签管理系统 |
CN108804453A (zh) * | 2017-04-28 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种视音频识别方法及装置 |
CN109637523A (zh) * | 2018-12-28 | 2019-04-16 | 睿驰达新能源汽车科技(北京)有限公司 | 一种基于语音的车辆门锁控制方法及装置 |
CN109691090A (zh) * | 2018-12-05 | 2019-04-26 | 珊口(深圳)智能科技有限公司 | 移动目标的监控方法、装置、监控系统及移动机器人 |
CN109862421A (zh) * | 2018-12-05 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 一种视频信息识别方法、装置、电子设备及存储介质 |
CN110046558A (zh) * | 2019-03-28 | 2019-07-23 | 东南大学 | 一种用于机器人控制的手势识别方法 |
CN110414446A (zh) * | 2019-07-31 | 2019-11-05 | 广东工业大学 | 机器人的操作指令序列生成方法及装置 |
CN110598598A (zh) * | 2019-08-30 | 2019-12-20 | 西安理工大学 | 基于有限样本集的双流卷积神经网络人体行为识别方法 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN110858924A (zh) * | 2018-08-22 | 2020-03-03 | 北京优酷科技有限公司 | 视频背景音乐的生成方法及装置 |
CN110991329A (zh) * | 2019-11-29 | 2020-04-10 | 上海商汤智能科技有限公司 | 一种语义分析方法及装置、电子设备和存储介质 |
CN111007902A (zh) * | 2019-11-12 | 2020-04-14 | 珠海格力电器股份有限公司 | 一种基于摄像头的母婴动作监测系统及方法、智能家居 |
CN111090383A (zh) * | 2019-04-22 | 2020-05-01 | 广东小天才科技有限公司 | 一种指令识别方法及电子设备 |
CN111209437A (zh) * | 2020-01-13 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种标签处理方法、装置、存储介质和电子设备 |
CN111209440A (zh) * | 2020-01-13 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种视频播放方法、装置和存储介质 |
CN111368071A (zh) * | 2018-12-07 | 2020-07-03 | 北京奇虎科技有限公司 | 基于视频相关文本的视频检测方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8842965B1 (en) * | 2011-11-02 | 2014-09-23 | Google Inc. | Large scale video event classification |
US10381022B1 (en) * | 2015-12-23 | 2019-08-13 | Google Llc | Audio classifier |
US20180018970A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Neural network for recognition of signals in multiple sensory domains |
CN106653020A (zh) * | 2016-12-13 | 2017-05-10 | 中山大学 | 一种基于深度学习的智慧视听设备多业务控制方法及系统 |
-
2020
- 2020-07-06 CN CN202010639967.XA patent/CN111783892B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467327A (zh) * | 2010-11-10 | 2012-05-23 | 上海无戒空间信息技术有限公司 | 手势对象的生成、编辑方法和音频数据的操作方法 |
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN103607556A (zh) * | 2013-11-25 | 2014-02-26 | 广东威创视讯科技股份有限公司 | 视频会议系统及其实现方法 |
CN104537358A (zh) * | 2014-12-26 | 2015-04-22 | 安徽寰智信息科技股份有限公司 | 基于深度学习的唇语识别唇形训练数据库的生成方法 |
CN106981238A (zh) * | 2017-03-20 | 2017-07-25 | 南昌大学 | 一种基于计算机视觉的手语交流装置 |
CN108804453A (zh) * | 2017-04-28 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种视音频识别方法及装置 |
CN108304130A (zh) * | 2018-01-03 | 2018-07-20 | 佛山杰致信息科技有限公司 | 一种应用于音频的标签管理系统 |
CN110858924A (zh) * | 2018-08-22 | 2020-03-03 | 北京优酷科技有限公司 | 视频背景音乐的生成方法及装置 |
CN109691090A (zh) * | 2018-12-05 | 2019-04-26 | 珊口(深圳)智能科技有限公司 | 移动目标的监控方法、装置、监控系统及移动机器人 |
CN109862421A (zh) * | 2018-12-05 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 一种视频信息识别方法、装置、电子设备及存储介质 |
CN111368071A (zh) * | 2018-12-07 | 2020-07-03 | 北京奇虎科技有限公司 | 基于视频相关文本的视频检测方法、装置及电子设备 |
CN109637523A (zh) * | 2018-12-28 | 2019-04-16 | 睿驰达新能源汽车科技(北京)有限公司 | 一种基于语音的车辆门锁控制方法及装置 |
CN110046558A (zh) * | 2019-03-28 | 2019-07-23 | 东南大学 | 一种用于机器人控制的手势识别方法 |
CN111090383A (zh) * | 2019-04-22 | 2020-05-01 | 广东小天才科技有限公司 | 一种指令识别方法及电子设备 |
CN110414446A (zh) * | 2019-07-31 | 2019-11-05 | 广东工业大学 | 机器人的操作指令序列生成方法及装置 |
CN110598598A (zh) * | 2019-08-30 | 2019-12-20 | 西安理工大学 | 基于有限样本集的双流卷积神经网络人体行为识别方法 |
CN111007902A (zh) * | 2019-11-12 | 2020-04-14 | 珠海格力电器股份有限公司 | 一种基于摄像头的母婴动作监测系统及方法、智能家居 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN110991329A (zh) * | 2019-11-29 | 2020-04-10 | 上海商汤智能科技有限公司 | 一种语义分析方法及装置、电子设备和存储介质 |
CN111209437A (zh) * | 2020-01-13 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种标签处理方法、装置、存储介质和电子设备 |
CN111209440A (zh) * | 2020-01-13 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种视频播放方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111783892A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110211563B (zh) | 面向情景及情感的中文语音合成方法、装置及存储介质 | |
WO2021072875A1 (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN111798832A (zh) | 语音合成方法、装置和计算机可读存储介质 | |
CN114401438B (zh) | 虚拟数字人的视频生成方法及装置、存储介质、终端 | |
JP2017058674A (ja) | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
JP2023542685A (ja) | 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN114245203B (zh) | 基于剧本的视频剪辑方法、装置、设备及介质 | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
US20230096805A1 (en) | Contrastive Siamese Network for Semi-supervised Speech Recognition | |
CN111710337A (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
CN112802444A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN115910066A (zh) | 用于区域配电网的智能调度指挥与运营系统 | |
US20230223018A1 (en) | Methods and systems for streamable multimodal language understanding | |
CN114860938A (zh) | 一种语句意图识别方法和电子设备 | |
Musaev et al. | Automatic recognition of Uzbek speech based on integrated neural networks | |
CN116611459B (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 | |
CN112309398A (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
CN111783892B (zh) | 一种机器人指令识别方法、装置及电子设备和存储介质 | |
CN116092478A (zh) | 语音情感转换的方法、装置、设备和存储介质 | |
CN114999463A (zh) | 语音识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |