CN114913845A

CN114913845A - 语音识别方法、语音识别模型的训练方法和装置

Info

Publication number: CN114913845A
Application number: CN202110176302.4A
Authority: CN
Inventors: 庄伟基; 胡升华; 高鹏; 王育军
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-08-16

Abstract

本公开关于一种语音识别方法、语音识别模型的训练方法和装置，其中，语音识别的方法包含：获取运动件的运动信号，以及采集的语音信号，对语音信号进行特征提取，生成语音特征，对运动信号进行频域特征提取，生成频谱特征，将语音特征和频谱特征，输入训练得到的语音识别模型，得到语音识别结果。本申请中，对于语音采集过程中，包含特定噪声的场景，在语音识别的过程中充分考虑了运动件产生的噪音信号，提高了语音识别的效果。

Description

语音识别方法、语音识别模型的训练方法和装置

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音识别方法、语音识别模型的训练方法和装置。

背景技术

随着机器人的不断发展，机器人宠物越来越普及。然而，机器人宠物，例如足式机器人，在与人语音交互过程中，其是不断运动的。与传统固定的智能设备(如智能音箱)不同，由于机器宠物的不断运动，其自身会产生很多噪声，例如驱动电机的噪声，运动过程中关节部分机械传动噪声等等，这些噪声会对语音的识别产生很大的干扰。

此外，由于机器人时刻处于运动状态，因此其可能会距离用户非常远，此时由于自身噪声以及环境噪声的影响，就会导致用户的语音识别不准确，从而导致机器人无法准确响应用户的指令。

发明内容

本公开提供一种语音识别方法、语音识别模型的训练方法和装置，以至少解决相关技术中语音识别准确率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音识别方法，应用在机器人上，所述机器人包括运动件，包括：

获取所述运动件的运动信号，以及采集的语音信号；其中，所述运动件用于驱动所述机器人运动；

对所述语音信号进行特征提取，生成语音特征；

对所述运动信号进行频域特征提取，生成频谱特征；

将所述语音特征和所述频谱特征，输入训练得到的语音识别模型，得到语音识别结果。

可选地，所述语音信号为多帧，各帧语音信号具有对应的语音特征；所述将所述语音特征和所述频谱特征，输入训练得到的语音识别模型，得到语音识别结果，包括：

将所述各帧语音信号的语音特征输入所述语音识别模型的第一特征提取层，得到所述第一特征提取层输出的各帧语音信号的第一中间向量；其中，所述第一特征提取层，包含多个卷积层；

将所述频谱特征输入所述语音识别模型的第二特征提取层，得到所述第二特征提取层输出的第二中间向量；其中，所述第二特征提取层，包含多个卷积层；

将所述第一中间向量和所述第二中间向量进行拼接，得到输入向量；

将所述输入向量输入所述语音识别模型的第三特征提取层，得到所述第三特征提取层输出的各帧语音信号对应的音素表征向量；

将所述各帧语音信号对应的音素表征向量，输入所述语音识别模型的输出层，以输出各帧语音信号对应音素的后验概率；

根据所述各帧语音信号对应音素的后验概率，生成所述语音识别结果。

可选地，所述对所述语音信号进行特征提取，生成语音特征，包括：

对所述语音信号进行分帧，以生成多帧语音信号；

对各帧语音信号，进行特征提取，生成所述各帧语音信号的梅尔谱mel特征。

可选地，所述获取所述运动件的运动信号，包括：

对多个运动件的运动信号进行监测，以得到所述多个运动件的运动信号。

可选地，所述运动件为电机，所述运动信号为所述电机的控制信号，所述控制信号用于表征所述电机的转速或加速度。

根据本公开实施例的第二方面，提供一种语音识别模型的训练方法，包括：

获取训练样本，所述训练样本中包含采集的语音信号，以及运动件的运动信号；

对所述语音信号进行特征提取，生成语音特征；

对所述运动信号进行频域特征提取，生成频谱特征；

根据所述语音特征和所述频谱特征，输入所述语音识别模型得到语音识别结果；

根据所述语音识别结果与所述训练样本的标注结果之间的差异，对所述语音识别模型进行训练。

根据本公开实施例的第三方面，提供一种语音识别装置，包括：

获取模块，用于获取所述运动件的运动信号，以及采集的语音信号；其中，所述运动件用于带动所述机器人运动；

第一提取模块，用于对所述语音信号进行特征提取，生成语音特征；

第二提取模块，用于对所述运动信号进行频域特征提取，生成频谱特征；

识别模块，用于将所述语音特征和所述频谱特征输入训练得到的语音识别模型，得到语音识别结果。

可选地，所述语音信号为多帧，各帧语音信号具有对应的语音特征；所述识别模块，具体用于：

将所述各帧语音信号的语音特征输入所述语音识别模型的第一特征提取层，得到所述第一特征提取层输出的各帧语音信号的第一中间向量；其中，所述第一特征提取层，包含多个层卷积层；

将所述频谱特征输入所述语音识别模型的第二特征提取层，得到所述第二特征提取层输出的第二中间向量；其中，所述第二特征提取层，包含多个层卷积层；

可选地，所述第一提取模块，具体用于：

对所述语音信号进行分帧，以生成多帧语音信号；

可选地，所述获取模块，具体用于：

根据本公开实施例的第四方面，提供一种语音识别模型的训练装置，包括：

获取模块，用于获取训练样本，所述训练样本中包含采集的语音信号，以及运动件的

运动信号；

第一生成模块，用于对所述语音信号进行特征提取，生成语音特征；

第二生成模块，用于对所述运动信号进行频域特征提取，生成频谱特征；

识别模块，用于根据所述语音特征和所述频谱特征，输入所述语音识别模型得到语音识别结果；

训练模块，用于根据所述语音识别结果与所述训练样本的标注结果之间的差异，对所述语音识别模型进行训练。

根据本公开实施例的第五方面，提供一种机器人，所述机器人包含运动件，所述运动件用于驱动所述机器人运动；以及

至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器用于存储计算机程序；所述处理器用于读取所述存储器中的计算机程序以执行以下操作：

获取所述运动件的运动信号，以及采集的语音信号；

对所述语音信号进行特征提取，生成语音特征；

对所述运动信号进行频域特征提取，生成频谱特征；

可选地，所述机器人包含麦克风，所述麦克风用于采集所述语音信号。

根据本公开实施例的第六方面，提供一种电子设备，包括：至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的语音识别方法，或如第二方面所述的语音识别模型的训练方法。

根据本公开实施例的第七方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如第一方面所述的语音识别方法，或如第二方面所述的语音识别模型的训练方法。

根据本公开实施例的第八方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如第一方面所述的语音识别方法，或如第二方面所述的语音识别模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取运动件的运动信号，以及采集的语音信号，对语音信号进行特征提取，生成语音特征，对运动信号进行频域特征提取，生成频谱特征，将语音特征和频谱特征，输入训练得到的语音识别模型，得到语音识别结果。本实施例中，对于语音采集过程中，包含特定噪声的场景，在语音识别的过程中充分考虑了运动件产生的噪音信号，提高了语音识别的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开实施例提供的一种语音识别方法的流程图；

图2为本公开实施例提供了另一种语音识别方法的流程示意图；

图3为本公开实施例提供的一种交互场景示意图；

图4为本公开实施例提供的一种语音识别模型的结构示意图；

图5为本公开实施例提供的一种语音识别模型的训练方法的流程示意图；

图6为本公开实施例提供的一种语音识别装置的结构示意图；

图7为本公开实施例提供的一种语音识别模型的训练装置的结构示意图；

图8为本公开实施例提供的一种电子设备800的示意性框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

现有技术下，通过在每个电机旁设置相应的麦克风以采集对应电机所产生的噪音信号，然而这种方式一定程度上增加了成本，同时，噪音采集的过程中还会引入干扰噪音信号(例如，有效的语音信号)，导致识别过程复杂，运算量增加，而语音识别的效果较差，为此，本实施例提供了一种语音识别的方法，获取运动件的运动信号，以及采集的语音信号，对语音信号进行特征提取，生成语音特征，对运动信号进行频域特征提取，生成频谱特征，将语音特征和频谱特征，输入训练得到的语音识别模型，得到语音识别结果，本实施例中，在语音识别的过程中充分考虑了噪音信号，提高了语音识别的效果。

图1是本公开实施例提供的一种语音识别方法的流程图，如图1所示，该方法包含以下步骤。

步骤101中，获取运动件的运动信号，以及采集的语音信号；其中，电机用于驱动机器人运动。

本实施例的语音识别方法应用于机器人上，机器人包含运动件。

本公开的一个实施例中，运动件为机器人上设置的电机，其中，电机为一个或多个，机器人的运动是由安装在该机器人上的电机的转动而实现的，以足式机器人为例，通常会在足式机器人的躯干侧和/或腿部侧安装有多个电机，从而驱动足式机器人前后左右的灵活运动。然而，机器人在行走过程或跑跳过程中，电机的转动会带来一定的噪音。在与用户交互的场景中，通常是由机器人上设置的语音采集装置(如，麦克风)采集语音信号，同时，电机旋转产生的噪音也会被麦克风采集，也就是说机器人采集的语音信号中，不仅包含有效语音信号，还包含有干扰作用的噪音信号，例如，机器人与用户交互的场景中，采集的语音信号不仅包含用户和机器人交互的对话，同时还包含机器人运动时电机旋转的噪音信号，也就是说采集的语音信号为噪音语音信号。

本公开的另一个实施例中，以足式机器人为例，运动件为机器人的足部或腿部，在机器人与用户交互的过程中，机器人通常会跟踪用户移动，使得足式机器人进行行走或跑跳，此时，机器人的运动件会产生运动信号，该运动信号即机器人行走或跑跳过程中足部敲击地面产生的噪音信号，或者是足式机器人的大腿和小腿交替产生的噪音信号，从而，当机器人上设置的语音采集装置采集语音信号的同时，噪音信号也会被采集。

步骤102，对语音信号进行特征提取，生成语音特征。

在本公开的一种实例中，语音特征可以为梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients，MFCC)特征，梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。作为一种实现方式，将语音信号进行分帧，以生成多帧语音信号，将多帧语音信号分别进行短时傅里叶变换，得到各帧语音信号的频谱，进而，采用梅尔滤波器对各帧语音信号的频谱进行梅尔滤波变换，以得到语音信号对应的梅尔谱mel特征。

步骤103，对运动信号进行频域特征提取，生成频谱特征。

本实施例中，对获取的运动信号做短时傅里叶变换，以进行频域特征提取，以生成运动信号对应的频谱特征。所述频谱特征指示了运动件运动过程中的快慢，而运动件运动的快慢指示了噪音的大小，运动的越快噪音越大。

步骤104，将语音特征和频谱特征，输入训练得到的语音识别模型，得到语音识别结果。

在本公开的一个示例中，语音识别模型可包含多个特征提取层，例如三个特征提取层，以及全连接层和SOFTMAX层。其中，特征提取层可以包含多个卷积层，例如，5个卷积层，每一个卷积层都有相应的卷积计算、ReLU激励、数据标准化BN(Batch Normalization)。

本实施例中，将语音特征和频谱特征，输入训练得到的语音识别模型中，以得到语音识别的结果，其中，语音识别的结果，包含对输入的语音信号进行识别得到的唤醒词，或者是语音信号的语义。本实施例中的经过训练的语音识别模型，可以基于输入的运动件的运动信号对应的频谱特征，以运动信号的频谱特征作为参照，对输入的语音信号的语音特征进行识别，以提高运动信号带来的噪音环境下，语音信号识别的准确率，同时，不需要额外设置用于进行噪音信号获取的麦克风，降低了成本。

本公开实施例的语音识别的方法，获取运动件的运动信号，以及采集的语音信号，对语音信号进行特征提取，生成语音特征，对运动信号进行频域特征提取，生成频谱特征，将语音特征和频谱特征，输入训练得到的语音识别模型，得到语音识别结果。本实施例中，对于语音采集过程中，包含特定噪声的场景，在语音识别的过程中充分考虑了运动件产生的噪音信号，提高了语音识别的效果。

上述实施例中说明了，运动件可以为机器人上的电机，或者是机器人的足部或腿部，本实施例中，以运动件为电机，电机为多个为例进行具体说明。基于上述实施例，图2为本公开实施例提供了另一种语音识别方法的流程示意图，如图2所示，该方法包含以下步骤：

步骤201，获取各电机的控制信号，以及采集的语音信号。

其中，其中，控制信号用于控制电机的转速或加速度，从而，控制信号表征电机的转速或者是加速度。本实施例中以电机的控制信号表征转速，如，控制信号是转速信号为例进行说明。

本实施例中，根据语音活动检测(Voice Activity Detection，VAD)又称语音端点检测，以判断是否有用户的音频输入，以实现在有语音信号输入时，触发机器人利用语音采集装置采集语音信号，提高了语音信号采集的准确性。

在本实例的一种场景下，机器人包含一个电机，监测该电机以得到该电机的转速信号。

在本实施例的另一种场景下，机器人中设置的电机可以为多个，如图3所示，该机器人为一个机器狗，在机器狗和用户交互的场景下，响应用户的指令，以对机器狗进行控制，例如，控制机器狗到设定位置，或者是从机器狗获取相关的信息，例如，商场的布局图等。其中，机器狗包含4条腿，每一个腿都有一个电机控制，在机器狗前进的过程中，机器狗的各关节会通过相应的电机的旋转来控制运动，电机旋转时会产生噪音，因此，需要采集各个电机的转速信号，以确定对应的噪音信号。

在本公开的一个示例中，采用霍尔传感器采集电机的转速，以获取电机的转速信号。

本实施例中，可设置一个霍尔传感器，以获取每个电机的转速信号，或者是设置多个霍尔传感器，每个霍尔传感器获取对应的电机的转速信号。下面针对电机为多个时采集的转速信号进行说明。

作为一种实现方式，对机器人上设置的所有电机的转速信号进行监测，以得到相应多个电机的转速信号，为了避免信号的损失，将获取的多个电机的转速信号并联，分别执行步骤203。

步骤202，对语音信号进行特征提取，生成语音特征。

本实施例中，为了语音信息识别的准确度，对语音信号进行分帧，以生成多帧语音信号，例如，取帧长为20毫秒，对各帧语音信号，进行特征提取，生成各帧语音信号的梅尔谱mel特征。

步骤203，对各电机的控制信号进行频域特征提取，生成频谱特征。

本实施例中，对获取的各个电机的控制信号分别做短时傅里叶变换，以进行频域特征提取，以生成各控制信号对应的频谱特征。

在控制信号为转速信号时，频谱特征指示了电机转速的快慢，其中，电机转速的快慢和噪音信号具有对应关系，转速越快，噪音信号越强。

其中，在控制信号为加速度信号时，频谱特征指示了电机加速度的大小，其中，电机加速度的值越大，噪音信号越强。

步骤204，将各帧语音信号的语音特征输入语音识别模型的第一特征提取层，得到第一特征提取层输出的各帧语音信号的第一中间向量。

其中，第一特征提取层，包含多个层卷积层。

本实施例中的语音识别模型可包含多个特征提取层，本实施例的一个示例中，语音识别模型包含3个特征提取层，为了便于区分，称为第一特征提取层，第二特征提取层和第三特征提取层。

如图4所示，第一特征层用于对输入的每一帧的语音信号进行特征提取，第一特征提取层包含多个卷积层，其中，多个卷积层中前层的输出作为后层的输入，不断的对每一帧的语音信号对应的语音特征进行特征提取，以得到各语音信号的深度特征对应的第一中间向量，例如，第一中间向量由原来的输入128维向量转变为为200维的特征向量。

步骤205，将各频谱特征输入语音识别模型的第二特征提取层，得到第二特征提取层输出的各个第二中间向量。

其中，第二特征提取层用于对输入的根据至少一个电机的转速信号确定的频谱特征进行特征提取，第二特征提取层包含多个卷积层，其中，多个卷积层中前层的输出作为后层的输入，不断的对频谱特征进行特征提取，以得到至少一个电机的转速信号对应的深度特征对应的第二中间向量，提取到的第二中间向量的维度增加，以包含了更多的特征信息。例如，第二中间向量由原来的输入100维向量转变为160维的特征向量。

需要说明的是，第一中间向量和第二中间向量的维度可以相同，也可以不同。

如图4所示，以2个电机对应的转速信号对应的2个频谱特征，即频谱特征1和频谱特征2为例进行说明。其中，频谱特征1和频谱特征2并列的频谱特征，输入第二特征提取层，第二特征提取层分别为频谱特征1和频谱特征2进行特征提取，以得到对应的第二中间向量C2-1和C2-2。

步骤206，将各帧语音信号的第一中间向量和各个第二中间向量进行拼接，得到输入向量。

如图4所示，将各帧语音信号的第一中间向量C1和各个第二中间向量C2-1和C2-2进行拼接，得到输入向量C3。

步骤207，将输入向量输入语音识别模型的第三特征提取层，得到第三特征提取层输出的各帧语音信号对应的音素表征向量。

本实施例中，第三特征提取层可以为TDNNF结构，其中，使用TDNNF结构，可减少层参数，提高了第三特征提取层在训练过程中的稳定性和高效性。

其中，第三特征提取层已经学习到了各种语音信号的语音特征和电机的频谱特征，与各帧语音信号对应的音素的表征向量，表征向量表征了各帧语音信号对应音素的后验概率。

需要说明的是，当控制信号为加速度信号时，实现原理相同，本实施例中不再赘述。

步骤208，将各帧语音信号对应的音素表征向量，输入语音识别模型的输出层，以输出各帧语音信号对应音素的后验概率。

其中，输出层包含全连接层和softmax层，用于根据输入的各帧语音信号对应的音素表征向量，进行分类，以确定各帧语音信号对应音素的后验概率。

例如，M帧语音信号的语音特征和电机的频谱特征拼接得到的输入向量M1，输入第三特征提取网络后，生成了M帧语音信号对应的音素表征向量M2，通过输出层后，得到对应音素为“n”的概率是90％，对应音素“h”的概率为60％，此处仅为示例，不一一列举。同理，可得到各帧语音信号对应音素的后验概率。

步骤209，根据各帧语音信号对应因素的后验概率，生成语音识别结果。

本实施例中，根据确定的各帧语音信号对应音素的后验概率，可确定语音识别结果，作为一种实现方式，根据各帧语音信号对应音素的后验概率，计算似然概率，并通过维特比算法进行解码得到语音信号的识别结果，例如，在唤醒词识别场景下，采用语音识别模型，识别出采集到的语音信号中“我想听音乐”，包含的唤醒词为“音乐”；在语义识别场景下，采用语音识别模型，识别出采集到的语音信号中“好冷啊”，包含的语义信息为“温度太低，需要升高温度”。

本实施例的语音识别方法中，获取运动件的运动信号，以及采集的语音信号，对语音信号进行特征提取，生成语音特征，对运动信号进行频域特征提取，生成频谱特征，将语音特征和频谱特征，输入训练得到的语音识别模型，得到语音识别结果。本实施例中，对于语音采集过程中，包含特定运动信号产生的噪声的场景，由于训练得到的语音模型，是以采集的运动件的运动信号为参照物，充分考虑了采集的语音信号中包含的运动信号对应的噪音信号，通过对语音识别模型的迭代训练，使得训练得到的语音识别模型，可准确得到识别结果，从而，采用该训练得到的语音识别模型在对包含运动信号的语音信号进行识别时，提高了语音识别的效果。

上述实施例中描述了当电机的控制信号为多路时，将采集的多路控制信号对应的频谱特征并列输入第二特征提取层的，作为另一种实现方式，对多个电机的控制信号进行监测，得到多个电机的监测信号，对多个电机的监测信号进行合成，得到对应的控制信号，其中，对多个电机的监测信号进行合成，可通过以下两种实现方式实现：

作为一种实现方式，对监测到的多个电机的监测信号进行叠加，以生成信号强度叠加后的控制信号。

作为另一种可能的实现方式，机器人中还设置有麦克风，根据各电机和用于进行语音信号采集的麦克风的位置确定各电机的权重，其中，各电机的权重和距离麦克风的距离成正比，进而，根据各电机的权重，对对应的多个控制信号进行加权求和，以确定信号强度叠加后的控制信号。

本申请中通过对多个电机的监测信号进行采集和合成，实现了增强控制信号强度，提高了语音识别过程中，作为参照的控制信号的准确性，这是因为，麦克风在采集语音信号时，若存在多个电机转动，其采集到的电机转动带来的噪音信号也是叠加的，进而提高了语音识别模型识别的准确度。

为了实现上述实施例，图5为本公开实施例提供的一种语音识别模型的训练方法的流程示意图，如图5所示该方法包含以下步骤：

步骤501，获取训练样本，训练样本中包含采集的语音信号，以及运动件的运动信号。

其中，所述运动件用于带动所述机器人运动。

步骤502，对语音信号进行特征提取，生成语音特征。

步骤503，对电机的运动信号进行频域特征提取，生成频谱特征。

步骤504，根据语音特征和频谱特征，输入语音识别模型得到语音识别结果。

在本申请实施例的一种实现方式中，上述运动件为电机，而运动信号为该电机的控制信号，上述控制信号用于表征该电机的转速或加速度，之所以选择转速或加速度作为运动信号，是因为对于电机而言，转速或加速度与电机的运转状态关联，而这种运转状态能表征电机在运转时所产生的运动噪声(即噪音信号)。

其中，上述步骤501-504可参照前述方法实施例中的解释说明，原理相同，此处不再赘述。

步骤505，根据语音识别结果与训练样本的标注结果之间的差异，对语音识别模型进行训练。

本公开的一个示例中，根据语音识别结果与训练样本的标注结果之间的差异，计算损失函数，根据损失函数的梯度，通过后向传播算法更新模型的参数，迭代训练语音识别模型，直至语音识别模型输出的语音识别结果与训练样本的标注结果之间的差异小于阈值，则语音识别模型训练完成。

本公开实施例中，在对语音识别模型进行训练的过程中，采用的训练样本包含用于驱动机器人运动的运动件的运动信号，以及采集的语音信号，使得语音模型在训练过程中，以采集的运动件的运动信号为参照物，充分考虑了采集的语音信号中包含的运动信号对应的噪音信号，由于语音采集过程中，运动信号相对固定，通过对语音识别模型的迭代训练，使得训练得到的语音识别模型，可准确得到识别结果。

本公开实施例的语音识别装置的训练方法中，训练样本包含运动件的运动信号，以及采集的语音信号，对语音信号进行特征提取，生成语音特征，对运动信号进行频域特征提取，生成频谱特征，将语音特征和频谱特征，输入语音识别模型得到识别结果，并根据语音识别结果与训练样本的标注结果之间的差异，对语音识别模型进行训练，也就是说，根据差异计算损失函数，根据损失函数通过后向传播算法更新网络参数，通过迭代训练，直至上述差异小于阈值，则语音识别模型训练完成。本实施例中在语音识别模型训练的过程中充分考虑了电机噪声，提高了语音识别的效果。

为了实现上述实施例，图6为本公开实施例提供的一种语音识别装置的结构示意图。

如图6所示，该装置包含：

获取模块61，用于获取所述运动件的运动信号，以及采集的语音信号；其中，所述运动件用于带动所述机器人运动。

第一提取模块62，用于对所述语音信号进行特征提取，生成语音特征。

第二提取模块63，用于对所述电机的运动信号进行频域特征提取，生成频谱特征。

识别模块64，用于将所述语音特征和所述频谱特征输入训练得到的语音识别模型，得到语音识别结果。

进一步，作为一种可能的实现方式，语音信号为多帧，各帧语音信号具有对应的所述语音特征；识别模块64，具体用于：

作为一种可能的实现方式，第一提取模块62，具体用于：

对所述语音信号进行分帧，以生成多帧语音信号；

作为一种可能的实现方式，获取模块61，具体用于：

作为一种可能的实现方式，运动件为电机，运动信号为电机的控制信号，控制信号表征电机的转速或加速度。

需要说明的是，前述对方法实施例的解释说明，也适用于本实施例的装置，原理相同，此处不再赘述。

本公开实施例的语音识别装置中，获取运动件的运动信号，以及采集的语音信号，对语音信号进行特征提取，生成语音特征，对运动信号进行频域特征提取，生成频谱特征，将语音特征和频谱特征，输入训练得到的语音识别模型，得到语音识别结果。本实施例中，对于语音采集过程中，包含特定运动信号产生的噪声的场景，由于训练得到的语音模型，是以采集的运动件的运动信号为参照物，充分考虑了采集的语音信号中包含的运动信号对应的噪音信号，通过对语音识别模型的迭代训练，使得训练得到的语音识别模型，可准确得到识别结果，从而，采用该训练得到的语音识别模型在对包含运动信号的语音信号进行识别时，提高了语音识别的效果。

为了实现上述实施例，本实施例提供了一种语音识别模型的训练装置。

图7为本公开实施例提供的一种语音识别模型的训练装置的结构示意图，如图7所示，该装置包含：

获取模块71，用于获取训练样本，所述训练样本中包含采集的语音信号，以及运动件的运动信号。

第一生成模块72，用于对所述语音信号进行特征提取，生成语音特征。

第二生成模块73，用于对所述电机的运动信号进行频域特征提取，生成频谱特征。

识别模块74，用于根据所述语音特征和所述频谱特征，输入所述语音识别模型得到语音识别结果。

训练模块75，用于根据所述语音识别结果与所述训练样本的标注结果之间的差异，对所述语音识别模型进行训练。

作为一种实现方式，所述运动件为电机，所述运动信号为所述电机的控制信号，所述控制信号用于表征所述电机的转速或加速度。

本公开实施例的语音识别装置的训练装置中，训练样本包含运动信号，以及采集的语音信号，对语音信号进行特征提取，生成语音特征，对电机的运动信号进行频域特征提取，生成频谱特征，将语音特征和频谱特征，输入语音识别模型得到识别结果，并根据语音识别结果与训练样本的标注结果之间的差异，对语音识别模型进行训练，也就是说，根据差异计算损失函数，根据损失函数通过后向传播算法更新网络参数，通过迭代训练，直至上述差异小于阈值，则语音识别模型训练完成。本实施例中在语音识别模型训练的过程中充分考虑了电机噪声，提高了语音识别的效果。

为了实现上述实施例，本公开实施例提供了一种机器人，该机器人包含运动件，所述运动件用于驱动所述机器人运动；以及

获取所述运动件的运动信号，以及采集的语音信号；

对所述语音信号进行特征提取，生成语音特征；

对所述运动信号进行频域特征提取，生成频谱特征；

作为一种可能的实现方式，机器人包含麦克风，所述麦克风用于采集所述语音信号。

需要说明的是，前述语音识别方法的实施例和语音识别模型的训练方法的实施例的解释说明，以及实现的效果，也适用于本实施例的机器人，原理相同，此处不再赘述。

为了实现上述实施例，本公开实施例提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前述方法实施例所述的语音识别方法，或如前述方法实施例所述的语音识别模型的训练方法。

本实施例中的电子设备可以为机器人，但不限于机器人。

为了实现上述实施例，本公开实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如前述方法实施例所述的语音识别方法，或如前述方法实施例所述的语音识别模型的训练方法。

为了实现上述实施例，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如前述方法实施例所述的语音识别方法，或如前述方法实施例所述的语音识别模型的训练方法。

图8为本公开实施例提供的一种电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)802中的计算机程序或者从存储单元808加载到RAM(Random AccessMemory，随机访问/存取存储器)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。I/O(Input/Output，输入/输出)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如数据存储的监控方法。例如，在一些实施例中，数据存储的监控方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的数据存储的监控方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行前述的数据存储的监控方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别方法，应用在机器人上，所述机器人包括运动件，其特征在于，包括：

对所述语音信号进行特征提取，生成语音特征；

对所述运动信号进行频域特征提取，生成频谱特征；

2.如权利要求1所述的语音识别方法，其特征在于，所述语音信号为多帧，各帧语音信号具有对应的语音特征；所述将所述语音特征和所述频谱特征，输入训练得到的语音识别模型，得到语音识别结果，包括：

3.如权利要求1所述的语音识别方法，其特征在于，所述对所述语音信号进行特征提取，生成语音特征，包括：

对所述语音信号进行分帧，以生成多帧语音信号；

4.如权利要求1所述的语音识别方法，其特征在于，所述获取所述运动件的运动信号，包括：

5.如权利要求1-4任一所述的语音识别方法，其特征在于，所述运动件为电机，所述运动信号为所述电机的控制信号，所述控制信号用于表征所述电机的转速或加速度。

6.一种语音识别模型的训练方法，其特征在于，

对所述语音信号进行特征提取，生成语音特征；

对所述运动信号进行频域特征提取，生成频谱特征；

7.如权利要求6任一所述的语音识别模型的训练方法，其特征在于，所述运动件为电机，所述运动信号为所述电机的控制信号，所述控制信号用于表征所述电机的转速或加速度。

8.一种语音识别装置，其特征在于，包括：

9.如权利要求8所述的语音识别装置，其特征在于，所述语音信号为多帧，各帧语音信号具有对应的语音特征；所述识别模块，具体用于：

10.如权利要求8所述的语音识别装置，其特征在于，所述第一提取模块，具体用于：

对所述语音信号进行分帧，以生成多帧语音信号；

11.如权利要求8所述的语音识别装置，其特征在于，所述获取模块，具体用于：

12.如权利要求8-11任一所述的语音识别装置，其特征在于，所述运动件为电机，所述运动信号为所述电机的控制信号，所述控制信号用于表征所述电机的转速或加速度。

13.一种语音识别模型的训练装置，其特征在于，包括：

获取模块，用于获取训练样本，所述训练样本中包含采集的语音信号，以及运动件的运动信号；

14.如权利要求13任一所述的语音识别模型的训练装置，其特征在于，所述运动件为电机，所述运动信号为所述电机的控制信号，所述控制信号用于表征所述电机的转速或加速度。

15.一种机器人，其特征在于，包含运动件，所述运动件用于驱动所述机器人运动；以及

获取所述运动件的运动信号，以及采集的语音信号；

对所述语音信号进行特征提取，生成语音特征；

对所述运动信号进行频域特征提取，生成频谱特征；

16.如权利要求15所述的机器人，其特征在于，所述机器人包含麦克风，所述麦克风用于采集所述语音信号。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一项所述的语音识别方法，或如权利要求6-7中任一项所述的语音识别模型的训练方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使所述计算机执行如权利要求1至5中任一项所述的语音识别方法，或如权利要求6-7中任一项所述的语音识别模型的训练方法。

19.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1至5中任一项所述的语音识别方法，或如权利要求6-7中任一项所述的语音识别模型的训练方法。