CN115294983A

CN115294983A - 一种自主移动设备唤醒方法、系统及基站

Info

Publication number: CN115294983A
Application number: CN202211187103.4A
Authority: CN
Inventors: 罗杰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-11-04
Anticipated expiration: 2042-09-28
Also published as: CN115294983B

Abstract

本申请公开了一种自主移动设备唤醒方法、系统及基站，自主移动设备与基站通信，自主移动设备上设置有第一麦克风设备，基站上设置有第二麦克风设备，在实现语音控制过程中，获取第一、第二麦克风设备各自采集的原始语音信号，分别基于两种原始语音信号确定是否满足设定唤醒条件，若存在至少一种信号满足设定唤醒条件，则可以控制唤醒自主移动设备。相比于自主移动设备，基站周围的噪声和干扰相对较弱，因此基站上的第二麦克风设备所采集的原始语音信号的信噪比更大，在同时利用两种原始语音信号进行唤醒识别时，只要任意一个信号满足唤醒条件即可控制唤醒自主移动设备，大大提升了唤醒成功率。

Description

一种自主移动设备唤醒方法、系统及基站

技术领域

本申请涉及智能设备控制技术领域，更具体的说，是涉及一种自主移动设备唤醒方法、系统及基站。

背景技术

随着科技水平的提升，对机器人等自主移动设备的研究也逐步深入。自主移动设备能够感知外部环境信息，并与外部环境进行交互，执行设定的操作。常见的自主移动设备如扫地机器人、搬运机器人、无人车等。在人工智能飞速发展的浪潮下，越来越多的自主移动设备具备语音控制功能。

对自主移动设备的语音控制通常有两个阶段。首先需要将自主移动设备唤醒，使自主移动设备进入接收命令词的状态，然后再通过命令词指令对自主移动设备做进一步的控制。而在实际应用中，部分自主移动设备在工作时具有很强的自噪声，示例如扫地机器人内部马达的噪声、外部滚轮、清扫部件的噪声等。鉴于自主移动设备所存在的自噪声，将会影响其唤醒的成功率，进而影响用户的语音控制操作。

发明内容

鉴于上述问题，提出了本申请以便提供一种自主移动设备唤醒方法、系统及基站，以便降低自主移动设备的自噪声对设备唤醒的不利影响，提升设备唤醒成功率。具体方案如下：

第一方面，提供了一种自主移动设备唤醒方法，所述自主移动设备与基站通信，在所述自主移动设备上设置有第一麦克风设备，在所述基站上设置有第二麦克风设备，所述方法包括：

获取第一麦克风设备采集的第一原始语音信号，获取第二麦克风设备采集的第二原始语音信号；

分别基于所述第一原始语音信号、所述第二原始语音信号确定是否满足设定唤醒条件，若存在至少一种信号满足设定唤醒条件，则控制唤醒自主移动设备。

第二方面，提供了一种自主移动设备唤醒系统，所述自主移动设备与基站通信，在所述自主移动设备上设置有第一麦克风设备，在所述基站上设置有第二麦克风设备，该系统包括：

信号获取单元，用于获取第一麦克风设备采集的第一原始语音信号，获取第二麦克风设备采集的第二原始语音信号；

唤醒条件判断单元，用于分别基于所述第一原始语音信号、所述第二原始语音信号确定是否满足设定唤醒条件；

唤醒单元，用于若存在至少一种信号满足设定唤醒条件，则控制唤醒自主移动设备。

第三方面，提供了一种自主移动设备的基站，所述基站上设置有第二麦克风设备和处理器；

所述第二麦克风设备用于采集第二原始语音信号；

所述处理器获取第二麦克风设备采集的第二原始语音信号，基于所述第二原始语音信号确定是否满足设定唤醒条件，若满足，则向所述自主移动设备发送唤醒指令，以唤醒所述自主移动设备。

借由上述技术方案，本申请的自主移动设备与基站通信，在自主移动设备上设置有第一麦克风设备，在基站上设置有第二麦克风设备，在实现语音控制过程中，获取第一麦克风设备采集的第一原始语音信号，以及获取第二麦克风设备采集的第二原始语音信号，分别基于两种原始语音信号确定是否满足设定唤醒条件，若存在至少一种信号满足设定唤醒条件，则可以控制唤醒自主移动设备。本申请中借助基站与自主移动设备处于同一空间可以同时接收到声源发出的语音信号，并且，相比于自主移动设备，基站周围的噪声和干扰相对较弱，因此基站上的第二麦克风设备所采集的第二原始语音信号的信噪比更大，在同时利用第一、第二原始语音信号进行唤醒识别时，只要任意一个信号满足唤醒条件即可控制唤醒自主移动设备，从而大大提升了唤醒成功率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例示例的一种自主移动设备唤醒方法流程示意图；

图2为本申请实施例示例的一种自主移动设备在不同场景下的唤醒策略示意图；

图3为本申请实施例示例的一种自主移动设备唤醒系统结构示意图；

图4为本申请实施例示例的一种自主移动设备或基站的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请介绍的自主移动设备为能够采集环境信息，并与周围环境进行交互，以完成指定任务操作的设备。其可以是机器人，如扫地机器人、搬运机器人等，还可以是可移动的空气净化器、无人车、无人机等。

为了提升自主移动设备的唤醒成功率，本申请创造性的在自主移动设备和基站上分别部署麦克风设备，组成分布式麦克风设备。其中，设置在自主移动设备上的麦克风设备定义为第一麦克风设备，设置在基站上的麦克风设备定义为第二麦克风设备。两个麦克风设备可以单独采集环境的语音信号。其中，第一麦克风设备可以是麦克风阵列形式，也可以是单麦克风。第二麦克风设备可以是麦克风阵列形式，也可以是单麦克风。

为了同时利用两个麦克风设备采集的语音信号进行唤醒控制，本申请提供了一套唤醒系统，通过该唤醒系统，来实现唤醒控制算法的逻辑，进而实现对自主移动设备的语音唤醒功能。唤醒系统可以单独部署在自主移动设备上，也可以单独部署在基站上，当然还可以同时部署在自主移动设备和基站上，也即，唤醒控制算法的处理逻辑可以单独由自主移动设备执行，也可以单独由基站执行，还可以由自主移动设备和基站配合执行。除此之外，语音控制系统还可以是部署在服务器、云端等。

接下来，从唤醒系统的角度，对自主移动设备语音唤醒方法进行介绍，结合图1所示，该方法可以包括如下步骤：

步骤S100、获取第一麦克风设备的第一原始语音信号，获取第二麦克风设备采集的第二原始语音信号。

具体地，第一和第二麦克风设备各自由一定数目的声学传感器组成，用于对声场的空间特性进行采样。定义第一麦克风设备采集的原始语音信号为第一原始语音信号，第二麦克风设备采集的原始语音信号为第二原始语音信号。

步骤S110、分别基于所述第一原始语音信号、所述第二原始语音信号确定是否满足设定唤醒条件。

具体地，在获取到第一、第二原始语音信号之后，基于第一原始语音信号判断是否满足设定唤醒条件，得到第一唤醒结果；基于第二原始语音信号判断是否满足设定唤醒条件，得到第二唤醒结果。第二唤醒结果均可以包括满足唤醒条件或不满足唤醒条件。

在基于第一、第二原始语音信号进行唤醒条件判断时，可以首先对第一、第二原始语音信号进行降噪处理，进而基于降噪后信号进行唤醒条件判断。唤醒条件判断时，可以是通过预先训练的唤醒模型，判断输入的信号是否包含设定唤醒词等。

步骤S120、若存在至少一种信号满足设定唤醒条件，则控制唤醒自主移动设备。

具体地，对于上一步骤的判断结果，若第一唤醒结果和第二唤醒结果中存在任意一个唤醒结果表明满足设定唤醒条件，则可以控制唤醒自主移动设备，使之进入指令识别阶段。

本申请的自主移动设备与基站通信，在自主移动设备上设置有第一麦克风设备，在基站上设置有第二麦克风设备，在实现语音控制过程中，获取第一麦克风设备采集的第一原始语音信号，以及获取第二麦克风设备采集的第二原始语音信号，分别基于两种原始语音信号确定是否满足设定唤醒条件，若存在至少一种信号满足设定唤醒条件，则可以控制唤醒自主移动设备，唤醒后的自主移动设备进入指令识别阶段。本申请中借助基站与自主移动设备处于同一空间可以同时接收到声源发出的语音信号，并且，相比于自主移动设备，基站周围的噪声和干扰相对较弱，因此基站上的第二麦克风设备所采集的第二原始语音信号的信噪比更大，在同时利用第一、第二原始语音信号进行唤醒识别时，只要任意一个信号满足唤醒条件即可控制唤醒自主移动设备，从而大大提升了唤醒成功率。

可选的，本申请中可以设置第一麦克风设备和第二麦克风设备实时均处于开启状态。当然，若考虑到自主移动设备处于基站时其上设置的第一麦克风设备可能被基站遮挡，导致收音较差，也可以设置在自主移动设备处于基站时，仅开启基站上设置的第二麦克风设备。当自主移动设备离开基站后，第一、第二麦克风设备均处于开启状态。

在本申请的一些实施例中，对上述步骤S100中获取第二麦克风设备采集的第二原始语音信号的过程进行介绍。

由于自主移动设备和基站之间可以相互通信，因此可以实时获取到自主移动设备相对于基站的相对位置信息。在此基础上，为了提升第二麦克风设备采集的第二原始语音信号的信噪比，可以基于自主移动设备相对于基站的相对位置信息，控制第二麦克风设备对自主移动设备方向进行噪声抑制，以采集到对自主移动设备的自噪声抑制后的第二原始语音信号。

具体地，可以将第二麦克风设备的波束图的零点对准自主移动设备所处方向，从而有效抑制自主移动设备产生的自噪声，基于此得到的第二原始语音信号的信噪比更高。

使用该信噪比更高的第二原始语音信号进行唤醒识别判断时，其唤醒成功率更高。

在本申请的一些实施例中，考虑到自主移动设备工作时其自噪声较大，若直接基于第一麦克风设备采集的第一原始语音信号进行唤醒识别，其成功率较低，为此，本实施例中可以在上述步骤S110基于第一原始语音信号进行唤醒条件判断之前，增加对第一原始语音信号进行降噪处理的过程，该过程可以包括：

S1、利用预训练的降噪模型处理所述第一原始语音信号，得到降噪模型输出的目标比例。

其中，所述降噪模型以包含自主移动设备的自噪声及干净唤醒词语音的第一带噪语音训练信号作为训练样本，以所述第一带噪语音训练信号中干净唤醒词语音所占比例作为样本标签训练得到。按照上述方式训练得到的降噪模型，具备对输入的第一原始语音信号，确定其中有用的干净唤醒词语音所占目标比例的能力。

S2、基于所述目标比例，从所述第一原始语音信号中确定出降噪后第一语音信号。

具体地，上一步骤中已经通过降噪模型预测得到第一原始语音信号中有用信号所占的目标比例，进而可以基于该目标比例，从第一原始语音信号中确定出降噪后第一语音信号。

在此基础上，上述步骤S110分别基于所述第一原始语音信号、所述第二原始语音信号确定是否满足设定唤醒条件的过程，可以包括：

分别基于降噪后第一语音信号、第二原始语音信号确定是否满足设定唤醒条件。

具体地，降噪后第一语音信号已经滤除了自主移动设备的自噪声，因此基于该降噪后第一语音信号确定是否满足设定唤醒条件时，其判断结果更加准确，也即提升了唤醒的成功率。

本申请实施例提供的自主移动设备唤醒方法，预先训练了降噪模型，本申请的降噪模型能够滤除设备自噪声，得到有用的干净唤醒词语音所占比例，进而从第一原始语音信号中得到降噪后第一语音信号，基于该降噪后第一语音信号进行设备唤醒时，能够极大提升唤醒成功率。

进一步，由于降噪模型训练时的训练样本中除设备自噪声外仅有干净唤醒词语音，也即该降噪模型可以理解为深度订制降噪模型，其仅对设定的唤醒词音频进行降噪，因而降噪效果会更为优秀，基于此能够进一步提升设备唤醒的成功率。

接下来，对降噪模型的训练过程进行说明。

S1，首先获取若干个第一带噪语音训练信号。

其中，每一个第一带噪语音训练信号包含有录制的自主移动设备在工作状态下的自噪声信号，以及模拟的声源与自主移动设备上的麦克风设备在不同距离、环境下产生的冲击响应与干净唤醒词语音的卷积后的第一目标语音信号。

具体地，本申请可以模拟生成声源与自主移动设备上麦克风设备在不同距离、不同环境下产生的冲击响应I，将该冲击响应I与预设的干净唤醒词语音s进行卷积，得到卷积后语音信号，作为第一目标语音信号。进一步，将卷积后的第一目标语音信号与录制的自主移动设备在工作状态下的自噪声信号n相加，结果作为带噪语音训练信号y，如下公式：

y=s*I+a*n

其中，a为设定参数，通过控制a的大小，可以调整最终生成的第一带噪语音训练信号y中，噪声信号与第一目标语音信号的比例，从而产生不同信噪比的多个第一带噪语音训练信号y。

S2，对于上述得到的每一个第一带噪语音训练信号y：

确定其中包含的干净唤醒词语音s在第一带噪语音训练信号y中所占据的比例mask，利用第一带噪语音训练信号y和对应的比例mask生成一条训练数据。

S3、采用各条训练数据训练降噪模型。

本申请的一些实施例中，介绍了上述步骤S2的一种可选实现方式，具体如下：

对于每一个第一带噪语音训练信号y：

S21、对第一带噪语音训练信号y和干净唤醒词语音s分别做短时傅里叶变换后取幅度谱，得到第一带噪语音训练信号y对应的幅度谱Y，以及干净唤醒词语音s对应的幅度谱S。

S22、由幅度谱S与幅度谱Y的比例mask，作为干净唤醒词语音s在第一带噪语音训练信号y中所占据的比例，由第一带噪语音训练信号y对应的幅度谱Y和对应的比例mask组成一条训练数据。

mask=S/Y

本实施例中以干净唤醒词语音和第一带噪语音训练信号在频域的幅度谱的比值，作为mask，进而由第一带噪语音训练信号的幅度谱Y和mask组成一条训练数据，按照此类训练数据训练降噪模型时，能够使得降噪模型学习到输入信号的幅度谱与mask间的映射关系。

需要说明的是，除上述方式之外，在计算干净唤醒词语音s在第一带噪语音训练信号y中所占据的比例mask时，还可以采用干净唤醒词语音s与第一带噪语音训练信号y各自的能量谱或梅尔谱间的比值，作为上述mask。

基于上述实施例训练得到的降噪模型，对前述步骤S1，利用预训练的降噪模型处理所述原始语音信号，得到降噪模型输出的目标比例的过程进行说明。

步骤S1具体可以包括：

S11，将所述第一原始语音信号做短时傅里叶变换后取幅度谱，得到第一原始语音信号对应的目标幅度谱。

S12，将所述目标幅度谱输入降噪模型，得到降噪模型输出的目标比例。

进一步地，上述步骤S2，基于所述目标比例，从所述第一原始语音信号中确定降噪后语音信号的过程，具体可以包括：

将所述目标比例与所述第一原始语音信号的目标幅度谱相乘，并做短时傅里叶逆变换，得到降噪后语音信号。

在本申请的一些实施例中，对于步骤S100，获取的第一原始语音信号，其可能存在两种情况，分别是：

第一、在所述自主移动设备处于工作状态时，获取的第一麦克风设备所采集的第一原始语音信号。

第二、在所述自主移动设备处于非工作状态时，获取的第一麦克风设备所采集的第一原始语音信号。

其中，自主移动设备的工作状态是指，自主移动设备执行其既定任务操作的过程。以自主移动设备为扫地机器人为例，当扫地机器人在扫地、拖地过程中，可以认为其处于工作状态。当扫地机器人位于基站内、或位于基站外处于待机状态、或处于仅移动而非扫地、拖地时，则可以认为其处于非工作状态。

可以理解的是，当自主移动设备处于工作状态时，其产生的自噪声会更大，也即，获取的原始语音信号中包含的自噪声更多。

基于此，本申请可以设置对于步骤S100获取的第一原始语音信号，不区分其在何种状态下采集的，均执行利用降噪模型处理第一原始语音信号的步骤，也即，不论自主移动设备当前处于工作状态还是非工作状态，对于获取的第一原始语音信号均经过降噪模型进行处理。

除此之外，若考虑到在自主移动设备处于非工作状态时，其自噪声可能没有那么大。因此，还可以设置在确定所述第一原始语音信号为在所述自主移动设备处于工作状态时所采集，利用降噪模型处理所述第一原始语音信号。在确定第一原始语音信号为在自主移动设备处于非工作状态时所采集，则可以直接基于获取的第一原始语音信号，确定是否满足设定唤醒条件，省去降噪模型处理的环节。

本申请实施例中提供了一种确定信号是否满足唤醒条件的可选实现方式，具体可以是采用预训练的唤醒模型。

该唤醒模型可以是端到端的神经网络模型，通过对信号提取信号特征，送入唤醒模型，唤醒模型可以输出其是否满足唤醒条件。一般性的，唤醒条件可以为：是否包含唤醒词，若包含，则认为满足唤醒条件，否则认为不满足唤醒条件。

对信号提取的信号特征可以是filterbank特征。训练过程，可以采用二分类的交叉熵损失函数进行训练，即一类为包含唤醒词，另一类为不包含唤醒词（可以是非唤醒词和噪声）。

为了更好的提升自主移动设备在不同场景下的唤醒成功率，本实施例中可以针对自主移动设备处于不同场景时，分别配置与不同场景对应的唤醒模型。

具体地，在自主移动设备处于工作状态时，可以训练对应的唤醒模型：

唤醒模型为，以第一训练信号集经所述降噪模型处理后得到的降噪后第一训练信号集作为训练样本，以训练样本标注的是否满足设定唤醒条件作为样本标签训练得到。其中，所述第一训练信号集包括：包含自主移动设备工作状态下的自噪声信号且不包含干净唤醒词语音的自噪声训练信号、同时包含自主移动设备的自噪声信号及第一目标语音信号的第一带噪语音训练信号，其中第一目标语音信号为模拟的声源与自主移动设备上的第一麦克风设备在不同距离、环境下产生的冲击响应与干净唤醒词语音的卷积后的语音信号。

基于此，对于由降噪模型降噪处理后得到的降噪后第一语音信号，确定该降噪后第一语音信号是否满足设定唤醒条件的过程，可以包括：

将所述降噪后第一语音信号输入上述预训练后的唤醒模型，以得到唤醒模型输出的唤醒结果，所述唤醒结果包括满足设定唤醒条件或不满足设定唤醒条件。

进一步地参照图2所示：

考虑到自主移动设备在工作状态时还可能进一步细分，如细分为第一工作状态和第二工作状态。相对于第二工作状态，第一工作状态下自主移动设备的自噪声更大。示例如，扫地机器人在工作状态下可以分为两个档位，分别为高档位和低档位，高档位下扫地机器人的吸力更大，产生的自噪声也更到。

为此，本实施例中可以设置上述唤醒模型包括第一唤醒模型和第二唤醒模型，第一唤醒模型与第一工作状态对应，第二唤醒模型与第二工作状态对应。

第一唤醒模型训练过程所使用第一训练信号集中包含自主移动设备在第一工作状态下的自噪声信号（以自主移动设备为扫地机器人为例，该自噪声信号的信噪比范围可以在0至10dB）。具体地，前述实施例介绍了唤醒模型在训练时第一训练信号集包括：自噪声训练信号和第一带噪语音训练信号，这两个训练信号中均包含有自主移动设备工作状态下的自噪声信号。对于第一唤醒模型而言，其在训练过程中，所使用第一训练信号集中上述自噪声训练信号和第一带噪语音训练信号中所包含的自主移动设备工作状态下的自噪声信号，具体为：自主移动设备在第一工作状态下的自噪声信号。

第二唤醒模型训练过程所使用第一训练信号集中包含自主移动设备在第二工作状态下的自噪声信号（以自主移动设备为扫地机器人为例，该自噪声信号的信噪比范围可以在-10至0dB）。具体地，前述实施例介绍了唤醒模型在训练时第一训练信号集包括：自噪声训练信号和第一带噪语音训练信号，这两个训练信号中均包含有自主移动设备工作状态下的自噪声信号。对于第一唤醒模型而言，其在训练过程中，所使用第一训练信号集中上述自噪声训练信号和第一带噪语音训练信号中所包含的自主移动设备工作状态下的自噪声信号，具体为：自主移动设备在第二工作状态下的自噪声信号。

在此基础上，上述将降噪后第一语音信号输入预训练后的唤醒模型，以得到唤醒模型输出的唤醒结果的过程，可以包括：

若所述第一原始语音信号为在所述自主移动设备处于第一工作状态时所采集，则将所述降噪后第一语音信号输入所述第一唤醒模型；

若所述第一原始语音信号为在所述自主移动设备处于第二工作状态时所采集，则将所述降噪后第一语音信号输入所述第二唤醒模型。

显然，本实施例中对自主移动设备所处工作状态进行了细分，进而训练了与各细分工作状态下更匹配的唤醒模型，用于对对应工作状态下的自主移动设备进行唤醒，进一步提升了唤醒成功率。

再进一步的，结合图2所示：

对于自主移动设备处于非工作状态这一场景，本申请实施例也可以预先训练匹配的唤醒模型，定义为第三唤醒模型：

第三唤醒模型为，以标注有是否满足设定唤醒条件的第二训练信号集作为训练数据训练得到，其中，所述第二训练信号集包括：包含环境噪声信号（以自主移动设备为扫地机器人为例，该唤醒噪声信号可以是家具噪声、电视、音乐、电器噪声等，信噪比范围可以在5至20dB）且不包含唤醒词语音的环境噪声训练信号、同时包含环境噪声信号及第一目标语音信号的第二带噪语音训练信号，其中所述第一目标语音信号为模拟的声源与自主移动设备上的第一麦克风设备在不同距离、环境下产生的冲击响应与干净唤醒词语音的卷积后的语音信号。

基于此，当确定步骤S100获取的第一原始语音信号为在自主移动设备处于非工作状态时所采集，本申请方法还可以包括如下步骤：

利用上述第三唤醒模型处理所述第一原始语音信号，得到第三唤醒模型输出的唤醒结果，所述唤醒结果包括满足设定唤醒条件或不满足设定唤醒条件。

显然，本实施例中进一步配置了在自主移动设备处于非工作状态时所匹配的第三唤醒模型，用于对非工作状态下的自主移动设备进行唤醒，进一步提升了唤醒成功率。

在本申请的一些实施例中，对上述步骤S110中，基于所述第二原始语音信号确定是否满足设定唤醒条件的过程进行介绍。

本实施例中可以通过预训练的唤醒模型来处理第二原始语音信号，以确定是否满足设定唤醒条件。为了与前述各唤醒模型进行区分，定义这里的唤醒模型为第四唤醒模型，则基于所述第二原始语音信号确定是否满足设定唤醒条件的过程，可以包括：

将所述第二原始语音信号输入预训练的第四唤醒模型，得到第四唤醒模型输出的唤醒结果，所述唤醒结果包括满足设定唤醒条件或不满足设定唤醒条件。

其中，第四唤醒模型为：

以标注有是否满足设定唤醒条件的第三训练信号集作为训练数据训练得到，其中，所述第三训练信号集包括：包含环境噪声信号（以自主移动设备为扫地机器人为例，该唤醒噪声信号可以是家具噪声、电视、音乐、电器噪声等，信噪比范围可以在5至20dB）且不包含唤醒词语音的环境噪声训练信号、同时包含环境噪声信号及第二目标语音信号的第三带噪语音训练信号，其中所述第二目标语音信号为模拟的声源与基站上的第二麦克风设备在不同距离、环境下产生的冲击响应与干净唤醒词语音的卷积后的语音信号。

本实施例中进一步配置了与基站所匹配的第四唤醒模型，用于利用基站上的第二麦克风设备所采集的第二原始语音信号进行唤醒识别，提升了唤醒成功率。

下面对本申请实施例提供的自主移动设备唤醒系统进行描述，下文描述的自主移动设备唤醒系统与上文描述的自主移动设备唤醒方法可相互对应参照。

参见图3，图3为本申请实施例公开的一种自主移动设备唤醒系统结构示意图。

如图3所示，该系统可以包括：

信号获取单元11，用于获取第一麦克风设备采集的第一原始语音信号，获取第二麦克风设备采集的第二原始语音信号；

唤醒条件判断单元12，用于分别基于所述第一原始语音信号、所述第二原始语音信号确定是否满足设定唤醒条件；

唤醒单元13，用于若存在至少一种信号满足设定唤醒条件，则控制唤醒自主移动设备。

可选的，上述信号获取单元获取第二麦克风设备采集的第二原始语音信号的过程，可以包括：

获取所述自主移动设备相对于所述基站的相对位置信息；

基于所述相对位置信息，控制所述第二麦克风设备进行降噪，以得到所述第二麦克风设备采集的对所述自主移动设备的自噪声抑制后的第二原始语音信号。

可选的，本申请的系统还可以包括：第一原始语音信号降噪单元，用于：

利用预训练的降噪模型处理所述第一原始语音信号，得到降噪模型输出的目标比例，其中，所述降噪模型以包含自主移动设备的自噪声及干净唤醒词语音的第一带噪语音训练信号作为训练样本，以所述第一带噪语音训练信号中干净唤醒词语音所占比例作为样本标签训练得到；

基于所述目标比例，从所述第一原始语音信号中确定出降噪后第一语音信号。在此基础上，上述唤醒条件判断单元具体用于：

分别基于所述降噪后第一语音信号、所述第二原始语音信号确定是否满足设定唤醒条件。

可选的，本申请的系统还可以包括：降噪模型训练单元，用于训练降噪模型，该过程包括：

获取若干个第一带噪语音训练信号，所述第一带噪语音训练信号包含录制的所述自主移动设备工作状态下的自噪声信号，以及模拟的声源与所述第一麦克风设备在不同距离、环境下产生的冲击响应与干净唤醒词语音的卷积后的第一目标语音信号；

对于每一个第一带噪语音训练信号：确定所述干净唤醒词语音在所述第一带噪语音训练信号中所占据的比例，利用所述第一带噪语音训练信号和对应的比例生成一条训练数据；

采用各条训练数据训练降噪模型。

可选的，上述降噪模型训练单元对于每一个第一带噪语音训练信号：确定所述干净唤醒词语音在所述第一带噪语音训练信号中所占据的比例，利用所述第一带噪语音训练信号和对应的比例生成一条训练数据的过程，可以包括：

对于每一个第一带噪语音训练信号：

对所述第一带噪语音训练信号和所述干净唤醒词语音分别做短时傅里叶变换后取幅度谱，得到所述第一带噪语音训练信号对应的幅度谱Y，以及所述干净唤醒词语音对应的幅度谱S；

由所述幅度谱S与所述幅度谱Y的比例mask，作为所述干净唤醒词语音在所述第一带噪语音训练信号中所占据的比例，由所述第一带噪语音训练信号对应的幅度谱Y和对应的比例mask组成一条训练数据。

可选的，上述第一原始语音信号降噪单元利用预训练的降噪模型处理所述第一原始语音信号，得到降噪模型输出的目标比例的过程，可以包括：

将所述第一原始语音信号做短时傅里叶变换后取幅度谱，得到第一原始语音信号对应的目标幅度谱；

将所述目标幅度谱输入降噪模型，得到降噪模型输出的目标比例；

上述第一原始语音信号降噪单元基于所述目标比例，从所述原始语音信号中确定降噪后语音信号的过程，可以包括：

将所述目标比例与所述第一原始语音信号的目标幅度谱相乘，并做短时傅里叶逆变换，得到降噪后第一语音信号。

可选的，上述第一原始语音信号降噪单元利用预训练的降噪模型处理所述第一原始语音信号的过程，可以包括：

若确定所述第一原始语音信号为在所述自主移动设备处于工作状态时所采集，则利用预训练的降噪模型处理所述第一原始语音信号。基于此，上述唤醒条件判断单元基于所述降噪后第一语音信号确定是否满足设定唤醒条件的过程，可以包括：

将所述降噪后第一语音信号输入预训练的唤醒模型，得到唤醒模型输出的唤醒结果，所述唤醒结果包括满足设定唤醒条件或不满足设定唤醒条件；

所述唤醒模型为，以第一训练信号集经所述降噪模型处理后得到的降噪后第一训练信号集作为训练样本，以训练样本标注的是否满足设定唤醒条件作为样本标签训练得到；其中，所述第一训练信号集包括：包含自主移动设备工作状态下的自噪声信号且不包含干净唤醒词语音的自噪声训练信号、同时包含自主移动设备的自噪声信号及所述第一目标语音信号的所述第一带噪语音训练信号。

可选的，上述唤醒模型可以包括第一唤醒模型和第二唤醒模型，所述第一唤醒模型训练过程所使用第一训练信号集中包含自主移动设备在第一工作状态下的自噪声信号，所述第二唤醒模型训练过程所使用第一训练信号集中包含自主移动设备在第二工作状态下的自噪声信号，相比于第二工作状态，在第一工作状态下自主移动设备的自噪声更大；

上述第一原始语音信号降噪单元将所述降噪后第一语音信号输入预训练的唤醒模型的过程，可以包括：

可选的，上述唤醒条件判断单元基于所述第一原始语音信号确定是否满足设定唤醒条件的过程，可以包括：

若确定所述第一原始语音信号为在所述自主移动设备处于非工作状态时所采集，利用预训练的第三唤醒模型处理所述第一原始语音信号，得到第三唤醒模型输出的唤醒结果，所述唤醒结果包括满足设定唤醒条件或不满足设定唤醒条件；

所述第三唤醒模型为，以标注有是否满足设定唤醒条件的第二训练信号集作为训练数据训练得到，其中，所述第二训练信号集包括：包含环境噪声信号且不包含唤醒词语音的环境噪声训练信号、同时包含环境噪声信号及第一目标语音信号的第二带噪语音训练信号，其中所述第一目标语音信号为模拟的声源与所述第一麦克风设备在不同距离、环境下产生的冲击响应与干净唤醒词语音的卷积后的语音信号。

可选的，上述唤醒条件判断单元基于所述第二原始语音信号确定是否满足设定唤醒条件的过程，可以包括：

将所述第二原始语音信号输入预训练的第四唤醒模型，得到第四唤醒模型输出的唤醒结果，所述唤醒结果包括满足设定唤醒条件或不满足设定唤醒条件；

其中，所述第四唤醒模型为，以标注有是否满足设定唤醒条件的第三训练信号集作为训练数据训练得到，其中，所述第三训练信号集包括：包含环境噪声信号且不包含唤醒词语音的环境噪声训练信号、同时包含环境噪声信号及第二目标语音信号的第三带噪语音训练信号，其中所述第二目标语音信号为模拟的声源与基站上的第二麦克风设备在不同距离、环境下产生的冲击响应与干净唤醒词语音的卷积后的语音信号。

本申请实施例提供的自主移动设备唤醒系统可部署于自主移动设备上或基站上，或同时部署在自主移动设备和基站上，亦或者部署在服务器、云端，以自主移动设备或基站为例，图4示出了自主移动设备或基站的硬件结构框图，参照图4，硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3、至少一个通信总线4和至少一个麦克风设备5；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4、麦克风设备5的数量为至少一个，且处理器1、通信接口2、存储器3、麦克风设备5通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

在本申请的一些实施例中，进一步还提供了一种自主移动设备的基站，该基站上设置有第二麦克风设备和处理器；所述第二麦克风设备用于采集第二原始语音信号；所述处理器获取第二麦克风设备采集的第二原始语音信号，基于所述第二原始语音信号确定是否满足设定唤醒条件，若满足，则向所述自主移动设备发送唤醒指令，以唤醒所述自主移动设备。

其中，所述处理器获取第二麦克风设备采集的第二原始语音信号的过程，包括：

获取所述自主移动设备相对于所述基站的相对位置信息；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种自主移动设备唤醒方法，其特征在于，所述自主移动设备与基站通信，在所述自主移动设备上设置有第一麦克风设备，在所述基站上设置有第二麦克风设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第二麦克风设备采集的第二原始语音信号，包括：

获取所述自主移动设备相对于所述基站的相对位置信息；

3.根据权利要求1所述的方法，其特征在于，在基于第一原始语音信号确定是否满足设定唤醒条件之前，该方法还包括：

基于所述目标比例，从所述第一原始语音信号中确定出降噪后第一语音信号；

所述分别基于所述第一原始语音信号、所述第二原始语音信号确定是否满足设定唤醒条件，包括：

4.根据权利要求3所述的方法，其特征在于，所述降噪模型的训练过程包括：

采用各条训练数据训练降噪模型。

5.根据权利要求4所述的方法，其特征在于，所述对于每一个第一带噪语音训练信号：确定所述干净唤醒词语音在所述第一带噪语音训练信号中所占据的比例，利用所述第一带噪语音训练信号和对应的比例生成一条训练数据，包括：

对于每一个第一带噪语音训练信号：

6.根据权利要求5所述的方法，其特征在于，所述利用预训练的降噪模型处理所述第一原始语音信号，得到降噪模型输出的目标比例，包括：

所述基于所述目标比例，从所述第一原始语音信号中确定降噪后第一语音信号，包括：

7.根据权利要求3-6任一项所述的方法，其特征在于，所述利用预训练的降噪模型处理所述第一原始语音信号，包括：

若确定所述第一原始语音信号为在所述自主移动设备处于工作状态时所采集，则利用预训练的降噪模型处理所述第一原始语音信号；

基于所述降噪后第一语音信号确定是否满足设定唤醒条件的过程，包括：

8.根据权利要求7所述的方法，其特征在于，所述唤醒模型包括第一唤醒模型和第二唤醒模型，所述第一唤醒模型训练过程所使用第一训练信号集中包含自主移动设备在第一工作状态下的自噪声信号，所述第二唤醒模型训练过程所使用第一训练信号集中包含自主移动设备在第二工作状态下的自噪声信号，相比于第二工作状态，在第一工作状态下自主移动设备的自噪声更大；

所述将所述降噪后第一语音信号输入预训练的唤醒模型，包括：

9.根据权利要求1或2所述的方法，其特征在于，若确定所述第一原始语音信号为在所述自主移动设备处于非工作状态时所采集，则基于所述第一原始语音信号确定是否满足设定唤醒条件的过程，包括：

利用预训练的第三唤醒模型处理所述第一原始语音信号，得到第三唤醒模型输出的唤醒结果，所述唤醒结果包括满足设定唤醒条件或不满足设定唤醒条件；

10.根据权利要求1-6任一项所述的方法，其特征在于，基于所述第二原始语音信号确定是否满足设定唤醒条件的过程，包括：

11.一种自主移动设备唤醒系统，其特征在于，所述自主移动设备与基站通信，在所述自主移动设备上设置有第一麦克风设备，在所述基站上设置有第二麦克风设备，该系统包括：

12.一种自主移动设备的基站，其特征在于，所述基站上设置有第二麦克风设备和处理器；

所述第二麦克风设备用于采集第二原始语音信号；

13.根据权利要求12所述的基站，其特征在于，所述处理器获取第二麦克风设备采集的第二原始语音信号的过程，包括：

获取所述自主移动设备相对于所述基站的相对位置信息；