CN114120995A

CN114120995A - 控制方法、语音设备、控制设备、电子设备及存储介质

Info

Publication number: CN114120995A
Application number: CN202111226040.4A
Authority: CN
Inventors: 郝斌
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-03-01

Abstract

本发明属于智能家电技术领域，本发明提供的控制方法、语音设备、控制设备、电子设备及存储介质，该控制方法应用于语音设备，包括：接收待处理音频信号并提取第一音频特征；将第一音频特征输入神经网络模型，获得输出数据，该神经网络模型是基于预设音频信号的第二音频特征训练得到的，所述预设音频信号中的语音信号的第二语音特征与所述预设音频信号的第二音频特征之间的比值为所述第二音频特征的标注值；依据输出数据和第一音频特征，确定待处理音频信号中语音信号的第一语音特征及判别值；上传判别值，若收到返回的控制指令，则执行待处理音频信号对应的处理。通过上述神经网络，可以避免非平稳噪声信号对确定目标语音设备准确。

Description

控制方法、语音设备、控制设备、电子设备及存储介质

技术领域

本发明属于智能家电技术领域，具体涉及一种控制方法、语音设备、控制设备、电子设备及存储介质。

背景技术

目前，语音设备可以通过采集用户的语音信号执行相应的操作。然而，在唤醒语音设备时，若是多个语音设备设置有相同的唤醒词，则在用户输出语音信号时，则可能导致多个设备同时唤醒。

现有技术中，由于声音在传播过程中距离音源越近，采集到的信号能量越高，因此可以通过对多台语音设备接收到的语音信号的能量进行比较，进而确定出目标语音设备。

然而，由于语音设备采集语音信号时，会同时采集到许多非平稳的噪声信号，而传统的降噪算法难以去除这些非平稳的噪声信号，从而使得能量计算不准确，最终确定的目标语音设备出现误差。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术中目标语音设备确定不准确的问题，本发明提供了控制方法、语音设备、控制设备、电子设备及存储介质。

根据本申请实施例的第一方面，本发明提供了一种控制方法，应用于语音设备，该方法包括：

接收待处理音频信号，并提取所述待处理音频信号的第一音频特征，所述待处理音频信号由语音信号以及非平稳噪声信号混合组成；

将所述第一音频特征输入神经网络模型，获得输出数据，其中，所述神经网络模型是基于预设音频信号的第二音频特征训练得到的，所述预设音频信号中的语音信号的第二语音特征与所述预设音频信号的第二音频特征之间的比值为所述第二音频特征的标注值；

依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征，并确定所述第一语音特征对应的判别值；

向控制设备上传所述判别值，若接收到所述控制设备返回的控制指令，则执行所述待处理音频信号对应的处理。

在上述控制方法的优选技术方案中，所述提取所述待处理音频信号的第一音频特征，包括：

对所述待处理音频信号进行短时傅里叶变换处理，得到第一频域信号；

依据所述第一频域信号以及预设的Mel频率转换公式，确定所述待处理音频信号的第一音频特征；

所述依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征，包括：依据所述输出数据以及所述预设的Mel频率转换公式，确定第二频域信号；

依据所述第二频域信号以及所述第一频域信号，确定所述待处理音频信号中的语音信号的第一语音特征。

在上述控制方法的优选技术方案中，所述依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征之后，所述方法还包括：依据预设的语音降噪算法对所述第一语音特征进行降噪处理，得到降噪后的信号；

所述确定所述第一语音特征对应的判别值，包括：

基于所述降噪后的信号以及所述语音设备的校准系数，确定所述第一语音特征对应的频谱能量值，将所述频谱能量值作为所述判别值。

在上述控制方法的优选技术方案中，所述方法还包括：依据所述输出数据以及预设的噪声信号，确定补偿信号，其中，所述噪声信号满足高斯分布；所述依据预设的语音降噪算法对所述第一语音特征进行降噪处理，包括：依据预设的语音降噪算法对所述补偿信号与所述第一语音特征的叠加后的信号，进行降噪处理，得到所述降噪后的信号。

在上述控制方法的优选技术方案中，所述神经网络模型包括：卷积层、循环神经网络层、全连接层以及激活层；所述将所述第一音频特征输入神经网络模型，获得输出数据，包括：将所述第一音频特征输入依次连接的所述卷积层、所述循环神经网络层、所述全连接层以及所述激活层，将所述激活层输出的参数作为所述输出数据。

在上述控制方法的优选技术方案中，所述接收待处理音频信号之前，所述方法还包括：

获取至少两种非平稳噪声信号，并按照预先设定的比例进行叠加处理，得到叠加处理后的噪声信号；所述预先设定的比例可由非平稳噪声信号在预设时间段内的存在时长决定；

对所述处理后的噪声信号以及预设的语音信号进行叠加处理，得到预设音频信号。

根据本申请实施例的第二方面，本发明提供了一种控制方法，应用于控制设备，所述方法包括：

接收多个语音设备上传的判别值，依据预设的判别准则，在多个语音设备中确定目标语音设备，其中，所述判别值为语音设备提取其接收的待处理音频信号的第一音频特征，将所述第一音频特征输入神经网络模型，获得输出数据；并依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征，依据所述第一语音特征确定出的判别值；

向目标语音设备发送控制指令，所述控制指令用于指示所述目标语音设备响应其接收到的待处理音频信号对应的处理。

在上述控制方法的优选技术方案中，所述判别值为频谱能量值；所述依据预设的判别准则，在多个语音设备中确定目标语音设备，包括：从多个语音设备中选取频谱能量值最高的设备作为目标语音设备。

根据本申请实施例的第三方面，本发明提供了一种语音设备，所述语音设备包括：

第一接收单元，用于接收待处理音频信号，并提取所述待处理音频信号的第一音频特征，所述待处理音频信号由语音信号以及非平稳噪声信号混合组成；

第一确定单元，用于将所述第一音频特征输入神经网络模型，获得输出数据，其中，所述神经网络模型是基于预设音频信号的第二音频特征训练得到的，所述预设音频信号中的语音信号的第二语音特征与所述预设音频信号的第二音频特征之间的比值为所述第二音频特征的标注值；依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征，并确定所述第一语音特征对应的判别值；

第一发送单元，用于向控制设备上传所述判别值，若接收到所述控制设备返回的控制指令，则执行所述待处理音频信号对应的处理。

在上述语音设备的优选技术方案中，所述第一接收单元包括：

第一变换模块，用于对所述待处理音频信号进行短时傅里叶变换处理，得到第一频域信号；

第二变换模块，用于依据所述第一频域信号以及预设的Mel频率转换公式，确定所述待处理音频信号的第一音频特征；

所述第一确定单元，包括：

第一确定模块，用于依据所述输出数据以及所述预设的Mel频率转换公式，确定第二频域信号；

第二确定模块，用于依据所述第二频域信号以及所述第一频域信号，确定所述待处理音频信号中的语音信号的第一语音特征。

在上述语音设备的优选技术方案中，所述语音设备，还包括：降噪单元，用于在第一确定单元依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征之后，依据预设的语音降噪算法对所述第一语音特征进行降噪处理，得到降噪后的信号；

所述第一确定单元具体用于，基于所述降噪后的信号以及所述语音设备的校准系数，确定所述第一语音特征对应的频谱能量值，将所述频谱能量值作为所述判别值。

在上述语音设备的优选技术方案中，所述语音设备还包括：

第二确定单元，用于在所述降噪单元，依据预设的语音降噪算法对所述第一语音特征进行降噪处理，将处理后的信号作为所述语音信号的第一语音特征之前，依据所述输出数据以及预设的噪声信号，确定补偿信号，其中，所述噪声信号满足高斯分布；

所述降噪单元具体用于：依据预设的语音降噪算法对所述补偿信号与所述第一语音特征的叠加后的信号，进行降噪处理，得到所述降噪后的信号。

在上述语音设备的优选技术方案中，所述神经网络模型包括：卷积层、循环神经网络层、全连接层以及激活层；所述第一确定单元具体用于将所述第一音频特征输入依次连接的所述卷积层、所述循环神经网络层、所述全连接层以及所述激活层，将所述激活层输出的参数作为所述输出数据。

在上述语音设备的优选技术方案中，所述语音设备还包括：

获取单元，用于在所述第一接收单元接收待处理音频信号之前获取至少两种非平稳噪声信号，并按照预先设定的比例进行叠加处理，得到叠加处理后的噪声信号；所述预先设定的比例可由非平稳噪声信号在预设时间段内的存在时长决定；

处理单元，用于对所述处理后的噪声信号以及预设的语音信号进行叠加处理，得到预设音频信号。

根据本申请实施例的第四方面，本发明提供了一种控制设备，所述控制设备包括：

第二接收单元，用于接收多个语音设备上传的判别值，依据预设的判别准则，在多个语音设备中确定目标语音设备，其中，所述判别值为语音设备提取其接收的待处理音频信号的第一音频特征，并将所述第一音频特征输入神经网络模型，获得输出数据；并依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征，并依据所述第一语音特征确定出的判别值；

第二发送单元，用于向目标语音设备发送控制指令，所述控制指令用于指示所述目标语音设备响应其接收到的待处理音频信号对应的处理。

在上述控制设备的优选技术方案中，所述判别值为频谱能量值；所述第二接收单元具体用于，从多个语音设备中选取频谱能量值最高的设备作为目标语音设备。

根据本申请实施例的第五方面，本发明提供了一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如本申请实施例第一方面任一项所述的控制方法。

根据本申请实施例的第六方面，本发明提供了一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如本申请实施例第二方面任一项所述的控制方法。

根据本申请实施例的第七方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如本申请实施例第一方面任一项所述的控制方法。

根据本申请实施例的第八方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如本申请实施例第二方面任一项所述的控制方法。

根据本申请实施例的第九方面，本发明提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行如本申请实施例第一方面任一项所述的控制方法。

根据本申请实施例的第十方面，本发明提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行如本申请实施例第一方面任一项所述的控制方法。

本领域技术人员能够理解的是，本发明提供的控制方法、语音设备、控制设备、电子设备及存储介质，该控制方法应用于语音设备，包括：接收待处理音频信号，并提取待处理音频信号的第一音频特征，待处理音频信号由语音信号以及非平稳噪声信号混合组成；将第一音频特征输入神经网络模型，获得输出数据，其中，神经网络模型是基于预设音频信号的第二音频特征训练得到的，所述预设音频信号中的语音信号的第二语音特征与所述预设音频信号的第二音频特征之间的比值为所述第二音频特征的标注值；依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征，并确定第一语音特征对应的判别值；向控制设备上传判别值，若接收到控制设备返回的控制指令，则执行待处理音频信号对应的处理。通过上述神经网络，可以避免非平稳噪声信号对确定目标语音设备准确性的影响。

附图说明

下面参照附图来描述本发明的控制方法、语音设备、控制设备、电子设备及存储介质优选实施方式，附图为：

图1为本申请提供的一种应用场景示意图；

图2为本申请实施例提供的一种控制方法的流程示意图；

图3为本申请实施例提供的一种音频信号特征提取的流程示意图；

图4为本申请实施例提供的又一种应用于语音设备的控制方法的流程示意图；

图5为本申请实施例提供的另一种应用于语音设备的控制方法的流程示意图；

图6为本申请实施例提供的一种神经网络模型的训练方法的流程示意图；

图7为本申请实施例提供的一种应用于控制设备的控制方法的流程示意图；

图8为本申请实施例提供的一种控制方法的交互示意图；

图9为本申请实施例提供的一种语音设备的结构示意图；

图10为本申请实施例提供的又一种语音设备的结构示意图；

图11为本申请实施例提供的一种控制设备的结构示意图；

图12为本申请实施例提供的电子设备的示意图。

具体实施方式

首先，本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。本领域技术人员可以根据需要对其作出调整，以便适应具体的应用场合。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个构件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

首先对本发明所涉及的名词进行解释：

1)智能家电设备，是指将微处理器、传感器技术、网络通信技术引入家电设备后形成的家电产品，具有智能控制、智能感知及智能应用的特征，智能家电设备的运作过程往往依赖于物联网、互联网以及电子芯片等现代技术的应用和处理，例如智能家电设备可以通过连接电子设备，实现用户对智能家电设备的远程控制和管理。

2)终端设备，指具有无线连接功能的电子设备，终端设备可以通过连接互联网，与上述的智能家电设备进行通信连接，也可以直接通过蓝牙、wifi等方式与上述的智能家电设备进行通信连接。在一些实施例中，终端设备例如为移动设备、电脑、或悬浮车中内置的车载设备等，或其任意组合。移动设备例如可以包括手机、智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备等，或其任意组合，其中，可穿戴设备例如包括：智能手表、智能手环、计步器等。

3)“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

4)“对应”可以指的是一种关联关系或绑定关系，A与B相对应指的是A与B之间是一种关联关系或绑定关系。

下面对本申请实施例的应用场景进行解释：

目前，随着技术的发展，越来越多的智能家电设备已具有语音控制功能。在同一场景下，当多个智能家电设备中均设置有语音唤醒模块，当用户说出唤醒词时，则此时会有多个设备同时响应用户的语音控制，而实际上用户只希望与一个设备进行交互。

一个示例，为解决上述问题，如图1为本申请提供的一种应用场景示意图。图中可以将多个智能家电设备(此处的智能家电设备可以为洗衣机、油烟机、烘干机、扫地机器人、智能音响等)与同一控制设备(此处的控制设备可以为远程服务器或者云端),当各智能家电设备采集到用户输出的语音信号时，可以提取该语音信号的能量，之后将分析得到的语音信号的能量上传至控制设备，之后控制设备依据接收到的多个语音设备上传的能量进行比较判断，控制设备确定出目标家电设备(即，图中的智能家电设备3)，向确定出的智能家电设备发送确定结果以使该智能家电设备响应用户语音信号对应的处理。

但是，通常在智能家电设备采集用户的语音信号时，都会携带有一些环境噪声，这些噪声可以分为平稳噪声信号和非平稳噪声信号。相关技术中的单通道降噪算法只能去除采集到的音频信号中的平稳噪声信号，而对于非平稳噪声信号而言则无法去除，进而采集到的信号中的噪声信号会影响智能家电设备对于信号能量的判断，进而使得控制设备最终确定得到的目标家电设备不准确。

下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本申请实施例提供的一种控制方法的流程示意图，该方法应用于语音设备，如图2所示，本实施例提供的控制方法包括以下几个步骤：

步骤S201、接收待处理音频信号，并提取待处理音频信号的第一音频特征，待处理音频信号由语音信号以及非平稳噪声信号混合组成。

示例性地，本实施例中的语音设备即可通过语音控制的设备，例如智能洗衣机、智能音响、扫地机器人等。并且，控制设备可以连接互联网，与上述的语音设备进行通信连接，也可以直接通过蓝牙、wifi等方式与上述的语音设备进行通信连接。

具体地，本实施例中的语音设备可用于采集所处环境中的待处理音频信号，其中，该待处理音频信号由用户输出的语音信号以及非平稳噪声信号混合组成。当语音设备采集到上述待处理音频信号时，会对该待处理音频信号进行语音特征提取。

一种可能的实现方式中，可以将该待处理音频信号在时域中的时间与各时间对应的信号幅值作为待处理音频信号的第一音频特征。

另一种可能的实施方式中，由于用户的语音信号与噪声信号在频域中比较容易区分，因此可以将待处理音频信号在频域中的频率与频率对应的幅值作为待处理音频信号的第一音频特征特征。

步骤S202、将第一音频特征输入神经网络模型，获得输出数据，其中，神经网络模型是基于预设音频信号的第二音频特征训练得到的，预设音频信号中的语音信号的第二语音特征与预设音频信号的第二音频特征之间的比值为第二音频特征的标注值。

示例性地，为了去除所采集到的待处理音频信号中的所包含的非平稳的噪声信号，可以将步骤S201中获取的第一音频特征输入预先训练好的神经网络模型中。

其中，该神经网络模型在训练时，是通过预设音频信号的第二音频特征，并将预设音频信号中的语音信号的第二语音特征与预设音频信号的第二音频特征之比作为第二音频特征的标注值，对模型进行训练得到的。具体地，一个示例中可以将上述第二语音特征与第二音频特征之比作为训练过程中的目标函数，通过训练过程中每次输出的数据与目标函数得到损失函数，当损失函数计算得到的损失值小于预设值时，则训练结束，得到训练好的神经网络模型。

步骤S203、依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征，并确定第一语音特征对应的判别值。

示例性地，在获取到神经网络模型的输出数据，即第一语音特征与第一音频特征之间的比值之后，可以直接依据该比值以及输入的待处理音频信号的特征值计算出待处理音频信号中的语音信号的第一语音特征。

在确定出第一语音特征之后，可以依据该第一语音特征计算出该语音信号的特征值。

一个示例中，当输入的第一音频特征为待处理音频信号在时域幅值特征时，此时，得到的第一语音特征即为语音信号在时域的幅值特征，进而依据幅值特征可以计算出该语音信号对应的判别值，例如能量值，或者估计出用户与语音设备之间的距离。

另一个示例中，当输入的第一音频特征为待处理音频信号在频域的幅值特征时，此时，得到的第一语音特征即为语音信号在频域的幅值特征，进而依据幅值特征可以计算出该语音信号对应的判别值，例如能量值，或者估计出用户与语音设备之间的距离。

步骤S204、向控制设备上传判别值，若接收到控制设备返回的控制指令，则执行待处理音频信号对应的处理。

示例性地，当语音设备计算得到判别值之后，会将该判别值上传至与其对应的控制设备。在控制设备接收到多个语音设备上传的判别值之后，依据预设的判别规则在多个语音设备中选择目标语音设备。若语音设备接收到控制设备发送的控制指令，则表明该语音设备被选择为目标语音设备，则语音设备执行待处理音频信号对应的处理。

一个示例中，若语音设备在预设时间内未接收到控制设备发送的控制指令，则表明该语音设备并非用户选定的目标语音设备，则语音设备不执行任何操作。

举例来说，当用户需要使用智能洗衣机清洗衣物时，在向智能洗衣机发送语音指令“开机”，此时处于同一空间的智能音响、扫地机器人同时接收到了该语音指令，并且，各设备在采集用户的声音信息时，同时还采集到很多环境噪声，因此，各设备将采集到的待处理音频信号进行特征提取后输入至预先存储的神经网络模型，并经过模型处理后，确定出该设备采集到的语音信号的语音特征，以及该特征对应的判别值。各设备上传各自的判别值，经过控制设备判断之后，接收到控制设备发送的控制信号的语音设备执行用户的语音指令“开机”，其余语音设备不进行开机处理。

本实施例中，在语音设备接收到待处理音频信号之后，可以对该信号进行特征提取。此时可以选取待处理音频信号时域的特征或者频域的特征输入预先训练好的模型。相比于提取时域的特征，由于干净的语音信号与噪声信号在时域内的特征之间区别较小，而在频域范围内容易区分，因此可选用待处理音频信号时域内的特征输入神经网络模型。或者为了避免提取频域特征时的处理过程，也可直接选用时域的特征。之后，在依据模型输出，在待处理音频信号中提取出第一语音特征，即对待处理音频信号进行去除非平稳噪声的处理，避免了非平稳噪声信号对目标语音设备确定过程的影响，以使后续语音设备确定出的语音信号的第一语音特征对应判别值更为准确，提高了目标语音设备判断的准确性。

在一个实施例中，图3为本申请实施例提供的一种音频信号特征提取的流程示意图。即，在执行图2中的步骤S201中的提取待处理音频信号的第一音频特征时，可以采用以下步骤：

步骤S301、对待处理音频信号进行短时傅里叶变换处理，得到第一频域信号。

步骤S302、依据第一频域信号以及预设的Mel频率转换公式，确定待处理音频信号的第一音频特征。

示例性地，在对待处理音频信号进行特征提取时，首先可以该待处理音频信号进行短时傅里叶变换，将待处理音频信号从时域转换到频域，得到第一频域信号。由于人耳本身存在一系列的临界频带，在同一临界频带中声音容易产生掩蔽效应，即临界频带中的声音信号容易受到能量大且频率接近的另一个信号所掩蔽，导致人无法感受到这个声音信号。并且，人耳对于低频信号的感知灵敏度要高于高频信号。因此，可以将上述频域信号转换到临界频带中，即通过预设的Mel频率(即梅尔频率)转换公式，将频域信号的幅值转换到Bark域信号，并将Bark域信号的幅值作为待处理音频信号的第一音频特征，进而通过上述转换过程，对低频信号进行展宽，对高频信号进行压缩。

本实施例中，将待处理音频信号通过短时傅里叶变换处理以及Mel频率转换后得到的信号作为该待处理音频信号的第一音频特征。相比于直接将短时傅里叶变换后的第一频域信号作为待处理音频信号的第一音频特征，由于信号经过短时傅里叶变换后会变为一个幅值对称的信号，因此，在作Mel频率映射时，只需要对原先信号中一半的幅值进行映射，经过Mel映射后的数据相比于第一频域信号数据量减少，进而减少了模型输入特征的数据量，降低了模型训练的复杂度。

具体的，当采用图3所示的特征提取方法时，此时神经网络模型输出的数据也Bark域的数据，因此需要将该Bark域的输出数据进行转换得到频域的输出数据，即经过步骤S302后会对信号维度进行压缩，因此在得到Bark域的神经网络模型的输出数据时，还需要将该输出数据转换到频域。

即，在执行图2中的步骤依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征时，可采用以下步骤实现：

第一步、依据输出数据以及预设的Mel频率转换公式，确定第二频域信号；

示例性地，在该步骤中，当神经网络模型输入特征为经过Mel频率转换的Bark域特征时，此时，需要将神经网络模型输出的数据依据预设的Mel频率转换公式，将输出数据从Bark域转换到频域，得到输出数据对应的第二频域信号。

第二步、依据第二频域信号以及第一频域信号，确定待处理音频信号中的语音信号的第一语音特征。

示例性地，通过第一步得到的第二频域信号即为待处理音频信号中的语音信号的第一语音特征与第一音频特征(此处即为步骤S301中的第一频域信号)之间的比值，通过该比值以及第一频域信号可以得到语音信号的第一语音特征。

在一些实施例中，由于语音设备采集到的待处理音频信号中不仅包括有语音信号以及非平稳的噪声信号，还会混合有一些平稳的噪声信号。因此，在通过神经网络模型去除待处理音频信号中的非平稳的噪声信号之后，还可以继续对该信号进行降噪处理，已去除待处理音频信号中平稳的噪声信号。图4为本申请实施例提供的又一种应用于语音设备的控制方法的流程示意图，如图4所示，该方法包括以下步骤：

步骤S401、接收待处理音频信号，并提取待处理音频信号的第一音频特征。

步骤S402、将第一音频特征输入神经网络模型，获得输出数据，其中，神经网络模型是将预设音频信号的第二音频特征作为神经网络模型输入，将预设音频信号中的语音信号的第二语音特征与预设音频信号的第二音频特征之比作为神经网络模型的目标输出训练得到的。

步骤S403、依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征。

示例性地，本实施例中步骤S401-步骤S403中的具体原理与图2中的步骤S201-S203的原理类似，此处不再赘述。

步骤S404、依据预设的语音降噪算法对第一语音特征进行降噪处理，得到降噪后的信号。

示例性地，在通过输出数据以及待处理音频信号的第一音频特征得到第一语音特征之后，可继续对该第一语音特征进行降噪处理(例如，可采用维纳滤波、OMLSA(optimally-modified log-spectral amplitude，最优改进对数谱幅度估计)算法等)，以去除第一语音特征中的平稳噪声信号，进而得到降噪处理后的信号。

步骤S405、基于降噪后的信号以及语音设备的校准系数，确定第一语音特征对应的频谱能量值，将频谱能量值作为判别值。

示例性地，在实际应用场景中，由于各语音设备所搭载的音频信号采集装置对于声音信号的灵敏度不同，即使用户与各音频信号采集装置的距离相同，用户输入的语音信号相同时，音频信号采集装置采集到的信号也不同，进而计算出的频谱能量值也不同，影响目标语音设备的判断。因此，语音设备在计算得到语音特征对应的频谱能量时，还需要依据语音设备的校准系数对计算得到的能量值进行校准，并将校准后的能量值发送至控制设备。

具体地，在为每一语音设备设置校准系数时，一种实施方式中，可以将多个语音设备中的音频信号采集装置置于相同环境中(即需使各采集装置与音源之间的距离保持一致，并且音源向各采集装置发出的音频相同)，之后，将通过其中一个采集装置采集到的音频信号计算得到的频谱能量值作为基准，将其余采集装置的频谱能量与该频谱能量的比值作为预设的校准系数。

本步骤中，在得到降噪后的信号之后，确定该降噪后的信号的频谱能量值，并将降噪后的信号的频谱能量值以及语音设备的校准系数确定出的频谱能量值作为第一语音特征对应的频谱能量值，之后将上述频谱能量值作为判别值。

步骤S406、向控制设备上传判别值，若接收到控制设备返回的控制指令，则执行待处理音频信号对应的处理。

示例性地，步骤S406的原理与图2中步骤S203中的原理类似，此处不再赘述。

本实施例中，在通过神经网络模型得到语音信号的第一语音特征之后，还会对该第一语音特征进行传统的平稳噪声的降噪处理，进而避免当采集到的待处理音频信号中混有平稳噪声信号时，影响目标设备的选取的准确性。并且通过为每一语音设备设置校准系数，以避免不同语音设备中的音频采集装置的灵敏度不同时，导致最终上传至控制设备的判别值不准确，进而影响目标语音设备的选取。

在一些实施例中，图5为本申请实施例提供的另一种应用于语音设备的控制方法的流程示意图。如图所示，该方法包括以下步骤：

步骤S501、接收待处理音频信号，并提取待处理音频信号的第一音频特征。

步骤S502、将第一音频特征输入神经网络模型，获得输出数据，其中，神经网络模型是将预设音频信号的第二音频特征作为神经网络模型输入，将预设音频信号中的语音信号的第二语音特征与预设音频信号的第二音频特征之比作为神经网络模型的目标输出训练得到的。

步骤S503、依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征。

示例性地，本实施例中步骤S501-步骤S503中的具体原理与图2中的步骤S201-S203的原理类似，此处不再赘述。

步骤S504、依据输出数据以及预设的噪声信号，确定补偿信号，其中，噪声信号满足高斯分布。

示例性地，本实施例中，由于在通过神经网络模型对待处理音频信号中的非平稳噪声信号进行降噪处理时，会将非平稳噪声中的平稳成分也抑制掉，而其余不存在非平稳噪声的待处理音频信号区间中的平稳成分依然存在，这就会导致噪声谱出现不连续的现象，进而影响对于平稳噪声进行降噪处理的准确性。因此，在进行平稳噪声的降噪处理之前，会通过步骤S504对确定出补偿信号对通过神经网络模型得到的第一语音特征进行叠加处理。

具体的，可以通过神经网络模型输出数据以及预设的噪声信号，得到补偿信号。在实际应用中，补偿信号是由模型的输出数据以及预设的噪声信号做点积后得到的信号。并且该预设的噪声信号为平稳信号，即需要满足高斯分布。

步骤S505、依据预设的语音降噪算法对补偿信号与第一语音特征的叠加后的信号，进行降噪处理，得到降噪后的信号。

示例性地，在通过补偿信号对将第一语音特征进行叠加处理变为连续信号之后，可以对该连续信号进行降噪处理，以去除第一语音特征中的平稳噪声，得到降噪后的信号。

步骤S506、基于降噪后的信号以及语音设备的校准系数，确定第一语音特征对应的频谱能量值，将频谱能量值作为判别值。

步骤S507、向控制设备上传判别值，若接收到控制设备返回的控制指令，则执行待处理音频信号对应的处理。

示例性地，步骤S506与步骤S507的原理与图4中步骤S405与步骤S406中的原理类似，此处不再赘述。

本实施例中，为了避免神经网络模型得到的第一语音特征中的噪声谱不连续而导致后续在对平稳噪声进行降噪处理时，降噪结果不准确，因此需要对该第一语音特征进行叠加处理，即依据预设的噪声信号以及神经网络模型的输出数据产生一个补偿信号，对第一语音特征进行叠加处理，以弥补被神经网络模型去除掉的非平稳噪声信号中的平稳成分。之后，在对叠加后的信号进行降噪处理，并依据降噪处理后的信号确定判别值，以提升目标语音设备选取的准确度。

在一些实施例中，神经网络模型包括：卷积层、循环神经网络层、全连接层以及激活层；在步骤S202时具体的包括：将第一音频特征输入依次连接的卷积层、循环神经网络层、全连接层以及激活层，将激活层输出的参数作为输出数据。

其中，该卷积层用于对输入的第一音频特征进行数据压缩，例如，可以将多帧数据压缩为一帧数据，且压缩后的数据中包括有多帧数据的特征，进而降低模型训练或者应用当中的数据处理量。循环神经网络层可以采用传统的循环神经网络(RNN)或者LSTM或者GRU，此处不做具体限制。此外，该模型中的全连接层可用于将循环神经网络层输出特征的维度降低至与卷积层输入的特征相同的维度。全连接层后的激活层，通过选取激活函数，可用于将全连接层输出的特征映射至一个取值范围较小的区间中，例如(0-1)的区间中，以降低模型计算的复杂度。

举例来说：该神经网络模型结构可以为：

第一层是一维卷积层：

输入参数维度in_channels＝64、输出参数维度out_channels＝64、卷积核尺寸kernel_size＝4；

第二层是LSTM层：

输入参数维度Input_size＝64、隐藏节点数hidden_size＝80；

最后是全连接层和激活层。

输入参数维度Input_size＝80,隐藏节点数hidden_size＝64

最终该神经网络模型输出：64*1的向量。

图6为本申请实施例提供的一种神经网络模型的训练方法的流程示意图。如图6所示，该方法包括以下步骤：

步骤S601、获取至少两种非平稳噪声信号，并按照预先设定的比例进行叠加处理，得到叠加处理后的噪声信号；预先设定的比例可由非平稳噪声信号在预设时间段内的存在时长决定。

示例性地，在获取到至少两种非平稳噪声信号之后，可以按照预先设置的比例将获取地非平稳噪声信号进行混合。其中，预先设置的比例可以按照该非平稳噪声信号在预设时间段中的存在时长决定，例如，在一天中，抽油烟机工作的时长大于扫地机器人工作的时长，则可以抽油烟机的预先设置的比例值则大于扫地机器人的预先设置的比例值。

步骤S602、对处理后的噪声信号以及预设的语音信号进行叠加处理，得到预设音频信号。

示例性地，在步骤S601之后，将步骤S601得到的处理后的噪声信号以及预设的语音信号进行叠加处理，此处预设的语音信号可以为用户发出的开机语音指令，进而得到预设音频信号。

一个示例中，在进行噪声信号以及语音信号的叠加处理时，需要满足预设的信噪比范围，即依据预设的信噪比范围，对处理后的噪声信号以及预设的语音信号进行叠加处理，得到预设音频信号。

在该示例中，在对噪声信号以及语音信号进行叠加处理时，即在执行步骤S602时，具体的，还需要依据预设的信噪比范围对处理后的噪声信号以及预设的语音信号进行叠加处理，以避免噪声信号所占比例较大时，会对语音信号造成干扰。信噪比越大，噪声信号在叠加后的信号中所占的比例越小。例如，可以将信噪比范围设置为[-10，15]dB。

本实施例中，在进行模型训练时，可以将获取到的多种非平稳噪声信号进行叠加处理，并且在叠加时，可以依据非平稳噪声信号在预设时段内的时长确定预设的比例，进而使得非平稳噪声信号按照预设比例进行叠加，进而使得叠加后的噪声信号更加接近于真实环境中的噪声信号。并且在叠加噪声信号以及语音信号时，可以依据预设的信噪比范围进行叠加处理，进而避免噪声信号较大时，影响语音信号的识别。

图7为本申请实施例提供的一种应用于控制设备的控制方法的流程示意图，该方法包括以下步骤：

步骤S701、接收多个语音设备上传的判别值，依据预设的判别准则，在多个语音设备中确定目标语音设备，其中，判别值为语音设备提取其接收的待处理音频信号的第一音频特征，并将第一音频特征输入神经网络模型，获得输出数据；并依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征，并依据第一语音特征确定出的判别值。

步骤S702、向目标语音设备发送控制指令，控制指令用于指示目标语音设备响应其接收到的待处理音频信号对应的处理。

示例性地，本实施例中的控制方法应用于控制设备，其中该控制设备与上述实施例中的语音设备之间可实现通信，且该控制设备可以为控制器或者云端服务器等。该控制设备可用于接收多个语音设备上传的判别值，并依据接收到的判别值以及预先设置好的判别准则，在多个语音设备中选取目标语音设备。并且，在确定出目标语音设备时，可以向目标语音设备发送控制指令，以使得目标语音设备响应其接收到的待处理音频信号。

一个示例中，当判别值为频谱能量值；控制设备可以从多个语音设备中选取频谱能量值最高的设备作为目标语音设备，即预设的判别准则为选取频谱能量值最高的设备。即认为当频谱能量越高，语音设备与用户之间的距离越近。

本实施例中，控制设备通过接收语音设备经神经网络模型处理后的信号对应的判别值，进行目标语音设备的判断。由于神经网络模型可以对其输出的信号中的非平稳信号进行抑制，使得在计算判别值时，不会受到非平稳信号的影响，进而提高目标语音设备判断的准确性。

图8为本申请实施例提供的一种控制方法的交互示意图。如图所示，其中，在该场景中包括语音设备1、语音设备2以及控制设备。该方法包括以下步骤：

步骤S801、语音设备接收待处理音频信号，并提取待处理音频信号的第一音频特征，待处理音频信号由语音信号以及非平稳噪声信号混合组成。

步骤S802、语音设备将第一音频特征输入神经网络模型，获得输出数据。

步骤S803、语音设备依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征，并确定第一语音特征对应的判别值。

步骤S804、语音设备向控制设备上传判别值。

步骤S805、控制设备接收多个语音设备上传的判别值，依据预设的判别准则，在多个语音设备中确定目标语音设备。

步骤S806、向目标语音设备发送控制指令。图中所确定的目标语音设备为语音设备1。

步骤S807、若接收到控制设备返回的控制指令，则执行待处理音频信号对应的处理。

示例性地，本实施例中的步骤S801-S807可以参见图2与图7中的各步骤的原理，此处不再赘述。

图9为本申请实施例提供的一种语音设备的结构示意图，如图9所示，本实施例提供的语音设备包括：

第一接收单元51，用于接收待处理音频信号，并提取待处理音频信号的第一音频特征，待处理音频信号由语音信号以及非平稳噪声信号混合组成；

第一确定单元52，用于将第一音频特征输入神经网络模型，获得输出数据，其中，神经网络模型是基于预设音频信号的第二音频特征训练得到的，预设音频信号中的语音信号的第二语音特征与预设音频信号的第二音频特征之间的比值为第二音频特征的标注值；依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征，并确定第一语音特征对应的判别值；

第一发送单元53，用于向控制设备上传判别值，若接收到控制设备返回的控制指令，则执行待处理音频信号对应的处理。

图10为本申请实施例提供的又一种语音设备的结构示意图，如图10所示，在图9所示的装置的基础上语音设备的优选技术方案中，

第一接收单元51包括：

第一变换模块511，用于对待处理音频信号进行短时傅里叶变换处理，得到第一频域信号；

第二变换模块512，用于依据第一频域信号以及预设的Mel频率转换公式，确定待处理音频信号的第一音频特征；

第一确定单元52，包括：

第一确定模块521，用于依据输出数据以及预设的Mel频率转换公式，确定第二频域信号；

第二确定模块522，用于依据第二频域信号以及第一频域信号，确定待处理音频信号中的语音信号的第一语音特征。

在上述语音设备的优选技术方案中，语音设备，还包括：降噪单元54，用于在第一确定单元52依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征之后，依据预设的语音降噪算法对第一语音特征进行降噪处理，得到降噪后的信号；

第一确定单元具体用于，基于降噪后的信号以及语音设备的校准系数，确定第一语音特征对应的频谱能量值，将频谱能量值作为判别值。

在上述语音设备的优选技术方案中，语音设备还包括：

第二确定单元55，用于在降噪单元54，依据预设的语音降噪算法对第一语音特征进行降噪处理，将处理后的信号作为语音信号的第一语音特征之前，依据输出数据以及预设的噪声信号，确定补偿信号，其中，噪声信号满足高斯分布；

降噪单元具体用于：依据预设的语音降噪算法对补偿信号与第一语音特征的叠加后的信号，进行降噪处理，得到降噪后的信号。

在上述语音设备的优选技术方案中，神经网络模型包括：卷积层、循环神经网络层、全连接层以及激活层；第一确定单元52具体用于将第一音频特征输入依次连接的卷积层、循环神经网络层、全连接层以及激活层，将激活层输出的参数作为输出数据。

在上述语音设备的优选技术方案中，语音设备还包括：

获取单元56，用于在第一接收单元51接收待处理音频信号之前获取至少两种非平稳噪声信号，并按照预先设定的比例进行叠加处理，得到叠加处理后的噪声信号；预先设定的比例可由非平稳噪声信号在预设时间段内的存在时长决定；

处理单元57，用于对处理后的噪声信号以及预设的语音信号进行叠加处理，得到预设音频信号。

图11为本申请实施例提供的一种控制设备的结构示意图，如图11所示，本实施例提供的控制设备包括：

第二接收单元61，用于接收多个语音设备上传的判别值，依据预设的判别准则，在多个语音设备中确定目标语音设备，其中，判别值为语音设备提取其接收的待处理音频信号的第一音频特征，并将第一音频特征输入神经网络模型，获得输出数据；并依据输出数据以及待处理音频信号的第一音频特征，确定待处理音频信号中的语音信号的第一语音特征，并依据第一语音特征确定出的判别值；

第二发送单元62，用于向目标语音设备发送控制指令，控制指令用于指示目标语音设备响应其接收到的待处理音频信号对应的处理。

在上述控制设备的优选技术方案中，判别值为频谱能量值；第二接收单元61具体用于，从多个语音设备中选取频谱能量值最高的设备作为目标语音设备。

相关说明可以对应参见图2-图6所对应的实施例中的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

本实施例提供的控制设备可以执行如图2-图6所示的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图12为本申请实施例提供的电子设备的示意图，如图12所示，本实施例提供的电子设备包括：存储器701，处理器702以及计算机程序。

其中，计算机程序存储在存储器701中，并被配置为由处理器702执行以实现本发明图2-图10所对应的实施例中任一实施例提供的控制方法。

其中，存储器701和处理器702通过总线703连接。

本发明一个实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现本发明图2-图6所对应的实施例中任一实施例提供的控制方法。

本发明一个实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现本发明图7所对应的实施例提供的控制方法。

其中，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行以实现本发明图2-图6所对应的实施例中任一实施例提供的控制方法。

本发明提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行以实现本发明图7所对应的实施例中提供的控制方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内

Claims

1.一种控制方法，其特征在于，应用于语音设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取所述待处理音频信号的第一音频特征，包括：

所述依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征，包括：

依据所述输出数据以及所述预设的Mel频率转换公式，确定第二频域信号；

3.根据权利要求1所述的方法，其特征在于，依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征之后，所述方法还包括：

依据预设的语音降噪算法对所述第一语音特征进行降噪处理，得到降噪后的信号；

所述确定所述第一语音特征对应的判别值，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

依据所述输出数据以及预设的噪声信号，确定补偿信号，其中，所述噪声信号满足高斯分布；

所述依据预设的语音降噪算法对所述第一语音特征进行降噪处理，包括：

依据预设的语音降噪算法对所述补偿信号与所述第一语音特征的叠加后的信号，进行降噪处理，得到所述降噪后的信号。

5.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括：卷积层、循环神经网络层、全连接层以及激活层；所述将所述第一音频特征输入神经网络模型，获得输出数据，包括：

将所述第一音频特征输入依次连接的所述卷积层、所述循环神经网络层、所述全连接层以及所述激活层，将所述激活层输出的参数作为所述输出数据。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述接收待处理音频信号之前，所述方法还包括：

对所述处理后的噪声信号以及预设语音信号进行叠加处理，得到预设音频信号。

7.一种控制方法，其特征在于，应用于控制设备，所述方法包括：

接收多个语音设备上传的判别值，并依据预设的判别准则，在多个语音设备中确定目标语音设备，其中，所述判别值为语音设备提取其接收的待处理音频信号的第一音频特征，将所述第一音频特征输入神经网络模型，获得输出数据；并依据所述输出数据以及所述待处理音频信号的第一音频特征，确定所述待处理音频信号中的语音信号的第一语音特征，依据所述第一语音特征确定出的判别值；

向目标语音设备发送控制指令，所述控制指令用于指示所述目标语音设备执行其接收到的待处理音频信号对应的处理。

8.一种语音设备，其特征在于，包括：

9.一种控制设备，其特征在于，包括：

第二发送单元，用于向目标语音设备发送控制指令，所述控制指令用于指示所述目标语音设备执行其接收到的待处理音频信号对应的处理。

10.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-6中任一项所述的方法。