CN115567336B

CN115567336B - 一种基于智慧家居的无唤醒语音控制系统及方法

Info

Publication number: CN115567336B
Application number: CN202211190967.1A
Authority: CN
Inventors: 李俊潇; 王阳宣; 彭世伟; 李晓冬
Original assignee: Sichuan Qiruike Technology Co Ltd
Current assignee: Sichuan Qiruike Technology Co Ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2024-04-16
Anticipated expiration: 2042-09-28
Also published as: CN115567336A

Abstract

本发明主要涉及智能控制领域。为了解决智慧家居的语音交互功能在网络延迟或中断的情况下体验感和效率低的问题；以及智慧家居在语音交互中需要先进行语音唤醒才能说出真正的语音控制指令，操作复杂、且抗干扰和识别准确率低的问题，本发明主要基于对智能家居的传统语音交互技术进行改进，提供一种基于智慧家居的无唤醒语音控制系统及方法，通过本发明所提供的语音交互系统对用户语音命令的置信度和声纹匹配概率联合进行分析，判断系统所检测到的语音命令是否为真，再将判别为真的控制命令传送至系统的分布式边缘计算服务站点进行解析，将解析后的命令传送给所要控制的智慧家居，从而达到用语音对智慧家居进行控制的目的。

Description

一种基于智慧家居的无唤醒语音控制系统及方法

技术领域

本发明主要涉及智能控制领域，尤其是涉及一种基于智慧家居的无唤醒语音控制系统及方法。

背景技术

随着人工智能技术和物联网技术的不断发展，智能家居设备的发展也日趋成熟，人机交互从传统的按键交互、触控交互转变为手势交互和语音交互，交互的智能程度越高，智能家居的控制准确率也越高，所以，高效、准确的智能语音识别在智慧家庭领域中越来越重要。

现有的应用于智能家居领域的语音交互技术主要分为两种，第一种是基于语音唤醒和在线语音识别，该方案由于先进行了语音唤醒，可以通过DOA(波达方向估计)预先计算说话人的方位信息，能够准确和完整地采集到说话人的语音控制命令，再通过云上语音识别服务器进行处理和识别，在各种复杂的语音环境下，识别准确率都比较高。但是该方案的缺点也很明显，即需要智能设备连接互联网，当在断网或网络延迟的情况下，语音交互的体验会大大降低；并且每次在控制智能家居设备之前都需要说唤醒词进行唤醒，不够方便和快捷。第二种是基于离线的无唤醒命令词识别的方案，该方案在本地离线运行，且不需要唤醒词直接进行智能家居设备的控制命令词的识别，但是由于没有唤醒模块，在复杂的语音环境中，该方案无法判断采集的语音数据的来源，并且会采集到环境中的随机噪声和无关说话人的干扰，导致识别准确率大大下降，影响了用户体验。

技术方案

本发明所要解决的技术问题：

解决智慧家居的语音交互功能在网络延迟或中断的情况下体验感和效率低的问题；以及智慧家居在语音交互中需要先进行语音唤醒才能说出真正的语音控制指令，操作复杂、且抗干扰能力和识别准确率较低的问题。

本发明解决上述技术问题所采用的技术方案：

一方面，本发明提供一种基于智慧家居的无唤醒语音控制系统，所述系统包括前端语音处理模块、语音识别模块、声纹识别模块、用户语音特征库和分布式边缘计算服务站点；

所述前端语音处理模块，用于拾取环境中的声音信息，进行预处理、提取出人声信息；

所述语音识别模块，用于将前端语音处理模块提取的人声信息转换为计算机能识别的文本信息，判断人声信息中控制命令词的置信度；

所述声纹识别模块，用于识别前端语音处理模块提取的人声信息中不同用户的不同声纹，并将其与用户语音特征库中保存的声纹进行特征对比，得出当前声纹与用户特征语音库中声纹的匹配概率；

所述用户语音特征库，用于保存用户的身份信息、用户控制命令词的声纹特征信息及控制命令词的置信度；

所述分布式边缘计算服务站点，用于将语音识别模块和声纹识别模块联合处理后通过命令词置信度和声纹匹配概率判别为真的控制命令文本进行语义解析和封装、转换为智慧家居能正确识别和执行的控制命令发送给所要控制的智慧家居。

进一步的，所述前端语音处理模块具体用于，拾取环境中的声音，通过自动增益控制、麦克风阵列波束形成、语音自适应降噪得到经过降噪处理后的语音数据，然后经过语音端点检测截取人声，传送给语音识别模块和声纹识别模块。

进一步的，所述语音识别模块通过进行样本训练后的神经网络判断控制命令词的置信度。

进一步的，所述分布式边缘计算服务站点还用于保存智慧家居执行控制命令后的控制状态。

另一方面，本发明还提供一种基于上述系统的智慧家居无唤醒语音控制方法，所述方法包括以下步骤：

步骤1：前端语音处理模块提取环境中的声音信息进行预处理，将人声信息传递给语音识别模块和声纹识别模块；

步骤2：语音识别模块将人声信息输出为数字文本信息，并根据输出的文本信息内容置信度判断识别出的文本信息是否为智慧家居的控制命令词；并同时通过声纹识别模块进行声纹识别，将当前命令词声纹特征和用户语音特征库中保存的命令词声纹特征进行对比，判断匹配概率，识别说话人的身份；

步骤3：语音识别模块和声纹识别模块联合处理后，输出判别为真的智慧家居控制命令，将控制命令发送至分布式边缘计算服务站点进行语义解析和封装后，再通过所述分布式边缘计算服务站点将控制命令发送给所要控制的智慧家居。

进一步的，步骤1中所述预处理步骤具体包括对环境中的声音信息进行自动增益、麦克风波束阵列形成、语音自适应降噪和语音端点人声检测。

进一步的，步骤2的具体流程如下：

若语音识别模块的语音识别结果为空，且语音输出结果置信度为0；该段语音丢弃不做任何处理；

若语音识别模块的语音识别结果不为空，且语音输出结果的置信度大于预设置信度阈值，将文本信息传送至分布式边缘计算机服务站点；同时通过声纹识别模块识别用户的身份，将当前用户的身份信息和当前的命令词声纹特征信息及语音输出结果置信度更新至用户语音特征库；

若语音识别模块的语音识别结果不为空，且语音输出结果置信度大于0且小于预设阈值置信度；则结合用户语音特征库进一步判断，声纹识别模块识别用户的身份并分析出当前命令词的声纹特征，将声纹识别模块输出的结果和用户语音特征库保存的声纹进行对比，判断匹配概率，若匹配概率大于设定的匹配概率阈值，则语音识别结果有效，将文本信息传送至分布式边缘计算机服务站点，反之无效，丢弃该段语音信息。

进一步的，语音识别模块识别出的数字文本信息通过socket通信发送至分布式边缘计算服务站点。

进一步的，智慧家电收到控制命令后，执行相应动作，并同时将控制后的状态返回给分布式边缘计算服务站点进行保存。

本发明的有益效果：

本发明所述的技术方案联合了命令词输出的置信度和声纹特征匹配概率对用户的语音命令进行准确性判断，可以精确判断命令词的内容以及命令词的用户来源，自动丢弃实际与操作指令无关的语音，提高了智慧家居语音交互功能的识别准确率，简化了操作程序，不受网络限制，极大地扩展了智能语音交互应用的场景。

附图说明

图1为本发明所述的一种基于智慧家居的无唤醒语音控制方法流程图。

具体实施方式

本发明主要基于对智能家居的传统语音交互技术进行改进，提供一种基于智慧家居的无唤醒语音控制系统及方法，通过本发明所提供的语音交互系统对用户语音命令的置信度和声纹匹配概率联合进行分析，判断系统所检测到的语音命令是否为真，再将判别为真的控制命令传送至系统的分布式边缘计算服务站点进行解析，将解析后的命令传送给所要控制的智慧家居，从而达到用语音对智慧家居进行控制的目的。

本发明所述的一种基于智慧家居的无唤醒语音控制系统包括前端语音处理模块、语音识别模块、声纹识别模块、用户语音特征库以及分布式边缘计算服务站点；其中，前端语音处理模块通过麦克风阵列采集用户语音，并进行自动增益控制、波达方向估计、自适应波束形成、自动语音降噪、语音端点检测等语音信号处理方式，通过预处理尽可能地抑制环境中的噪声和干扰，提取说话人的语音进行语音识别和声纹识别；语音识别模块将说话人的语音转换为机器能识别的数字文本信息；声纹识别模块根据语音信号中的说话人的声音特征来识别说话人身份；用户语音特征库动态更新用户身份认证ID、对以及应每个用户ID的命令词语音特征模板；分布式边缘计算服务站点将识别后的控制命令发送给智慧家电，对相应的智慧家电进行控制。

如图1所示，本发明所述的无唤醒语音控制方法步骤如下：

步骤一：前端语音处理模块采集采环境中的声音信息，经过自动增益控制、麦克风阵列波束形成、语音自适应降噪得到经过降噪处理后的声音数据，然后经过语音端点检测只截取人声部分，传递给语音识别模块和声纹识别模块进行处理。

步骤二：语音识别模块和声纹识别模块对采集到的用户人声信号进行联合处理，语音识别模块对语音进行语音识别，判断用户人声语音控制指令是否为智慧家居的控制命令词，语音识别模块采用基于神经网络的分类模型，即对预先设定好的若干智能家居控制命令词进行分类，每一次的识别输出结果会有一个概率值，即置信度，用conf_out表示，表示本次识别文本和真实语音对应的文本的匹配程度，置信度越高表示匹配程度越高，反之亦然，其中0≤conf_out≤1；预设置信度conf_k为根据模型和试验确定的置信度阈值边界；声纹识别模块对声音信号进行声纹识别，识别说话人的身份ID，用户当前命令词声纹特征和用户语音特征库匹配概率表示当前语音命令声纹与用户语音特征库中保存的声纹之间的特征匹配程度，用p_out表示，阈值p_k是根据实验结果和经验选取的概率边界；语音识别模块和声纹识别模块对当前语音命令的判断流程具体如下：

将语音识别模块的语音识别结果通过训练的神经网络模型判断置信度，如果语音识别结果为空或者比较后置信度conf_out为0，则表示采集到的用户声音信息不是智慧家居的控制命令词，直接将该段语音丢弃，不做任何处理，智慧家居不响应；

如果语音识别模块的语音识别结果不为空且输出的置信度conf_out大于预设阈值conf_k，则表示采集的语音信号是智能家居控制命令词，则确认输出结果并将结果发送至分布式边缘计算服务站点；同时，通过声纹识别模块识别用户的身份且将用户ID和当前的命令词声纹特征以及语音识别输出结果置信度conf_out更新至用户语音特征库，如果用户语音特征库中没有该位用户，则创建一个用户ID并保存用户命令词声纹特征和语音识别输出的置信度，记为conf_s；如果用户语音特征库中已经存在该用户，则判断保存的置信度和当前命令词的置信度的大小，如果conf_out>conf_s，则更新该用户ID对应的用户命令词声纹特征和当前的置信度conf_s值，如果conf_out<conf_s，则用户语音特征库维持现状；

如果识别结果不为空且输出的置信度conf_out大于0且小于阈值conf_k，则采集的语音信号有一定的概率是智能家居控制命令词，但也有可能是其他语音被误识别，此时需要结合用户语音特征库的声纹信息进一步判断；声纹识别模块识别出用户的身份并识别出当前命令词的语音特征，将声纹识别模块输出的结果和用户语音特征库进行比对，判断匹配概率p_out，若匹配概率p_out大于阈值p_k，则认为语音识别模块输出的识别结果有效，确认输出结果，并将结果发送至分布式边缘计算服务站点；反之则无效，将该段语音丢弃，后续系统不再对该段语音做任何处理和响应。

步骤三：语音识别模块和声纹识别模块联合处理输出正确的智能家居控制命令后，将控制命令发送至边缘计算服务站点进行语义解析，并将解析后的控制命令发送至对应的智慧家电，控制智慧家电进行响应，在智慧家电响应该命令后，将智慧家居当前的控制状态返回给分布式边缘计算服务站点保存便于下次处理。

Claims

1.一种基于智慧家居的无唤醒语音控制系统，其特征在于，所述系统包括前端语音处理模块、语音识别模块、声纹识别模块、用户语音特征库和分布式边缘计算服务站点；

2.根据权利要求1所述的一种基于智慧家居的无唤醒语音控制系统，其特征在于，所述前端语音处理模块具体用于，拾取环境中的声音，通过自动增益控制、麦克风阵列波束形成、语音自适应降噪得到经过降噪处理后的语音数据，然后经过语音端点检测截取人声，传送给语音识别模块和声纹识别模块。

3.根据权利要求1所述的一种基于智慧家居的无唤醒语音控制系统，其特征在于，所述语音识别模块通过进行样本训练后的神经网络判断控制命令词的置信度。

4.根据权利要求1-3任意一项所述的一种基于智慧家居的无唤醒语音控制系统，其特征在于，所述分布式边缘计算服务站点还用于保存智慧家居执行控制命令后的控制状态。

5.一种基于智慧家居的无唤醒语音控制方法，应用于如权利要求1-4任意一项所述的控制系统，其特征在于，所述方法包括以下步骤：

6.根据权利要求5所述的一种基于智慧家居的无唤醒语音控制方法，其特征在于，步骤1中所述预处理步骤具体包括对环境中的声音信息进行自动增益、麦克风波束阵列形成、语音自适应降噪和语音端点人声检测。

7.根据权利要求5所述的一种基于智慧家居的无唤醒语音控制方法，其特征在于，步骤2的具体流程如下：

8.根据权利要求5所述的一种基于智慧家居的无唤醒语音控制方法，其特征在于，语音识别模块识别出的数字文本信息通过socket通信发送至分布式边缘计算服务站点。

9.根据权利要求5-8任意一项所述的一种基于智慧家居的无唤醒语音控制方法，其特征在于，智慧家电收到控制命令后，执行相应动作，并同时将控制后的状态返回给分布式边缘计算服务站点进行保存。