CN111128150A

CN111128150A - 一种唤醒智能语音设备的方法及装置

Info

Publication number: CN111128150A
Application number: CN201911180748.3A
Authority: CN
Inventors: 鲍晴峰; 陈晓松
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-05-08

Abstract

本发明公开一种唤醒智能语音设备的方法及装置，包括以下步骤：当用户发出声音后，同一空间下的多台智能语音设备中各智能语音设备采集所述声音的音频数据；将音频数据上传给云端；通过云端上部署的唤醒引擎对各设备上传的音频数据进行置信度分析，以从各设备中确定出目标设备与用户进行交互。通过将用户声音的音频数据进行采集并且上传到云端进行置信度分析和选择设备，同时在云端上部署唤醒引擎可以使各个设备的参数差异忽略不计，避免了现有技术中由于设备硬件参数不同，内部的唤醒引擎也有很大区别，而不同的唤醒引擎输出的声音会导致唤醒引擎算法无法正常运行，从而无法确定到底哪个设备与用户进行语音交互的问题，提高了唤醒的概率和准确率。

Description

一种唤醒智能语音设备的方法及装置

技术领域

本发明涉及智能语音设备技术领域，尤其涉及一种唤醒智能语音设备的方法及装置

背景技术

语音唤醒技术是语音识别技术中重要分支，语音唤醒技术通过监听用户语音来判断用户是否说出了指定唤醒词来启动设备。现有技术中解决同一空间内多台共享同一唤醒词的智能语音设备与用户交互问题的方法是通过将多台智能语音设备通过本地组网或云端进行协商仲裁，选举唯一的设备，负责和用户进行后续交互，避免多个设备同时应答的混乱场景。但是这种方法存在以下问题：不同硬件参数的智能语音设备，内部的唤醒引擎也有很大区别，而不同的唤醒引擎输出的声音会导致唤醒引擎算法无法正常运行，从而无法确定到底哪个设备与用户进行语音交互。

发明内容

针对上述所显示出来的问题，本方法基于将用户发出的声音通过云端强大的算力来进行置信度分析从而选择出最适合与用户交互的设备来唤醒智能语音设备。

一种唤醒智能语音设备的方法，包括以下步骤：

当用户发出声音后，同一空间下的多台智能语音设备中各智能语音设备采集所述声音的音频数据；

将采集到的音频数据上传给云端；

通过云端上部署的唤醒引擎对各设备上传的音频数据进行置信度分析，以从各设备中确定出目标设备与所述用户进行交互。

优选的，该方法还包括：

在各智能语音设备采集到声音的音频数据之后，对音频数据进行降噪处理；

将进行了降噪处理后的音频数据传输给云端。

优选的，将音频数据上传给所述云端，包括：

确认降噪处理后的音频数据是否为预设唤醒词；

若是，将降噪处理后的音频数据上传给云端；

否则，继续采集声音的音频数据，直到采集到的音频数据确认为预设唤醒词为止。

优选的，通过云端上部署的唤醒引擎对各设备上传的音频数据进行置信度分析，以从各设备中确定出目标设备与用户进行交互，包括：

对降噪处理后的音频数据进行置信度分析，输出用户发出的声音的置信度；

将输出的置信度利用唤醒引擎算法进行计算，选择出与用户交互的目标设备，将选择结果传输给目标设备；

激活所述目标设备以与所述用户进行交互。

优选的，该方法还包括：

将各设备上传的音频数据保存到云端中；

利用音频数据更新唤醒引擎算法。

一种唤醒智能语音设备的装置，该装置包括：

采集模块，用于当用户发出声音后，采集声音的音频数据；

上传模块，用于将采集到的音频数据上传给云端；

确定模块，用于通过云端上部署的唤醒引擎对各设备上传的音频数据进行置信度分析，以从各设备中确定出目标设备与用户进行交互。

优选的，该装置还包括：

降噪模块，用于在采集到声音的音频数据之后，对音频数据进行降噪处理；

传输模块，用于将进行了降噪处理后的音频数据传输给云端。

优选的，所述上传模块，包括：

确认子模块，用于确认降噪处理后的音频数据是否为预设唤醒词；

控制子模块，用于当确认子模块确认降噪处理后的音频数据为预设唤醒词时将降噪处理后的音频数据上传给云端，否则，继续控制采集模块采集声音的音频数据，直到采集到的音频数据确认为预设唤醒词为止。

优选的，确定模块，包括：

分析子模块，用于对降噪处理后的音频数据进行置信度分析，输出用户发出的声音的置信度；

选择子模块，用于将输出的置信度利用唤醒引擎算法进行计算，选择出与用户交互的目标设备，将选择结果传输给目标设备；

激活子模块，用于激活目标设备以与用户进行交互。

优选的，装置还包括：

保存模块，用于将各设备上传的音频数据保存到云端中；

更新模块，用于利用音频数据更新所述唤醒引擎算法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种唤醒智能语音设备的方法工作流程图；

图2为本发明所提供的一种唤醒智能语音设备的方法另一工作流程图；

图3为本发明所提供的一种唤醒智能语音设备的装置结构图；

图4为本发明所提供的一种唤醒智能语音设备的装置另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

语音唤醒技术是语音识别技术中重要分支，语音唤醒技术通过监听用户语音来判断用户是否说出了指定唤醒词来启动设备。现有技术中解决同一空间内多台共享同一唤醒词的智能语音设备与用户交互问题的方法是通过将多台智能语音设备通过本地组网或云端进行协商仲裁，选举唯一的设备，负责和用户进行后续交互，避免多个设备同时应答的混乱场景。但是这种方法存在以下问题：1、智能语音设备的算力不强，无法有效的识别用户发出的声音是否为预设唤醒词而导致误唤醒。2、不同硬件参数的智能语音设备，内部的唤醒引擎也有很大区别，而不同的唤醒引擎输出的声音会导致唤醒引擎算法无法正常运行，从而无法确定到底哪个设备与用户进行语音交互。3、用户发出的声音中与训练模型中的预设唤醒词不匹配，造成大量的误唤醒。为了解决上述问题，本实施例公开了一种稳定的唤醒智能语音设备的方法及装置。

一种唤醒智能语音设备的方法，如图1所示，包括以下步骤：

步骤S101、当用户发出声音后，同一空间下的多台智能语音设备中各智能语音设备采集所述声音的音频数据；

步骤S102、将采集到的音频数据上传给云端；

步骤S103、通过云端上部署的唤醒引擎对各设备上传的音频数据进行置信度分析，以从各设备中确定出目标设备与所述用户进行交互。

上述技术方案的工作原理为：通过各个设备采集用户发出的声音的音频数据，进而将采集的音频数据上传到云端，云端利用唤醒引擎对来分析各个设备上传的音频数据的置信度，从而选择出最适合与用户交互的设备并且激活该设备。

上述技术方案的有益效果为：通过将用户声音的音频数据进行采集并且上传到云端进行置信度分析和选择设备，同时在云端上部署唤醒引擎可以使各个设备的参数差异忽略不计，避免了现有技术中由于设备硬件参数不同，内部的唤醒引擎也有很大区别，而不同的唤醒引擎输出的声音会导致唤醒引擎算法无法正常运行，从而无法确定到底哪个设备与用户进行语音交互的问题，提高了唤醒的概率和准确率。

在一个实施例中，该方法还包括：

将进行了降噪处理后的音频数据传输给云端。

上述技术方案的有益效果为：通过对采集到的音频数据进行降噪处理后，去除了音频数据中的噪音成分，可以更快的对音频数据进行置信度分析，同时也提高了智能语音设备与用户进行交互的概率。使得用户体验更好。

在一个实施例中，将音频数据上传给所述云端，包括：

确认降噪处理后的音频数据是否为预设唤醒词；

若是，将降噪处理后的音频数据上传给云端；

上述技术方案的有益效果为：确认降噪处理后的音频数据是否为预设唤醒词可以省去了由于不是预设唤醒词而上传给云端进行置信度分析，有效的提高了效率，并且可以自动的识别音频数据是否为预设唤醒词，方便而又稳定。

在一个实施例中，如图2所示，通过云端上部署的唤醒引擎对各设备上传的音频数据进行置信度分析，以从各设备中确定出目标设备与用户进行交互，包括：

S201、对降噪处理后的音频数据进行置信度分析，输出用户发出的声音的置信度；

S202、将输出的置信度利用唤醒引擎算法进行计算，选择出与用户交互的目标设备，将选择结果传输给目标设备；

S203、激活所述目标设备以与所述用户进行交互。

上述技术方案的有益效果为：通过对降噪处理后的音频数据进行置信度分析输出用户发出的声音的置信度选择目标设备，利用唤醒引擎算法进行计算可以二次确认目标设备与用户进行交互，相比于现有技术来说，选择设备结果更加高效、准确与稳定。同时，利用云端强大的算力可以解决现有技术中智能语音设备的算力不强，无法有效的识别用户发出的声音是否为预设唤醒词而导致误唤醒的问题。

在一个实施例中，该方法还包括：

将各设备上传的音频数据保存到云端中；

利用音频数据更新唤醒引擎算法。

上述技术方案的有益效果为：将各设备上传的音频数据保存在云端中可以方便云端下次接收到同样的音频数据可以快速的选择出目标设备来进行交互，解决了现有技术中用户发出的声音中与训练模型中的预设唤醒词不匹配，造成大量的误唤醒的问题，同时，针对用户唤醒环境的不同，每次保存后的音频数据都会对唤醒引擎算法进行更新，实现了多元化选择设备，根据不同的唤醒环境选择对应的设备，对于用户来说体验更加完美。

在一个实施例中，包括：

第1步：终端采集原始多通道音频数据，经过前端降噪和终端唤醒引擎，等待用户唤醒；

第2步：终端唤醒后，不立即反馈用户，使用云端仲裁确认最合适的设备，再由该设备响应用户的呼叫。在仲裁过程中，终端将采集到的原始多通道音频数据经过终端的前端降噪后再上传至云端；

第3步：根据产品需求，在云端统一部署唤醒引擎，用于对终端上传的数据进行处理，输出为本次唤醒的置信度，然后根据置信度确认设备是否被唤醒；

第4步：将#3中的输出内容，给到唤醒引擎算法做决策运算，并将决策结果发回终端执行；

第5步：保存上传数据。唤醒算法根据上传数据进行进一步迭代，更加适应用户使用环境；

上述技术方案的工作原理和有益效果为：通过把唤醒词的置信度计算放到云端执行，首先解决了分布式mic落地中遇到的针对不同设备不同引擎模型置信度不可比的问题，其次利用了云端强大的算力，进行了唤醒的端云二次确认机制，提高了整个分布式mic落地能力和最终用户的满意度。最终，通过模型的不断迭代，让最终用户越用越爽。

一种唤醒智能语音设备的装置，如图3所示，该装置包括：

采集模块301，用于当用户发出声音后，采集声音的音频数据；

上传模块302，用于将音频数据上传给云端；

确定模块303，用于通过云端上部署的唤醒引擎对各设备上传的音频数据进行置信度分析，以从各设备中确定出目标设备与用户进行交互。

在一个实施例中，该装置还包括：

在一个实施例中，所述上传模块，包括：

在一个实施例中，如图4所示，确定模块，包括：

分析子模块401，用于对降噪处理后的音频数据进行置信度分析，输出用户发出的声音的置信度；

选择子模块402，用于将输出的置信度利用唤醒引擎算法进行计算，选择出与用户交互的目标设备，将选择结果传输给目标设备；

激活子模块403，用于激活目标设备以与用户进行交互。

在一个实施例中，装置还包括：

保存模块，用于将各设备上传的音频数据保存到云端中；

更新模块，用于利用音频数据更新所述唤醒引擎算法。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种唤醒智能语音设备的方法，其特征在于，包括以下步骤：

将采集到的音频数据上传给云端；

通过所述云端上部署的唤醒引擎对各设备上传的所述音频数据进行置信度分析，以从所述各设备中确定出目标设备与所述用户进行交互。

2.根据权利要求1所述唤醒智能语音设备方法，其特征在于，所述方法还包括：

在所述各智能语音设备采集到所述声音的音频数据之后，对所述音频数据进行降噪处理；

将进行了降噪处理后的音频数据传输给云端。

3.根据权利要求2所述唤醒智能语音设备方法，其特征在于，所述将音频数据上传给所述云端，包括：

确认降噪处理后的音频数据是否为预设唤醒词；

若是，将所述降噪处理后的音频数据上传给所述云端；

否则，继续采集所述声音的音频数据，直到采集到的音频数据确认为所述预设唤醒词为止。

4.根据权利要求3所述唤醒智能语音设备方法，其特征在于，所述通过云端上部署的唤醒引擎对各设备上传的所述音频数据进行置信度分析，以从所述各设备中确定出目标设备与所述用户进行交互，包括：

对所述降噪处理后的音频数据进行置信度分析，输出所述用户发出的声音的置信度；

将所述输出的置信度利用唤醒引擎算法进行计算，选择出与所述用户交互的目标设备，将选择结果传输给目标设备；

激活所述目标设备以与所述用户进行交互。

5.根据权利要求2至4中任一项所述唤醒智能语音设备方法，其特征在于，所述方法还包括：

将所述各设备上传的音频数据保存到所述云端中；

利用所述音频数据更新所述唤醒引擎算法。

6.一种唤醒智能语音设备的装置，其特征在于，该装置包括：

采集模块，用于当用户发出声音后，采集所述声音的音频数据；

上传模块，用于将采集到的音频数据上传给云端；

确定模块，用于通过所述云端上部署的唤醒引擎对各设备上传的所述音频数据进行置信度分析，以从所述各设备中确定出目标设备与所述用户进行交互。

7.根据权利要求6所述唤醒智能语音设备装置，其特征在于，所述装置还包括：

降噪模块，用于在采集到所述声音的音频数据之后，对所述音频数据进行降噪处理；

8.根据权利要求7所述唤醒智能语音设备装置，其特征在于，所述上传模块，包括：

控制子模块，用于当所述确认子模块确认所述降噪处理后的音频数据为所述预设唤醒词时将所述降噪处理后的音频数据上传给所述云端，否则，继续控制所述采集模块采集所述声音的音频数据，直到采集到的音频数据确认为所述预设唤醒词为止。

9.根据权利要求8所述唤醒智能语音设备装置，其特征在于，所述确定模块，包括：

分析子模块，用于对所述降噪处理后的音频数据进行置信度分析，输出所述用户发出的声音的置信度；

选择子模块，用于将所述输出的置信度利用唤醒引擎算法进行计算，选择出与所述用户交互的目标设备，将选择结果传输给目标设备；

激活子模块，用于激活所述目标设备以与所述用户进行交互。

10.根据权利要求7至9中任一项所述唤醒智能语音设备装置，其特征在于，所述装置还包括：

保存模块，用于将所述各设备上传的音频数据保存到所述云端中；

更新模块，用于利用所述音频数据更新所述唤醒引擎算法。