CN107966910A

CN107966910A - 语音处理方法、智能音箱及可读存储介质

Info

Publication number: CN107966910A
Application number: CN201711257882.XA
Authority: CN
Inventors: 杨海霞; 罗清刚
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-04-27
Anticipated expiration: 2037-11-30
Also published as: CN107966910B

Abstract

本发明公开了一种语音处理方法，应用于智能音箱，包括以下步骤：当智能音箱切换至语音采集附件模式时，设定预设智能家居设备发送的伴音信号为回声消除自噪声参考信号；根据预设缓存区设置算法，设置一缓存区，用以存储对应滞后时间长度的所述回声消除自噪声参考信号；基于存储于所述缓冲区的所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理。本发明还公开了一种智能音箱及可读存储介质。本发明提高了作为智能家居设备的语音采集附件的智能音箱对远场语音的唤醒率和识别率。

Description

语音处理方法、智能音箱及可读存储介质

技术领域

本发明涉及智能音箱领域，尤其涉及语音处理方法、智能音箱及可读存储介质。

背景技术

目前市场上的远场语音交互智能音箱主要单独作为一种语音交互智能音箱进行使用，而有些智能音箱产品虽然具备对其它智能家居设备如智能电视的语音指令控制，比如控制电视机的开关机、音量调节等，但这种也仅仅是局限于简单的指令控制，智能音箱充当智能家居设备的一种语音采集附件使用时，智能家居设备发送到智能音箱的伴音信号会成为干扰语音唤醒及识别的自噪声信号，影响智能音箱对远场语音的唤醒率和识别率。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语音处理方法、智能音箱及可读存储介质，旨在解决智能家居设备发送的伴音信号影响智能音箱对远场语音的唤醒率和识别率的问题。

为实现上述目的，本发明提供一种语音处理方法，应用于智能音箱，所述语音处理方法包括以下步骤：

当智能音箱切换至语音采集附件模式时，设定预设智能家居设备发送的伴音信号为回声消除自噪声参考信号；

根据预设缓存区设置算法，设置一缓存区，用以存储对应滞后时间长度的所述回声消除自噪声参考信号；

基于存储于所述缓冲区的所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理。

优选地，所述根据预设缓存区设置算法，设置一缓存区，用以存储对应滞后时间长度的所述回声消除自噪声参考信号的步骤包括：

预置一滞后时间参数；

分别计算在所述滞后时间参数内所述回声消除自噪声参考信号的实际接收数据量、理论接收数据量；

将所述实际接收数据量与所述理论接收数据量进行比较；

若所述实际接收数据量小于所述理论接收数据量，则增加所述滞后时间参数，直至所述实际接收数据量等于所述理论接收数据量。

优选地，所述若所述实际接收数据量小于所述理论接收数据量，则增加所述滞后时间参数，直至所述实际接收数据量等于所述理论接收数据量的步骤之后，还包括：

当所述实际接收数据量等于所述理论接收数据量时，将对应的所述滞后时间参数确定为延时时间长度；

计算所述回声消除自噪声参考信号从所述智能家居设备传输到所述智能音箱的抖动时间长度；

将所述延时时间长度和所述抖动时间长度相加，得到所述滞后时间长度；

根据所述滞后时间长度，设置所述缓存区。

优选地，所述当智能音箱切换至语音采集附件模式时，设定预设智能家居设备发送的伴音信号为回声消除自噪声参考信号的步骤之前包括：

所述智能音箱采集语音信号，并对所述语音信号进行关键词识别；

根据关键词的识别结果及对应的预设模式转换规则，控制所述智能音箱切换至所述语音采集附件模式或者独立使用模式。

优选地，所述控制所述智能音箱切换至所述语音采集附件模式或者独立使用模式的步骤之后包括：

当所述智能音箱进入所述独立使用模式后，设定所述智能音箱的音频反馈信号为回声消除自噪声参考信号；

基于所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理。

优选地，所述基于所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理的步骤包括：

基于所述回声消除自噪声参考信号，所述智能音箱的麦克风阵列按照预设回声消除方案对采集的语音信号进行前段处理。

优选地，所述基于所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理的步骤之后，包括：

基于已进行回声消除自噪声处理的语音信号，生成对应的语音控制请求；

将所述语音控制请求发送至云端服务器；

其中所述云端服务器分别与所述智能音箱、所述智能家居设备通信连接，且所述云端服务器接收到所述语音控制请求后，根据所述语音交互请求匹配对应的智能家居设备控制方案，并向所述智能家居设备下发对应的控制指令。

此外，为实现上述目的，本发明还提供一种智能音箱，所述智能音箱包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理程序，其中：

所述语音处理程序被所述处理器执行时实现如上所述的语音处理方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述计算机可读存储介质上存储有语音处理程序，所述语音处理程序被处理器执行时实现如上所述的语音处理方法的步骤。

本发明实施例提出的一种语音处理方法、智能音箱及可读存储介质，通过当智能音箱切换至语音采集附件模式时，设定预设智能家居设备发送的伴音信号为回声消除自噪声参考信号，并设置一缓存区储存滞后时间长度固定的稳定回声消除自噪声参考信号，进而实现语音信号进行回声消除自噪声处理，有利于提高智能音箱作为智能家居设备的语音采集附件时对远场语音的唤醒率和识别率，提高用户体验。

附图说明

图1a为本发明涉及的一种智能家居系统的结构示意图；

图1b为本发明涉及的另一种智能家居系统的结构示意图；

图2为本发明实施例方案涉及的智能音箱运行环境的结构示意图；

图3为本发明语音处理方法第一实施例的流程示意图；

图4为本发明语音处理方法第一实施例中的步骤S20的细化步骤示意图；

图5为本发明语音处理方法第二实施例的流程示意图；

图6为本发明语音处理方法第三实施例的流程示意图；

图7为本发明语音处理方法第四实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的语音处理方法具体涉及一种智能家居系统，如图1a所示，所述智能家居系统包括智能音箱100、智能家居设备120，所述智能音箱100用于采集语音信号，所述语音信号包括智能音箱100所能采集的在所在空间内的各种语音信号。根据采集的语音信号，智能音箱100单独与用户130进行语音交互，其中，用户130根据自身需求向智能音箱100发出所述语音信号；或者与智能家居设备120通信连接以辅助所述智能家居设备120与用户130进行语音交互，其中，所述智能家居设备120包括但不限于：智能电视、投影仪、影碟机，本实施例中优选为智能电视。智能音箱100与智能家居设备120优选通过WiFi路由器110基于WiFi网络进行通信连接。

优选地，如图1b所示，所述智能家居系统还包括云端服务器140，智能音箱100、智能家居设备120分别与云服务器140通信连接，所述智能音箱100还用于将已识别的语音控制请求上传到所述云端服务器140；云端服务器140根据语音交互请求匹配对应的智能家居设备控制方案，并向所述智能家居设备120下发对应的控制指令。具体的，智能音箱100、智能家居设备120分别通过WiFi路由器110基于WiFi网络与云服务器140进行通信连接。例如，当智能音箱100采集到用户130的语音信息后，识别到该语音信息中包括语音控制请求关键词“打开某视频播放应用程序”及“播放视频”，智能音箱100生成对应的语音控制请求，并通过WiFi路由器将该语音控制请求发送至云端服务器140。云端服务器140将该语音控制请求与后台数据库存储的智能家居设备控制方案进行匹配，找出与该语音控制请求匹配的智能家居设备控制方案，并向智能家居设备120下发对应的控制指令。智能家居设备120根据所述控制指令，打开某视频播放应用程序，并开始播放视频。

如图2所示，图2是本发明实施例方案涉及的智能音箱运行环境的结构示意图，运行环境的结构具体可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图2中示出的运行环境的结构并不构成对智能音箱的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图2所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音处理程序。

在图2所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储语音处理方法程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的语音处理方法程序，还执行以下操作：

预置一滞后时间参数；

将所述实际接收数据量与所述理论接收数据量进行比较；

根据所述滞后时间长度，设置所述缓存区。

将所述语音控制请求发送至云端服务器；

参照图3，本发明第一实施例提供一种语音处理方法，应用于智能家居系统，所述语音处理方法包括以下步骤：

步骤S10，当智能音箱切换至语音采集附件模式时，设定预设智能家居设备发送的伴音信号为回声消除自噪声参考信号；

如图1a、1b所示的智能家居系统中，智能音箱既可以单独使用，也可以拓展作为智能家居设备的语音采集附件设备使用。要实现上述智能家居系统，需要保证智能音箱对远场语音的唤醒率和识别率；而音箱本身产生的音箱音频反馈信号、智能家居设备发送到智能音箱的伴音信号均会成为干扰语音唤醒及识别的自噪声信号。因此本发明各实施例中的语音处理方法的核心思路在于消除上述两类自噪声信号。

在步骤S10之前，智能音箱采集用户发出的语音信号，并对语音信号进行关键词识别，从而自动识别用户的需求和意图；当根据关键词识别结果，判断用户希望智能音箱切换至语音采集附件模式后，执行模式切换。其中所述语音采集附件模式对应的是智能音箱作为智能家居设备的语音采集附件设备。在此模式下，智能音箱与智能家居设备通信连接，通信连接方式可以是有线连接或者无线连接；基于家庭应用的特点，优选使用无线连接方式，例如：WiFi通信、蓝牙通信、ZigBee通信、Threa通信，其中，Zigbee主要用于距离短、功耗低且传输速率不高的各种电子设备之间进行数据传输以及典型的有周期性数据、间歇性数据和低反应时间数据传输的应用；Thread为家庭物联网通讯协定技术。智能家居设备在播放视频的同时将对应的伴音信号发送至智能音箱，此时设定所述伴音信号为回声消除自噪声参考信号。

步骤S20，根据预设缓存区设置算法，设置一缓存区，用以存储对应滞后时间长度的所述回声消除自噪声参考信号；

智能家居设备传输的回声消除自噪声参考信号时间上滞后于智能音箱的麦克风阵列采集到的语音信号，且滞后时间不固定导致难以确定；同时，回声消除自噪声参考信号在传输过程中也存在抖动问题。上述问题使得现有远场语音处理算法中对回声消除自噪音参考信号的处理方式不适用于处于语音采集附件模式的智能音箱。步骤S20的实施主要用于克服上述现有语音处理算法的不足。如图4所示，步骤S20具体实施包括：

步骤S21，预置一滞后时间参数；

步骤S22，分别计算在所述滞后时间参数内所述回声消除自噪声参考信号的实际接收数据量、理论接收数据量；

步骤S23，将所述实际接收数据量与所述理论接收数据量进行比较；

步骤S24，若所述实际接收数据量小于所述理论接收数据量，则增加所述滞后时间参数，直至所述实际接收数据量等于所述理论接收数据量。

具体地，以WiFi通信传输方式举例，首先预置一数值较小的滞后时间参数；根据WiFi传输回声消除自噪声参考信号的数据流量计算在所述滞后时间参数内所述回声消除自噪声参考信号的实际接收数据量，以及根据相关通信理论及接收所述回声消除自噪声参考信号波函数，计算在所述滞后时间参数内所述回声消除自噪声参考信号的理论接收数据量。比较参考信号的实际接收数据量和理论接收数据量，若实际接收数据量小于理论接收数据量，则设置步长以增加预置的滞后时间参数，并重复步骤S22-S23，直至所述实际接收数据量等于所述理论接收数据量。

进一步的，如图4所示，步骤S24之后，还包括：

步骤S25，当所述实际接收数据量等于所述理论接收数据量时，将对应的所述滞后时间参数确定为延时时间长度；

步骤S26，计算所述回声消除自噪声参考信号从所述智能家居设备传输到所述智能音箱的抖动时间长度；

步骤S27，将所述延时时间长度和所述抖动时间长度相加，得到所述滞后时间长度；

步骤S28，根据所述滞后时间长度，设置所述缓存区。

由于需要考虑回声消除自噪声参考信号在传输过程中存在的抖动问题，因此需要计算回声消除自噪声参考信号的抖动时间长度。将所述延时时间长度和所述抖动时间长度相加，得到一个稳定的滞后时间长度，并相应地设置可储存所述滞后时间长度的回声消除自噪声参考信号的缓存区。

在步骤S20之后，执行步骤S30，基于存储于所述缓冲区的所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理。

智能音箱从该缓存区中得到滞后时间长度固定的稳定回声消除自噪声参考信号，继续进行语音信号的回声消除处理，如基于所述回声消除自噪声参考信号，所述智能音箱的麦克风阵列按照预设回声消除方案对采集的语音信号进行前段处理，其中前段处理具体包括：降噪处理、回声抑制、波束成形、声源定位。以及通过自适应滤波器进行相关自噪声信号函数收敛和更新。

在本实施例中，通过智能音箱切换至语音采集附件模式后，设定所述智能家居设备发送的伴音信号为回声消除自噪声参考信号，并设置一缓存区储存滞后时间长度固定的稳定回声消除自噪声参考信号，进而实现语音信号进行回声消除自噪声处理，解决了伴音信号对智能音箱的干扰问题，有利于提高作为智能家居设备的语音采集附件的智能音箱对远场语音的唤醒率和识别率，进而实现本发明提供的智能家居系统，提高用户体验。

进一步地，如图5所示，本发明第二实施例提供一种语音处理方法，基于上述图3所示的实施例，所述步骤S10之前，还包括：

步骤S40，所述智能音箱采集语音信号，并对所述语音信号进行关键词识别；

具体地，所述智能音箱采集用户的语音信号，优选通过智能音箱内部的麦克风阵列直接采集用户的语音信号。在智能音箱工作时，麦克风阵列优选始终处于拾音状态，以持续对声音信号进行采样及量化。在进行基本的信号处理后，如静音检测、降噪处理等，智能音箱的语音识别模块进行语音信号的关键词识别，其中，所述关键词包括反映用户的需求或意图，例如：切换应用程序、听歌、听新闻、看视频、观看电视节目。

步骤S50，根据关键词的识别结果及对应的预设模式转换规则，控制所述智能音箱切换至所述语音采集附件模式或者独立使用模式。

其中，预设模式转换规则可以是将关键词的识别结果与不同模式对应的关键词数据库进行匹配，当某一模式对应的关键词数据库中包含有识别的关键词时，智能音箱的主控单元将智能音箱的工作模式切换到该模式。在本实施例中，智能音箱的切换模式包括语音采集附件模式和独立使用模式；其中，所述独立使用模式与所述语音采集附件模式相对，对应的应用场景是智能音箱单独运行，采集用户的语音信号，与用户进行独立的语音交互，且不作为其他智能家居设备的语音采集附件。

举例来说，当识别的关键词为“听广播新闻”或者“听歌”时，则控制智能音箱切换至独立使用模式，用户通过智能音箱收听广播新闻或者听智能音箱播放的歌曲。当识别的关键词为“看视频”或者“看电视节目”等与电视关联的关键词内容时，则控制智能音箱切换至语音采集附件模式；此时，智能音箱充当智能电视的语音采集附件，通过采集用户的语音信号，实现用户对智能电视的语音交互及控制，如控制智能电视打开某一视频播放应用程序以观看网络视频。

本实施例通过智能音箱识别采集的用户的语音信号中的关键词，将关键词运用于预设的模式转换规则中，实现将智能音箱的工作模式切换至语音采集附件模式或者独立使用模式，使得具备远场语音识别的智能音箱最大程度地拓展应用范围。即智能音箱既可作为音箱产品单独使用，还可以作为智能家居设备的语音采集附件，充分利用智能家居设备的影音硬件，如智能电视的显示屏和扬声器；智能音箱的功能不仅仅局限于语音互动和声音收听，还可以给予用户视频享受，同时对智能音箱来说不必考虑增加扩展的显示屏，也有利于降低使用成本。

进一步地，如图6所示，所述步骤S50之后，还包括：

步骤S60，当所述智能音箱进入所述独立使用模式后，设定所述智能音箱的音频反馈信号为回声消除自噪声参考信号；

步骤S70，基于所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理。

具体的，基于所述回声消除自噪声参考信号，继续进行语音信号的回声消除处理，如基于所述回声消除自噪声参考信号，所述智能音箱的麦克风阵列按照预设回声消除方案对采集的语音信号进行前段处理，其中前段处理具体包括：降噪处理、回声抑制、波束成形、声源定位。以及通过自适应滤波器进行相关自噪声信号函数收敛和更新。需要说明的是，在所述独立使用模式下，回声消除自噪声参考信号通过智能音箱本地线路设计进行传输，信号反馈时间稳定且无抖动。现有的回声消除自噪声算法仅仅需要考虑由于回音路径变化而引起的抖动，因此算法的关注重点主要在于优化自适应滤波器的快速收敛和高度稳定性。

本实施例中，当智能音箱切换至独立使用模式时，将智能音箱的音频反馈信号设定为回声消除自噪声参考信号，并基于该回声消除自噪声参考信号对采集的用户语音信号进行回声消除自噪声处理，有利于提高智能音箱对远场语音的唤醒率和识别率，提高用户的体验。

进一步地，如图7所示，所述S30之后，还包括：

步骤S80，基于已进行回声消除自噪声处理的语音信号，生成对应的语音控制请求；

具体地，本实施例具体应用于如图1b所示的智能家居系统。当智能音箱采集的语音信号进行回声消除自噪声处理后，智能音箱的麦克风阵列按照预设回声消除方案对采集的语音信号进行前段处理，其中前段处理具体包括：降噪处理、回声抑制、波束成形、声源定位。以及通过自适应滤波器进行相关自噪声信号函数收敛和更新。此后，对经过上述系列处理语音信号进行高精度的语音识别，识别出用户对智能家居设备的控制意图或控制需求的关键词，并生成对应的语音控制请求。

步骤S90，将所述语音控制请求发送至云端服务器；

举例来说，当智能音箱识别到经过自噪声消除、前段处理及自适应滤波器处理的语音信息中包括语音控制请求关键词“打开某视频播放应用程序”及“播放视频”，智能音箱生成对应的语音控制请求，并通过WiFi路由器将该语音控制请求发送至云端服务器。云端服务器将该语音控制请求与后台数据库存储的智能家居设备控制方案进行匹配，找出与该语音控制请求匹配的智能家居设备控制方案，并向智能家居设备下发对应的控制指令。智能家居设备根据所述控制指令，打开某视频播放应用程序，并开始播放视频。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音处理程序，所述语音处理程序被处理器执行时实现如下操作：

进一步地，所述语音处理程序被处理器执行时还实现如下操作：

预置一滞后时间参数；

将所述实际接收数据量与所述理论接收数据量进行比较；

根据所述滞后时间长度，设置所述缓存区。

将所述语音控制请求发送至云端服务器。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音处理方法，应用于智能音箱，其特征在于，所述语音处理方法包括以下步骤：

2.如权利要求1所述的语音处理方法，其特征在于，所述根据预设缓存区设置算法，设置一缓存区，用以存储对应滞后时间长度的所述回声消除自噪声参考信号的步骤包括：

预置一滞后时间参数；

将所述实际接收数据量与所述理论接收数据量进行比较；

3.如权利要求1所述的语音处理方法，其特征在于，所述若所述实际接收数据量小于所述理论接收数据量，则增加所述滞后时间参数，直至所述实际接收数据量等于所述理论接收数据量的步骤之后，还包括：

根据所述滞后时间长度，设置所述缓存区。

4.如权利要求1所述的语音处理方法，其特征在于，所述当智能音箱切换至语音采集附件模式时，设定预设智能家居设备发送的伴音信号为回声消除自噪声参考信号的步骤之前包括：

5.如权利要求4所述的语音处理方法，其特征在于，所述控制所述智能音箱切换至所述语音采集附件模式或者独立使用模式的步骤之后包括：

6.如权利要求1或5所述的语音处理方法，其特征在于，所述基于所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理的步骤包括：

7.如权利要求1所述的语音处理方法，其特征在于，所述基于所述回声消除自噪声参考信号，对智能音箱采集的语音信号进行回声消除自噪声处理的步骤之后，包括：

将所述语音控制请求发送至云端服务器；

8.一种智能音箱，其特征在于，所述智能音箱包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理程序，其中：

所述语音处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音处理方法的步骤。

9.一种可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音处理程序，所述语音处理程序被处理器执行时实现如权利要求1至7中任一项所述的语音处理方法的步骤。