CN112349282A

CN112349282A - 语音控制系统、语音处理方法及外部设备

Info

Publication number: CN112349282A
Application number: CN201910733408.2A
Authority: CN
Inventors: 陈孝良; 邵福阳; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2021-02-09

Abstract

本发明提供了一种语音控制系统、语音处理方法及外部设备，为具有语音传输、处理和控制功能的智能设备外接外部设备，外部设备利用麦克风阵列可以采集远场语音数据，并将预处理后的语音数据发送至智能设备，智能设备对接收到的语音数据进行识别，并在识别到唤醒词后将后续语音数据发送至云端服务器，云端服务器对接收到的语音数据进行识别和转换处理，生成控制指令并反馈至智能设备，智能设备依据控制指令执行相应的操作。其中，智能设备完全可以通过系统更新获取语音传输、处理和控制功能，可见，应用本发明公开的语音控制系统，用户不需要通过更换智能设备，仅需要对智能设备进行系统更新并连接外部设备，就可以实现对智能设备的语音控制。

Description

语音控制系统、语音处理方法及外部设备

技术领域

本发明涉及通信技术领域，更具体的，涉及一种语音控制系统、语音处理方法及外部设备。

背景技术

随着网络技术的发展以及设备的智能化，智能设备的功能日趋复杂化，人们期望与智能设备之间进行更加直接的交互，比如语音控制，因此，具有语音控制功能的智能设备应运而生。

但是，由于智能设备，如IPTV电视，智能空调等的更新换代较慢，目前还有很多智能设备不具备实现语音控制所需的硬件，若用户想要体验对智能设备的语音控制功能，则需要更换智能设备，为用户带来了极大的体验成本。

发明内容

有鉴于此，本发明提供了一种语音控制系统、语音处理方法及外部设备，在无需更换智能设备的基础上，就可以体验对智能设备的语音控制。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种语音控制系统，包括外部设备、智能设备和云端服务器，其中，所述外部设备包括麦克风阵列，所述智能设备所述外部设备与所述智能设备有线通讯连接；

所述外部设备，用于利用所述麦克风阵列采集语音数据，对采集到的语音数据进行预处理，并将预处理后的语音数据发送至所述智能设备；

所述智能设备，用于对接收到的语音数据进行识别，并在识别到唤醒词的情况下，将在所述唤醒词之后预设时间段内接收到的语音数据发送至所述云端服务器；

所述云端服务器，用于对接收到的语音数据进行识别和转换处理，生成控制指令，并将所述控制指令反馈至所述智能设备；

所述智能设备，还用于依据所述控制指令执行相应的操作。

可选的，所述外部设备包括：

预处理单元，用于对采集到的语音数据进行降噪处理。

可选的，所述预处理单元，还用于对降噪处理后的语音数据进行增强处理。

可选的，所述麦克风阵列中的麦克风呈扇形排列。

可选的，所述外部设备通过USB接口与所述智能设备通讯连接。

可选的，所述智能设备为IPTV电视。

可选的，所述智能设备包括机顶盒和终端设备；

所述机顶盒，用于对接收到的语音数据进行识别，并在识别到唤醒词的情况下，将在所述唤醒词之后预设时间段内接收到的语音数据发送到所述云端服务器；

所述云端服务器，用于对接收到的语音数据进行识别和转换处理，生成控制指令，并将所述控制指令反馈至所述机顶盒；

所述机顶盒，还用于依据所述控制指令对所述终端设备进行相应控制；

所述终端设备，用于在所述机顶盒的控制下执行相应操作。

可选的，所述机顶盒为电视机顶盒，所述终端设备为电视。

一种语音处理方法，应用于外部设备，所述外部设备包括麦克风阵列，所述外部设备与智能设备有线通讯连接，所述智能设备具有语音传输、处理和控制功能，所述方法包括：

利用麦克风阵列采集语音数据；

对采集到的语音数据进行预处理；

将预处理后的语音数据发送至所述智能设备。

可选的，所述对采集到的语音数据进行预处理，包括：

对采集到的语音数据进行降噪处理。

可选的，所述对采集到的语音数据进行预处理，包括：

对降噪处理后的语音数据进行增强处理。

可选的，所述将预处理后的语音数据发送至所述智能设备，包括：

将预处理后的语音数据通过USB接口发送至所述智能设备。

一种外部设备，包括：麦克风阵列、存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于运行所述程序，当所述处理器运行所述程序时，所述处理器实现了如下语音处理方法：

利用麦克风阵列采集语音数据；

对采集到的语音数据进行预处理；

将预处理后的语音数据发送至所述智能设备。

相对于现有技术，本发明的有益效果如下：

本发明公开的语音控制系统，为具有语音传输、处理和控制功能的智能设备外接外部设备，外部设备利用麦克风阵列可以采集远场语音数据，并将预处理后的语音数据发送至智能设备，使智能设备可以依据语音数据进行语音传输、处理和控制，其中，智能设备完全可以通过系统更新获取语音传输、处理和控制功能，可见，应用本发明公开的语音处理方法，用户不需要通过更换智能设备，仅需要对智能设备进行系统更新并连接外部设备，就可以实现对智能设备的语音控制。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种语音控制系统的结构示意图；

图2为本发明实施例公开的一种语音控制系统的示例结构图；

图3为本发明实施例公开的另一种语音控制系统的示例结构图；

图4为本发明实施例公开的又一种语音控制系统的示例结构图；

图5为本发明实施例公开的一种语音处理方法的流程示意图；

图6为本发明实施例公开的一种外部设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人通过对现有的具有语音控制功能的智能设备进行研究发现：具有语音控制功能的智能设备中安装有普通智能设备所不具有的硬件设备。以智能设备为具有语音控制功能的机顶盒和IPTV电视为例，语音控制功能的实现方式一般为：蓝牙语音遥控器+具有语音处理模块和蓝牙模块的IPTV电视或机顶盒。其中，遥控器采集语音数据，并通过蓝牙将采集到的语音数据传送到具有蓝牙模块的IPTV电视或机顶盒，IPTV电视或机顶盒将语音数据传送至云端服务器，云端服务器识别完成后，将结果传回IPTV电视或机顶盒，达到控制电视的目的。

现有技术中实现对电视的语音控制有如下缺点：

首先，现有技术中实现对电视的语音控制的必备要素为：具有蓝牙语音功能的遥控器和具有蓝牙模块和语音传输功能的IPTV电视或机顶盒，可见，实现对电视的语音控制功能的必备硬件为具有蓝牙语音功能的遥控器以及IPTV电视或机顶盒中的蓝牙模块。因此，出厂时不具备蓝牙模块的机顶盒或IPTV电视无法实现语音控制功能。

其次，现有技术中采集语音数据依然无法摆脱遥控器，如果多人分别与电视进行语音交互时，由于遥控器数量的限制，遥控器需要在多人手中来回传递，为用户造成了极大的不便。

再次，现有技术中通过遥控器采集语音数据只能采集近场语音，无法采集远场语音数据。

为此，发明实施例提供了一种语音控制系统，请参阅图1，语音控制系统包括外部设备100、智能设备200和云端服务器300。

其中，外部设备100与智能设备200有线通讯连接，如外部设备100可以通过USB接口与智能设备200通讯连接，智能设备200还可以通过USB接口为外部设备供电。

外部设备100包括麦克风阵列，由于用户一般情况是正对着或侧对着电视机，根据用户的一般使用习惯，外部设备100的麦克风阵列可以包括3～4个麦克风，多个麦克风呈扇形排列，分别采集不同方向的远场语音数据，实现了对远场语音数据的采集。

外部设备100用于利用麦克风阵列采集语音数据，对采集到的语音数据进行预处理，并将预处理后的语音数据发送至智能设备200。

智能设备200可以为IPTV电视、电视机顶盒+电视、智能空调、智能冰箱、智能洗衣机、智能安防设备、智能影音设备等。

智能设备200内置有集成了语音唤醒识别算法的模块，语音唤醒识别算法用于对接收到的语音数据进行识别，智能设备200在识别到唤醒词的情况下，将唤醒词之后预设时间段内接收到的语音数据发送至云端服务器300。

在智能设备识别到唤醒词之后的预设时间段内用户发出的语音数据可以不需要包含唤醒词就可以实现对智能设备的语音控制，如预设时间为30秒，则用户在发出包含唤醒词的语音数据之后的30秒内发出的语音数据中即使不包含唤醒词，这些语音数据也会通过智能设备发送至云端服务器生成相应的控制指令，实现对智能设备的语音控制，避免用户在对智能设备进行语音控制时需要频繁使用唤醒词，提升了用户体验。

其中，预设时间段的时长可以根据智能设备的类型和实际需求进行设定。

如智能设备为IPTV电视，外部设备100发送到智能设备200的语音数据为“电视电视，播放XXX电影”，其中，唤醒词为“电视电视”，当智能设备200识别到“电视电视”后，将“播放XXX电影”发送至云端服务器300。

云端服务器300对接收到的语音数据进行识别和转换处理，生成用于控制终端设备的控制指令，并将该控制指令反馈至智能设备200。

如云端服务器300将语音数据“播放XXX电影”进行识别和转换处理，生成控制指令“播放XXX电影”，并将该指令反馈至智能设备200。

为了进一步对本实施例公开的语音控制系统进行说明，以下通过个示例进行举例说明。

示例一

智能设备为IPTV电视，请参阅图2，语音控制系统包括外部设备、IPTV电视和云端服务器。外部设备采集用户发出的语音数据“电视电视，播放XXX电影”，对语音数据进行预处理后发送到IPTV电视，IPTV电视对语音数据“电视电视，播放XXX电影”进行识别，识别到唤醒词“电视电视”，将语音数据“播放XXX电影”发送至云端服务器，云端服务器对语音数据“播放XXX电影”进行识别和转换处理，生成控制指令“播放XXX电影”，并将该指令反馈至IPTV电视，IPTV电视执行该控制指令，播放XXX电影。

示例二

智能设备为电视机顶盒+电视，请参阅图3，语音控制系统包括外部设备、电视机顶盒、电视和云端服务器。外部设备采集用户发出的语音数据“电视电视，播放XXX电影”，对语音数据进行预处理后发送到电视机顶盒，电视机顶盒对语音数据“电视电视，播放XXX电影”进行识别，识别到唤醒词“电视电视”，将语音数据“播放XXX电影”发送至云端服务器，云端服务器对语音数据“播放XXX电影”进行识别和转换处理，生成控制指令“播放XXX电影”，并将该指令反馈至电视机顶盒，电视机顶盒依据该控制指令对电视进行相应控制，电视在电视机顶盒的控制下播放XXX电影。

示例三

智能设备为智能空调，请参阅图4，语音控制系统包括外部设备、智能空调和云端服务器。外部设备采集用户发出的语音数据“空调空调，把温度调到26度”，对语音数据进行预处理后发送到智能空调，智能空调对语音数据“空调空调，把温度调到26度”进行识别，识别到唤醒词“空调空调”，将语音数据“把温度调到26度”发送至云端服务器，云端服务器对语音数据“把温度调到26度”进行识别和转换处理，生成控制指令“设定温度为26度”，并将该指令反馈至智能空调，智能空调执行该控制指令，将温度设定为26度。

进一步的，为了使采集到的语音数据能够更加清晰的传输至智能设备，需要对采集到的语音数据进行预处理。在此基础上，外部设备100包括预处理单元，用于对采集到的语音数据进行预处理。

智能设备所在的环境可能存在噪音，因此外部设备采集到的语音数据可能带有噪音，为了得到更加清晰的语音数据，需要对采集到的语音数据进行降噪处理，降噪算法可以为rnnoise降噪算法、最小值跟踪噪声估计、MCRA、IMCRA等。

进一步的，还可以对采集到的语音数据进行增强处理，增强处理算法可以为基于谱减法的语音增强处理方法、自适应滤波法的语音增强处理方法、短时对数普的MMSE语音增强处理方法等。

可见，本实施例公开的语音控制系统，为具有语音传输、处理和控制功能的智能设备外接外部设备，外部设备利用麦克风阵列可以采集远场语音数据，并将预处理后的语音数据发送至智能设备，使智能设备可以依据语音数据进行语音传输、处理和控制，其中，智能设备完全可以通过系统更新获取语音传输、处理和控制功能，可见，应用本发明公开的语音处理方法，用户不需要通过更换智能设备，仅需要对智能设备进行系统更新并连接外部设备，就可以实现对智能设备的语音控制。

同时，本实施例公开的语音控制方法，在实现对智能设备的语音控制的场景中，摆脱了遥控器，当多用户分别与是能设备进行语音交互时，用户可以在各自所在的位置上依次与智能设备进行语音交互即可，不需要传递遥控器，提升了用户体验。

基于上述实施例公开的语音控制系统，请参阅图5，本实施例公开了一种语音处理方法，应用于外部设备，外部设备包括麦克风阵列，外部设备与智能设备有线通讯连接，智能设备具有语音传输、处理和控制功能，所述方法包括：

S501：利用麦克风阵列采集语音数据；

S502：对采集到的语音数据进行预处理；

对采集到的语音数据进行预处理，具体为对采集到的语音数据进行降噪处理和增强处理。

S503：将预处理后的语音数据发送至所述智能设备。

具体的，利用外部设备与智能设备之间的有线通讯方式将预处理后的语音数据发送至智能设备，如通过外部设备的USB接口将预处理后的语音数据发送至智能设备。

本实施例公开的语音处理方法，为具有语音传输、处理和控制功能的智能设备外接外部设备，外部设备利用麦克风阵列可以采集远场语音数据，并将预处理后的语音数据发送至具有语音传输、处理和控制功能的智能设备，使智能设备可以依据语音数据进行语音传输处理和控制。

请参阅图6，本实施例还公开了一种外部设备，包括：麦克风阵列101、存储器102和处理器103。

其中，麦克风阵列101可以包括3～4个麦克风，呈扇形排列，分别采集不同方向的远场语音数据，如可以采集正对着智能设备的用户发出的语音数据，也可以采集侧对着智能设备的用户发出的语音数据。

存储器102用于存储程序。

处理器103用于运行上述程序，当处理器103运行上述程序时，处理器303实现了如下语音处理方法：

利用麦克风阵列采集语音数据；

对采集到的语音数据进行预处理；

将预处理后的语音数据发送至智能设备。

进一步，所述对采集到的语音数据进行预处理，包括：

对采集到的语音数据进行降噪处理。

进一步，所述对采集到的语音数据进行预处理，包括：

对降噪处理后的语音数据进行增强处理。

进一步，所述将预处理后的语音数据发送至所述智能设备，包括：

将预处理后的语音数据通过USB接口发送至所述智能设备。

若要实现对智能设备进行语音控制，在硬件方面，本发明只需增加一个外部设备，相对于现有技术若要实现对智能设备进行语音控制需要更换智能设备，增加外部设备成本显然更加低廉，大幅度降低了用户在实现对智能设备的语音控制所需的硬件成本。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音控制系统，其特征在于，包括外部设备、智能设备和云端服务器，其中，所述外部设备包括麦克风阵列，所述外部设备与所述智能设备有线通讯连接；

所述智能设备，还用于依据所述控制指令执行相应的操作。

2.根据权利要求1所述的语音控制系统，其特征在于，所述外部设备包括：

预处理单元，用于对采集到的语音数据进行降噪处理。

3.根据权利要求2所述的语音控制系统，其特征在于，

所述预处理单元，还用于对降噪处理后的语音数据进行增强处理。

4.根据权利要求1所述的语音控制系统，其特征在于，所述麦克风阵列中的麦克风呈扇形排列。

5.根据权利要求1所述语音控制系统，其特征在于，所述外部设备通过USB接口与所述智能设备通讯连接。

6.根据权利要求1所述的语音控制系统，其特征在于，所述智能设备为IPTV电视。

7.根据权利要求1所述语音控制系统，其特征在于，所述智能设备包括机顶盒和终端设备；

所述终端设备，用于在所述机顶盒的控制下执行相应操作。

8.根据权利要求7所述的语音控制系统，其特征在于，所述机顶盒为电视机顶盒，所述终端设备为电视。

9.一种语音处理方法，其特征在于，应用于外部设备，所述外部设备包括麦克风阵列，所述外部设备与智能设备有线通讯连接，所述智能设备具有语音传输、处理和控制功能，所述方法包括：

利用麦克风阵列采集语音数据；

对采集到的语音数据进行预处理；

将预处理后的语音数据发送至所述智能设备。

10.一种外部设备，其特征在于，包括：麦克风阵列、存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于运行所述程序，当所述处理器运行所述程序时，所述处理器实现了权利要求9所述的语音处理方法。