CN109461449A

CN109461449A - 用于智能设备的语音唤醒方法及系统

Info

Publication number: CN109461449A
Application number: CN201811645764.0A
Authority: CN
Inventors: 彭文超
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-03-12
Anticipated expiration: 2038-12-29
Also published as: CN109461449B

Abstract

本发明实施例提供一种用于智能设备的语音唤醒方法。该方法包括：通过智能设备内置的多路麦克实时采集音频声源，对音频声源做回声消除，确定消除后的多路音频；通过对预设的目标角度区间进行波束形成，对多路音频在目标角度区间进行音频增强；对增强音频进行后置滤波处理，判断后置滤波后的增强音频是否命中智能设备的唤醒词，当命中智能设备的唤醒词时，通过波达方向估计音频声源的角度信息；当音频声源的角度信息处于预设的目标角度区间内时，唤醒智能设备。本发明实施例还提供一种用于智能设备的语音唤醒系统。本发明实施例有效的抑制其他方向的噪声，降低噪声对唤醒率的影响，提高识别效果，有效的抑制了对其他的智能设备的误唤醒。

Description

用于智能设备的语音唤醒方法及系统

技术领域

本发明涉及语音唤醒领域，尤其涉及一种用于智能设备的语音唤醒方法及系统。

背景技术

智能电视由于使用方便，交互性较好等特性，逐渐受到消费者的青睐。打开购物软件中，即可看到各种类型的智能电视。但是由于每个消费者购物习惯的不同，还是有一部分人喜欢去线下的卖场中去购买。在卖场中，卖场的导购会向消费者展示智能电视的特殊功能，例如，语音交互功能。

在向消费者展示语音交互功能时，需要对智能电视机进行唤醒。唤醒后向消费者展示各智能电视特有的功能。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

智能电视在家居的环境下，环境的噪声比较小，不会影响识别效果，但是在卖场进行销售时，环境中的噪声比较大，这样使得智能电视机无法在卖场噪声环境中较好的发挥其功能，会影响消费者的体验，进而影响智能电视的销量。同时，由于卖场中的智能电视机较多，都摆在明面上供消费者挑选，这就使得，导购人员在向消费者展示某一型号的智能电视的功能时，在产品功能展示阶段(例如语音功能，在使用语音功能之前，需要对智能电视机进行语音唤醒)，可能会把所述某一型号的智能电视周围的几台其他型号的智能电视也误唤醒。进而影响了消费者的购物体验。

发明内容

为了至少解决现有技术中在卖场环境中，噪音比较大，会降低唤醒率，同时由于卖场中智能设备的数量较多，在功能展示时，可能会出现误唤醒的问题。

第一方面，本发明实施例提供一种用于智能设备的语音唤醒方法，包括：

通过所述智能设备内置的多路麦克实时采集音频声源，对所述音频声源做回声消除，确定消除后的多路音频；

通过对预设的目标角度区间进行波束形成，对所述多路音频在所述目标角度区间进行音频增强，确定增强音频；

对所述增强音频进行后置滤波处理，判断所述后置滤波后的增强音频是否命中所述智能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息；

当所述音频声源的角度信息处于所述预设的目标角度区间内时，唤醒所述智能设备。

第二方面，本发明实施例提供一种用于多台智能设备的选择性语音唤醒方法，包括：

通过所述多台智能设备内置的多路麦克实时采集音频声源，对所述音频声源做回声消除，分别确定消除后的多路音频；

通过对预设的目标角度区间进行波束形成，分别对所述多路音频在所述目标角度区间进行音频增强，确定增强音频；

分别对所述增强音频进行后置滤波处理，判断所述后置滤波后的增强音频是否命中所述智能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息；

当所述音频声源的角度信息处于多台智能设备的预设的目标角度区间内时，确定所述多台智能设备中的一台智能设备进行唤醒。

第三方面，本发明实施例提供一种用于智能设备的语音唤醒系统，包括：

多路音频确定程序模块，用于通过所述智能设备内置的多路麦克实时采集音频声源，对所述音频声源做回声消除，确定消除后的多路音频；

增强音频确定程序模块，用于通过对预设的目标角度区间进行波束形成，对所述多路音频在所述目标角度区间进行音频增强，确定增强音频；

位置信息确定程序模块，用于对所述增强音频进行后置滤波处理，判断所述后置滤波后的增强音频是否命中所述智能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息；

语音唤醒程序模块，用于当所述音频声源的角度信息处于所述预设的目标角度区间内时，唤醒所述智能设备。

第四方面，本发明实施例提供一种用于多台智能设备的选择性语音唤醒系统，包括：

多路音频确定程序模块，用于通过所述多台智能设备内置的多路麦克实时采集音频声源，对所述音频声源做回声消除，分别确定消除后的多路音频；

增强音频确定程序模块，用于通过对预设的目标角度区间进行波束形成，分别对所述多路音频在所述目标角度区间进行音频增强，确定增强音频；

位置信息确定程序模块，用于分别对所述增强音频进行后置滤波处理，判断所述后置滤波后的增强音频是否命中所述智能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息；

唤醒确定程序模块，用于当所述音频声源的角度信息处于多台智能设备的预设的目标角度区间内时，确定所述多台智能设备中的一台智能设备进行唤醒。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于智能设备的语音唤醒方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于智能设备的语音唤醒方法的步骤。

本发明实施例的有益效果在于：通过对音频声源回音消除，以及目标角度区间进行波束形成，有效的抑制其他方向的噪声，降低噪声对唤醒率的影响，提高识别效果，同时，将唤醒结果同其他信息相结合进行决策，有效的抑制了对其他的智能设备的误唤醒。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于智能设备的语音唤醒方法的流程图；

图2是本发明一实施例提供的一种用于多台智能设备的选择性语音唤醒方法的流程图；

图3是本发明一实施例提供的一种用于智能设备的语音唤醒系统的结构示意图；

图4是本发明一实施例提供的一种用于多台智能设备的选择性语音唤醒系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于智能设备的语音唤醒方法的流程图，包括如下步骤：

S11：通过所述智能设备内置的多路麦克实时采集音频声源，对所述音频声源做回声消除，确定消除后的多路音频；

S12：通过对预设的目标角度区间进行波束形成，对所述多路音频在所述目标角度区间进行音频增强，确定增强音频；

S13：对所述增强音频进行后置滤波处理，判断所述后置滤波后的增强音频是否命中所述智能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息；

S14：当所述音频声源的对应角度处于所述预设的目标角度区间内时，唤醒所述智能设备。

在本实施方式中，可以将本方法适配在智能设备当中，例如，智能电视机，噪声环境例如现实生活中的家电卖场。各类型号的智能电视分别布设正在卖场的各个位置中。例如，卖场主打的某一型号的智能设备会有专属的摆放席位，而其他一些的型号会较为密集的摆放在相应的位置中。

对于步骤S11，所述智能电视机会通过内置的多路麦克实施采集家电卖场中的音频声源，包括消费者的声音、卖场人员的声音以及噪声。对所述音频声源做回声消除，确定消除后的多路音频。对于声学回声消除，消除算法有2类，包括回声抑制和声学回声消除。回声抑制算法是较早的一种回声控制算法。回声抑制是一种非线性的回声消除。它通过简单的比较器将准备由扬声器播放的声音与当前话筒拾取的声音的电平进行比较，如果前者高于某个阈值，那么就允许传至扬声器，而且话筒被关闭，以阻止它拾取扬声器播放的声音而引起远端回声。如果话筒拾取的声音电平高于某个阈值，扬声器被禁止，以达到消除回声的目的。由于回声抑制是一种非线性的回声控制方法，会引起扬声器播放的不连续，影响回声消除的效果，随着高性能的回声消除器的出现。声学回声消除算法是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从话筒的输入信号中减去，从而达到消除回声的目的，

对于步骤S12，通过对预设的目标角度区间进行波束形成，对所述多路音频中对所述多路音频在所述目标角度区间进行音频增强，例如把目标的唤醒方向固定在了电视的正前方左右20°的范围内。对这范围内的音频进行增强，确定增强音频。

对于步骤S13，对步骤S12确定的增强音频进行后置滤波处理，还可以进行beam处理，其中增强的beam是一个角度区间，比如60°-120°，以更好地抑制其他方向的噪声，降低噪声对唤醒率的影响。判断所述后置滤波后的增强音频是否命中所述只能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息。其中，DOA(Direction of arrival，波达方向)估计，确定所述音频声源距所述智能电视机的角度是多少。

对于步骤S14，当所述音频声源的对应角度处于所述预设的目标角度区间内时，例如，上文所说的电视的正前方左右20°的范围内时，唤醒所述智能电视机。至于为什么是先判断唤醒词，而不是先判断方向，如果先判断方向，音频声源的方向不在目标角度区间时，就不识别处理，这样岂不更快。由于，在智能设备的使用中不单单有唤醒还要有相应的语音功能指令输入。因此，只对唤醒阶段进行限制，目的是为了防止对目标角度区外的智能设备误唤醒。而在唤醒后，进入语音功能时，基本不会误唤醒其他智能设备，所以仅仅在唤醒阶段需要判断目标角度区间。

通过该实施方式可以看出，通过对音频声源回音消除，以及目标角度区间进行波束形成，有效的抑制其他方向的噪声，降低噪声对唤醒率的影响，提高识别效果，同时，将唤醒结果同其他信息相结合进行决策，有效的抑制了对其他方向智能设备的误唤醒。

如图2所示为本发明一实施例提供的一种用于多台智能设备的选择性语音唤醒方法的流程图，包括如下步骤：

S21：通过所述多台智能设备内置的多路麦克实时采集音频声源，对所述音频声源做回声消除，分别确定消除后的多路音频；

S22：通过对预设的目标角度区间进行波束形成，分别对所述多路音频在所述目标角度区间进行音频增强，确定增强音频；

S23：分别对所述增强音频进行后置滤波处理，判断所述后置滤波后的增强音频是否命中所述智能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息；

S24：当所述音频声源的对应角度处于多台智能设备的预设的目标角度区间内时，确定所述多台智能设备中的一台智能设备进行唤醒。

在本实施方式中，与图1实施例的唤醒方法相同，只不过在目标角度区间内有多个智能设备时，例如，卖场中有多台智能电视机，消费者进行体验时，通常只会体验一台智能设备，所以需要判断用户期望唤醒那一台，进而将这台智能设备进行唤醒。

对于步骤S21，S22，S23，与上述步骤中S11，S12，S13基本相同，在此不再赘述。

对于步骤S24，当所述音频声源的对应角度处于多台智能设备的预设的目标角度区间内时，确定所述多台智能设备中的一台智能设备进行唤醒，此时，由于音频声源也就是消费者或卖场人员在多个智能电视机的目标角度区间中，由于都在目标角度区间中，例如，并排相邻放置的两台智能电视机，都面向消费者，消费者处于这两台智能电视机的目标角度区间中。这时，选取其中一台智能电视机进行唤醒。

通过该实施方式可以看出，当所述音频声源的对应角度处于多台智能设备的预设的目标角度区间内时，选取一台智能设备进行唤醒，便于消费者的使用。

作为一种实施方式，在本实施例中，所述当所述音频声源的角度信息处于多台智能设备的预设的目标角度区间内时，确定所述多台智能设备中的一台智能设备进行唤醒包括：

当所述音频声源的角度信息处于多台智能设备的预设的目标角度区间内时，比较所述多台智能设备接收到的音频声源的分贝；

选取所述多台智能设备中接收到音频声源的分贝最大的智能设备进行唤醒。

在本实施方式中，如果在消费者和商场导购的前边方向和后边方向，各有一台智能设备，都面向消费者，且消费者都在各智能设备的目标角度区间。这时，由于消费者说话的朝向，会影响前后两方向接收声音的音量，进而通过音频声源的分贝确定出相应的智能设备进行唤醒。

作为一种实施方式，所述多台智能设备处于同一局域网下，用于彼此比较音频声源的分贝。

由于上述步骤中涉及到对应距离和音频声源分贝的比较，所以需要将多台智能设备配置在同一局域网下，进而可以实现相应的比对功能。

通过该实施方式可以看出，将多台智能设备配置于同一局域网下，便于在智能设备唤醒时选取最佳的智能设备进行唤醒。

如图3所示为本发明一实施例提供的一种用于智能设备的语音唤醒系统的结构示意图，该系统可执行上述任意实施例所述的用于智能设备的语音唤醒方法，并配置在终端中。

本实施例提供的一种用于智能设备的语音唤醒系统包括：多路音频确定程序模块11，增强音频确定程序模块12，位置信息确定程序模块13和语音唤醒程序模块14。

其中，多路音频确定程序模块11用于通过所述智能设备内置的多路麦克实时采集音频声源，对所述音频声源做回声消除，确定消除后的多路音频；增强音频确定程序模块12用于通过对预设的目标角度区间进行波束形成，对所述多路音频在所述目标角度区间进行音频增强，确定增强音频；位置信息确定程序模块13用于对所述增强音频进行后置滤波处理，判断所述后置滤波后的增强音频是否命中所述智能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息；语音唤醒程序模块14用于当所述音频声源的角度信息处于所述预设的目标角度区间内时，唤醒所述智能设备。

如图4所示为本发明一实施例提供的一种用于多台智能设备的选择性语音唤醒系统的结构示意图，该系统可执行上述任意实施例所述的用于多台智能设备的选择性语音唤醒方法，并配置在终端中。

本实施例提供的一种用于智能设备的语音唤醒系统包括：多路音频确定程序模块21，增强音频确定程序模块22，位置信息确定程序模块23和唤醒确定程序模块24。

其中，多路音频确定程序模块21用于通过所述多台智能设备内置的多路麦克实时采集音频声源，对所述音频声源做回声消除，分别确定消除后的多路音频；增强音频确定程序模块22用于通过对预设的目标角度区间进行波束形成，分别对所述多路音频在所述目标角度区间进行音频增强，确定增强音频；位置信息确定程序模块23用于分别对所述增强音频进行后置滤波处理，判断所述后置滤波后的增强音频是否命中所述智能设备的唤醒词，当命中所述智能设备的唤醒词时，通过波达方向估计所述音频声源的角度信息；唤醒确定程序模块24用于当所述音频声源的对应角度处于多台智能设备的预设的目标角度区间内时，确定所述多台智能设备中的一台智能设备进行唤醒。

进一步地，所述语音唤醒程序模块用于：

进一步地，所述多台智能设备处于同一局域网下，用于彼此比较音频声源的分贝。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于智能设备的语音唤醒方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于多台智能设备的选择性语音唤醒方法；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于智能设备的语音唤醒方法以及用于多台智能设备的选择性语音唤醒方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于智能设备的语音唤醒方法以及用于多台智能设备的选择性语音唤醒方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于智能设备的语音唤醒方法，包括：

2.一种用于多台智能设备的选择性语音唤醒方法，包括：

3.根据权利要求2所述的方法，其中，所述当所述音频声源的角度信息处于多台智能设备的预设的目标角度区间内时，确定所述多台智能设备中的一台智能设备进行唤醒包括：

4.根据权利要求3所述的方法，其中，所述多台智能设备处于同一局域网下，用于彼此比较音频声源的分贝。

5.一种用于智能设备的语音唤醒系统，包括：

6.一种用于多台智能设备的选择性语音唤醒系统，包括：

7.根据权利要求6所述的系统，其中，所述语音唤醒程序模块用于：

8.根据权利要求7所述的系统，其中，所述多台智能设备处于同一局域网下，用于彼此比较音频声源的分贝。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。