CN109697984B

CN109697984B - 一种降低智能设备自唤醒的方法

Info

Publication number: CN109697984B
Application number: CN201811628898.1A
Authority: CN
Inventors: 冯大航; 陈孝良; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-09-04
Anticipated expiration: 2038-12-28
Also published as: CN109697984A

Abstract

本公开提供了一种降低智能设备自唤醒的方法，包括：采用AEC技术对麦克风收集的音频信号进行处理；将经过AEC技术处理后的音频信号分为两路，其中第一路直接输入唤醒引擎，获取第一判断结果；将第二路经过AEC技术处理后的音频信号进行非线性消除，然后再次将处理后的音频信号输入唤醒引擎，获取第二判断结果；根据所述第一判断结果和所述第二判断结果，以预定策略确定是否唤醒智能设备。本公开通过对AEC技术处理后的音频进行唤醒判断，以及对AEC技术处理后再经过后滤波的音频进行第二次唤醒判断，降低对智能设备自身发出唤醒词的误唤醒率，同时确保正确唤醒的概率。

Description

一种降低智能设备自唤醒的方法

技术领域

本公开涉及智能设备领域，尤其涉及一种降低智能设备自唤醒的方法。

背景技术

随着信息和通信技术的发展，智能设备已经在日常生活中被广泛应用。智能设备可使用通过麦克风采集到的音频信号来提供服务，例如智能语音设备作为家庭场景中有效的人工智能交互入口。智能语音识别的应用使用户解放了双手，能够更加便捷的获取歌曲、新闻等媒体资源，了解天气、交通等实时情况，和控制家用电器等。智能语音识别主要涉及的技术包括、波达方向估计技术、波束形成技术、去混响技术等。

智能设备的语音识别率可由于通过麦克风流入的回声信号而恶化，这是因为为语音识别服务提供的信号不仅包括用于语音识别的想要的信号，而且也包括扬声器的输出。例如，智能设备一般都具有的功能包括可以用某个关键词唤醒，但在智能语音设备自身播放唤醒词的情况下，麦克风接收到该唤醒词可能会造成误唤醒。

发明内容

(一)要解决的技术问题

本公开提供了一种降低智能设备自唤醒的方法，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种降低智能设备自唤醒的方法，包括：

采用AEC技术对麦克风收集的音频信号进行处理；

将经过AEC技术处理后的音频信号分为两路，其中第一路直接输入唤醒引擎，获取第一判断结果；

将第二路经过AEC技术处理后的音频信号进行非线性消除，然后再次将处理后的音频信号输入唤醒引擎，获取第二判断结果；

根据所述第一判断结果和所述第二判断结果，以预定策略确定是否唤醒智能设备。

在一些实施例中，所述获取第一判断结果包括：判断输入音频信号是否满足第一唤醒条件；

所述获取第二判断结果包括：判断输入音频信号是否满足第二唤醒条件。

在一些实施例中，所述第一唤醒条件为接收到的音频信号中包括预定的唤醒词的第一概率值是否高于预定的第一唤醒阈值；所述第二唤醒条件为接收到的音频信号中包括预定的唤醒词的第二概率值是否高于预定的第二唤醒阈值。

在一些实施例中，所述第二唤醒阈值的取值小于第一唤醒阈值。

在一些实施例中，所述第一唤醒阈值范围为0.6～0.9，所述第二唤醒阈值范围为0.3～0.6。

在一些实施例中，第一唤醒条件和/或第二唤醒条件为是否包含预定唤醒词。

在一些实施例中，所述判断是否满足第一唤醒条件后，若满足则转至获取第二判断结果的步骤，否则退出唤醒过程。

在一些实施例中，根据第一次和第二次的判断结果，以预定策略确定是否唤醒智能设备包括：

判断第一判断结果与第二判断结果是否满足预定关系，若满足则唤醒所述智能设备；否则退出唤醒过程。

在一些实施例中，所述第一判断结果为接收到的音频信号中包括预定的唤醒词的第一概率值P1；第二判断结果为接收到的音频信号中包括预定的唤醒词的第二概率值P2，通过所述第一概率值P1与所述第二概率值P2的相互关系判断第一判断结果与第二判断结果是否满足预定关系。

在一些实施例中，所述判断第一判断结果与第二判断结果是否满足预定关系包括：

判断第一概率值P1与第二概率值P2的差值是否小于预定第一阈值，且第一概率P1大于第二阈值；和/或

判断第一概率值P1与第二概率值P2的乘积是否大于预定阈值。

(三)有益效果

从上述技术方案可以看出，本公开降低智能设备自唤醒的方法至少具有以下有益效果其中之一：

通过对AEC技术处理后的音频进行唤醒判断，以及通过AEC技术处理后再经过后滤波的音频进行第二次判断，降低对智能设备自身发出唤醒词的误唤醒率，同时确保正确唤醒的概率。

附图说明

图1为本公开实施例降低智能设备自唤醒的方法的流程图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在此，需要说明的是，信号的“回声消除”不应被解释为需要回声成分的彻底消除，并可包括信号中回声成分减少到针对信号的特定使用可接收的程度。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以由许多不同形式实现，而不应被解释为限于此处所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

针对通过电子装置的扬声器输出的信号(音频信号或语音信号)可被同一电子装置的麦克风捕获为回声信号，例如智能设备在自身播放唤醒词的情况下，麦克风接收到该唤醒词可能会造成误唤醒的问题，本公开提供了一种降低智能设备自唤醒的方法，该方法可以降低误唤醒，并且不影响正确的唤醒率。图1为本公开实施例降低智能设备自唤醒的方法，如图1所示，该方法包括：

S1，采用回声消除(acoustic echo cancelation，简称AEC)技术对麦克风收集的音频信号进行处理；

S2，将经过AEC技术处理后的音频信号分为两路，其中第一路直接输入唤醒引擎，获取第一判断结果；

S3，将第二路经过AEC技术处理后的音频信号进行非线性消除，然后再次将处理后的音频信号输入唤醒引擎，获取第二判断结果；

S4，根据第一次和第二次的判断结果，以预定策略确定是否唤醒智能设备。

以下结合具体实施例对进行本公开降低智能设备自唤醒的方法进行详细说明。

实施例一

在本公开的一个示例性实施例中，提供了一种降低智能设备自唤醒的方法。能够不降低正常唤醒率，同时能降低自唤醒的方法。该方法包括：

S101，采用AEC技术对麦克风收集的音频信号进行处理；

S102，将经过AEC技术处理后的音频信号分为两路，其中第一路直接输入唤醒引擎，判断是否满足第一唤醒条件，若满足则转至步骤S103，否则退出唤醒过程；

S103，将第二路经过AEC技术处理后的音频信号进行后滤波处理，进行非线性消除，然后再次将处理后的音频信号输入唤醒引擎，判断是否满足第二唤醒条件，若满足第二唤醒条件，则唤醒智能设备；否则退出唤醒过程。

以下对本实施例降低智能设备自唤醒方法的各个步骤进行详细说明。

所述步骤S101中，采用回声消除技术对麦克风收集的音频信号进行处理，通过使用回声消除器(AEC)来消除回声，以防止由于回声信号而导致的性能恶化。例如，智能设备可通过AEC消除由麦克风捕获的由于从电子装置的扬声器输出的音频信号或语音信号而产生的回声信号，从而提高输入到麦克风中的用户的语音信号的质量并防止由于回声分量而导致的信号失真。具体而言，AEC可将通过智能的扬声器输出的音频信号或语音信号设置为回声参考数据。AEC可通过频率分析将在麦克风输入信号之中的频率特性与回声参考数据相似的信号确定为回声信号，并消除或衰减相应的信号。因此，为了消除回声信号，智能设备可将扬声器输出信号(例如，回声参数数据)和麦克风输入信号(Tx输入)输入到AEC。

但是，由于扬声器的输出信号具有较强的非线性特征，因此AEC处理后仍有声音残留，因此电子装置会在消除回声信号上有限制。而如果直接对扬声器的输出信号进行后滤波处理则会降低唤醒率，因此，本实施例中通过以下步骤对音频信号进一步处理。

所述步骤S102中，经过AEC技术处理后的音频信号分为两路，其中第一路直接输入唤醒引擎，所述唤醒引擎用于识别所接收到的音频信号中是否包括预定的唤醒词。预定的唤醒词可以由用户输入，而且用户预定的唤醒词可以为一个也可以为多个，比如说，预定的唤醒词可以为简单的词组、数字、字母，或其任意组合，用户可以根据自己的实际需求或个人喜好进行设置，比如说唤醒词可以为“打电话”、“开灯”、“关灯”等词，本实施方式对此不做具体限定。

进一步的，所述判断是否满足第一唤醒条件的结果可以为判断接收到的音频信号中包括预定的唤醒词的概率值，或者为“是”或“否”的二元选择。

在第一种情况下，所述第一唤醒条件为接收到的音频信号中包括预定的唤醒词的第一概率值P1是否高于预定的第一唤醒阈值。具体地，采集智能设备被唤醒时的麦克信号，并确定每一帧麦克信号的语音唤醒置信度。该方法需要对唤醒词进行建模训练，再输入一麦克信号，即可确定每一帧麦克信号的语音唤醒置信度。一般来说，语音唤醒置信度较高的帧麦克信号是语音信号，语音唤醒置信度较低的帧麦克信号是干扰信号、语音信号的间隔或者是噪声信号，不同的情况下，语音信号的置信度范围也不同。一般地，所述第一唤醒阈值范围为0.6～0.9。

第二种情况下，第一唤醒条件为是否包含预定唤醒词。具体地，在一实施例中，所述预定的唤醒词可以对应标准特征参数，语音处理模组中还可以预存预定的唤醒词的标准特征参数，标准特征参数可以为标准特征向量。由于接收的音频信号中通常含有背景噪声、人的情绪等不具辨识性的成分，因此，唤醒引擎可以分析所接收到的音频信号，把音频信号中具有辨识性的成分提取出来。其中，音频信号中提取的特征参数可以为与梅尔频率倒谱系数相关的特征向量。提取特征参数的过程可以为：先对音频信号进行预加重、分帧和加窗；每一个短时分析窗，通过快速傅氏变换得到对应的频谱；将得到的频谱通过梅尔滤波器组得到梅尔频谱；在梅尔频谱上面进行倒谱分析，获得一系列的倒谱向量，每个向量就是每帧的特征向量。唤醒引擎在提取的特征参数除了特征向量，还可能包括音频信号的频率、幅度等参数，唤醒引擎可以根据提取的特征参数判断特征参数中是否包括预存的唤醒词对应的标准特征向量。

所述步骤S103中，对于经过AEC技术处理后的第二路音频信号，进行后滤波处理实现非线性消除，然后再次将处理后的音频信号输入唤醒引擎，判断是否满足第二唤醒条件。

本实施例中，采用后滤波进行音频信号的非线性消除，例如采用维纳滤波器原理，基于残差信号和参考信号的相干性设计后滤波器等。音频信号在经过后滤波后，进行第二唤醒判断接收到的音频信号中包括预定的唤醒词的概率值或“是”或“否”的二元选择。

当所述第二唤醒条件为接收到的音频信号中包括预定的唤醒词的第二概率值P2是否高于预定的第二唤醒阈值。由于进行了非线性消除，去除了更多的背景噪音，因此所述第二唤醒阈值的取值一般小于第一唤醒阈值，具体地，所述第二唤醒阈值范围为0.3～0.6。

在本实施例中，所述方法中所述第一唤醒阈值为0.7，所述第二唤醒阈值为0.4。此时通过智能设备的扬声器发出唤醒词，智能设备在第一唤醒条件判断时得到第一概率值P1为0.9＞0.7，在第二唤醒条件判断时得到第二概率值P2为0.1＜0.4，因此不满足唤醒条件，智能设备不会被唤醒；当用户在其他位置说出唤醒词时，智能设备在第一唤醒条件判断时得到第一概率值P1为0.9＞0.7，在第二唤醒条件判断时得到第二概率值P2为0.5＞0.4，智能设备被唤醒。

实施例二

在本公开的又一个示例性实施例中，提供了一种降低智能设备自唤醒的方法。该方法包括：

S201，采用AEC技术对麦克风收集的音频信号进行处理；

S202，将经过AEC技术处理后的音频信号分为两路，其中第一路直接输入唤醒引擎，获取第一判断结果；

S203，将第二路经过AEC技术处理后的音频信号进行后滤波处理，进行非线性消除，然后再次将处理后的音频信号输入唤醒引擎，获取第二判断结果；

S4，判断第一判断结果与第二判断结果是否满足预定关系，若满足则唤醒智能设备；否则退出唤醒。

本实施例中所述第一判断结果为接收到的音频信号中包括预定的唤醒词的第一概率值P1；第二判断结果为接收到的音频信号中包括预定的唤醒词的第二概率值P2。本实施例中，判断接收到的音频信号中是否包括预定的唤醒词的概率值的方法与上述实施例相同，与上述实施例不同的是，本实施例的方法在获取第一概率值P1与第二概率值P2之后，通过两者的相互关系进行最终判断。

具体地，在一实施例中，所述判断第一判断结果与第二判断结果是否满足预定关系为判断第一概率值P1与第二概率值P2的差值是否小于预定第一阈值，且第一概率P1大于第二阈值。例如，所述方法中所述第一唤醒阈值为0.5，所述第二唤醒阈值为0.6。此时通过智能设备的扬声器发出唤醒词，智能设备得到第一概率值P1为0.9＞0.6，得到第二概率值P2为0.1，而P1-P2＝0.9-0.1＝0.8＞0.5，因此不满足唤醒条件，智能设备不会被唤醒；当用户在其他位置说出唤醒词时，智能设备得到第一概率值P1为0.9＞0.7，得到第二概率值P2为0.5，P1-P2＝0.9-0.5＝0.4＜0.5，智能设备被唤醒；当用户在其他位置说话并未出现唤醒词时，智能设备得到第一概率值P1为0.2＜0.6，智能设备不会被唤醒。

在其他施例中，所述判断第一判断结果与第二判断结果是否满足预定关系为判断第一概率值P1与第二概率值P2的乘积是否大于预定阈值。例如，所述方法中所述预定阈值为0.4。此时通过智能设备的扬声器发出唤醒词，智能设备得到第一概率值P1为0.9，得到第二概率值P2为0.1，P1*P2＝0.09＜0.4，因此不满足唤醒条件，智能设备不会被唤醒；当用户在其他位置说出唤醒词时，智能设备得到第一概率值P1为0.9，得到第二概率值P2为0.5，P1*P2＝0.45＞0.4，智能设备被唤醒；当用户在其他位置说话并未出现唤醒词时，智能设备得到第一概率值P1为0.2＜0.6，第二概率P2＝0.1，P1*P2＝0.02＜0.4，智能设备不会被唤醒。

为了达到简要说明的目的，上述实施例1中任何可作相同应用的技术特征叙述皆并于此，无需再重复相同叙述。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体方式，本领域普通技术人员可对其进行简单地更改或替换。

除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本公开的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字，应理解为在所有情况中是受到「约」的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种降低智能设备自唤醒的方法，包括：

采用AEC技术对麦克风收集的音频信号进行处理；

2.根据权利要求1所述的方法，所述预定策略为分别判断所述第一判断结果和所述第二判断结果，其中：

所述获取第一判断结果包括：判断输入音频信号是否满足第一唤醒条件；

3.根据权利要求2所述的方法，其中，所述第一唤醒条件为接收到的音频信号中包括预定的唤醒词的第一概率值是否高于预定的第一唤醒阈值；所述第二唤醒条件为接收到的音频信号中包括预定的唤醒词的第二概率值是否高于预定的第二唤醒阈值。

4.根据权利要求3所述的方法，所述第二唤醒阈值的取值小于第一唤醒阈值。

5.根据权利要求4所述的方法，所述第一唤醒阈值范围为0.6～0.9，所述第二唤醒阈值范围为0.3～0.6。

6.根据权利要求2所述的方法，其中，第一唤醒条件和/或第二唤醒条件为是否包含预定唤醒词。

7.根据权利要求2所述的方法，其中，所述判断输入音频信号是否满足第一唤醒条件后，若满足则转至获取第二判断结果的步骤，否则退出唤醒过程。

8.根据权利要求1所述的方法，其中，所述以预定策略确定是否唤醒智能设备包括：

9.根据权利要求8所述的方法，其中，所述第一判断结果为接收到的音频信号中包括预定的唤醒词的第一概率值P1；第二判断结果为接收到的音频信号中包括预定的唤醒词的第二概率值P2，通过所述第一概率值P1与所述第二概率值P2的相互关系判断第一判断结果与第二判断结果是否满足预定关系。

10.根据权利要求9所述的方法，其中，所述判断第一判断结果与第二判断结果是否满足预定关系包括：

判断第一概率值P1与第二概率值P2的差值是否小于预定第一阈值，且第一概率值P1大于第二阈值；和/或

判断第一概率值P1与第二概率值P2的乘积是否大于预定阈值。