CN109461456A

CN109461456A - 一种提升语音唤醒成功率的方法

Info

Publication number: CN109461456A
Application number: CN201811466502.8A
Authority: CN
Inventors: 关海欣
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-03-12
Anticipated expiration: 2038-12-03
Also published as: WO2020113935A1; CN109461456B

Abstract

本发明提供了一种提升语音唤醒成功率的方法，该方法用于提升对处于休眠状态的终端设备进行语音唤醒操作的成功率，该方法将原有的相对独立且互不联系的语音唤醒和麦克风阵列信号处理这两者进行有机结合，并通过关联该两者各自的信息以构建一个闭环反馈回路，该闭环反馈回路使得该语音唤醒为该麦克风阵列信号处理提供真实准确的信号数据区间，以使该麦克风阵列信号处理获得关于信号和噪声的准确统计量信息，这导致将去除干扰噪声的语音数据传送至唤醒引擎后即可得到精准快速的唤醒结果。

Description

一种提升语音唤醒成功率的方法

技术领域

本发明涉及人机语音交互的技术领域，特别涉及一种提升语音唤醒成功率的方法。

背景技术

随着人工智能技术的发展，其广泛应用于人们的生活和工作中，人们通过人工智能技术就能够以较为便捷的方式解决特定领域的问题。人工智能技术之所以能够融入人们的生活和工作主要得益于人机交互技术的不断改进。人机交互技术使得人们能够采用人与人之间普遍存在交流方式就能够简单便捷地实现人与机器之间的交流互动。目前，人机交互技术的主要实现方式包括人机语音交互或者人机动作交互等；其中，该人机语音交互主要是模拟人与人之间的语言交流方式在人与机器之间进行相应的语言交流，该人机动作交互主要是通过机器识别用户的手势动作等，并基于该手势动作提取其中所表示的含义以此作出合适的反馈。由于人机动作交互需要相应的摄像设备来对动作进行拍摄，这要求用户必须在特定视角范围内进行相应的动作，其具有较大的局限性；相反地，人机语音交互对于机器与用户之间的相对位置关系并没有十分严格的要求，只要机器能够接收到关于用户清晰的语音信号即可，这极大地提高人机交互模式的便捷性。

在机器与用户之间的人机语音交互过程中，为了节省机器的电能消耗量或者降低机器的运作负载，若该机器在预定时长内接收不到相应的语音信号，其就会进入相应的休眠状态，一旦该机器接收到来自用户的特定内容语音信号，该机器就会从当前的休眠状态切换至工作状态，这一过程通常被称为语音唤醒。该语音唤醒操作的技术原理主要是对机器实施大量关于声学和语法模型的语音数据训练，并在语音唤醒过程中对该机器接收到的语音信号持续进行解码打分操作，并基于该解码打分操作得到的分数高低来决定是否对该机器实施唤醒操作。但是，该机器接收到的语音信号必然会夹杂不同类型的噪声，该噪声会对该语音唤醒产生影响。

发明内容

在人机语音交互的语音唤醒技术中，当唤醒语音中存在噪声或混响等干扰因素时，机器对该唤醒语音的解码打分值会大幅度降低，这会使语音唤醒机器的成功率显著下降。为了解决该唤醒语音中噪声或混响引起的问题，该机器通常会使用麦克风阵列处理技术来降低复杂场景中存在的噪声和混响干扰。而该麦克风阵列处理技术中最为有效的当属波束形成技术，该波束形成技术通常需要在预知噪声的方位角的情况下，保留主瓣方向信号并抑制干扰分量，但是在实际应用过程中，该噪声和混响的干扰会导致很难准确估计噪声孤立帧的方位角，即使在该方位角估计准确的情况下也很难在唤醒阶段实现实时的波束形成。

针对现有语音唤醒技术存在的缺陷，本发明提供一种提升语音唤醒成功率的方法，该方法深度结合了语音唤醒和麦克风阵列信号处理这两者，并且上述两者各自的信息相互形成一个闭环反馈回路，该闭环反馈回路使得该语音唤醒为该麦克风阵列信号处理提供真实准确的信号数据区间，以使该麦克风阵列信号处理获得关于信号和噪声的准确统计量信息，这导致将去除干扰噪声的语音数据传送至唤醒引擎后即可得到精确迅速的唤醒结果。

本发明提供一种提升语音唤醒成功率的方法，所述方法用于提升对处于休眠状态的终端设备进行语音唤醒操作的成功率，其特征在于，所述方法包括：

步骤(1)，所述终端设备的唤醒引擎单元持续接收与来自外界的语音信号，同时将所述语音信号进行多通道缓存处理，随后对所述语音信号进行解析和判分处理，并将所述判分处理得到的分数与一唤醒分数阈值和一噪声干扰分数阈值进行比较处理，若所述分数小于所述唤醒分数阈值且大于所述噪声干扰分数阈值，则所述终端设备的控制单元返回关于所述终端设备的唤醒词对应的生成起止时间点；

步骤(2)，基于所述唤醒词的生成起止时间点，从所述多通道缓存中提取与所述唤醒词对应的语音信号，并计算所述语音信号的导向矢量；

步骤(3)，提取所述多通道缓存中的其他语音信号，进而计算所述其他语音信号对应的噪声相关矩阵；

步骤(4)，将所述多通道缓存中所述唤醒词对应的语音信号执行关于所述导向矢量和所述噪声相关矩阵的波束形成处理，并将所述波束形成处理的结果传送至所述唤醒引擎单元，再次对所述波束形成处理的结果进行解析和判分处理；

进一步，在步骤(1)中，所述唤醒引擎单元将经过多通道缓存处理后的语音信号进行自适应降噪处理，然后通过神经网络对所述语音信号依次进行解析和判分处理，以得到关于所述语音信号的对应特定词总体判分分数；

进一步，在步骤(1)中，通过神经网络对所述语音信号依次进行解析和判分处理具体为所述神经网络首先将所述语音信号转换为相对应的数据信息，随后将所述数据信息与所述特定词进行相关性计算处理，并根据所述相关性计算处理的结果得到所述判分分数；

进一步，在步骤(1)中，若所述分数大于或者等于所述唤醒分数阈值，则所述唤醒引擎单元向所述终端设备发送一唤醒脉冲信号，以使所述终端设备从休眠状态切换至工作状态，同时所述唤醒引擎单元终止所述步骤(2)、(3)和(4)的执行；

进一步，在步骤(1)中，所述唤醒词对应的生成起止时间点的获取包括所述唤醒引擎单元持续接收来自外界的语音信号，并通过其自身预设的唤醒词网络，对所述语音信号连续进行解码和判分处理，当所述判分处理得到的分数具有最大值时，所述唤醒引擎单元能够对所述解码处理对应过程中的最优路径进行回溯处理，并通过该回溯处理得到所述唤醒词在所述最优路径中的发生时间段，并结合当前实际时间，计算出所述唤醒词对应的生成起止时间点；

进一步，在步骤(2)中，计算所述语音信号的导向矢量包括基于所述唤醒词的生成起止时间点和所述唤醒词对应的数据段直接计算得出所述导向矢量，或者先计算得出所述数据段的方位角、在根据所述方位角计算得出所述导向矢量；

进一步，在步骤(2)中，计算所述方位角或者所述导向向量包括对所述数据段按照不同帧获取其相应的方位角数据，将所述不同帧对应的方位角数据进行综合处理以得到所需的方位角，随后通过所述综合处理得到的方位角计算出所述导向向量，或者通过计算所述语音信号的信号相关矩阵并分解获取所述信号矩阵的矩阵特征值，来直接计算出所述导向向量；

进一步，在步骤(3)中，将与所述唤醒词对应的语音信号从所述多通道缓存中剔除，对所述多通道缓存中剩余的语音信号进行统计计算，从而得到所述噪声相关矩阵；

进一步，在步骤(4)中，所述波束形成处理是基于所述导向向量和所述噪声相关矩阵实现的，所述波束形成处理能够保留所述语音信号在主瓣方向的有效信息分量，并去除所述语音信号在旁瓣方向的干扰信息分量；

进一步，在步骤(4)中，当再次对所述波束形成处理的结果进行解析和判分处理后，将判分处理得到的分数与所述唤醒分数阈值进行比较处理，若所述分数大于或者等于所述唤醒分数阈值，则将所述终端设备从休眠状态切换至工作状态，若所述分数小于所述唤醒分数阈值且大于所述噪声干扰分数阈值，则重新执行步骤(1)、(2)、(3)和(4)，直到所述分数大于或者等于所述唤醒分数阈值为止。

相比于现有技术，本发明的提升语音唤醒成功率的方法将原有的相对独立且互不联系的语音唤醒和麦克风阵列信号处理这两者进行有机结合，并通过关联该两者各自的信息以构建一个闭环反馈回路，该闭环反馈回路使得该语音唤醒为该麦克风阵列信号处理提供真实准确的信号数据区间，以使该麦克风阵列信号处理获得关于信号和噪声的准确统计量信息，这导致将去除干扰噪声的语音数据传送至唤醒引擎后即可得到精准快速的唤醒结果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种提升语音唤醒成功率的方法的流程示意图。

图2为本发明实施例中一种提升语音唤醒成功率的方法所针对的终端设备的结构示意图。

具体实施方式

参阅图1，为本发明实施例提供的一种提升语音唤醒成功率的方法的流程示意图。该提升语音唤醒成功率的方法主要用于提升对处于休眠状态的终端设备进行语音唤醒操作的成功率。

参阅图2，为本发明实施例提供的一种提升语音唤醒成功率的方法所针对的终端设备的结构示意图。该终端设备优选为具有语音交互功能的电子设备，该电子设备可为但不限于是洗衣机、冰箱、空调、电视、抽油烟机、微波炉、扫地机器人、音频播放器或者照明设备等。

该终端设备主要包括语音接收单元、语音释义识别单元、语音反馈单元和唤醒引擎单元。其中，该语音接收单元用于接收外界用户输入的语音信号；优选地，该语音接收单元可为但不限于是麦克风或者麦克风阵列。该语音释义识别单元适用于从该语音信号中提取有效的语音数据并对该有效的语音数据进行分析判断以获得该有效的语音数据表示的语义；其中，该有效的语音数据优选为该语音信号中去除噪声信号后剩下的信噪比满足预设要求的语音数据，该噪声信号包括但不限于是外界环境的背景噪声和/或该终端设备内部固有的噪声。该语音反馈单元用于根据该语音释义识别单元获得的语义选择与其对应的音频信号，并播放该音频信号以实现对用户的应答。该唤醒引擎单元是用于控制该终端设备进行工作状态的切换，当该终端设备在预定时长范围内没有接收到任何语音信号或者其他激励操作，该终端设备就会切换至一休眠状态，在该终端设备处于休眠状态的过程中，该唤醒引擎单元仍然处于一活跃状态以维持对该语音接收单元、语音释义识别单元和语音反馈单元的控制，并在来自用户的语音信号符合预设唤醒条件后，该唤醒引擎单元就会对该终端设备进行激励，从而使该终端设备由当前所处的休眠状态切换回活跃状态。通过该终端设备上述的唤醒过程，其能够保证该终端设备在空闲时段中除了唤醒引擎单元外的其他功能单元都处于休眠状态，该过程既能够降低该终端设备的能耗和避免该终端设备的内核单元长期满载工作，也能够保证该终端设备能够随时被切换回活跃状态并正常工作。

继续参阅该图1，该提升语音唤醒成功率的方法具体包括如下步骤：

步骤(1)，该终端设备的唤醒引擎单元持续接收与来自外界的语音信号，同时将该语音信号进行多通道缓存处理，随后对该语音信号进行解析和判分处理，并将该判分处理得到的分数与一唤醒分数阈值和一噪声干扰分数阈值进行比较处理，若该分数小于该唤醒分数阈值且大于该噪声干扰分数，则该终端设备的控制单元返回关于该终端设备的唤醒词对应的生成起止时间点；其中，该噪声干扰分数阈值是用于排除来自外界噪声对该唤醒引擎单元输入的信号造成的干扰，这是由于该终端设备所处的外界环境必然存在相应的噪声信号，通过设置该噪声干扰分数阈值能够避免该噪声信号对该唤醒引擎单元引起的误唤醒，从而进一步地将外界环境噪声信号进行排除，以提高该语音唤醒的准确性。

具体来说，该唤醒引擎单元会指示该语音接收单元持续接收来自外界用户的语音信号，以及指示该语音接收单元能够将接收到的语音信号保存至一多通道缓存单元的不同缓存通道中。随后，该唤醒引擎接收单元向该语音释义识别单元发送一工作指令，该语音释义识别单元在接收到该工作指令后，从所述多通道缓存单元中选取相应的语音信号，并首先对该语音信号进行自适应降噪处理，随后该语音释义识别单元通过神经网络对经过自适应降噪处理后的该语音信号依次进行解析和判分处理，从而得到关于该语音信号的对应特定词总体判分分数。

优选地，该语音释义识别单元通过神经网络对该语音信号依次进行解析和判分处理具体为该神经网络首先将该语音信号转换为相对应的数据信息，随后将该数据信息与该特定词进行相关性计算处理，并根据该相关性计算处理的结果得到该判分分数。

优选地，在将该判分处理得到的分数与一唤醒分数阈值进行比较处理后，若该分数大于或者等于该唤醒分数阈值，则该唤醒引擎单元会向该终端设备的内核单元发送一唤醒脉冲信号，以激励该终端设备从当前的休眠状态切换至活跃的工作状态，同时该唤醒引擎单元会终止执行后续的步骤(2)、(3)和(4)。

优选地，该唤醒词对应的生成起止时间点的获取过程具体可包括该唤醒引擎单元持续接收来自外界的语音信号，并通过其自身预设的唤醒词网络，对该语音信号连续进行解码和判分处理，当该判分处理得到的分数具有最大值时，该唤醒引擎单元能够对该解码处理对应过程中的最优路径进行回溯处理，并通过该回溯处理得到该唤醒词在该最优路径中的发生时间段，并结合当前实际时间，计算出该唤醒词对应的生成起止时间点。

步骤(2)，基于该唤醒词的生成起止时间点，从该多通道缓存中提取与该唤醒词对应的语音信号，并计算该语音信号的导向矢量。

优选地，计算该语音信号的导向矢量的过程可包括基于该唤醒词的生成起止时间点和该唤醒词对应的数据段直接计算得出该导向矢量，或者先计算得出该数据段的方位角、在根据该方位角计算得出该导向矢量；举例来说，假设平面声波以方位角θ入射到麦克风阵列上，此时该麦克分阵列的输入信号的导向矢量为a(θ)＝[1，e^-jΦ，…，e^-j(M-1)Φ]^T，其中Φ＝2πdsinθ/λ。

优选地，计算该方位角或者该导向向量包括对该数据段按照不同帧获取其相应的方位角数据，将该不同帧对应的方位角数据进行综合处理以得到所需的方位角，随后通过该综合处理得到的方位角计算出该导向向量，或者通过计算该语音信号的信号相关矩阵并分解获取该信号矩阵的矩阵特征值，来直接计算出该导向向量。

步骤(3)，提取该多通道缓存中的其他语音信号，进而计算该其他语音信号对应的噪声相关矩阵。

优选地，提取该多通道缓存中的其他语音信号，进而计算该其他语音信号对应的噪声相关矩阵具体为将与该唤醒词对应的语音信号从该多通道缓存中剔除，对该多通道缓存中剩余的语音信号进行统计计算，从而得到该噪声相关矩阵。

相应地，单一频带对应的噪声相关矩阵的计算公式可为：

其中，N表示某一频带对应语音信号的总帧数，V_i表示第i帧语音信号对应的多通道语音向量。

由于该多通道缓存中剩余的语音信号同时存在不同频带的信号，并且不同频带的信号之间是相互独立的，故可以先分别计算不同频带的信号各自对应的噪声相关矩阵，再基于所有频带信号对应的噪声相关矩阵，与对应的导向矢量，获得各个频带对应的波束形成的权向量W。

最终，该波束形成的权向量W计算公式可为：

其中，表示噪声相关矩阵R_Noise的逆矩阵，d表示导向矢量，d^H表示导向矢量d的共轭转置。

步骤(4)，将该多通道缓存中该唤醒词对应的语音信号执行关于该导向矢量和该噪声相关矩阵的波束形成处理，并将该波束形成处理的结果传送至该唤醒引擎单元，再次对该波束形成处理的结果进行解析和判分处理。

优选地，该波束形成处理是基于该导向向量和该噪声相关矩阵实现的，该波束形成处理能够保留该语音信号在主瓣方向的有效信息分量，并去除该语音信号在旁瓣方向的干扰信息分量。

优选地，当再次对该波束形成处理的结果进行解析和判分处理后，将判分处理得到的分数与该唤醒分数阈值进行比较处理，若该分数大于或者等于该唤醒分数阈值，则将该终端设备从休眠状态切换至工作状态，若该分数小于该唤醒分数阈值且大于该噪声干扰分数阈值，则重新执行步骤(1)、(2)、(3)和(4)，直到该分数大于或者等于该唤醒分数阈值为止。

从上述实施例可以看出，该提升语音唤醒成功率的方法将原有的相对独立且互不联系的语音唤醒和麦克风阵列信号处理这两者进行有机结合，并通过关联该两者各自的信息以构建一个闭环反馈回路，该闭环反馈回路使得该语音唤醒为该麦克风阵列信号处理提供真实准确的信号数据区间，以使该麦克风阵列信号处理获得关于信号和噪声的准确统计量信息，这导致将去除干扰噪声的语音数据传送至唤醒引擎后即可得到精准快速的唤醒结果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种提升语音唤醒成功率的方法，所述方法用于提升对处于休眠状态的终端设备进行语音唤醒操作的成功率，其特征在于，所述方法包括：

步骤(4)，将所述多通道缓存中所述唤醒词对应的语音信号执行关于所述导向矢量和所述噪声相关矩阵的波束形成处理，并将所述波束形成处理的结果传送至所述唤醒引擎单元，再次对所述波束形成处理的结果进行解析和判分处理。

2.如权利要求1所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(1)中，所述唤醒引擎单元将经过多通道缓存处理后的语音信号进行自适应降噪处理，然后通过神经网络对所述语音信号依次进行解析和判分处理，以得到关于所述语音信号的对应特定词总体判分分数。

3.如权利要求2所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(1)中，通过神经网络对所述语音信号依次进行解析和判分处理具体为所述神经网络首先将所述语音信号转换为相对应的数据信息，随后将所述数据信息与所述特定词进行相关性计算处理，并根据所述相关性计算处理的结果得到所述判分分数。

4.如权利要求1所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(1)中，若所述分数大于或者等于所述唤醒分数阈值，则所述唤醒引擎单元向所述终端设备发送一唤醒脉冲信号，以使所述终端设备从休眠状态切换至工作状态，同时所述唤醒引擎单元终止所述步骤(2)、(3)和(4)的执行。

5.如权利要求1所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(1)中，所述唤醒词对应的生成起止时间点的获取包括所述唤醒引擎单元持续接收来自外界的语音信号，并通过其自身预设的唤醒词网络，对所述语音信号连续进行解码和判分处理，当所述判分处理得到的分数具有最大值时，所述唤醒引擎单元能够对所述解码处理对应过程中的最优路径进行回溯处理，并通过所述回溯处理得到所述唤醒词在所述最优路径中的发生时间段，并结合当前实际时间，计算出所述唤醒词对应的生成起止时间点。

6.如权利要求1所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(2)中，计算所述语音信号的导向矢量包括基于所述唤醒词的生成起止时间点和所述唤醒词对应的数据段直接计算得出所述导向矢量，或者先计算得出所述数据段的方位角、在根据所述方位角计算得出所述导向矢量。

7.如权利要求6所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(2)中，计算所述方位角或者所述导向向量包括对所述数据段按照不同帧获取其相应的方位角数据，将所述不同帧对应的方位角数据进行综合处理以得到所需的方位角，随后通过所述综合处理得到的方位角计算出所述导向向量，或者通过计算所述语音信号的信号相关矩阵并分解获取所述信号矩阵的矩阵特征值，来直接计算出所述导向向量。

8.如权利要求1所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(3)中，将与所述唤醒词对应的语音信号从所述多通道缓存中剔除，对所述多通道缓存中剩余的语音信号进行统计计算，从而得到所述噪声相关矩阵。

9.如权利要求7所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(4)中，所述波束形成处理是基于所述导向向量和所述噪声相关矩阵实现的，所述波束形成处理能够保留所述语音信号在主瓣方向的有效信息分量，并去除所述语音信号在旁瓣方向的干扰信息分量。

10.如权利要求1所述的一种提升语音唤醒成功率的方法，其特征在于，在步骤(4)中，当再次对所述波束形成处理的结果进行解析和判分处理后，将判分处理得到的分数与所述唤醒分数阈值进行比较处理，若所述分数大于或者等于所述唤醒分数阈值，则将所述终端设备从休眠状态切换至工作状态，若所述分数小于所述唤醒分数阈值且大于所述噪声干扰分数阈值，则重新执行步骤(1)、(2)、(3)和(4)，直到所述分数大于或者等于所述唤醒分数阈值为止。