CN112509556A

CN112509556A - 一种语音唤醒方法及装置

Info

Publication number: CN112509556A
Application number: CN201910872875.3A
Authority: CN
Inventors: 陈天峰; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2021-03-16
Anticipated expiration: 2039-09-16
Also published as: CN112509556B

Abstract

本公开实施例提供的一种语音唤醒方法及装置，通过在解码路径中引入了唤醒字之间的冗余旁路，在对语音信号的后验概率进行解码时，可以抽取出除了唤醒字以外的其他音素集合，即解码路径除了可以区分出唤醒字对应的音素，还可以额外获得非唤醒字音素对应的语音片段，即解码结果中包括了语音信号中分别属于唤醒语音片段和冗余语音片段的音频。之后，对冗余语音片段的音频信息进行解析可以得到冗余怀疑度，在判断是否执行唤醒动作时，同时依据解码结果对应的唤醒得分和冗余怀疑度，可以提高判断准确性，抑制误唤醒。

Description

一种语音唤醒方法及装置

技术领域

本发明涉及语音处理技术领域，尤指一种语音唤醒方法及装置。

背景技术

随着信息和通信技术的发展，智能设备已经在日常生活在被广泛应用。智能设备可以通过麦克风采集语音信号，在进行识别后提供相应的服务。智能设备一般都包含用某个唤醒词(由多个唤醒字构成)唤醒的功能，即语音唤醒功能。

语音唤醒需要解决的两个最关键的问题，一是提高唤醒率，即任何性别、任何年龄段、任何场景(安静、带噪、远场...)都能准确响应；二就是降低误唤醒，即外界的噪声，周边人的讨论声，电视剧播放的内容等，只要不含有唤醒词，智能设备就不能误响应。

误唤醒会极大的影响用户体验，比如办公室买了一个具备唤醒功能的智能音箱，在与同事讨论的时候音箱误唤醒，甚至开始播放歌曲，这种情形令人厌烦甚至愤怒。

发明内容

本发明实施例提供一种语音唤醒方法及装置，用以抑制语音唤醒中的误唤醒。

一方面，本发明实施例提供了一种语音唤醒方法，包括：

确定获取到的语音信号的后验概率，所述后验概率为所述语音信号中每帧音频对应于预设的各标准音素的概率；

采用预先建立的解码路径，对所述语音信号的后验概率进行解码，得到所述语音信号的解码结果并计算所述语音信号的唤醒得分；其中，所述解码路径包含在设定的各唤醒字之间构建的支路和在所述唤醒字之间构建的冗余旁路，所述解码结果包括：所述语音信号中分别属于唤醒语音片段和冗余语音片段的音频，以及所述语音信号中每帧音频对应的音素编号和概率；

根据所述语音信号的解码结果，确定属于所述冗余语音片段的音频的音频信息；

根据所述冗余语音片段的音频的音频信息确定冗余怀疑度；

根据所述唤醒得分和所述冗余怀疑度，确定是否执行唤醒动作。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述确定获取到的语音信号的后验概率，具体包括：

对获取到的所述语音信号进行前端处理，得到所述语音信号中每帧音频的前端特征；

将所述语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算，得到所述语音信号中每帧音频对应于各所述标准音素的概率。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述确定属于所述冗余语音片段的音频的音频信息，具体包括：

确定属于所述冗余语音片段的每帧音频的前端特征，以及属于所述冗余语音片段的每帧音频的语音能量。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述根据所述冗余语音片段的音频的音频信息确定冗余怀疑度，具体包括：

将所述音频信息输入至预设的第二神经网络模型中，得到冗余怀疑度。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，在确定属于所述冗余语音片段的音频的音频信息之前，还包括：

判断所述语音信号的唤醒得分是否大于设定的第一阈值；

若是，则执行确定属于所述冗余语音片段的音频的音频信息。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述根据所述唤醒得分和所述冗余怀疑度，确定是否执行唤醒动作，具体包括：

根据所述唤醒得分和所述冗余怀疑度，确定所述语音信号的唤醒置信度；

在确定所述唤醒置信度大于设定的第二阈值时，确定执行唤醒动作。

在一种可能的实现方式中，在本发明实施例提供的上述方法中，所述根据所述唤醒得分和所述冗余怀疑度，确定所述语音信号的唤醒置信度，具体包括：

将所述唤醒得分与所述冗余怀疑度之差作为所述唤醒置信度。

另一方面，本发明实施例还提供了一种语音唤醒装置，包括：

计算模块，用于确定获取到的语音信号的后验概率，所述后验概率为所述语音信号中每帧音频对应于预设的各标准音素的概率；

解码模块，用于采用预先建立的解码路径，对所述语音信号的后验概率进行解码，得到所述语音信号的解码结果并计算所述语音信号的唤醒得分；其中，所述解码路径包含在设定的各唤醒字之间构建的支路和在所述唤醒字之间构建的冗余旁路，所述解码结果包括：所述语音信号中分别属于唤醒语音片段和冗余语音片段的音频，以及所述语音信号中每帧音频对应的音素编号和概率；

后处理模块，用于根据所述语音信号的解码结果，确定属于所述冗余语音片段的音频的音频信息；根据所述冗余语音片段的音频的音频信息确定冗余怀疑度；

判断模块，用于根据所述唤醒得分和所述冗余怀疑度，确定是否执行唤醒动作。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述计算模块，具体包括：

前端处理模块，用于对获取到的所述语音信号进行前端处理，得到所述语音信号中每帧音频的前端特征；

神经网络计算模块，用于将所述语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算，得到所述语音信号中每帧音频对应于各所述标准音素的概率。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述后处理模块，具体用于确定属于所述冗余语音片段的每帧音频的前端特征，以及属于所述冗余语音片段的每帧音频的语音能量。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述后处理模块，具体用于将所述音频信息输入至预设的第二神经网络模型中，得到冗余怀疑度。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述判断模块，还用于在确定属于所述冗余语音片段的音频的音频信息之前，判断所述语音信号的唤醒得分是否大于设定的第一阈值；若是，则执行确定属于所述冗余语音片段的音频的音频信息。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述判断模块，具体用于根据所述唤醒得分和所述冗余怀疑度，确定所述语音信号的唤醒置信度；在确定所述唤醒置信度大于设定的第二阈值时，确定执行唤醒动作。

在一种可能的实现方式中，在本发明实施例提供的上述装置中，所述判断模块，具体用于将所述唤醒得分与所述冗余怀疑度之差作为所述唤醒置信度。

本发明有益效果如下：

本发明实施例提供的一种语音唤醒方法及装置，通过在解码路径中引入了唤醒字之间的冗余旁路，在对语音信号的后验概率进行解码时，可以抽取出除了唤醒字以外的其他音素集合，即解码路径除了可以区分出唤醒字对应的音素，还可以额外获得非唤醒字音素对应的语音片段，即解码结果中包括了语音信号中分别属于唤醒语音片段和冗余语音片段的音频。之后，对冗余语音片段的音频信息进行解析可以得到冗余怀疑度，在判断是否执行唤醒动作时，同时依据解码结果对应的唤醒得分和冗余怀疑度，可以提高判断准确性，抑制误唤醒。

附图说明

图1为本发明实施例提供的语音唤醒方法的流程图；

图2为本发明实施例提供的语音唤醒方法的具体流程图；

图3为本发明实施例提供的语音唤醒方法中使用的解码路径的示意图；

图4为现有语音唤醒方法中使用的解码路径的示意图；

图5为本发明实施例提供的语音唤醒装置的结构示意图。

具体实施方式

针对现有的语音唤醒方法容易出现误唤醒的问题，本发明实施例提供了一种语音唤醒方法及装置。为了使本发明的目的，技术方案和优点更加清楚，下面结合附图，对本发明实施例提供的语音唤醒方法及装置的具体实施方式进行详细地说明。应当理解，下面所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供的一种语音唤醒方法，如图1所示，可以包括以下步骤：

S101、确定获取到的语音信号的后验概率，后验概率为语音信号中每帧音频分别对应于预设的各标准音素的概率；具体地，具有语音唤醒功能的设备可以利用麦克风接收外界的语音信号；

S102、采用预先建立的解码路径，对语音信号的后验概率进行解码，得到语音信号的解码结果并计算语音信号的唤醒得分；其中，解码路径包含在设定的各唤醒字之间构建的支路和在唤醒字之间构建的冗余旁路，解码结果包括：语音信号中分别属于唤醒语音片段和冗余语音片段的音频，以及语音信号中每帧音频对应的音素编号和概率；

S103、根据语音信号的解码结果，确定属于冗余语音片段的音频的音频信息；

S104、根据冗余语音片段的音频的音频信息确定冗余怀疑度；

S105、根据唤醒得分和冗余怀疑度，确定是否执行唤醒动作。

具体地，在本发明实施例提供的上述方法中，由于在解码路径中引入了唤醒字之间的冗余旁路，因此，在对语音信号的后验概率进行解码时，可以抽取出除了唤醒字以外的其他音素集合，即解码路径除了可以区分出唤醒字对应的音素，还可以额外获得非唤醒字音素对应的语音片段，即解码结果中包括了语音信号中分别属于唤醒语音片段和冗余语音片段的音频。之后，对冗余语音片段的音频信息进行解析可以得到冗余怀疑度，在判断是否执行唤醒动作时，同时依据解码结果对应的唤醒得分和冗余怀疑度，可以提高判断准确性，抑制误唤醒。

以下结合具体实施例对进行本发明实施例提供的语音唤醒方法的各个步骤进行详细说明。

可选地，在本发明实施例提供的上述方法中，如图2所示，上述步骤S101确定获取到的语音信号的后验概率，具体可以包括以下步骤：

S1011、对获取到的语音信号进行前端处理，得到语音信号中每帧音频的前端特征。前端特征可以为fbank特征，mfcc特征等。

具体地，对语音信号进行前端处理可以包括语音降噪、语音增强等处理，使得经过前端处理后的音频具有更高的质量，以有利于后续音素的准确判断。并且，具体计算前端特征所用的算法为一些通用算法，在此不做详述。例如在使用fbank特征作为前端特征时，通过分帧、预增强、加窗、fft、mel滤波等操作后，计算得到fbank特征，又如在使用mfcc特征作为前端特征时，在计算得到fbank特征的基础上，再进行离散余弦变换，计算得到mfcc特征。

S1012、将语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算，得到语音信号中每帧音频分别对应于各标准音素的概率。

具体地，第一神经网络模型的计算包含一系列以矩阵计算为主的数学运算，经过运算后得到每帧音频分别对应各个标准音素的概率。例如，预先设定100个标准音素，经过第一神经网络模型的计算后，会得到每帧音频分别对应于不同标准音素的概率，如对应于第一标准音素的概率为0.3％，对应于第二标准音素的概率为5％，以此类推，且对应于各标准音素的概率之和为1。

具体地，如图3所示，以唤醒词为“你好小虎”为例示意出了本发明实施例提供的上述方法中步骤S102所采用的解码路径，对照现有方式构建出的如图4所示的解码路径，该解码路径除了包含各唤醒字之间构建的支路，例如唤醒字“你”的自跳路径，唤醒字“你”和“好”之间的路径等，还包括在唤醒字之间构建的冗余旁路，例如唤醒字“你”和“好”之间增加间隔Filler 1的自跳路径，以及从唤醒字“你”到间隔Filler 1的路径和从间隔Filler 1到唤醒字“好”之间的路径等。并且，可以模拟人发音规律，在不同的唤醒字之间构建不同时长的间隔Filler，例如，一般发音规律中“你”和“好”之间的间隔时长小于“好”和“小”之间的间隔时长，可以基于此在其间设置不同时长的间隔Filler；或者，仅在部分唤醒字之间构建间隔Filler，在此不做限定。

具体地，在本发明实施例提供的上述方法中的步骤S102由于采用引入冗余旁路的解码路径对语音信号的后验概率进行解码，即对语音信号中每帧音频分别对应于各标准音素的概率进行解码，因此，在解码结果包含的语音信号每帧音频对应的音素编号以及概率中，可以区分出每帧音频究竟是属于具体哪个唤醒字或属于唤醒字之间的间隔音素(即非唤醒字对应的音素)，即可以区分出唤醒语音片段和冗余语音片段。

具体地，在上述步骤S102中的计算语音信号的唤醒得分时，可以仅采用属于唤醒语音片段的音频对应的音素编号和概率的数据计算唤醒得分，也可以采用语音信号中的每帧音频对应的音素编号和概率的数据计算唤醒得分，在此不做限定。并且，计算唤醒得分的具体算法可以采用常用算法，在此不作详述。例如通过keyword-filler路径的分差和唤醒词帧平均得分进行加权计算，可以得到唤醒得分。可知，每帧音频对应的音素编号包含在唤醒词之内，且其概率越高，最后计算出的唤醒得分越高，即误唤醒的概率越小。而非唤醒字对应的音素，即冗余语音片段中有可能涵盖唤醒字对应的音素，例如语音信号为“你好不好呀小虎”，其中的“不好呀”会涵盖唤醒字对应的音素，因现有技术中并不会区分出冗余语音片段，而是将非唤醒字对应的音素归类为唤醒字，并直接通过得到的唤醒得分确定是否执行唤醒动作，因此发生误唤醒的概率较大。

具体地，在上述步骤S102中得到的唤醒得分较低时，可知语音信号对应唤醒词的概率很小，即可以认为不需要进行唤醒。因此，可选地，在本发明实施例提供的上述方法中，为了降低后续计算量，如图2所示，在执行上述步骤S103确定属于冗余语音片段的音频的音频信息之前，还可以包括以下步骤：

S102-2、判断语音信号的唤醒得分是否大于设定的第一阈值；

若是，则执行后续步骤S103；若否，则退出流程。

可选地，在本发明实施例提供的上述方法中，如图2所示，上述步骤S103确定属于冗余语音片段的音频的音频信息，具体可以包括以下步骤：

S1031、确定属于冗余语音片段的每帧音频的前端特征，以及属于冗余语音片段的每帧音频的语音能量。

具体地，由于在上述步骤S1011中已经得到了语音信号中每帧音频的前端特征，因此，可以直接从中选取冗余语音片段的每帧音频的前端特征，而不用重复计算。

可选地，在本发明实施例提供的上述方法中，如图2所示，上述步骤S104根据冗余语音片段的音频的音频信息确定冗余怀疑度，具体可以包括以下步骤：

S1041、将音频信息输入至预设的第二神经网络模型中，得到冗余怀疑度。

具体地，第二神经网络模型的计算量要小于第一神经网络模型的计算量。并且，可以预先训练第二神经网络模型，使其在输入的音频信息对应于静音或噪音的背景环境音时，输出的冗余怀疑度越小。或者反之，在此不作详述。

可选地，在本发明实施例提供的上述方法中，如图2所示，上述步骤S105根据唤醒得分和冗余怀疑度，确定是否执行唤醒动作，具体可以包括以下步骤：

S1051、根据唤醒得分和冗余怀疑度，确定语音信号的唤醒置信度；具体地，在第二神经网络模型输入的音频信息对应于静音或噪音的背景环境音时，输出的冗余怀疑度越小时，可以将唤醒得分与冗余怀疑度之差作为唤醒置信度；

S1052、确定唤醒置信度是否大于设定的第二阈值；

若是，则执行步骤S1053、确定执行唤醒动作；若否，则退出流程。

具体地，通过唤醒得分和冗余怀疑度得到唤醒置信度，采用唤醒置信度确定是否执行唤醒动作，可以显著减少发生误唤醒的概率。

基于同一发明构思，本发明实施例还提供了一种语音唤醒装置，可以应用于智能设备，例如智能音箱等，由于该装置解决问题的原理与前述一种语音唤醒方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的一种语音唤醒装置，如图5所示，可以包括：

计算模块1，用于确定获取到的语音信号的后验概率，后验概率为语音信号中每帧音频分别对应于预设的各标准音素的概率；

解码模块2，用于采用预先建立的解码路径，对语音信号的后验概率进行解码，得到语音信号的解码结果并计算语音信号的唤醒得分；其中，解码路径包含在设定的各唤醒字之间构建的支路和在唤醒字之间构建的冗余旁路，解码结果包括：语音信号中分别属于唤醒语音片段和冗余语音片段的音频，以及所述语音信号中每帧音频对应的音素编号和概率；

后处理模块3，用于根据语音信号的解码结果，确定属于冗余语音片段的音频的音频信息；根据冗余语音片段的音频的音频信息确定冗余怀疑度；

判断模块4，用于根据唤醒得分和冗余怀疑度，确定是否执行唤醒动作。

可选地，在本发明实施例提供的上述装置中，如图5所示，计算模块1，可以具体包括：

前端处理模块11，用于对获取到的语音信号进行前端处理，得到语音信号中每帧音频的前端特征；

神经网络计算模块12，用于将语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算，得到语音信号中每帧音频分别对应于各标准音素的概率。

可选地，在本发明实施例提供的上述装置中，后处理模块3，具体可以用于确定属于冗余语音片段的每帧音频的前端特征，以及属于冗余语音片段的每帧音频的语音能量。

可选地，在本发明实施例提供的上述装置中，后处理模块3，具体可以用于将音频信息输入至预设的第二神经网络模型中，得到冗余怀疑度。

可选地，在本发明实施例提供的上述装置中，判断模块4，还可以用于在确定属于冗余语音片段的音频的音频信息之前，判断语音信号的唤醒得分是否大于设定的第一阈值；若是，则执行确定属于冗余语音片段的音频的音频信息。

可选地，在本发明实施例提供的上述装置中，判断模块4，具体可以用于根据唤醒得分和冗余怀疑度，确定语音信号的唤醒置信度；在确定唤醒置信度大于设定的第二阈值时，确定执行唤醒动作。

可选地，在本发明实施例提供的上述装置中，判断模块4，具体可以用于将唤醒得分与冗余怀疑度之差作为唤醒置信度。

本发明实施例提供的上述语音唤醒方法及装置，通过在解码路径中引入了唤醒字之间的冗余旁路，在对语音信号的后验概率进行解码时，可以抽取出除了唤醒字以外的其他音素集合，即解码路径除了可以区分出唤醒字对应的音素，还可以额外获得非唤醒字音素对应的语音片段，即解码结果中包括了语音信号中分别属于唤醒语音片段和冗余语音片段的音频。之后，对冗余语音片段的音频信息进行解析可以得到冗余怀疑度，在判断是否执行唤醒动作时，同时依据解码结果对应的唤醒得分和冗余怀疑度，可以提高判断准确性，抑制误唤醒。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音唤醒方法，其特征在于，包括：

确定获取到的语音信号的后验概率，所述后验概率为所述语音信号中每帧音频分别对应于预设的各标准音素的概率；

根据所述冗余语音片段的音频的音频信息确定冗余怀疑度；

2.如权利要求1所述的方法，其特征在于，所述确定获取到的语音信号的后验概率，具体包括：

将所述语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算，得到所述语音信号中每帧音频分别对应于各所述标准音素的概率。

3.如权利要求2所述的方法，其特征在于，所述确定属于所述冗余语音片段的音频的音频信息，具体包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述冗余语音片段的音频的音频信息确定冗余怀疑度，具体包括：

5.如权利要求1所述的方法，其特征在于，在确定属于所述冗余语音片段的音频的音频信息之前，还包括：

判断所述语音信号的唤醒得分是否大于设定的第一阈值；

6.如权利要求1所述的方法，其特征在于，所述根据所述唤醒得分和所述冗余怀疑度，确定是否执行唤醒动作，具体包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述唤醒得分和所述冗余怀疑度，确定所述语音信号的唤醒置信度，具体包括：

8.一种语音唤醒装置，其特征在于，包括：

计算模块，用于确定获取到的语音信号的后验概率，所述后验概率为所述语音信号中每帧音频分别对应于预设的各标准音素的概率；

9.如权利要求8所述的装置，其特征在于，所述计算模块，具体包括：

神经网络计算模块，用于将所述语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算，得到所述语音信号中每帧音频分别对应于各所述标准音素的概率。

10.如权利要求9所述的装置，其特征在于，所述后处理模块，具体用于确定属于所述冗余语音片段的每帧音频的前端特征，以及属于所述冗余语音片段的每帧音频的语音能量。

11.如权利要求8所述的装置，其特征在于，所述后处理模块，具体用于将所述音频信息输入至预设的第二神经网络模型中，得到冗余怀疑度。

12.如权利要求8所述的装置，其特征在于，所述判断模块，还用于在确定属于所述冗余语音片段的音频的音频信息之前，判断所述语音信号的唤醒得分是否大于设定的第一阈值；若是，则执行确定属于所述冗余语音片段的音频的音频信息。

13.如权利要求8所述的装置，其特征在于，所述判断模块，具体用于根据所述唤醒得分和所述冗余怀疑度，确定所述语音信号的唤醒置信度；在确定所述唤醒置信度大于设定的第二阈值时，确定执行唤醒动作。

14.如权利要求13所述的装置，其特征在于，所述判断模块，具体用于将所述唤醒得分与所述冗余怀疑度之差作为所述唤醒置信度。