CN108615526A

CN108615526A - 语音信号中关键词的检测方法、装置、终端及存储介质

Info

Publication number: CN108615526A
Application number: CN201810431800.7A
Authority: CN
Inventors: 高毅; 于蒙; 苏丹; 陈杰; 罗敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-02
Anticipated expiration: 2038-05-08
Also published as: US11341957B2; US20200357386A1; EP3792911A1; EP3792911B1; EP3792911A4; WO2019214361A1; CN108615526B

Abstract

本发明公开了一种语音信号中关键词的检测方法、装置、终端及存储介质，属于终端技术领域。所述方法包括：获取语音信号中各个目标文字在采集时间段内为关键字的后验概率；根据每个目标文字的后验概率，获取至少两种目标文字组合的置信度；当至少两种目标文字组合的置信度均满足预设条件时，确定语音信号中包括关键词。本发明通过获取至少两种目标文字组合的置信度，并在各种目标文字组合的置信度均满足预设条件时，确定语音信号中包括关键词。由于基于各个目标文字的后验概率得到的置信度、以及部分目标文字的后验概率得到的置信度进行检测，因而能够避免误检，检测结果更准确。

Description

语音信号中关键词的检测方法、装置、终端及存储介质

技术领域

本发明涉及终端技术领域，特别涉及一种语音信号中关键词的检测方法、装置、终端及存储介质。

背景技术

在现代生活中，智能手机、智能电视、智能音响、智能开关等智能设备已得到了广泛应用。通常智能设备具有多种功能，包括语音信号采集功能以及对实时或非实时语音信号的处理功能等，基于这些功能，无需用户手动操作，智能设备根据从语音信号中检测出的关键词即可执行相应操作。由于关键词的检测结果，直接影响到智能设备所执行的操作的准确性，因此，如何对语音信号中的关键词进行检测，成为提高人机交互体验的关键。

目前，语音信号中的关键词的检测方法为：采集语音信号；检测语音信号中是否包括与关键字的发音相匹配的文字；如果语音信号中存在与关键字的发音相匹配的文字，则获取该文字为关键字的后验概率；对语音信号中各个文字为关键字的后验概率进行累加，得到语音信号中包括关键词的置信度；如果该置信度大于阈值，则确定从语音信号中检测到关键词。

然而，在实际使用场景下，当语音信号中包括的文字较多时，可能会存在语音信号中未包括关键词，但将语音信号中多个文字为关键字的后验概率累加得到的置信度却大于阈值，此时会误认为从语音信号中检测到关键词，从而造成误检。例如，关键词为“你好小听”，当语音信号中包括与“你好小听”中任意三个关键字发音相匹配的文字时，将三个文字为关键字的后验概率累加得到的置信度可能会大于阈值，从而造成误检。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种语音信号中关键词的检测方法、装置、终端及存储介质。所述技术方案如下：

一方面，提供了一种语音信号中关键词的检测方法，所述方法包括：

提取语音信号的语音特征向量；

根据所述语音特征向量，获取所述语音信号中各个目标文字的后验概率，所述后验概率是指目标文字在所述语音信号的采集时间段内为任一关键词中关键字的后验概率，所述目标文字为与关键字的发音相匹配的文字；

根据每个目标文字的后验概率，获取至少两种目标文字组合的置信度，每种目标文字组合包括至少一个目标文字，所述置信度表征每种目标文字组合为所述关键词或所述关键词中的部分关键词的概率；

当所述至少两种目标文字组合的置信度均符合预设条件时，确定所述语音信号中包括所述关键词。

另一方面，提供了一种语音信号中关键词的检测装置，所述装置包括：

提取模块，用于提取语音信号的语音特征向量；

获取模块，用于根据所述语音特征向量，获取所述语音信号中各个目标文字的后验概率，所述后验概率是指目标文字在所述语音信号的采集时间段内为任一关键词中关键字的后验概率，所述目标文字为与关键字的发音相匹配的文字；

所述获取模块，用于根据每个目标文字的后验概率，获取至少两种目标文字组合的置信度，每种目标文字组合包括至少一个目标文字，所述置信度表征每种目标文字组合为所述关键词或所述关键词中的部分关键词的概率；

确定模块，用于当所述至少两种目标文字组合的置信度均符合预设条件时，确定所述语音信号中包括所述关键词。

另一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现语音信号中关键词的检测方法。

另一方面，提供了一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现语音信号中关键词的检测方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

通过获取至少两种目标文字组合的置信度，并在各种目标文字组合的置信度均满足预设条件时，确定语音信号中包括关键词。由于基于各个目标文字的后验概率得到的置信度、以及部分目标文字的后验概率得到的置信度进行检测，因而能够避免误检，检测结果更准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音信号中关键词的检测方法所涉及的实施环境；

图2是本发明实施例提供的一种语音信号中关键词的检测方法流程图；

图3是本发明实施例提供的一种声学检测模型的网络结构示意图；

图4是本发明实施例提供的一种置信度计算过程的示意图；

图5是本发明实施例提供的信噪比计算过程的示意图；

图6是本发明实施例提供的一种语音信号中关键词的检测装置结构示意图；

图7示出了本发明一个示例性实施例提供的语音信号中关键词检测的终端的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

随着智能语音设备的推广，通过语音指令与智能设备进行人机交互成为重要功能。为了实现该功能，智能设备中存储有关键词和语音指令之间的对应关系，当采集到语音信号时，智能设备通过对语音信号进行检测，从语音信号中检测出关键词，并根据关键词与语音指令之间的对应关系，获取检测出的关键词对应的语音指令，进而基于该语音指令执行相应操作，以提高用户的操作体验效果。在基于语音信号执行操作的过程中，最为关键的步骤是如何从语音信号中检测出关键词，目前，相关技术在从语音信号中检测关键词时，可采用如下二种方法：

第一种方法、主要针对英文使用场景，该方法会对语音信号中各个子词进行检测，当检测到与关键英文单词发音相同的子词时，顺序累加各个子词为关键英文单词的后验概率，最终得到语音信号中包括英文关键词的置信度，该置信度用于决策是否检测到关键词。然而，在中文使用场景下，当关键词包括的汉字(关键字)较多时，单个置信度的检测方式容易造成误检。例如，关键词为“你好小听”，当语音信号中包括发音与“你好小”或者“你好听”等其中三个关键字发音相同的汉字时，对各个汉字为关键字的后验概率累加得到的置信度较大，从而容易造成误检。

第二种方法、将采集的语音信号划分为至少两个音素，从每个音素对应的至少两个音频帧的后验概率中，获取最大的后验概率，并基于最大的后验概率获取置信度，该置信度同样用于决策是否检测到关键词。该种方法也采用单一置信度进行决策，同样容易造成误检。

为了提高检测结果的准确性，本发明实施例提供了一种语音信号中关键词的检测方法，该方法通过对采集的语音信号中各个文字的发音进行检测，检测出与关键词中关键字发音相同的目标文字，并获取每个目标文字在语音信号的采集时间段内为关键字的后验概率，通过对各个目标文字在语音信号的采集时间段内为关键字的后验概率进行组合，得到至少两个置信度，从而根据至少两个置信度，决策是否检测到关键词，该方法不仅仅对所有目标文字在语音信号的采集时间段内为关键字的后验概率进行组合，而且还会对部分目标文字在语音信号的采集时间段内为关键词的后验概率进行组合，进而根据目标文字整体组合及目标文字进行部分组合得到的至少两个置信度，判断是否检测到关键词。例如，关键词为“你好小听”，当从语音信号中检测出与“你”、“好”、“小”、“听”发音相同的目标文字后，对发音为“你好小听”、“你好”、“你听”、“好小”、“小听”、“你好小”等的目标文字进行组合，当上述各种目标文字组合的置信度均满足相应的阈值条件时，确定检测出关键词，从而降低对关键词的误检。

考虑到在中文使用场景下，汉语中发音相同或相近的汉字较多，而在绝大多数场景下，用户将关键词作为语音命令说出来时，关键词的音量会明显大于环境噪声的音量，因此，当关键词中包括的关键字较少时，本发明实施例可计算语音信号的信噪比，并在信噪比满足相应的阈值条件时，确定检测出关键词，从而降低对关键词的误检，提高了检测结果的准确性。

本发明实施例提供的语音信号中关键词的检测方法主要应用于终端中，该终端可以为智能手机、智能电视、智能音响、智能开关等智能设备。该终端具有麦克风或麦克风阵列等音频采集设备，基于这些音频采集设备，终端可以采集语音信号。该终端安装有能够进行语音控制的应用或控件，基于该应用或控件，可实现语音控制。

图1示出了语音信号中关键词的检测方法所涉及的实施环境，该实施环境中的各个功能模块设置于终端中。参见图1，各个功能模块包括语音输入与特征提取模块、声学模型检测模块、置信度计算模块、决策逻辑模块及信噪比估计模块。

其中，语音输入与特征提取模块包括语音输入子模块和特征提取子模块，该语音输入子模块用于通过麦克风或麦克风阵列等音频采集设备采集语音信号，该特征提取子模块用于从语音信号中提取语音特征向量。

声学模型检测模块为预先训练的声学检测模型，包括但不限于基于GMM(GaussianMixture Model，高斯混合模型)-HMM(Hidden Markov Model，隐马尔可夫模型)、DNN(DeepNeural Network，深度神经网络)、CNN(Convolutional Neural Network，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)等生成模型或者神经网络构建的模型，其输入为语音输入与特征提取模块提取的语音特征向量，输出为各个输出节点(包括关键字输出节点以及非关键字输出节点)计算得到的后验概率。

置信度计算模块用于根据声学模型检测模块输出的各个关键词的后验概率，计算不同关键字组合的置信度。例如，关键词为“你好小听”，可以计算出“你好小听”、“你好”、“小听”、“你好听”、“你好小”等多种关键字组合的置信度。

决策模块用于根据置信度计算模块得到的至少两个置信度与第一指定阈值进行比较，当至少两个置信度均满足预设条件时，确定检测出关键词。

信噪比估计模块用于实时计算音频采集设备采集到的环境噪声的能量和语音信号的能量，并根据环境噪声的能量和语音信号的能量，计算语音信号的信噪比，并将所计算的信噪比输入到决策逻辑模块，以辅助决策逻辑模块进行决策。该信噪比估计模块的功能可以启用，也可以不启用。当信噪比估计模块的功能启用时，决策逻辑模块可判断语音信号的信噪比满足阈值条件，当语音信号的信噪比满足阈值条件时，确定检测出关键词。

本发明实施例提供了一种语音信号中关键词的检测方法，参见图2，本发明实施例提供的方法流程包括：

201、终端采集语音信号。

当终端启动后，终端可借助麦克风或麦克风阵列等音频采集设备，实时采集用户的语音信号。该语音信号具有确定的时长，可根据用户发音时长确定。该语音信号通常为一种语音数字信号。

202、终端提取语音信号的语音特征向量。

其中，语音特征向量为语音信号中基于人耳听觉特性获取的声音特征所组成的向量，该能够被人耳所识别的声音特征包括梅尔频率倒谱系数、Fbank特征、能量等。

具体地，终端从采集的语音信号中，提取语音信号的语音特征向量时，可采用如下步骤：

2021、终端将语音信号划分为至少两个第一语音片段，每个第一语音片段具有相同的时长。

其中，第一语音片段的时长可以为20毫秒、30毫秒等等，本发明实施例不对第一语音片段的时长作具体的限定。以20毫秒为例，终端可以10毫秒为步长，对语音信号进行划分，从而可得到至少两个时长为20毫秒的第一语音片段。

2022、终端采用预设特征提取算法，从每个第一语音片段中，提取语音特征。

其中，预设特征提取算法可以为梅尔频率倒谱系数提取算法、Fbank特征提取算法等。基于预设特征提取算法，终端可从每个第一语音片段中，提取相应的语音特征。例如，终端采用梅尔频率倒谱系数提取算法对第一语音片段进行特征提取，可得到动态或静态的梅尔频率倒谱系数；终端采用Fbank特征提取算法对第一语音片段进行特征提取，可得到Fbank特征。

2023、终端对至少两个第一语音片段的语音特征进行拼接，得到语音特征向量。

终端通过对至少两个第一语音片段进行特征提取，得到至少两个语音特征，进而对得到的至少两个语音特征进行拼接，得到语音特征向量。终端在对至少两个语音特征进行拼接时，可按照采集时间顺序，对至少两个语音特征进行拼接；终端还可对至少两个语音特征进行随机拼接，当然，还可以采用其他的拼接方式，本发明实施例对此不作具体的限定。

语音特征向量的提取过程，可参见下述具体例子。

终端通过麦克风采集16KHz的语音数字信号，并在语音数字信号处理器或CPU(Central Processing Unit，中央处理器)中，通过语音输入与特征提取模块计算每一帧语音数据(即第一语音片段)的静态以及动态梅尔频率倒谱系数或者Fbank特征，进而将一帧或连续多帧语音数据的特征进行拼接，得到语音特征向量。

203、终端根据语音特征向量，获取语音信号中各个目标文字的后验概率。

在本发明实施例中，终端所执行的每个语音指令都对应一个关键词，每个关键词包括至少两个关键字。当从语音信号中提取出语音特征向量，终端将语音特征向量输入到声学检测模型中，由声学检测模型输出每个目标文字在语音信号的采集时间段内为关键字的后验概率。其中，后验概率是指目标文字在语音信号的采集时间段内为任一关键词中关键字的后验概率。目标文字为与关键字的发音相匹配的文字。

其中，本发明实施例中所述的发音相匹配是指发音相同或相近，例如，关键字“你”发音为一声的“ni”，对于语音信号中包括的任一文字，如果该文字发音为一声的“ni”、或二声的“ni”、或三声的“ni”，均可认为该文字为与关键字“你”发音相匹配的文字。

其中，不可能同时存在与两个或两个以上关键字发音匹配的文字，会获取的不同时刻为关键字的后验概率，最终得到的是每个目标文字在语音信号的采集时间段内为关键字的后验概率。该在语音信号的采集时间段内的后验概率表示成时间和后验概率值的曲线，曲线上的每一点表示某一时刻目标文字为关键字的后验概率。另外，对于语音信号中的每个文字，其只可能与某一关键字的发音相匹配，因此，曲线上仅有一个概率最大值点，也即是每个目标文字在语音信号的采集时间段内具有一个最大后验概率。

其中，声学检测模型用于基于关键字的语音特征向量，从语音信号中检测出与关键字的发音相匹配的文字，并获取与关键字的发音相匹配的文字为关键字的后验概率。该声学检测模型可通过关键字及其语音特征向量对初始声学检测模型训练得到，初始声学检测模型可通过概率生成模型，或者DNN、CNN、RNN等神经网络或者它们的组合网络来实现。

图3为基于神经网络所得到的声学检测模型，参见图3，该声学检测模型包括输入层、隐藏层和输出层，对于各层功能介绍如下：

其中，输入层用于输入语音特征向量，尽管输入层中的三个节点，但实际上，输入层中的节点数量由输入特征向量包含的数值的数量确定，如果采用Fbank特征并将两个时间片段的Fbank特征拼接起来作为输入，每一时间片段有40个特征值，则输入为80个特征值，此时输入层的节点数量为80个。

隐藏层用于对输入的语音特征向量进行处理，尽管图3仅示出隐藏层包括三层网络，每层网络包括四个节点，但实际上，隐藏层中网络层数可以为1到L，其中，L为大于1的正整数，通常取值为1到200之间；每层网络上的节点数K为大于1的正整数，通常取值为2到2000之间，K的具体取值可根据训练数据的大小和终端的计算资源进行确定。

输出层包括P个输出节点，分别为P-1个关键字输出节点和一个非关键字输出节点。其中，P-1个关键字输出节点，可输出语音信号中目标文字在语音信号的采集时间段内为关键词中(p-1)个关键字的后验概率；一个非关键字节点可输出语音信号中所有非关键字的后验概率。例如，图3中所示的关键词为“你好小听”，包括四个关键字，则输出层的节点数量为五个，其中，四个节点分别对应于“你”、“好”、“小”、“听”四个关键字，一个节点对应于所有非关键字的信号帧。输出层会对各个节点所输出的后验概率进行softmax运算，经过softmax运算后，所有输出节点输出的后验概率之和为1。如果当前帧属于当前某一关键字时间段内的语音信号，则对应这一关键字的输出节点输出的后验概率接近于1，而非关键字输出节点输出的后验概率接近于0。

204、终端根据每个目标文字的后验概率，获取至少两种目标文字组合的置信度。

其中，每种目标文字组合包括至少一个目标文字，每种目标文字组合的置信度用于表征每种目标文字组合为关键词或关键词中的部分关键词的概率，实际上，该置信度包括根据各个目标文字为关键字的后验概率获取到的置信度，还包括根据部分目标文字为关键字的后验概率获取到的置信度。

具体地，终端根据每个目标文字在采集时间段内的后验概率，获取至少两种目标文字组合的置信度时，可采用如下步骤：

第一步，终端根据每个目标文字的后验概率，采用不同的选择器随机选取至少一个目标文字，得到至少两种目标文字组合。

如果关键词中包括N个关键字，每个关键字组合中可以包括M个关键字，则从N个关键字中随机选取M个关键字，可得到C_N ^M种组合形式。其中，M、N为正整数，且M的取值为大于等于1且小于等于N。

终端在随机选取至少一个目标文字进行组合时，所得到的每种目标文字组合中的目标文字可以在时间上相邻，也可以是时间上不相邻。参见图4，设定关键词为“你好小听”，左侧一列为声学检测模型输出的语音信号中的各个目标文字在时间窗口Dw(即语音信号的采集时间段)内为关键字的后验概率，其中，横轴表示语音信号的采集时间，纵轴表示目标文字为关键字概率值，参见图4中的中间一列，终端内的选择器1可将与相邻两个关键字“好”和“小”发音相同的目标文字组成部分关键词，选择器2可将与不相邻的两个关键字“你”和“听”发音相同的目标文字组成部分关键词。

第二步，对于任一目标文字组合，终端根据目标文字组合中每个目标文字在采集时间段内的后验概率，获取每个目标文字的最大后验概率。

第三步，终端获取目标文字组合包括的各个目标文字的最大后验概率的乘积，得到目标文字组合的置信度。

参见图4，对于选择器1所选择的部分关键词“好小”，终端将与相邻的两个关键字“好”和“小”发音相同的目标文字在时间窗口Dw内的最大后验概率相乘，得到发音为“好小”的目标文字组合的置信度；选择器2将与不相邻的两个关键字“你”和“听”发音相同的目标文字在时间窗口Dw内的最大后验概率相乘，得到发音为“你听”目标文字组合的置信度。经过上述组合，最终可得到图4中右边一列的置信度，其中，横轴表示语音信号的时间，纵轴表示不同目标文字组合的置信度。

在另一种实现方式中，终端可根据不同目标文字的采集时间顺序，对每种目标文字组合的组合形式进行约束，使得按照采集时间顺序得到的目标文字组合获取的置信度，显著大于未按照采集时间顺序获取的目标文字组合的置信度。例如，对于关键词“你好小听”，终端在对关键字进行组合得到的不同关键字组合中，“你好”的置信度要大于“好你”的置信度。基于上述内容，终端可按照采集时间顺序，获取至少一个目标文字，得到至少两个目标文字组合，并根据每种目标文字组合中每个目标文字在采集时间段内的后验概率，获取每个目标文字的最大后验概率，进而获取每种目标文字组合包括的各个目标文字的最大后验概率的乘积，得到每种目标文字组合的置信度。

需要说明的是，为了提高所获取的置信度的准确性，终端可对每个目标文字在语音信号的采集时间段内为关键字的后验概率在时域上进行平滑处理，进而基于平滑处理后的后验概率获取置信度。

205、当至少两种目标文字组合的置信度均满足预设条件时，终端确定语音信号中包括关键词。

当得到至少两种目标文字组合的置信度后，终端将每种目标文字组合的置信度与第一阈值进行比较，当至少两种目标文字组合的置信度均大于第一阈值时，终端确定语音信号中包括关键词。其中，预设条件可以为第一阈值，该第一阈值由实际测量结果确定，该第一阈值可以为0.9、0.95等等。

当然，除了将各种目标文字组合的置信度与同一第一阈值进行比较外，终端还可针对不同的目标文字组合设置多个不同的第一阈值，从而决策逻辑模块在基于不同种目标文字组合的置信度进行决策时，可将每种目标文字组合的置信度与相应的第一阈值进行比较，当各种目标文字组合的置信度均大于相应的第一阈值时，确定语音信号中包括关键词。

在本发明的另一个实施例中，为了提高检测结果的准确性，终端还将对语音信号的信噪比进行估计，从而根据语音信号的信噪比，进一步判断语音信号中是否包括关键词。具体的，该过程如下：

第一步，终端以确定至少两种目标文字组合的置信度均满足阈值条件的时刻为起点，从语音信号中获取预设时长的第二语音片段。

其中，预设时长可以为200毫秒、300毫秒等等，本发明实施例不对预设时长作具体的限定。

其中，第二语音片段包括第三语音片段和第四语音片段中至少一个，也即是，第二语音片段可以为第三语音片段，还可以为第四语音片段，也可以为第三语音片段和第四语音片段。其中，第三语音片段为以该时刻为起点、语音信号中位于该时刻之后的预设时长的语音片段，第四语音片段为以该时刻为起点、语音信号中位于该时刻之前的预设时长的语音片段。

第二步，终端获取第二语音片段的信噪比。

终端获取第二语音片段的信噪比时，可采用如下步骤：

(a)、终端将第二语音片段划分为至少两个子片段，每个子片段具有相同的时长。

在具体划分时，终端以指定时长为步长，将第二语音片段划分为多个子片段，每个子片段的时长为指定时长，且每个子片段之间在时间上可以存在交叠，也可以不存在交叠。其中，指定时长可以为20毫秒、30毫秒。

(b)、终端获取每个子片段对应的波形信号的幅度。

终端基于每个子片段对应的波形信号的幅度绝对值的包络线，对每个子片段的幅度值进行计算，得到每个子片段的幅度，该幅度为每个子片段的最大幅度值。

(c)、终端从至少两个子片段的幅度中，获取最大幅度和最小幅度。

基于至少两个子片段的幅度，终端通过将至少两个子片段的幅度进行比较，从至少两个子片段的幅度中，获取最大幅度和最小幅度。

(d)、终端获取最大幅度和最小幅度的对数比值，得到第二语音片段的信噪比。

设定最大幅度为S，最小幅度为Q，则第二语音片段的信噪比为log(S/Q)。

除了采用上述方法获取第二语音片段的信噪比外，还可以采用背景估计算法，实时跟踪环境背景噪声能量，并在语音信号采集时间段内，根据语音信号的能量和环境噪声能量计算信噪比。

第三步，当第二语音片段的信噪比满足阈值条件时，终端确定语音信号中包括关键词。

其中，阈值条件的阈值可以为2、3、5等等，本发明实施例不对该阈值进行限定。由于第二语音片段包括第三语音片段和第四语音片段中至少一个，针对第二语音片段的不同情况，终端所设置的阈值也是不同的，这样，终端在将第二语音片段的信噪比与阈值进行比较时，可针对第二语音片段中包括的语音片段选取相应的阈值，从而将第二语音片段与相应的阈值进行比较。

上述基于信噪比的关键词检测过程，将结合图5进行详述。

参见图5，图5中的横轴表示语音信号的采集时间，纵轴表示能量或幅度的绝对值的包络线，如果决策模块根据各个目标文字组合的置信度，确定在Tk时刻检测到关键词，则信噪比估计模块可获取Tk时刻之前的Da时间段内的第四语音片段，并获取该第四语音片段的信噪比，当该第四音片段的信噪比大于设定的阈值THREHOLDa时，确定语音信号中包括关键词，否则语音信号中不包括关键词；决策模块还可获取Tk时刻之后的Db时间段内的第三语音片段，并获取该第三语音片段的信噪比，当该第三音片段的信噪比大于设定的第二指定阈值THREHOLDb时，确定语音信号中包括关键词，否则确定语音信号中不包括关键词；当然，信噪比估计模块还可以在第四音片段的信噪比大于设定的阈值THREHOLDa且第三语音片段的信噪比大于设定的阈值THREHOLDb时，确定语音信号中包括关键词。

参见图5，信噪比估计模块进行信噪比估计的实现过程可以为：在Da时间段内，将Da时间段内的幅度绝对值的包络信号划分成D1、D2、…多个时长相等(例如300ms)的小段信号，每个小段信号之间在时间上可以存在交叠。在每一个小段信号内计算这一小段信号的幅度，该幅度为小段信号的最大幅度值，每一小信号段内的幅度分别为Smax1、Smax2、…Smaxn。接着，终端计算在整个Da时间段内的最大幅度和最小幅度，计算两者的对数比值来近似表示Da时间段内语音信号的信噪比。例如，如果在D2信号段内获取到的幅度为Smax2，在D6信号段内获取到的幅度为Smax6，其中Smax2为Da时段内的最小幅度，Smax6为Da时段内的最大幅度。终端通过计算Smax6与Smax2的比值的对数值，来近似表示信噪比。对于在Db时间段内的信噪比估计过程，可以执行同样操作获取，此处不再赘述。

本发明实施例提供的方法，通过获取至少两种目标文字组合的置信度，并在各种目标文字组合的置信度均满足阈值条件时，确定检测出关键词。由于基于各个目标文字的后验概率得到的置信度、以及部分目标文字的后验概率得到的置信度进行检测，因而能够避免误检，检测结果更准确。

另外，在关键词中包括的关键字较少时，通过对语音信号进行信噪比计算，并根据信噪比进行校验，从而进一步保证了检测结果的准确性。

参见图6，本发明实施例提供了一种语音信号中关键词的检测装置，该装置包括：

提取模块601，用于提取语音信号的语音特征向量；

获取模块602，用于根据语音特征向量，获取语音信号中各个目标文字的后验概率，后验概率是指目标文字在语音信号的采集时间段内为任一关键词中关键字的后验概率，目标文字为与关键字的发音相匹配的文字；

获取模块602，用于根据每个目标文字的后验概率，获取至少两种目标文字组合的置信度，每种目标文字组合包括至少一个目标文字，置信度表征每种目标文字组合为关键词或关键词中的部分关键词的概率；

确定模块603，用于当至少两种目标文字组合的置信度均符合预设条件时，确定语音信号中包括关键词。

在本发明的另一个实施例中，提取模块601，用于将语音信号划分为至少两个第一语音片段，每个第一语音片段具有相同的时长；采用预设特征提取算法，从每个第一语音片段中，提取语音特征；对至少两个第一语音片段的语音特征进行拼接，得到语音特征向量。

在本发明的另一个实施例中，获取模块602，用于将语音特征向量输入到声学检测模型中，输出语音信号中各个目标文字为关键字的后验概率；其中，声学检测模型用于基于关键字的语音特征向量，从语音信号中检测出与关键字的发音相匹配的文字，并获取与关键字的发音相匹配的文字在采集时间段内为关键字的后验概率。

在本发明的另一个实施例中，获取模块602，用于按照每个目标文字的采集时间顺序，获取至少一个目标文字，得到至少两种目标文字组合；对于任一种目标文字组合，根据目标文字组合中每个目标文字在采集时间段内的后验概率，获取每个目标文字的最大后验概率；获取目标文字组合包括的各个目标文字的最大后验概率的乘积，得到目标文字组合的置信度。

在本发明的另一个实施例中，获取模块602，用于以确定至少两种目标文字组合的置信度均符合预设条件的时刻为起点，从语音信号中获取预设时长的第二语音片段；

获取模块602，用于获取第二语音片段的信噪比；

确定模块603，用于当第二语音片段的信噪比满足阈值条件时，确定语音信号中包括关键词。

在本发明的另一个实施例中，获取模块602，用于将第二语音片段划分为至少两个子片段，每个子片段具有相同的时长；获取每个子片段对应波形信号的幅度；从至少两个子片段对应的幅度中，获取最大幅度和最小幅度；获取最大幅度和最小幅度的对数比值，得到第二语音片段的信噪比。

在本发明的另一个实施例中，第二语音片段包括第三语音片段和第四语音片段中至少一个，第三语音片段为以时刻为起点、语音信号中位于时刻之后的预设时长的语音片段，第四语音片段为以时刻为起点、语音信号中位于时刻之前的预设时长的语音片段。

综上，本发明实施例提供的装置，通过获取至少两种目标文字组合的置信度，并在各种目标文字组合的置信度均满足预设条件时，确定语音信号中包括关键词。由于基于对各个目标文字的后验概率组合得到的置信度、以及对部分目标文字的后验概率组合得到的置信度进行检测，因而能够避免误检，检测结果更准确。

图7示出了本发明一个示例性实施例提供的语音信号中关键词检测的终端700的结构框图。该终端700可以是：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的语音信号中关键词的检测方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本发明实施例提供的终端，通过获取至少两种目标文字组合的置信度，并在各种目标文字组合的置信度均满足预设条件时，确定语音信号中包括关键词。由于基于各个目标文字的后验概率得到的置信度、以及部分目标文字的后验概率得到的置信度进行检测，因而能够避免误检，检测结果更准确。

本发明实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图2所示的语音信号中关键词的检测方法。

本发明实施例提供的计算机可读存储介质，通过获取至少两种目标文字组合的置信度，并在各种目标文字组合的置信度均满足预设条件时，确定语音信号中包括关键词。由于基于各个目标文字的后验概率得到的置信度、以及部分目标文字的后验概率得到的置信度进行检测，因而能够避免误检，检测结果更准确。

需要说明的是：上述实施例提供的语音信号中关键词的检测装置在检测语音信号中关键词时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将语音信号中关键词的检测装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音信号中关键词的检测装置与语音信号中关键词的检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音信号中关键词的检测方法，其特征在于，所述方法包括：

提取语音信号的语音特征向量；

2.根据权利要求1所述的方法，其特征在于，所述提取语音信号的语音特征向量，包括：

将所述语音信号划分为至少两个第一语音片段，每个第一语音片段具有相同的时长；

采用预设特征提取算法，从每个第一语音片段中，提取语音特征；

对所述至少两个第一语音片段的语音特征进行拼接，得到所述语音特征向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音特征向量，获取所述语音信号中各个目标文字的后验概率，包括：

将所述语音特征向量输入到声学检测模型中，输出所述语音信号中各个目标文字为关键字的后验概率；

其中，所述声学检测模型用于基于关键字的语音特征向量，从语音信号中检测出与关键字的发音相匹配的文字，并获取与关键字的发音相匹配的文字在采集时间段内为关键字的后验概率。

4.根据权利要求1所述的方法，其特征在于，所述根据每个目标文字的后验概率，获取至少两种目标文字组合的置信度，包括：

按照每个目标文字的采集时间顺序，获取至少一个目标文字，得到至少两种目标文字组合；

对于任一种目标文字组合，根据所述目标文字组合中每个目标文字在所述采集时间段内的后验概率，获取每个目标文字的最大后验概率；

获取所述目标文字组合包括的各个目标文字的最大后验概率的乘积，得到所述目标文字组合的置信度。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

以确定所述至少两种目标文字组合的置信度均符合预设条件的时刻为起点，从所述语音信号中获取预设时长的第二语音片段；

获取所述第二语音片段的信噪比；

当所述第二语音片段的信噪比满足阈值条件时，确定所述语音信号中包括所述关键词。

6.根据权利要求5所述的方法，其特征在于，所述获取所述第二语音片段的信噪比，包括：

将所述第二语音片段划分为至少两个子片段，每个子片段具有相同的时长；

获取每个子片段对应的波形信号的幅度；

从所述至少两个子片段对应的幅度中，获取最大幅度和最小幅度；

获取所述最大幅度和所述最小幅度的对数比值，得到所述第二语音片段的信噪比。

7.根据权利要求5所述的方法，其特征在于，所述第二语音片段包括第三语音片段和第四语音片段中至少一个，所述第三语音片段为以所述时刻为起点、所述语音信号中位于所述时刻之后的预设时长的语音片段，所述第四语音片段为以所述时刻为起点、所述语音信号中位于所述时刻之前的预设时长的语音片段。

8.一种语音信号中关键词的检测装置，其特征在于，所述装置包括：

提取模块，用于提取语音信号的语音特征向量；

获取模块，用于根据所述语音特征向量，获取所述语音信号中各个目标文字的后验概率，所述后验概率是指目标文字在所述语音信号的采集时间段内为任一关键字词中关键字的后验概率，所述目标文字为与关键字的发音相匹配的文字；

9.根据权利要求8所述的装置，其特征在于，所述提取模块，用于将所述语音信号划分为至少两个第一语音片段，每个第一语音片段具有相同的时长；采用预设特征提取算法，从每个第一语音片段中，提取语音特征；对所述至少两个第一语音片段的语音特征进行拼接，得到所述语音特征向量。

10.根据权利要求8所述的装置，其特征在于，所述获取模块，用于将所述语音特征向量输入到声学检测模型中，输出所述语音信号中各个目标文字为关键字的后验概率；其中，所述声学检测模型用于基于关键字的语音特征向量，从语音信号中检测出与关键字的发音相匹配的文字，并获取与关键字的发音相匹配的文字在采集时间段内为关键字的后验概率。

11.根据权利要求8所述的装置，其特征在于，所述获取模块，用于按照每个目标文字的采集时间顺序，获取至少一个目标文字，得到至少两种目标文字组合；对于任一种目标文字组合，根据所述目标文字组合中每个目标文字在所述采集时间段内的后验概率，获取每个目标文字的最大后验概率；获取所述目标文字组合包括的各个目标文字的最大后验概率的乘积，得到所述目标文字组合的置信度。

12.根据权利要求8至11中任一项所述的装置，其特征在于，所述获取模块，用于以确定所述至少两种目标文字组合的置信度均符合预设条件的时刻为起点，从所述语音信号中获取预设时长的第二语音片段；

所述获取模块，用于获取所述第二语音片段的信噪比；

所述确定模块，用于当所述第二语音片段的信噪比满足阈值条件时，确定所述语音信号中包括所述关键词。

13.根据权利要求12所述的装置，其特征在于，所述获取模块，用于将所述第二语音片段划分为至少两个子片段，每个子片段具有相同的时长；获取每个子片段对应的波形信号的幅度；从所述至少两个子片段对应的幅度中，获取最大幅度和最小幅度；获取所述最大幅度和所述最小幅度的对数比值，得到所述第二语音片段的信噪比。

14.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7中任一项所述的语音信号中关键词的检测方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至7中任一项所述的语音信号中关键词的检测方法。