CN110246490B

CN110246490B - 语音关键词检测方法及相关装置

Info

Publication number: CN110246490B
Application number: CN201910562371.1A
Authority: CN
Inventors: 胡健; 方磊; 刘海波; 方四安
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2022-04-19
Anticipated expiration: 2039-06-26
Also published as: CN110246490A

Abstract

本发明实施例公开了一种语音关键词检测方法及相关装置，包括获取目标音频，并对所述目标音频进行处理以得到多个参考关键词候选段；确定所述目标音频的目标音频特征，所述目标音频特征包括所述目标音频的原始语音特征和噪声特征；对所述目标音频特征进行去噪处理以得到所述原始语音特征；根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词。采用本方案，提高了关键词识别的正确率，同时保障了识别效率。

Description

语音关键词检测方法及相关装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音关键词检测方法、装置、设备及存储介质。

背景技术

语音关键词检测是从音频数据流中识别出特定语音关键词，以及确定该关键词出现的起止时间点的技术。当前主流的解决方案有两种，一类是将音频中的语音识别为文本，再从文本中检索出特定关键词的与语种相关的语音关键词检测；另一类是直接将音频数据逐段与关键词语音样例进行声学特征似然度匹配检索的与语种无关的语音关键词检测。在具备大量语言学先验知识基础的前提下，语种相关关键词检测方案的检测性能明显好于语种无关关键词检测方案，但对于小语种或小范围使用的密语等缺少大量语言学先验知识的场景下，只能选择语种无关关键词检测方案。

在技术侦察领域，经常需要对密语、口令、警报等与语种无关的由多语种、规律信号组成的音频进行语音关键词检测。而这类侦查音频具有时长短、说话人切换频繁以及声源环境复杂多样等特点，而且语音数据又严重受短波、超短波等侦察信道高噪声的干扰。由于传统声学特征对带噪且时长很短的语音不鲁棒，直接通过声学特征似然度匹配进行检测往往效果不理想；采用先语音去噪再进行关键词检测的分阶段处理方案，不仅难以满足侦察对关键词检测快速响应的要求，而且语音去噪易去除与关键词类别联系紧密的声源环境噪声，反而降低关键词识别正确率。因而，寻找鲁棒的声学特征成为提高识别率的关键，也是一大难题。

发明内容

本申请实施例提供一种语音关键词检测方法、装置、设备及存储介质，能够提高关键词检测的效率和准确率。

本申请实施例的第一方面提供了一种语音关键词检测方法，包括：

获取目标音频，并对所述目标音频进行处理以得到多个参考关键词候选段；

确定所述目标音频的目标音频特征，所述目标音频特征包括所述目标音频的原始语音特征和噪声特征；

对所述目标音频特征进行去噪处理以得到所述原始语音特征；

根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词。

可选的，所述根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，包括：

根据所述多个参考关键词候选段对所述原始语音特征进行语音特征提取，得到每个参考关键词候选段对应的参考语音特征；

根据所述每个参考关键词候选段对应的参考语音特征，确定所述每个参考关键词候选段的语音关键词分布情况；

根据所述每个参考关键词候选段的语音关键词分布情况，确定所述目标音频所包含的语音关键词。

可选的，所述根据所述每个参考关键词候选段对应的参考语音特征，确定所述每个参考关键词候选段的语音关键词分布情况，包括：

获取预设的语音关键词集合，所述语音关键词集合包括至少一个语音关键词；

针对所述每个参考关键词候选段对应的参考语音特征，遍历所述至少一个语音关键词以确定所述每个参考关键词候选段的语音关键词分布情况。

进一步，所述根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，包括：

对所述参考语音特征进行处理以得到所述每个参考关键词候选段分别相对于所述至少一个语音关键词中每个语音关键词的概率；

获取所述概率超出预设阈值的参考关键词候选段和语音关键词；

获取所述概率超出预设阈值的参考关键词候选段的位置区间，并将所述位置区间记为对应的语音关键词的位置区间。

可选的，所述获取所述概率超出预设阈值的参考关键词候选段的位置区间，并将所述位置区间记为对应的语音关键词的位置区间之后，还包括：

获取所述语音关键词中存在至少两个位置区间的第一语音关键词；

确认所述第一语音关键词的所述至少两个位置区间之间是否存在重叠；

若存在重叠，则将所述第一语音关键词的存在重叠的所述至少两个位置区间进行合并处理以更新所述第一语音关键词的位置区间。

可选的，所述目标音频特征为根据卷积特征提取得到的第一卷积特征；所述对所述目标音频特征进行去噪处理以得到所述原始语音特征，包括：

对所述第一卷积特征进行下采样处理得到第二卷积特征；

获取所述第二卷积特征中表达语音信息与噪声信息对比度的第三卷积特征；

对所述第三卷积特征进行处理以得到所述语音信息与噪声信息之间的注意力概率分布；

将所述注意力概率分布与所述第一卷积特征进行相乘以得到所述原始语音特征。

进一步，所述对所述第三卷积特征进行处理以得到所述语音信息与噪声信息之间的注意力概率分布，包括：

对所述第三卷积特征进行上采样处理得到第四卷积特征；

对所述第四卷积特征进行归一化处理以得到所述语音信息与噪声信息之间的注意力概率分布。

本申请实施例的第二方面提供了一种语音关键词检测装置，包括：

音频预处理模块，用于获取目标音频，并对所述目标音频进行处理以得到多个参考关键词候选段；

特征提取模块，用于确定所述目标音频的目标音频特征，所述目标音频特征包括所述目标音频的原始语音特征和噪声特征；

去噪处理模块，用于对所述目标音频特征进行去噪处理以得到所述原始语音特征；

语音关键词获取模块，用于根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词。

本申请实施例的第三方面提供了一种语音关键词检测设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行所述的方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现所述的方法。

实施本申请实施例，至少具有如下有益效果：

通过本申请实施例，通过对目标音频进行处理得到多个参考关键词候选段，并对目标音频进行特征提取处理并对处理结果进行去噪处理得到原始语音特征，进而根据原始语音特征和多个参考关键词候选段进行语音关键词获取。采用该手段，相较于现有技术的先语音去噪再进行关键词检测的手段，本方案采用先提取特征再进行去噪的手段，通过将去噪过程与关键词识别的目标统一起来，只去除对语音识别无任何关联的噪声，以保留与关键词识别紧密联系的语音信息，提高了关键词识别的正确率，同时基于多个参考关键词候选段来进行关键词的检测，提高了关键词识别的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本发明实施例提供的一种语音关键词检测方法的流程示意图；

图2是本发明实施例提供的一种语音关键词检测方法的流程示意图；

图3是本发明实施例提供的一种语音关键词检测方法的流程示意图；

图4是本发明实施例提供的一种语音注意力卷积特征获取模块的结构示意图；

图5是本发明实施例提供的一种卷积神经网络模型训练的流程示意图；

图6是本发明实施例提供的一种语音关键词检测设备的结构示意图；

图7是本发明实施例提供的一种语音关键词检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

语音关键词检测是从音频数据流中识别出特定语音关键词，以及确定该关键词出现的起止时间点的技术。现有技术采用先语音去噪再进行关键词检测的分阶段处理方案，不仅难以满足侦察对关键词检测快速响应的要求，而且语音去噪易去除与关键词类别联系紧密的声源环境噪声，反而降低关键词识别正确率。

为解决上述技术问题，请参阅图1，图1为本申请实施例提供了一种语音关键词检测方法的流程示意图。如图1所示，其可包括步骤101-104，具体如下：

101、获取目标音频，并对所述目标音频进行处理以得到多个参考关键词候选段；

其中，目标音频可以是用户提供的用于进行关键词检测的音频，如可以为一段音乐或者一段录音等等。

其中，上述对所述目标音频进行处理得到多个参考关键词候选段的目的是为了对目标音频进行更精细的关键词检测，以提高关键词检测的准确度以及检测效率。

具体地，上述对所述目标音频进行处理以得到多个参考关键词候选段，包括：

对所述目标音频进行处理以获取所述目标音频的初始音频特征；

对所述初始音频特征进行处理以得到多个参考关键词候选段。

其中，上述初始音频特征具体为用于表示上述目标音频的声学信息的特征，如可以是上述目标音频的Filter Bank特征、MFCC特征或PLP特征等。这里的初始音频特征是生成参考关键词候选段的依据，而参考关键词候选段又是语音关键词检测的依据，所以这里可以将初始音频特征作为对语音关键词进行检测的依据。作为一种可选的实现方式，上述初始音频特征可以以特征向量的形式表示。

其中，上述获取初始音频特征时可先将目标音频按预设的帧长如20ms-40ms进行分帧，然后从每帧音频中提取初始音频特征。如通过现有的音频处理方法对目标音频进行特征提取以获取所述目标音频的初始音频特征。具体地，如进行目标音频的Filter Bank特征获取，可包括：将目标音频放入高通滤波器进行预加重，使其频谱信号变的更为光滑，保证它能被同一个信噪比求频谱；然后按照预设的帧长进行分帧，如为了保证帧的左右端点处的连续性，对每一帧乘一个汉明窗，此后进行傅里叶变换，进行能量谱计算并通过三角Mel滤波器进行滤波，进而可得到目标音频的Filter Bank特征。

其中，上述对所述初始音频特征进行以处理得到多个参考关键词候选段，可以是对所述初始音频特征分别做语音端点检测以获取所述目标音频中的多个有效语音段，如对目标音频的各帧Filter Bank特征分别做语音端点检测(Voice Activity Detection，VAD)，判别当前帧是否为有效音，从而检测出整段目标音频中的若干有效语音段。该语音端点检测的目的是从带噪的目标音频中剔除噪声如静音段，得到干净的语音信号，以提高关键词检测的效率。然后，对上述多个有效语音段分别按照预设算法进行处理以得到多组参考关键词候选段。

其中，上述预设算法可以是但不限于定点飘移法。本方案以定点飘移法为例，介绍获取参考关键词候选段的示例。其中，采用定点飘移法逐一将每个有效语音段扩展生成多个参考关键词候选段，具体包括：对于检测出的多个有效语音段中的第i个有效语音段Vi(c,l)，将其中心帧c与总帧数l分别以飘移步长s,s′在飘移区间s,s′∈(-ε,ε)内飘移，从而生成一组以中心帧为c+s，总帧数为l+s′的参考关键词候选段Si(c+s,l+s′)。其中，每个有效语音段分别对应一组参考关键词候选段，每组参考关键词候选段均包括若干个参考关键词候选段。上述对每个有效语音段分别进行处理并得到多个参考关键词候选段的目的是为了对目标音频进行更精细的关键词检测，以提高关键词检测的准确度以及检测效率。

102、确定所述目标音频的目标音频特征，所述目标音频特征包括所述目标音频的原始语音特征和噪声特征；

其中，上述目标音频特征可以为所述目标音频的整体音频特征，其包括目标音频的原始语音特征和噪声特征。上述原始语音特征对应所述目标音频中的语音信息，该语音信息可包括语音环境噪声等，该语音环境噪声可对关键词的检测有辅助作用，如火车的鸣笛声可以辅助确认是在火车站等，则利于与火车有关的关键词的检测，有利于提高关键词检测的效率。上述噪声特征对应所述目标音频中的噪声信息，该噪声信息可包括对语音信息进行干扰的声源噪声和信道噪声。

具体地，上述目标音频特征可以为各种用于表示上述目标音频的声学信息的特征。其中，上述目标音频特征具体可以为上述目标音频的卷积特征，对上述目标音频进行卷积特征提取即可得到上述目标音频的卷积特征；或者上述目标音频特征也可以是上述目标音频的初始音频特征等，此处不做限定。

103、对所述目标音频特征进行去噪处理以得到所述原始语音特征；

如上述目标音频特征可以对应为上述目标音频中的所有数据，通过先对目标音频中的所有数据进行处理，获取音频有效数据，其中不包含话音间隔及静音数据的为音频有效数据，然后对音频有效数据进行检测，通过Mel频率参数音频有效数据检测法获取噪声谱估计的初始值、估计信噪比，并去除非音频有效数据段的噪声；通过预设的信噪比及噪声瞬间变化趋势，确定当前瞬间谱减方程，去除音频有效数据段的噪声，以得到不含噪声的音频数据段记为目标音频的原始语音特征。

或者，上述目标音频特征可以对应为上述目标音频中音频信号的能量值，通过获取目标音频中音频信号的能量值，将上述能量值中大于能量阈值的能量值所对应的音频片段确定为待检测音频片段；将上述待检测音频片段中片段时长小于预设时长的音频片段确定为待处理音频片段；根据与待处理音频片段相邻的N帧信号的幅值以及待处理音频片段的幅值确定衰减系数；根据上述衰减系数对待处理音频片段进行去噪处理，得到处理后的音频信号即为目标音频的原始语音特征。

当然，上述去噪处理的手段并不限于上述介绍。

104、根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词。

可选的，根据上述获取的原始语音特征和上述多个参考关键词候选段，可通过输入至预设的分类模型中进行处理得到目标音频所包含的语音关键词。

其中，所述根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，可包括步骤A11-A13，具体如下：

A11、根据所述多个参考关键词候选段对所述原始语音特征进行语音特征提取，得到每个参考关键词候选段对应的参考语音特征；

上述参考语音特征为每个参考关键词候选段对应的语音特征，该参考语音特征是基于上述整段目标音频的原始语音特征进行语音特征提取得到的。具体地，如从上述目标音频的原始语音特征中截取分别与上述参考关键词候选段的位置区间对应的原始语音特征，将所得结果记为每个参考关键词候选段对应的参考语音特征。

A12、根据所述每个参考关键词候选段对应的参考语音特征，确定所述每个参考关键词候选段的语音关键词分布情况；

上述每个参考关键词候选段的语音关键词分布情况可以是参考关键词候选段中存在有语音关键词，或者参考关键词候选段中不存在语音关键词；或者可以是参考关键词候选段中存在语音关键词的概率大小，具体地，可以是每个参考关键词候选段中分别存在语音关键词中的每个语音关键词的概率大小等。

其中，上述确定所述每个参考关键词候选段的语音关键词分布情况，可以是通过将每个参考关键词候选段对应的参考语音特征输入到预设的分类模型中进行处理进而得到每个参考关键词候选段的语音关键词分布情况。

A13、根据所述每个参考关键词候选段的语音关键词分布情况，确定所述目标音频所包含的语音关键词。

通过获取预设的语音关键词获取条件，对上述每个参考关键词候选段的语音关键词分布情况进行分析确认，从中获取满足上述预设的语音关键词获取条件的参考关键词候选段以及相对应的语音关键词，进而完成目标音频中语音关键词的检测。

其中，上述预设的语音关键词获取条件可以是参考关键词候选段中存在某语音关键词的概率超出一定阈值，或者参考关键词候选段包含某语音关键词的概率超出一定阈值，则确认该参考关键词候选段中存在该语音关键词等。此处仅以该语音关键词获取条件为例进行说明，当然并于限于上述方式。

可选的，上述根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，可包括步骤B11-B14，具体如下：

B11、根据所述多个参考关键词候选段对所述原始语音特征进行语音特征提取，得到每个参考关键词候选段对应的参考语音特征；

B12、获取预设的语音关键词集合，所述语音关键词集合包括至少一个语音关键词；

其中，上述预设的语音关键词集合如可以是用户提供的用于对上述目标音频进行检测并想要得到的语音关键词所组成的集合，该语音关键词集合可以包含一个语音关键词，也可以包括多个语音关键词。

B13、针对所述每个参考关键词候选段对应的参考语音特征，遍历所述至少一个语音关键词以确定所述每个参考关键词候选段的语音关键词分布情况；

其中，根据上述语音关键词集合，通过对上述每个参考关键词候选段对应的参考语音特征进行处理，得到每个参考关键词候选段分别对应每个语音关键词的分布情况。其中，可以是依次获取每个参考关键词候选段针对第一个语音关键词的语音关键词分布情况，然后依次获取每个参考关键词候选段针对第二个语音关键词的语音关键词分布情况，以此类推；或者也可以是，获取第一个参考关键词候选段针对上述语音关键词集合中每个语音关键词的分布情况，然后获取第二个参考关键词候选段针对上述语音关键词集合中每个语音关键词的分布情况，以此类推等等。此处谨以上述为例，并不做具体限制。

B14、根据所述每个参考关键词候选段的语音关键词分布情况，确定所述目标音频所包含的语音关键词。

其中，上述预设的语音关键词获取条件可以是参考关键词候选段中存在语音关键词的概率超出一定阈值，则参考关键词候选段中存在语音关键词等。此处仅以该语音关键词获取条件为例进行说明，当然并于限于上述方式。

具体地，上述根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，可包括：根据所述多个参考关键词候选段对所述原始语音特征进行语音特征提取，得到每个参考关键词候选段对应的参考语音特征；对所述参考语音特征进行处理以得到所述每个参考关键词候选段分别相对于所述至少一个语音关键词中每个语音关键词的概率；获取所述每个参考关键词候选段分别相对于所述至少一个语音关键词中每个语音关键词的概率超出预设阈值的概率对应的参考关键词候选段及所述参考关键词候选段对应的语音关键词；获取所述概率超出预设阈值的概率对应的参考关键词候选段的位置区间，并将所述位置区间记为对应的语音关键词的位置区间。

上述由于原始语音特征是对应整段目标音频的语音信息，则对所述原始语音特征进行语音特征提取以得到上述每个参考关键词候选段对应的参考语音特征，以便对每个参考关键词候选段对应的参考语音特征进行处理，进而得到每个参考关键词候选段的语音关键词分布情况，以确定目标音频所包含的语音关键词。

通过本申请实施例，通过对目标音频进行处理得到多个参考关键词候选段，并对目标音频先进行特征提取然后进行去噪处理得到原始语音特征，进而根据原始语音特征和多个参考关键词候选段进行语音关键词获取。采用该手段，相较于现有技术的先语音去噪再进行关键词检测的手段，本方案采用先提取特征再进行去噪的手段，只去除对语音识别无任何关联的噪声，以保留与语音关键词识别紧密联系的语音信息，提高了关键词识别的正确率，同时基于多个参考关键词候选段来进行关键词的检测，提高了关键词识别的效率。

作为一种优选的实现方式，请参阅图2，图2为本申请实施例提供了一种语音关键词检测方法的流程示意图。如图2所示，其可包括步骤201-203，具体如下：

201、获取目标音频的初始音频特征，并对所述初始音频特征进行处理以得到多个参考关键词候选段和目标音频的第一卷积特征，所述第一卷积特征包括所述目标音频的原始语音特征和噪声特征；

其中，上述初始音频特征具体为用于表示上述目标音频的声学信息的特征，如可以是上述目标音频的Filter Bank特征、MFCC特征或PLP特征等。这里的初始音频特征是生成参考关键词候选段的依据，而参考关键词候选段又是对语音关键词检测的依据，所以这里可以将初始音频特征作为对语音关键词进行检测的依据。作为一种可选的实现方式，上述初始音频特征可以以特征向量的形式表示。

其中，上述目标音频的第一卷积特征为所述目标音频的整体音频特征，其包括目标音频的原始语音特征和噪声特征。上述原始语音特征对应所述目标音频中的语音信息，该语音信息可包括语音环境噪声等，该语音环境噪声可对关键词的检测有辅助作用，如火车的鸣笛声可以辅助确认是在火车站等，则利于与火车有关的关键词的检测，有利于提高关键词检测的效率。上述噪声特征对应所述目标音频中的噪声信息，该噪声信息可包括对语音信息进行干扰的声源噪声和信道噪声。

其中，上述获取初始音频特征时可先将目标音频按预设的帧长如20ms-40ms进行分帧，然后从每帧音频中提取初始音频特征。如通过现有的音频处理方法对目标音频进行特征提取以获取所述目标音频的初始音频特征。

其中，上述对初始音频特征进行处理以得到参考关键词候选段，可包括：

对上述初始音频特征分别做语音端点检测以获取所述目标音频中的K个有效语音段，其中，K为正整数；

如对目标音频的各帧Filter Bank特征做语音端点检测(Voice ActivityDetection，VAD)，判别当前帧是否为有效音，从而检测出整段目标音频中的若干有效语音段。

该语音端点检测的目的是从带噪的目标音频中剔除噪声如静音段，得到干净的语音信号，以提高关键词检测的效率。

对所述K个有效语音段分别按照预设算法进行处理以得到K组参考关键词候选段，其中所述K个有效语音段与所述K组参考关键词候选段分别一一对应。

其中，上述预设算法可以是但不限于定点飘移法。本方案以定点飘移法为例，介绍获取参考关键词候选段的示例。其中，上述对所述K个有效语音段分别按照预设算法进行处理以得到K组参考关键词候选段，包括将所述K个有效语音段中的每个有效语音段的中心帧与总帧数分别以预设步长在预设区间内进行飘移，以得到K组参考关键词候选段。上述预设步长可以是预先设定的上述有效语音段内的任意步长；上述预设区间可以是上述有效语音段内的任意大小区间。上述对每个有效语音段分别进行处理并得到多个参考关键词候选段的目的是为了对目标音频进行更精细的关键词检测，以提高关键词检测的准确度以及检测效率。

其中，采用定点飘移法逐一将每个有效语音段扩展生成多个参考关键词候选段，具体包括：对于检测出的K个有效语音段中的第i个有效语音段V_i(c,l)，将其中心帧c与总帧数l分别以飘移步长s,s′在飘移区间s,s′∈(-ε,ε)内飘移，从而生成一组以中心帧为c+s，总帧数为l+s′的参考关键词候选段S_i(c+s,l+s′)。其中，每个有效语音段分别对应一组参考关键词候选段，每组参考关键词候选段均包括若干个参考关键词候选段。

进一步，上述对所述初始音频特征进行处理以得到目标音频的第一卷积特征，可包括：

对所述初始音频特征进行处理以得到二维频谱图；

上述对所述初始音频特征进行处理以得到二维频谱图，包括：将获取的初始音频特征进行联结得到二维频谱图。其中，上述初始音频特征包括每帧目标音频分别对应的一维特征向量，则将一段目标音频中的各初始音频特征按时间先后顺序进行联结即得到一个二维矩阵，该二维矩阵对应的图形即为上述二维频谱图。

对所述二维频谱图进行卷积特征提取以得到所述目标音频的第一卷积特征。

其中，可通过预先训练好的模型进行卷积特征提取，通过对所述二维频谱图进行卷积处理以得到目标音频的第一卷积特征。其中，上述预先训练好的模型包括但不限于基于GMM(Gaussian Mixture Model，高斯混合模型)-HMM(Hidden Markov Model，隐马尔可夫模型)、DNN(Deep Neural Network，深度神经网络)、CNN(Convolutional Neural Network，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)等生成模型或者神经网络构建的模型。如所述预先训练好的模型可以是预先训练好的卷积神经网络，其包括多个卷积层，该多个卷积层均由卷积操作与非线性激活函数组成，通过合理确定卷积核、卷积步长以及填充值大小以确保提取的卷积特征图的长度与输入的目标音频帧数相同，其中，卷积核、卷积层通道、步长等超参数设置与现有技术中的卷积层使用方法相同，这里不作限定。此处仅以卷积神经网络为例进行说明。

上述提取的卷积特征是分局部对音频信息的抽象，具有位置平移不变性，因而对音频中的噪声、关键词交叠等情况鲁棒。

202、对所述第一卷积特征进行去噪处理以得到所述原始语音特征；

其中，上述去噪处理是过滤掉对目标音频造成干扰的噪声信号如信道噪声与声源噪声，以便保留对关键词检测有关的语音信息。上述语音信息可包括语音环境噪声等，该语音环境噪声可对关键词的检测有辅助作用，如火车的鸣笛声可以辅助确认是在火车站等，则利于与火车有关的关键词的检测，其利于提高关键词检测的效率。

上述原始语音特征可以为语音注意力卷积特征，该语音注意力卷积特征是指将目标音频的第一卷积特征进行去噪处理后得到的特征，又由于处理过程中用到了注意力机制，故这里可将其记为语音注意力卷积特征，所述处理过程的具体细节详见下述。

具体地，对所述目标音频的第一卷积特征进行去噪处理以得到所述目标音频的原始语音特征(语音注意力卷积特征)，可包括步骤C11-C14，具体如下：

C11、对所述目标音频的第一卷积特征进行下采样处理，并将处理结果记为第二卷积特征；

其中，对所述目标音频的第一卷积特征进行下采样处理的目的是扩大对目标音频的关注区域，进而可实现从更多帧音频区域中关注语音信息与噪声信息的联系与区别。

具体地，可将目标音频的第一卷积特征输入到预先训练好的卷积神经网络中，通过该预先训练好的卷积神经网络对目标音频的第一卷积特征进行下采样处理，从而扩大Down-Up注意力机制对目标音频的关注区域，以便从更多帧音频区域中关注语音信息与噪声信息的联系与区别，以提高关键词检测的准确度以及检测效率。

C12、获取所述目标音频的第二卷积特征中表达语音信息与噪声信息对比度的第三卷积特征；

其中，将下采样得到的第二卷积特征作为后面网络层的输入进行传输，其传输到跳跃连接的各卷积层中，然后把上述每个跳跃连接的卷积层对应的输出结果相加进而得到侧重表达语音信息与噪声信息对比度的第三卷积特征也即残差特征。

具体地，在预先训练好的卷积神经网络中对输入的上述下采样得到的第二卷积特征进行处理，得到局部跳跃连接(Skip-Connection)的不同卷积层的输出结果，将上述局部跳跃连接的不同卷积层的输出结果进行逐值相加进而得到侧重表达语音信息与噪声信息对比度的第三卷积特征即残差特征。

其中，跳跃连接(Skip-Connection)可将网络分成几个块，这些跳跃连接有助于向后传播梯度到卷积神经网络的输入层，并将图像细节传递到卷积神经网络的输出层，以使得从噪声图像到干净图像的端到端映射训练更容易、更有效，从而在网络深入的同时实现了性能的提高。

可选的，如可每隔两个对应的卷积层和反卷积层之间添加跳跃连接，当然此处并不限制具体跳跃连接形式。

C13、对所述第三卷积特征即残差特征进行处理以得到所述目标音频的第一卷积特征中语音信息与噪声信息之间的注意力概率分布；

上述对所述第三卷积特征即残差特征进行处理以得到所述目标音频的第一卷积特征中语音信息与噪声信息之间的注意力概率分布，包括：对所述第三卷积特征进行上采样处理得到第四卷积特征，其中，所述第四卷积特征与所述目标音频的第一卷积特征的维度相同；对所述第四卷积特征进行归一化处理以得到所述目标音频的第一卷积特征中语音信息与噪声信息之间的注意力概率分布，其中，上述噪声信息包括信道噪声及声源噪声，语音信息是指包含语音的非噪声信息。

具体地，上述预先训练好的卷积神经网络通过反卷积层将下采样后的残差特征上采样至与原卷积特征相同尺度与维度，然后通过归一化层对上采样后的残差特征进行归一化处理，从而计算出卷积特征中语音信息与噪声信息之间的注意力概率分布。

C14、将所述注意力概率分布与所述目标音频的卷积特征进行相乘以得到所述原始语音特征(语音注意力卷积特征)。

其中，将所得注意力概率分布与上述目标音频的第一卷积特征逐点相乘，以实现对音频卷积特征的筛选过滤，即过滤掉对语音信息造成干扰的信道噪声及声源噪声，最终输出语音注意力卷积特征，即原始语音特征。

该步骤通过将对目标音频造成干扰的信道噪声与声源噪声进行降噪处理以得到语音注意力卷积特征，便于后续关键词的检测，提高了关键词检测的效率。

203、根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词。

具体地，可包括：从所述目标音频的原始语音特征中获取与所述多个参考关键词候选段分别对应的原始语音特征记为所述参考关键词候选段的参考语音特征，并对所述参考语音特征进行处理以得到所述参考关键词候选段中满足预设条件的参考关键词候选段，将结果记为目标关键词候选段，上述目标关键词候选段中存在语音关键词。

具体地，对所述目标音频的原始语音特征进行截取处理，将处理结果记为参考关键词候选段的参考语音特征，其中，上述截取处理是从上述目标音频的原始语音特征中截取分别与上述多个参考关键词候选段的起始帧和终止帧对应的参考语音特征。

其中，上述预设条件，是指参考关键词候选段中存在语音关键词的概率超出预设阈值。上述对所述参考语音特征进行处理以得到所述参考关键词候选段中满足预设条件的参考关键词候选段，可包括步骤D11-D13，具体如下：

D11、将所述参考语音特征自适应规整为固定(预设)维度的卷积特征；

其中，不同参考关键词候选段所对应的长度不同，将不同长度的参考关键词候选段所对应的参考语音特征自适应归整为固定维度，上述固定维度可以是任意维度，此处不做限制。

D12、对所述固定维度的卷积特征进行处理以得到每个参考关键词候选段分别相对于所述至少一个语音关键词中每个语音关键词的概率；

其中，上述参考关键词候选段相对于语音关键词中的概率大小计算是计算当前参考关键词候选段存在语音关键词的概率大小。可通过获取预设的语音关键词集合，该语音关键词集合包括至少一个语音关键词，通过预先训练好的卷积神经网络对所述固定维度的卷积特征进行处理即得到不同参考关键词候选段分别相对于不同语音关键词的概率大小，即不同参考关键词候选段分别存在不同语音关键词的概率大小。

D13、获取所述概率超出预设阈值的参考关键词候选段及所述参考关键词候选段对应的语音关键词；

通过获取所述概率超出预设阈值的参考关键词候选段以及该参考关键词候选段对应的位置区间，并将所述位置区间记为对应的语音关键词的位置区间。

通过获取概率超出预设阈值的参考关键词候选段，进而确认该参考关键词候选段存在语音关键词，以完成对语音关键词的检测。

进一步，在上述获取所述概率超出预设阈值的参考关键词候选段的位置区间，并将所述位置区间记为对应的语音关键词的位置区间之后，还包括：

即对于相同语音关键词且位置区间存在重叠的情况下，则对上述语音关键词的重叠区间进行合并处理。

即在确定出语音关键词后，还需将位置区间存在重叠的同一语音关键词的位置区间进行合并。

可选的，基于上述定点飘移法扩展生成的若干参考关键词候选段可按照各组的参考关键词候选段来进行语音关键词检测，分别计算每组参考关键词候选段中每个参考关键词候选段相对于不同语音关键词的概率，获取每一组内各参考关键词候选段分别对应的概率，根据获取的各组内概率大于预设阈值的若干参考关键词候选段，进而确定各语音关键词；进一步，还包括确认所述概率大小超出预设阈值的参考关键词候选段中位于相同组且对应相同语音关键词的参考关键词候选段的位置区间即所处起、止帧是否有重叠；若有，则将所述重叠部分进行合并处理，以更新各语音关键词的位置区间。

对于上述定点飘移法扩展生成的一组多个参考关键词候选段，由于每组参考关键词候选段源自同一有效语音段，因此各参考关键词候选段之间存在重叠冗余，本实施例采用先获取存在语音关键词的参考关键词候选段然后进行重叠位置区间合并的策略，避免了最终检测结果冗余的问题。

通过本申请实施例，通过对目标音频进行处理得到多个参考关键词候选段，通过对目标音频进行卷积特征提取，然后将对语音造成干扰的噪声信息进行过滤并对过滤得到的结果进行处理得到语音关键词，即实现了语音关键词的检测。采用该手段，相较于现有技术的先语音去噪再进行关键词检测的手段，本方案采用先提取特征再进行去噪的手段，通过采用预先训练好的卷积神经网络中的注意力机制过滤掉干扰语音关键词检测识别的信道噪声及声源噪声，将去噪过程与关键词识别的优化目标统一起来，在完成噪声过滤功能的同时提高了卷积特征的表达能力，采取与优化目标统一的手段，提升了关键词识别正确率及识别效率。

作为一种优选的实现方式，本申请实施例借助预先训练好的卷积神经网络模型来实现所提出的语音关键词的检测方法。参照图3，图3为本申请实施例提供了一种语音关键词检测方法的流程示意图。其中，上述预先训练好的卷积神经网络可包括卷积特征获取模块、语音注意力卷积特征获取模块以及关键词获取模块，该实现方法可包括步骤301-304，具体如下：

301、获取目标音频的初始音频特征，并对所述初始音频特征分别进行处理以得到多个参考关键词候选段和二维频谱图。

其中，上述对初始音频特征进行处理以得到参考关键词候选段的手段，与上述实施例一致，此处不再赘述。上述对初始音频特征进行处理以得到二维频谱图的手段，与上述实施例一致，此处均不再赘述。

302、将所述二维频谱图输入至预先训练好的卷积神经网络中，通过卷积特征获取模块对所述二维频谱图进行卷积特征提取以得到所述目标音频的第一卷积特征。

上述卷积特征获取模块由多个卷积层组成，通过卷积层提取所输入的整段音频的卷积特征。具体地，上述卷积特征获取模块对输入的二维频谱图进行卷积处理生成多个特征图谱，即对应所得的目标音频的第一卷积特征。本方案中所提到的卷积层均为卷积操作与非线性激活函数组成，通过合理确定卷积核、卷积步长以及填充值大小，确保提取的卷积特征图的长度与输入音频帧数相同。

303、通过语音注意力卷积特征获取模块过滤所述目标音频的第一卷积特征中对语音造成干扰的信道噪声与声源噪声并输出语音注意力卷积特征；

其中，该预先训练好的卷积神经网络的语音注意力卷积特征获取模块由两个Down-Up注意力机制内外嵌套构成。其中，上述注意力机制可理解为：在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息，该机制通常被称为注意力机制。例如，人们在阅读时，通常只有少量要被读取的词会被关注和处理。内外嵌套注意力机制在于Down-up注意力机制的结构设计允许多个注意力机制进行内外嵌套。

具体地，如图4所示，上述语音注意力卷积特征获取模块包括至少14个网络层，其中，各网络层之间的参数不同，由梯度反向传播更新。其所涉及的池化操作、卷积操作、上采样操作与现有深度网络中常用的池化层、卷积层和反卷积层的操作相同。可选的，其中第一层L1为卷积层，第二层L2为池化层，第三层L3为卷积层，L4为卷积层，L5为池化层，L6为卷积层，L7为插值上采样层，L8为逐点相加层，L9为归一化层，L10为按位相乘层，L11为差值上采样层，L12为逐点相加层，L13为归一化层，L14为按位相乘层。

其中，上述通过语音注意力卷积特征获取模块过滤所述目标音频的第一卷积特征中对语音造成干扰的信道噪声与声源噪声并输出语音注意力卷积特征，可包括步骤E11-E14，具体如下：

E11、通过池化层对所述目标音频的第一卷积特征进行下采样处理，并将处理结果记为第二卷积特征；其中，对所述目标音频的第一卷积特征进行下采样处理的目的是扩大对目标音频的关注区域，进而可实现从更多帧音频区域中关注语音信息与噪声信息的联系与区别；

具体地，可将目标音频的第一卷积特征输入到预先训练好的卷积神经网络中，通过该预先训练好的卷积神经网络的语音注意力卷积特征获取模块中的池化层对目标音频的第一卷积特征进行下采样处理，从而扩大Down-Up注意力机制对目标音频的关注区域，以便从更多帧音频区域中关注语音信息与噪声信息的联系与区别，以提高关键词检测的准确度以及检测效率。

E12、通过局部跳跃连接不同卷积层并逐值相加各层输出的卷积特征以提取侧重表达语音与所述信道噪声及声源噪声对比度的第三卷积特征即残差特征；

其中，将下采样得到的第二卷积特征作为后面网络层的输入进行传输，通过传输到跳跃连接的卷积层中，然后把上述每个跳跃连接的卷积层对应的输出结果相加进而得到侧重表达语音信息与噪声信息对比度的第三卷积特征即残差特征。

具体地，上述预先训练好的卷积神经网络对下采样得到的第二卷积特征作为输入，通过局部跳跃连接(Skip-Connection)不同卷积层并逐值相加各卷积层输出的卷积特征，以提取侧重表达语音信息与噪声信息对比度的残差特征。

E13、通过反卷积层将下采样后的第三卷积特征上采样处理得到与原卷积特征相同尺度及维度的第四卷积特征，然后通过归一化层对第四卷积特征归一化，从而计算出卷积特征中筛选语音信息与噪声信息的注意力概率分布；

其中，上述预先训练好的卷积神经网络通过反卷积层将下采样后的第三卷积特征即残差特征进行上采样处理并将处理结果记为第四卷积特征，其中，所述第四卷积特征与所述目标音频的第一卷积特征的维度相同；对所述第四卷积特征进行归一化处理以得到所述目标音频的第一卷积特征中表达语音信息与噪声信息之间的注意力概率分布，其中，噪声信息如信道噪声及声源噪声，语音信息是指包含语音的非噪声信息。

E14、通过将注意力概率分布与输入的第一卷积特征逐点相乘，以实现对音频卷积特征的筛选过滤，最终输出语音注意力卷积特征。

其中，将所得注意力概率分布与上述目标音频的卷积特征逐点相乘，以实现对音频卷积特征的筛选过滤，即过滤掉对语音信息造成干扰的信道噪声及声源噪声，最终输出语音注意力卷积特征。

其中，注意力机制的内外嵌套通过连续下采样操作以及跳跃连接，不仅可专注于更长音频区间的语音信息与噪声信息相关关系的提取，而且嵌套结构利于建立各注意力机制的筛选过程之间的联系，提高卷积网络模型对复杂非线性问题的描述能力，以增强最终语音注意力卷积特征的表征能力。

304、按中心帧与总帧数从语音注意力卷积特征中抽取与上述参考关键词候选段所对应的语音注意力卷积特征，并将结果记为参考语音特征，将参考语音特征输入到关键词获取模块，计算每组参考关键词候选段相对于语音关键词的概率分布情况，选取确定最终语音关键词以及语音关键词在音频中所处的位置区间。

其中，上述关键词获取模块由金字塔池化层和全连接层模块构成。可选的，上述金字塔池化层可包括至少2个池化层，其中第1个池化层采用的是自适应最大值池化(AdaptMax Pooling)，核函数为最大值函数，池化核尺寸大小为Δh＝h₀/h₁,Δw＝w₀/w₁，可将任意尺寸的卷积特征池化到特定尺寸h₁,w₁。其中，h₁,w₁可根据音频时长具体调整，如在处理有效音时长为5秒左右音频的实施例中，可设置h₁＝64,w₁＝10。可选的，该金字塔池化层中第1个池化层之后的其他池化层采用平均池化层，核函数为平均值函数，池化核尺寸大小为Δh＝2,Δw＝2。

其中，金字塔池化层将不同长度参考关键词候选段的目标语音注意力卷积特征自适应归整为固定维度的卷积特征，该固定维度可以是任意维度，此处不做限制。上述卷积特征在经每个池化层下采样后形成金字塔结构，采用这种金字塔式逐级下采样参考关键词候选段的卷积特征可避免语音信息过度丢失，从而提高不同时长参考关键词候选段卷积特征的鲁棒性。

其中，全连接层模块对所述固定维度的卷积特征进行处理即得到不同参考关键词候选段分别属于不同语音关键词的概率大小。

具体地，上述全连接层模块的最后一个全连接层直接输出该参考关键词候选段属于各语音关键词的概率分布以及语音关键词所处的起、止帧。

本实施例采用先提取特征再进行降噪处理，通过采用预先训练好的卷积神经网络中的注意力机制过滤掉干扰语音关键词检测识别的信道噪声及声源噪声，将去噪过程与关键词识别的优化目标统一起来，在完成噪声过滤功能的同时提高了卷积特征的表达能力，采取与优化目标统一的手段，提升了关键词识别正确率及识别效率。

作为一种优选的实现方式，参照图5，图5是本发明实施例提供的一种卷积神经网络模型训练方法的流程示意图。通过本申请实施例提供的卷积神经网络模型的训练方法得到上述预先训练好的卷积神经网络。

其中，上述训练方法可包括步骤501-507，具体如下：

501、制作训练数据集；

其中，该训练数据集为关键词候选样本集，该关键词候选样本集包括正关键词候选样本和负关键词候选样本，上述正关键词候选样本对应参考关键词候选段为语音关键词所在的参考关键词候选段对应的样本，负关键词候选样本对应参考关键词候选段为非语音关键词所在的参考关键词候选段对应的样本。

可选的，上述正、负关键词候选样本的获取方法如下：

通过对训练集音频进行处理得到各音频特征，然后对音频特征分别做语音端点检测以获取音频中的若干个有效语音段，然后将上述有效语音段中的每个有效语音段的中心帧与总帧数分别以预设步长在预设区间内进行飘移，以得到若干组参考关键词候选段；然后根据训练集音频关键词标注段的起止帧，对上述与关键词标注段所对应的关键词(类别)一致的参考关键词候选段设置标签，以提高进行参考关键词候选段的正、负样本确认的效率。

其中，对于上述扩展得到的参考关键词候选段进行正、负样本确认，若某参考关键词候选段与关键词标注段的起止帧区间的交并比大于预设值，则确认该参考关键词候选段为正样本，反之，则为负样本。其中，交并比(Intersection-over-Union，IoU)是目标检测中使用的一个概念，其表示产生的候选框与原标记框的交叠率，即它们的交集与并集的比值。

由于关键词候选段正负样本(是否存在关键词)失衡易导致卷积神经网络训练欠拟合，大量生成参考关键词候选段的过程较为费时。为此，本申请实施例提出确定的训练模型的平衡交叉熵损失函数，其中上述平衡交叉熵损失函数包括权值调整函数，该平衡交叉熵损失函数的权值调整函数可用于平衡所述训练模型的正负样本失衡对关键词检测结果产生的影响，即调节正负关键词候选段样本中难易检测样本对交叉熵损失值的影响。

其中，上述平衡交叉熵损失函数L_ce(pt,γ)表示为：

其中，w(p_t)＝(1-p_t)^γ为权值调整函数，γ为常数，C是目标关键词总数，p为预测的目标关键词的概率得分，q(c)表示关键词是否标注为关键词c的概率，且

502、对卷积神经网络参数进行初始化，并设置训练迭代总次数N或训练终止条件；

其中，训练终止条件可包括如当前迭代的损失值与前一次迭代得到的损失值之间的差值在预设范围内且趋于稳定时，可认为模型已训练好，则可停止训练。

503、加载训练数据集，逐组将关键词候选样本输入卷积神经网络，前向传播预测出各关键词(类别)概率得分以及关键词位置区间，并计算损失值；

504、依据上述损失值，反向传播更新卷积神经网络参数，并保存上述卷积神经网络模型参数；

505、将迭代代数n更新为n+1；

506、确认迭代代数n小于迭代总次数N；

若是，则循环执行步骤503-505；若迭代代数n大于N或达到训练终止条件，即当前迭代的损失值与前一次迭代得到的损失值之间的差值在预设范围内且趋于稳定时，可认为模型已训练好，则执行步骤507结束训练。

本实施例通过提出权值调整函数以平衡训练模型的正负样本失衡对关键词检测结果产生的影响，调节正负关键词候选段样本中难易检测样本对交叉熵损失值的影响，解决了训练欠拟合的问题，从而达到更有效训练卷积神经网络，提高网络模型的泛化能力，且使训练更快收敛。

与上述实施例一致的，请参阅图6，图6为本申请实施例提供的一种语音关键词检测设备的结构示意图，如图所示，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，上述程序包括用于执行以下步骤的指令；

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，终端为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对终端进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

与上述一致的，请参阅图7，图7为本申请实施例提供了一种语音关键词检测装置的结构示意图。其包括音频预处理模块701、特征提取模块702、去噪处理模块703和语音关键词获取模块704，具体如下：

音频预处理模块701，用于获取目标音频，并对所述目标音频进行处理以得到多个参考关键词候选段；

特征提取模块702，用于确定所述目标音频的目标音频特征，所述目标音频特征包括所述目标音频的原始语音特征和噪声特征；

去噪处理模块703，用于对所述目标音频特征进行去噪处理以得到所述原始语音特征；

语音关键词获取模块704，用于根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种语音关键词检测方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种语音关键词检测方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在申请明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器、随机存取器、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音关键词检测方法，其特征在于，包括：

获取目标音频，并对所述目标音频进行处理以获取所述目标音频的初始音频特征，对所述初始音频特征进行处理以得到多个参考关键词候选段；

根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，其中，根据所述原始语音特征获取所述每个参考关键词候选段对应的参考语音特征，根据所述每个参考关键词候选段对应的参考语音特征得到所述目标音频所包含的语音关键词。

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，包括：

从所述目标音频的原始语音特征中截取分别与所述参考关键词候选段的位置区间对应的原始语音特征，将所得结果记为每个参考关键词候选段对应的参考语音特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个参考关键词候选段对应的参考语音特征，确定所述每个参考关键词候选段的语音关键词分布情况，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述概率超出预设阈值的参考关键词候选段的位置区间，并将所述位置区间记为对应的语音关键词的位置区间之后，还包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述目标音频特征为根据卷积特征提取得到的第一卷积特征；所述对所述目标音频特征进行去噪处理以得到所述原始语音特征，包括：

对所述第一卷积特征进行下采样处理得到第二卷积特征；

7.根据权利要求6所述的方法，其特征在于，所述对所述第三卷积特征进行处理以得到所述语音信息与噪声信息之间的注意力概率分布，包括：

对所述第三卷积特征进行上采样处理得到第四卷积特征；

8.一种语音关键词检测装置，其特征在于，包括：

音频预处理模块，用于获取目标音频，并对所述目标音频进行处理以获取所述目标音频的初始音频特征，对所述初始音频特征进行处理以得到多个参考关键词候选段；

语音关键词获取模块，用于根据所述原始语音特征和所述多个参考关键词候选段，确定所述目标音频所包含的语音关键词，其中，根据所述原始语音特征获取所述每个参考关键词候选段对应的参考语音特征，根据所述每个参考关键词候选段对应的参考语音特征得到所述目标音频所包含的语音关键词。

9.一种语音关键词检测设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的方法。