CN114817456A

CN114817456A - 关键词检测方法、装置、计算机设备及存储介质

Info

Publication number: CN114817456A
Application number: CN202210234073.1A
Authority: CN
Inventors: 杨斌; 吴海英; 王洪斌; 刘敏; 蒋宁
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-07-29
Anticipated expiration: 2042-03-10
Also published as: CN114817456B

Abstract

本申请公开了一种关键词检测方法、装置、计算机设备及存储介质，该方法包括：获取待检测音频；提取待检测音频的第一音频特征，得到第一音频特征构成的第一特征序列；将预设关键词特征与第一特征序列拼接，得到第二特征序列，预设关键词特征为预设关键词对应的第二音频特征；将第二特征序列输入至预先训练的关键词检测模型中，得到待检测音频的关键词检测结果。如此，将第一特征序列的与预设关键词特征拼接，得到第二特征序列，提供了关键词检测依据，保证了关键词检测的准确性；并且，关键词检测模型基于筛选出的与预设关键词特征相关联的第一音频特征，检测所述待检测音频，得到所述关键词检测结果，也提高了关键词检测的效率。

Description

关键词检测方法、装置、计算机设备及存储介质

技术领域

本申请涉及语音识别技术领域，更具体地，涉及一种关键词检测方法、装置、计算机设备及存储介质。

背景技术

语音识别是一种涵盖了声学与语言学、数学与统计学计算机与人工智能等学科的技术，是人机自然交互技术中的关键环节。在实际应用中，例如设备唤醒、智能语音交互等应用中，均会涉及到语音识别技术领域中的关键词检测技术，通过识别用户发出的语音中是否包含有指定关键词，来实现设备唤醒或人机语音交互等。

然而，目前针对语音的关键词检测技术仍存在检测效果差的问题。

发明内容

有鉴于此，本申请提出了一种关键词检测方法、装置、计算机设备及存储介质。

第一方面，本申请实施例提供了一种关键词检测方法，所述方法包括：获取待检测音频；提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列；将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，所述预设关键词特征为预设关键词对应的第二音频特征；将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果，所述关键词检测模型用于从所述第二特征序列中筛选出与所述预设关键词特征相关联的第一音频特征，并基于所述相关联的第一音频特征检测所述待检测音频，得到所述关键词检测结果。

第二方面，本申请实施例提供了一种关键词检测模型的训练方法，所述方法包括：获取样本音频；提取所述样本音频的第四音频特征，得到所述第四音频特征构成的第四特征序列；将初始特征与所述第四特征序列拼接，得到第五特征序列；将所述第五特征序列输入至初始模型，对所述初始模型以及所述初始特征进行迭代训练，直至满足预设条件，得到关键词检测模型以及预设关键词特征，所述预设关键词特征为预设关键词对应的音频特征，所述关键词检测模型用于从待检测音频的第六特征序列中筛选出与所述预设关键词特征相关联的第四音频特征，并基于所述相关联的第四音频特征检测所述待检测音频是否包含所述预设关键词，所述第六特征序列为将所述待检测音频的音频特征构成的特征序列与所述预设关键词特征拼接得到的。

第三方面，本申请实施例提供了一种关键词检测装置，所述装置包括：音频获取模块、第一序列获取模块、第二序列获取模块以及检测模块。音频获取模块，用于获取待检测音频；第一序列获取模块，用于提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列；第二序列获取模块，用于将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，所述预设关键词特征为预设关键词对应的第二音频特征；检测模块，用于将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果，所述关键词检测模型用于从所述第二特征序列中筛选出与所述预设关键词特征相关联的第一音频特征，并基于所述相关联的第一音频特征检测所述待检测音频，得到所述关键词检测结果。

第四方面，本申请实施例提供了一种计算机设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述的方法。

第六方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机实现上述的方法。

本申请提供的方案中，获取待检测音频；提取待检测音频的第一音频特征，得到第一音频特征构成的第一特征序列；将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，预设关键词特征为预设关键词对应的第二音频特征；将第二特征序列输入至预先训练的关键词检测模型中，得到待检测音频的关键词检测结果，关键词检测模型用于从所述第二特征序列中筛选出与所述预设关键词特征相关联的第一音频特征，并基于所述相关联的第一音频特征检测所述待检测音频，得到所述关键词检测结果。如此，将待检测音频的第一音频特征构成第一特征序列与预设关键词特征拼接，得到第二特征序列，为关键词检测提供了检测依据，使得关键词检测模型可以基于该预设关键词特征筛选出与其相关联的第一音频特征，即筛选出为预设关键词可能性较大的第一音频特征，过滤掉不可能为预设关键词的第一音频特征，从而，关键词检测模型直接基于相关联的第一音频特征，检测待检测音频是否包含预设关键词，避免了对其他不相关联的第一音频特征的判别，仅对相关联的第一音频特征进行判别，大大提高了关键词的检测效率，同时也节省了更多的计算机资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的关键词检测方法的应用场景的示意图。

图2示出了本申请一实施例提供的关键词检测方法的流程示意图。

图3示出了本申请另一实施例提供的关键词检测方法的流程示意图。

图4示出了本申请又一实施例提供的关键词检测方法的流程示意图。

图5示出了本申请再一实施例提供的关键词检测方法的流程示意图。

图6示出了本申请又一实施例提供的关键词检测模型的训练方法的流程示意图。

图7示出了图6中步骤S440在一种实施方式中的子步骤流程示意图。

图8是根据本申请一实施例提供的一种关键词检测装置的框图。

图9是根据本申请一实施例提供的一种关键词检测模型的训练装置的框图。

图10是本申请实施例的用于执行根据本申请实施例的方法的计算机设备的框图。

图11是本申请实施例的用于保存或者携带实现根据本申请实施例的方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在相关技术中，针对关键词检测方法中，经常使用的关键词检测模型的网络结构主要由卷积神经网络(Convolutional Neural Network，CNN)+循环神经网络(RecurrentNeural Networks，RNN)/长短期记忆网络(Long Short Term Memory，LSTM)(+Attention)网络组成，由于RNN/LSTM的结构特殊性，每个时间帧的输出依赖上个时间帧的计算和输出结果，使得使用该网络进行关键词检测时，不能直接对第一音频特征进行处理，而是需要对第一音频特征的每一帧音频特征分别处理，从而对每一帧音频特征的输出依赖上一帧音频特征的计算和输出结果，也即不能实现在同一次计算中对所有音频特征进行检测或者对比，从而造成检测效果差的问题。

针对上述问题，发明人提出一种关键词检测方法、装置、计算机设备及存储介质，提取待检测音频的第一音频特征，得到第一音频特征构成的第一特征序列；将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，预设关键词特征为预设关键词对应的第二音频特征；将第二特征序列输入至预先训练的关键词检测模型中，得到待检测音频的关键词检测结果。下面对该内容进行详细描述。

请参阅图1，图1为本申请一实施例提供的一种关键词检测方法的应用场景的示意图，该应用场景包括关键词检测系统10。其中，关键词检测系统10包括计算机设备100，该计算机设备可以是具有数据处理功能的电子终端，该电子终端包括但不限于智能手机、平板电脑、笔记本电脑、智能手表以及智能家居设备等；当然，该计算机设备也可以是服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，计算机设备100可以获取待检测音频，并提取待检测音频的第一音频特征，得到由第一音频特征构成的第一特征序列，将第一特征序列与预设关键词特征拼接，得到第二特征序列，最后，将第二特征序列输入至预先训练的关键词检测模型中，得到针对该待检测音频的关键词检测结果。

在一些实施方式中，当计算机设备100为前述电子终端时，获取的待检测音频可以通过自身配置的音频采集设备采集的音频，也可以是接收由外置音频采集装置所采集并发送的音频，还可以是利用有线或无线通信方式，从网络数据库下载的音频，本实施例对此不作限制。

在另一些实施方式中，当计算机设备100为服务器时，该计算机设备可以与电子终端或外置音频采集装置相连接，获取的待检测音频可以是接收的电子终端采集并发送的音频，可以是接收的由外置音频采集装置采集并发送的音频，可以是预先存储于服务器内部的音频，还可以是利用有线或无线通信方式，从网络数据库下载的音频，本实施例对此不作限制。

请参照图2，图2为本申请一实施例提供的一种关键词检测方法的流程示意图。下面将结合图2对本申请实施例提供的关键词检测方法进行详细阐述。该关键词检测方法可以包括以下步骤：

步骤S110：获取待检测音频。

在本实施例中，待检测音频可以是需要进行关键词检测的任何应用下的音频，例如，在办公场景中的智能唤醒的应用中，待检测音频可以是用户发出的音频(如：请打开投影机)，对应地，此时获取待检测音频的计算机设备可以是投影机，也可以是用于控制投影机的智能控制面板，如此，通过对待检测音频进行关键词识别，即可实现智能办公场景中的智能唤醒功能；又例如，在应用程序(Application，APP)音频审核的应用中，待检测音频可以是用户发出的音频、用户上传的音频，或者从网络数据库下载的音频，如此，通过对待检测音频进行关键词检测，实现对APP中包含不健康色彩的关键词、不文明用语或其他违规关键词的音频进行检测，以保证APP的文明使用环境。

其中，获取待检测音频的具体方式可以参阅前述实施例中描述的内容，在此不再赘述。

步骤S120：提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列。

在本实施例中，待检测音频是以时域形式输入电子设备中的，所述第一音频特征可以是由计算机设备通过简单的信号处理方式提取待检测音频中的每帧音频帧的频谱特征，例如梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征或滤波器组(FilterBa nk，Fbank)特征等，也可以是通过预先训练的声学特征提取模型所提取的频谱特征，具体使用何种特征提取方式可以根据实际情况进行选择，本实施例对此不作限制。也就是说，第一特征序列是由提取到的待检测音频中所有音频帧的第一音频特征构成，其中，第一特征序列的序列单元可以是每一帧音频帧的第一音频特征，也可以是包含多帧音频帧的多个第一音频特征，本实施例对此不作限制。

步骤S130：将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，所述预设关键词特征为预设关键词对应的第二音频特征。

在本实施例中，关键词检测指的是检测待检测音频中是否包含预设关键词，并且，检测待检测音频是通过检测其第一音频特征构成的第一特征序列。因此，可以获取预设关键词对应的第二音频特征，也即上述预设关键词特征，并将该预设关键词特征与第一特征序列拼接，得到第二特征序列，为关键词检测提供检测依据，可以理解的，将预设关键词特征与所述第一特征序列拼接可以包括将预设关键词特征添加至所述第一特征序列中，也可以是将第一特征序列添加至预设关键词特征中，在本实施例中不作限制。

在一些实施方式中，由于预先训练的关键词检测模型在迭代训练过程中，为保证模型可以收敛，需要将用于训练预设关键词特征的初始特征与音频样本对应的特征序列拼接，优选地，将初始特征拼接至音频样本对应你的特征序列的头部位置，使得关键词识别模型在每次训练过程中，均是基于头部的初始特征进行相关联的音频特征的筛选，并且均是将筛选的相关联的音频特征与位于特征序列的头部的初始特征拼接。对应地，关键词检测模型的应用阶段与迭代训练阶段应保持一致，以保证关键词检测模型的准确性，因此，在关键词模型的应用阶段(即本方案中对待检测音频进行关键词检测的阶段)中，需要将预设关键词特征与第一特征序列的头部进行拼接。也就是说，在关键词检测过程中，均以位于头部的预设关键词特征作为检测依据，检测第一特征序列中是否存在与预设关键词特征相关联的第一音频特征，进而实现对待检测音频中是否包含预设关键词的检测。

其中，预设关键词包括但不限于系统规定的关键词、应用规定的关键词、用户自定义的关键词等，其数量可以是1个，也可以是多个，对应地，当预设关键词的数量为1个时，预设关键词特征中也仅为1个预设关键词对应的第二音频特征；当预设关键词的数量为多个时，预设关键词特征可以理解为同时包含多个预设关键词中每个预设关键词对应的第二音频特征，即融合音频特征。预设关键词特征可以是与前述关键词检测模型一同训练得到，当然也可以通过神经网络对预设关键词的音频特征进行提取融合得到，本实施例对此不作限制。

步骤S140：将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果，所述关键词检测模型用于从所述第二特征序列中筛选出与所述预设关键词特征相关联的第一音频特征，并基于所述相关联的第一音频特征检测所述待检测音频，得到所述关键词检测结果。

基于此，在获取到第二特征序列后，可以将第二特征序列输入至预先训练的关键词检测模型中，关键词检测模型可以利用预设关键词特征，对第二特征序列中的第一音频特征进行筛选，即筛选出与预设关键词特征相关联的第一音频特征，并进一步对第一音频特征进行二分类判断，基于判断结果确定待检测音频的关键词检测结果。其中，关键词检测结果可以包括包含预设关键词和不包含预设关键词两种检测结果；与预设关键词特征相关联的第一音频特征可以理解为，与预设关键词特征关联度达到预设关联度的第一音频特征，关联度可以是基于预设关键词特征与第一音频特征之间的相似度确定得到，例如，可以将相似度直接作为前述关联度，也可以将相似度乘以预设关联度系数得到的数值作为前述关联度，本实施例对此不作限制；并且，关联度与相似度呈正相关，相似度越高则关联度越高，反之关联度则越低。

可选地，用于实现上述二分类判断的算法包括但不限于逻辑回归(LogisticRegression)算法、k最近邻(k-Nearest Neighbors)算法、决策树(Decision Trees)算法、支持向量机(Support Vector Machine)算法以及朴素贝叶斯(Naive Bayes)等，当然，其他可用于二分类的算法也在本方案的保护范围中，在此不再赘述。

在实际应用中，即可根据针对待检测音频的关键词检测结果以及待检测音频的应用场景的不同，执行后续不同的操作。例如，若待检测音频是在智能唤醒场景中获取到的音频，预设关键词为唤醒词，当检测到待检测音频中包括预设关键词，则唤醒对应的智能设备；又例如，若待检测音频是在APP音频审核场景中获取到的音频，当检测到待检测音频中包括预设关键词(如：违规词汇)，则可以自动删除该待检测音频，或者对待检测音频包括预设关键词对应的音频片段做消音或后期配音等处理，以保证APP中的音频均为符合文明要求的音频，保证APP用户的文明使用环境。如此，上述关键词检测模型可以应用到多种场景下的关键词检测，即实现了模型多用。

在本实施例中，将待检测音频的第一音频特征构成的第一特征序列与预设关键词特征拼接，得到第二特征序列为关键词检测提供了检测依据，使得关键词检测模型可以基于该预设关键词特征筛选出与其相关联的第一音频特征，即筛选出为预设关键词可能性较大的第一音频特征，过滤掉不可能为预设关键词的第一音频特征；最后，关键词检测模型直接基于相关联的第一音频特征，检测待检测音频是否包含预设关键词，避免了对其他不相关联的第一音频特征的判别，仅对相关联的第一音频特征进行判别，大大提高了关键词的检测效率，同时也节省了更多的计算机资源。

请参照图3，图3为本申请另一实施例提供的一种关键词检测方法的流程示意图。下面将结合图3对本申请实施例提供的关键词检测方法进行详细阐述。该关键词检测方法可以包括以下步骤：

步骤S210：获取待检测音频。

步骤S220：提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列。

步骤S230：将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，所述预设关键词特征为预设关键词对应的第二音频特征。

在本实施例中，步骤S210至步骤S230的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

在相关技术中，一般是使用的RNN/LSTM网络训练的关键词识别网络进行关键词识别。但是，由于RNN/LSTM的结构特殊性，各个时间帧的输出依赖上个时间帧的计算和输出结果。由此可见，基于RNN/LSTM网络训练得到的关键词识别模型的检测效率较低。因此，在本实施例中，是基于可以实现并行计算的transformer模型中的编码器进行训练，得到的关键词检测模型，如此，可以使得关键词检测模型的检测效率有较大的提高。

步骤S240：对所述第二特征序列中的每个音频特征添加位置特征，得到第三特征序列。

基于此，由于关键词检测模型是基于transformer模型中的编码器训练得到的，输入至编码器中的特征采用的输入方式是并行输入，但是编码器并没有捕捉并行输入的特征序列的顺序的能力，即若直接将第二特征序列输入至编码器中，编码器无法获知到第二特征序列中的每个音频特征的相对位置。因此，可以通过对第二特征序列中每个音频特征添加位置特征，该位置特征可以理解为位置编码(即一个位置向量)，用于表征每个音频特征在第二特征序列中所处的位置(相当于针对第二特征序列中的所有音频特征，按照位置先后顺序进行排序)，便于编码器通过每个音频特征的位置特征学习到每个音频特征之间的相对位置的信息。具体地，可以为第二特征序列中的每个音频特征嵌入一个位置向量，得到上述第三特征序列。

步骤S250：将所述第三特征序列输入至所述关键词检测模型中，得到所述待检测音频的关键词检测结果。

在一些实施方式中，所述关键词检测模型包括编码器、激活函数以及概率判别模块，步骤S250具体包括：

首先，将所述第三特征序列输入至所述关键词检测模型中，所述编码器利用注意力机制，根据所述每个音频特征的位置特征，获取所述第三特征序列中的每个音频特征与所述预设关键词特征的关联度分数，以及将所述关联度分数达到所述预设分数阈值的第一音频特征融入至所述预设关键词特征中，得到所述高维特征。

在本实施例中，注意力机制就是对输入第三特征序列进行权重的分配，以选择特定的输入，例如，利用注意力机制选择出第三特征序列中与预设关键词特征相关联的第一音频特征。注意力机制可以通俗地理解为模拟人脑的注意力机制，举个例子来说，当我们观察一副图画时，我们可以观看整幅图画的全貌，也可以深入仔细观察图画的一小部分，例如图画中的一棵树、一朵花或一片云，这是我们的眼睛聚焦的就只有很小一块，即此时人脑中主要关注在这一小部分图画上，也就是说这个时候人脑对整幅图画的关注不是均衡的，是存在一定权重区分的。

基于此，关键词检测模型中包括有transformer编码器，transformer编码器中包含有上述注意力机制，因此，transformer编码器即相当于上述例子中的人脑，每个音频特征的位置特征相当于上述例子中的一棵树、一朵花或一片云的位置。基于此，transformer编码器可以利用注意力机制，并按照所述每个音频特征的位置特征，依次为第三特征序列中的每个第一音频特征进行权重值的分配，其中，权重值的分配可以是根据每个第一音频特征与预设关键词特征的相似度来进行分配的，权重值与相似度呈正相关，相似度越大对应的权重值越大，代表该第一音频特征与预设关键词特征的关联度越大，对应的关联度分数越高。因此，可以获取第三特征序列中与预设关键词特征的关联度分数达到预设分数阈值的第一音频特征，并将关联度分数达到所述预设分数阈值的第一音频特征融入至预设关键词特征中，得到上述高维特征。关联度分数达到所述预设分数阈值的第一音频特征也可以通俗地理解为疑似为预设关键词的第一音频特征，也就是说，该高维特征中同时包括了第三特征序列中疑似为预设关键词的所有第一音频特征。

其次，所述激活函数用于对所述高维特征中的第一音频特征进行归一化处理，得到目标概率，所述目标概率用于表征所述关联度分数达到所述预设分数阈值的第一音频特征所对应的音频片段中，包含所述预设关键词的概率。

基于此，在获取到高维特征后，可以将高维特征输入至激活函数中，由激活函数将高维特征中关联度分数达到预设分数阈值的第一音频特征进行归一化处理，并将归一化处理得到的数值作为对应的目标概率。其中，激活函数可以是Softmax logical regression(softmax逻辑回归)函数，该函数可以用以下公式表示：

其中，V_i为第一音频特征的向量值，i为类别，C为类别总数(包含预设关键词类别和不包含预设关键词类别)，S_i为在i类别下第一音频特征的向量值对应指数与在每种类别下第一音频特征的向量值对应的指数之和的比值(即上述目标概率)。由此可见，基于上述公式，可以对高维特征中包含的关联度分数达到预设分数阈值的每个第一音频特征均进行归一化处理，得到与每个第一音频特征对应的目标概率，该目标概率用于表征关联度分数达到所述预设分数阈值的每个第一音频特征所对应的音频片段中，包含所述预设关键词的概率。

最后，所述概率判别模块可以用于基于所述目标概率以及预设概率阈值，确定所述待检测音频的关键词检测结果。

在本实施例中，可以通过对目标概率的判断，来判断待检测音频中是否包含预设关键词。具体地，判断目标概率是否达到预设概率阈值，若达到，则判定待检测音频中包含预设关键词；若未达到，则判断待检测音频中未包含预设关键词。其中，预设概率阈值可以是系统默认的概率阈值、应用默认的概率阈值或用户自定义的概率阈值，本实施例对此不作限制。

在一些实施方式中，通过transformer编码器的注意力机制筛选出的疑似为预设关键词的第一音频特征可能为多个，例如，若预设关键词为“学院”，当待检测音频中同时包括有“学院”和“学员”两个关键词时，由于两个字的发音接近，对应地，提取到的第一音频特征也相似，因此，“学院”和“学员”两个关键词均可能被筛选为疑似为预设关键词的关键词，此时，“学院”和“学员”两个关键词的第一音频特征均被视作关联度分数达到预设分数阈值的第一音频特征，即关联度分数达到预设分数阈值的第一音频特征的数量也为多个，对应地，目标概率的数量也为多个。基于此，若所述目标概率的数量为多个，将概率值最大的所述目标概率确定为最大目标概率，，最大目标概率即为在待检测音频中包含有预设关键词的最大目标概率；进一步地，判断最大目标概率是否大于或等于预设概率阈值；若最大目标概率大于或等于预设概率阈值，判定待检测音频中包含预设关键词；若最大目标概率小于预设概率阈值，判定待检测音频中未包含所述预设关键词。

在一些实施方式中，上述概率判别模块也可以不用设置于关键词检测模型中，本实施例对此不作限制。也就是说，关键词检测模型的输出为一个或多个目标概率，对应地，关键词检测模型的输出即为概率判别模块的输入，概率判别模块可以基于一个或多个目标概率以及预设概率阈值，确定待检测音频的关键词检测结果。

在一些实施方式中，若第三特征序列中的每个音频特征与所述预设关键词特征的关联度分数均未达到所述预设分数阈值，则将第三特征序列中关联度分数最大的音频特征融入至所述预设关键词特征中，得到所述高维特征。虽然通过注意力机制确定并未有与预设关键词特征相关联的第一音频特征，为避免注意力机制的误筛选，保证关键词检测模型的检测准确性，仍可以将关联度分数最大的音频特征融入至所述预设关键词特征中，得到高维特征。再通过激活函数对该高维特征进行归一化处理，得到目标概率，最后再基于目标概率与预设概率阈值，确定待检测音频的关键词检测结果，如此，结合注意力机制与激活函数得到的目标概率进行双重验证，保证了关键词检测的准确性，降低了误检测率。

在本实施例中，通过在第二特征序列中的每个音频特征添加位置特征，有助于捕捉特征序列的顺序，提高基于注意力机制进行高维特征融合的准确性及效率，进而保证了关键词识别的准确性及效率；并且，基于完全采用注意力机制的transformer模型中的编码器训练得到的关键词识别模型，在基于音频特征进行检测时，可以实现并行计算，提高了检测效率。并且，在RNN/LSTM网络中，若上个时间帧的输出存在误差，则会导致后续每个时间帧的输出均会存在误差，每个时间帧的误差均会叠加至最终的关键词识别结果中，进而导致最终的关键词识别结果的不准确，而transformer编码器是采用全局注意力机制，直接筛选出与预设关键词特征相关联的第一音频特征，可以看作是进行全局特征的筛选，相较于基于RNN/LSTM网络训练得到的关键词检测模型具有更高的识别准确率。

请参阅图4，图4为本申请又一实施例提供的一种关键词检测方法的流程示意图。下面将结合图4对本申请实施例提供的关键词检测方法进行详细阐述。该关键词检测方法可以包括以下步骤：

在本实施例中，用于对待检测音频进行关键词检测的关键词检测模型是基于transformer的编码器预先训练得到的。计算机设备获取待检测音频，对待检测音频进行特征提取，得到待检测音频中每帧音频帧的第一音频特征，并基于提取到的第一音频特征，进行特征序列的构建。需要说明的是，特征序列过长，会降低关键词检测模型的效率和识别的准确性，因此，为保证关键词检测的效率以及识别的准确性，可以按照预设时长，对提取到的第一音频特征进行特征切块，得到多个时序特征序列。其中，预设时长可以是预先设置的，如10毫秒、20毫秒等，也可以根据不同的应用场景对其进行调整，针对不同检测场景对检测效率的需求不同，进而设置不同的预设时长，本实施例对此不作限制。

进一步地，在得到多个时序特征序列后，由于transformer模型中的编码器对输入特征的维度要求是一维特征，而时序特征序列中所包含的音频特征为频域特征，属于二维特征。基于此，可以将时序特征序列输入至神经网络的全连接层(即图4中的降维网络)进行特征降维，得到第一特征序列，如此，获取到的第一特征序列的维度即可满足transformer模型中的编码器对输入特征的维度要求。再将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，对第二特征序列中的每个音频特征添加位置特征，得到第三特征序列。如图中所示，为便于理解，将第三特征序列中的每个音频特征的位置特征以0、1、2、3、4数字形式进行表示。

基于此，再将第三特征序列输入至关键词检测模型中的主干网络(图4中的transformer编码器)中，该编码器可以利用注意力机制，并根据每个音频特征的位置特征，获取第三特征序列中的每个音频特征与预设关键词特征的关联度分数，以及将关联度分数达到预设分数阈值的第一音频特征融入至预设关键词特征中，得到高维特征；将高维特征输入至关键词检测模型中的分类网络(即图4中的softmax函数)进行归一化处理，得到目标概率。最后，基于该目标概率以及预设概率阈值，确定待检测音频的关键词检测结果。具体地实施方式可以参阅前述实施例中的内容，本实施例在此不再赘述。

其中，通过图4可以很明显地看出第三特征序列输入至transformer编码器是通过并行输入，即同时输入第三特征序列中的每个序列单元，编码器可以并行处理，即利用注意力机制同时捕获到位置特征为0的第二音频特征与位置特征为1、2、3、4的第一音频特征之间的相似的音频特征。而不是像RNN网络或LSTM网络，需要依次输入第三特征序列中的每个序列单元(如先输入位置特征为0的音频特征，再输入位置特征为1的音频特征)，而且是依次捕获每个序列单元与其他序列单元之间相似的音频特征，例如，首先获取位置特征为0的音频特征与位置特征为1之间的相似的音频特征，再基于首次捕获的音频特征，进一步捕获位置特征为0与位置特征为2的音频特征之间的相似的特征。

由此可见，在本实施例中，基于transformer编码器为主干网络训练得到的关键词检测模型，可以实现并行计算，大大提高了关键词识别的效率；并且，可以根据第三特征序列中的每个音频特征的位置特征，直接筛选出与预设关键词特征相关联的第一音频特征，可以看作是进行全局特征的筛选；避免了RNN/LSTM网络中的循环(recurrent)的模型结构导致的每层网络输出都依赖于前面所有网络层的输出，进而导致的检测时间过长以及检测效果较差等问题的发生，大大提高了关键词检测模型的检测效率以及检测的准确性。

请参照图5，图5为本申请再一实施例提供的一种关键词检测方法的流程示意图。下面将结合图5对本申请实施例提供的关键词检测方法进行详细阐述。该关键词检测方法可以包括以下步骤：

步骤S310：获取待检测音频。

在本实施例中，步骤S310的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S320：判断所述待检测音频的时长是否大于时长阈值。

在实际应用中，当待检测音频的时长过长时，如2小时的待检测音频，若直接基于整段的待检测音频的第一音频特征构建特征序列，并将构建得到的过长的特征序列输入至关键词检测模型中的进行关键词识别，即使关键词检测模型支持对特征序列的并行计算，但是，过长的特征序列会导致计算量呈爆炸式增长，同时也会影响注意力机制的计算，进而导致计算机设备的计算资源无法满足关键词检测模型的计算需求，进而导致关键词检测进程缓慢，或者计算机设备卡死，导致关键词检测精度滞缓。例如，若在智能唤醒的应用场景，若迟迟无法识别出待检测音频中是否包含预设关键词，则会导致无法实时唤醒对应的智能设备，进而影响用户的使用体验；又例如，在APP音频审核的应用场景，若待检测音频过长，计算资源无法满足关键词检测模型的计算需求，进而可能导致计算机设备卡死，APP闪退等情况，甚至可能造成前述已检测完成的音频的丢失等问题的发生。

为避免前述情况发生，可以在获取到待检测音频后，对待检测音频的时长进行判断，针对时长过长的待检测音频进行分段检测。具体地，判断待检测音频的时长是否大于时长阈值，若待检测音频的时长不大于时长阈值，表征待检测音频不属于时长过长的音频，可以直接基于整段的待检测音频的音频特征构建特征序列，并将特征序列输入至关键词检测模型中进行关键词检测，即执行步骤S330-步骤S350。

其中，时长阈值可以是预先设置的，例如，系统默认的时长阈值、应用默认的时长阈值或用户自定义的时长阈值，可以理解地，时长阈值还可以由计算机设备的计算机资源决定的，计算机资源不同的计算机设备对应的时长阈值也可以不同，其中，计算机资源包括但不限于中央处理器(Central Processing Unit，CPU)资源、内存资源、硬盘资源和网络资源；可以理解地，计算机资源越丰富，计算机设备处理数据的能力越强，表征该计算机设备处理较长的待检测音频的能力也越强，因此，对应的时长阈值则越大。

步骤S330：若所述待检测音频的时长不大于所述时长阈值，则提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列；

步骤S340：将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，所述预设关键词特征为预设关键词对应的第二音频特征。

步骤S350：将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果。

在本实施例中，步骤S330至步骤S350的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S360：若所述待检测音频的时长大于所述时长阈值，则将所述待检测音频切分为多个子音频，并提取所述多个子音频中每个子音频的第一音频特征对应构成的第一特征序列，得到多个第一特征序列。

可选地，若待检测音频的时长大于时长阈值，表征待检测音频属于时长过长的音频，为保证关键词检测过程的顺利推进以及检测效率，可以将待检测音频切分为多个子音频，具体地，可以根据指定切分时长，对待检测音频进行切分，其中指定切分时长也可以是预先设置的，例如，系统默认的切分、应用默认的切分或用户自定义的切分时长，本实施例对此不作限制；基于此，可以提取多个子音频中每个子音频的第一音频特征对应构成的第一特征序列，得到多个第一特征序列。获取每个子音频的第一特征序列的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

步骤S370：将所述预设关键词特征与所述多个第一特征序列中每个第一特征序列拼接，得到多个第二特征序列。

步骤S380：将所述多个第二特征序列输入至预先训练的关键词检测模型中，得到多个子检测结果。

基于此，在获取到多个第一特征序列后，可以基于前述实施例中的所述将第一特征序列的头部与预设关键词特征拼接，在多个第一特征序列中每个第一特征序列的头部均拼接预设关键词特征，得到多个第二特征序列；并将多个第二特征序列输入至预先训练的关键词检测模型中，得到多个子检测结果，子检测结果即为针对每个子音频进行关键词检测的检测结果。

步骤S390：基于所述多个子检测结果，确定所述待检测音频的关键词检测结果。

在本实施例中，在获取到多个子检测结果后，可以根据多个子检测结果确定待检测音频的关键词检测结果。具体地，判断多个子检测结果中是否存在任一个子检测结果为包含预设关键词，若存在任一个子检测结果为包含预设关键词，则确定待检测音频的关键词检测结果为包含预设关键词；若多个子检测结果中每个子检测结果均为不包含预设关键词，则确定待检测音频的关键词检测结果为不包含预设关键词。

在上述实施例中，在对待检测音频进行关键词识别之前，先判断待检测音频的时长是否大于时长阈值，对时长大于时长阈值的待检测音频进行分段检测。如此，可以保证了关键词检测过程的顺利推进以及检测效率，不会因为待检测音频的时长过长而导致迟迟无法检测出其中是否包含关键词。

请参照图6，图6为本申请又一实施例提供的一种关键词检测模型的训练方法的流程示意图。下面将结合图6对本申请实施例提供的关键词检测模型的训练方法进行详细阐述。该关键词检测模型的训练方法可以包括以下步骤：

步骤S410：获取样本音频。

在本实施例中，获取样本音频可以从本地数据库中直接获取预存的样本音频数据集，也可以从通过有线或无线网络从网络数据库中下载所需的样本音频数据集，当然，其他方式的样本音频数据集获取方式也在本申请的保护范围内，在此不再具体进行限定。其中，样本音频上标注有对应的预设关键词标签，预设关键词标签的种类可以为多种，即代表基于该样本音频训练得到的关键词检测模型可以实现对多种预设关键词的检测。

步骤S420：提取样本音频的第四音频特征，得到所述第四音频特征构成的第四特征序列。

步骤S430：将初始特征与所述第四特征序列拼接，得到第五特征序列。

在本实施例中，第四音频特征与前述实施例中的第一音频特征为相同类型的音频特征，获取样本音频的第四特征序列以及获取第五特征序列的原理，与前述实施例中获取待检测音频的第一特征序列以及第二特征序列的原理类似，因此，步骤S420至步骤S430的具体实施方式可以参阅前述实施例中的内容，在此不再赘述。

其中，前述实施例中的预设关键词特征可以是基于本实施例中的初始特征训练学习得到，初始特征可以理解为一个初始特征向量。将初始特征与第四特征序列拼接，得到第五特征序列，并基于该第五特征序列，于初始模型一同进行反复地迭代训练，对该初始特征进行优化更新，最终得到前述预设关键词特征。可以理解为，由于样本音频中包含有预设关键词，以及对应的预设关键词标签，在每次训练过程中，对初始特征的向量值进行优化，使初始特征中尽可能学习到更多的预设关键词对应的音频特征，最终，在完成模型训练后，得到一个最终的预设关键词特征，进而可以使得在通过训练得到的关键词检测模型进行检测时，通过将训练得到的预设关键词特征与特征序列拼接，为关键词检测提供检测依据，筛选出与该预设关键词特征相关联的第一音频特征，再对相关联的第一音频特征进行判别，大大提高了关键词的检测效率以及检测的准确性，同时也节省了更多的计算机资源。

可以理解地，无论是样本音频还是待检测音频，其音频长度都是不定长的，即在模型训练阶段，不同样本音频的音频长度可能不同，在模型应用阶段，不同的待检测音频的长度也可能不同。样本音频的音频长度不同，对应提取到的第四特征序列的序列长度也不相同，并且，若在每次迭代训练中，将初始特征添加至第四特征序列中的位置不同，则会导致模型不能收敛，进而导致无法完成对初始模型的训练。因此，优选地，在每次迭代训练中，可以将初始特征均添加至样本音频对应的第四特征序列的头部，得到第五特征序列，也就是说，样本音频的音频长度的改变，并不会改变初始特征在第五特征序列中的位置，每次都是对第五特征序列中的第一个特征(即初始特征)进行优化更新。如此，可以提高模型收敛的速度，减少模型训练时间，同时也会使得最终学习得到的预设关键词特征中所含的与预设关键词对应的音频特征更为全面。同时，避免了因将初始特征添加至第四特征序列中的其他位置(例如尾部)，由于样本音频的音频长度是不定长的，样本音频的音频长度不同，对应提取的第四特征序列的长度也不同，从而导致的在每次模型的迭代训练中，初始特征在第五特征序列中的位置均在改变，导致无法准确将与预设关键词对应的音频特征融入至初始特征中，进而导致关键词检测模型无法收敛、模型训练失败等问题的发生。

步骤S440：将所述第五特征序列输入至初始模型，对所述初始模型以及所述初始特征进行迭代训练，直至满足预设条件，得到关键词检测模型以及预设关键词特征，所述预设关键词特征为预设关键词对应的音频特征，所述关键词检测模型用于从待检测音频的第六特征序列中筛选出与所述预设关键词特征相关联的第四音频特征，并基于所述相关联的第四音频特征检测所述待检测音频是否包含所述预设关键词，所述第六特征序列为将所述待检测音频的音频特征构成的特征序列与所述预设关键词特征拼接得到的。

在一些实施方式中，请参阅图7，步骤S440可以包括以下步骤：

步骤S441：将所述第五特征序列输入至所述初始模型，获取与第五特征序列对应的关键词检测结果。

步骤S442：基于所述关键词检测结果以及音频样本对应标注的预设关键词标签，确定检测损失值。

步骤S443：根据所述检测损失值对所述初始模型以及所述初始特征进行迭代训练，直至所述检测损失值满足所述预设条件，得到所述关键词检测模型以及所述预设关键词特征。

在本实施例中，在获取到第五特征序列后，则将第五特征序列输入至初始模型，并获取与第五特征序列对应的关键词检测结果，再获取关键词检测结果与音频样本对应标注的预设关键词标签之间的差异，确定对应的检测损失值；并根据检测损失值对初始模型中的模型参数进行调整，同时随着模型参数的调整，融入至初始特征中的音频特征也会跟随调整变化，即实现了对初始特征的向量值的优化，使初始特征中尽可能学习到更多的预设关键词对应的音频特征，最终，直至检测损失值满足预设条件，得到关键词检测模型以及预设关键词特征。其中，初始模型中包括transformer编码器以及激活函数。

在一些实施方式中，可以通过以下损失函数计算关键词检测结果与音频样本对应标注的预设关键词标签之间的差异，得到检测损失值，进而来实现对初始模型的训练：

L＝ylogy^{^}+(1-y)log(1-y^{^})

其中，y表示预测结果，y^表示关键词检测结果(即实际预测结果)，L为上述检测损失值。

其中，预设条件可以为：检测损失值小于预设值、检测损失值不再变化、或者训练次数达到预设次数等。可以理解的，在根据样本音频对初始模型进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对初始模型中的参数以及初始特征进行优化，使得上述检测损失值越来越小，最后变小为一个固定值，或者小于以上预设值，此时，则表示初始模型已收敛，以及初始特征已包含较为完整的预设关键词对应的特征；当然也可以是在训练次数达到预设次数后，确定初始模型已经收敛，此时，则可以将初始模型作为上述关键词检测模型。其中，预设值以及预设次数均为预先设置的，也可以根据不同的应用场景对其数值进行调整，本实施例对此不作限制。

在本实施例中，基于注意力机制的transformer编码器训练得到的关键词检测模型，在训练过程中可以进行并行计算，避免例如RNN/LSTM网络中的循环(recurrent)的模型结构导致的每层网络输出都依赖于前面所有网络层的输出，进而导致的模型训练时间较长等问题的发生；以及，transformer模型依赖于注意力机制对输入输出的全局依赖关系，即实现了并行化捕捉序列依赖，并且同时处理序列的每个位置的特征，大大减少了训练时间，提高了训练效率，且transformer结构在大数据集上性能优于RNN结构，可以提升关键词识别准确率。

请参照图8，其中示出了本申请一实施例提供的一种关键词检测装置500的结构框图。该装置500可以包括：音频获取模块510、第一序列获取模块520、第二序列获取模块530和检测模块540。

音频获取模块510用于获取待检测音频。

第一序列获取模块520用于提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列。

第二序列获取模块530用于将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，所述预设关键词特征为预设关键词对应的第二音频特征。

检测模块540用于将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果，所述关键词检测模型用于从所述第二特征序列中筛选出与所述预设关键词特征相关联的第一音频特征，并基于所述相关联的第一音频特征检测所述待检测音频，得到所述关键词检测结果。

在一些实施方式中，检测模块540可以包括：位置添加单元。其中，位置添加单元可以用于对所述第二特征序列中的每个音频特征添加位置特征，得到第三特征序列。检测模块540可以具体用于将所述第三特征序列输入至所述关键词检测模型中，得到所述待检测音频的关键词检测结果。

在该方式下，所述关键词检测模型包括编码器、激活函数以及概率判别模块，将所述第三特征序列输入至所述关键词检测模型中，所述编码器用于利用注意力机制，并根据所述每个音频特征的位置特征，获取所述第三特征序列中每个第一音频特征与所述预设关键词特征的关联度分数，将所述关联度分数达到所述预设分数阈值的第一音频特征与所述预设关键词特征拼接，得到所述高维特征。所述激活函数用于将所述高维特征中的第一音频特征进行归一化处理，并将所述归一化处理得到的数值作为对应的目标概率，所述目标概率用于表征所述高维特征中的第一音频特征所对应的音频中，包含所述预设关键词的概率。所述概率判别模块用于基于所述目标概率以及预设概率阈值，确定所述待检测音频的关键词检测结果。

在一些实施方式中，若所述目标概率的数量为多个，检测单元可以具体用于：获取多个所述目标概率中的最大值，作为最大目标概率；若所述最大目标概率达到所述预设概率阈值，则确定所述待检测音频中包含所述预设关键词，否则，确定所述待检测音频中未包含所述预设关键词。

在一些实施方式中，第一序列获取模块520可以具体用于：若所述待检测音频的时长不大于所述时长阈值，则提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列；若所述待检测音频的时长大于所述时长阈值，则将所述待检测音频切分为多个子音频，并提取所述多个子音频中每个子音频的第一音频特征对应构成的第一特征序列，得到多个第一特征序列。

在该方式下，若第一特征序列为多个，第二序列获取模块530可以具体用于将所述预设关键词特征与所述多个第一特征序列中的每个第一特征序列拼接，得到多个第二特征序列。检测模块540可以具体用于将所述多个第二特征序列输入至预先训练的关键词检测模型中，得到多个子检测结果；基于所述多个子检测结果，确定所述待检测音频的关键词检测结果。

请参照图9，其中示出了本申请一实施例提供的一种关键词检测模型的训练装置600的结构框图。该装置600可以包括：训练样本获取模块610、第三序列获取模块620、第四序列获取模块630和模型训练模块640。

训练样本获取模块610用于获取样本音频。

第三序列获取模块620用于提取所述样本音频的第四音频特征，得到所述第四音频特征构成的第四特征序列。

第四序列获取模块630用于将初始特征与所述第四特征序列拼接，得到第五特征序列。

模型训练模块640用于将所述第五特征序列输入至初始模型，对所述初始模型以及所述初始特征进行迭代训练，直至满足预设条件，得到关键词检测模型以及预设关键词特征，所述预设关键词特征为预设关键词对应的音频特征，所述关键词检测模型用于从待检测音频的第六特征序列中筛选出与所述预设关键词特征相关联的第四音频特征，并基于所述相关联的第四音频特征检测所述待检测音频是否包含所述预设关键词，所述第六特征序列为将所述待检测音频的音频特征构成的特征序列与所述预设关键词特征拼接得到的。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请实施例提供的方案中，获取待检测音频；提取待检测音频的第一音频特征，得到第一音频特征构成的第一特征序列；将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，预设关键词特征为预设关键词对应的第二音频特征；将第二特征序列输入至预先训练的关键词检测模型中，得到待检测音频的关键词检测结果，预设关键词特征用于关键词检测模型利用第二特征序列检测待检测音频是否包含预设关键词的过程中，对第二特征序列中的第一音频特征进行筛选。如此，在待检测音频的第一音频特征构成第一特征序列与预设关键词特征拼接，得到第二特征序列，为关键词检测提供了检测依据，使得关键词检测模型可以首先基于该预设关键词特征筛选出与其相关联的第一音频特征，即筛选出为预设关键词可能性较大的第一音频特征，过滤掉不可能为预设关键词的第一音频特征；最后，关键词检测模型直接基于相关联的第一音频特征，检测待检测音频是否包含预设关键词，避免了对其他不相关联的第一音频特征的判别，仅对相关联的第一音频特征进行判别，大大提高了关键词的检测效率，同时也节省了更多的计算机资源。

下面将结合图10对本申请提供的一种计算机设备进行说明。

参照图10，图10示出了本申请实施例提供的一种计算机设备700的结构框图，本申请实施例提供的上述方法可以由该计算机设备700执行。其中，计算机设备700可以是智能手机、平板电脑、智能手表、笔记本电脑、台式电脑、服务器、录音笔等能够运行应用程序的设备。

本申请实施例中的计算机设备700可以包括一个或多个如下部件：处理器701、存储器702、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器702中并被配置为由一个或多个处理器701执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器701可以包括一个或者多个处理核。处理器701利用各种接口和线路连接整个计算机设备700内的各个部分，通过运行或执行存储在存储器702内的指令、程序、代码集或指令集，以及调用存储在存储器702内的数据，执行计算机设备700的各种功能和处理数据。可选地，处理器701可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器701可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器701中，单独通过一块通信芯片进行实现。

存储器702可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器702可用于存储指令、程序、代码、代码集或指令集。存储器702可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备700在使用中所创建的数据(比如上述的各种对应关系)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

请参考图11，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种关键词检测方法，其特征在于，所述方法包括：

获取待检测音频；

提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列；

将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，所述预设关键词特征为预设关键词对应的第二音频特征；

将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果，所述关键词检测模型用于从所述第二特征序列中筛选出与所述预设关键词特征相关联的第一音频特征，并基于所述相关联的第一音频特征检测所述待检测音频，得到所述关键词检测结果。

2.根据权利要求1所述的方法，其特征在于，在所述将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果之前，所述方法还包括：

对所述第二特征序列中的每个音频特征添加位置特征，得到第三特征序列；

所述将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果，包括：

将所述第三特征序列输入至所述关键词检测模型，得到所述待检测音频的关键词检测结果。

3.根据权利要求2所述的方法，其特征在于，所述关键词检测模型包括编码器、激活函数以及概率判别模块，

所述编码器用于利用注意力机制，根据所述每个音频特征的位置特征，获取所述第三特征序列中每个第一音频特征与所述预设关键词特征的关联度分数，将所述关联度分数达到所述预设分数阈值的第一音频特征与所述预设关键词特征拼接，得到高维特征；

所述激活函数用于对所述高维特征中的第一音频特征进行归一化处理，得到目标概率，所述目标概率用于表征所述高维特征中的第一音频特征所对应的音频中，包含所述预设关键词的概率；

所述概率判别模块用于基于所述目标概率以及预设概率阈值，确定所述待检测音频的关键词检测结果。

4.根据权利要求3所述的方法，其特征在于，若所述目标概率的数量为多个，所述基于所述目标概率以及预设概率阈值，确定所述待检测音频的关键词检测结果，包括：

将概率值最大的所述目标概率确定为最大目标概率；

若所述最大目标概率大于或等于所述预设概率阈值，则确定所述待检测音频中包含所述预设关键词，否则，确定所述待检测音频中未包含所述预设关键词。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列，包括：

若所述待检测音频的时长不大于所述时长阈值，则提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列；

若所述待检测音频的时长大于所述时长阈值，则将所述待检测音频切分为多个子音频，并提取所述多个子音频中每个子音频的第一音频特征对应构成的第一特征序列，得到多个第一特征序列。

6.根据权利要求5所述的方法，其特征在于，若第一特征序列为多个，所述将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，包括：

将所述预设关键词特征与所述多个第一特征序列中的每个第一特征序列拼接，得到多个第二特征序列；

将所述多个第二特征序列输入至预先训练的关键词检测模型中，得到多个子检测结果；

基于所述多个子检测结果，确定所述待检测音频的关键词检测结果。

7.一种关键词检测模型的训练方法，其特征在于，所述方法包括：

获取样本音频；

提取所述样本音频的第四音频特征，得到所述第四音频特征构成的第四特征序列；

将初始特征与所述第四特征序列拼接，得到第五特征序列；

将所述第五特征序列输入至初始模型，对所述初始模型以及所述初始特征进行迭代训练，直至满足预设条件，得到关键词检测模型以及预设关键词特征，所述预设关键词特征为预设关键词对应的音频特征，所述关键词检测模型用于从待检测音频的第六特征序列中筛选出与所述预设关键词特征相关联的第四音频特征，并基于所述相关联的第四音频特征检测所述待检测音频是否包含所述预设关键词，所述第六特征序列为将所述待检测音频的音频特征构成的特征序列与所述预设关键词拼接特征得到的。

8.一种关键词检测装置，其特征在于，所述装置包括：

音频获取模块，用于获取待检测音频；

第一序列获取模块，用于提取所述待检测音频的第一音频特征，得到所述第一音频特征构成的第一特征序列；

第二序列获取模块，用于将预设关键词特征与所述第一特征序列拼接，得到第二特征序列，所述预设关键词特征为预设关键词对应的第二音频特征；

检测模块，用于将所述第二特征序列输入至预先训练的关键词检测模型中，得到所述待检测音频的关键词检测结果，所述关键词检测模型用于从所述第二特征序列中筛选出与所述预设关键词特征相关联的第一音频特征，并基于所述相关联的第一音频特征检测所述待检测音频，得到所述关键词检测结果。

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7中任意一项所述的方法。

11.一种包含指令的计算机程序产品，其特征在于，所述计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机实现如权利要求1至7任一项所述的方法。