CN116705013A

CN116705013A - 语音唤醒词的检测方法、装置、存储介质和电子设备

Info

Publication number: CN116705013A
Application number: CN202310934138.8A
Authority: CN
Inventors: 王雄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-09-05
Anticipated expiration: 2043-07-28
Also published as: CN116705013B

Abstract

本申请公开一种语音唤醒词的检测方法、装置、存储介质和电子设备，涉及语音唤醒技术领域，可应用于智慧交通领域，该方法中，获取带噪语音信号的频域特征，作为第一语音特征，针对第一语音特征进行迭代处理，一次迭代处理包括：针对基于第一语音特征获得的待降噪特征进行降噪处理，获得本次迭代对应的候选特征，再将最后一次迭代获得的候选特征作为目标特征，基于此获得目标降噪参数，对第一语音特征进行降噪处理，获得第二语音特征，再基于此进行语音唤醒词的检测，获得带噪语音信息的目标检测结果。基于该方法，能够有效保留带噪语音信号中的语音唤醒词，解决相关技术因损伤语音唤醒词导致后续检测不准确的问题。

Description

语音唤醒词的检测方法、装置、存储介质和电子设备

技术领域

本申请涉及语音唤醒技术领域，尤其涉及一种语音唤醒词的检测方法、装置、存储介质和电子设备。

背景技术

语音唤醒，指通过语音唤醒词唤醒设备，以使设备从待机状态进入工作状态，从而对使用对象的语音进行相应的识别和回应。

相关技术中，设备通常是基于神经网络降噪算法，对待检测的带噪语音信号进行降噪处理，得到相应的降噪语音信号，再采用常规的检测手段，检测降噪语音信号中是否存在语音唤醒词的信息。

然而，神经网络降噪算法的过拟合能力较强，在一些场景下，可能会存在语谱损伤的问题，即在去除噪声信息的同时，还损伤了语音唤醒词的信息，导致后续针对语音唤醒词检测的准确率较低。

发明内容

本申请提供一种语音唤醒词的检测方法、装置、存储介质和电子设备，用以识别带噪语音信号中存在的语音唤醒词，提高识别准确率。

第一方面，本申请提供了一种语音唤醒词的检测方法，包括：

获取带噪语音信号的频域特征，作为第一语音特征；

针对所述第一语音特征进行迭代处理，其中，一次迭代处理包括：根据所述第一语音特征确定待降噪特征，以及基于针对历史带噪语音信号获得的历史待降噪特征，获得本次迭代对应的降噪状态信息，并基于所述降噪状态信息对所述待降噪特征进行降噪处理，获得所述本次迭代对应的候选特征，其中，在第1次迭代处理中，所述待降噪特征为所述第一语音特征，在第i次迭代处理中，所述待降噪特征是所述第一语音特征和已获得的候选特征融合得到的，i为大于1的正整数；

将最后一次迭代获得的候选特征作为目标特征，并基于针对所述目标特征进行结构化信息提取获得的目标降噪参数，对所述第一语音特征进行降噪处理，获得第二语音特征；

基于所述第二语音特征，进行语音唤醒词的检测，获得所述带噪语音信息的目标检测结果。

第二方面，本申请提供了一种语音唤醒词的检测装置，包括：

获取单元，获取带噪语音信号的频域特征，作为第一语音特征；

处理单元，针对所述第一语音特征进行迭代处理，其中，一次迭代处理包括：根据所述第一语音特征确定待降噪特征，以及基于针对历史带噪语音信号获得的历史待降噪特征，获得本次迭代对应的降噪状态信息，并基于所述降噪状态信息对所述待降噪特征进行降噪处理，获得所述本次迭代对应的候选特征，其中，在第1次迭代处理中，所述待降噪特征为所述第一语音特征，在第i次迭代处理中，所述待降噪特征是所述第一语音特征和已获得的候选特征融合得到的，i为大于1的正整数；

获得单元，将最后一次迭代获得的候选特征作为目标特征，并基于针对所述目标特征进行结构化信息提取获得的目标降噪参数，对所述第一语音特征进行降噪处理，获得第二语音特征；

检测单元，基于所述第二语音特征，进行语音唤醒词的检测，获得所述带噪语音信息的目标检测结果。

可选的，所述获取单元，具体用于：

对带噪语音信号进行离散傅里叶变换，获得所述带噪语音信号的频谱；

针对所述带噪语音信号的频谱进行滤波处理，获得相应的频域特征。

可选的，所述处理单元用于针对所述第一语音特征进行迭代处理，其中，所述一次迭代处理，具体用于：

若为第1次迭代处理，则将所述第一语音特征作为待降噪特征，并基于针对历史带噪语音信号获得的相应历史待降噪特征，获得相应的降噪状态信息，以及基于所述降噪状态信息对所述待降噪特征进行降噪处理，获得所述第1次迭代处理对应的候选特征；

若为第2次迭代处理，则将所述第一语音特征和本次迭代的前一次迭代处理获得1个候选特征融合为待降噪特征，并基于针对所述历史带噪语音信号获得的相应历史待降噪特征，获得相应的降噪状态信息，以及基于所述降噪状态信息对所述待降噪特征进行降噪处理，获得所述第2次迭代处理对应的候选特征；

若为第3次迭代处理，则将所述第一语音特征和本次迭代的前两次迭代获得2个候选特征融合为待降噪特征，并基于针对所述历史带噪语音信号获得的相应历史待降噪特征，获得相应的降噪状态信息，以及基于所述降噪状态信息对所述待降噪特征进行降噪处理，获得所述第3次迭代处理对应的候选特征。

可选的，所述获取单元还用于，所述待降噪特征的融合方式，包括以下任意一种：

基于预设的拼接次序，对已获得的各候选特征以及所述第一语音特征进行特征拼接处理，获得待降噪特征；

基于已获得的各候选特征各自关联的融合缩放参数，以及所述第一语音特征关联的融合缩放参数，对所述各候选特征和所述第一语音特征进行加权融合处理，获得待降噪特征；其中，每个所述融合缩放参数表征：相应的候选特征或所述第一语音特征，对所述待降噪特征的影响程度。

可选的，所述获得单元，具体用于：

对所述目标特征进行维度变换处理，获得特征维度与所述第一语音特征匹配的中间处理特征；

对所述中间处理特征进行归一化处理，并将所述归一化处理的处理结果作为目标降噪参数；

基于所述目标降噪参数，对所述第一语音特征进行点乘处理，获得第二语音特征。

可选的，所述检测单元，具体用于：

针对所述第二语音特征进行语音特征分析，获得所述第二语音特征中存在语音唤醒词的检测概率；

当所述检测概率达到预设的唤醒阈值时，确定所述带噪语音信号中存在所述语音唤醒词。

可选的，所述装置还包括：训练单元，所述训练单元用于训练语音检测模型，所述语音检测模型用于执行语音唤醒词的检测步骤，则所述训练单元，具体用于：

获取训练样本集，所述训练样本集中的每个训练样本包括：针对一个带噪样本语音信号提取的第一样本语音特征和相应的样本标签，所述样本标签至少包括：样本唤醒词标识，所述样本唤醒词标识表征：所述语音唤醒词是否真实存在于相应样本带噪语音信号中；

从所述训练样本集中选取训练样本，并将相应的第一样本语音特征输入所述语音检测模型中，获得针对所述语音唤醒词检测的预测唤醒词标识；

至少基于所述预测唤醒词标识与相应真实唤醒词标识之间的差异，对所述语音检测模型中的模型参数进行调整。

可选的，所述模型参数包括：用于降噪处理的第一参数、以及、用于概率计算的第二参数；

则所述训练单元，用于针对所述语音唤醒词检测的预测唤醒词标识，通过如下方式获得：

基于所述第一参数，对所述第一样本语音特征进行降噪处理，获得相应的第二样本语音特征；

基于所述第二参数，针对所述第二样本语音特征进行语音特征分析，获得存在所述语音唤醒词的检验概率，并基于所述检验概率与预设的唤醒词阈值之间的比对结果，获得预测唤醒词标识。

可选的，所述样本标签还包括：针对相应带噪样本语音信号提取的干净样本语音特征，所述干净样本语音特征为不带噪的频域特征，所述模型参数包括：用于降噪处理的第一参数、用于概率计算的第二参数；

则所述训练单元，用于至少基于所述预测唤醒词标识与相应真实唤醒词标识之间的差异，对所述语音检测模型中的模型参数进行调整，具体用于：

基于所述第二样本语音特征与相应干净样本语音特征之间的第一差异，调整所述第一参数；

获得所述预测唤醒词标识与相应真实唤醒词标识之间的第二差异，并基于所述第一差异和所述第二差异之间的关联程度，获得联合差异；

基于所述联合差异，分别调整所述第一参数与所述第二参数。

可选的，所述第一差异是采用最小均方误差方式获得的；

所述第二差异是采用交叉熵方式获得的；

所述联合差异，是基于预设权重，对所述第一差异与所述第二差异进行加权求和获得的。

第三方面，本申请提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任意一种语音唤醒词的检测方法。

第四方面，本申请提供了一种计算机存储介质，所述计算机可读存储介质内存储有计算机程序指令，所述计算机程序指令被处理器执行上述第一方面中任意一种语音唤醒词的检测方法。

第五方面，本申请实施例提供的一种计算机程序产品，包括计算机程序指令，所述计算机程序指令被处理器执行时实现上述第一方面中任意一种语音唤醒词的检测方法。

本申请有益效果如下：

本申请实施例中，提出一种针对频域特征进行去噪处理及语音唤醒词检测的方法，首先，设备获取带噪语音信号的频域特征，作为第一语音特征，再针对第一语音特征执行如下迭代处理以实现降噪，其中，一次迭代包括：根据第一语音特征确定待降噪特征，以及基于针对历史带噪语音信号获得的历史待降噪特征，获得本次迭代对应的降噪状态信息，再基于降噪状态信息对待降噪特征进行降噪处理，获得本次迭代对应的候选特征，其中，在第1次迭代处理中，待降噪特征为第一语音特征，在第i次迭代处理中，待降噪特征是第一语音特征和已获得的候选特征融合得到的，i为大于1的正整数。

上述迭代降噪处理过程，是针对频域特征进行的，该过程中无需引入额外结合麦克风或麦克风阵列的信号处理方式，也无需引入高精度的神经网络降噪算法，就可达到较好的降噪效果。具体来说，一方面，每次迭代的降噪处理至少都结合了第一语音特征，也就是原始未降噪的频域特征，因此经过降噪后得到的第二语音特征，能够更大程度上保留带噪语音信号中的原始语音唤醒词信息，解决了相关神经网络降噪算法损伤语音唤醒词导致后续识别不准确的问题；另一方面，对于多次迭代来说，后一次迭代将结合前面每次迭代的降噪结果，即已获得的各个候选特征，这样有助于提升降噪效果，进而提高后续针对目标特征识别语音唤醒词的准确率。

后续，基于经过迭代降噪处理的第二语音特征，进行语音唤醒词的检测，获得带噪语音信息针对语音唤醒词的目标检测结果。可以看出，本申请实施例所提供的技术方案的鲁棒性较强，在保证降噪效果的同时，使得降噪后的第二语音特征能够较好保留原始语音唤醒词的信息，提高后续针对语音唤醒词的检测准确度。进一步，本申请实施例所提供的技术方案对于算力要求较低，也即，在保证低功耗或低计算量的同时，实现提高检测语音唤醒词准确率的技术效果。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1A~图1B为本申请实施例提供的现有技术方案的实现示意图；

图2为本申请实施例提供的可选应用场景的示意图；

图3为本申请实施例提供的可选语音唤醒设备的示意图；

图4为本申请实施例中语音唤醒词的检测过程示意图；

图5为本申请实施例提供的语音唤醒词的方法流程图；

图6A~图6C为本申请实施例中针对第一语音特征进行迭代处理示意图；

图7A~图7D为本申请实施例中针对语音唤醒词的检测示意图；

图8为本申请实施例提供的语音检测模型的训练过程示意图；

图9为本申请实施例提供的语音唤醒词的装置的结构示意图；

图10为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

本申请实施例涉及人工智能技术，主要涉及人工智能技术中的语音处理技术和自然语言处理技术。

人工智能（Artificial Intelligence, AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

语音技术（Speech Technology）：的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理（Nature Language processing, NLP）：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在本申请实施例中，将人工智能技术应用于语音唤醒领域，具体用于检测带噪语音信号中的语音唤醒词，提高相应的检测准确度。

此外，本申请实施例还可应用于智慧交通领域，具体地，在智慧交通这种应用场景下，采用本申请实施例语音唤醒词的检测方案，可实现有效降低相应计算设备所要求的算力同时，提高针对语音唤醒词的检测准确率。

为便于理解本申请实施例提供的技术方案，下面对本申请实施例使用的一些关键名词进行解释。

语音识别：也可以称为自动语音识别（Automatic Speech Recognition，ASR)，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

梅尔（mel）频率：一种基于人耳对等距的音高（pitch）变化的感官判断而定的非线性频率刻度，是在进行信号处理时，更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度，在音频处理领域，有很多基础音频特征是通过梅尔频率来进行计算的。例如，本申请实施例中，通过带噪语音信号的梅尔频率来计算获得相应的梅尔频谱，将其作为第一语音特征，更为具体地，第一语音特征可以是FBANK特征，即FBANK（又名：FilterBank）特征是一种从时域语音信号中提取出来的梅尔谱频域特征，可有效提高语音识别的性能。

关键词检出：从语音流中检出预定的多个关键词的系统。

语音唤醒（Keyword Spotting，KWS）：关键词检出的一种特殊应用场景，通过预定单个关键词来实现使用唤醒词对设备的唤醒。

语音唤醒词：表示唤醒人工智能（Artificial Intelligence，AI）设备的词语，使AI设备处于唤醒状态。

唤醒率：指语音唤醒词被语音检测模型正确检出的比例。

误唤醒率：指非语音唤醒词被语音检测模型错误检出的比例。

音频帧：与视频帧的理解不同，普遍的认为视频帧即为视频中的一帧图像，而音频帧的定义则不尽相同。具体的，音频帧可通过采样得到，即将音频中的N个采样点集合成一个观测单位，称之为一帧。通常情况下N的值为256或512，涵盖的时间约为20~30ms左右，例如一帧为25ms，通常而言，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，例如重叠的区域为10ms，当然上述的取值可以随着实际场景的需求而变化。

下面对本申请实施例的设计思想进行简要介绍。

关键词检出是语音识别领域中的一项重要任务，其具体是指在预设的关键词列表下从连续的语音流中检出列表内的关键词。该技术在智能语音助手中有一项重要的应用是语音唤醒，语音唤醒是指通过说出预设的唤醒词的方式来激活语音助手并启动后续的交互流程。

由于语音唤醒系统需要时刻保持开启以便于用户能够随时启动语音交互，因此该系统要求占用较低的算力以减小功耗，从而导致的系统算法中所使用的模型体积会很小，对语音唤醒系统的唤醒率和误唤醒率造成很大的挑战，特别是在一些带有噪声的声学场景下，噪声的干扰会导致唤醒率明显下降。

针对上述问题，相关技术方案可以概括为如下两种：

相关方案一：参考图1A所示，该方式使用基于传统数字信号处理方法的波束形成、自适应降噪以及混响消除方法对带噪语音信号进行前端处理，再将处理后的噪声与干扰被削弱的信号送给语音唤醒模型进行处理以获得相应的检测结果。

上述方案存在如下技术缺陷：该方案采用传统数字信号处理方法，其通常需要获取信号的空间信息来定位和消除噪声与干扰，这就需要在设备上设置多个麦克风或者麦克风整列，而对于语音唤醒系统而言，语音唤醒系统的运行平台较多，这样导致无法保证每个平台都能够获取到多个麦克风的信号。

其次，传统数字信号处理算法对设备的依赖性较强，对于不同的麦克风整列或者不同的麦克风规格可能需要做额外的算法调节与定制化，由于语音唤醒系统可能运行在一些低端的物联网设备上，且这类设备成本较低，因此麦克风质量可能不易达到准入标准，进而提高了对于数字信号处理算法的定制化难度与成本。

相关方案二（背景技术提及的方案）：基于神经网络降噪算法，对待检测的带噪语音信号进行降噪处理，得到相应的降噪语音信号，再采用常规的检测手段，检测降噪语音信号中是否存在语音唤醒词的信息。

例如，参考图1B所示，将关键词检出模型作为常规的检测手段，则相关方案是将基于神经网络的语音降噪模型与关键词检出模型进行级联，然后使用端到端的方式将带噪语音信号输入降噪模型并得到降噪语音信号，再将该降噪语音信号送入关键词检出模型，获得相应的检测结果。

上述方案存在如下技术缺陷：该方案中，基于神经网络的降噪算法大多数为时域降噪算法，这类算法单位时间内推理次数较多，所需的算力多，在一些低算力的设备上可能难以运行，相应的，算法输出的也是时域特征，而低算例的设备通常采用轻量级语音唤醒模型，其通常采用频域特征，频域特征相比来说不包含相位信息，因此存在前一输出与后一输入不匹配的情况，即轻量级语音唤醒模型无法与降噪算法共用特征。

进一步，神经网络降噪算法的过拟合能力较强，对于一些场景可能会存在语谱损伤的问题，即对语音唤醒词部分的信号造成伤害，导致最终针对语音唤醒词的检测性能变差。

鉴于此，本申请实施例提供了一种语音唤醒词的检测方法，在该方法中，提供一种针对带噪语音信号的频域特征进行降噪处理的方式，具体地，获取带噪语音信号的频域特征，作为第一语音特征，针对第一语音特征进行迭代处理，其中，一次迭代包括：在第一次迭代处理红，将第一语音特征作为待降噪特征，在第i（i为大于1的整数）次迭代中，将已获得的各候选特征和第一语音特征融合为待降噪特征，基于针对历史带噪语音信号获得的历史待降噪特征集，获得本次迭代对应的降噪状态信息，并基于降噪状态信息对待降噪特征进行降噪处理，获得本次迭代对应的候选特征，再将最后一次迭代获得的候选特征作为目标特征，并基于针对目标特征进行结构化信息提取获得的目标降噪参数，对第一语音特征进行降噪处理，获得第二语音特征。

与相关技术相比，本申请实施例提供的降噪处理方式，一方面，每次迭代的降噪处理至少都结合了第一语音特征，也就是原始未降噪的频域特征，因此经过降噪后得到的第二语音特征，能够更大程度上保留带噪语音信号中的原始语音唤醒词信息，解决了神经网络降噪算法损伤语音唤醒词导致后续识别不准确的问题；另一方面，对于多次迭代来说，后一次迭代将结合前面每次迭代的降噪结果，即已获得的各个候选特征，这样有助于提升降噪效果，进而提高后续针对目标特征识别语音唤醒词的准确率。

此外，本申请提实施例供的降噪处理方式，主要采用频域特征，这能有效减少降噪处理过程的计算量，进而适用于各种不同类型的设备（例如：低算力的设备），进而降低了适配成本。

相应的，经过本申请实施例的降噪处理，获得同为频域特征的第二语音特征，再基于第二语音特征，进行语音唤醒词的检测，获得带噪语音信息的目标检测结果。进一步，针对语音唤醒词的检测，当采用前面方案二涉及的关键词检出模型时，还可以解决二者共用特征不统一的问题。

下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例提供的技术方案适用于涉及到语音唤醒词检测的任意场景中，例如，智能音响、智能电视盒子的人机交互场景等。如图2所示，其为本申请实施例的应用场景示意图，该应用场景图中可包括终端设备210和服务器220。

终端设备210例如可以为智能音响、手机、平板电脑（PAD）、笔记本电脑、台式电脑、智能电视、智能车载设备、智能可穿戴设备、智能电视以及飞行器等任意涉及到语音唤醒词检测需求的设备。

基于上述终端设备210，使用对象可以通过语音指令与终端设备210进行交互。并且，在一些实施例中，终端设备210在处于待机状态时，还接收用户输入的语音数据，以及解析语音数据。在语音数据中包含语音唤醒词时，将终端设备210的待机状态切换为运行状态，换言之，使用对象根据语音唤醒词唤醒待机状态下的终端设备210。

例如：以终端设备210为智能音响为例，智能音响具有显示功能，且智能音响中配置有语音交互功能，语音唤醒词为“Hi XY”。智能音响处于已开机但熄屏状态。此时，显示设备即为待机状态。如图3所示，使用对象向智能音响说出“Hi XY，ABC”，智能音响则接收“HiXY，ABC”的语音并进行识别。智能音响在通过降噪处理识别出其中语音唤醒词“Hi XY”后，即从待机状态切换至运行状态，以唤醒智能音响。

显然，在终端设备210中已配置有语音唤醒词时，使用对象才可以通过语音唤醒词唤醒终端设备210。在一些实施例中，语音唤醒词可以为终端设备210配置的固定关键词，也可以为使用对象在终端设备210中自定义的关键词。如果语音唤醒词为固定关键词，则根据固定关键词训练语音检测模型，以及已训练的语音模型针对使用对象输入的带噪语音信号进行去噪及识别。

此外，终端设备210可以安装有语音唤醒系统，语音唤醒系统具备语音唤醒词检测功能或者发起语音唤醒词检测请求的功能，例如可以为即时通信应用、音乐应用、视频应用、短视频应用、新闻应用以及购物应用等。本申请实施例涉及的语音唤醒系统可以是软件客户端，也可以是网页、小程序等客户端，服务器220则是与软件或是网页、小程序等相对应的服务器，不限制客户端的具体类型。服务器220例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云端服务器，但并不局限于此。

需要说明的是，本申请实施例中的语音唤醒词检测方法可以由终端设备210或者服务器220单独执行，也可以由服务器220和终端设备210共同执行。当由终端设备210或者服务器220单独执行时，则语音检测模型的训练和应用过程都可以由终端设备210或者服务器220单独实现，例如由终端设备210分段式训练语音检测模型后，通过语音检测模型对输入的带噪语音信号的第一音频特征进行降噪处理，获得其经过降噪处理后对应的第二语音特征，再针对第二语音特征检测语音唤醒词，获得检测结果。当由服务器220和终端设备210共同执行时，则可以由服务器220对语音检测模型进行分段式训练之后，将训练好的语音检测模型部署至终端设备210中，由终端设备210实现语音检测模型的在线或离线应用过程，或者，语音检测模型的训练或者应用过程的部分过程可以由终端设备210实现，部分过程可以由服务器220，二者合作实现语音检测模型的训练或者应用过程，在实际应用时可以根据情况进行具体的配置，本申请在此不做具体限定，在此不做赘述。

在实际应用时，当本申请实施例提供的语音唤醒词检测方法由服务器220和终端设备210共同执行时，服务器220和终端设备210也可以为同一个设备，即服务器220和终端设备210可以为同一设备的不同功能模块，或者由同一物理设备所虚拟出的虚拟设备。

其中，服务器220和终端设备210均可以包括一个或多个处理器、存储器以及与交互I/O接口等。此外，服务器220还可以配置数据库，可以用于存储训练得到的语音检测模型以及语音检测模型的模型参数等。其中，服务器220和终端设备210的存储器中还可以存储本申请实施例提供的语音唤醒词的检测方法中各自所需执行的程序指令，这些程序指令被处理器执行时能够用以实现本申请实施例提供的语音检测模型的训练过程或者语音唤醒词的检测过程。

此外，本申请实施例中，终端设备210和服务器220之间可以通过一个或者多个网络230进行直接或间接的通信连接。该网络230可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真（Wireless-Fidelity，WIFI）网络，当然还可以是其他可能的网络，本申请实施例对此不做限制。需要说明的是，图2所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

参见图4所示，为本申请实施例提供的语音唤醒词的检测过程示意图，设备接收带噪语音信号，针对其频域信号提取相应的频域特征，作为第一语音特征，当然也可以是从时域信号对应的时域特征中提取出频域特征，在此不作具体限制。接着，设备针对第一语音特征进行迭代的降噪处理，每次迭代都结合原始第一语音特征以及已获得的各候选特征，然后，将最后一次迭代获得的候选特征作为目标特征，并基于针对目标特征进行结构化信息提取获得的目标降噪参数，对第一语音特征进行降噪处理，获得第二语音特征，再基于所述第二语音特征，进行语音唤醒词的检测，获得所述带噪语音信息的目标检测结果。

如图4所述的方式可应用于（云）智能语音助手的离线语音唤醒功能中，用于实现固定语音唤醒词的语音唤醒功能，尤其是针对要求低功耗且算力底下的设备，可以在保证低功耗和低计算量的前提下，有效的提高语音唤醒词的唤醒率，且保持误唤醒率不变，增强鲁棒性，降低复杂度。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的语音唤醒词检测方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图5所示，为本申请实施例提供的一种语音唤醒词的检测方法的实施流程图，该方法可以由计算机设备执行，以终端设备为执行主体为例，该方法的具体实施流程如下：

步骤501：获取带噪语音信号的频域特征，作为第一语音特征。

其中，带噪语音信号可以是携带噪音的语音数据流，例如，使用对象发出的语音交互、使用对象发出的语音交互指令、其他设备发送的音频信息流等。当然，带噪语音信号还可以是终端设备根据自身携带的传感器实时针对周边环境采集到的语音数据流，在此不对带噪语音信号的采集方式作具体限制。

下面以交互语音为例，针对其他音频信息流也是类似道理，本文不再重复赘述。

在本申请实施例中，针对频域信号的提取，可以是先对带噪语音信号进行离散傅里叶变换，获得带噪语音信号的频谱，然后针对该带噪语音信号的频谱进行滤波处理，获得相应的频域特征，再将该频域特征作为带噪语音信号对应的第一语音特征。

具体的，实际提取过程中，首先将带噪语音信号分帧，获得相应的音频帧，然后对每一音频帧进行离散傅里叶变换，获得相应的频谱，然后将频谱转换到预设滤波器对应的指定频率上，通过对每一段指定频率上的频谱进行计算，获得相应音频帧的频域特征。

进一步，为了使得提取的频域特征能够更好适用于语音唤醒领域，上述频域特征可以是梅尔谱频域特征，梅尔谱频域特征是基于人耳听觉感知特征设计的，则上述指定频率为梅尔频率。简单来讲，人耳对音频信号的感知不是线性的，而是非常复杂，因此根据人耳听觉特征设计梅尔谱频域特征，它与普通的线性频率刻度不同，通过将带噪语音信号在梅尔频率上进行滤波，可以更好地模拟人耳的感知特征，提取出具有区分性的信号特征。这样，由于梅尔谱频域特征具有良好的区分性和鲁棒性，能够提取出语音信号的关键特征，进而提高后续降噪及检测的准确率和稳定性，同时，梅尔谱频域特征具有提取过程简单、计算量小的特点，适合在嵌入式系统和移动设备等终端设备中实时使用。

综上，第一语音特征的获取过程所需算力要求较低，且获得的第一语音特征针对带噪语音信号中的关键特征进行提取，能偶提高后续针对语音唤醒词的检测准确率。

步骤502：针对第一语音特征进行迭代处理，获得每次迭代对应的候选特征。

其中，候选特征可理解为针对第一语音特征进行一次降噪处理后获得的特征，也即：第一语音特征表征带噪语音信号对应的带噪特征，则候选特征表征带噪语音信号对应的降噪特征。

具体地，迭代处理用于对第一语音特征进行降噪，一次迭代处理包括：在第一次迭代处理过程中，将第一语音特征作为待降噪特征，在i（i为大于1的整数）次迭代处理过程中，将第一语音特征和已获得的候选特征融合为待降噪特征，并且基于针对历史带噪语音信号获得的历史待降噪特征集，获得本次迭代对应的降噪状态信息，然后，基于降噪状态信息对待降噪特征进行降噪处理，获得所述本次迭代对应的候选特征。

在一种可能的实现方式，上述一次迭代可采用循环神经网络（Recurrent NeuralNetwork，RNN）的思想来实现。例如，采用一个门控循环单元（Gate Recurrent Unit，GRU）来实现一次迭代的过程，若存在n次迭代，则存在相应的n个门控循环单元，每个门控循环单元都可进行长期记忆和进行反向传播中的梯度回传。

下面以单个门控循环单元（也即：GRU层）为例，参见图6A所示，为门控循环单元的设计逻辑图，其中，将具有时间顺序的K个语音帧依次输入门控循环单元，随着时间的推移扩展门控循环单元中的状态信息，以前一次输出的预测结果计算下一次输出的预测结果，并且在门控循环单元的顶部添加一个softmax层（设置权重和偏置）使得门控循环单元实际使用学习的信息，输出最终预测结果。

具体来说，如图6A所示，基于本轮输入x_t和h_t-1，分别计算四个中间值：第一中间值i_t、第二中间值、第三中间值f_t、第四中间值o_t，计算公式参见如下：

其中，W_ix、W_ih、W_cx、W_ch、W_fx、W_fh、W_ox、W_oh分别为一次迭代训练更新得到的权重，b_i、b_c、b_f、b_o为预设的偏置，以提高预测准确性。sigmoid函数无需考虑前面学习的输出，tanh函数用于压缩数值及稳定数值。

然后，基于第一中间值i_t和第二中间值之间的乘积/>，以及第三中间值f_t与前一轮的状态信息c_t-1，计算本轮的状态信息/>。

进一步，采用tanh函数针对当前的单元信息进行压缩处理，得到tanh（c_t），再结合第四中间值o_t，计算得到本轮的预测结果/>，并且将本轮的预测结果h_t作为下一轮的输入。

结合到本申请实施例中，除常规的每次迭代针对语音帧进行处理以外，本次迭代的输入还可以是待降噪特征，以及，基于针对历史带噪语音信号获得的历史待降噪特征集，获得的本次迭代对应的降噪状态信息（即：单元信息），然后，通过新的输入与前面记忆的信息相结合，获得本次迭代对应的候选特征，其中，还将筛选当前下一次所需记忆的信息，传递到下一单元，即再针对下一带噪语音特征进行相应的降噪处理。

前面主要是简单介绍了门控循环单元，下面结合本申请实施例的迭代处理做进一步说明。

在本申请实施例中，至少针对第一语音特征进行两次以上的迭代处理，一般可设置迭代的次数为2或3。例如，当迭代次数为2时，意味着迭代处理所需的计算量小，这样也就解决相关神经网络降噪算法复杂，对终端设备的算力要求较高的问题。进一步，为了使得降噪处理的效果更加趋近于真实，还可将迭代次数设置为3，这样，虽然所需计算量大于两次迭代，但由于每次迭代所执行的降噪处理都是比较简单的，这对终端设备的算力要求依旧比较低，则再解决相关技术对算力要求高的问题的同时，还提升了降噪结果的准确性。

针对上述迭代处理，下面以针对第一语音特征进行3次迭代处理为例，做如下具体阐述。

第1次迭代处理：将第一语音特征作为待降噪特征，并基于针对历史带噪语音信号获得的相应历史待降噪特征，获得相应的降噪状态信息，以及基于降噪状态信息对待降噪特征进行降噪处理，获得第1次迭代处理对应的候选特征。

参见图6B所示，为针对第一语音特征进行第1次迭代处理的降噪示意图，其中，获取历史带噪语音信号对应的降噪状态信息，将其与当前带噪语音信号对应的待降噪语音特征共同作为输入，以使门控循环单元针对输入进行降噪处理，获得门控循环单元输出的当前带噪语音信号对应的待降噪状态信息，以及本次迭代对应的候选特征。

可选的，在进行降噪处理前，还可针对第一语音特征进行维度变换及数值压缩；例如，采用全连接层1变换第一语音特征的维度，具体可以是将第一语音特征映射到同一空间中，并且，采用预设激活函数tanh函数对第一语音特征进行处理等，其中，全连接层1用于变换维度，tanh函数用于压缩数值以及稳定数值，以及tanh函数可预设在全连接层1中，在此不做具体限定。

针对引入全连接层1以及激活函数tanh的情况，则相应的下一次迭代的待降噪特征还需融合第一语音特征经全连接层后生成的待降噪特征。

作为一种示例，参见图7A所示，为本申请实施例提供的第1次迭代处理对应的待降噪特征的示意图。其中，带噪语音信号x(t)通过FBANK特征提取器，提取相应的FBANK频域特征，获得第一语音特征x_t，然后基于全连接层1以及激活函数tanh的处理，获得待降噪特征1：xtmp_1，将其作为第1次迭代处理对应的待降噪特征，然后输入GRU层1进行第1次迭代处理的降噪处理，获得相应的候选特征1:x_{gru_1}。相应的，将第一语音特征x_t、待降噪特征1：xtmp_1、候选特征1:x_{gru_1}，融合为下一次迭代对应的待降噪特征2：x_{tmp_2}。

第2次迭代处理：将第一语音特征和本次迭代处理以前的一次迭代处理获得的1个候选特征（也即第1次迭代处理获得的1个候选特征）融合为待降噪特征，并基于针对历史带噪语音信号获得的相应历史待降噪特征，获得相应的降噪状态信息，以及基于降噪状态信息对待降噪特征进行降噪处理，获得第2次迭代处理对应的候选特征。

第3次迭代处理：将第一语音特征和本次迭代处理以前的两次迭代处理获得的2个候选特征（也即第1次迭代处理获得的1个候选特征，以及第2次迭代处理获得的1个候选特征）融合为待降噪特征，并基于针对历史带噪语音信号获得的相应历史待降噪特征，获得相应的降噪状态信息，以及基于降噪状态信息对待降噪特征进行降噪处理，获得第3次迭代处理对应的候选特征。

换言之，第1次迭代处理后的第i迭代处理，是将本次迭代处理以前的各次迭代处理获得的各候选特征，以及第一语音特征，融合为待降噪特征。

参见图6C所示，为针对第一语音特征进行第i次迭代处理的降噪示意图，其中，与第1次迭代处理的区别主要在于，待降噪特征是基于当前带噪语音信号对应的第一语音特征与本次迭代以前获得各候选特征融合得到的。

作为一种示例，参见图7B所示，为本申请实施例提供的第2次迭代对应的待降噪特征的示意图。其中，获得第1次迭代处理获得的候选特征1:x_{gru_1}，输入GRU层2进行二次迭代的降噪处理，获得相应的候选特征2:x_{gru_2}。相应的，将第一语音特征x_t、候选特征1:x_{gru_1}、候选特征2:x_{gru_2}，融合为下一次迭代对应的待降噪特征3：x_{tmp_3}，后续处理流程与第2次迭代处理类似，暂不在此处重复赘述。

进一步，本申请实施例还针对特征融合，提出如下两种特征融合方法。具体的，通过特征融合，将已获得的各候选特征和第一语音特征，变换为更具辨别能力的待降噪特征，使得后续针对待降噪特征进行降噪处理，还能同时结合第一语音特征以及前面每次的降噪结果进行评估，提高了降噪结果的准确性，进而有助于提升后续针对语音唤醒词的检测准确率。融合方式具体如下：

融合方式一，基于预设的拼接次序，对已获得的各候选特征以及所述第一语音特征进行特征拼接处理，获得待降噪特征。

融合方式二，基于已获得的各候选特征各自关联的融合缩放参数，以及第一语音特征关联的融合缩放参数，对各候选特征和第一语音特征进行加权融合处理，获得待降噪特征；其中，每个融合缩放参数表征：相应的候选特征或第一语音特征，对待降噪特征的影响程度，换言之，每个融合缩放参数将直接影响后续的降噪效果。

综上所述，上述迭代降噪处理过程，是针对频域特征进行的，该过程中无需引入额外结合麦克风或麦克风阵列的信号处理方式，也无需引入高精度的神经网络降噪算法，就可达到较好的降噪效果。具体来说，一方面，每次迭代的降噪处理至少都结合了第一语音特征，也就是原始未降噪的频域特征，因此经过降噪后得到的第二语音特征，能够更大程度上保留带噪语音信号中的原始语音唤醒词信息，解决了相关神经网络降噪算法损伤语音唤醒词导致后续识别不准确的问题；另一方面，对于多次迭代来说，后一次迭代将结合前面每次迭代的降噪结果，即已获得的各个候选特征，这样有助于提升降噪效果，进而提高后续针对目标特征识别语音唤醒词的准确率。

步骤503：将最后一次迭代获得的候选特征作为目标特征，并基于针对目标特征进行结构化信息提取获得的目标降噪参数，对第一语音特征进行降噪处理，获得第二语音特征。

其中，目标降噪参数可以是经过降噪处理输出的掩码，进而，再基于目标降噪参数，对第一语音特征进行实际的降噪处理，进而获得带噪语音信号对应的第二语音特征，即降噪后的频域特征，例如：降噪后的梅尔谱频域特征等。

具体来说，为了获得目标降噪参数，首先需要对最后一轮迭代获得的目标特征进行维度变换处理，由此获得特征维度与第一语音特征匹配的中间处理特征，然后，对该中间处理特征进行归一化处理，并将归一化处理的处理结果作为目标降噪参数，最后基于目标降噪参数，对第一语音特征进行点乘处理，获得第二语音特征。

可选的，针对目标特征变换到目标降噪参数的过程，可以采用全连接层2变换的特征维度变换方式，具体可以是将目标特征映射到同一空间中，并且，采用预设激活函数sigmoid函数对特征进行处理等，其中，全连接层2用于变换维度，sigmoid函数将其取值范围设置为0到1，以及sigmoid函数可选的预设在全连接层2中，在此不做具体限定。

综上所述，第二语音特征是针对第一语音特征进行一系列处理获得的降噪后的频域特征，由于前面每次处理都较好结合第一语音特征本身，因此能够较好保留语音唤醒词的信息，此外，发明人实践发现，尤其是针对梅尔谱频域特征进行降噪处理，能够有效降低降噪过程所需的算力，并且获得较佳的降噪结果。

步骤504：基于第二语音特征，进行语音唤醒词的检测，获得带噪语音信息的目标检测结果。

本申请实施例中，针对第二语音特征进行语音特征分析，获得第二语音特征中存在语音唤醒词的检测概率，当该检测概率达到预设的唤醒阈值时，确定带噪语音信号中存在语音唤醒词。

在一种可能的实施方式中，为了适配算力较低的终端设备，可采用轻量级模型来实现上述语音唤醒词的识别；例如，应用时延神经网络（TDNN），将第二语音特征直接输入TDNN网络，基于TDNN神经网络分析第二语音特征，获得输出的第二语音特征中存在语音唤醒词的检测概率，即针对语音唤醒词的后验概率，然后将其与预设的唤醒阈值进行比较：若其大于预设的唤醒阈值，则获得相应的目标检测结果，确定带噪语音信号中存在语音唤醒词；若其小于或等于预设的唤醒阈值，则获得相应的目标检测结果，确定带噪语音信号中不存在语音唤醒词。

综上所述，基于经过迭代降噪处理的第二语音特征，进行语音唤醒词的检测，获得带噪语音信息针对语音唤醒词的目标检测结果。可以看出，本申请实施例所提供的技术方案的鲁棒性较强，在保证降噪效果的同时，使得降噪后的第二语音特征能够较好保留原始语音唤醒词的信息，提高后续针对语音唤醒词的检测准确度。进一步，本申请实施例所提供的技术方案对于算力要求较低，也即，在保证低功耗或低计算量的同时，实现提高检测语音唤醒词准确率的技术效果。

在详细阐述完本申请实施例所提供的技术方案后，下面结合一个具体实例，以FBANK频域特征、三次迭代处理为例，来对语音唤醒词的检测方法做如下的串联阐述，具体如下。

参见图7C所示，为本申请实施例提供的三次迭代获得第二语音特征的示意图。其中，前两次迭代获得相应候选特征的方式可参见图7A~图7B相关的描述，下面从第三次迭代说起，获得二次迭代生成的候选特征2:x_{gru_2}，输入GRU层3进行三次迭代的降噪处理，获得相应的候选特征3:x_{gru_3}。进一步，再通过全连接层2以及激活函数sigmoid处理，获得掩码输出，即目标降噪参数X_mask，再次，将目标降噪参数X_mask与第一语音特征:x_t进行点乘处理，获得经过降噪后的第二语音特征:x_de-noise。

参见图7D所示，为本申请实施例提供的检测语音唤醒词的示意图，其中，获得第二语音特征:x_de-noise，输入TDNN网络进行语音唤醒词的检测，获得带噪语音信号对应的、至少包含语音唤醒词的存在信息的目标检测结果。

可选的，上述目标检测结果的获得全过程（即：步骤501~步骤504），是通过已训练的语音检测模型执行的，为便于理解，下面先介绍一下语音检测模型的设计思想。

语音检测模型可以采用模型级联的思想，来分别实现去噪处理及检测识别，为便于理解，下面结合实例做简要阐述，本领域技术人员当知下述示例仅为一种可能的实现手段，而不对本方案实际的实现思想做具体限定。

例如采用一种使用GRU作为基础网络结构的轻量级语音降噪算法模型RNNoise，再例如采用常用于语音识别领域的轻量级时延神经网络TDNN。RNNoise属于轻量级频域语音降噪模型，用以实现前述方法步骤中的迭代降噪处理，该模型单位时间内推理次数少，可与TDNN模型共用频域特征（例如：FBANK特征），有效减小系统的复杂度，降低计算量，并且该模型为单通道语音降噪模型，可以适用于各种不同类型的设备，适配成本较低。

并且，在语音检测模型的过程中，可将RNNoise与TDNN直接级联，并将RNNoise的降噪任务和TDNN的语音唤醒词检测任务进行多任务的联合训练，使得RNNoise的输出服务于TDNN模型，避免了神经网络降噪模型可能与后端唤醒模型不匹配的问题，这样能够有效提高在复杂噪声场景下的语音唤醒性能，并保持轻量级的特性，降低计算资源的占用。

需要说明的是，传统RNNoise虽然是用于频域降噪，但在发明人提出本方案以前，RNNoise本身的设计是不适用于语音唤醒领域，具体针对RNNoise的修改思想可参见图7A~图7D所示，在此不做赘述。

此外，相关应用于语音唤醒领域的神经网络降噪算法通常为时域降噪模型，容易理解的，在相近的现有技术中，通常是采用单独训练的单一时域降噪模型针对带噪语音信号进行处理，并对处理结果进行转换后，才能再输入单独训练的TDNN模型，这样增加计算量，相应的，由于时域降噪模型与TDNN模型不匹配，因此无法级联训练，这样检测的结果未充分考虑语音唤醒词与去噪处理的关联关系，因此存在检测不准确的问题。

在一种可能的实现方式中，上述语音检测模型通过以下方式训练得到：获取训练样本集，训练样本集中的每个训练样本包括：针对一个带噪样本语音信号提取的第一样本语音特征和相应的样本标签，样本标签至少包括：样本唤醒词标识，样本唤醒词标识表征：语音唤醒词是否真实存在于相应样本带噪语音信号中；从训练样本集中选取训练样本，并将相应的第一样本语音特征输入语音检测模型中，获得针对语音唤醒词检测的预测唤醒词标识；至少基于预测唤醒词标识与相应真实唤醒词标识之间的差异，对语音检测模型中的模型参数进行调整。

需要说明的是，语音检测模型的训练过程可以是一个迭代的过程，前段的处理过程可视为模型的一次迭代，每次迭代主要是调整模型参数，当满足一定迭代条件（例如：迭代次数、模型精度等）后，即可获得已训练的语音检测模型。

此外，根据前文阐述的语音检测模型的设计思想，容易理解地，模型参数包含：用于降噪处理的第一参数、以及、用于概率计算的第二参数，因此，针对语音唤醒词检测的预测唤醒词标识，具体可通过如下方式获得：首先是基于第一参数，对第一样本语音特征进行降噪处理，获得相应的第二样本语音特征；再基于第二参数，针对第二样本语音特征进行语音特征分析，获得存在语音唤醒词的检验概率，并基于检验概率与预设的唤醒词阈值之间的比对结果，获得预测唤醒词标识。

进一步，语音检测模型的每次迭代训练，都将涉及上述第一参数和第二参数的调整。针对调整过程，主要是根据降噪处理的结果与样本标签之间的第一差异，获得降噪处理对应的第一差异值，以及，根据预测唤醒词表示与样本标签之间的第二差异，获得语音唤醒词检测对应的第二差异值。

详细来讲，样本标签还包括：针对相应带噪样本语音信号提取的干净样本语音特征，干净样本语音特征为不带噪的频域特征，则基于第二样本语音特征与相应干净样本语音特征之间的第一差异，调整第一参数；获得预测唤醒词标识与相应真实唤醒词标识之间的第二差异，并基于第一差异和第二差异之间的关联程度，获得联合差异；再基于联合差异，分别调整第一参数与第二参数。

针对上述第一差异，其具体表征为第一差异值，可以采用最小均方误差的方式获得，通过如下第一损失函数计算得到，具体参见如下：

其中， L_MSE为第一差异值，x_de-noise为第二样本语音特征，x_clean为相应的干净样本语音特征，m为特征的帧数，n为特征的维度，x_de-noise或x_clean的上角标ij可表征为第i帧第j位。

针对上述第二差异，其具体表征为第二差异值，可以采用交叉熵的方式获得，通过如下第二损失函数计算得到，具体参见如下：

其中，L_CE为第二差异值，y_i为语音唤醒词的后验概率，为语音唤醒词的分类标签，在此，0表征是非语音唤醒词，1表征是语音唤醒词，m为特征的帧数，n为特征的维度。

针对上述联合差异，其具体表征为联合差异值，可以基于预设权重（根据实际情况设定），对第一差异和第二差异进行加权求和获得，则通过如下联合损失函数计算得到，具体参见如下：

其中，L为联合差异值，L_MSE为第一差异值，L_CE为第二差异值，为预设权重。

下面结合一个具体实例，来对语音检测模型的训练方式做如下的串联阐述，具体参见图8所示，其中，提取带噪样本语音信号的FBANK特征，即第一样本语音特征，然后基于RNNoise降噪网络，获得降噪后的第二样本语音特征，基于最小均方误差对应的第一损失函数，计算该第二样本语音特征与相应的干净样本语音特征之间的第一差异值；并且，将第二样本语音特征输入TDNN网络，获得预测唤醒词表示，基于交叉熵对应的第二损失函数，计算该预测唤醒词表示与真实唤醒词标识之间的第二差异值；再根据预设权重对第一差异值与第二差异值进行加权求和处理，获得联合差异值；采用联合差异值分别调整RNNoise降噪网络中的模型参数（即：第一参数），以及，调整TDNN网络中的模型参数（即：第二参数），此外，还采用第一差异值调整RNNoise降噪网络中的模型参数（即：第一参数）。

综上所述，将RNNoise网络引入到基于TDNN的语音唤醒算法模型中，并将两个网络进行级联及联合训练，可以实现仅增加很少的模型参数量但能够改善语音唤醒系统在噪声干扰场景下的唤醒率，并且对误唤醒率不造成影响，经发明人测试，典型测试场景测试结果如下表1所示：

表1

其中，B0表示只使用TDNN的声学模型作为基线进行对比，A0表示本发明提出的基于RNNoise与TDNN的级联式模型。

参见图9所述，基于同一发明构思，本申请实施例还提供了一种语音唤醒词的检测装置900，该装置包括：

获取单元902，获取带噪语音信号的频域特征，作为第一语音特征；

处理单元903，针对所述第一语音特征进行迭代处理，其中，一次迭代处理包括：根据所述第一语音特征确定待降噪特征，以及基于针对历史带噪语音信号获得的历史待降噪特征，获得本次迭代对应的降噪状态信息，并基于所述降噪状态信息对所述待降噪特征进行降噪处理，获得所述本次迭代对应的候选特征，其中，在第1次迭代处理中，所述待降噪特征为所述第一语音特征，在第i次迭代处理中，所述待降噪特征是所述第一语音特征和已获得的候选特征融合得到的，i为大于1的正整数；

获得单元904，将最后一次迭代获得的候选特征作为目标特征，并基于针对所述目标特征进行结构化信息提取获得的目标降噪参数，对所述第一语音特征进行降噪处理，获得第二语音特征；

检测单元905，基于所述第二语音特征，进行语音唤醒词的检测，获得所述带噪语音信息的目标检测结果。

可选的，所述获取单元902，具体用于：

可选的，所述处理单元903用于针对所述第一语音特征进行迭代处理，其中，所述一次迭代处理，具体用于：

可选的，所述获取单元902还用于，所述待降噪特征的融合方式，包括以下任意一种：

可选的，所述获得单元904，具体用于：

可选的，所述检测单元905，具体用于：

可选的，所述装置还包括：训练单元901，所述训练单元901用于训练语音检测模型，所述语音检测模型用于执行语音唤醒词的检测步骤，则所述训练单元901，具体用于：

则所述训练单元901，用于针对所述语音唤醒词检测的预测唤醒词标识，通过如下方式获得：

则所述训练单元901，用于至少基于所述预测唤醒词标识与相应真实唤醒词标识之间的差异，对所述语音检测模型中的模型参数进行调整，具体用于：

可选的，所述第一差异是采用最小均方误差方式获得的；

所述第二差异是采用交叉熵方式获得的；

通过上述装置，由于迭代处理是针对频域特征进行的，因此该过程中无需引入额外结合麦克风或麦克风阵列的信号处理方式，也无需引入高精度的神经网络降噪算法，就可达到较好的降噪效果。具体来说，一方面，每次迭代的降噪处理至少都结合了第一语音特征，也就是原始未降噪的频域特征，因此经过降噪后得到的第二语音特征，能够更大程度上保留带噪语音信号中的原始语音唤醒词信息，解决了相关神经网络降噪算法损伤语音唤醒词导致后续识别不准确的问题；另一方面，对于多次迭代来说，后一次迭代将结合前面每次迭代的降噪结果，即已获得的各个候选特征，这样有助于提升降噪效果，进而提高后续针对目标特征识别语音唤醒词的准确率。

该装置可以用于执行本申请各实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述，不多赘述。

请参见图10所示，基于同一技术构思，本申请实施例还提供了一种计算机设备1000，该计算机设备1000可以为图2所示的终端设备或服务器，该计算机设备1000可以包括存储器1001和处理器1002。

所述存储器1001，用于存储处理器1002执行的计算机程序。存储器1001可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1002，可以是一个中央处理单元（central processing unit， CPU），或者为数字处理单元等等。本申请实施例中不限定上述存储器1001和处理器1002之间的具体连接介质。本申请实施例在图10中以存储器1001和处理器1002之间通过总线1003连接，总线1003在图10中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线1003可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1001可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1001也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）、或者存储器1001是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1001可以是上述存储器的组合。

处理器1002，用于调用所述存储器1001中存储的计算机程序时执行本申请各实施例中设备所执行的方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行本申请各实施例中设备所执行的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音唤醒词的检测方法，其特征在于，包括：

获取带噪语音信号的频域特征，作为第一语音特征；

针对所述第一语音特征进行迭代处理，其中，一次迭代处理包括：根据所述第一语音特征确定待降噪特征，以及基于针对历史带噪语音信号获得的历史待降噪特征，获得本次迭代对应的降噪状态信息，并基于所述降噪状态信息对所述待降噪特征进行降噪处理，获得所述本次迭代对应的候选特征，其中，在第1次迭代处理中，所述待降噪特征为所述第一语音特征，在第i次迭代处理中，所述待降噪特征是所述第一语音特征和已获得的候选特征融合得到的，i为大于1的整数；

2.如权利要求1所述的方法，其特征在于，所述获取带噪语音信号的频域特征，包括：

3.如权利要求1所述的方法，其特征在于，所述一次迭代处理包括：

4.如权利要求1~3任一项所述的方法，其特征在于，所述待降噪特征的融合方式，包括以下任意一种：

5.如权利要求1所述的方法，其特征在于，所述针对所述目标特征进行结构化信息提取获得的目标降噪参数，对所述第一语音特征进行降噪处理，获得第二语音特征，包括：

6.如权利要求1所述的方法，其特征在于，所述基于所述第二语音特征，进行语音唤醒词的检测，获得所述带噪语音信息的目标检测结果，包括：

7.如权利要求1~3、5~6任一项所述的方法，其特征在于，所述方法是通过已训练的语音检测模型执行的，所述语音检测模型的训练过程如下：

8.如权利要求7所述的方法，其特征在于，所述模型参数包括：用于降噪处理的第一参数、以及、用于概率计算的第二参数；

则所述针对所述语音唤醒词检测的预测唤醒词标识，通过如下方式获得：

9.如权利要求7所述的方法，其特征在于，所述样本标签还包括：针对相应带噪样本语音信号提取的干净样本语音特征，所述干净样本语音特征为不带噪的频域特征，所述模型参数包括：用于降噪处理的第一参数、用于概率计算的第二参数；

则所述至少基于所述预测唤醒词标识与相应真实唤醒词标识之间的差异，对所述语音检测模型中的模型参数进行调整，包括：

10.如权利要求9所述的方法，其特征在于，所述第一差异是采用最小均方误差方式获得的；

所述第二差异是采用交叉熵方式获得的；

11.一种语音唤醒词的检测装置，其特征在于，包括：

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1至10任一项所述方法的步骤。

13.一种计算机存储介质，其特征在于，其上存储有计算机程序指令，其特征在于，

所述计算机程序指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。

14.一种计算机程序产品，包括计算机程序指令，其特征在于，