CN116504234B

CN116504234B - 一种语音唤醒与检测模型的生成方法、装置、设备及介质

Info

Publication number: CN116504234B
Application number: CN202310619710.1A
Authority: CN
Inventors: 李蒙
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-10-13
Anticipated expiration: 2043-05-29
Also published as: CN116504234A

Abstract

本发明公开了一种语音唤醒与检测模型的生成方法、装置、设备及介质，方法包括：获取第一语音数据集和第二语音数据集，第一语音数据集为无标注语音数据集，第二语音数据集为基于语音合成技术生成的语音数据集；将第一语音数据集输入至预构建的语音模型中，采用自监督预训练的方式对语音模型进行训练，生成语音预训练模型；将第二语音数据集输入至语音预训练模型中，对语音预训练模型进行多任务学习训练，生成语音唤醒与检测模型，多任务学习训练包括语音检测训练和语音唤醒训练。本发明通过上述方式，即可通过无标注的方式实现唤醒，降低唤醒对人工标注的依赖性，从而使得唤醒成本变低。

Description

一种语音唤醒与检测模型的生成方法、装置、设备及介质

技术领域

本发明涉及语音处理技术领域，具体涉及一种语音唤醒与检测模型的生成方法、装置、设备及介质。

背景技术

随着技术的发展，语音交互已成为人机交互的常见形式。在语音交互前，设备需要先被唤醒，从休眠状态进入工作状态，才能正常的处理用户的指令。语音唤醒即用户通过语音的方式使交互设备从待机或休眠状态中唤醒，唤醒过程中会使用唤醒词，如小度小度，小爱同学等。

目前，相关领域中，语音唤醒技术对人工标注数据较为依赖，唤醒的效果也和标注数据的质量、数量有着高度的相关性。这就导致在标注数据缺乏的情况下，唤醒的效果得不到保证。

因此，一种低成本的唤醒方式就成为目前需要解决的问题。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的对人工标注依赖性高，成本高的缺陷，从而提供一种语音唤醒与检测模型的生成方法、装置、设备及介质。

第一方面，本发明公开了一种语音唤醒与检测模型的生成方法，包括：

获取第一语音数据集和第二语音数据集，第一语音数据集为无标注语音数据集，第二语音数据集为基于语音合成技术生成的语音数据集；将第一语音数据集输入至预构建的语音模型中，采用自监督预训练的方式对语音模型进行训练，生成语音预训练模型；将第二语音数据集输入至语音预训练模型中，对语音预训练模型进行多任务学习训练，生成语音唤醒与检测模型，多任务学习训练包括语音检测训练和语音唤醒训练。

本发明通过第一语音数据集对预构建的语音模型进行自监督训练，生成语音预训练模型，然后，通过第二语音数据集对语音预训练模型进行多层次的多任务学习训练，从而生成具备语音检测分类和语音唤醒分类的功能语音唤醒与检测模型。本发明通过第一语音数据集训练得到的语音预训练模型不仅具备更好的鲁棒性和泛化能力，还可以在生成语音唤醒与检测模型的过程中弥补合成数据和真实数据分布差异，避免造成性能损失。而且，通过上述方式，即可通过无标注的方式实现唤醒，降低唤醒对人工标注的依赖性，从而使得唤醒成本变低。

结合第一方面，在第一方面的第一实施例中，获取第二语音数据集，包括：

获取文本数据集；将文本数据集输入至预训练的语音合成模型中，由语音合成模型将文本数据集中的文本数据合成对应的语音数据，构成第二语音数据集。

结合第一方面，在第一方面的第二实施例中，在将文本数据集输入至预训练的语音合成模型中，由语音合成模型将文本数据集中的文本数据合成对应的语音数据之后，还包括：

对语音数据进行增强处理，生成增强语音数据；基于所有的增强语音数据构成第二语音数据集。

结合第一方面，在第一方面的第三实施例中，增强处理，包括如下中的一种或多种：音色转换、音调扰动、音量扰动、噪声扰动和速度扰动。

结合第一方面，在第一方面的第四实施例中，语音唤醒与检测模型，包括：

编码器，语音检测分类模块和语音唤醒分类模块。

结合第一方面，在第一方面的第五实施例中，还包括：

利用编码器提取待识别语音数据中的语音特征；语音检测分类模块基于语音特征，检测待识别语音数据中是否包含目标语音数据；当待识别语音数据中包含目标语音数据时，利用语音唤醒分类模块识别目标语音数据中是否包含目标唤醒词；当目标语音数据中包含目标唤醒词时，生成与目标唤醒词对应的唤醒指令。

结合第一方面，在第一方面的第六实施例中，在生成语音唤醒与检测模型之后，还包括：

对语音唤醒与检测模型进行蒸馏，并在蒸馏后对语音唤醒与检测模型进行训练，得到轻量级语音唤醒与检测模型。

第二方面，本发明公开了一种语音唤醒与检测模型的生成装置，包括：

获取模块，用于获取第一语音数据集和第二语音数据集，第一语音数据集为无标注语音数据集，第二语音数据集为基于语音合成技术生成的语音数据集；第一生成模块，用于将第一语音数据集输入至预构建的语音模型中，采用自监督预训练的方式对语音模型进行训练，生成语音预训练模型；第二生成模块，用于将第二语音数据集输入至语音预训练模型中，对语音预训练模型进行多任务学习训练，生成语音唤醒与检测模型，多任务学习训练包括语音检测训练和语音唤醒训练。

第三方面，本发明公开了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器用于存储计算机程序，计算机程序被处理器执行时，使处理器执行如发明内容中任一项的语音唤醒与检测模型的生成方法。

第四方面，本发明公开了一种计算机可读存储介质，计算机可读存储介质用于存储计算机指令，当计算机指令被处理器执行时，实现如发明内容中任一项的语音唤醒与检测模型的生成方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音唤醒与检测模型的生成方法的流程图；

图2为本发明实施例提供的语音唤醒与检测模型处理语音数据的流程图；

图3为本发明实施例提供的语音唤醒与检测模型的生成装置的结构连接图；

图4为本发明实施例提供的计算机设备连接图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明公开了一种语音唤醒与检测模型的生成方法，如图1所示，包括如下步骤：

S11：获取第一语音数据集和第二语音数据集。

具体的，第一语音数据集为无标注语音数据集，第二语音数据集为基于语音合成技术生成的语音数据集。

示例性地，第一语音数据集可以为预采集的包含真实人声的语音数据，语音数据中可以包含唤醒词，也可以不包含唤醒词。

示例性地，第二语音数据集的生成过程为，获取文本数据集；将文本数据集输入至预训练的语音合成模型中，由语音合成模型将文本数据集中的文本数据合成对应的语音数据，构成第二语音数据集。其中，语音合成技术包括但不限于fastspeech2模型，该模型中的声码器使用hifigan模型。

S12：将第一语音数据集输入至预构建的语音模型中，采用自监督预训练的方式对语音模型进行训练，生成语音预训练模型。

具体的，对语音模型进行自监督预训练的过程，即语音模型学习语音特征和语义信息的过程。由于第一语音数据集中的语音数据具有更多真实的，丰富的语音特征，因此，通过第一语音数据集对语音模型进行预训练，可以使生成的语音预训练模型具有更强的泛化能力和鲁棒性。

示例性地，语音预训练模型使用的是data2vec2.0模型。

S13：将第二语音数据集输入至语音预训练模型中，对语音预训练模型进行多任务学习训练，生成语音唤醒与检测模型。

具体的，多任务学习训练包括语音检测训练和语音唤醒训练。

具体的，语音唤醒与检测模型包括，编码器，语音检测分类模块和语音唤醒分类模块。其中，语音检测分类模块和语音唤醒分类模块均为一层全连接网络。

示例性地，多层级多任务学习的训练方法过程为：首先，将第二语音数据集中的第二语音数据输入至编码器中，由编码器提取第二语音数据中的语音特征，并将语音特征分别输入语音唤醒分类模块和语音检测分类模块。

其次，基于语音检测分类模块的每一帧输出，采用交叉熵损失训练语音检测分类任务，语音检测分类模块中的分类类别包括：静音和非静音，本实施例中，静音即语音数据中不含人的声音，非静音即语音数据中包含人的声音。

最后，选取语音检测分类模块对应非静音帧的输出，采用交叉熵损失训练语音唤醒分类任务，语音唤醒分类模块中的分类类别包括目标唤醒词中每一个字对应音素和其它音素。如，目标唤醒词为“明天你好”，那么，分类类别为：“ming”、“tian”、“ni”、“hao”、“other”，分别判断输入语音数据中每一帧所属的类别。如，某一帧语音数据对应的因素为“wang”，那么，该帧语音数据所属的分类类别为“other”，另一帧语音数据对应的因素为“hao”，那么，该帧语音数据所属的分类类别为“hao”。

本实施例通过多任务学习的训练方式，使语音唤醒与检测模型同时具备了语音检测和语音唤醒的功能。当待识别的语音数据输入至语音唤醒与检测模型后，先对待识别的语音数据进行检测，当检测结果是待识别数据中存在目标语音数据时，再判断目标语音数据中是否包含唤醒词音素。通过这样的方式，降低了语音唤醒对非语音信号的判别能力要求，从而降低了语音唤醒的难度，提高了语音唤醒的准确率，从而达到更好的唤醒效果。

在一可选实施例中，在将文本数据集输入至预训练的语音合成模型中，由语音合成模型将文本数据集中的文本数据合成对应的语音数据之后，还包括：

示例性地，增强处理，包括如下中的一种或多种：音色转换、音调扰动、音量扰动、噪声扰动和速度扰动。本实施例通过对合成数据进行语音增强处理，不仅可以使基于文本合成的语音数据更加真实和丰富，而且可以使基于第二语音数据集训练得到的语音唤醒与检测模型的准确性更高。

在一可选实施例中，如图2所示，还包括如下步骤：

S21：利用编码器提取待识别语音数据中的语音特征。

具体的，编码器提取语音数据中的声音特征信息，并将声音特征信息编码为固定维度的向量，该向量表示语音数据中的语音特征。

S22：语音检测分类模块基于语音特征，检测待识别语音数据中是否包含目标语音数据。

具体的，目标语音数据指人的语音数据，如，某检测待识别语音数据语音数据中无人说话，仅有环境噪声，那么，该待识别语音数据中不包含目标语音数据。

示例性地，对于语音检测任务，直接使用语音检测分类层的输出的分类概率，判断待识别语音数据中是否包含目标语音数据。其中，每一种类别对应一个概率值。

S23：当待识别语音数据中包含目标语音数据时，利用语音唤醒分类模块识别目标语音数据中是否包含目标唤醒词。

示例性地，本实施例中，语音唤醒分类模块采用CTC的prefix beamsearch算法，当目标语音数据输入至语音唤醒分类模块后，利用该算法确定出目标语音数据中每一帧语音数据所属分类类别对应的概率值。基于目标语音数据中每一帧对应的概率值生成概率集，并对生成的概率集进行解码，得到目标解码序列，目标解码序列中包括目标语音数据中每一帧语音数据对应的音素，基于目标解码序列判断目标语音数据中是否包含唤醒词。

S24：当目标语音数据中包含目标唤醒词时，生成与目标唤醒词对应的唤醒指令。

示例性地，当语音唤醒分类模块输出的解码序列中包含完整的唤醒词音素时，生成与目标唤醒词对应的唤醒指令，以基于该唤醒指令对设备进行唤醒。当解码序列中不包含唤醒词音素时，丢弃本条语音数据，不执行唤醒操作。

在一可选实施例中，在生成语音唤醒与检测模型之后，还包括：

具体的，将蒸馏前的语音唤醒与检测模型确定为第一语音唤醒与检测模型，将对第一语音唤醒与检测模型进行蒸馏后得到语音唤醒与检测模型确定为第二语音唤醒与检测模型。第二唤醒模型采用40维fbank特征作为输入，模型采用12层的GMLP网络。对第二语音唤醒与检测模型进行训练后，生成轻量级语音唤醒与检测模型。本实施例通过蒸馏技术，大幅降低了语音唤醒与检测模型的资源占用，可在设备端进行部署，提高了模型的可移植性，扩大了其应用范围。

示例性地，第二语音唤醒与检测模型的训练过程如下：

首先，将同一语音数据集分别输入至第一语音唤醒与检测模型和第二语音唤醒与检测模型中，分别获取第一语音唤醒与检测模型输出的第一输出数据集，和第二语音唤醒与检测模型输出的第二输出数据集。

其中，第一输出数据集中包括第一语音唤醒与检测模型的12层Transformer网络中，每一层输出的隐变量T_hidden、语音唤醒分类模块输出的向量T_logits_wakeup及语音检测分类模块输出的向量T_logits_vad。第二输出数据集中包括第二语音唤醒与检测模型的12层Transformer网络中，每一层输出的隐变量S_hidden、语音唤醒分类模块输出的向量S_logits_wakeup及语音检测分类模块输出的向量S_logits_vad。

其次，基于S_hidden和T_hidden计算最大均值化差异损失MMD loss，基于S_logits_wakeup和T_logits_wakeup计算唤醒任务的KL散度损失KL_loss_wakeup，基于S_logits_vad和T_logits_vad计算语音检测任务的KL散度损失KL_loss_vad。

最后，通过损失函数对第二语音唤醒与检测模型进行蒸馏阶段的训练。损失函数即：LOSS＝MMD loss+KL_loss_vad+KL_loss_wakeup。

本发明公开了一种语音唤醒与检测模型的生成装置，如图3所示，包括如下模块：

获取模块31，用于获取第一语音数据集和第二语音数据集，第一语音数据集为无标注语音数据集，第二语音数据集为基于语音合成技术生成的语音数据集。

第一生成模块32，用于将第一语音数据集输入至预构建的语音模型中，采用自监督预训练的方式对语音模型进行训练，生成语音预训练模型。

第二生成模块33，用于将第二语音数据集输入至语音预训练模型中，对语音预训练模型进行多任务学习训练，生成语音唤醒与检测模型，多任务学习训练包括语音检测训练和语音唤醒训练。

在一可选实施例中，获取模块31，包括：

获取子模块，用于获取文本数据集；合成子模块，用于将文本数据集输入至预训练的语音合成模型中，由语音合成模型将文本数据集中的文本数据合成对应的语音数据，构成第二语音数据集。

在一可选实施例中，在合成子模块之后，还包括：

增强子模块，用于对语音数据进行增强处理，生成增强语音数据；构成子模块，用于基于所有的增强语音数据构成第二语音数据集。

在一可选实施例中，增强子模块中的增强处理，包括如下中的一种或多种：音色转换、音调扰动、音量扰动、噪声扰动和速度扰动。

在一可选实施例中，第二生成模块中生成的语音唤醒与检测模型，包括：编码器，语音检测分类模块和语音唤醒分类模块。

在一可选实施例中，还包括：

提取模块，用于利用编码器提取待识别语音数据中的语音特征；检测模块，用于语音检测分类模块基于语音特征，检测待识别语音数据中是否包含目标语音数据；识别模块，用于当待识别语音数据中包含目标语音数据时，利用语音唤醒分类模块识别目标语音数据中是否包含目标唤醒词；第三生成模块，用于当目标语音数据中包含目标唤醒词时，生成与目标唤醒词对应的唤醒指令。

在一可选实施例中，在第二生成模块33之后，还包括：

蒸馏模块，用于对语音唤醒与检测模型进行蒸馏，并在蒸馏后对语音唤醒与检测模型进行训练，得到轻量级语音唤醒与检测模型。

本实施例提供一种计算机设备，如图4所示，该计算机设备可以包括至少一个处理器41、至少一个通信接口42、至少一个通信总线43和至少一个存储器44，其中，通信接口42可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口42还可以包括标准的有线接口、无线接口。存储器44可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器44可选的还可以是至少一个位于远离前述处理器41的存储装置。其中处理器41可以结合图4所描述的装置，存储器44中存储应用程序，且处理器41调用存储器44中存储的程序代码，以用于执行上述任意方法实施例的语音唤醒与检测模型的生成方法。

其中，通信总线43可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线43可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器44可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器44还可以包括上述种类的存储器的组合。

其中，处理器41可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器41还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。可选地，存储器44还用于存储程序指令。处理器41可以调用程序指令，实现本发明任一实施例中的语音唤醒与检测模型的生成方法。

本实施例提供一种计算机可读存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音唤醒与检测模型的生成方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种语音唤醒与检测模型的生成方法，其特征在于，包括：

获取第一语音数据集和第二语音数据集，所述第一语音数据集为无标注语音数据集，所述第二语音数据集为基于语音合成技术生成的语音数据集；

将所述第一语音数据集输入至预构建的语音模型中，采用自监督预训练的方式对所述语音模型进行训练，生成语音预训练模型；

将所述第二语音数据集输入至所述语音预训练模型中，对所述语音预训练模型进行多任务学习训练，生成所述语音唤醒与检测模型，所述多任务学习训练包括语音检测训练和语音唤醒训练；

所述语音唤醒与检测模型，包括：

编码器，语音检测分类模块和语音唤醒分类模块；

利用所述编码器提取待识别语音数据中的语音特征；

所述语音检测分类模块基于所述语音特征，检测所述待识别语音数据中是否包含目标语音数据；

当所述待识别语音数据中包含所述目标语音数据时，利用所述语音唤醒分类模块识别所述目标语音数据中是否包含目标唤醒词；

当所述目标语音数据中包含所述目标唤醒词时，生成与所述目标唤醒词对应的唤醒指令。

2.根据权利要求1所述的语音唤醒与检测模型的生成方法，其特征在于，获取第二语音数据集，包括：

获取文本数据集；

将所述文本数据集输入至预训练的语音合成模型中，由所述语音合成模型将所述文本数据集中的文本数据合成对应的语音数据，构成所述第二语音数据集。

3.根据权利要求2所述的语音唤醒与检测模型的生成方法，其特征在于，在所述将所述文本数据集输入至预训练的语音合成模型中，由所述语音合成模型将所述文本数据集中的文本数据合成对应的语音数据之后，还包括：

对所述语音数据进行增强处理，生成增强语音数据；

基于所有的所述增强语音数据构成所述第二语音数据集。

4.根据权利要求3所述的语音唤醒与检测模型的生成方法，其特征在于，所述增强处理，包括如下中的一种或多种：音色转换、音调扰动、音量扰动、噪声扰动和速度扰动。

5.根据权利要求1-4中任一项所述的语音唤醒与检测模型的生成方法，其特征在于，在所述生成所述语音唤醒与检测模型之后，还包括：

对所述语音唤醒与检测模型进行蒸馏，并在蒸馏后对所述语音唤醒与检测模型进行训练，得到轻量级语音唤醒与检测模型。

6.一种语音唤醒与检测模型的生成装置，其特征在于，包括：

获取模块，用于获取第一语音数据集和第二语音数据集，所述第一语音数据集为无标注语音数据集，所述第二语音数据集为基于语音合成技术生成的语音数据集；

第一生成模块，用于将所述第一语音数据集输入至预构建的语音模型中，采用自监督预训练的方式对所述语音模型进行训练，生成语音预训练模型；

第二生成模块，用于将所述第二语音数据集输入至所述语音预训练模型中，对所述语音预训练模型进行多任务学习训练，生成所述语音唤醒与检测模型，所述多任务学习训练包括语音检测训练和语音唤醒训练；

第二生成模块中生成的所述语音唤醒与检测模型，包括：

编码器，语音检测分类模块和语音唤醒分类模块；

提取模块，用于利用所述编码器提取待识别语音数据中的语音特征；

检测模块，用于所述语音检测分类模块基于所述语音特征，检测所述待识别语音数据中是否包含目标语音数据；

识别模块，用于当所述待识别语音数据中包含所述目标语音数据时，利用所述语音唤醒分类模块识别所述目标语音数据中是否包含目标唤醒词；

第三生成模块，用于当所述目标语音数据中包含所述目标唤醒词时，生成与所述目标唤醒词对应的唤醒指令。

7.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，使所述处理器执行如权利要求1至5中任一项所述的语音唤醒与检测模型的生成方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机指令，当所述计算机指令被处理器执行时，实现如权利要求1至5中任一项所述的语音唤醒与检测模型的生成方法。