CN113470679B

CN113470679B - 基于无监督学习的语音唤醒方法、装置、电子设备及介质

Info

Publication number: CN113470679B
Application number: CN202110778132.7A
Authority: CN
Inventors: 王健宗; 李泽远
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2024-01-12
Anticipated expiration: 2041-07-09
Also published as: CN113470679A

Abstract

本发明涉及人工智能技术领域，提供一种基于无监督学习的语音唤醒方法、装置、电子设备及介质，所述方法包括：基于无标签语音段训练无监督模型，获取训练过程中的多个模型参数，获取预设数量的带标签的语音语料，得到带标签语音段；调整训练好的无监督模型，得到语音唤醒模型；更新语音唤醒模型中的模型参数，并根据带标签语音段训练更新后的语音唤醒模型，得到目标语音唤醒模型；将目标语音段输入至目标语音唤醒模型中，根据语音唤醒结果确定是否执行语音唤醒操作。本发明根据无标签语音段训练好的多个模型参数更新语音唤醒模型中的模型参数，并通过带标签语音段训练更新后的语音唤醒模型，提高了目标语音唤醒模型的有效性。

Description

基于无监督学习的语音唤醒方法、装置、电子设备及介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于无监督学习的语音唤醒方法、装置、电子设备及介质。

背景技术

在进行智能人机交互时，语音唤醒系统尤为重要，现有的语音唤醒系统会设定一个语音关键词，如“小度小度”，在用户与智能设备进行交互时，需要首先喊出关键词，智能设备根据接收到的关键词进行检测，选择是否开启设备，无法实现根据用户的偏好进行个性化的语音唤醒，导致语音唤醒操作的使用率低。

此外，现有的语音唤醒系统无法获取每个特定说话人大量的说话语料，导致训练的语音唤醒模型的有效性低。

因此，如何利用有限的语料进行个语音唤醒模型训练及准确高效的唤醒智能设备成为亟待解决的问题。

发明内容

鉴于以上内容，有必要提出一种基于无监督学习的语音唤醒方法、装置、电子设备及介质，根据无标签语音段训练好的多个模型参数更新语音唤醒模型中的模型参数，并通过带标签语音段训练更新后的语音唤醒模型，提高了目标语音唤醒模型的有效性。

本发明的第一方面提供一种基于无监督学习的语音唤醒方法，所述方法包括：

获取待训练语音信号，对所述待训练语音信号进行第一预处理，得到无标签语音段；

构建无监督模型，基于所述无标签语音段训练所述无监督模型，得到训练好的无监督模型；

获取无监督模型训练过程中的多个模型参数，及从预设的数据库中获取预设数量的带标签的语音语料，及对所述带标签的语音语料进行第二预处理，得到带标签语音段；

调整所述训练好的无监督模型，得到语音唤醒模型；

根据所述多个模型参数更新所述语音唤醒模型中的模型参数，得到更新后的语音唤醒模型，并根据所述带标签语音段训练所述更新后的语音唤醒模型，得到目标语音唤醒模型；

当侦测到智能设备的目标语音信号时，对所述目标语音信号进行第三预处理，得到目标语音段，并将所述目标语音段输入至所述目标语音唤醒模型中，得到语音唤醒结果；

根据所述语音唤醒结果确定是否执行所述智能设备的语音唤醒操作。

可选地，所述无监督模型包括：

预训练的词嵌入模型、与所述预训练的词嵌入模型连接的transformer模型、与所述transformer模型连接的第一全连接层、及与所述第一全连接层连接的输出层，其中，所述transformer模型中包含有Multihead Attention层，与所述Multihead Attention层连接的第一Add&Norm层、与所述第一Add&Norm层连接的FFN层、及与所述FFN层连接的第二Add&Norm层。

可选地，所述基于所述无标签语音段训练所述无监督模型包括：

将所述无标签语音段按照预设的遮挡规则进行随机遮挡，得到遮挡语音段和未遮挡语音段；

将所述遮挡语音段和未遮挡语音段输入至所述预训练的词嵌入模型中，得到词嵌入向量及每个词嵌入向量对应的位置编码；

将所述词嵌入向量及每个词嵌入向量对应的位置编码输入至所述transformer模型中，得到预测语音段的编码；

将所述预测语音段的编码输入至第一全连接层中进行特征提取，得到预测语音段；

计算所述未遮挡语音段与所述预测语音段之间的均方差损失值，基于所述均方差损失值进行网络梯度回传，训练无监督模型；

判断网络梯度回传后的均方差损失值是否大于预设的均方差损失值阈值；

当网络梯度回传后的均方差损失值小于或者等于所述预设的均方差损失值阈值时，结束所述无监督模型的训练；或者，当网络梯度回传后的均方差损失值大于所述预设的均方差损失值阈值时，迭代更新所述均方差损失值，并基于迭代更新后的均方差损失值进行二次网络梯度回传，重新训练所述无监督模型。

可选地，所述调整所述训练好的无监督模型，得到语音唤醒模型包括：

删除所述训练好的无监督模型中的与所述transformer模型连接的第一全连接层，并添加第二全连接层与所述transformer模型连接，得到语音唤醒模型。

可选地，所述更新后的语音唤醒模型的训练过程包括：

将所述带标签语音段按照预设的遮挡规则进行随机遮挡，得到遮挡语音段和未遮挡语音段；

将所述预测语音段的编码输入至第二全连接层中进行特征提取，得到第一语音唤醒词的第一预测语音段和第一语音唤醒人的第二预测语音段；

计算所述未遮挡语音段与所述第一预测语音段之间的第一均方差损失值，及计算所述未遮挡语音段与所述第二预测语音段之间的第二均方差损失值；

计算所述第一均方差损失值与所述第二均方差损失值之和，得到目标均方差损失值；

基于所述目标均方差损失值进行网络梯度回传，训练语音唤醒模型；

当网络梯度回传后的目标均方差损失值小于或者等于所述预设的均方差损失值阈值时，结束所述语音唤醒模型的训练；或者，当网络梯度回传后的目标均方差损失值大于所述预设的均方差损失值阈值时，迭代更新所述目标均方差损失值，并基于迭代更新后的目标均方差损失值进行二次网络梯度回传，重新训练所述语音唤醒模型。

可选地，所述根据所述语音唤醒结果确定是否执行所述智能设备的语音唤醒操作包括：

识别所述智能设备的标识码；

根据所述智能设备的标识码获取预先存储的第三语音唤醒词的第一注册语音段和第三语音唤醒人的第二注册语音段；

将所述语音唤醒结果中的第三预测语音段与所述第一注册语音段进行匹配；

当在所述第一注册语音段中匹配到与所述语音唤醒结果中的第三预测语音段相同的目标第一注册语音段时，将所述语音唤醒结果中的第四预测语音段与所述第二注册语音段进行匹配；

当在所述第二注册语音段中匹配到与所述语音唤醒结果中的第四预测语音段相同的目标第二注册语音段时，将所述目标第二注册语音段对应的唤醒人确定为唤醒所述智能设备的目标唤醒人；

根据所述目标唤醒人的唤醒偏好执行所述智能设备的语音唤醒操作。

可选地，所述对所述待训练语音信号进行第一预处理，得到无标签语音段包括：

对所述待训练语音信号进行降噪处理，得到降噪后的待训练语音信号；

对所述降噪后的待训练语音信号采用预加重滤波器进行处理得到预加重后的语音信号；

将所述预加重后的语音信号切分为多个短时帧；

对每个短时帧乘以一个预设的窗函数得到加窗后的短时帧；

计算每个加窗后的短时帧傅里叶变换后的功率谱；

根据所述功率谱使用预设的刻度滤波器组在每个加窗后的短时帧中进行语音特征提取，得到多个语音特征；

检测每个语音特征的语音时长；

判断每个语音特征的语音时长是否满足预设的语音时长阈值要求；

当每个语音特征的语音时长满足所述预设的语音时长阈值要求时，将所述多个语音特征中的对应语音特征确定为无标签语音段。

本发明的第二方面提供一种基于无监督学习的语音唤醒装置，所述装置包括：

第一预处理模块，用于获取待训练语音信号，对所述待训练语音信号进行第一预处理，得到无标签语音段；

训练模块，用于构建无监督模型，基于所述无标签语音段训练所述无监督模型，得到训练好的无监督模型；

第二预处理模块，用于获取无监督模型训练过程中的多个模型参数，及从预设的数据库中获取预设数量的带标签的语音语料，及对所述带标签的语音语料进行第二预处理，得到带标签语音段；

调整模块，用于调整所述训练好的无监督模型，得到语音唤醒模型；

更新模块，用于根据所述多个模型参数更新所述语音唤醒模型中的模型参数，得到更新后的语音唤醒模型，并根据所述带标签语音段训练所述更新后的语音唤醒模型，得到目标语音唤醒模型；

第三预处理模块，用于当侦测到智能设备的目标语音信号时，对所述目标语音信号进行第三预处理，得到目标语音段，并将所述目标语音段输入至所述目标语音唤醒模型中，得到语音唤醒结果；

确定模块，用于根据所述语音唤醒结果确定是否执行所述智能设备的语音唤醒操作。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于无监督学习的语音唤醒方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于无监督学习的语音唤醒方法。

综上所述，本发明所述的基于无监督学习的语音唤醒方法、装置、电子设备及介质，一方面，在进行语音唤醒模型的训练过程中，根据所述无标签语音段训练好的多个模型参数更新所述语音唤醒模型中的模型参数，并通过所述带标签语音段训练所述更新后的语音唤醒模型，提高了语音唤醒模型的训练效率，同时，由于语音唤醒模型实质是通过了大量的无标签语音段和少量的带标签语音段训练得到的，提高了目标语音唤醒模型的精度，确保了训练得到的目标语音唤醒模型的有效性，进而提高了后续采用训练好的语音唤醒模型进行语音预测的准确率；另一方面，构建无监督模型，基于所述无标签语音段训练所述无监督模型，得到训练好的无监督模型，在进行无监督模型构建时增加transformer模型，通过transformer模型中的Multihead Attention层，可以更好的学习到包含有智能设备与唤醒人的语音交互信息的语音特征信息；最后，通过根据目标唤醒人的唤醒偏好执行所述智能设备的语音唤醒操作，具有针对性执行智能设备的语音唤醒操作，提高了语音唤醒操作的有效性，同时根据目标唤醒人的唤醒偏好进行语音唤醒，提高了目标唤醒人的满意度及使用率。

附图说明

图1是本发明实施例一提供的基于无监督学习的语音唤醒方法的流程图。

图2是本发明实施例二提供的基于无监督学习的语音唤醒装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

在本实施例中，所述基于无监督学习的语音唤醒方法可以应用于电子设备中，对于需要进行基于无监督学习的语音唤醒的电子设备，可以直接在电子设备上集成本发明的方法所提供的基于无监督学习的语音唤醒的功能，或者以软件开发工具包(SoftwareDevelopment Kit，SDK)的形式运行在电子设备中。

如图1所示，所述基于无监督学习的语音唤醒方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，获取待训练语音信号，对所述待训练语音信号进行第一预处理，得到无标签语音段。

本实施例中，在进行智能设备的语音唤醒时，从智能设备或者语音语料库中获取待训练语音信息，并进行第一预处理，具体地，所述第一预处理包括对所述待训练语音信号进行降噪处理和语音端点检测处理，所述智能设备可以智能音箱、智能语音助手或者其他用以唤醒的智能设备。

在一个可选的实施例中，所述对所述待训练语音信号进行第一预处理，得到无标签语音段包括：

将所述预加重后的语音信号切分为多个短时帧；

对每个短时帧乘以一个预设的窗函数得到加窗后的短时帧；

计算每个加窗后的短时帧傅里叶变换后的功率谱；

检测每个语音特征的语音时长；

进一步地，所述方法还包括：

当任意一个语音特征的语音时长不满足所述预设的语音时长阈值要求时，将所述任意一个语音特征确定为非语音段，并从所述多个语音特征中删除非语音段，保留剩余语音特征确定为无标签语音段。

本实施例中，需要对所述待训练语音信号进行降噪处理，去除对所述待训练语音信号中的杂音，对降噪后的待训练语音信号进行语音端点检测，具体地，所述语音端点检测为现有技术，本实施例在此不做详细阐述。

本实施例中，对接收的待训练语音信号进行降噪处理，对降噪后的待训练语音信号进行语音端点检测(Voice activity detection，VAD)，具体地，对降噪后的待训练语音信号检测静音段的时长，标注出静音段长度与正常语句中停顿不一致的语音，进行断点检测，同时检测降噪后的待训练语音信号中每个语音特征的语音时长，每个语音特征的语音时长是否满足预设的语音时长阈值要求，例如，所述预设的语音时长阈值可以设置为1～10秒，从所述降噪后的待训练语音信号中删除语音时长小于1秒和大于10秒的语音特征，将剩余语音特征作为无标签语音段。

本实施例中，通过对所述待训练语音信号进行降噪处理和语音端点检测处理，有效提升语音断点检测的准确率，提高了待训练语音信号的语音质量。

S12，构建无监督模型，基于所述无标签语音段训练所述无监督模型，得到训练好的无监督模型。

本实施例中，在获取到无标签语音段时，为了确保语音唤醒的准确率，需要根据所述无标签语音段进行无监督训练，通过无监督训练学习到包含有智能设备与用户的语音交互信息的语音特征。

具体地，所述无监督模型包括：

预训练的词嵌入模型、与所述预训练的词嵌入模型连接的transformer模型、与所述transformer模型连接的第一全连接层、及与所述第一全连接层连接的输出层，其中，所述transformer模型中包含有MultiheadAttention层，与所述MultiheadAttention层连接的第一Add&Norm层、与所述第一Add&Norm层连接的FFN层、及与所述FFN层连接的第二Add&Norm层。

本实施例中，在进行无监督模型构建时增加transformer模型，通过transformer模型中的MultiheadAttention层，可以更好的进行语音特征的识别，其中，所述第一全连接层可以为PredictHeadLayer层，通过PredictHeadLayer层输出预测语音段。

在一个可选的实施例中，所述基于所述无标签语音段训练所述无监督模型包括：

本实施例中，在进行无监督训练过程中，将所述无标签语音段按照预设的遮挡规则进行随机遮挡，例如，按照每个无标签语音段时间轴的15％进行随机遮挡。

本实施例中，可以预先设置均方差损失值阈值，所述预设的均方差损失值阈值可以设置为0.01，当在计算得到所述未遮挡语音段与所述预测语音段之间的均方差损失值大于0.01时，通过网络梯度回传，迭代更新均方差损失值，直至网络梯度回传后的均方差损失值小于或者等于0.01时，结束所述无监督模型的训练。

本实施例中，若均方差损失值较大，提取的预测语音段的正确率低，本实施例通过迭代更新均方差损失值，直至满足预设的均方差损失值阈值要求，得到训练好的无监督模型，便于后续采用所述训练好的无监督模型提取的预测语音段的准确率。

S13，获取无监督模型训练过程中的多个模型参数，及从预设的数据库中获取预设数量的带标签的语音语料，及对所述带标签的语音语料进行第二预处理，得到带标签语音段。

本实施例中，所述模型参数用以表征训练好的无监督模型中的模型参数，可以预先设置数据库，具体地，所述预设的数据库中包含有大量的带标签的语音语料，本实施例通过从所述预设的数据库中获取预设数量的带标签的语音语料，其中，所述预设数量小于所述无标签语音段的数量，即无标签语音段为大样本数据集，带标签的语音语料为小样本数据集。

本实施例中，带标签语音段的第二预处理过程同无标签语音段的第一预处理过程，本实施例在此不做详细阐述。

S14，调整所述训练好的无监督模型，得到语音唤醒模型。

本实施例中，所述语音唤醒模型是通过调整所述训练好的无监督模型中的第一全连接层得到的。

在一个可选的实施例中，所述调整所述训练好的无监督模型，得到语音唤醒模型包括：

本实施例中，通过将训练好的无监督模型中的第一全连接层删除，添加第二全连接层与所述transformer模型连接。

S15，根据所述多个模型参数更新所述语音唤醒模型中的模型参数，得到更新后的语音唤醒模型，并根据所述带标签语音段训练所述更新后的语音唤醒模型，得到目标语音唤醒模型。

本实施例中，在根据多个模型参数更新语音唤醒模型之后，需要训练更新后的语音唤醒模型。

具体地，所述更新后的语音唤醒模型的训练过程包括：

本实施例中，所述第一预测语音段用以表征第一语音唤醒词的预测语音段，所述第二预测语音段用以表征第一语义唤醒人的预测语音段，所述第一均方差损失值用以表征第一语音唤醒词的均方差损失值，所述第二均方差损失值用以表征第一语音唤醒人的均方差损失值。

本实施例中，在进行语音唤醒模型的训练过程中，由于获取的无监督模型训练过程中的多个模型参数都是基于无标签语音段训练好的，带标签语音段为小样本数据集，根据所述无标签语音段训练好的多个模型参数更新所述语音唤醒模型中的模型参数，并通过所述带标签语音段训练所述更新后的语音唤醒模型，一方面提高了语音唤醒模型的训练效率，另一方面，由于语音唤醒模型实质是通过了大量的无标签语音段和少量的带标签语音段训练得到的，提高了目标语音唤醒模型的精度，确保了训练得到的目标语音唤醒模型的有效性，进而提高了后续采用训练好的语音唤醒模型进行语音预测的准确率。

本实施例中，由于带标签语音段中的标签都是人工标注的，本实施例采用了少量的带标签语音段进行语音唤醒模型训练，降低了人力成本。

S16，当侦测到智能设备的目标语音信号时，对所述目标语音信号进行第三预处理，得到目标语音段，并将所述目标语音段输入至所述目标语音唤醒模型中，得到语音唤醒结果。

本实施例中，当侦测对智能设备的语音唤醒请求时，解析所述语音唤醒请求获取目标语音信号，并对所述目标语音信号进行第三预处理。

在一个可选的实施例中，所述对所述目标语音信号进行第三预处理包括：

对所述目标语音信号进行降噪处理，得到降噪后的目标语音信号；

提取所述降噪后的目标语音信号中的语音特征；

对所述语音特性进行语音端点检测，得到目标语音段。

本实施例中，在得到目标语音段之后，将所述目标语音段输入至所述目标语音唤醒模型中，接收所述目标语音唤醒输出的语音唤醒结果。

S17，根据所述语音唤醒结果确定是否执行所述智能设备的语音唤醒操作。

本实施例中，所述语音唤醒结果包含有第三预测语音段和第四预测语音段，其中，所述第三预测语音段用以表征第二语音唤醒词的预测语音段，所述第四预测语音段用以表征第二语音唤醒人的预测语音段。

在一个可选的实施例中，所述根据所述语音唤醒结果确定是否执行所述智能设备的语音唤醒操作包括：

识别所述智能设备的标识码；

本实施例中，可以预先为每个智能设备存储第三语音唤醒词的第一注册语音段和第三语音唤醒人的第二注册语音段，通过将所述目标语音段输入至所述目标语音唤醒模型中，输出第二语音唤醒词的预测语音段和第二语音唤醒人的预测语音段，将输出的第二语音唤醒词的预测语音段与存储第三语音唤醒词的第一注册语音段进行匹配，根据匹配结果确定是否唤醒所述智能设备，当确定唤醒所述智能设备时，将输出的第二语音唤醒人的预测语音段与存储的第三语音唤醒人的第二注册语音段进行匹配，根据匹配结果确定目标唤醒人，并根据目标唤醒人的唤醒偏好执行所述智能设备的语音唤醒操作，具有针对性执行智能设备的语音唤醒操作，提高了语音唤醒操作的有效性，同时提高了目标唤醒人的满意度及使用率。

进一步地，所述方法还包括：

当在所述第一注册语音段中未匹配到与所述语音唤醒结果中的第三预测语音段相同的目标第一注册语音段，确定不执行所述智能设备的语音唤醒操作。

本实施例中，在进行智能设备的唤醒时，当在所述第一注册语音段中未匹配到与所述语音唤醒结果中的第三预测语音段相同的目标第一注册语音段时，确定所述第二语音唤醒人无权限唤醒所述智能设备，提高了语音唤醒的安全性。

进一步地，所述方法还包括：

当在所述第一注册语音段中匹配到与所述语音唤醒结果中的第三预测语音段相同的目标第一注册语音段，但在所述第二注册语音段中未匹配到与所述语音唤醒结果中的第四预测语音段相同的目标第二注册语音段时，根据默认的语音唤醒操作执行所述智能设备的语音唤醒操作。

本实施例中，当在所述第一注册语音段中匹配到与所述语音唤醒结果中的第三预测语音段相同的目标第一注册语音段，但在所述第二注册语音段中未匹配到与所述语音唤醒结果中的第四预测语音段相同的目标第二注册语音段时，确定所述第二语音唤醒人的第四预测语音段可能存在偏差，所述第二语音唤醒人的发送的语音信号发生了变化，按照默认的语音唤醒操作执行所述智能设备的语音唤醒操作，提高了所述语音唤醒操作的灵活性。

综上所述，本实施例所述的基于无监督学习的语音唤醒方法，一方面，在进行语音唤醒模型的训练过程中，由于获取的无监督模型训练过程中的多个模型参数都是基于无标签语音段训练好的，带标签语音段为小样本数据集，根据所述无标签语音段训练好的多个模型参数更新所述语音唤醒模型中的模型参数，并通过所述带标签语音段训练所述更新后的语音唤醒模型，提高了语音唤醒模型的训练效率，同时，由于语音唤醒模型实质是通过了大量的无标签语音段和少量的带标签语音段训练得到的，提高了目标语音唤醒模型的精度，确保了训练得到的目标语音唤醒模型的有效性，进而提高了后续采用训练好的语音唤醒模型进行语音预测的准确率；另一方面，构建无监督模型，基于所述无标签语音段训练所述无监督模型，得到训练好的无监督模型，在进行无监督模型构建时增加transformer模型，通过transformer模型中的Multihead Attention层，可以更好的学习到包含有智能设备与唤醒人的语音交互信息的语音特征信息；最后，通过根据目标唤醒人的唤醒偏好执行所述智能设备的语音唤醒操作，具有针对性执行智能设备的语音唤醒操作，提高了语音唤醒操作的有效性，同时根据目标唤醒人的唤醒偏好进行语音唤醒，提高了目标唤醒人的满意度及使用率。

实施例二

在一些实施例中，所述基于无监督学习的语音唤醒装置20可以包括多个由程序代码段所组成的功能模块。所述基于无监督学习的语音唤醒装置20中的各个程序段的程序代码可以存储于电子设备的存储器中，并由所述至少一个处理器所执行，以执行(详见图1描述)基于无监督学习的语音唤醒的功能。

本实施例中，所述基于无监督学习的语音唤醒装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：第一预处理模块201、训练模块202、第二预处理模块203、调整模块204、更新模块205、第三预处理模块206及确定模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

第一预处理模块201，用于获取待训练语音信号，对所述待训练语音信号进行第一预处理，得到无标签语音段。

在一个可选的实施例中，所述第一预处理模块201对所述待训练语音信号进行第一预处理，得到无标签语音段包括：

将所述预加重后的语音信号切分为多个短时帧；

对每个短时帧乘以一个预设的窗函数得到加窗后的短时帧；

计算每个加窗后的短时帧傅里叶变换后的功率谱；

检测每个语音特征的语音时长；

进一步地，当任意一个语音特征的语音时长不满足所述预设的语音时长阈值要求时，将所述任意一个语音特征确定为非语音段，并从所述多个语音特征中删除非语音段，保留剩余语音特征确定为无标签语音段。

训练模块202，用于构建无监督模型，基于所述无标签语音段训练所述无监督模型，得到训练好的无监督模型。

具体地，所述无监督模型包括：

在一个可选的实施例中，所述训练模块202基于所述无标签语音段训练所述无监督模型包括：

第二预处理模块203，用于获取无监督模型训练过程中的多个模型参数，及从预设的数据库中获取预设数量的带标签的语音语料，及对所述带标签的语音语料进行第二预处理，得到带标签语音段。

调整模块204，用于调整所述训练好的无监督模型，得到语音唤醒模型。

在一个可选的实施例中，所述调整模块204调整所述训练好的无监督模型，得到语音唤醒模型包括：

更新模块205，用于根据所述多个模型参数更新所述语音唤醒模型中的模型参数，得到更新后的语音唤醒模型，并根据所述带标签语音段训练所述更新后的语音唤醒模型，得到目标语音唤醒模型。

具体地，所述更新后的语音唤醒模型的训练过程包括：

第三预处理模块206，用于当侦测到智能设备的目标语音信号时，对所述目标语音信号进行第三预处理，得到目标语音段，并将所述目标语音段输入至所述目标语音唤醒模型中，得到语音唤醒结果。

在一个可选的实施例中，所述第三预处理模块206对所述目标语音信号进行第三预处理包括：

提取所述降噪后的目标语音信号中的语音特征；

对所述语音特性进行语音端点检测，得到目标语音段。

确定模块207，用于根据所述语音唤醒结果确定是否执行所述智能设备的语音唤醒操作。

在一个可选的实施例中，所述确定模块207根据所述语音唤醒结果确定是否执行所述智能设备的语音唤醒操作包括：

识别所述智能设备的标识码；

进一步地，当在所述第一注册语音段中未匹配到与所述语音唤醒结果中的第三预测语音段相同的目标第一注册语音段，确定不执行所述智能设备的语音唤醒操作。

进一步地，当在所述第一注册语音段中匹配到与所述语音唤醒结果中的第三预测语音段相同的目标第一注册语音段，但在所述第二注册语音段中未匹配到与所述语音唤醒结果中的第四预测语音段相同的目标第二注册语音段时，根据默认的语音唤醒操作执行所述智能设备的语音唤醒操作。

综上所述，本实施例所述的基于无监督学习的语音唤醒装置，一方面，在进行语音唤醒模型的训练过程中，由于获取的无监督模型训练过程中的多个模型参数都是基于无标签语音段训练好的，带标签语音段为小样本数据集，根据所述无标签语音段训练好的多个模型参数更新所述语音唤醒模型中的模型参数，并通过所述带标签语音段训练所述更新后的语音唤醒模型，提高了语音唤醒模型的训练效率，同时，由于语音唤醒模型实质是通过了大量的无标签语音段和少量的带标签语音段训练得到的，提高了目标语音唤醒模型的精度，确保了训练得到的目标语音唤醒模型的有效性，进而提高了后续采用训练好的语音唤醒模型进行语音预测的准确率；另一方面，构建无监督模型，基于所述无标签语音段训练所述无监督模型，得到训练好的无监督模型，在进行无监督模型构建时增加transformer模型，通过transformer模型中的Multihead Attention层，可以更好的学习到包含有智能设备与唤醒人的语音交互信息的语音特征信息；最后，通过根据目标唤醒人的唤醒偏好执行所述智能设备的语音唤醒操作，具有针对性执行智能设备的语音唤醒操作，提高了语音唤醒操作的有效性，同时根据目标唤醒人的唤醒偏好进行语音唤醒，提高了目标唤醒人的满意度及使用率。

实施例三

参阅图3所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述电子设备3中的基于无监督学习的语音唤醒装置20，并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行电子设备3的各种功能和处理数据。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述电子设备3还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于无监督学习的语音唤醒装置20)、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到基于无监督学习的语音唤醒的目的。

示例性的，所述程序代码可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述处理器32执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如，所述程序代码可以被分割成第一预处理模块201、训练模块202、第二预处理模块203、调整模块204、更新模块205、第三预处理模块206及确定模块207。

在本发明的一个实施例中，所述存储器31存储多个计算机可读指令，所述多个计算机可读指令被所述至少一个处理器32所执行以实现基于无监督学习的语音唤醒的功能。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于无监督学习的语音唤醒方法，其特征在于，所述方法包括：

构建无监督模型，基于所述无标签语音段训练所述无监督模型，得到训练好的无监督模型，其中，所述无监督模型包括：预训练的词嵌入模型、与所述预训练的词嵌入模型连接的transformer模型、与所述transformer模型连接的第一全连接层、及与所述第一全连接层连接的输出层，所述transformer模型中包含有Multihead Attention层，与所述Multihead Attention层连接的第一Add&Norm层、与所述第一Add&Norm层连接的FFN层、及与所述FFN层连接的第二Add&Norm层；所述基于所述无标签语音段训练所述无监督模型包括：将所述无标签语音段按照预设的遮挡规则进行随机遮挡，得到遮挡语音段和未遮挡语音段；将所述遮挡语音段和未遮挡语音段输入至所述预训练的词嵌入模型中，得到词嵌入向量及每个词嵌入向量对应的位置编码；将所述词嵌入向量及每个词嵌入向量对应的位置编码输入至所述transformer模型中，得到预测语音段的编码；将所述预测语音段的编码输入至第一全连接层中进行特征提取，得到预测语音段；计算所述未遮挡语音段与所述预测语音段之间的均方差损失值，基于所述均方差损失值进行网络梯度回传，训练无监督模型；判断网络梯度回传后的均方差损失值是否大于预设的均方差损失值阈值；当网络梯度回传后的均方差损失值小于或者等于所述预设的均方差损失值阈值时，结束所述无监督模型的训练；或者，当网络梯度回传后的均方差损失值大于所述预设的均方差损失值阈值时，迭代更新所述均方差损失值，并基于迭代更新后的均方差损失值进行二次网络梯度回传，重新训练所述无监督模型；

调整所述训练好的无监督模型，得到语音唤醒模型，包括：删除所述训练好的无监督模型中的与所述transformer模型连接的第一全连接层，并添加第二全连接层与所述transformer模型连接，得到语音唤醒模型；

2.如权利要求1所述的基于无监督学习的语音唤醒方法，其特征在于，所述更新后的语音唤醒模型的训练过程包括：

3.如权利要求1所述的基于无监督学习的语音唤醒方法，其特征在于，所述根据所述语音唤醒结果确定是否执行所述智能设备的语音唤醒操作包括：

识别所述智能设备的标识码；

4.如权利要求1所述的基于无监督学习的语音唤醒方法，其特征在于，所述对所述待训练语音信号进行第一预处理，得到无标签语音段包括：

将所述预加重后的语音信号切分为多个短时帧；

对每个短时帧乘以一个预设的窗函数得到加窗后的短时帧；

计算每个加窗后的短时帧傅里叶变换后的功率谱；

检测每个语音特征的语音时长；

5.一种基于无监督学习的语音唤醒装置，其特征在于，所述装置用于实现如权利要求1至4中任意一项所述的基于无监督学习的语音唤醒方法，所述装置包括：

6.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至4中任意一项所述的基于无监督学习的语音唤醒方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的基于无监督学习的语音唤醒方法。