CN110310628A

CN110310628A - 唤醒模型的优化方法、装置、设备及存储介质

Info

Publication number: CN110310628A
Application number: CN201910569405.XA
Authority: CN
Inventors: 张永超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-08
Anticipated expiration: 2039-06-27
Also published as: JP6936936B2; CN110310628B; US20200411000A1; JP2021006889A; US11189287B2

Abstract

本发明实施例提供一种唤醒模型的优化方法、装置、设备及存储介质，通过获取训练集和验证集；根据所述训练集和所述验证集对唤醒模型进行迭代训练；在迭代训练过程中，周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集，并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练；当达到预设中止条件时，输出所述唤醒模型。本发明实施例通过在迭代过程中周期性的根据唤醒模型和预设语料库更新训练集和验证集，可提高对唤醒模型的优化效率和效果，能够提高唤醒模型的稳定性和适应性，避免过拟合。

Description

唤醒模型的优化方法、装置、设备及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种唤醒模型的优化方法、装置、设备及存储介质。

背景技术

随着移动智能设备的快速普及，语音这种对于人类来说自然便捷的方式在人机交互中变得日益火热。当下像手机语音助手、智能音箱、语音对话机器人、支持语音控制的电视等具有语音交互功能的智能设备层出不穷各大互联网公司和创新型公司纷纷涌入此火热战场。而根据用户反馈和用户调研，语音交互确实对于用户提升了很大的便利性。

唤醒词检测(Hotword Detection)技术作为语音相关技术的重要组成部分，在整个语音交互中处于第一个环节，对整体交互满意度来说起到举足轻重的作用。唤醒系统有两个关键指标：唤醒率与误唤醒，唤醒率要尽可能高，同时误唤醒要尽可能低。但对一个唤醒系统来说，这两个指标是一个跷跷板—追求高的唤醒率很容易触发更多的误唤醒，比如市场上一些智能后视镜在车内用户聊天时经常触发误唤醒，既影响了车内其他用户还分散了驾驶员的注意力，用户体验大打折扣。如何在保障高唤醒率的同时，大幅度降低误唤醒是提升用户体验的重要一环。

现有技术中，唤醒词检测技术已从原始的基于模板匹配的检测技术发展到现在的基于神经网络进行声学模型建模的方案，唤醒词检测技术逐渐成熟，同时对唤醒性能的要求也越来越高。其中，基于神经网络进行唤醒词建模的方案大致如下：获取训练集和验证集，根据训练集和验证集进行多轮迭代训练，得到唤醒模型，然后再进行模型优化，通过预先收集的调优集对唤醒词模型进行优化。而由于调优集中的误唤醒数据数量有限，使得整体优化阶段收效慢；而且随着唤醒模型得到优化，预先收集的调优集带来的收益极速下降，导致对唤醒模型的优化效率和效果较差，影响模型的稳定性。

发明内容

本发明实施例提供一种唤醒模型的优化方法、装置、设备及存储介质，以提高对唤醒模型的优化效率和效果，能够提高唤醒模型的稳定性和适应性，避免过拟合。

本发明实施例的第一方面是提供一种唤醒模型的优化方法，包括：

获取训练集和验证集；

根据所述训练集和所述验证集对唤醒模型进行迭代训练；

在迭代训练过程中，周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集，并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练；

当达到预设中止条件时，输出所述唤醒模型。

本发明实施例的第二方面是提供一种唤醒模型的优化装置，包括：

获取模块，用于获取训练集和验证集；

训练模块，用于根据所述训练集和所述验证集对唤醒模型进行迭代训练；

调优模块，用于在迭代训练过程中，周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集；

所述训练模块还用于，根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练；

输出模块，用于当达到预设中止条件时，输出所述唤醒模型。

本发明实施例的第三方面是提供一种唤醒模型的优化设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

本发明实施例的第四方面是提供一种计算机可读存储介质，其上存储有计算机程序；

所述计算机程序被处理器执行时实现如第一方面所述的方法。

本发明实施例提供的唤醒模型的优化方法、装置、设备及存储介质，通过获取训练集和验证集；根据所述训练集和所述验证集对唤醒模型进行迭代训练；在迭代训练过程中，周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集，并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练；当达到预设中止条件时，输出所述唤醒模型。本发明实施例通过在迭代过程中周期性的根据唤醒模型和预设语料库更新训练集和验证集，可提高对唤醒模型的优化效率和效果，能够提高唤醒模型的稳定性和适应性，避免过拟合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的唤醒模型的优化方法流程图；

图2为本发明另一实施例提供的唤醒模型的优化方法流程图；

图3为本发明另一实施例提供的唤醒模型的优化方法流程图；

图4为本发明另一实施例提供的唤醒模型的优化方法流程图；

图5为本发明实施例提供的唤醒模型的优化装置的结构图；

图6为本发明实施例提供的唤醒模型的优化设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的唤醒模型的优化方法流程图。本实施例提供了一种唤醒模型的优化方法，该方法具体步骤如下：

S101、获取训练集和验证集。

在本实施例中，训练集为对唤醒模型进行训练的语音数据，验证集为对训练后的唤醒模型进行验证、对唤醒模型能力初步评估的语音数据。具体可先获取正例数据和反例数据后，将正例数据和反例数据切分成训练集和验证集，当然本实施例中还可包括测试集，此处不再赘述。

更具体的，如图2所示，本实施例中所述的获取训练集和验证集，具体可包括：

S1011、获取唤醒词集合和误唤醒词集合；

S1012、根据所述唤醒词集合和所述误唤醒词集合分别获取正例数据和反例数据；

S1013、由所述正例数据和所述反例数据得到所述训练集和所述验证集。

在本实施例中，首先获取唤醒词集合和误唤醒词集合，其中唤醒词集合中包括具有唤醒词的语音数据，误唤醒词集合中包括具有误唤醒词的语音数据，进而可将唤醒词集合的数据直接作为正例数据，将误唤醒词集合中的数据直接作为反例数据，当然，也可对唤醒词集合和误唤醒词集合中的数据进行预定的处理后得到正例数据和反例数据，例如对数据进行数据增强操作，举例来说，可以对唤醒词集合和误唤醒词集合中的数据叠加预设的噪声数据和/或混响数据，和/或调整所述目标数据的播放语速，从而达到模拟真实环境中人声情况。在获取到正例数据和反例数据后，可对正例数据和反例数据进行混合，按照预定比例划分为训练集和验证集，划分过程可采用随机划分。

S102、根据所述训练集和所述验证集对唤醒模型进行迭代训练。

在本实施例中，唤醒模型可以为神经网络模型，通过训练集和验证集可对神经网络模型进行迭代训练，具体迭代训练过程可采用本领域中常用的迭代训练方法，此处不再赘述。

S103、在迭代训练过程中，周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集，并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练。

在本实施例中，在对唤醒模型进行迭代训练的过程中，可以周期性的更新训练集和验证集，实现对训练集和验证集的调优化，根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练，则可提高模型的稳定性和适应性，避免过拟合。本实施例中可选用海量语料库，例如音乐、电视剧、新闻、聊天语料库以及其他噪音集，作为所述预设语料库，根据当前的唤醒模型从预设语料库中筛选出一定数量的语料(语音数据)，更新训练集和验证集。进一步的，由于通常情况下唤醒词是固定不变的，因此本实施例中可以仅根据当前的唤醒模型从预设语料库中筛选出预定数量的产生误唤醒的语料，更新训练集和验证集中的反例数据。

S104、当达到预设中止条件时，输出所述唤醒模型。

在本实施例中，预设中止条件可以为迭代训练次数达到预设次数、或者唤醒模型的准确度达到预设阈值时，中止迭代训练，进而可输出唤醒模型。

本实施例提供的唤醒模型的优化方法，通过获取训练集和验证集；根据所述训练集和所述验证集对唤醒模型进行迭代训练；在迭代训练过程中，周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集，并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练；当达到预设中止条件时，输出所述唤醒模型。本实施例通过在迭代过程中周期性的根据唤醒模型和预设语料库更新训练集和验证集，可提高对唤醒模型的优化效率和效果，能够提高唤醒模型的稳定性和适应性，避免过拟合。

在上述实施例的基础上，如图3所示，S103所述的周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集，具体可包括：

S201、以预设迭代次数为一个迭代周期，在每个迭代周期结束时，将所述预设语料库中的语料输入所述唤醒模型中，获取唤醒结果；

S202、根据所述唤醒结果，获取预设数量的产生误唤醒的语料；

S203、根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据。

在本实施例中，可以以预设迭代次数为一个迭代周期，例如预设迭代次数为T，通过记录当前的迭代次数i，当i达到T的整数倍时，也即当前的迭代周期结束，此时将预设语料库中的语料输入当前的唤醒模型中，获取唤醒结果，唤醒结果包括唤醒成功和唤醒失败两种情况，而唤醒成功的情况中则包括由唤醒词唤醒和误唤醒两种情况，本实施例中选取产生误唤醒的语料来更新训练集和验证集中的反例数据。具体的，可首先筛选出唤醒成功的语料，在从唤醒成功的语料中筛选出非唤醒词的语料作为所述误唤醒的语料；当然也可采用其他手段获取产生误唤醒的语料。由于对于产成误唤醒的语料的筛选是根据当前的唤醒模型进行的筛选，得到的筛选结果较具有针对性，可在接下来的迭代训练过程中更好的优化唤醒模型，提高唤醒模型的适应性和稳定性。本实施例中，由于正例数据和反例数据的比例固定，且正例数据数量可保持不变，因此需要获取合适的产生误唤醒的语料数量(也即预设数量)，以使更新后的正例数据和反例数据的比例仍保持不变。

在上述实施例的基础上，如图4所示，S202所述的根据所述唤醒结果，获取预设数量的产生误唤醒的语料，包括：

S2021、对于产生误唤醒的语料，获取误唤醒概率；

S2022、根据所述误唤醒概率对产生误唤醒的语料进行排序，选取其中误唤醒概率较高的预设数量的产生误唤醒的语料。

在本实施例中，在筛选产生误唤醒的语料时，可筛选其中最容易产生误唤醒的语料，具体可通过获取每一产生误唤醒的语料的误唤醒概率，然后选取其中误唤醒概率较高的预设数量的产生误唤醒的语料，可以进一步提高对唤醒模型的针对性，提高对唤醒模型的优化效果。

进一步的，上述实施例中S203所述的根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据，具体可包括：

对所述预设数量的产生误唤醒的语料进行数据增强操作后更新所述训练集和所述验证集中的反例数据。

在上述实施例中，由于训练集和验证集中的正例数据和反例数据均可以为经过数据增强操作后的数据，为了保持更新后的训练集和验证集与更新前的数据结构保持一致，也可对获取到的预设数量的产生误唤醒的语料进行数据增强操作，再更新训练集和验证集中的反例数据，其中数据增强操作可以对产生误唤醒的语料数据叠加预设的噪声数据和/或混响数据，和/或调整所述产生误唤醒的语料的播放语速。

在上述任一实施例的基础上，本实施例中对所述数据增强操作进行详细说明，所述数据增强操作具体可包括：

对于待进行数据增强操作的目标数据，叠加预设的噪声数据和/或混响数据；和/或调整所述目标数据的播放语速。

在本实施例中，预设的噪声数据可以包括不同环境的噪声数据，例如在公共场所的噪声、在室内的噪声、不同天气的环境噪声等，在对目标数据叠加预设的噪声数据时，还可以以不同的信噪比进行叠加，从而可以模拟在不同噪声环境下的目标数据。预设的混响数据则可包括不同的混响参数值，以模拟在不同空间中的目标数据。此外还可调整目标数据的播放语速。当然数据增强操作可不仅限于上述三种，其他能够对目标数据的声学特征进行调节的操作亦可。本实施例中可采用上述至少一种数据增强操作对目标数据进行增强，实现不同真实环境中人声的模拟，可提高唤醒模型在不同真实环境中的适应性和稳定性。

图5为本发明实施例提供的唤醒模型的优化装置的结构图。本实施例提供的唤醒模型的优化装置可以执行唤醒模型的优化方法实施例提供的处理流程，如图5所示，所述唤醒模型的优化装置包括获取模块51、训练模块52、调优模块53及输出模块54。

其中，获取模块51用于获取训练集和验证集；

训练模块52用于根据所述训练集和所述验证集对唤醒模型进行迭代训练；

调优模块53用于在迭代训练过程中，周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集；

所述训练模块52还用于根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练；

输出模块54用于当达到预设中止条件时，输出所述唤醒模型。

在上述实施例的基础上，所述调优模块53用于：

以预设迭代次数为一个迭代周期，在每个迭代周期结束时，将所述预设语料库中的语料输入所述唤醒模型中，获取唤醒结果；

根据所述唤醒结果，获取预设数量的产生误唤醒的语料；

根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据。

在上述任一实施例的基础上，所述调优模块53用于：

对于产生误唤醒的语料，获取误唤醒概率；

根据所述误唤醒概率对产生误唤醒的语料进行排序，选取其中误唤醒概率较高的预设数量的产生误唤醒的语料。

在上述任一实施例的基础上，所述获取模块51用于：

获取唤醒词集合和误唤醒词集合；

根据所述唤醒词集合和所述误唤醒词集合分别获取正例数据和反例数据；

由所述正例数据和所述反例数据得到所述训练集和所述验证集。

在上述任一实施例的基础上，所述装置50还包括数据增强模块54，用于：

由所述获取模块51调用，对所述唤醒词集合和所述非唤醒词集合中的数据进行数据增强操作，得到所述正例数据和所述反例数据。

在上述任一实施例的基础上，所述数据增强模块54还用于：

由所述调优模块53调用，对所述预设数量的产生误唤醒的语料进行数据增强操作后更新所述训练集和所述验证集中的反例数据。

在上述任一实施例的基础上，所述数据增强模块54用于：

对于待进行数据增强操作的目标数据，叠加预设的噪声数据和/或混响数据；和/或

调整所述目标数据的播放语速。

本发明实施例提供的唤醒模型的优化装置可以具体用于执行上述图1-4所提供的方法实施例，具体功能此处不再赘述。

本发明实施例提供的唤醒模型的优化装置，通过获取训练集和验证集；根据所述训练集和所述验证集对唤醒模型进行迭代训练；在迭代训练过程中，周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集，并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练；当达到预设中止条件时，输出所述唤醒模型。本发明实施例通过在迭代过程中周期性的根据唤醒模型和预设语料库更新训练集和验证集，可提高对唤醒模型的优化效率和效果，能够提高唤醒模型的稳定性和适应性，避免过拟合。

图6为本发明实施例提供的唤醒模型的优化设备的结构示意图。本发明实施例提供的唤醒模型的优化设备可以执行唤醒模型的优化方法实施例提供的处理流程，如图6所示，唤醒模型的优化设备60包括存储器61、处理器62、计算机程序和通讯接口63；其中，计算机程序存储在存储器61中，并被配置为由处理器62执行以上实施例所述的唤醒模型的优化方法。

图6所示实施例的唤醒模型的优化设备可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的唤醒模型的优化方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种唤醒模型的优化方法，其特征在于，包括：

获取训练集和验证集；

根据所述训练集和所述验证集对唤醒模型进行迭代训练；

当达到预设中止条件时，输出所述唤醒模型。

2.根据权利要求1所述的方法，其特征在于，所述周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集，包括：

根据所述唤醒结果，获取预设数量的产生误唤醒的语料；

3.根据权利要求2所述的方法，其特征在于，所述根据所述唤醒结果，获取预设数量的产生误唤醒的语料，包括：

对于产生误唤醒的语料，获取误唤醒概率；

4.根据权利要求1所述的方法，其特征在于，所述获取训练集和验证集，包括：

获取唤醒词集合和误唤醒词集合；

5.根据权利要求4所述的方法，其特征在于，所述根据所述唤醒词集合和所述误唤醒词集合分别获取正例数据和反例数据，包括：

对所述唤醒词集合和所述非唤醒词集合中的数据进行数据增强操作，得到所述正例数据和所述反例数据。

6.根据权利要求2所述的方法，其特征在于，所述根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述数据增强操作包括：

调整所述目标数据的播放语速。

8.一种唤醒模型的优化装置，其特征在于，包括：

获取模块，用于获取训练集和验证集；

9.根据权利要求8所述的装置，其特征在于，所述调优模块用于：

根据所述唤醒结果，获取预设数量的产生误唤醒的语料；

10.根据权利要求9所述的装置，其特征在于，所述调优模块用于：

对于产生误唤醒的语料，获取误唤醒概率；

11.根据权利要求8所述的装置，其特征在于，所述获取模块用于：

获取唤醒词集合和误唤醒词集合；

12.根据权利要求11所述的装置，其特征在于，还包括数据增强模块，用于：

由所述获取模块调用，对所述唤醒词集合和所述非唤醒词集合中的数据进行数据增强操作，得到所述正例数据和所述反例数据。

13.根据权利要求9所述的装置，其特征在于，还包括数据增强模块，用于：

由所述调优模块调用，对所述预设数量的产生误唤醒的语料进行数据增强操作后更新所述训练集和所述验证集中的反例数据。

14.根据权利要求12或13所述的装置，其特征在于，所述数据增强模块用于：

调整所述目标数据的播放语速。

15.一种唤醒模型的优化设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；

所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。