CN110491373A

CN110491373A - 模型训练方法、装置、存储介质及电子设备

Info

Publication number: CN110491373A
Application number: CN201910765402.3A
Authority: CN
Inventors: 陈喆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-22

Abstract

本申请实施例公开了一种模型训练方法、装置、存储介质及设备，其中，通过采集用户的语音数据，该语音数据包括预设关键词，并对采集到的语音数据进行质量评估，得到质量评估结果，以及在质量评估结果满足预设质量要求时，提取该语音数据的声学特征，利用预先训练的通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型。由此，通过利用通用唤醒模型对数据量较少的用户语音数据进行自适应处理，无需获取用户的大量语音数据作为样本进行训练，即可得到准确代表用户的声纹唤醒模型，并且，本申请中还通过质量评估确保了采集的用户语音数据的质量，能够进一步确保训练得到的声纹唤醒模型的准确性，进而能够提高语音识别的准确度。

Description

模型训练方法、装置、存储介质及电子设备

技术领域

本申请涉及音频处理技术领域，具体涉及一种模型训练方法、装置、存储介质及电子设备。

背景技术

目前，通过语音识别技术，用户可以在不方便直接操控电子设备的情况下通过语音来唤醒语音交互应用，进而通过与语音交互应用之间的语音交互实现对电子设备的控制。现有技术在进行语音识别时，通常利用预先训练的用户语音模型来对实时采集的语音数据进行校验。然而，由于实际训练时无法采集到丰富的样本语音数据，同时采集的样本语音数据的质量也参差不齐，使得训练得到的用户语音模型无法准确的代表用户，最终导致语音识别的准确度较差。

发明内容

本申请实施例提供了一种模型训练方法、装置、存储介质及电子设备，能够提高语音识别的准确度。

其中，本申请实施例提供的模型训练方法，应用于电子设备，所述模型训练方法包括：

采集用户的语音数据，所述语音数据包括预设关键词；

对所述语音数据进行质量评估，得到质量评估结果；

当所述质量评估结果满足预设质量要求时，提取所述语音数据的声学特征

获取对应所述预设关键词的通用唤醒模型，并基于所述通用唤醒模型对所述声学特征进行自适应处理，得到用于识别所述用户的声纹唤醒模型。

本申请实施例提供的模型训练装置，应用于电子设备，所述模型训练装置包括：

语音采集模块，用于采集用户的语音数据，所述语音数据包括预设关键词；

质量评估模块，用于对所述语音数据进行质量评估，得到质量评估结果；

特征提取模块，用于当所述质量评估结果满足预设质量要求时，提取所述语音数据的声学特征

模型训练模块，用于获取对应所述预设关键词的通用唤醒模型，并基于所述通用唤醒模型对所述声学特征进行自适应处理，得到用于识别所述用户的声纹唤醒模型。

本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序被处理器调用时执行如本申请实施例提供的模型训练方法。

本申请实施例提供的电子设备，包括处理器和存储器，所述存储器储存有计算机程序，所述处理器通过调用所述计算机程序，用于执行本申请提供的模型训练方法。

本申请实施例通过利用通用唤醒模型对数据量较少的用户语音数据进行自适应处理，无需获取用户的大量语音数据作为样本进行训练，即可得到准确代表用户的声纹唤醒模型，并且，本申请中还通过质量评估确保了采集的用户语音数据的质量，能够进一步确保训练得到的声纹唤醒模型的准确性，进而能够提高语音识别的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的模型训练方法的一流程示意图。

图2是本申请实施例中输出提示信息的示例图。

图3是本申请实施例中提取声学特征的示意图。

图4是本申请实施例提供的模型训练方法的另一流程示意图。

图5是本申请实施例提供的应用唤醒方法的一流程示意图。

图6是本申请实施例提供的模型训练装置的一结构示意图。

图7是本申请实施例提供的应用唤醒装置的一结构示意图。

图8是本申请实施例提供的电子设备的一结构示意图。

图9是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例提供一种模型训练方法、模型训练装置、存储介质以及电子设备，其中，该模型训练方法的执行主体可以是本申请实施例提供的模型训练装置，或者集成了该模型训练装置的电子设备，其中该模型训练装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑或者台式电脑等设备。

请参照图1，图1为本申请实施例提供的模型训练方法的流程示意图，本申请实施例提供的模型训练方法的流程可以如下：

101，采集用户的语音数据，该语音数据包括预设关键词。

以下以电子设备为执行主体对本申请实施例提供的模型训练方法进行说明。

应当说明的是，本申请实施例中预先训练有对应预设关键词的通用唤醒模型，对于预设关键词的内容，本申请实施例中不做限制，可由本领域普通技术人员根据实际需要进行配置，比如，本申请实施例中预设关键词配置为“小欧小欧”。

本申请实施例中，电子设备首先输出提示信息，通过该提示信息提示用户说出预设关键词。

其中，电子设备可以通过多种不同的方式输出用于提示用户说出预设关键词的提示信息，包括但不限于以音频方式输出提示信息，以及以图像方式输出提示信息等。比如，请参照图2，电子设备在其屏幕显示提示信息：请说出“小欧小欧”，其中小欧小欧为预设关键词。此外，电子设备在输出提示信息时，可以持续输出该提示信息，直至采集到用户的语音数据，还可以仅输出预设时长，该预设时长可由本领域普通技术人员根据实际需要配置，比如，可以配置为5秒。

如上所述，电子设备输出提示信息的目的在于采集用户说出预设关键词的语音数据，相应的，电子设备还通过麦克风采集得到用户的语音数据。其中，麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)，本申请实施例对此不做具体限制。

应当说明的是，假设电子设备的麦克风为模拟麦克风，那么将采集到模拟的语音数据，此时需要将模拟的语音数据进行模数转换，得到数字化的语音数据，用于后续处理。比如，电子设备可以在通过麦克风采集到用户的模拟的语音数据后，以16KHz的采样频率分别对模拟的语音数据进行采样，得到数字化的语音数据。

应当说明的是，在本申请实施例中，电子设备除了设置有通用的处理器之外，还设置有专用语音识别芯片。其中，专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。

本申请实施例中，电子设备在通过麦克风采集到语音数据时，首先基于专用语音识别芯片运行的一级校验算法对采集到的语音数据进行校验，以判断该语音数据中是否包括预设关键词。其中，一级校验算法可以是基于深度卷积神经网络的校验算法、可以是基于长短期记忆的循环神经网络校验算法，还可以是基于高斯混合模型的校验算法等。

示例性的，专用语音识别芯片运行一级校验算法，加载前述预先训练的通用唤醒模型来校验采集到的语音数据。其中，专用语音识别芯片提取采集到的语音数据的声学特征，并提取的声学特征输入通用唤醒模型中，由通用唤醒模型对该声学特征进行校验，并输出一个分值，当输出的分值达到第一预设阈值时，专用语音识别芯片判定采集到的语音数据与通用唤醒模型匹配，否则不匹配，由于通用唤醒模型基于包括预设关键词的样本语音数据训练得到，当采集到的语音数据与通用唤醒模型匹配时，即说明该语音数据中包括预设关键词。比如，本申请实施例中，通用唤醒模型的输出分值的区间为[0,1]，第一预设阈值配置为0.45，也即是当采集到的语音数据的声学特征所对应的分值达到0.45时，专用语音识别芯片将判定该语音数据包括预设关键词。

如上所述，当电子设备判断出采集到的语音数据中包括预设关键词时，保留该语音数据用于后续处理。

此外，当采集到的语音数据中不存在预设关键词时，则丢弃该语音数据，并重新采集用户的语音数据，直至采集到包括预设关键词的语音数据。

102，对语音数据进行质量评估，得到质量评估结果。

本申请实施例中，电子设备在采集得到用户的语音数据之后，进一步对采集得到的语音数据进行质量评估，得到对应的质量评估结果。其中，对于在何种质量维度对语音数据进行质量评估，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际需要进行选择。

103，当质量评估结果满足预设质量要求时，提取语音数据的声学特征。

本申请实施例中，电子设备还预先配置有约束语音数据的质量是否合格的预设质量要求，对于该预设质量要求的配置，本申请实施例中不做具体限制，可由本领域普通技术人员根据实际选取的质量评估维度，根据经验进行选取。

相应的，电子设备在完成对语音数据的质量评估，并得到对应的质量评估结果之后，进一步判断语音数据的质量评估结果是否满足预设质量要求，若满足，则说明采集的语音数据为有效的语音数据，若未达到，则说明采集的语音数据为无效的语音数据。

其中，当判定采集的语音数据为有效的语音数据时，电子设备进一步提取该语音数据的声学特征。

应当说明的是，提取该语音数据的声学特征与用于训练通用唤醒模型的声学特征类型相同。

104，获取对应预设关键词的通用唤醒模型，并基于通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型。

在提取到用户的语音数据的声学特征之后，电子设备进一步获取到预先训练的通用唤醒模型，并基于该通用唤醒模型对提取到用户的声学特征进行自适应处理，从而得到用于识别该用户的声纹唤醒模型。

其中，自适应处理是指将通用唤醒模型中的与目标说话人(即用户)的语音数据相近的一部分非特定说话人的声学特征作为用户的声学特征的处理方法，该自适应处理可以采用最大后验估计算法实现。最大后验估计是根据经验数据获得对难以观察的量的估计，估计过程中，需利用先验概率和贝叶斯定理得到后验概率，目标函数(即表示用户的声纹唤醒模型的表达式)为后验概率的似然函数，求得该似然函数最大时的参数值(可采用梯度下降算法求出似得然函数的最大值)，也就实现将通用唤醒模型中的与用户相近的一部分非特定说话人语音特征作为用户的声学特征一同训练的效果，根据求得的似然函数最大时的参数值获取到与用户相对应的声纹唤醒模型。利用该声纹唤醒模型，即可以识别包括预设关键词的语音数据是否为前述用户说出，实现对用户的识别。

由上可知，电子设备通过采集用户的语音数据，该语音数据包括预设关键词，并对采集到的语音数据进行质量评估，得到质量评估结果，以及在质量评估结果满足预设质量要求时，提取该语音数据的声学特征，利用预先训练的通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型。由此，通过利用通用唤醒模型对数据量较少的用户语音数据进行自适应处理，无需获取用户的大量语音数据作为样本进行训练，即可得到准确代表用户的声纹唤醒模型，并且，本申请中还通过质量评估确保了采集的用户语音数据的质量，能够进一步确保训练得到的声纹唤醒模型的准确性，进而能够提高语音识别的准确度。

在一实施例中，“采集用户的语音数据”之前，还包括：

(1)采集多个其他不同用户的样本语音数据，样本语音数据包括预设关键词；

(2)提取每一样本语音数据的声学特征，并根据提取到的声学特征构建训练样本集；

(3)根据训练样本集进行训练，得到通用唤醒模型。

其中，在训练对应预设关键词的通用唤醒模型时，电子设备首先采集多个不同其它用户(比如两百个不同的其它用户)分别说出预设关键词的样本语音数据，然后提取各样本语音数据的声学特征，并根据提取到的声学特征构建训练样本集，然后根据构建的训练样本集进行训练，得到一个包括多维度特征的通用唤醒模型。可以看出，由于通用唤醒模型采用大量与特定人(即用户)无关的语音数据训练得到，其仅拟合人的声学特征分布，并不代表某个具体的人。

其中，对于提取何种声学特征来训练得到的通用唤醒模型，本申请实施例中对此不做具体限制，可由本领域普通技术人员根据实际需要预先设定。

在一实施例中，“提取样本语音数据的声学特征”，包括：

提取样本语音数据的梅尔频率倒谱系数，作为样本语音数据的声学特征。

示例性的，以采用梅尔频率倒谱系数作为训练通用唤醒模型的声学特征为例。

请参照图3，对于一样本语音数据，电子设备首先对其进行预处理，比如，对该样本语音数据进行高通滤波，数学表达式为：H(z)＝1-az^-1，其中H(z)表示滤波后的样本语音数据，z表示滤波前的样本语音数据，a是修正系数，一般取0.95-0.97；然后对滤波后的样本语音数据进行分帧加窗处理，以平滑分帧得到的音频帧的边缘，比如采用汉明窗的形式加窗然后，对加窗后的音频帧进行傅里叶变换，比如快速傅里叶变换，再进行梅尔频率倒谱系数的提取，其中，通过梅尔滤波器组对傅里叶变换结果进行滤波，得到符合人耳听觉习惯的梅尔频率，然后取对数将单位转换为分贝，数学表达式为其中F_mel(f)表示获取到的梅尔频率，f为傅里叶变换后的频点。然后，电子设备对获取到梅尔频率进行离散余弦变换，得到梅尔频率倒谱系数。

在获取到的样本语音数据的声学特征之后，即提取到样本语音数据分帧得到的各音频帧的梅尔频率倒谱系数之后，电子设备将其按帧输入，采用最大期望算法迭代计算出通用唤醒模型的参数，从而得到训练完成的对应预设关键词的通用唤醒模型。其中，通用唤醒模型的表达式为：

其中，x表示样本语音数据，K表示组成通用唤醒模型的高斯分布的个数，C_k表示第k个混合高斯的系数，N(x；m_k，R_k)表示均值m_k是D维矢量，D×D维对角协方差矩阵R_k的高斯分布。

在一实施例中，“提取语音数据的声学特征”，包括：

提取语音数据的梅尔频率倒谱系数，设为语音数据的声学特征。

在一实施例中，“对语音数据进行质量评估，得到质量评估结果”，包括：

(1)判断采集的语音数据是否存在截幅，以及判断采集的语音数据的信噪比是否达到预设信噪比；

(2)当语音数据不存在截幅，且语音数据的信噪比达到预设信噪比时，判定质量评估结果满足预设质量要求。

本申请实施例中，考虑到用户可能距离麦克风很近的情况下说出预设关键词，进而导致麦克风采集的语音数据被截幅，而无法准确的代表用户。同时，若用户在嘈杂的环境下说出预设关键词，也会导致麦克风采集的语音数据无法准确的代表用户。

因此，在本申请实施例中，电子设备从截幅以及信噪比的维度来对语音数据进行质量评估。其中，电子设备分别判断采集的语音数据是否存在截幅，以及判断采集的语音数据的信噪比是否达到预设信噪比(可由本领域普通技术人员根据实际需要取经验值)，若采集的语音数据不存在截幅，且采集的语音数据的信噪比达到预设信噪比，则电子设备判断语音数据的质量评估结果满足预设质量要求。

在一实施例中，“判断采集的语音数据是否存在截幅”包括：

(1)从采集的语音数据中截取出预设关键词的部分，得到子语音数据；

(2)对子语音数据进行分帧处理，得到多个音频帧；

(3)判断所述多个音频帧中是否存在平均幅值大于第一预设幅值的音频帧，是则判定所述子语音数据存在截幅；或者

(4)判断滤波后的多个音频帧中是否存在包括预设数量幅值大于第二预设幅值的信号点的音频帧，是则判定子语音数据存在截幅。

本申请实施例中，在判断采集的语音数据是否存在截幅时，并对完整的语音数据进行判断，而是对其中预设关键词的部分的进行判断，以此来提升判断效率。

示例性的，电子设备首先从采集的长度为N的语音数据x(n)中截取出包括预设关键词的部分，得到子语音数据。其中，对于预设关键词对应的时间点，分别向前t₁和向后t₂，从语音数据x(n)中截取出包括预设关键词的子语音数据x_v(n)，其长度为(t₁+t₂)f_s，其中f_s为采集的语音数据的采样频率。

对于子语音数据x_v(n)，电子设备按照帧长N`对其进行分帧处理，得到多个帧长为N`的音频帧。之后，电子设备即根据分帧得到的音频帧来判断子语音数据是否存在截幅。

作为一种可选的实施方式，电子设备可以判断多个音频帧中是否存在平均幅值大于第一预设幅值的音频帧，是则判定子语音数据存在截幅。

其中，对于任一音频帧，电子设备提取该音频帧的线性预测系数，并根据提取到的线性预测系数设计对应的有限长单位冲激响应滤波器，然后利用该滤波器对其进行滤波，得到该音频帧中各信号点的幅值|x_i(n)|，其中，i∈[0，M]，M表示信号点的个数。

然后，电子设备计算该音频帧的平均幅值

对比平均幅值与第一预设幅值，若平均幅值大于该第一预设幅值，则电子设备判定该音频帧存在截幅，从而可以判定子语音数据存在截幅。

作为另一种可选的实施方式，电子设备可以判断多个音频帧中是否存在预设数量幅值大于第二预设幅值的信号点的音频帧，是则判定所述子语音数据存在截幅。

如上所述，对于任一音频帧，电子设备同样获取到该音频帧中各信号点的幅值|x_i(n)|，区别在于，电子设备并不计算其平均幅值，而是统计出其中幅值大于第二预设幅值的信号点的数量，若音频帧中幅值大于第二预设幅值的信号点的数量达到预设数量，则电子设备判定该音频帧存在截幅，从而可以判定子语音数据存在截幅。

其中，第一预设幅值和第二预设幅值可以设置为相同，也可以设置为不同，具体可由本领域普通技术人员根据实际需要进行设置，本申请实施例中对此不做具体限制。

在一实施例中，“判断语音数据的信噪比是否达到预设信噪比”，包括：

(1)获取子语音数据的信噪比；

(2)判断子语音数据的信噪比是否达到预设信噪比；

(3)若子语音数据的信噪比达到预设信噪比，则判定语音数据的信噪比达到预设信噪比。

示例性的，假设电子设备采集到长度为N的语音数据x(n)，对于预设关键词对应的时间点，分别向前t₁和向后t₂，从语音数据x(n)中截取出包括预设关键词的子语音数据x_v(n)，其长度为(t₁+t₂)f_s，其中f_s为采集的语音数据的采样频率。

则该子语音数据的信噪比可以表示为：

若子语音数据的信噪比SNR大于预设信噪比δ，则判定采集的语音数据的信噪比达到预设信噪比。

在一实施例中，“基于通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型”之后，还包括：

当完成系统版本的更新时，判断已训练的声纹唤醒模型是否与当前系统版本匹配；

若不匹配，则获取前述采集到的语音数据，并根据该语音数据训练得到匹配当前系统版本的声纹唤醒模型。

应当说明的是，随着电子设备系统版本的更新，可能使得更新前训练的用户的声纹唤醒模型无法在更新后的系统实现功能，而要求用户重新训练将严重影响用户的体验。

因此，在本申请实施例中，电子设备在基于通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型时，保存用于训练声纹唤醒模型的语音数据，也即前述采集的语音数据。

之后，电子设备在每次完成系统更新时，判断已训练的声纹唤醒模型是否与当前系统版本匹配。当已训练的声纹唤醒模型与当前系统版本不匹配时，电子设备获取到保存的前述语音数据，并根据该语音数据训练得到匹配当前系统版本的用户的声纹唤醒模型。

由此，只需用户训练一次声纹唤醒模型，电子设备将在后续更新系统时自动根据该次训练采用的用户语音数据重新训练得到匹配新版本系统的声纹唤醒模型，而这一过程对用户是无感的，并不会影响用户的使用体验。

下面将在上述实施例描述的方法基础上，对本申请的模型训练方法做进一步介绍。请参照图4，该模型训练方法可以包括：

201，电子设备获取包括预设关键词的样本语音数据。

比如，电子设备可以通过麦克风采集多人(比如两百人)分别说出预设关键词的样本语音数据。

202，电子设备提取样本语音数据的梅尔频率倒谱系数，并根据提取的样本语音数据的梅尔频率倒谱系数训练得到对应预设关键词的通用唤醒模型。

请参照图2，对于一样本语音数据，电子设备首先对其进行预处理，比如，对该样本语音数据进行高通滤波，数学表达式为：H(z)＝1-az^-1，其中H(z)表示滤波后的样本语音数据，z表示滤波前的样本语音数据，a是修正系数，一般取0.95-0.97；然后对滤波后的样本语音数据进行分帧加窗处理，以平滑分帧得到的音频帧的边缘，比如采用汉明窗的形式加窗然后，对加窗后的音频帧进行傅里叶变换，比如快速傅里叶变换，再进行梅尔频率倒谱系数的提取，其中，通过梅尔滤波器组对傅里叶变换结果进行滤波，得到符合人耳听觉习惯的梅尔频率，然后取对数将单位转换为分贝，数学表达式为其中F_mel(f)表示获取到的梅尔频率，f为傅里叶变换后的频点。然后，电子设备对获取到梅尔频率进行离散余弦变换，得到梅尔频率倒谱系数。

在提取到样本语音数据分帧得到的各音频帧的梅尔频率倒谱系数之后，根据提取到的梅尔频率倒谱系数构建训练样本集，电子设备将训练样本集中的梅尔频率倒谱系数按帧输入，采用最大期望算法迭代计算出通用唤醒模型的参数，得到训练完成的对应预设关键词的通用唤醒模型。其中，通用唤醒模型的表达式为：

可以理解的是，由于通用唤醒模型采用大量与特定人(即用户)无关的语音数据训练得到，其仅拟合人的声学特征分布，并不代表某个具体的人。

203，电子设备采集用户的语音数据，该语音数据包括预设关键词。

比如，电子设备可以输出提示信息，通过该提示信息提示用户说出预设关键词，从而采集得到用户说出的包括预设关键词的语音数据。

其中，电子设备可以通过多种不同的方式输出用于提示用户说出预设关键词的提示信息，包括但不限于以音频方式输出提示信息，以及以图像方式输出提示信息等。比如，请参照图3，电子设备在其屏幕显示提示信息：请说出“小欧小欧”，其中小欧小欧为预设关键词。此外，电子设备在输出提示信息时，可以持续输出该提示信息，直至采集到用户的语音数据，还可以仅输出预设时长，该预设时长可由本领域普通技术人员根据实际需要配置，比如，可以配置为5秒。

204，电子设备判断采集的语音数据是否存在截幅，以及判断采集的语音数据的信噪比是否达到预设信噪比。

因此，在本申请实施例中，电子设备从截幅以及信噪比的维度来对语音数据进行质量评估。其中，电子设备分别判断采集的语音数据是否存在截幅，以及判断采集的语音数据的信噪比是否达到预设信噪比。

205，当采集的语音数据不存在截幅，且采集的语音数据的信噪比达到预设信噪比时，电子设备提取采集的语音数据的梅尔频率倒谱系数。

若采集的语音数据不存在截幅，且采集的语音数据的信噪比达到预设信噪比，则电子设备判断语音数据的质量评估结果满足预设质量要求，为合格的语音数据。此时，电子设备提取采集的语音数据的梅尔频率倒谱系数。

206，电子设备基于训练的通用唤醒模型对语音数据的梅尔频率倒谱系数进行自适应处理，得到用于识别用户的声纹唤醒模型。

本申请实施例还提供一种应用唤醒方法，该应用唤醒方法的执行主体可以是本申请实施例提供的应用唤醒装置，或者集成了该应用唤醒装置的电子设备，其中该应用唤醒装置可以采用硬件或者软件的方式实现，该电子设备包括专用语音识别芯片、处理器和麦克风，且专用语音识别芯片的功耗小于处理器的功耗。

请参照图5，图5为本申请实施例提供的应用唤醒方法的流程示意图，本申请实施例提供的应用唤醒方法的流程可以如下：

301，当处理器休眠时，通过麦克风采集外部语音数据提供给专用语音识别芯片。

应当说明的是，本申请实施例中的专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗，但处理能力相对较弱。其中，专用语音识别芯片、处理器以及麦克风任意二者之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

本申请实施例中，处理器在电子设备的屏幕处于熄屏状态时休眠，而专用语音识别芯片在屏幕处于亮屏状态时休眠。此外，电子设备所包括的麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)。

其中，在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态)，电子设备通过麦克风对外部的声音进行采集，并将采集得到的外部语音数据提供给专用语音识别芯片。

302，通过专用语音识别芯片校验外部语音数据中是否包括预设关键词。

本申请实施例中，在将采集到外部语音数据提供给专用语音识别芯片之后，电子设备进一步通过专用语音识别芯片上运行的一级校验算法校验该外部语音数据的文本特征，也即是校验该外部语音数据是否包括预设关键词，只要外部语音数据包括预设关键词，即校验通过，而不论该预设关键词由谁说出。比如，外部语音数据中包括了预设关键词，但是该预设关键词由用户A说出，而不是预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)时，此时也将校验通过。

示例性的，本申请实施例预先基于包括预设关键词的样本语音数据训练有通用唤醒模型，专用语音识别芯片在基于一级校验算法校验外部语音数据中是否包括预设关键词时，首先提取该语音数据的声学特征，并将提取的声学特征输入预先训练的通用唤醒模型中，由通用唤醒模型对输入的声学特征进行评分，并输出一个分值，当输出的分值达到第一预设阈值时，专用语音识别芯片判定采外部语音数据与通用唤醒模型匹配，否则不匹配，由于通用唤醒模型基于包括预设关键词的样本语音数据训练得到，当采集到的外部语音数据与通用唤醒模型匹配时，即说明该外部语音数据中包括预设关键词。比如，本申请实施例中，通用唤醒模型的输出分值的区间为[0,1]，第一预设阈值配置为0.45，也即是当采集到的外部语音数据的声学特征所对应的分值达到0.45时，专用语音识别芯片将判定该外部语音数据包括预设关键词。

303，当外部语音数据中包括预设关键词时，通过专用语音识别芯片唤醒处理器，以及将外部语音数据提供给处理器，并在唤醒处理器后休眠专用语音识别芯片。

本申请实施例中，当校验出外部语音数据中包括预设关键词时时，电子设备通过专用语音识别芯片与处理器之间的通信连接发送预设的中断信号至处理器，以唤醒处理器。

另一方面，处理器将被来自专用语音识别芯片的中断信号唤醒，并返回指示信息至专用语音识别芯片，指示其当前已被唤醒。

相应的，电子设备在专用语音识别芯片接收到处理器唤醒后所返回的指示信息时，通过专用语音识别芯片与处理器之间的通信连接，将前述音频数据提供给处理器，并在将前述音频数据提供给处理器之后，控制专用语音识别芯片休眠。

应当说明的是，若前述外部语音数据未校验通过，也即采集的外部语音数据中不存在预设关键词时，电子设备将继续将通过麦克风采集外部的外部语音数据提供给专用语音识别芯片进行校验，直至采集到包括预设关键词的外部语音数据。

304，通过处理器调用预先训练的声纹唤醒模型，并基于声纹唤醒模型校验外部语音数据是否为声纹唤醒模型对应的用户说出。

在将前述音频数据提供给处理器之后，电子设备进一步通过处理器运行的二级校验算法校验采集的外部语音数据的声纹特征。

其中，处理器在基于二级校验算法校验外部语音数据的声纹特征时，首先调用预先训练的声纹唤醒模型，该声纹唤醒模型利用本申请实施例提供的模型训练方法训练得到，具体可参照以上实施例的相关描述，此处不再赘述。然后，电子设备提取外部语音数据的声学特征输入到调用的声纹唤醒模型中，由该声纹唤醒模型对输入的声学特征进行打分，输出一个分值，当输出的分值达到第二预设阈值时，处理器判定该外部语音数据与声纹唤醒模型匹配，从而判定该外部语音数据为声纹唤醒模型对应的用户说出。比如，本申请实施例中，声纹唤醒模型的输出分值的区间为[0,1]，第二预设阈值配置为0.28，也即是当外部语音数据的声学特征所对应的分值达到0.28时，处理器将判定该外部语音数据由声纹唤醒模型对应的用户说出。

305，当外部语音数据由声纹唤醒模型对应的用户说出时，通过处理器唤醒语音交互应用。

当判定出外部语音数据由声纹唤醒模型对应的用户说出时，说明用户存在语音交互的需求，此时电子设备通过处理器唤醒语音交互应用，基于该语音交互应用实现与用户之间的语音交互。其中，语音交互应用即俗称的语音助手，比如欧珀的语音助手“小欧”等。

本申请实施例还提供一种模型训练装置，请参照图6，图6为本申请实施例提供的模型训练装置的结构示意图。其中该模型训练装置应用于电子设备，该模型训练装置包括语音采集模块401、质量评估模块402、特征提取模块403以及模型训练模块404，如下：

语音采集模块401，用于采集用户的语音数据，该语音数据包括预设关键词；

质量评估模块402，用于对语音数据进行质量评估，得到质量评估结果；

特征提取模块403，用于当质量评估结果满足预设质量要求时，提取语音数据的声学特征；

模型训练模块404，用于获取对应预设关键词的通用唤醒模型，并基于通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型。

在一实施例中，在对语音数据进行质量评估，得到质量评估结果时，质量评估模块402用于：

判断采集的语音数据是否存在截幅，以及判断采集的语音数据的信噪比是否达到预设信噪比；

当语音数据不存在截幅，且语音数据的信噪比达到预设信噪比时，判定质量评估结果满足预设质量要求。

在一实施例中，在判断采集的语音数据是否存在截幅时，质量评估模块402用于：

从采集的语音数据中截取出预设关键词的部分，得到子语音数据；

对子语音数据进行分帧处理，得到多个音频帧；

判断所述多个音频帧中是否存在平均幅值大于第一预设幅值的音频帧，是则判定所述子语音数据存在截幅；或者

判断滤波后的多个音频帧中是否存在包括预设数量幅值大于第二预设幅值的信号点的音频帧，是则判定子语音数据存在截幅。

在一实施例中，在判断采集的语音数据的信噪比是否达到预设信噪比时，质量评估模块402用于：

获取子语音数据的信噪比；

判断子语音数据的信噪比是否达到预设信噪比；

若子语音数据的信噪比达到预设信噪比，则判定采集的语音数据的信噪比达到预设信噪比。

在一实施例中，模型训练装置还包括模型更新模块，在基于通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型之后，用于：

在一实施例中，在采集用户的语音数据之前，语音采集模块401还用于采集多个其他不同用户的样本语音数据，样本语音数据包括预设关键词；

特征提取模块403还用于提取每一样本语音数据的声学特征，并根据提取到的声学特征构建训练样本集；

模型训练模块404还用于根据训练样本集进行训练，得到通用唤醒模型。

在一实施例中，在提取每一样本语音数据的声学特征时，特征提取模块403用于：

提取每一样本语音数据的梅尔频率倒谱系数，设为每一样本语音数据的声学特征。

应当说明的是，本申请实施例提供的模型训练装置与上文实施例中的模型训练方法属于同一构思，在模型训练装置上可以运行模型训练方法实施例中提供的任一方法，其具体实现过程详见以上方法实施例，此处不再赘述。

本申请实施例还提供一种应用唤醒装置，应用于电子设备，该电子设备包括专用语音识别芯片、处理器和麦克风，且专用语音识别芯片的功耗小于处理器的功耗，请参照图7，该应用唤醒装置包括：

语音采集模块501，用于当处理器休眠时，通过麦克风采集外部语音数据提供给专用语音识别芯片；

第一校验模块502，用于通过专用语音识别芯片校验外部语音数据中是否包括预设关键词；

处理器唤醒模块503，用于当外部语音数据中包括预设关键词时，通过专用语音识别芯片唤醒处理器，以及将外部语音数据提供给处理器，并在唤醒处理器后休眠专用语音识别芯片；

第二校验模块504，用于通过处理器调用预先训练的声纹唤醒模型，并基于声纹唤醒模型校验外部语音数据是否为声纹唤醒模型对应的用户说出；

应用唤醒模块505，用于当外部语音数据由声纹唤醒模型对应的用户说出时，通过处理器唤醒语音交互应用；

其中，声纹唤醒模型采用本申请实施例提供的模型训练方法训练得到。

应当说明的是，本申请实施例提供的应用唤醒装置与上文实施例中的应用唤醒方法属于同一构思，在应用唤醒装置上可以运行应用唤醒方法实施例中提供的任一方法，其具体实现过程详见以上方法实施例，此处不再赘述。

本申请实施例还提供一种电子设备，请参照图8，电子设备包括处理器601和存储器602。

本申请实施例中的处理器601是通用处理器，比如ARM架构的处理器。

存储器602中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602中计算机程序的访问，实现如下功能：

采集用户的语音数据，该语音数据包括预设关键词；

对语音数据进行质量评估，得到质量评估结果；

当质量评估结果满足预设质量要求时，提取语音数据的声学特征；

获取对应预设关键词的通用唤醒模型，并基于通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型。

在一实施例中，在对语音数据进行质量评估，得到质量评估结果时，处理器601用于执行：

在一实施例中，在判断采集的语音数据是否存在截幅时，处理器601用于执行：

对子语音数据进行分帧处理，得到多个音频帧；

在一实施例中，在判断采集的语音数据的信噪比是否达到预设信噪比时，处理器601用于执行：

获取子语音数据的信噪比；

判断子语音数据的信噪比是否达到预设信噪比；

在一实施例中，在基于通用唤醒模型对声学特征进行自适应处理，得到用于识别用户的声纹唤醒模型之后，处理器601还用于执行：

在一实施例中，在采集用户的语音数据之前，处理器601还用于执行：

采集多个其他不同用户的样本语音数据，样本语音数据包括预设关键词；

提取每一样本语音数据的声学特征，并根据提取到的声学特征构建训练样本集；

根据训练样本集进行训练，得到通用唤醒模型。

在一实施例中，在提取每一样本语音数据的声学特征时，处理器601用于：

应当说明的是，本申请实施例提供的电子设备与上文实施例中的模型训练方法属于同一构思，在电子设备上可以运行模型训练方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

在一实施例中，还提供一种电子设备。请参照图9，电子设备包括处理器701、存储器702和专用语音识别芯片703和麦克风704。

本申请实施例中的处理器701是通用处理器，比如ARM架构的处理器。

专用语音识别芯片703是以语音识别为目的而设计的专用芯片，比如以语音识别为目的而设计的数字信号处理芯片，以语音识别为目的而设计的专用集成电路芯片等。

存储器702中存储有计算机程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件等。相应地，存储器702还可以包括存储器控制器，以提供处理器701和专用语音识别芯片703对存储器702中计算机程序的访问，实现如下功能：

当处理器701休眠时，通过麦克风704采集外部语音数据提供给专用语音识别芯片703；

通过专用语音识别芯片703校验外部语音数据中是否包括预设关键词；

当外部语音数据中包括预设关键词时，通过专用语音识别芯片703唤醒处理器701，以及将外部语音数据提供给处理器701，并在唤醒处理器701后休眠专用语音识别芯片703；

通过处理器701调用预先训练的声纹唤醒模型，并基于声纹唤醒模型校验外部语音数据是否为声纹唤醒模型对应的用户说出；

当外部语音数据由声纹唤醒模型对应的用户说出时，通过处理器701唤醒语音交互应用；

应当说明的是，本申请实施例提供的电子设备与上文实施例中的应用唤醒方法属于同一构思，在电子设备上可以运行应用唤醒方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

需要说明的是，对本申请实施例的模型训练方法/应用唤醒方法而言，本领域普通技术人员可以理解实现本申请实施例的模型训练方法/应用唤醒方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和/或专用语音识别芯片执行，在执行过程中可包括如模型训练方法/应用唤醒方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种模型训练方法、应用唤醒方法、装置、存储介质及设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型训练方法，其特征在于，所述模型训练方法包括：

采集用户的语音数据，所述语音数据包括预设关键词；

对所述语音数据进行质量评估，得到质量评估结果；

当所述质量评估结果满足预设质量要求时，提取所述语音数据的声学特征；

2.根据权利要求1所述的模型训练方法，其特征在于，所述对所述语音数据进行质量评估，得到质量评估结果，包括：

判断所述语音数据是否存在截幅，以及判断所述语音数据的信噪比是否达到预设信噪比；

当所述语音数据不存在截幅，且所述语音数据的信噪比达到预设信噪比时，判定质量评估结果满足所述预设质量要求。

3.根据权利要求2所述的模型训练方法，其特征在于，所述判断所述语音数据是否存在截幅包括：

从所述语音数据中截取出所述预设关键词的部分，得到子语音数据；

对所述子语音数据进行分帧处理，得到多个音频帧；

判断所述多个音频帧中是否存在包括预设数量幅值大于第二预设幅值的信号点的音频帧，是则判定所述子语音数据存在截幅。

4.根据权利要求3所述的模型训练方法，其特征在于，所述判断所述语音数据的信噪比是否达到预设信噪比，包括：

获取所述子语音数据的信噪比；

判断所述子语音数据的信噪比是否达到所述预设信噪比；

若所述子语音数据的信噪比达到所述预设信噪比，则判定所述语音数据的信噪比达到所述预设信噪比。

5.根据权利要求1-4任一项所述的模型训练方法，其特征在于，所述基于所述通用唤醒模型对所述声学特征进行自适应处理，得到用于识别所述用户的声纹唤醒模型之后，还包括：

当完成系统版本的更新时，判断所述声纹唤醒模型是否与当前系统版本匹配；

若不匹配，则根据所述语音数据训练得到匹配当前系统版本的声纹唤醒模型。

6.根据权利要求1-4任一项所述的模型训练方法，其特征在于，所述采集用户的语音数据之前，还包括：

采集多个其他不同用户的样本语音数据，所述样本语音数据包括所述预设关键词；

根据所述训练样本集进行训练，得到所述通用唤醒模型。

7.根据权利要求6所述的模型训练方法，其特征在于，所述提取每一样本语音数据的声学特征，包括：

8.一种模型训练装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器调用时执行如权利要求1至7任一项所述的模型训练方法。

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器储存有计算机程序，所述处理器通过调用所述计算机程序，用于执行如权利要求1至7任一项所述的模型训练方法。