CN116072096B

CN116072096B - 模型训练方法、声学模型、语音合成系统和电子设备

Info

Publication number: CN116072096B
Application number: CN202210957709.5A
Authority: CN
Inventors: 龚雪飞
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2023-10-20
Anticipated expiration: 2042-08-10
Also published as: CN116072096A

Abstract

本申请涉及语音处理技术领域，公开了一种模型训练方法、声学模型、语音合成系统和电子设备；方法包括：获取第一模型，将输入数据输入第一模型进行处理，获取输入数据对应的第一模型输出结果；获取输入数据对应的预设标准输出结果；基于第一模型输出结果和预设标准输出结果对第一模型进行优化，获取第二模型，第二模型包括第一后处理网络；确定第一后处理网络中各通道的重要性；基于各通道的重要性对第一后处理网络中的部分通道进行裁剪，以获取第二后处理网络，并且基于第二后处理网络获得第三模型；在确定第三模型满足模型要求的情况下，将第三模型作为最终训练模型。基于上述方案，能够在保证模型性能的同时有效减小模型的占用内存。

Description

模型训练方法、声学模型、语音合成系统和电子设备

技术领域

本申请涉及语音处理技术领域，特别涉及一种模型训练方法、声学模型、语音合成系统和电子设备。

背景技术

目前，实现文字转换为语音功能的语音合成系统已经广泛部署于电子设备中，以满足用户对文字转换为语音功能的需求。例如，如图1所示，当用户在电子设备100的办公软件中打开文档后，并点击了语音朗读控件200，则会调用语音合成系统将文档中的文字转换为语音，以实现对文档进行朗读。

如图2所示，目前常用的将文字转换为语音的语音合成系统一般包括前端系统和后端系统，其中前端系统包括文本正则模块、韵律预测模块和注音模块；后端系统包括声学模型和声码器。其中，现有技术中声学模型一般采用自回归框架模型，如图3所示，自回归框架模型一般包括编码器、解码器和后处理模块，其中编码器包括嵌入层和序列特征提取(CBHG)模块，编码器用于对输入的文本进行特征整合，转化为高位抽象的特征向量。解码器包括注意力模型、双向长短时记忆网络(BidirectionalLongShort-termMemory，BiLSTM)、线性投影网络、双层的前处理网络和停止标记(StopToken)模块，解码器用于对编码器的输出进行解码，使得输出特征的维度靠近标准输出特征。后处理模块用于对解码器输出特征的进一步矫正。

但是自回归框架声学模型语音合成速度较慢，导致合成语音的时间较长，进而导致增加设备功耗，且自回归框架声学模还容易出现重复吐词或漏词的情况。

发明内容

本申请实施例中提供一种模型训练方法、声学模型、语音合成系统和电子设备。

第一方面，本申请实施例提供一种模型训练方法，用于电子设备，所述方法包括：获取第一模型，将输入数据输入所述第一模型进行处理，获取所述输入数据对应的第一模型输出结果；获取所述输入数据对应的预设标准输出结果；基于所述第一模型输出结果和所述预设标准输出结果对所述第一模型进行优化，获取第二模型，所述第二模型包括第一后处理网络；确定所述第一后处理网络中各通道的重要性基于所述各通道的重要性对所述第一后处理网络中的部分通道进行裁剪，以获取第二后处理网络，并且基于所述第二后处理网络获得第三模型；确定所述第三模型满足模型要求，并将所述第三模型作为最终训练模型。

可以理解，后处理网络用于对声学模型中解码器的输出特征进行进一步矫正，因此，将后处理网络中的部分通道裁剪掉不会较大程度影响声学模型的最终输出结果。且本申请实施例中只裁剪后处理网络中重要性较低的通道，能够在减小后处理网络的占用内存的情况下，保证后处理网络的数据处理精度。在后处理网络的占用内存减小的情况下，整体声学模型的占用内存也能有效减小。

在一种可能的实现中，所述确定所述第三模型满足模型要求，包括：将所述输入数据输入所述第三模型进行处理，获取所述输入数据对应的第三模型输出结果；当所述第三模型输出结果和所述预设标准输出结果的相似度大于等于设定值，则确定第三模型满足模型要求。

在一种可能的实现中，所述基于所述第一后处理网络中各通道的重要性对所述第一后处理网络中的部分通道进行裁剪，以获取第二后处理网络，并且基于所述第二后处理网络获得第三模型；包括：获取所述第一后处理网络中各通道的输出特征；获取所述预设标准输出结果中各通道的输出特征；基于所述第一后处理网络各通道的输出特征与所述预设标准输出结果的各通道的输出特征的相似度，确定后处理网络中各通道的重要性特征值；基于所述第一后处理网络中各通道的重要性特征值对所述第一后处理网络中的设定数量的通道进行裁剪，获取所述第二后处理网络；基于所述第二处理网络获得所述第三模型。

在一种可能的实现中，所述基于所述第一后处理网络中各通道的重要性对所述第一后处理网络中的部分通道进行裁剪，以获取第二后处理网络，并且基于所述第二后处理网络获得第三模型；包括：获取所述第一后处理网络中各通道的数据量；基于所述第一后处理网络中各通道的数据量对所述第一后处理网络中的设定数量的通道进行裁剪，获取所述第二后处理网络；基于所述第二处理网络获得所述第三模型。

在一种可能的实现中，在确定所述第三模型不满足模型要求的情况下，基于所述第三模型输出结果和所述预设标准输出结果对所述第三模型进行优化，获取第四模型。

在一种可能的实现中，所述模型为声学模型，所述模型包括变量预测模块，所述变量预测模块包括音高音量预测模块；所述音高音量预测模块包括第一层结构、第二层结构、第三层结构、第四层结构和第五层结构；所述第五层结构包括第一线性层和第二线性层；所述第一层结构、所述第二层结构、所述第三层结构、所述第四层结构和所述第五层结构的第一线性层用于预测音高信息，所述第一层结构、所述第二层结构、所述第三层结构、所述第四层结构和所述第五层结构的第二线性层用于预测音量信息。

可以理解，本申请实施例中，音高音量预测模块采用复合网络机构，前四层共用参数，最后一层保持包括两个线性层，可以有效降低变量预测模块的占用内存，进而降低声学模型的整体内存。

在一种可能的实现中，所述第一层结构包括一维卷积层和Relu算子，所述第二层结构包括线性投影网络和Dropout算子，所述第三层结构包括一维卷积层和Relu算子。

可以理解，本申请实施例中，扩展卷积网络和双向GRU网络的组合结构相对于一些实施例中提供的声学模型采用Transformer算子复杂度较低，占用内存更小，因此，更能有效降低整体声学模型的内存。

在一种可能的实现中，所述声学模型包括特征提取模块，所述特征提取模块包括扩展卷积网络和双向GRU网络。

第二方面，本申请实施例提供一种声学模型，所述声学模型基于本申请提及的训练方法训练获取。本申请实施例中，声学模型采用并行框架模型。如图5所示，并行框架模型包括:编码器、解码器和后处理模块。

第三方面，本申请实施例提供一种语音合成系统，包括本申请提及的声学模型。

第四方面，本申请提供一种电子设备，包括：存储器，用于存储所述电子设备的一个或多个处理器执行的指令，以及所述处理器，是所述电子设备的一个或多个处理器之一，用于执行本申请提及的模型训练方法。

第五方面，本申请提供一种可读存储介质，所述可读介质上存储有指令，所述指令在电子设备上执行时使得所述电子设备执行本申请提及的模型训练方法。

第六方面，本申请提供一种计算机程序产品，包括：执行指令，所述执行指令存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述执行指令，所述至少一个处理器执行所述执行指令使得所述电子设备执行本申请提及的模型训练方法。

附图说明

图1根据本申请的一些实施例，示出了一种语音合成系统的应用场景示意图；

图2根据本申请的一些实施例，示出了一种语音合成系统的示意图；

图3根据本申请的一些实施例，示出了一种自回归框架模型的示意图；

图4根据本申请的一些实施例，示出了一种语音合成系统的工作流程示意图；

图5根据本申请的一些实施例，示出了一种并行框架模型的示意图；

图6根据本申请的一些实施例，示出了一种并行框架模型的示意图；

图7根据本申请的一些实施例，示出了一种电子设备的示意图；

图8根据本申请的一些实施例，示出了一种模型训练方法的示意图；

图9根据本申请的一些实施例，示出了一种电子设备的硬件结构示意图。

具体实施方式

本申请的说明性实施例包括但不限于一种模型训练方法、声学模型、语音合成系统和电子设备。

为更加清楚理解本申请的方案，首先对本申请提及的语音合成系统进行简要介绍。

如前述图2所示，语音合成系统一般用于包括前端系统和后端系统，其中前端系统包括文本正则模块、韵律预测模块和注音模块；后端系统包括声学模型和声码器。

其中，文本正则模块，用于利用正则表达式，将电话、时间、金钱、单位、符号、邮箱、日期、简写文字、数字等转换为标准化文字。

例如，在语音合成中需要将简写的Sep.11th转化为全写的SeptemberEleventh。

再例如，如图4所示，输入文本为“六合区今天4℃-8℃”，则需要将符号“℃”转化为“摄氏度”，将符号“-”转化为“到”，将数字“4”转换为“四”，将数字“8”转换为“八”。即文本正则模块可以将输入文本“六合区今天4℃-8℃”转化为“六合区今天四摄氏度到八摄氏度”。

韵律预测模块：用户使用深度网络预测文本的停顿和重音，其中深度神经网络通过韵律文本数据进行训练。

例如，如图4所示，韵律预测模块可以预测“六合区今天四摄氏度到八摄氏度”文本的停顿和重音，预测结果为“六合区#2今天#1四#1摄氏度#3到#1八#1摄氏度#4”，其中#代表停顿，数字由低到高代表声音由低到高。

注音模块，用于通过深度网络将韵律预测模块输出的文本转化为拼音音素。能够有效避免多音字读错的情况，例如模(mo)型和模(mu)样，“模”字在不同的词语中有不同的音。因此采用韵律预测模块输出的文本转化为拼音能够有效避免多音字读错的情况。

其中深度网络可以通过多音字数据对模型进行训练，深度网络可以采用多音字分词网络和规则网络。

其中，如图4所示，注音模块对“六合区#2今天#1四#1摄氏度#3到#1八#1摄氏度#4”进行注音后输出的结果为“liu4he2qu1#2jin1tian1#1si4#1she4shi4du4#3dao4#1ba1#1she4shi4du4#4”。其中，每个拼音后标注的数字代表声调。

而对比于英文文本，则将英文文本转化为音素。例如，文本为“speech”，则注音模块会将“speech”转化成音素“spiych”。

声学模型：用于将音素转换为音频声学特征，例如转换为梅尔频谱图。其中声学模型可以通过声优录制的音频语料进行训练。且声学模型需要进行中英文混合编码。

声码器:主要作用是基于声学模型生成的声学特征来合成最后声音的波形图，即将音频声学特征转换为音频。其中声码器训练用的语料可以复用声学模型训练用的语料。

如前所述，现有技术中模型一般采用如图3所示的自回归框架模型，但是自回归框架声学模型合成速度较慢，导致合成语音的时间较长，在一定程度上增加设备功耗。且容易出现重复吐词或漏词的情况。

为解决上述问题，本申请一些实施例中，提供一种声学模型，其中声学模型采用并行框架模型。如图5所示，并行框架模型包括:编码器、解码器和后处理模块。

其中编码器包括嵌入层(embedding)和transformer算子，编码器用于对输入的文本进行特征整合，转化为高位抽象的特征。具体的，嵌入层用于将输入的大型稀疏化向量转换为一个保留语义向量的低维空间特征序列。Transformer算子用于对嵌入层输出的特征序列进行特征抽象化，转化为高维度抽象特征。

解码器包括变量预测模块、Transformer算子、序列扩展模块和线性投影网络，解码器用于对编码器输出的高维度抽象特征进行解码，使得输出的高维度抽象特征靠近输出的梅尔频谱图特征。

其中，变量预测模块包括音高(f0)预测模块、音量(energy)预测模块和音素时长(duration)预测模块。其中，音高预测模块用于预测频谱的音高信息；音量预测模块用于预测频谱的音量信息；音素时长预测模块用于预测频谱的音素时长信息，实现文本和频谱之间的强对齐，消除生成语音的跳词和漏词现象。

序列扩展模块(Lengthregulator，LR)，输入为编码器输出的高位抽象特征以及音素的时长信息。序列扩展模块，用于将编码器输出的高位抽象特征按照音素时长值进行上采样，即对编码器输出的特征进行智能化填充，使得输出特征长度与梅尔频谱图长度一致。

其中，音高(f0)预测模块、音量(energy)预测模块和音素时长(duration)预测模块均可以为五层的神经网络结构，第一层包括一维卷积层(conv1d)和Relu算子，第二层包括线性投影网络(LN)和Dropout算子，第三层包括一维卷积层(conv1d)和Relu算子，第四层包括一维卷积层(conv1d)和Relu算子，第五层包括线性层(LinearLayer)。

Transformer算子作为操作算子，用于将序列扩展模块输出的特征转换为高维抽象特征。

线性投影网络，用于对Transformer算子输出的高维特征进行线性转换，并将维度与梅尔频谱图的维度对齐，获取转换后特征。

后处理网络，用于将线性输出特征的进一步矫正，使用残差和卷积操作，对解码器中线性投影网络的输出特征进行修正，输出修正后的音频声学特征，例如梅尔频谱图特征。

可以理解，通过使用全并行的非自回归架构，多个模块数据并行处理，能够有效提高生成速度。其次，在并行框架结构中引入音素时长预测模块，可以用于来预测文本和频谱之间的强对齐，消除生成语音的跳词和漏词现象。

但是，上述并行框架模型声学模型由于复杂度较大，所以占用存储空间较大，因此上述语音合成系统只能用于存储空间较大的电子设备，例如电脑、专业语音合成设备等。无法部署于手机等内存较小的电子设备中。

为解决上述问题，本申请实施例提供一种模型训练方法，可以用于电子设备对声学模型的训练，以获取复杂度较小，占用内存较小的声学模型。方法包括，获取模型输入数据，将输入数据输入初始模型，获取初始模型的输出数据，基于初始模型的输出数据和标准数据对模型参数进行优化更新，获取更新后模型。确定更新后模型中后处理网络中各通道的重要性，裁剪掉后处理网络中重要性较低的设定数量的通道，获取包括裁剪后的声学模型。然后将输入数据输入裁剪后的声学模型，对裁剪后的声学模型迭代进行上述训练及裁剪步骤，直至模型收敛，以获取最终训练完成的模型。其中，模型收敛可以指模型输出数据与标准数据的误差小于预设阈值。

可以理解，上述初始模型可以为初始声学模型，输入数据可以为文本数据，初始模型的输出数据可以为预测的频谱数据，标准数据可以为输入的文本数据对应的标准频谱数据。

可以理解，本申请实施例中，可以采用各通道的重要性特征值表征各通道的重要性，重要性特征值的获取方式可以为将后处理网络每个通道的输出特征与目标输出特征的每个通道的输出特征进行对比，以获取后处理网络中每个通道的重要性特征值。其中重要性特征值可以反映后处理网络每个通道的特征与目标输出特征对应通道的相似度。当重要性特征值越大，则后处理网络对应通道特征与目标输出特征中对应通道特征的对应相似度越大，则该后处理网络的对应通道重要性越高。

在一些实施例中，本申请确定后处理网络中各通道的数据的重要性的方式具体可以为：

将后处理网络中多个卷积层的输出特征进行拼接，获取拼接后的输出特征；其中，拼接后的输出特征对应包括后处理网络中各通道的输出特征。获取声学模型的目标输出特征，将目标输出特征的通道数和拼接后的输出特征的通道数归一化为同一维度。例如，目标输出特征的通道数为80，而拼接后的输出特征的通道数为2560，则可以将目标输出特征的输出通道数归一为2560，以使得目标输出特征为与拼接后的输出特征的通道数相同。

将后处理网络每个通道的输出特征与目标输出特征的每个通道的输出特征进行对比，确定后处理网络中每个通道的重要性特征值。

可以理解，在一些实施例中，上述将目标输出特征和后处理网络输出特征进行特征归一化以及获取后处理网络中每个通道的重要性特征值的步骤可以由电子设备执行，在一些实施例中，可以通过到电子设备中的注意力神经网络(MultiHeadAttentin)执行。

在一些实施例中，本申请可以将按照重要性特征值由高到低对每个通道进行排序，将排序的后设定数量的通道裁剪掉，例如，可以将排序的后20％的通道裁剪掉。在一些实施例中，本申请可以将按照重要性特征值由低到高对每个通道进行排序，将排序的前设定数量的通道裁剪掉，例如，可以将排序的前20％的通道裁剪掉。

在一些实施例中，可以采用各通道数据的数据量的大小表征各通道的重要性，即本申请确定后处理网络中各通道的数据的重要性的方式可以为：确定后处理网络中每个通道的数据量，可以理解，当数据量较大，则可以证明该通道的重要性较高，当数据量较小，则可以证明该通道的重要性较低。因此，本申请可以按照各通道的数据量由高到低对每个通道进行排序，将排序的后设定数量的通道裁剪掉，例如，可以将排序的后20％的通道裁剪掉。

可以理解，本申请实施例中，基于模型输出数据和标准数据对模型参数进行更新，获取更新后模型的方式可以为：

将输出数据与标准数据进行对比，确定损失函数的值，判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，基于损失函数确定模型的误差信号，将误差信息在模型中反向传播，并在传播的过程中更新各个层的模型参数，获取更新后的模型。

下面在详细介绍本申请实施例中的模型训练方法之前，首先对本申请实施例中的声学模型进行介绍。

如图6所示，并行框架模型包括:编码器、解码器和后处理模块。

其中编码器包括嵌入层(embedding)和特征提取模块，编码器用于对输入的文本进行特征整合，转化为高位抽象的特征。具体的，嵌入层用于将输入的大型稀疏化向量转换为一个保留语义向量的低维空间特征序列。Transformer算子用于对嵌入层输出的特征序列进行特征抽象化，转化为高维度抽象特征。

其中特征提取模块采用扩展卷积网络和双向GRU网络的组合结构，其中，扩展卷积网络和双向GRU网络的组合结构相对于Transformer算子复杂度较低，占用内存更小，因此，更能有效降低整体声学模型的内存。

其中，变量预测模块包括音高(f0)音量(energy)预测模块以及音素时长(duration)预测模块。其中，音高音量预测模块用于预测频谱的音高信息和音量信息；音素时长预测模块用于预测频谱的音素时长信息，实现文本和频谱之间的强对齐，消除生成语音的跳词和漏词现象。

在一些实施例中，音高音量预测模块和音素时长(duration)预测模块均可以为五层的神经网络结构，其中，音素时长预测模块的第一层包括一维卷积层(conv1d)和Relu算子，第二层包括线性投影网络(LN)和Dropout算子，第三层包括一维卷积层(conv1d)和Relu算子，第四层包括一维卷积层(conv1d)和Relu算子，第五层包括线性层(Linear Layer)。

在一些实施例中，音高音量预测模块的第一层包括一维卷积层(conv1d)和Relu算子，第二层包括线性投影网络(LN)和Dropout算子，第三层包括一维卷积层(conv1d)和Relu算子，第四层包括一维卷积层(conv1d)和Relu算子，第五层包括两个线性层(LinearLayer)，其中一个线性层用于输出音高特征，另一个线性层用于输出音量特征。

可以理解，相对于图5所示的声学模型，图6中所示的声学模型的音高预测模块和音量预测模块替换为音高音量预测模块，即音高预测模块和音量预测模块采用复合网络机构，前四层共用参数，最后一层保持包括两个线性层，可以有效降低变量预测模块的占用内存，进而降低声学模型的整体内存。

后处理网络，用于对线性投影网络输出特征的进一步矫正，具体的，使用残差和卷积操作，对解码器中线性投影网络的输出特征进行修正，输出修正后的音频声学特征，例如梅尔频谱图特征。

下面对执行本申请实施例中的上述声学模型训练方法的电子设备进行介绍。可以理解，本申请实施例提及的执行声学模型训练方法的电子设备可以为服务器、计算机等任意电子设备。

现在参考图7，图7所示为根据本申请的一个实施例的系统1400的框图。图7示意性地示出了根据多个实施例的示例系统1400。在一个实施例中，系统1400可以包括一个或多个处理器1404，与处理器1404中的至少一个连接的系统控制逻辑1408，与系统控制逻辑1408连接的系统内存1412，与系统控制逻辑1408连接的非易失性存储器(NVM)1416，以及与系统控制逻辑1408连接的网络接口1420。

在一些实施例中，处理器1404可以包括一个或多个单核或多核处理器。在一些实施例中，处理器1404可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。在系统1400采用eNB(EvolvedNodeB，增强型基站)或RAN(RadioAccessNetwork，无线接入网)控制器的实施例中，处理器1404可以被配置为执行本申请实施例提供的模型训练方法。

在一些实施例中，系统控制逻辑1408可以包括任意合适的接口控制器，以向处理器1404中的至少一个和/或与系统控制逻辑1408通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑1408可以包括一个或多个存储器控制器，以提供连接到系统内存1412的接口。系统内存1412可以用于加载以及存储数据和/或指令。在一些实施例中系统1400的系统内存1412可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。

NVM/存储器1416可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器1416可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(HardDiskDrive，硬盘驱动器)，CD(CompactDisc，光盘)驱动器，DVD(DigitalVersatileDisc，数字通用光盘)驱动器中的至少一个。

NVM/存储器1416可以包括安装系统1400的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口1420通过网络访问NVM/存储1416。

特别地，系统内存1412和NVM/存储器1416可以分别包括：指令1424的暂时副本和永久副本。指令1424可以包括：由处理器1404中的至少一个执行时导致系统1400实施本申请实施例提供的模型训练方法的指令。在一些实施例中，指令1424、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑1408，网络接口1420和/或处理器1404中。

网络接口1420可以包括收发器，用于为系统1400提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口1420可以集成于系统1400的其他组件。例如，网络接口1420可以集成于处理器1404的，系统内存1412，NVM/存储器1416，和具有指令的固件设备(未示出)中的至少一种，当处理器1404中的至少一个执行所述指令时，系统1400实现如本申请实施例提供的模型训练方法。

网络接口1420可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口1420可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器1404中的至少一个可以与用于系统控制逻辑1408的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一个实施例中，处理器1404中的至少一个可以与用于系统控制逻辑1408的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

系统1400可以进一步包括：输入/输出(I/O)设备1432。I/O设备1432可以包括用户界面，使得用户能够与系统1400进行交互；外围组件接口的设计使得外围组件也能够与系统1400交互。在一些实施例中，系统1400还包括传感器，用于确定与系统1400相关的环境条件和位置信息的至少一种。

在一些实施例中，用户界面可包括但不限于显示器(例如，液晶显示器，触摸屏显示器等)，扬声器，麦克风，一个或多个相机(例如，静止图像照相机和/或摄像机)，手电筒(例如，发光二极管闪光灯)和键盘。

在一些实施例中，外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。

在一些实施例中，传感器可包括但不限于陀螺仪传感器，加速度计，近程传感器，环境光线传感器和定位单元。定位单元还可以是网络接口1420的一部分或与网络接口1420交互，以与定位网络的组件(例如，全球定位系统(GPS)卫星)进行通信。

下面结合上述电子设备对本申请实施例中提及的模型训练方法进行说明，图8示出了本申请实施例中一种模型训练方法的示意图，图8中所示的模型训练方法可以由电子设备执行。如图8所示，模型训练方法包括：

801：将输入数据输入初始模型，获取初始模型的输出数据。

可以理解，上述初始模型可以为初始声学模型，输入数据可以为文本数据。可以理解，本申请实施例中，模型训练中可以包括任意数量的输入样本，即输入文本数据。

802：基于初始模型的输出数据和标准数据对模型参数进行优化更新，获取更新后模型。

可以理解，初始模型的输出数据可以为预测的频谱数据，标准数据可以为输入的文本数据对应的标准频谱数据。

803：基于模型中后处理网络中各通道的重要性裁剪掉后处理网络中的设定数量的通道，获取裁剪后的模型。

在一些实施例中，本申请确定后处理网络中各通道的数据的重要性的方式可以为：

将后处理网络中多个卷积层的输出特征进行拼接，获取拼接后的输出特征；其中，拼接后的输出特征对应包括后处理网络中各通道的输出特征。确定声学模型的目标输出特征，将目标输出特征的通道数和拼接后的输出特征的通道数归一化为同一维度。例如，目标输出特征的通道数为80，而拼接后的输出特征的通道数为2560，则可以将目标输出特征的输出通道数归一为2560，以使得目标输出特征为与拼接后的输出特征的通道数相同。将后处理网络每个通道的输出特征与目标输出特征的每个通道的输出特征进行对比，确定后处理网络中每个通道的重要性特征值。可以理解，重要性特征值可以反映后处理网络每个通道的特征与目标输出特征对应通道的相似度。当重要性特征值越大，则后处理网络对应通道特征与目标输出特征中对应通道特征的对应相似度越大，则该后处理网络的对应通道重要性越高。

即本申请实施例中可以采用重要性特征值来表征重要性。

在一些实施例中，本申请确定后处理网络中各通道的数据的重要性的方式可以为确定后处理网络中每个通道的数据量，可以理解，当数据量较大，则可以证明该通道的重要性较高，当数据量较小，则可以证明该通道的重要性较低。因此，本申请可以按照各通道的数据量由高到低对每个通道进行排序，将排序的后设定数量的通道裁剪掉，例如，可以将排序的后20％的通道裁剪掉。

可以理解，本申请实施例中，可以根据实际需求设定需要裁剪掉的设定通道的设定数量。例如，可以预设设定数量为后处理网络的全部通道的20％。

805:将输入数据输入裁剪后的声学模型，以进行模型训练。

可以理解，本申请实施例中，可以对裁剪后的声学模型迭代进行上述训练及裁剪步骤，直至模型收敛，以获取最终训练完成的模型。

例如，本申请实施例中，在获取裁剪后的声学模型后，可以将输入数据输入裁剪后的声学模型，获取裁剪后的声学模型初始模型的输出数据，基于裁剪后的声学模型的输出数据和标准数据确定模型是否收敛，若模型收敛，则将该初始模型作为最终训练模型，若模型不收敛，则对模型参数进行优化更新，获取二次更新后模型。确定二次更新后模型中后处理网络中各通道的重要性，裁剪掉后处理网络中重要性较低的设定数量的通道，获取包括二次裁剪后的声学模型。基于二次裁剪后的模型进行迭代训练。

在一些实施例中，本申请还可以提供一种模型训练方法，包括获取模型输入数据，将输入数据输入初始模型，获取初始模型的输出数据，基于初始模型的输出数据和标准数据对模型参数进行优化更新，获取更新后模型，对更新后模型进行迭代训练，直至模型收敛，获取最终训练模型。确定最终训练模型中后处理网络中各通道的重要性，裁剪掉后处理网络中重要性较低的设定数量的通道，获取包括裁剪后的声学模型。将裁剪后的声学模型部署于端侧电子设备中。

可以理解，本申请实施例中，还提供一种电子设备，可以对上述声学模型进行量化，即将声学模型从float32格式量化为int8格式。并将量化后的声学模型发送至另一电子设备，例如端侧电子设备手机进行存储。

可以理解，本申请实施例提供的电子设备包括但不限于智能门锁、车载装置、个人计算机、人工智能设备、平板、电脑、个人数字助理、智能穿戴式设备(例如智能手表或手环、智能眼镜)、智能语音设备(例如智能音箱等)、以及网络接入设备(例如网关)、服务器等。

可以理解，将模型的物理存储形式从float32格式量化到int8格式，物理存储就会降低到原始模型的1/4，能够有效减小声学模型在电子设备中的占用内存。

本申请实施例还提供一种模型运行方法，用于电子设备，电子设备可以为端侧电子设备，方法包括，在模型运行时候，将模型中int8格式的参数反量化到float16格式，以进行模型运行。可以理解，当采用float16格式的模型参数进行模型推理，相对于采用float32格式的模型参数进行模型推理，可以使得声学模型占用的运行内存可以减小一半。

本申请实施例提供一种语音合成系统，包括基于本申请实施例中声学模型训练方法获取的声学模型。

本申请实施例提供一种电子设备，包括语音合成系统。

下面以手机为例，对本申请实施例提供的端侧电子设备的结构进行说明。

如图9所示，手机10可以包括处理器110、电源模块140、存储器180，移动通信模块130、无线通信模块120、传感器模块190、音频模块150、摄像头170、接口模块160、按键101以及显示屏102等。

可以理解的是，本发明实施例示意的结构并不构成对手机10的具体限定。在本申请另一些实施例中，手机10可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如，可以包括中央处理器(CentralProcessingUnit，CPU)、图像处理器(GraphicsProcessingUnit，GPU)、数字信号处理器DSP、微处理器(Micro-programmedControlUnit，MCU)、人工智能(Artificial Intelligence，AI)处理器或可编程逻辑器件(FieldProgrammableGateArray，FPGA)等的处理模块或处理电路。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110中可以设置存储单元，用于存储指令和数据。在一些实施例中，处理器110中的存储单元为高速缓冲存储器180。

可以理解，本申请实施例中，处理器可以包括上述语音合成系统。

电源模块140可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中，电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入；电源管理模块用于连接电源，充电管理模块与处理器110。电源管理模块接收电源和/或充电管理模块的输入，为处理器110，显示屏102，摄像头170，及无线通信模块120等供电。

移动通信模块130可以包括但不限于天线、功率放大器、滤波器、LNA(Lownoiseamplify，低噪声放大器)等。移动通信模块130可以提供应用在手机10上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块130可以由天线接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块130还可以对经调制解调处理器调制后的信号放大，经天线转为电磁波辐射出去。在一些实施例中，移动通信模块130的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块130至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。无线通信技术可以包括全球移动通讯系统(globalsystemformobile communications，GSM)，通用分组无线服务(generalpacketradioservice，GPRS)，码分多址接入(codedivisionmultipleaccess，CDMA)，宽带码分多址(widebandcodedivisionmultipleaccess，WCDMA)，时分码分多址(time-divisioncodedivisionmultipleaccess，TD-SCDMA)，长期演进(longtermevolution，LTE)，蓝牙(bluetooth，BT)，全球导航卫星系统(globalnavigationsatellitesystem，GNSS)，无线局域网(wirelesslocalareanetworks，WLAN)，近距离无线通信技术(nearfield communication，NFC)，调频(frequencymodulation，FM)和/或fieldcommunication，NFC)，红外技术(infrared，IR)技术等。所述GNSS可以包括全球卫星定位系统(globalpositioningsystem，GPS)，全球导航卫星系统(globalnavigationsatellitesystem，GLONASS)，北斗卫星导航系统(beidounavigationsatellitesystem，BDS)，准天顶卫星系统(quasi-zenithsatellitesystem，QZSS)和/或星基增强系统(satellitebasedaugmentationsystems，SBAS)。

无线通信模块120可以包括天线，并经由天线实现对电磁波的收发。无线通信模块120可以提供应用在手机10上的包括无线局域网(wirelesslocalareanetworks，WLAN)(如无线保真(wirelessfidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(globalnavigationsatellitesystem，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(nearfieldcommunication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。手机10可以通过无线通信技术与网络以及其他设备进行通信。

在一些实施例中，手机10的移动通信模块130和无线通信模块120也可以位于同一模块中。

显示屏102用于显示人机交互界面、图像、视频等。显示屏102包括显示面板。显示面板可以采用液晶显示屏(liquidcrystaldisplay，LCD)，有机发光二极管(organiclight-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganiclightemittingdiode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantumdotlightemittingdiodes，QLED)等。

传感器模块190可以包括接近光传感器、压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

音频模块150用于将数字音频信息转换成模拟音频信号输出，或者将模拟音频输入转换为数字音频信号。音频模块150还可以用于对音频信号编码和解码。在一些实施例中，音频模块150可以设置于处理器110中，或将音频模块150的部分功能模块设置于处理器110中。在一些实施例中，音频模块150可以包括扬声器、听筒、麦克风以及耳机接口。

摄像头170用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给ISP(ImageSignalProcessing，图像信号处理)转换成数字图像信号。手机10可以通过ISP，摄像头170，视频编解码器，GPU(GraphicProcessingUnit，图形处理器)，显示屏102以及应用处理器等实现拍摄功能。

接口模块160包括外部存储器接口、通用串行总线(universalserialbus，USB)接口及用户标识模块(subscriberidentificationmodule，SIM)卡接口等。其中外部存储器接口可以用于连接外部存储卡，例如MicroSD卡，实现扩展手机10的存储能力。外部存储卡通过外部存储器接口与处理器110通信，实现数据存储功能。通用串行总线接口用于手机10和其他电子设备进行通信。用户标识模块卡接口用于与安装至手机1010的SIM卡进行通信，例如读取SIM卡中存储的电话号码，或将电话号码写入SIM卡中。

在一些实施例中，手机10还包括按键101、马达以及指示器等。其中，按键101可以包括音量键、开/关机键等。马达用于使手机10产生振动效果，例如在用户的手机10被呼叫的时候产生振动，以提示用户接听手机10来电。指示器可以包括激光指示器、射频指示器、LED指示器等。

本申请公开的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的范围。

Claims

1.一种模型训练方法，用于电子设备，其特征在于，所述方法包括：

获取第一模型，将输入数据输入所述第一模型进行处理，获取所述输入数据对应的第一模型输出结果；

获取所述输入数据对应的预设标准输出结果；

基于所述第一模型输出结果和所述预设标准输出结果对所述第一模型进行优化，获取第二模型，所述第二模型包括第一后处理网络；

确定所述第一后处理网络中各通道的重要性；

基于所述第一后处理网络中各通道的重要性对所述第一后处理网络中的部分通道进行裁剪，以获取第二后处理网络，并且基于所述第二后处理网络获得第三模型；

确定所述第三模型满足模型要求，并将所述第三模型作为最终训练模型；

其中，所述基于所述第一后处理网络中各通道的重要性对所述第一后处理网络中的部分通道进行裁剪，以获取第二后处理网络，包括：

获取所述第一后处理网络中各通道的输出特征；

获取所述预设标准输出结果中各通道的输出特征；

基于所述第一后处理网络各通道的输出特征与所述预设标准输出结果的各通道的输出特征的相似度，确定后处理网络中各通道的重要性特征值；

基于所述第一后处理网络中各通道的重要性特征值对所述第一后处理网络中的设定数量的通道进行裁剪，获取所述第二后处理网络。

2.根据权利要求1所述的方法，其特征在于，所述确定所述第三模型满足模型要求，包括：

将所述输入数据输入所述第三模型进行处理，获取所述输入数据对应的第三模型输出结果；

当所述第三模型输出结果和所述预设标准输出结果的相似度大于等于设定值，则确定所述第三模型满足模型要求。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一后处理网络中各通道的重要性对所述第一后处理网络中的部分通道进行裁剪，以获取第二后处理网络，并且基于所述第二后处理网络获得第三模型；包括：

获取所述第一后处理网络中各通道的数据量；

基于所述第一后处理网络中各通道的数据量对所述第一后处理网络中的设定数量的通道进行裁剪，获取所述第二后处理网络；

基于所述第二后处理网络获得所述第三模型。

4.根据权利要求2所述的方法，其特征在于，在确定所述第三模型不满足模型要求的情况下，基于所述第三模型输出结果和所述预设标准输出结果对所述第三模型进行优化，以获取第四模型。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述模型为声学模型，所述模型包括变量预测模块，所述变量预测模块包括音高音量预测模块；

所述音高音量预测模块包括第一层结构、第二层结构、第三层结构、第四层结构和第五层结构；

所述第五层结构包括第一线性层和第二线性层；

所述第一线性层用于输出音高特征，所述第二线性层用于输出音量特征。

6.根据权利要求5所述的方法，其特征在于，所述第一层结构包括一维卷积层和Relu算子，所述第二层结构包括线性投影网络和Dropout算子，所述第三层结构包括一维卷积层和Relu算子。

7.根据权利要求6所述的方法，其特征在于，所述声学模型包括特征提取模块，所述特征提取模块包括扩展卷积网络和双向GRU网络。

8.一种声学模型，其特征在于，所述声学模型基于所述权利要求1-7任一项的模型训练方法训练获取。

9.一种语音合成系统，其特征在于，包括权利要求8所述的声学模型。

10.一种电子设备，其特征在于，包括：存储器，用于存储所述电子设备的一个或多个处理器执行的指令，以及所述处理器，是所述电子设备的一个或多个处理器之一，用于执行权利要求1-7任一项所述的模型训练方法。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储有指令，所述指令在电子设备上执行时使得所述电子设备执行权利要求1-7任一项所述的模型训练方法。

12.一种介质，其特征在于，包括：执行指令，所述执行指令存储在可读存储介质中，电子设备的至少一个处理器从所述可读存储介质读取所述执行指令，所述至少一个处理器执行所述执行指令使得所述电子设备执行权利要求1-7任一项所述的模型训练方法。